LinkedIn的分析哲学得以贯彻实施,IT的力量当然功不可没。张溪梦表示,科技是LinkedIn拓展分析规模的基石。在LinkedIn,Hadoop、Aster Data和Teradata是商业分析部赖以运作的三大平台。
LinkedIn与Teradata的合作,其实是从Aster Data开始,后者现在已被Teradata收购。张溪梦介绍,在LinkedIn的基于社交网络的分析模型中,基于传统的关系型数据库进行分析,多级关系网络的计算,一次就需要好几天甚至一个星期才能完成,后来采用了Aster Data,分析效率获得极大的提升,目前的分析时间已经缩短至几个小时。
在尽管LinkedIn在开源技术上花费了很多精力,并自主研发出了多种开源技术,但在数据分析层面,张溪梦更钟情于采用稳定的商业软件。他表示,开源技术更新快、功能多,也意味着不稳定;闭源反应慢,但同时也是稳定的代名词。
张溪梦说,LinkedIn不是一家数据库公司,采用现有的成熟的技术更有利于公司的商业推进速度,而Teradata是最成熟的企业数据仓库供应商,其解决方案的优越性已经得到市场的验证。相比之下,采用Hadoop平台的LinkedIn,还需要在中间增加了一个安全层,以保护会员的隐私和利益。
张溪梦的理由,可以概括为专业,权威。事实上,更深层次的是二者对专业的理解不谋而合。张溪梦希望把大数据做小做快,Teradata大中华区总裁辛儿伦恰恰不断地强调无须贪多,而是要学会舍弃数据,只分析有用的数据。Teradata的数据分析方法是I(整合)、D(探索)、A(行动)。Aster Data就是Teradata的数据探索平台,其设计的理念,就是要让不同层次需求的人都能进行各种分析,轻松探索大数据的价值,提供了SQL、MapReduce、统计、图形、路径、时间和地理查询等工具,正适合LinkedIn的需求。Teradata平台则主要用于支持BI。
忠告“准数据科学家”
在这个被称为“大数据时代”的时代,一个叫做数据科学家(Data Scientist)的新职业被认为即将抢手,包括EMC、微软、Teradata等公司都在谈数据科学家,认为是大数据时代的数据分析的必然需要,甚至有评论称,数据科学家是二十一世纪“最性感”的职业。
而在LinkedIn的模式中,数据科学家的精准判断尤为重要确认哪些是最有价值的数据,不是单靠软件平台就可以实现的。张溪梦表示,最好的分析师要比PM更了解产品,要比Marketing更了解市场,要深刻理解软硬件之间的关系……
毫不夸张地说,成为LinkedIn的分析师也是一种挑战。所以,张溪梦的“兵在乎精,不在乎多”的另一种含义,也是分析团队的“精”。
那么,要如何应对未来的挑战进入这个“性感”的职业?张溪梦的忠告是,不要因为Data Scientist是当前的热门职业而选择这个行当,你的长远目标更重要。他最强调的一点就是兴趣,认为兴趣会驱动你找到变得专业的方法。
翻开张溪梦的履历,我们会发现一件有趣的事情:他曾经是一名神经外科医生。“我是一名称职的医生,但我更享受数字,更享受逻辑。”张溪梦说。
作者:雷霆