揭秘LinkedIn数据科学家如何工作

摘要:在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队。下面看一下LinkedIn的首席数据科学家Manu Sharma对LinkedIn的看法。

作为社交网络, LinkedIn并不是最大的,也不是生长最快的。 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户。 然而, 作为全球最大的职业社交网络,LinkedIn的后劲十足。今天, LinkedIn每6天就新增100万用户。 平均每秒有两个新增用户。 每年, LinkedIn的用户搜索量达到了42亿。 LinkedIn的数据分析团队每天要分析200TB的数据来更好地了解用户。

为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma接受了采访, 揭秘了LinkedIn的数据分析的工作。以下为采访内容:

问: 能介绍一下LinkedIn的数据科学吗?

答: LinkedIn就是用户的职业社交网络, 在这个网络上, 如果人们想找你却找不到那么你就可能失去一个机会。 因此, 对用户来说,保持状态和资料的时时更新非常重要。 LinkedIn的业务, 就是建立在对这些数据进行分析的基础上的。 为了达到对数据实时快速处理的目的,我们开发了自己独特的算法, 叫Metropolis。它可以每天实时处理10亿条数据。 具备开源的解决方案 Voldemort, Kafka,和 Zoie 那样的功能。

数据科学家需要具备好奇心和直觉。 他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。 数据科学家的工作包括, 采集数据, 整理数据, 建立正确的模型, 测试模型, 还要有一定的编程能力。 一个数据科学家需要具备这些技能, 而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。

问: LinkedIn数据应用的重点是那几个方面?

答:LinkedIn的数据应用主要在三个方面:

1. 开发创新的数据产品

2. 从内部数据发现趋势和机会

3. 推动业务成长

比如”推理算法”被用来根据用户的数据进行一些信息的推测。 这一点对于将来的产品设计尤其重要。比如说, LinkedIn就采用了“推理算法”推出了“你可能知道的人”这个功能。 这对增加用户粘性和提高用户口碑传播有极大的帮助。 LinkedIn是最早推出这一功能的。 现在, 这个功能已经成为了社交网络的必备功能了。

此外, 通过用户在资料里关于技能的描述文本,我们通过文本提取和文本分析, 建立起一套技能的关键子字典。 通过聚类算法, 可以产生很多很有意思的发现来帮助我们提高服务或者推出产品。

此外, 通过对各个行业的用户数据分析,还可以对行业或者整个经济进行一些预测。( 比如:某个行业进行了裁员, 或者某些行业的招聘计划增加等等) 这样做的一个优点是, 这些数据不是来自与问卷调查,这些是用户实实在在的行为数据。 所以,在美国总统经济政策报告里, 这些数据也会被采用。 这些数据同样的对企业的发展也很重要。

问:数据分析最佳实践的原则是什么?

答:

1. 数据量越大越好

2. 原始数据比加工数据好

3. 数据标准和数据质量非常重要

4. 简单模型比复杂模型要好

5. 建模就是要不断进行试错。