知乎CTO李申申:社区产品的数据挖掘

中云网消息  8月29日-30日,以“数据重构未来”为主题的D-Future七牛数据时代峰会在上海举行。七牛携百名创业明星,技术大咖汇聚国际时尚中心,共话数据发展,探讨行业未来!

李申申 - 知乎 CTO

知乎CTO李申申带来“社区产品的数据挖掘”主题演讲,以下是演讲实录:

李申申:大家好,我是知乎的李申申,不要看日程表上,那个日程表可能跟实际不一样。

刚刚主持人说有一段时间大家讨论知乎上的内容,从我们看到的情况来说,大家讨论的趋势越来越热烈了。前面各位老师就行业趋势产业大势说了一些东西,今天我的分享和演讲,可能会说一些跟知乎具体有关的一些信息。首先我想跟主办方七牛说一下谢邀,感谢他们提供这么一个专业的平台。果然在座的知乎用户很多。

感谢他们提供这样一个平台,讨论这样一个有趣的话题。但是其实刚刚接到邀请的时候,到我脑海里面的第一反映是这句话,所以想跟大家说的是,我们知乎也在做一些跟大数据有关的事情。说这个话的人其实是怪诞行为学的作者,他本身是行为经济学的教授。我为什么想到这句话呢?其实整体对于大数据的感觉是我们现在确实是处在比较早期的阶段,知乎在这方面应该是处在刚刚起步的阶段,今天借这个平台跟大家学习。说到大数据,这个话题很热,于是我在知乎上看了一下整个讨论的热度和趋势,绿色的线,就是讨论大数据的整体,在知乎上的趋势。然后我又拿了另外一个很热的词,O2O,相对比较平的线是讨论O2O的趋势。我又在谷歌上看了一下讨论这两个方面的趋势。我们发现11年初的时候,整个大数据关注热度也在持续的升温,对于O2O和共享经济相关的关注,反而远远不如大数据的。于是我比较好奇,我又看了另外一个大量人群的用户,百度,我发现百度很有个性,它跟知乎跟谷歌都不太一样,他们的用户关注O2O的更多一些,关注大数据的会少一些。我不知道是不是今天百度的用户是不是比谷歌的用户更少一些。

好的,下面开始跟知乎有关的一些话题,首先我会介绍一下知乎的一些基本面的数据,从10年到现在已经有两千九百万的用户。这些用户创造了接近620万的问题,同时还创建了接近两千万的答案,每个月差不多有1.1亿的人群使用知乎。每个月我们页面访问量达到三个亿,所有的答案汇总起来总量达到了41亿,这就相当于一百部大不列颠百科全书,如果这个还没有概念,鹿鼎记都看过吧?差不多相当于2600部鹿鼎记的字数,就是在四五年前创建的规模吧。

在知乎上,我们下面看的两个数据,应该说也是代表了,刚才我所说的,大家的讨论其实是越来越热烈的趋势。我们来看两个,一个是千字以上的答案,另外一个是得到一千个赞同的答案。这里要说明的是,我们并不是以这两个指标来衡量作为高质量的一个标准。但是确实如果用户他可以写千字的用户,说明他的态度是认真的。这也符合知乎的理念。另外他如果能在知乎上得到一千个赞同,说明回答质量是比较高的。整体趋势一直在上涨。总监可能会有小幅的波动,那个主要是因为,可能在二月份过年的时候,应该是互联网集体的静默期,这是得到一千个赞同回答的整体的增势。

在知乎上面其实我们讨论的话题是多种多样的,每个人脑海里面,其实都有着非常有价值的信息。知乎想做的事情是想让每个人脑海里面有的专业知识、生活经验、人生见解都写出来,这样可以发挥更大的价值。在知乎上既可以听到前一段时间天津爆炸的时候,有一位工程师就回答了一个问题,当时爆炸的时候,他当时正在附近,他当时就想要把他刚刚修复的bug保存起来。然后你可以跟北美的人讨论一些比较有趣的话题,就是在新鲜的伤口上撒一些嫩肉粉会有什么后果,当然也可以讨论各种各样的问题,目前在知乎上讨论的话题已经达到了十万。我们以一些知乎上的话题来说明一个情况,我们看到这里面列出了心理学的话题,互联网话题以及经济学话题,在知乎上讨论比较常见的话题,我们也可以看得出来讨论的热度,一直是比较均衡,微微上扬。这时候突然出现一个热点事件,会突然抓住更多人的眼球,但是并没有影响其他话题领域的讨论,并且它会带动一些相关话题,比如天津爆炸,会跟后续的讨论,会有一些跟心理学有关的讨论,所以我们会看到心理学的讨论也微微的被带起来了。知乎现在就像一个广场,广场中心有个喷泉,这个喷泉是大家关心的时事热点内容,广场周边有咖啡馆、茶馆,不同的用户可以在不同的茶馆、咖啡馆里面讨论他们喜欢的话题。

我之前经常被问到的一个问题,就是后加入的知乎用户,是不是相对早期的用户,他们在知乎上更难以存活?他们更不容易获得别人的赞同和认同?我这里有一组数据来说明这个问题。我们取了在知乎上获得赞同前一万的用户,他们的散点用户图,总体是比较均匀的,这个不是很清楚,我们来看一个清楚的,总体是非常均匀的,所以后加入的用户,同样可以产生,你可以获得给更多的赞同。这个图是指刚才的那群用户,他们每天获得的赞同数的情况。我们可以看到整体也是比较均匀的,所以你在知乎得到的赞同得到关注,没有别的办法,只有一个,在你擅长的领域,认真的讨论,贡献你的答案。

在知乎,认真你就会赢。知乎上面其实是内容的流动,其实是靠着很多的社交行为带动的。我这里举了一个例子,说明知乎流动的机制。我举的例子是天津爆炸的时候,这上面有一些问题产生之后,会有用户关注它,关注的行为会进一步的扩散和传播这里面的问题。后面会有一些亲历者,比如我刚刚说到的这位工程师会去回答,以及有人邀请,还会关注,等等一系列的行为,会把它的传播范围不断的扩大,另外的用户对应的内容会进行感谢、投票、评论,他们还会相互讨论,整个讨论的氛围就形成了,这个是在优质内容和社交行为之间不断的滚动。越关越大。

这个就是知乎内容流动的机制,如果没有这些社交行为,那知乎的内容流动起来其实是非常受限的。

下面我给大家介绍的是,我们基于知乎已有的数据,已经做了哪一些基础的动作。我希望借用这样一个平台,与大家有一个更深入的探讨。在知乎上,其实刚刚说到了,有大量的用户行为,还不止有这些行为,还有一些文本信息,这些里面其实也有分轻重,轻的每个人的阅读,应该是大家最常见的行为,相对重一点的是赞同,因为你赞同一个答案的时候,会或多或少想一下。还有更重的,回答。这些不同的行为,会耗费用户不同的时间,他对这个事情的关注度。除此之外,知乎上还有大量的文本信息。这么多的信息,其实对于用户的兴趣点,以及它擅长的领域,我们的挖掘应该是更准确的。下面我就以知乎的CEO周源同志的数据跟大家具体讲讲,我们挖掘出哪一些信息。

这个是周源过去半年主要的感兴趣的话题领域。我们一眼看过去,有很多跟金融、股市相关的话题。我觉得这个可以理解。作为CEO,一定要了解市场的大势,现在外面发生着一些什么,给知乎带来哪一些影响。这里面也看到有一本书,创业维艰,这个我也知道,基本上跟周源吃饭,都会提到这本书里面的某一些细节。这个有机蔬菜是什么呢?其实我后来专门问过他,他说他记不太清了,其实我大概知道,他有一段时间跟我大概提起了,从上面化疗那个词开始,大家不要误会,就是开复中间有一段时间出了一个短片,所以周源对这个感兴趣,我估计有机蔬菜跟这个有关系。

我们再看一下前半年关注的一些事情,稍微有一些不一样,因为前半年的时候,我们有在硅谷办过招聘宣讲会,所以我们可以看到周源在办宣讲会的时候,可以看到他对于斯坦福大学等比较感兴趣。一年半前他觉得Kindle是没有用的东西,他说用ipad看数多好,还可以看彩色的图。半年前他已经买了Kindle了,现在每天带着香客,不带ipad了。

接下来我们来看一下他擅长的领域的挖掘。我觉得总体是对于他背景的认知是准确的,不过中间有一个,我一直跟我们的工程师说,我说你们是不是算错了?就是育儿,因为明明很多育儿的知识都是我对周源说的。我们基于这些数据,其实能够对于用户的擅长的与有更准确的认知,知乎有一个基础数据非常重要的,我们计算了每位用户在不同的话题下专业权重,后面会讲到这个是知乎非常重要的一个数据,在现实生活当中,我们也可以想到,没有全才,一定有你擅长的,一定有你不擅长的。我们来看一下周源在这一些权重里面的分布。好在育儿还是排在最后的。这个权重其实是,我们为每个用户都有计算,而且计算的量是非常大的,知乎现在有三千万的用户,我们会对每个用户不同的话题都在计算,我们现在有十万个话题。而且大家可以算一下,这个量是千万亿级的量。这个数据我们以周为单位,会更新一次。

我另外经常被问到的,知乎的答案排序,有什么不一样。因为我们后面的答案排序让有一些人看不懂,答案排序,知乎非常关键的一个点。早期的知乎答案排序非常简单,就是赞同减去反对,这个是最早期的知乎,当时其实遇到了一些问题,就是友情票太多了,会让不专业的一些内容上去。然后我们做了一些调整。基于专业权重,对于每个赞同会有一些加权计算。这样会有一些比较早的高票的回答,后面的有质量的内容不容易得到曝光,就会一直被压在下面。另外一些煽动性的回答,也会吸引一些眼球,对于它的反对票如果不够多的话,它一样可以在比较高的位置。这两个问题,我们继续做了一些优化和改进。我们基于威尔逊智性空间,自己做了一些调整。这个算法最大的优势在哪里呢?我们对于每个答案分析都有一些预测,得到真实的分数,真实的分数会让答案在更准确的位置。做知乎的改进,我们做的不同的改进,能得到不同的用户的反馈。我们新方法上线之后,得到了用户的不同的反馈,帮助我们后续优化。

知乎的用户增加,对应的我们被关注的度也会增加。知乎内部有个强大的系统,叫空,悟空,它会产生垃圾信息。截止到目前,它已经处理了1.3亿次垃圾请求。截止到去年才清理了1亿。

知乎首页是非常重要的功能。知乎首页这一块,我们投入了相应的资源进行算法的优化。这里我们针对不同的用户做了非常构型化的推荐。所以没有两个用户是一模一样的。这里面我们考虑了三个因素,第一个每个条目与用户的关联度,第二个用户的行为跟看到的关联度,还有时间是一个非常重要的因素,事件是衰减的趋势。

其他应用的领域有邀请回答。邀请回答,我们希望给每个问题都找到一个合适的回答者,目前知乎上的邀请回答,90%都是来自于我们的算法推荐。剩下的10%是用户自己的搜索,还有大家能搜到的每周精选,我们这个也做了个性化。这个个性化,目前邮件我们打开率已经达到了30%,点击率是14%,这个是相对于所有的edm的邮件来说是很高的。另外是相关问题,相关问题我这里特别要讲一下,之前我们用的相关问题做法是直觉上基于文本的一些分析,后来我们发现这个是有限的,随着知乎用户量不断的增大,我们换了一个思路,我们不考虑文本本身的问题,我们用协同,看用户相似的行为,效果非常好。通过这件事,其实能看得出来,大数据基础上简单的算法,其实比小数据基础上的一些复杂的算法会更有效。

最后给大家分享一个其他维度的数据,就是知乎团队的数据,目前知乎团队的男女比例是2比1,总重一万一千公斤,总体来说还是一个比较年轻的团队,平均年龄接近27岁,还有一表就是男生拥有清晰腹肌的比例接近20%,最后,知乎在做一些有趣的事情,不管你对于我们的回答感兴趣,还是对于我们有腹肌的团队感兴趣,都欢迎联系我们,谢谢大家。