王煜全:大数据必须和社交网络结合才有价值

12月12日,2012云世界大会隆重开幕。在晚上的“云夜话”现场,Frost & Sullivan中国区总裁、海银资本创始合伙人王煜全以“未来移动互联网展望”为主题与会参加分享了自身的观点。

以下为现场演讲实录:

数据是认识世界的基础

我们认识世界,我觉得作为一个理性的人,不是刚才那个文科生,我们理科生认识世界都是要通过很多数据积累的,我们不敢胡说八道,我们不敢幻想,脚踏实地。

实际上数据是认识世界的基础,如果没有数据的话,我们就会出现很多偏差。弗洛伊德说,小男孩天生都想把他爸爸干掉,替代他爸爸。实际上弗洛伊德是没有大数据的,有了数据之后才证明这件事是假的,你问那个小孩是不是想杀你爸爸,他不会回答。

到以色列建国以后,因为以色列是用的农庄制度,把好多小孩断奶以后养在一起,往往一个农庄上百个孩子在一起长大,上百个孩子就发现一个规律,一个农庄长大的小孩,长大没有结婚的,最多的是6岁以后到12岁以前迁移到另一个农庄偶尔有结婚的,6岁以前就长在一块的小孩就没有结婚的,人在天性当中就排斥乱伦。对人的研究尤其是如此,我觉得这个时代是一个伟大的时代,是我们理科生占上风的时代,因为我们现在越来越多拿数据去研究那些小清新,小格调,我们拿数据研究电影,我们可以算出来谁哭或者不哭,感动或者不感动,所以我刚才看3D打印机的时候我就在想,什么时候我们能够打印出艺术家来。

实际上我们现在对人的分析越来越透彻。我们总结,二十世纪基本上是理性和量化分析人的世界,我们对人产生了非常深刻的理解。前一段有一本书叫做《思考快与慢》基本上是对人整个大脑当中发生了什么,我们有什么样行为的概括。

所以我们认为科学要进步,一定是这样的三段论,首先要积累足够的数据,这样产生一定的认知,在认知基础上产生理论,理论会指导我们实践,反过来实践证明理论,我们就往前走了。爱因斯坦再伟大,但是在实验物理证明光是可以扭曲之前,没有人承认他的相对论的。这是特别重要的。

到了文科领域,到心理学也是需要有证据的,这个人大家很陌生,他是弗洛伊德的外甥加侄子,他的爸爸是弗洛伊德他老婆的兄弟,他是人类历史上第一次大规模的运用心理分析去改变了人类行为的。所以他在西方被公认为是公共关系产业的鼻祖,他第一次证明了一个好的理论可以改变实践,所以我想到这来的人可能有一些小清新,有一些文艺,应该不会有未成年,他最著名的改变人类的例子是养成了女性的抽烟习惯。十九世纪二十年代,西方女性都不抽烟,就男性抽烟,烟草公司很不爽,就问他,你不是研究心理吗?那怎么改变这帮人让女人抽烟?他就用弗洛伊德理论研究这些,烟是什么意思,男性抽烟是一种性炫耀,那女性为什么抽烟,他找到一个理由,叫叛逆。当时正好美国有女权运动,你们男的抽烟有什么了不起,我也抽烟。所以他基本没花钱就组织了十万人在纽约大游行,前面一百个名人,很著名的女性每人叼着一根烟,很多事情改变了我们都不知道是好还是坏。但是回过头来我们要向好的方面去引导。

二十一世纪是认识人类社会的世界

我们认为二十世纪是心理自我探索,我们对自己认识越来越深的世纪,二十一世纪是认识人类社会的世界,因为以前我们想理解我们没有数据,像何总那样能知道银行大数据的还很难得,我透露一点,其实运营商知道数据更厉害,我跟联通的朋友交流,他就跟我说,我们能够通过用户手机分析,能够从用户当中筛选出来,谁是三陪,谁是黑社会。

我们做社会学研究的时候,有一个测不准定律,是美国斯坦佛做网络分析的领军人物,一个很年轻的小伙子提出来的,在我们做传统研究的时候,想研究整个社会的时候,三个条件,最多居其二,不可能全部获得,一个是大范围,大样本,我们都知道央视索福瑞,想做电视收视率调查,大家知道多少个样本吗?三千多个,我们都知道中国有多少部电视,你用三千多个样本折射出几亿用户的行为,这个事荒不荒唐就不用说了。比如说你从公安局能知道所有人的户口数据,但是后面两项同时要获得就难了,第二个是实时,实时有可能还行,我从卫星上能看到每个人的实时地点,实时如果还要连续记录,连续数据就麻烦了,获得不了。我们以前对人类的理解永远是偏颇的,这种偏颇会造成各种各样的,我发现咱们理科生没来的时候,文科生就老胡说,比如说有一本书叫《乌合之众》,他就说群体大家在一起总是会产生大量的、愚蠢的、会有暴力、会有谣言、会有各种各样的坏事,我们叫群体性愚蠢,问题是后来理科生来了以后,就产生了一个新词,当群体能够被好好组织起来的时候,不是更傻而是更智慧了。文科生的绝望需要我们理科生的乐观来改变。

所以实际上现在对社会的理解为什么加强了,就在于我们现在有了社交网络,尤其Web2.0改变了这个现状,不管在Facebook、Twitter、新浪微博上、微信上,我们能够随时的获得全样本的实时的连续数据,这个时候我们对用户行为的理解就达到了空前的深度,这种深度,就能够指导我们去做很多改变世界的事情,而且当我们对群体行为有了更深的理解的时候,我们才发现,其实人类远没有想象的那么悲哀,真正悲哀的,我们周边就剩几个我们的朋友国家比较悲哀了,其他的都已经不悲哀了。研究科学当中表明人性当中天生就具备特别强烈的合作因素,我们这个世界还是充满光明的。

实际上当我们有数据以后,我们对世界的理解就开始加深了,以前很多我们不知道的规律,这些数据为我们揭示了很多东西。《大连接》是哈佛两个教授写的,他揭示了一个很有趣的现象,人际之间是互相影响的,而且影响的非常的强烈,它的例子就是肥胖,我们都知道肥胖不应该传染,因为肥胖是吃太多了,但是现实当中我们不知道原因,但我们确实知道肥胖是传染,所以它的研究表明,他积累了三十多年的美国大量的卫生方面的数据,他的研究结果表示,如果你周围近期有个朋友迅速变胖了,你变胖的可能性会增加50%,如果你的朋友的朋友变胖了,你的变胖可能性会增加25%。所以很多时候我们说最近怎么胖了,先别着急去减肥,看看你的朋友,如果你的朋友还都是瘦的,看看你朋友的朋友,如果你交友不慎,你这个朋友不胖,你朋友后面肯定站了四个胖子。

这个东西出来以后会改变我们对世界的整个看法,为什么呢?我们发现原来人和人之间是如此强烈的联系在一起,他们研究表明,不光肥胖会传染,糖尿病也会传染,心脏病会传染,基因型都会传染,当然你会说这个不可能,但我还是告诉大家,大数据不能告诉你因果,但是能告诉你相关性。我们对这个世界的理解一下子就加强了。

加强了以后我们要干什么,这位我们会认为有点出格的创新的人是扎克伯格团队早期人员之一,他07年退出了facebook团队,他去帮助奥巴马选举去了,奥巴马创作了一个奇迹,民主党是以少数经费战胜共和党的多数经费,但是有了社交网络,他们成功使得从老百姓那捐来的钱,奥巴马的钱超过了他的竞争对手。蚂蚁战胜大象这是很伟大的,竞选成功以后,美国有一个杂志曾经把他作为封面人物,下面写了一行字“帮助奥巴马进入白宫的人”,当然他最近干了一个很出格的事,他和另一个男人结婚了。当我们对社会足够了解的时候我们就可以去改变。美国人发现了其实同性可以结婚他就去改变了。

据说,奥巴马26岁时候就说,人们都在试图理解这个世界,而问题在于改变世界,我们要理解充分一点再改变这个世界,我们要把他往善的地方、好的地方去改变。比如刚才唱歌的女孩,我自己是个胆小的人,我希望通过对世界的改变,偷偷站在背后使得比我年轻的人能敢说话,能想说什么就说什么,使得我们大陆人也能够像台湾的张先生一样,说想打印一个林志玲就打印一个林志玲。如果你对此有怀疑,你可以读另一本书叫《正义之心》。我们希望未来我们能敢这样,想说什么说什么。

积累数据,加深理解形成理论,改变世界

当然要做到还是遵循这三步曲:积累数据,加深理解形成理论,改变世界。我们在努力做这样的事情。因为这之前我看很多演示其实都是介绍国外,我们是国内,为什么这么说,因为田总知道,原来我们做电讯有一个期望,实际上中国的运营商,其实从2000年以后,尤其从02、03、04、05这些年,应该说在世界上运营商领域是最领先的之一。我们总有一个希望,就是希望能够在世界上真正领先,希望讲的是中国人的故事,社交网络时代给我们带来这个机会。第一,美国社会很多原则他们已经不遵循了,我们和英国、法国很像,我们更是一个人类社会的标本。另一方面来说,我们的社会化数据也更健全,facebook有数据,都是据说的,虽然他们有数据,但是因为是一对一的,所以他不能开放,不能把我聊天的数据给别人。就跟现在微信的数据一样,推特不一样,推特最便捷的是新闻到达的途径,他更叫新闻的传递,而不是聊天,不是知识共享,不是大家去讨论,不是建群组,facebook连讨论都没有,回复都没有,只有转发。只有在中国新浪微博实际上是像facebook,大家在新浪微博上聊天,交朋友,而且大家其实很享受这种我们聊天你们围观的感觉,比如潘石屹,任志强天天在微博上说相声,因为有人围观,如果你跑到facebook里面说相声,没有人理,就会扫兴很多,以至于名人跟新浪闹别扭,我离开微博了,过两个月又回来了,因为在别处没有人围观,这个更向是facebook的社交公共场所,在这个社交场所里面我们进行分析,就能提炼出大量有价值的数据来,用这些数据再去理解社会,我们认为有些研究应该还比国外做得好,因为他们没有数据。我们建立了很完善的数据库,用户的各种特征标签都打上,而且我们打了很多标签会很好玩。

我跟大家共享一些好玩的数据,一个人友善与否是看他说话里面说的褒义词多,还是贬义词多,你对人说话老用贬义词那这个人肯定不友好。字典里贬义词多,三分之二,说明我们对别人的时候总是更刻薄,汉语字典是这样,其实英文也这样,我们跟老外是一样的。但是我们最近在做一个研究,在真实的社会生活当中我们褒义词,贬义词的使用比例,我们把新浪微博每个人的微博里面用的褒义词,贬义词抓出来,褒义词大大超过贬义词,在真实生活当中我们还是蛮友好的。微博名人褒义词特别多,我们还在继续往下分析,得到结论跟大家汇报。我们当然希望看到所有人的褒义词的比例都很高,也有可能当你在微博里面你的贬义词使用比例增高,因为你生活在现实当中,如果地位比较低的话,跟人冲突的机会就会比较多,所以就会使用贬义词,像这样的研究以前是做不了的,现在是可以做的。

国外研究社会行为要量化,以前的量化没法用海量数据,因为facebook不向社会开放数据,所以他要做小范围的研究,叫做行为经济学,往往是几十个人,几百个人的小范围样本研究,表明一个人的社会地位和他能够获取的社会资源是相关的,什么意思呢?就是对一个男性来说,它的社会资源往往意味着他可以认识更多的年轻漂亮的女性。我们可以想像某位诺贝尔获得者,八十多岁了,后来娶了一个二十多岁的女孩,如果是一个看车棚的八十多岁的人估计就娶不到了,这件事以前从来没有被定量的分析过,定量的魅力就在这,我们现在把微博里边的所有人,给他做了一个社会地位的标签,然后我们把相同社会地位的人全部抽提出来,相同年龄的人抽出来,按社会地位排开,差的比较大的人,他们认识的双向好友里面的女性跟他的年龄差是不是一样,大家能理解这个算法吧,以前都不可能,以后都透明了,我们对世界的理解大大加深了。

当然这种加深实际上很复杂,我不给大家展开了,我们希望把这个世界理解透,我们再做改变,这个就是我们现在做的产品,其实在facebook上市之前公布过一些数据显示,facebook平均好友数是130,大家如果对社会研究了解的话,我们现在人类大脑能够管理的上限是150个人,现在计算机还不如我们人脑管理的。但是那个没关系,只要科技出来了,后面就是突飞猛进,所以我们就认为,可以以此为指标,汽车刚出来的时候,它的速度还没有马快,但是很快,它就成倍数的增长,那么我们也预计,社交网络是使我们的社会行为能力有飞速的提升,而这点至关重要,因为我们几乎所有的行为都是社会化行为,我们几乎没有非社会化行为,可能你晚上做梦,自己一个人在夜里做梦,算非社会化,但是你一旦梦到别人又是社会化的了,那个这样时候如果能够增加你的社会能力,对整个社会来说将是一个能力的释放,一个爆炸。我们要做的事情就是我能够帮你把朋友管得更好,所以我们这个应用,是帮你来分析你的哪些朋友跟你最贴心,跟你最好,哪个朋友你不理他,他理你,什么时候该理这个朋友,如果你的朋友没反应,对我们来说都是有反应的,比如说你有一个好朋友,他十天没消息了,这个时候我会给你提醒,你的好朋友十天没露面了,你应该跟他打一个招呼。

社会化的应用会改变每个领域。这是我们的音乐,音乐天生就是该分享的,人以群分,物以类聚,我们分享习惯就有很大的共性,当中国遍地都是中国好声音的时候,其实微博上的用户更偏一二线城市,他们听的其实不是中国好声音,直接是美国好声音,实际上中国好声音是从美国买的版权,所以你会发现中国印证了原来创业家杂志主编申荫的观点,中国互联网是两个国家,一个是以一线城市为主,一些富裕的二线城市也在内,每个人都有智能手机,宽带很充分,这是一个国家,另一个国家是二三线城市,甚至很小的县城,唯一能上网的就是手机,那个国家的行为和我们完全不一样,那个国家听中国好声音,听最炫民族风,那么这个国家是崇洋媚外的,这个国家听美国好声音,这个国家据说有跨国的广告公司去一二线城市小孩卧室里面去拍照片,他们墙上贴的明星都是国际范儿的,他不粘赵本山。所以这是完全不同的两个世界,这也是我们只有分析才知道的,但是这两个世界,各自的世界里会共享各自的东西,因为他们自己本身的需求,他们自己本身的兴趣特征是一致的,这是我们做音乐的分享。

我们做餐饮的分享,餐饮的核心,我们以为请人吃饭主要是选饭馆,挑一个自己喜欢的,其实是错的,请人吃饭是挑一个人家喜欢的,社会化最有魅力的地方是在于一切都可量化,而且通过刚才我们说的三度关联的算法,我们认为那个算法被严重低估了,今天大家都在讲六度连接,实际上未来真正有意义的叫做三度影响。对我们每个人来说,如果你是我的一度好友,我直接认识你,二度好友,是朋友的介绍,朋友的朋友的朋友也还凑合,剩下的就是三度了。

那么三度相互影响,还有一个很厉害的地方,就在于这个算法能够解决大数据的稀疏度的问题,以前的BI的算法了解一个人的行为特征,这个人必须自己要有行为,而且行为数据积累到足够多,我才能分析他是什么,他喜欢什么,他的一些偶发性的行为数据就不可用,就要抛弃掉,所以我们说BI的分析是收敛的,越分析这个人的特征越少,但是社会化网络对人的分析是发散的,有一个很坏的地方,有些东西你想藏也藏不了,比如在没有社交网络的时候,某位名人一直说自己是加州理工毕业的,大家相信了很久,有社交网络你看他的好友圈,有若干个西太平洋,没有加州理工的,你猜他是哪毕业的。看一个人点评过哪些菜,喜欢不喜欢哪类菜我就知道他的胃口了。社交网络能改变我们很多东西。

当然另外一个社交网站还能预测未来,这系我特别性的一个事,这个片子《一九四二》预测票房3.8亿左右,时间是11月9号,我们都知道他是12月份,一个月多之后才公映的,这是我们在一个月多之前就清楚的预测出来了,做数据的人,我们当初孵化这些团队,我们培养这些团队的时候,我带着所有的创业团队看了一个片子,是讲的一个棒球队的故事,那个棒球队,从所谓凭经验来运营,说我是老教练,老经理人,到纯粹量化经营,我看第一遍的特别感慨,掉眼泪,严重扛着巨大的压力,所有人都说你死定了,教练队员都不配合,前几场就失败,后来慢慢有了气色,连续打胜仗,所有报道都说这个老教练真有经验。我跟我们创业团队体会到一样的压力,当我们跟影视业的人去谈的时候,这个数据我们两个月前就公布了,公布完了以后,华谊兄弟就打了一个电话过来,说你是要黑我们吧,然后我们说不是,我们是量化数据算出来的,电影圈的人就说,你们这个测用在别人身上没问题,用在冯小刚身上是失效的,这个肯定是7、8个亿的大片子,划时代的,说了一堆,我们当时压力巨大,我当时就想豁出去了,管他呢。当然豁出去以后还是大数据赢了,我们是数字信徒,我们坚定的相信数据是对的,我们坚定否定自己的直觉。今天我们再跟电影圈的人谈,不是说你们真英明,他是说其实早我们就知道,冯小刚那个片子一定会赔,你看那个片子的时间,讲的故事情节,不可能有用户。所以真正要开创一个事业,真正要想推动一个事情,你就要忍受孤独,你没有办法向人解释,因为这个世界永远只接受结果。

当然当我们很坚定的时候,当我们知道社交网络,因为社会化本身是和我们每个人的方方面面都相关,然后我们又有了云,有了大数据,能够说我们对社会化的理解达到足够的深度,而且我们通过社会化的分析,社会化业务合理的设计,能够改变这个世界的时候,我们就有了鉴定的信念,而且我们非常坚定的相信,当你是第一波人的时候你是最伟大的,你冒着最大的风险,但是你也是真正推动世界的人。我们喜欢冒险,我喜欢赌博,赌博就是永远要预测未来,因为我对未来所有的赌注就压在我的预测上,我们身家性命全部投在社交上,我坚定的相信它一定会成事,一定会成为巨大的趋势,改变人类所有的行为习惯,微博上已经开始出现征兆了,微博公益午餐。改变人类的行为习惯,使得社会往前去走,当然还不够,还要进一步预测。

我在这预测几年之后会出现的情况,第一未来不会有社会化应用这个词,就像今天讲移动应用,互联网应用一样,未来不会提了,只有前端和后端,后端在云上,前端是手机,屏的,你说我叫无线应用没有意义,社会化也是一样。我们投资的布局很简单,现有互联网领域里面哪个大?而这个大家伙已经存在了十年以上,就意味着他已经不可能做社会化转型了,我就做一个社会化应用去替代他,每一个领域布一个局。第二个社会化使得人际关系更加紧密,刚才也讲到隐私问题,我认为隐私不是问题,今天我们是在工业化时代谈隐私,工业化人是高度疏离的,你从小就开始玩社交网络,这种时候你哪来的隐私,你的隐私从来就没有过,谈何保护。但是另一个东西更重要,信用,第三个叫协作能力,就是专业分工,群体协作,包括创造性,因为当专业分工的时候,我们社会化使得我们的合作更复杂,复杂意味着每一个人必须要做自己最擅长的事情,人类最擅长的就是创造力,中国移动的人叫纪勇,他讲了一个观点,叫新木桶理论,就是你不是要修短板而是要修长板,你要找到你自己最强的一个板,它做到全世界最强,你就可以全世界其他领域里面最强的人去联手了,这样别人才会跟你一起联手。第四个就是当我们有量化数据,当我们做清晰理性决策的时候,我觉得我们的人性一定回归,所有的非理性,非人性都来自于信息不对称。

今天为什么大家对统治阶级有很多抱怨,就因为信息不对称。讲了那么多,我们就是一帮坚定的理想主义者,我们用我们所有以前的信用,以前的经历,用现在所有的钱,所有的时间,就想干一件事,不是孵化一个公司,因为我们自己做过公司,我们也有投过公司,但是不刺激,是想孵化一个产业,为中国带来全世界全行业领先的产业,就像当初电讯业的梦一样。而且这个产业更开放,这个产业最后每个人的生活,各个方面息息相关,每个人都希望做到更好,这就是整个社会化应用的前进动力,因为他能让我们做到更好,但是在今天我们依然要忍受孤独,所以我愿意跟大家宣讲是希望大家能够支持,也许我们会失败,但是总要去赌一把,总要去做点贡献,所以我们特别崇拜的,其实不是乔布斯的固执,不是乔布斯的不人性,不慈善,而是他的执着,苹果公司当初推出苹果电脑的广告词,“向那些疯狂的家伙致敬…”我相信我们在座的人有同样的梦想,就是我们一起通过我们的数据,通过我们的知识,通过我们对世界的理解改造世界,把这个世界改造得更美好,谢谢!