吴鹰:确实这样的话,从刚会说话的小孩儿1岁多到很老的老人都可以简单使用计算机了,这个确实没有什么太难的。像我母亲,她就是老学不会手机怎么用。我就想给她用ipad,最近要给拿弄一个。我想问一问马化腾,微信,再加上QQ,这是世界最大的社交网络,里头有大量的数据。刚才前面发言人都重复讲了,大数据是人工智能非常重要的方面。从中国来讲,在算法上现在还落后于美国,刚才李彦宏也讲了完全超过人类是不可能的。但是我们又讲这个大数据这么重要的话,腾讯有没有可能把你们的关于,当然我觉得微信在很多方面已经超过社交了,现在是生活很重要的一部分,刚才说你去公园买一个2块钱小孩玩具,微信支付都可以做,你们有没有可能把数据分享出来,让创业公司大家来用。
马化腾:这个问题在内部我们也有激烈讨论。首先看人工智能我们关注那几块,第一个是场景。第二个是大数据。场景就是你想把这个技术应用在什么场景下,你是不是有高频的跟用户接触,这是一个落地的很重要的地方。所以我们看到很多研究院也好,包括我们内部研发团队。如果没有场景落地,没有平台支持,基本上就是空中楼阁,研究一半很难往下走。第二个是大数据,大数据也是从平台、业务部门有大量实际运转数据才能产生出来。但是这里面很多大数据是垃圾数据,因为没有标签,每人做规划定义,用多好的算法也学不出来,学出来也是走火入魔,没有用的。数据清洗、标签化难度非常高,我们甚至要雇佣很多人用人手的办法,先用人脑清洗干净,再让AI学习。这里面是一个混合结合的过程。第三,计算能力,也就是你有云的资源,拿几十万核的计算能力,CPU、GPU,我们还是有这个能力的。而且在云里面本身就可以很好的调用,这是我们第三个优势。第四个,一年前我们比较缺乏的就是人才。通过一年我们也招了挺多的人,我们在微软、在西雅图还设置了一个实验室。因为很多微软的人不愿意离开西雅图,所以我们就在旁边设,没有办法,人才就是这样。几个方面结合起来才有办法真正在某一个领域看到它的成效。
我们现在观察到很多的AI所谓的大拿们,他们更关注怎么落地,能不能把毕生研究成果能够体现出来,所以在我们内部在吸引人才的时候,往往也会说你们微信、手机QQ里面的平台数据能不能给他们用,但是事实上大家都知道,BG、部门里面的平台他们也很希望近水楼台先得月,数据就在我身边流动,我为什么不能招人先研究一把,为什么给你呢。我们现在还处在内部怎么把数据分享出来这个阶段。当然这里面还有一个用户很关注的个人隐私,别把我的数据都卖了,到时候大家都知道,这里面还有一个很复杂的信息安全个人隐私脱敏,你是不知道无法根据数据倒推到哪一个人做了什么事情,我们要把这些处理干净才能往下一步谈。这里面数据清理到什么标签,才能给其他部门、包括外部合作伙伴怎么用。同时有很多数据来自合作伙伴,业界其他公司,他们也遇到这样的问题那者一堆裸数据不怎么用,这样业界还要有一个标准,互惠互利交换,这是一个大方向,还有很长的路要走。
吴鹰:大数据清理之后,有针对性的,对业界别人是一个价值,别人也是一个补充。我相信人工智能是一个全社会的协调最后发展的过程。刚才朱民讲有那么多问题,所以政府也要介入来做。我们主管部门官员这次也参加了,省政府、市政府官员参加了,就是要大家共同来解决问题,其实还不光是中国,是一个世界范围内大家协同做一些事情。
微软如果大家愿意跟你们合作,你们是不是感兴趣这个事情?
沈向洋:你刚才问Pony这个问题问的非常好,作为大公司来讲,特别是成功大公司来讲,我们对社会有一个责任,对行业有一个责任。当我们行业做的很成功,第一件事情就是开研究院。现在Pony也开研究院,唯一做的不对的就是开到微软门口去了。我也想分享一下在微软的工作经验,你说叫这些公司把数据拿出来,让初创公司或者其他公司去用,我觉得不见得很现实、不见得很容易。Pony刚才解释的很好。但是我想鼓励大家,很多的数据如果我们愿意花时间、花精力做一点处理,比如Pony刚才讲的。然后让研究人员去用,完全是可以做到的。我们微软出了两个数据集,一个是计算机视觉标准方面的集,这样可以做数据分割、物体分割。最近做了另外一个数据集是在自然语言,希望有一批新的做问题问答。这样推动研究领域,大家在标准集下,不断把标准集数据越做越多。我们做的方法是用搜索引擎数据,非常小心处理过,包括很多隐私的问题等等。拿出一些数据让大家做研究是非常实际的,完全可以做到。