大数据的未来:机器人的世界,还是人类的机器世界?

人类从未对自己的认知能力满意过。也正因为此,过目不忘,一目十行,上知天文下知地理,一直被看做是人类进阶版本的一个典范。

计算机早就做到了这一点。

最近,在阿里巴巴的数据开放日中,我会面了数位数据科学家。当他们描述大数据未来能力的时候,我就会想到人类的局限。认知科学的未来,必然是计算机与人类的完美结合。但是,这个结合,应该是什么样的?

数据越来越多,而人类的解读能力是固定的,人会累,会无法完全理性。但是计算机不会。计算机可以帮助人类找到自己的盲点。IBM Watson实验室的首席工程师Bowen Zhou告诉我,在Watson的医疗项目中,人类要阅读十年的论文,计算机只需要30分钟就可以读完。曾任职Axciom的徐玲告诉我,在非常早期的时候,美国两个很大的图书馆,以及梵蒂冈图书馆的数据化已经完成了。

这两件事都指向一个结论:当我们找到的科技能力,正好能弥补人类的缺点,这之间隐藏着巨大的价值。实现的关键在于数据化。数据化让计算机和人类得以沟通和结合。

记忆力一直不是人类最关键的东西,甚至说,是最薄弱的一环。逻辑,才是人类的认知关键,逻辑的产生源于经验的积累和推演。如果计算机能够帮助人类获取更多的经验,将有助于更强大逻辑的产生。

我曾经非常喜欢Evernote这个应用软件。它可以记录我所有片段的思考,同时收藏资料和文章。如果有一天,这个软件可以通过“机器学习”我的记录文档,向我推荐值得阅读的资料,帮助我瞬间搜索信息,提炼观点,是否将会改变人类的认知习惯?

未来有可能实现么?至少眼下,我们已经看到了一些进展,数据正在帮助我们看到盲点。我总结了数据开放日中各路英雄的核心观点,希望能够对你有所启发。

NO 1 认知科学可能是未来很关键的能力

未来数据的价值不在于多少,而在于你是否有提炼的能力。Watson正在推进的健康项目中,计算机能够做到通过大数据来判断未来治疗的癌症方向,并且就此判断更为精准的治疗方法。

以往我们是怎么做的呢?我们成千上万的医疗专家,通过阅读和研究大量的文献、实验和试错,推演出可能的方向。这需要消耗十年,甚至更长的时间。而计算机只需要三十分钟就可以阅读完所有的相关文献,迅速判断有用信息。这是用认知科学来节省人类在医疗方面的时间和精力。

NO 2 红酒与寿司:整合“实时数据”与“历史数据”

将“实时数据”与“历史数据”整合已经成为了业界共识。徐玲这样比喻说,“历史数据”如同红酒,越陈越好。“实时数据”如同寿司,越新鲜越好,两者搭配,乃是绝妙。

而今我们对数据的处理上,也需要面对“实时数据”和“历史数据”结合的问题。举个例子,如果你在淘宝搜索茶叶,推荐系统应该从历史数据中推荐各式茶叶,还是应该结合当前你的购物车数据,推荐更适合你的偏好品牌?

数据的结合并不容易,不仅要求不同数据的格式和标准统一化,更要求对于历史数据与新数据结合后所产生对当下的理解和认知。

“就像是开飞机,我们通过历史数据来判断航道,但当时的风和气候都很重要对驾驶有影响。实时数据越对你敏感,就价值越高。最终你通过设定预期轨迹和实时调整,获得了最安全高效省钱的结果。实时和历史数据的结合意味着更好的计划和更快的反应。”

NO3 大数据也需要人的互补

Aaron Ling是Ancestry公司的总工程师,他在论坛上画了一个巨大的家族谱系图。这就是他正在做的项目,用大数据来清晰美国的家族图谱。人们通过网站查阅相关的家族谱系,然后通过UGC的方式给出修改或者添加数据。这个模式将可能会对未来的医疗以及社会研究产生巨大的影响。

这个项目证明了大数据推演出的结果有时候也需要人的互补。因为经过人的信息互动,才有可能产生超出于人类的东西。人的互动可以让大数据变得更灵活,更实在。

在实际操作中,我们可能会遇到这样的情况:尽管你拥有很多数据,但是你还是无法获得某个人的完整网络行为信息。所以我们需要用一些算法把这个“数据漏洞”填住。来自Samsung的演讲嘉宾Junlin Hu这样形容这种困惑:“如果我们把人看做一个个的列,你会发现每个人其实没买多少东西,大部分商品和人之间的连接是空白的。”