大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂

万物互联的人工智能时代

最近这三年,我们总是被各种耀眼的技术词汇轰炸着:大数据、机器学习、人工智能、物联网、工业4.0、互联网+…… 我认为,这些五花八门的词汇其实都在指向同一个未来:一个万物互联的人工智能时代。

我希望从三个维度上的趋势来解释这个观点:互联化、数据化和智能化。

互联化是指我们真实世界的设备与设备互联,而不只是一台服务器上的网站和另一台服务器的网站相连。以汽车举例,我们的汽车可以连接到家里的空调,这样我们在回家的路上就可以发出指令启动房间里的空调;汽车也可以和路边的建筑设施互联,找到适合的停车位或者商场中的服务。

汽车之间也可以互联,通讯汽车间距、速度等信息,自动保障行车安全。这就是物联网(在汽车垂直领域称作车联网),其在制造业的应用被德国称为工业4.0,在生活上的应用则被我们中国称为互联网+。

数据化是指尽可能多的设备信息、工作状态被量化成数据并可在设备之间通讯。同样举汽车的例子,司机每天开车的路径、其中各个地点的速度、加速度、油门深浅、刹车轻重、路况等信息都可以通过传感器产生可记录、通讯和分析的数据。

目前,以特斯拉为代表的新能源汽车已经在数据化进程上走得很远了。其他领域,例如家居、健康,也在推进数据化进程。由于越来越多的设备互联,各个设备的状态也进一步数据化,人类在接下来的10年内产生的数据量将会比互联网时代更上一个新台阶。

从大数据的角度来讲,“大”不但指数据规模大,更指的是数据维度高。而设备的互联化和数据化将会产生比当今互联网大数据更加名副其实的大数据。

智能化则是在设备互联化、数据化的基础上通过数据驱动的人工智能解决各种各样的快速有效的预测和决策问题。从机器学习的角度来讲,用于训练的数据规模越大、维度越高,就越能学习出更复杂的高级模型,胜任更高难度的智能工作。

大数据是原材料,机器学习是原材料加工厂,而新一代人工智能服务则是工厂出炉的产品被消费在越来越多的日常生活中。我们看到最近这三年这样一个新型产业链的每个环节都在蓬勃发展,而在AlphaGo战胜李世石的今天,更多的人开始注意到这条产业链带来的人工智能产品将会在未来10年间给人们的生活带来翻天覆地的改善。

学术界与产业界双赢

结合真实大数据并在人们日常生活中发挥作用的人工智能研究是目前最有效率并最符合整个产业链发展趋势的研究方式。研究大数据驱动的人工智能,首先得有“活的”大数据可供研究,才在真实环境中不断尝试研发新的人工智能模型。

这样一个交互式的研究环境最能够促进新成果的诞生。这也是当今许多世界级并且奋战在人工智能研究一线的大学教授会选择在一家科技企业兼职的原因。

而几年前高校的数据挖掘和机器学习研究仍然倾向于靠着一个许多年前生成的数据集不断地测试新模型。从实践经验来看,这样工作在一个老的小数据集上的模型很难胜任现实生活中的大规模动态数据。而高校实验室需要作出最前沿的人工智能技术就需要奋斗在大数据处理的第一线。“Get hands dirty。”这样才能切身感受到最真实最野性的数据,才能真正理解数据和基于数据搭建起来的人工智能。

我认为在大数据驱动的人工智能研究中,大学科研团队与工业界算法团队相比,其优势在于能将主要精力投入在算法研究中,能在拥有大数据和测试平台的基础上,产出一般企业想不到的有效算法;另外大学研究者由于长期保持相关文献的收集整理,对领域内的最新技术以及新旧技术的全局理解有很深的体会。

大数据驱动的人工智能是一个产业界和学术界双赢合作的领域。

我在伦敦大学学院的博士课题是互联网精准展示广告算法。互联网广告领域的数据由于涉及广告拍卖交易中的价格信息而十分敏感,所以该领域在2012年之前并不存在任何互联网广告领域的公开数据集可供高校研究者做研究。该领域绝大多数研究论文皆来自涉足互联网广告的科技公司,例如谷歌、微软、雅虎等等。

对于高校研究者来说,做互联网广告大数据的研究,首要任务就是同相关企业建立研究合作,获取最新的广告投放数据,并在合作企业的商业平台上直接做面向真实用户流量的实验。我们研究组在伦敦、北京和硅谷寻找到了多家广告科技企业进行合作,其中既有业务量和数据庞大的IT巨人,也有迭代速度极快的初创公司。