目前“人工智能”无疑是最流行的词之一,“大数据”是自2012年以来的流行词之一,现在大大小小的企业服务、论坛上都充斥着有关大数据、人工智能的内容,那么人工智能+大数据的生态模式究竟是怎样的?
2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲不好说不准工作都没了。现在大数据挖掘的技术都很成熟,更完善更系统的解决方案早已有人做得非常好。如果连数据都还没有,那就什么都不用提了。毕竟,人工智能+大数据的生态模式已经开启。
7月初,据外媒福布斯报道百度将人工智能+大数据为中国政府采集数据提供支持。7月13日,李彦宏在百度的开放云战略发布会上首度公开百度开放云“人工智能、大数据和云计算”三位一体的发展战略。为什么谷歌和百度都在人工智能领域重金发力?2015年百度投入研发创新的资金占公司总营收的16%。谷歌就不用说了,在量子计算这样离实现还遥不可及的技术上都已经投入很多研发资金。因为互联网未来向智能+发展的基础是数据。有数,有趋向完整的海量数据是现在所有巨头在布局人工智能+大数据生态模式的重点。
数据获取的最新模式:众包
众包是一种整合资源提升效率的方式,通过众包可以在集合海量数据中,筛选符合一定标准的有效数据,能够降低数据收集的成本,提高机器学习训练的效率。有个生物学家叫戴维•休斯(David Hughes),他和作物流行病学家马塞尔•萨拉斯(Marcel Salathé)将机器视觉技术和深度学习算法应用于农业病虫害智能防治上。他们将关于植物叶子的5万多张照片导入计算机,并运行相应的深度学习算法,针对在明亮的光线条件及合乎标准的背景下拍摄出植物的照片,最终程序正确识别率高达99.35%。如果在互联网上随机选取的植物叶子照片,其识别准确率将降至30%-40%,这也是目前视觉识别技术在复杂环境下尚未突破的地方。为了突破算法的限制,提高准确率,休斯和萨拉斯开发手机应用Plant Village,让世界各地的农民通过Plant Village上传患病作物照片,其中包含照片如何拍摄、拍摄地点、年份等大量数据,并包含农业专家对此做出相应诊断的信息。这种方式出现之后,数据获取的难度依旧聚焦在多维度数据资源的聚合,众包可以解决从分散的个体获取目标数据的问题,但对于基础数据资源层的扩张和占领依然是一场没有硝烟的砸钱战斗。
数多了怎么办:智能计算
有些人在努力获取数据,有些人在为数据多而未能充分利用而焦虑。
数据量级达到一定程度,再利用数据优化服务需要人工智能算法。随着企业数据量的积累,挖掘数据提高效率变成了必需。比如商业应用中打车平台的应用,国内平台滴滴与快滴合并之后,业务线从出租车扩张到专车、顺风车、公交等领域,数据范围猛增,数据量包含司机行为数据、顾客行为数据及各种路线数据、实时交通情况数据,定位数据等,据滴滴官方公布,滴滴出行每天处理的数据量达到70TB,由于订单处理响应时间的要求,单纯处理数据的效率已无法满足实时服务的需求,必须借助人工智能算法才能够进一步提升服务效果。从用户体验角度,也需要实现提升定位精准度,提高接单率,缩短应答时间。目前滴滴内部基于海量数据+机器学习算法的推荐匹配系统,针对海量司机的交班时间、地点、接单/拒单情况等海量数据进行司机画像,以此为基础,针对实时的订单数据,分配订单时实时按需分配,满足服务需求。从数据应用展现更宏观价值的角度来看,基于滴滴已有数据,可整合实时交通情况数据,包括拥堵路段、集中路线、集中商圈等多维度动态数据,进行结构化处理,达到整合一个城市的车辆分布,实现统筹平衡调度的目的。