中国IDC 圈2月16日报道:人人都说现在是大数据时代,且大部分国家已将发展大数据纳入国家重点发展战略当中,那么,大数据到底给了我们什么好的?
发现规律、提高效率
被称作大数据先例之一的现在航线分析系统,其诞生于十九世纪,当时当然还没有大数据这个概念,而是源于一个腿受重伤的美国海军军官马修。方丹。莫里对航线的疑惑而在成为仪表厂负责人后在大量航海日志以及许多老船长的经验下构造出来的,他利用杂乱无章的数据推测出了许多洋风和洋并以此基础绘制了一幅全新的航海图表,而这一应用使当时的航海更加安全,因为出海的人们不再需要为未知的海路状况而担心和冒险,也使航线更短、耗时耗材更少,总体上缩短了航线的三分之一路程。
在创建该分析系统前,人们对已有航线的认识只停留在前人的航行经验,而该系统的诞生使航线选择科学化,大幅度地提高了效率。这是从宏观层面分析,对于一些过度宏大的规律在“抽样”下根本无法探索和认知,但在数据庞大得如舍恩伯格笔下的“样本=总体”时,这些规律很可能就会清晰显现,再加以实践,便可能革命我们的生活。
大数据挖掘隐形需求
先说一个比较蠢的运用例子。如今很多电商都会根据你的浏览记录、停留时间做出个性化推荐,以笔者近期体验为例,因为眼镜坏了就在淘宝上搜各种眼眶及卖眼镜的店家,没过多久就下单了,但第二天打开淘宝发现首页出现了大量关于眼镜的信息。其出发点是不错,给用户更对特色的选择,但问题是我已经下单了,那个推荐系统居然没有这个分析,这完全以出发点背道而驰。倘若推荐系统能“挖掘隐性需求”的话,买家买了眼镜,推荐的应该是精美的眼镜盒、有逼格的眼镜架或者是辅助佩戴的眼镜耳托。再如笔者购买了手机,它依旧推荐手机,为什么就不能推荐一些逼格的3C产品?
而以图书起家的亚马逊则做得很好(笔者在亚马逊只买书,其他商品情况不明),作为云计算的先锋以及多年累积的经验,它的图书推荐系统已相当完善,我在看完锤子发布会后就搜那本《生命不息 折腾不止》,除了前两本是罗永浩的书外,其他出现的书都是购买这本书后购买的,这都是老罗在书中(演讲中)推荐的,所以读者读后很大可能去在寻找所提到的书。系统是不知道“为什么”会这样,但知道“是这样”,所以就这么做了,大数据便是如此应用,从第一本书挖掘出隐性需求以便利读者购书体验。
在购买完一种商品后,再买另一种商品(书是特殊的,因为内容不一样,各类书甚至同类的不同一本书提供的内容都不会完全重合),在少量购买记录下,它很可能是杂乱无章的,但拥有大数据进行分析,就会发现两、三种商品之间存在关联,就算不知道为什么会这样,但毕竟有大量数据证明了它们有关系,这就够了,例如在飓风期,美国的沃尔玛会将蛋挞和飓风用品放在一起卖,尽管不知道为什么用户会这样组合,但既然有很多人这样做,做就对了,这就是挖掘隐性需求,商家赚了更多的钱,而消费者当然也满足了自己潜在的需求,但也带来了更多的支出。
更聪明的工具和预测社会问题
大数据常被认为是人工智能的重要组成部分,但在没有研究出人工智能该如何拥有自我意识之前,一切都是白谈,如今我们使用的所谓语音助手都不过是工具,而不是助手,但大数据依旧是它们的重要组成部分,甚至是其未来性能的决定性因素。
微软的Contana可以说是目前最智能的语音工具,当你问它“今天需要带伞吗?”时,它会利用今天的天气状况来回答,它并不知道伞和下雨有什么关系,因为它根本没有意识,而是人为地添加指令,而上次那个让Contana预测赛事胜负,利用的便是大数据分析。看上去Contana是真的有意识地在分析两队实力,但实质是通过一个由数学算法组成的数据分析系统将两队历来的胜负数据加以分析、对比,在获取一些专家的关键字来进行推断。
这类运用能带给我们预测犯罪行为,例如《少数派报告》开头那样,当然若过度滥用都造成社会的不公平(《Psycho Pass》);还有预测火灾这类的灾害发生可能性,还有明天最佳出行方式和最佳交通工具选择。
通过数年的交通数据、近期的天气状况以及道路建设情况全部叠加,就能得出一个简单的出行推荐,在人多时先搭快车再转公交,或者少人时直接去公交站,省去了先出门看看然后再等等的时间。通过对某人在社交网络上的言论、其朋友的言论或者其他相关数据以及心理学分析可简单进行犯罪倾向检测,严重时做出相应措施,但这类存在严重的伦理问题,而且这类数据一旦泄漏,危及的可能是人身安全。