过去人们尝试使用传统的结构化数据库来处理非结构化数据,但结果是力不从心。直到谷歌在研发页面检索服务的过程中,解决了网页、文档这类数据的快速访问难题,成为大数据技术的先驱。此后雅虎的一个开发小组,把谷歌的成果开发出大数据处理的一套程序框架,就是众所周知的Hadoop。
这些公司的实践,让大家对各类非结构化数据的处理难题重拾信心,对于图像、视频、音频等数据的处理技术也驶上了快车道。
面对大量非结构化数据,首先要给这些数据建模,从传统的分析手段,加上小波分析、协同过滤、机器学习等大量的复杂分析手段,为这些数据建立一个好的回归模型,这样才能根据这些数据进行预测,帮助企业优化商业解决方案,帮助银行进行客户风险管理,帮助广告商进行精准营销。
谷歌公司首席经济学家哈尔·范里安(Hal Varian)曾“不开玩笑”地表示,在这个几乎一切都能被监控和测算的年代,“未来十年里,统计学家将会是最性感的职业。”
芮祥麟说,他们现在已经可以帮助银行对于特定客户制作360度视图,让银行全面了解这一客户的状态。他们还为一家亚洲较大的股票交易所建立了复杂事件处理模型,通过实时分析交易数据,预测可能发生的问题,为制造企业进行预测性维修,通过分析设备的历史数据,分析可能出现的问题的部位,还可以为医生进行快速 CT诊断。
在芮祥麟看来,其实大数据并不神秘,只是由于过去许多知识、经验的积累到了今天,让人们具有了利用这些数据进行预测的能力。当然也不必迷信大数据,它所能提供的,更多的是一种趋势的预测,是一种几率。
数据分析的及时性,在很多情况下比精确性更加重要。关键是“预测趋势”。沃尔玛的利润和卫星图片有什么关系?正是因为瑞银需要更准确的预判企业的盈利状态,除了传统的方法,瑞银还购买了卫星图片数据,从中获得沃尔玛停车场的数据,以此作为模型的一个维度。
可以说大数据的关键价值,就是获取信息优势。大数据的核心能力,就是发现规律、预测未来。
对于从事地理信息系统的超图软件来说,他们所针对的地理信息本身就是由大量的非结构化数据组成。超图软件副总裁王康泓告诉财新记者,地理信息越来越广义化,包括卫星信息、无人机测绘信息、雷达遥感信息等,而不是局限于传统的测绘信息,这在技术上提出了更高的要求,需要云计算技术、移动计算技术。
当然大量的信息也带来了商业模式的创新。目前地理空间分析成了空间规划选址必不可少的部分,地理因子、气象因子映射到农产品价格、期货价格上,也要借助地理空间分析。目前流行的GBI(地理商业智能)概念,也是借助于地理空间大数据。
“孕育的产业太多了。”王康泓说,包括产品和服务保障、咨询和决策支持,业内都在积极探索,进行技术储备。
IBM 大中华区电信行业事业部总监丁佐治博士对财新记者说,目前网络的大数据采集已经精细到了用户观看视频的等待时间、等待次数,来自电信运营商的位置信息已经被保险公司用于评估司机的风险,可以说现在各行各业没有不被大数据映射的,关键在于要倒着想问题,以用户为中心,而不再是以生产者为中心。
谁来规范大数据
伴随着大数据时代来临,数字化生存才会真正实现。网络和数字化生活一方面给人带来方便,也使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局,也就是说大数据已经把你出卖了。
能否避免“被大数据”,恐怕很难。糜万军介绍,在美国AOL曾经做过一次实验,只根据某个人的搜索记录,就可以把这个人叫什么名字,住在哪都找出来。可以说只要上网就会留下痕迹,只要留下的痕迹足够多,大数据技术对这个人的描述就足够清晰。
颜阳说,大数据时代,完全的隐私是不存在的。一旦进入了互联网,解决隐私问题就有相当的难度,如果不进互联网,又容易被边缘化。
一位网上商城的技术负责人告诉财新记者,为了进行精准营销,他们不仅要分析用户在网站内的活动,还需要用户的站外活动信息,而这些信息可以从各大门户网站买到。
中关村大数据交易平台技术副总监徐将对财新记者说,只要用户使用网络,就没有绝对的隐私。而只要数据有价值,就有买卖。在北京,每年房地产数据的地下交易额高达6亿元,20G的在线支付网站数据,标价数十万元到上百万元。