大数据:一种计算和思维方式的转变

近两年来,大数据被公众广泛讨论,甚至成为不少商家宣传营销的卖点。毋庸置疑,智能设备的发展和普及,使海量的数据采集成为可能。但大数据并不是单纯的“数据大”,它更蕴含着一种计算和思维方式的转变,想要发挥出大数据的洞察力,还面临着采集、管理、分析数据的挑战。这些障碍如何破除?大数据在未来将如何应用,能否创造出更大的价值?这些问题值得我们在大数据热中,做出冷静判断。

4月26日,清华大学成立“清华—青岛数据科学研究院”,同时召开大数据时代高端论坛。就在此前两天,百度在第四届技术开放日上,正式宣布对外开放大数据引擎,提供大数据存储、分析及挖掘的技术能力。大数据被学界纳入研究范畴,商家开放引擎,这是否意味着大数据应用进入了一个新阶段?

大数据

传统统计方法追求精确,大数据只预测宏观趋势

本是技术概念的大数据,如今越来越像一种营销手段。从汽车、化妆品到体育,在营销人员口中,似乎所有行业都可以借助大数据,精确定位、找到消费者,预测趋势、赢得未来。

中国人民大学新闻学院教授喻国明认为,目前从国内的情况看,真正运用大数据分析成功的案例其实不多,很多公司都是将大数据作为一个营销噱头,所做的分析也主要是基于传统的数据分析方法。

事实上,对于数据多大能称之为“大数据”,业界并没有统一的认识,通常认为100TB(太字节)是大数据的门槛。简而言之,传统方法无法处理的数据即为大数据。

大数据的产生得益于移动互联网以及智能手机、各种智能穿戴产品的发展,人们行为、位置,甚至身体的生理特征等数据都可以便捷地被记录,这使海量数据采集成为可能。事实上,目前数据采集量正呈现快速的增长趋势。一家国际数据统计机构最新预测指出,2020年,全世界产生的数据量有望达到40ZB(泽字节,1泽字节等于10亿太字节)。

但大数据不能单纯理解为数据大。大数据研究专家、北京航空航天大学校长怀进鹏表示,大数据具有“规模大、变化快、种类杂、价值密度低”四个特征,是对传统计算和思维方式的一种挑战。

首先,因为几乎每个数据点都可以采集,全面数据代替了抽样、片面、局部的数据。“拿炒菜打比方,传统的抽样,我们需要在开始和中间时候‘尝一尝’,‘尝一尝’就是抽样数据,但在大数据时代,随机抽样的方式可能就失效了。”怀进鹏说。

怀进鹏认为,因为抽样分析时数据测量能力有限,统计追求的是精确,希望用最少数据获得最多的信息。而大数据比较杂乱,完整的精确不存在,也不再是追求的绝对目标,大数据只需对宏观趋势给出快速预测。

另一个改变是,从关注因果转向数据之间关联。在大数据时代,“数据背后的原因不再重要,人们只需要知道数据之间有统计相关性就行。仅需知其然,无需知其所以然。”怀进鹏说。

在大数据的支持者看来,数据已经能够自己说话,传统的科学统计模型已经过时,理论也可能被终结。

大数据营销大多是噱头,一些机构甚至无法收集海量数据

被誉为开大数据系统研究先河之作的《大数据时代》作者指出,大数据是社会的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见。

大数据蕴含的发现事实、挖掘价值、预测未来的洞察力,也是各色大数据营销的理论出发点。实际上,大数据洞察力确实在公共卫生、交通运输等行业开始发挥。

中国疾病预防控制中心副主任、中科院院士高福也认同大数据在公共卫生预防控制上的作用。他说,通过大数据,可以在流感到来之前为人们提供一些解释性信息,为流感的预防提供缓冲时间。

同样,在智能交通时代,海量车辆信息没法通过传统方式分析,但借助大数据,则可能提前预测未来的车流量、行进路线等信息,从而为改善城市交通状况提出优化方案。

“自己能够讲话的大数据”,是否真如营销人员畅想得那么美好?

分析人士指出,数据存储和搬运虽然越来越便利,但目前大数据应用面临着数据收集,管理、分析海量数据并创造价值的挑战。

“如果将数据比作书,书增多后,首先要找到储存大数据的‘大图书馆’,下一步则要解决数据查询问题,没有好的查询引擎,书找不到,数据也就很难利用。” 百度大数据总监李钢江说。而现实是,大部分机构和企业都没有海量数据收集存储以及分析管理的能力。

业内人士指出,大数据在一些领域的营销还只是噱头,先不论大数据分析结果是否有效,有些行业连基本的大数据采集和管理条件还不具备,更谈不上精确定位和预测。

百度高级副总裁王劲也表示,传统的数据库没有管理大数据的能力,传统行业如何进入大数据时代,利用大数据价值,是摆在很多行业面前的新课题。

提升计算能力和降低云存储成本,将有利于大数据技术变革

百度首席执行官李彦宏认为,随着计算能力的提升和云存储等技术产品成本的不断降低,大数据走到了技术变革的临界点。不久前,百度就推出了“百度大数据引擎”,百度希望借助该工具,对大数据进行收集、存储、计算、挖掘和管理,并通过深度学习技术和数据建模技术,使数据具有“智能”的技术能力,服务传统行业。

据了解,百度大数据引擎包括开放云、数据工厂、百度大脑三大组件。其中,开放云解决的是数据存储和计算问题;“数据工厂”则对行业数据进行规范化处理,提供数据管理和分析;而“百度大脑”则让机器和人脑一样思考,分析处理数据。

不过,分析人士指出,虽然各方面为挖掘大数据开发了很多工具,但大数据的成熟应用还有很长一段时间。首先,数据杂乱,价值密度低,如何有效的收集数据信息仍没有成熟的方案。同时,数据的规模并不能决定一切,不论是那种数据分析方式,都可能存在统计上的缺陷,不能说数据更大、更新、更快就没有问题。

英特尔中国研究院首席工程师吴甘沙表示,大数据作为一种新的数据形态和实践,它将丰富数据应用方法,却不能取代传统统计分析方法,更不能神化大数据。

众多手环都称能收集个人健康收据。

戴个手表、手环日测身体指数

购买可穿戴设备是为了什么?新奇好玩,运动社交,还是管理个人的健身习惯?其实,这些并未发挥可穿戴设备真正的价值。据了解,目前市场上众多可穿戴产品都声称能融合无线网络、移动计算和自动识别,包括血糖、心率、呼吸频率、重量、水合作用和身体运动等身体指征,都可以实时了解,这就是所谓的“大数据医疗”,令众多越来越注重健康的白领为自己、家人添置这些产品。

尽管IDC预测,中国的大数据市场在2012年~2016年间将增长5倍,政府、银行、医疗卫生、电信等行业将在其中占据最多的份额,但“大数据医疗”在国内的真正落地还有很长的路要走。

市场

国内外众多厂商投身

据国外媒体报道,苹果公司近日正在迅速扩充医疗团队,招揽了健身专家、医疗设备行业专家等多名医疗传感背景的工程师,并很有可能在今年秋天发布Healthbook.据悉,Healthbook可追踪从睡眠到营养、从运动到生命体征的各种各样的指标,包括血糖、心率、呼吸频率、重量、水合作用和身体运动等,成为苹果下一代移动操作系统iOS 8和其谣传已久的iWatch智能手表的重要卖点,更成为移动医疗保健行业的引爆点。

事实上,健康与运动类应用近年来日益普及。Azumio公司光为苹果iPhone开发的健康监控和健身应用就达到了40款。在IT大佬们看来,不光是医疗数据的移动化采集,其形成的“大数据”拥有更大的想象空间。目前,Windows 8系统整合了必应保健(Bing Health &Fitness)功能,可帮助用户记录运动、用药和饮食;微软的医疗数据平台HealthVault则可以让用户收集、管理自己和家人的健康和身体状况信息,再结合可穿戴产品Fitbit或Nike+ Fuel Band收集的数据,为医疗提供了更多的方便。另外,美国第四大电子病历服务商Practice Fusion近日也和为智能手机做心率监测配件的AliveCor达成合作,设备中的数据会集成到病历当中,并保存在云端供即时获取。

“一旦累积了足够多的数据和样本,放到专业的医疗人员手里,那对医疗事业的推动将是革命性的。”据英特尔软件与服务事业部合作伙伴关系部经理王怡淳介绍,英特尔研究院也正在致力于医疗数据的互相连通,“让小至简单的计步器,大到复杂的CT扫描仪彼此相连,并与云进行通信和共享数据。”在大数据医疗背景下,人体体征可以进行连续监测,看病不再只是病发后医生的“望闻问切”.

问题

厂商收集的数据缺乏认证

国内的“大数据医疗”目前更多的只能称为“远程移动医疗”,有些甚至只是方便医院内部的无线数据传送。例如麦迪克斯的“同步手持心电图机”,虽然可以在平板电脑上便携使用,但患者在家里自行操作不够方便。其他国产厂商也在移动护理、社区医疗服务、手术麻醉、心电监测、临床服务等领域提供了多种解决方案,但质量参差,技术上也是各自为战,使得可穿戴设备的数据极为分散,设备生成一项关键数据之后,没法被其他机构采用,但其实,健康相关的数据需要被广泛利用才能发挥价值。

此外,健康相关的数据如果要应用于医疗,数据必须通过政府药物监测机构的认证与许可。而大多数厂商没有经过认证,而且数据本身也因传感器质量的好坏而存在不可知的误差。

IBM医疗业务拓展经理刘晶炜认为,医疗行业的信息特征和很多其他行业不一样,存在很多半结构化和结构化的数据,而且分布在不同的医疗机构,因此如何对它进行有效的整合是一个挑战。“每个患者一般很少只去一个医院。大数据医疗的目标之一就是要将与每一个患者健康相关的资料有效地整合在一起,运用以循证医学和数字驱动的两种分析方法看到与风险相关的因素,然后根据这样的因素具体制订计划,并有效地去执行。但这样的整合非常困难。”

专家

需统一标准

国家卫生和计划生育委员会统计信息中心副主任王才有在医疗大数据高峰论坛上表示:“‘大数据医疗’在医疗流程重构、医疗效率提升等方面为我们带来不可估量的价值,然而,走向真正成熟的应用还需要时间。”

“目前,医疗机构内部的信息化功能强,但医疗机构之间的总体协同效果差;纵向卫生业务系统的功能强,但标准化建设薄弱,信息系统之间缺乏信息共享和业务协作机制,系统之间信息不能互通。”专家认为,随着移动医疗的发展,不同医疗机构纷纷根据其需求部署定制化的移动解决方案,医疗行业成为了国内率先启动大数据应用的先锋行业之一,大数据、虚拟化等技术支撑了移动医疗端的应用。

“各类医院、社区卫生服务中心、乡村医疗工作站、疾病监控中心、急救中心等卫生医疗机构大量分散。医疗信息化在十余年的发展中,沉积下的IT系统涉及技术门类众多,给数据采集、数据质量、数据标准以及后续的维护带来了巨大的挑战。假如均采用定制开发、标准接口或人工录入的方式,不可避免地要投入大量的人力物力,并且在数据准确性、实时性上无法得到保证。”