大数据分布存储和冗余备份用得比较多的还是这个,它把数据通过冗余配置来提高可靠性,这样的话,简易服务器仍然可以在一个低的价钱下,低的成本下得到比较可靠的服务。我们通过调度再分组组合,这是我们需要的结果。这是一个图比较形象的说明左边是数据的来源,当然每个来源可能都有各种各样的数据,需要进行认识,进行分类提取,我们可以看到把它分到不同的地方,这样一来,我们的数据挖掘才可能简化我们挖掘的工作。
我再举个例子,这是在无锡,对太湖的污染状况传感器数据分析,它使用了很多种传感器,有硝酸盐、有氨氮的、溶解氧的、水温的,但是并不是所有的传感器获得的数据都是等同对待的。我们可以看到各类数据都一样。但是太湖的蓝藻爆发强度有关的,首先是溶解氧,然后是水温,基于氨氮、硝酸盐的关联没那么大,所有的数据是需要加权处理的,根据它的影响角度不同,我们给它的值也不一样,只有这样才可以反映出我们最终的分析结果。
另外,还是以太湖为例,我们不但有地基系统的水质探测的传感器,有卫星探测传感器,还有人工采集传感器,多种数据要放到数据采集以后,要进行利用已知的湖泊模型,还要把历史数据拿出来对比,然后才能判断这些数据是不是可能产生蓝藻。这个判断后台需要用到3S技术,云计算技术,数据中心与数据挖掘,所以我们讲究的是要一元数据协同处理。大数据最难的是非结构化数据,图象、照片、视频是非结构化的,目前计算识别图象视频还是有一定难度的,谷歌前几年的做法是计算机识别猫,有15%—20%的识别率,一般的非结构化数据需要把它转化成结构化数据,然后再来进行处理。我觉得非结构化数据本身要进行收集、规律、组织,然后再解释,编辑,再通过上下文的关联增进理解。
不过目前对非结构化数据处理已经有了一定的进展,这是一个照片,照片本身来计算机是看不出来是什么的,谷歌的工程师已经在照片旁边附加了一段文字,他通过一定的算法来分析。他说一群人在室外的市场上购物,在水果摊上有很多蔬菜,将来计算机扫描的时候只要扫描这个摘要就行了,不需要关注照片是什么样子。也就是说把非结构化的照片变成结构化的文字,那么我们再看如果你出差到俄罗斯,或者到俄罗斯旅游,现在会俄文的人不多了,不要紧,你拿手机拍下来,直接上到云端搜索,它会用英文或者中文显示,谷歌声称现在有26种语言可以显示,也就是说照片里面的文字通过用扫描文件还是扫描不出来的。实际上所有的非结构化数据都可以转成结构化数据来处理,比如说通常视频都会有音频和字幕,用语音识别的办法把音频抽出来可以转成文字,在这方面科大迅飞已经做得相当不错了。另外,很多视频里头还会嵌入文字的字幕。对一些照片、标语里的文字也可以扫描,非结构化数据也是可以转化为结构化数据处理的。
我们再来看这是大数据进行的,右边的屏幕上打出声音翻译成了中文。这里面没有同声传译,它是基于微软掌握的大数据技术、神经网络技术、机器学习技术以及上百万素材,一边讲话一边翻译成中文,这是大数据应用,同时反过来大数据需要应用的人工智能技术非结构化数据的处理。
这是医疗大数据虚拟化的应用。大数据究竟会用到什么样的技术,IDC公司在去年说,2015年富媒体、音视频和图象的分析在未来5年会增长100%,在北美有板数公司报告在大数据分析项目里已经使用了富媒体数据。也就是说虽然是非结构化的,但是在大数据里头分析还是很有用处的。
另外,数据即服务,过去有IaaS、PaaS,现在有DaaS,就是将大数据作为服务,现在DaaS已经成为云平台和大数据分析提供商的战略供应链。
还有物联网是下一个数据分析应用的热点,在今后五年,物联网的数据分析市场会年增30%,另外2015年是认知和机器学习应用迅速增长的一年。
大数据分析在企业的应用,目前来看,大部分企业是把大数据分析用于客户分析,然后是运营分析,然后是诚信分析,还有10%是新产品和业务创新,另外10%是企业数据仓库优化。大数据支出最大的产业,一是离散制造,二是银行,三是流程制造。
大数据在供应链里头也有很好的使用,包括供应链的规划、分析和挖掘,电子数据交换,贸易管理、仓库与分销中心管理。大数据在供应链的应用场景在供应链的可视化数据56%,位置和映射数据47%,产品和可追溯数据42%,温度与产品流数据24%,RFID数据18%。