什么是大数据"Big Data"?
我们生活在一个信息爆炸时代,我们每天都会接收到多种的信息:短信、邮件、电话……,我们每天也在生产多种的信息:微博、博客、FRID……。各种各样的信息充斥着这个世界,我们该如何应对和利用好如此庞大的信息?这些问题带来的挑战,让业界对"大数据"的热情达到了前所未有的高度。不久前,记者参加了领先的企业数据集成软件独立供应商Informatica公司举行的研讨会,与Informatica中国区首席产品顾问但彬先生深入交流了有关大数据主题的内容。
Informatica中国区首席产品顾问但彬
什么是大数据"Big Data"?
尽管"Big Data"可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。Informatica中国区首席产品顾问但彬认为:"大数据"包含了"海量数据"的含义,而且在内容上超越了海量数据,简而言之,"大数据"是"海量数据"+复杂类型的数据。
大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据是由三项主要技术趋势汇聚组成:
海量交易数据:在从 ERP 应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。
海量交互数据:这一新生力量由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。
海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说,难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。
具体到一家企业/机构,对于大数据没有明确的规模定义,不过通常其数量介于几十个太字节到多个拍字节之间。一项由 Unisphere Research 对531名独立 Oracle 用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。
不少企业已经感受到失控数据增长对绩效造成的冲击。一项由 Informatica 赞助的 Unisphere Research 调查发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。