IBM大数据调研白皮书:非结构化是挑战

其中一个原因是很多组织难以应对和驾驭某些数据类型所固有的不确定性,例如天气、经济、或者社交网络所反映的人的情绪和真实想法。对于能否相信网络上的评论、意见、微博消息以及其他形式的自由言论,受访者在调查中提出了质疑。虽然存在不确定性,但社交媒体数据中仍然蕴藏着宝贵的信息。组织必须认识并驾驭数据的不确定性,并了解这些数据应该如何为己所用。

社交媒体和其它外部数据源未得到充分利用的另外一个原因就是技能缺口。对大部分组织来说,掌握先进的新型数据分析能力仍然是从“大数据”中获得价值的重大挑战,比如文本、传感器数据、地理空间数据、音频、图像和视频这样的非结构化数据和流数据。在此项调查中,只有25%的受访者表示自己具备分析高度非结构化数据的能力。

“大数据”采用情况

四分之三的受访者(76%)目前正在开展“大数据”项目开发工作,但报告证实,大部分受访者(47%)当前仍处于早期规划阶段,但同时也有28%的受访者正在开发试点项目或已经实施了两项甚至多项“大数据”解决方案。还有近四分之一(24%)的受访者尚未着手开展“大数据”活动,并且还在研究大数据对其组织究竟有何益处。

显而易见,“大数据”将带来蓬勃商机。近三分之二(63%)的受访者表示,信息(包括大数据)和分析的使用为其组织创造了竞争优势。在此次调查中,提及“竞争优势”的受访者比例与2010年IBM调查相比增加了70%(2010年比例为37%)。

分析:实践“大数据”的核心能力

如今,实践“大数据”的大部分组织都是从运用核心分析能力分析结构化数据入手的,例如查询和报告(91%)以及数据挖掘(77%)。有三分之二的受访者表示其所在组织采用了预测建模技术。但“大数据”也要求组织具备分析半结构化和非结构化数据的能力,其中包括各种全新的数据类型。

在超过一半的“大数据”项目中,受访者表示其所在组织采用了先进技术来分析自然状态的文本,例如呼叫中心对话内容的文字记录。这些分析技术包括解释和理解细微的语言特征,例如情绪、俚语和意图。此类数据可以帮助企业(例如银行和电信服务提供商)了解客户当前的情绪状态,并获得能够直接用于推动客户管理战略的宝贵洞察。