大数据也许不是你想象的那么智能?

在大数据的时代,前所未有的庞大数据集经常被引用、几乎每个人都或多或少与之有所接触,而上一代工具面对如此规模的工作量显得非常无力。

但在大多数情况下,Caldeira和我的数据分析专家朋友还在使用……Python脚本与C++来解决问题。没错,确实有不少大数据用户目前在使用大规模并行架构、集群及云计算实现处理工作,但这种做法已经出现了十年以上;而且如我的朋友所指出,“人们常常分不清自己在云中做出的成果跟他人有何区别,这是因为云环境下的数据无法明确区分出不同开发者做出的贡献。”利用分布式数据库来赢得更快的速度与更安全的冗余机制对于每位用户都非常重要,至少能够帮助我们显著压缩现有硬件成本。

你能想象自己信赖的银行在tweet及Facebook博文中计算账户信息吗?

另一种引发大数据算法变革的因素在于不同类型数据的爆炸式增长。正如前文所述,谷歌与Facebook等公司需要为配置文件或来自各类资源的统计信息进行创建及处理工作,更令人头痛的是这些信息的格式同样多种多样。当然,并不是每位用户都面临着这样的问题。当人们讨论这些新型、凌乱繁杂的非结构化数据时,他们大多数情况下指的都是来自社交网络及博客平台的信息。

银行领域所使用的核心系统(在处理交易事务方面,老式关系类数据库仍然占据着绝对的统治地位)真的需要接触到社交媒体数据吗?库存系统、数字目录或者癌症研究人士所使用的系统呢?我们还需要考虑,如果数据出于某种原因而无法通过分布式、无状态的方式处理,大数据技术又能起什么作用?

高度非结构化数据仍然占据着专门但规模相对有限的利基市场,但其表现与地位则相当抢眼。与当下常见的系统不同,大数据技术不需要对来自各类资源的合并数据提前进行解析、翻译或者预处理。

如果某家公司在多年之后突然认为自己需要大数据技术来让业务更进一步,则意味着他们一定在业务领域迎来了根本性转变、开始走向与之前的经营方式完全不同的发展道路——很显然,即使是在极端情况下上述假设也很难成立。

让你的系统具备可扩展性,一夜之间大数据就可能来到身边

大数据这个概念常常被过度滥用,要么就是被完全错误理解。对于某个特定应用程序中数据量的增加而言,无论这种增长幅度有多么迅猛,我们都不能就将其称之为大数据应用。我们需要做的是对这套系统进行扩容,而这个过程根本没那么复杂——只需做一些设计调整,如果系统本身就预留了扩展设计,连调整都不需要。

以计算机为基础的文本分析工作则始终处于发展之中。记得二十世纪七十年代就有学者在对莎士比亚的戏剧作品进行分析,希望找出其特定单词出现的频率与模式——当时我就被深深吸引住了。如果说如今的大数据有什么新突破的话,可能就是将这项工作扩展到范围更大、数量更巨的文本内容中来。

如果这些文本在20年前就已经出现,而我们要在当时对其规律与模式进行摸索,那简直是不可能完成的任务。科学家们纷纷摇头甩手,表示“我们已经有技术基础了,只是无法真正实现。”即使是在仍不了解这些分析工作细节的今天,我发现研究人士仍然很难通过完全不同于传统排序及搜索思路的方式构建代码算法。可以说大数据在这方面并没有带来什么开创性成就。

如果DVD光盘租赁公司能够在上世纪九十年代抓住这类细节信息,他们可能会很乐于积极捕捉并加以分析。这种令人不安的趋势引出一个问题:电影租赁公司在拥有这种能力后会如何加以利用、怎样将其转化为利润或者给企业之间的合作带来哪些影响?这些数据就像拼图中的图块,能够解开这道谜题将使得企业拥有绝对的主动权。

“数据”并没有在一夜之间就成为万恶之源,最多只能说是一跃成为新时代的另一种重要资源。我们既不应该过分迷信大数据、将现有非大数据技术马上弃之不顾,也不应该将一切问题都推在大数据身上。很显然,传统技术不会瞬间“过时”、新技术也无法一手遮天。