随着更多数据的产生,我们已经可以更有效地管理数据所带来的开销,但是仍然挣扎于进行有效的数据分析
受到全球因特网的普及,它所带来的网络连通性的驱动,物联网之类的新领域产生的前所未见的海量数据,以及基于这些所创建的大量应用,使得我们被数据所淹没。快速数据和慢数据,简单数据和复杂数据,所有这些数据都是前所未有的大量。数据的量变的多大了呢?我们已经从在2014年产生大约5泽字节的非结构化数据到2020年将增加到大约40泽字节的非结构化(参见图2)。
图2 非结构化数据在2005至2020年的实际和预期增长对比
特别是在上一个十年间,随着数据量变得更大,企业的IT策略核心变为用很少的资源做更多的事。公司的数据仓库开始面临两大问题。第一,其中的一些系统不能有效地管理所获取的海量数据,因而数据不能被应用有效的利用。第二,开销变得不能承受的高,成为数据管理方面另一大挑战。
与此同时,当新一代的数据管理软件(例如Hadoop)被谷歌、雅虎等重量级科技公司开发出来,一些“部分”解决方案开始出现。一开始,这些软件在商用硬件上运行,并且很快开源,从而使得企业可以以较低的开销来解决它们的大数据问题。Cloudera, Hortonworks以及一些其他提供开源软件服务的公司在大数据基础设施领域扮演了重要角色。我将这些解决方案称为“部分”是因为在管理数据的同时,这些系统并不包含企业所使用数据仓库系统的那些复杂的、专用的功能。但是这些新系统擅于构建数据湖泊,适用于多样化的大数据环境,并旨在通过更低的开销替代或增强某些类型的数据仓库。
尽管我们有效管理大数据开销的能力得到了改进,但是我们分析数据的能力,不计开销的情况下,仍然没有提升。尽管大众媒体宣称从数据中得来的认知结果将是新的石油(或金子,挑选你喜欢的隐喻),但市场研究公司IDC预测,到2020只有很少一部分采集的数据会被分析。我们需要分析更多抓取的数据,并从中提取更多的信息。
我们正在致力于改进我们分析数据的能力,但是面临着数据专业人员的短缺
为了收集和分析更多的数据,同时不放弃报告的生成,我们开始广泛采用机器学习和其他基于人工智能数据分析技术的自动化的信息抽取方法。然而,这些方法要求使用一类新的专业人员——数据科学家。尽管我们看到数据科学家的数量潮涌般增加,但是我们需要更多,并且,与正在产生的数据相比我们永远不能提供足够的数据科学家。麦肯锡曾估计,到2018年,美国将面临(大约14万至19万缺口)人才缺口,这些人拥有可以从收集的数据中提取认知结果的深度分析技能。我们还将缺少大约150万拥有量化分析技能的、可以基于数据科学家生成的大数据分析来做出重要商业决策的经理。
机器学习改进了我们发现数据中关联性的能力,但做出决策的要求的时间变短了,而数据产生的速度增加了
商业智能是一个出现了近40年的领域。统计分析和机器学习技术被使用的时间则更长。在这一时期,我们已经提升了我们从数据集中识别关联性的能力,但是做出决策的时间要求正在变短,而数据产生的速度不断增加。举例来说,公司的首席金融官们可能有一个月的时间来创建金融预报,然而一个自动的在线广告平台只有仅仅10毫秒的时间来决定把哪一个数字广告展现给特定的用户(参见图3)。此外,一个首席金融官仅需要参考几十亿字节的数据就可以得出决策,而在线广告系统不得不分析万亿兆字节的数据,大部分的数据还是近实时生成的。
图3 各行业做出决策需要的平均时间示意
在一些应用领域,简单地识别出数据集中的关联性对做出决策来说已经足够。在其中一些高价值高投资回报的领域,通过数据科学家和其他专业人员来从大量数据中抽取信息是合理且必要的。计算机安全威胁检测以及信用卡欺诈检测就是两个这样的领域。在这些领域里,作出决策的时间是非常短的,做出错误决定(过度保守)的代价,至少最初并不是非常高。将一个交易视作欺诈或者将一个行为视为安全入侵的代价也很低(例如持卡人的不便或是对于系统管理员的一些网络取证)。但是,没有检测到在已建立的行为模式中的异常的代价将会更高。