认知应用:大数据的下个转折点

导读:从投资者的角度,西蒙迪斯将讨论数据分析的变革,认知应用的价值,以及最受风投关注的大数据核心领域。

在我的之前的一些博客中,我提到了生成认知的必要性和重要性,并提供了一个认知应用的例子。我始终认为认知应用是对于希望通过挖掘大数据从而改进决策和解决重要问题的公司的关键所在。为了更好的理解和领会开发这类应用的必要性,考虑在大数据领域正在发生什么,并且评估我们在商业智能系统上的经验,及它应该如何驱动我们理解认知应用是十分重要的。

由于我认为认知应用是大数据发展的下一个转折(参见最近使用IBM Watson平台建立的这类应用举例),我将要在一系列博客中进一步探讨这个话题。在这篇博客中,我对于数据分析在过去25年的演变进行了观察,特别是当我们来到大数据时代,开发认知应用是必然之举。在第二篇博客中,我将更为详细地描述这类应用,并且提供一些例子。在第最后的第三篇博客中,我将讨论投资者对认知应用的兴趣,并描述我最近对这一领域的创业公司的投资。在这些博客中,我的分析和理解均基于本人作为三十多年的企业家、量两分析应用创业公司的创始人以及在这一领域进行了15年投资的风险投资人的经验。

数据分析在过去25年

随着过去25年中数据量的大幅增加,针对决策制定的数据理解都由两个步骤组成:创建数据仓库以及理解数据仓库的内容。

数据仓库以及它的前身—企业数据仓库、数据市场等,是构造专业数据库所必须的基础架构。这些数据可能来自于一个单独的数据源(例如客户关系管理应用的数据库)或者来自整合过的一系列不同的数据源(例如将一个客户关系管理应用的数据库和一个包含每个客户的社交媒体交互数据的数据库整合起来)。这些数据可能是结构化的(例如货币被描述为每个用户支付的数量)、非结构化的(例如一个客户和一个服务专员之间以文本形式的交互内容)。专业化数据是那些一旦被抓取,就是干净的、有标签的、并且自动地或被(比人们认为更频繁地进行)人工描述的。

在过去几年里,我们已经通过大量使用开源软件、云计算、商用硬件等来降低数据仓库的开销,并进一步改进我们管理更多样、大量和高速产生的数据的能力。我们已经从只有诸如金融服务的花旗银行以及零售业的沃尔玛之类的大公司才能负担的、千万美元开销的数据仓库转向对于中小型企业可以负担得起的数据仓库。最近,低开销的服务提供方,诸如亚马逊的Redshift,谷歌的BigQuery,甚至是微软的Azure,已经把数据仓库移到云上。最终,数据仓库对于普通企业来说都是可用的。

随着数据仓库的崛起,数据分析报告的交付已从打印转向数字化

数据理解的第二步涉及到通过数据分析来理解数据仓库的内容。在商业环境中,这往往是通过报告和关联的可视化来完成,有时候也会使用更加定制化的可视化和诸如神经网络的机器学习算法(机器学习虽然并不是新概念,但几乎从数据仓库作为数据存储和管理工具出现开始就被使用)。

随着数据仓库被更多的各行各业的公司所采用,我们见证了可以创建的报告的形式的逐渐改变,报告被展现给分析师和决策者,以及准备报告的人。在早期(80年代末90年代早期),商务智能报告由技术专员创建,他们也是通过向数据仓库提供函数和查询来得到报告。这些报告被封装(例如,它们可以被修改,但是有很大难度,且只能被同一个创建报告的技术专员所修改),并在计算机打印纸上呈现。后来,尽管这些报告仍然被封装,它们可以在电脑上通过专门的报告程序来呈现,再后来,可以呈现在包括智能电话和手持终端运行的网络浏览器上。近年来,查询创建和报告撰写的任务从技术专员转交给了商业用户。然而,尽管查询和关联的报告变得更快、更灵活、被更广泛的使用,这些报告的主要用户——商业分析师们,仍然困扰于在大量信息中发现在报告中存在的最简单的模式。最重要的是,这些用户纠结于基于报告所包含的信息应该决定采取什么行动(参见图1的例子)。

图1 关于复杂的数据模式和可视化的一些常见的例子