美国|大数据需要庞大的全新架构(编译)

“大数据”的潜力,来自传感器、智能设备、及连接到互联网的所有其他设备的信息源的大爆炸,可能在其最终业务影响下升值。但是,采取大数据的最大优势,必须按动信息获取和理解它的体系结构上的重新启动按钮。这将需要建造一个新的方式获取、组织和分析数据。因为如果人们尝试将其用于商业智能的传统机制,如数据仓库和传统的数据分析技术 ,那么大数据毫无作用。

重新思考资源库

现在,基于最近一直在做的研究中迸发的大量新想法,我们需要稍稍猜测一下新架构可能的样子。 (关于本人对此话题的更多思考,请见CITO研究关于问题的声明《为大数据准备》)第一站是资源库。 Pentaho的首席技术官詹姆斯·迪克森,提出构建大数据的新概念,即从广阔世界连接的设备的数据。迪克森认为CIO们应该想到一个“数据湖”而不是“数据仓库”。二者的区别在于:在数据仓库,数据在录入时提前分类,以便规定如何分析,这对在线分析处理的确有用。在线分析处理以最佳形式存储数据,以支持特定类型的分析。 

问题是,在大数据世界,我们不清楚当可用源数组最初被接受时数据的价值。我们可能知道我们要回答的一些问题,但在一定程度上,不去回答发生了的问题没有任何意义。因此,以“最佳”形式存储数据以供日后分析毫无意义。相反,迪克森的建议是将数据存储在大量、易用、保管费便宜的资源库上。一旦有问题需要解答,可有充裕的时间组织和筛选数据块,找到问题的答案。

Pentaho创建了一个数据组织优化系统,将数据存放在“数据湖”中,这允许客户使用Hadoop筛选数据并提取可以回答问题的数据块。从本质上讲,Hadoop取代了OLAP(在线分析处理)的功能——存储回答特定问题的数据。

但是,Hadoop只是管理数据湖的一种方法。还有其他新形式的数据库,和其他新方法来组织大型数据。

标签,筛选和排序

Pervasive的Data Rush(数据涌现)提供了另一种方法:数据筛选。Data Rush是一种编程工具包,它能创建高度并行的应用程序,克服筛选大量数据的挑战。使用Data Rush时,你必须编写程序,这比配置Hadoop困难,但它筛选数据的速度和价值值得你用于某些应用程序。

另一种方法是监视在特定事件时到达“数据湖”的数据流,复杂事件处理(CEP)引擎也可以筛选甫一进入存储器或之后要进行分析所需的数据。

 ThingWorx,创始于宾夕法尼亚州,使用一个配以标签的图形数据库结构,以便提供甫进入数据库的数据(元数据)信息的最大数量。数据一到达其图形数据湖,就会被标记其来源,收集时间,或任何其他可能会很有趣的标签;也可在数据到达以后添加标签。之后,当用户需要分析数据,他们既可以利用这些标签,也可以利用图形数据库中陈列的数据间的关系,这些关系代表了数据的逻辑组合。这允许用户提供数据的层次结构,所以,如果有几十个数据流的设备抽出,用户可以查看这些设备,无论是作为单个设备或整体设备,因为图形数据库允许设备以任意方式概括。

拖动数据湖

一旦数据湖是可操作的,用户需要想方设法遍历数据湖,并确定“活在”湖中的信息的价值。新搜索引擎也已成功开发,并专门用于查询驻留在数据湖的数据类型。这些搜索引擎从根本上不同于在数据仓库中使用的搜索引擎。在数据仓库中,访问的主要模式是关系数据库存储范例,其中的数据结构在数据库设计时就已经预先确定。有了数据湖和大数据,数据结构更加灵活。

事实上,有许多新的不同的结构进入市场,这决定了搜索时的数据结构而非存储时的数据结构。这意味着通过数据湖的过程很像用户在Google上查询,查看结果集并决定,“啊,这里有一个我感兴趣的领域”。在接下来的搜索,您可以使用该字段,并可能创造和识别其他字段,同时进行交互搜索并扩展大数据结构性质。

此外,您一搜索,就创建了大数据的不同来源之间的关系。

通过这种类型的分析,大数据实际上变得有用。认识到这一点,供应商已跃升至提供相关的解决方案。前面讨论的Data Rush技术可以创建应用程序,通过编程筛选大数据。

最简单的方法是用Splunk技术,它有其自身的搜索语言,允许您通过大数据搜索,找出有用的查询类型,并表达你对搜索时的数据结构的理解。采用Splunk,数据和搜索结构得以保持,并作为未来用户的基础。

ThingWorx也有类似的的方法。 ThingWorx使用工具SQUEAL™(搜索、查询、分析),允许您通过使用标签和图形数据库结构搜索数据,并分析结果,以确定事物是否重要。采用Splunk和ThingWorx,您可以筛选新采集到的数据,以确定重要的信息或事件。 (关于ThingWorx架构的更多信息,请参阅CITO研究最近发表的白皮书《连接的平台的诞生》)

消除IT瓶颈

最后,为了使其有用,IT必须尽可能简单地确定“数据湖”中什么东西比较重要,用以回答特定问题集。我们的目标是提取一个可分析的数据集,使用任何相同的可视化或解析工具,用于其他数据类型。在渠道终端,大数据不会看上去如此不同,而将是一个混合的、不断改良的、归结的重要数据集,但用于较小的重要数据集的数据采集和存储技术相差很大。真正的价值由企业提供好,这使得大数据收集的排序和审讯变得尽可能简单,让IT不再是瓶颈。

数据湖已经被证明是用于商业洞察的可行办法,通过营销人员和业务分析师管理并掌握从机数据和业务情报的深刻见解,Splunk发展迅猛。ThingWorx,在其早期的客户端实现中,也通过采集和保存关于更多数据的知识而蓬勃发展,除此之外,还展现了图形数据库外的数据不太可能采用的数据间关系。这些都只是能处理大数据的少数技术,他们都是通过创建这些新的架构,使大数据变得有用。最先创建这些架构的公司必将脱颖而出,成为胜利者。

丹·伍兹是CITO研究——关注CTO和CIO需要——的CTO(首席技术官)及编辑。他为多家他笔下的公司提供咨询服务。关于CIO和CTO将如何发展的更多内容,请登陆CITOResearch.com。
 

【中云网独家编译,如需转载,请注明文章出处“中云网”及网址链接。】