中国制造2025变革，背后的大数据来龙去脉_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

随着大数据工具和服务的发展，2015年，IT行业将逐渐缓解发展瓶颈的局面，许多商业用户和数据科学家将会借助相关工具和服务访问大量数据。自助服务大数据将成为IT行业的一种趋势，它允许商业用户可以通过自助服务接触大数据。自助服务还可以帮助开发者、数据科学家和数据分析师直接进行数据探索和处理工作。当我们了解大数据的时候，业务的价值和IT的成本是我们主要衡量未来IT的标准，业务价值驱动大数据创新。Hadoop不再成为我们讨论的大数据主题。我们需要了解更多的是业务创新，数据变现和业务场景的探索。

下一代的大数据体系——数据湖

每个数据项都应有清楚的追踪，可追溯其源系统以及该数据项产生的时间等信息。2010年JamesDixon以此理念，创造了数据湖（dataLake）这个术语，当时他打算将数据湖泊作为单一数据源来使用，而多数据源将形成“水景园”。尽管还是最初的构想，如今最普遍的应用是将数据湖泊当做许多数据源的结合。现有数据仓库在分析能力的缺失，业务对数据获取能力的提升，高级分析方法的创新是一种必然。

数据湖泊是近十年出现的术语，用来描述数据世界中，数据分析管道的重要组成部分。作为一个信息系统，数据湖泊是大型的基于对象的存储库，数据以其原始格式存储。通过全面的监控和分析，通过数据的分析模型的建立，学习，模拟，行动，最终实现内容认知的智能。有并行体系以及无需移动数据即可对数据进行计算操作的明显特点。

特点1：数据湖泊是一个并行体系，能够存储大数据

数据湖泊的每个数据元素都有独特的标识符，并有一组扩展的元数据标签。

数据湖泊以数据源提供数据时的原格式（不论原格式是什么）存储原始数据。没有预设的数据模式，每个数据源都可以使用任何模式。由消费者根据自己的目的来理解数据。

特点2：数据湖体系无需移动数据即可对数据进行计算操作

通常数据仓库一方面要清理，一方面还要聚合数据，从而使分析更加容易。但科学家往往也反对这点，因为聚合意味着丢弃数据。你不知道今天或者几年以后哪些数据会有价值，所以数据湖泊应包含所有数据。数据湖泊使用平坦架构存储数据。这个理念是建立一个单一存储区，用来存储组织内任何人员可能需要分析的所有原始数据。通常人们使用Hadoop对湖泊内的数据进行各种操作，但这个概念比Hadoop要宽泛的多。

总结

大数据技术自身在快速的发展，从1.0到大数据3.0的数据湖时代，我们要理性的看待大数据，在关注数据量的同时，应该更加重视数据分析的能力和方法。笔者认为，实用分析工具与先进分析理念，真正释放数字化分析的力量，由人类轨迹产生的数据，与机器自动产生的数据得出洞见，从管理决策推导运营方案，最终实现数据价值提升。

业界有很多大数据的技术公司提供不同的技术，其中也包含了一大堆的开源软件开发出来的。大数据的成长路径一定是个长期成长过程。在不同的阶段，来打造不同的IT能力，我们倡导的是开放式大数据架构。不仅仅为大的数据集服务，同时企业中业务人员有很多小数据集的分析和探索。在很好满足业务的不同需求下，大数据一定是一种混搭技术，利用现有的IT投资来达到整个回报的最大化。特别在中国智能制造2025的变革中，数据湖不会是数据仓库和BI平台的终结者，但数据湖一定是未来企业数据技术（DT）的核心纽带，成为引导中国制造2025变革的数字宠儿。

2/2 首页上一页 1 2