困惑的浪漫：并不存在全新的大数据市场_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

最近，我们已经听到了太多关于“大数据”的东西，有很多新的应用程序，关于Hadoop、NoSQL和各种新的分析软件。我最近花了很多时间与人交谈和思考这些趋势，最终确信我们看到的巨大的变化，包括我们已经收集的数据，以及为个人、公司和社会，我们要如何处理这些数据。

　　组织应当如何处理数据，如何将原始数据转化成用于作出决定的信息，我们只是处在完整反思的早期阶段。不过，我也相信，“大数据”这个术语可能是混乱大于实用。数据分析的供应商MicroStrategy的首席技术官杰夫·比德尔(Jeff Bedell)，告诉我，“大数据”只是一个时髦词语，“整个游戏是引入使人困惑的术语。”

　　例如，Gartner对大数据的描述不仅在于数据量，还包括其类型，速度和复杂性。分析师马克·拜尔(Mark Beyer)在去年秋天的有关极端信息管理研讨会发言，表示公司需要建立现代化的信息管理系统，该系统要包含合乎逻辑的数据仓库。

　　相比将“大数据”作为一个事物来谈论，考虑组织如何处理数据的各种变化可能更具现实意义。

　　当然，某些情况下，也有真正的大量数据。大型强子对撞机每年产生15 PB的数据(15,000 TB级)，而即将到来的球面射电望远镜项目预计每天将产生数EB(一百万TB)的数据。但是，这些项目是比较少见的，更多与高性能计算相关，而非典型的商业案例。

　　相比之下，最典型的组织正在处理的数据库，规模显著较小，但仍然可以测量为TB和PB级。(这仍然是一个大量数据。)这些数据可以来自各种来源：跟踪人们在一个网站或多个网站上做什么，分析社会网络，或由传感器产生的数据处理。

　　在谈有关数据造成的结果在最近的改变之前，回顾一下到现在为止这个领域的一些大的趋势，可能会有所帮助。

　　数据库——数据的集合的历史，几乎与数字式计算机一样长，特别地，像IBM的大型机系统上运行的IMS产品。早期的数据库是分层的系统，但模型改变并成为标准仍然是关系模型。这些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇题为《大型共享数据银行数据的关系模型》的论文。

　　今天，每一个大型组织仍在使用的一个或多个这些产品，来存储他们的交易数据，如Oracle数据库，IBM的DB2，微软SQL Server和开源的MySQL(现在仍然是Oracle拥有)。在关系数据库之上，已建成各种应用程序，包括库存，会计，企业资源计划(ERP)，客户关系管理(CRM)，人力资源应用，以及数以千计的大型组织定制应用程序。

　　特别是，作为交易的数量已变得更为复杂，往往分布在多个机器，许多企业已经实施联机事务处理系统(OLTP，也称为面向交易的处理系统)。

　　在过去几十年，一个大的变化，是商业智能平台和数据仓库的出现，通常但并不总是一起运行。

　　数据仓库通常存储来自业务系统的数据副本，但这些系统本身并不使用于不间断的业务经营。相反，它们被用于保持数据的历史，整合多个系统，往往作为分析应用的一个起点。Teradata公司的数据仓库产品可能是最有名的，但近年来，甲骨文的Exadata产品线(并购SUN所得)，和IBM公司(包括其收购Netezza公司的资产)已经获得更多的重视，以及纯软件厂商，如Greenplum(现在是EMC的一部分)。