通过对大数据相关概念进行明确界定,企业可以正确地规划自己的数据体系,并且对传统的技术方法与新兴的技术方法进行合适地定位。
IT技术迅猛发展,新技术层出不穷,但业界却普遍对许多基本概念产生混淆。在当今最为流行的大数据领域也出现了这样的情况。结构化数据、非结构化数据等概念被频繁引用,却各方往往各执一词。对数据概念的混淆已经在很大程度上影响了企业对其数据体系进行清晰、正确的规划。本文的作者从实际工作出发,试图对一些关键的大数据相关概念给出明确的定义,并进行简要的解析。
一、按数据特征分类
■结构化数据
定义:目前其实专指的是关系模型数据,即以关系型数据库表形式管理的数据。绝大多数的企业业务数据都以此格式进行存放。
简析:虽然从专业角度讲,结构化就是关系模型的说法并不准确。但针对目前业内现状,还是将其定义为关系模型数据为最为妥当,因为它清晰而准确地代表了我们传统上最熟悉的企业业务数据,基本没有歧义。
■半结构化数据
定义:半结构化与非结构化常常一同被提及,两者其实专指所有其他“非”结构化数据。但如果想更加清晰地描述,可以将“半结构化数据”定义为:那些非关系模型的、有基本固定结构模式的数据,例如应用日志文件、XML文档、JSON文档和电子邮件等。
简析:从专业的角度讲,上述结构化与半结构化数据都属结构化数据,但建议目前还是采用本定义为妥,否则会引起更大混淆。
■非结构化数据
定义:除去结构化与半结构化的所有数据,即没有固定结构模式的数据,例如WORD、PDF、PPT、EXL文档,以及各种格式的图片和视频等。
简析:区分半结构化与非结构化数据的意义在于,目前在企业内对两者的处理方法(包括存储、访问与分析)是不同的。非结构化数据大多采用内容管理的方法,但对半结构化数据基本没有有效管理方法。
事实上,结构化、半结构化与非结构化数据的区分,实际上只是按数据格式进行分类,并且由来已久。严格来讲,结构化与半结构化数据都是有基本固定结构模式的数据(即专业意义上的结构化数据)。但目前业界的情况是,将其中的关系模型数据单独定义为结构化数据,这对企业数据管理现状是可取的,并具有一定的现实意义。
另外,半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系。本质来讲,两者并无必然关系。业界有将大数据认同为半结构化与非结构化数据的说法,只是因为大数据技术最先是在半结构化数据领域发挥作用。上面的认识误区是将数据处理技术与数据格式概念混淆,这是不正确的。
二、按数据处理技术分类
■大数据(技术)
定义:大数据是最近几年兴起的概念,业界普遍将其定义为具有4个V(数据量大Volume、变化速度快Velocity、多类型Variety与价值密度低Value)特征的数据。实际上,大数据的概念准确地讲应该是指大数据技术,指对海量数据不同于SQL体系的新的、低成本的处理技术,而不是指数据格式或者其他。
简析:业界对大数据的定义最为混乱,大致有以下几个误区:有将大数据等同于半结构/非结构化数据的,而实际上大数据技术只是最先在半结构化数据领域发挥作用,现在已经渗透到多结构领域;有将大数据等同于Hadoop的,而实际上Hadoop只是在掀起大数据热潮方面发挥了巨大作用;有说大数据就是除企业业务数据库之外的所有数据,但却有很多企业用大数据方法有效地分析与存储某些业务数据。
另外,被内容管理手段管理起来的数据又该如何界定呢?有的说大数据就是互联网特征的数据,那传统企业就没有大数据了吗?有的说大数据就是量很大的数据,这更是无法界定了。其实,仔细分析,还是将其定义为数据处理技术最为准确。除SQL体系与内容管理技术外,大数据技术目前具有很丰富的内容。除此之外,大数据技术一定是强调低成本的。
■关系数据库技术
定义:与数据格式分类中的关系模型相比,这里是指SQL处理体系。
简析:关系数据库技术依然是企业数据管理的核心,大数据技术的定位需要进一步地考虑与研究。