随着云计算的落地,“大数据”已成为业界讨论最广泛的关键词之一,很多企业已经在寻找合适的BI工具来处理不同来源收集到的大数据,但尽管大家对于大数据的意识在提高,但只有少部分的企业如谷歌和Facebook这样的企业才能够真正利用大数据挖掘企业商业价值。
其实随着大数据时代的来临,企业对于大数据的理解不应仅限于对Apache Hadoop这样的基础技术的了解,企业应该要从基础设施角度来了解和保护企业拥有的大数据。因为在未来3到5年,我们将会看到那些真正理解大数据并能利用大数据进行价值挖掘的企业和不懂得大数据价值挖掘企业之间的差距,真正能够利用好大数据的企业必然具备强劲有力的竞争优势,从而成为行业的大佬。
事实上,目前很多企业都已经开始关注大数据,厂商也开始大肆介绍自己的大数据产品,相关会议持续不断,这也让我们看到大数据知识普及的成功,但这只是从思想工作角度来看的,当我们寻找那些真正能挖掘大数据商业价值的企业时,几乎寥寥无几,所以就目前来看,大数据价值的挖掘还只是处于初级阶段。
未来真正能够在大数据中挖到第一桶金的必然是像Facebook和Google这样的企业,他们在数据管理和数据开采方面具备先天的优势,所以有理由相信他们将会引领这个大数据时代。除了他们,其他要想在大数据时代引领前端的企业必定是那些行业里的领导者,因为他们有提早布局以此建立行业标准的野心。
大数据的角色
大数据在IT领域到底扮演着什么样的角色呢?举个例子来说说这个问题吧。例如,制药企业如果想要进入制药行业的100强,那么他就必须要抓取上百万个相关网页的数据,然后进行分析、擦除无用信息最后才能找到有价值的信息。对于一个汽车制造商来说,它需要实时手机那些驾驶在道路上的汽车的信息。
尽管企业已经意识到大数据的机制,但却不知道如何才能从中挖掘到商业价值。大数据就像是一个深入大海底部的大鱼网,有的金枪鱼、大白鲨等精品,但同时也有虾米、贝壳等价值低的便宜货。而我们的企业是大小通吃的,这样庞大的数据如何挖掘价值也就成为了一个头疼的难题。
大数据里的语义数据模型
大数据的数据很大一部分属于非结构化数据,包括语音、视频、图片、文档、论坛、网页等,如何才能轻松的操作这些数据呢?建立一个语义数据层是一个很不错的方法,你可以从中提取可用数据在数据库之上建立一个数据语义模型层,以此来帮助你理解地下所有的信息。
从不同来源收集到数据之后,企业要将其放置在一起,然后开始分析、处理这些数据。传统的做法是建立一个数据仓库,将这些收集到的数据提取到建立好的数据仓库中并生成报告。但这是一个相当耗时的过程,而且还无法灵活进行,每次你要做修改,都必须要回到数据仓库去做修改,相当的头疼。
大数据的数据容量是如此庞大,我们需要处理一大堆相关信息,这些信息来源都不同。不同的人对同一个东西的描述也都不一样,语义技术就能够帮助判断出这些叫法是否讲的是同一个事物。例如,有人会叫IBM为“IBM”,有人则称其为“International Business Machines”,其实说的都是一个公司,其实计算机是很笨的,只有通过这个语义数据模型层就能进行很好的判断。
大数据里的风险管理
在数据管理的时候,将所有数据放在一个地方是有很大的风险的,为了数据的安全,数据应该存储不同的地方。如数值数据可以存储在数据库里,非结构化的数据则可以存储在文档或者表格里。我们看到,增加了这些不同来源的风险信息的语义描述,意味着我们可以迅速了解综合风险状况。
通过语义数据模型一个最大的好处就是,在进行修改时,无需回到数据最底层进行修改,去重写遗留系统和数据库语义。因为这个语义数据模型是在数据之上的,它的破坏性远小于其他的技术,只要我们为一个来源的数据提供一个语义定义,我们就可以直接应用到其他来源的数据之上。
其实这个技术并不是为程序员或是数据库管理人员设计的,而是为业务人员设计。业务人员他需要明白这些数据对他而言是何意义,他看不懂最底层的数据表格,他希望能够直观的看到一段时间内销售量与其他因素的关系,而这些只有通过我们的语义数据模型层才能做到。近几年,IT部门与业务部门的界限其实开始渐渐模糊,业务部门能够更好的明确自己的需求,而IT部门也能更好的满足业务部门的需求,虽然还没达到最佳的状态,但已经超着这个方向在努力了。
大数据的安全问题
对于收集到的数据的访问需求,也以为这企业需要保证这些数据的安全性。
很多企业在数据安全方面犯的最大错误就是做完架构、设计、开发等所有工作之后,才开始考虑安全问题,这是非常大的错误。所以实数据安全性应该从开始之初就要考虑安全架构问题。
安全架构的搭建只是一个方面,为了保证数据的安全,建议企业将数据切片进行存储。因为这样能够做到更精确的控制。其实每一块的数据都是企业的资产,在这里可以设置公司员工对于这个数据资产的权限,如查看、修改、删除等权限。当然还要对这些数据进行加密,这样一来,就算有人侵入数据库盗用了这个部分的数据,我们还是比较安全的,因为无上下文的数据对于窃取者来说并无多大意义,因为大数据的价值密度很低。
在这里不得不提到“'toxic data”,这个词是Forrester提出的,主要指的是企业手中“毒数据”。举个例子解释一下,大家可以想象一下无线公司收集到的数据,其中包括登录到信号塔的用户信息,用户在线时间、用户使用的数据,他们的地理位置是否移动等,企业通过这些数据可以进行用户行为分析,但与此同时,公司还能收集到用户的信用卡密码、社交网站的密码、购买习惯等用户私人信息。
这些数据应该说是具有相当大的价值,为何又称为“毒数据”呢?因为一旦这些数据流出落入非法份子手上,势必对企业和个人造成巨大的损失。
世界是很公平的,收入与风险是成正比。但为了降低风险,这时对数据的加密就变得尤为的关键。
谈到大数据,最基本的做法是使用透明数据加密法——那就是对所有捕获到的数据都进行加密。这样能保证企业的所有数据都是经过加密的。过去,考虑到成本问题,很多企业都不愿意这么做,但现在有很多开源的加密方法可供企业进行选择。