任何一个时代或者模式的兴起,都离不开与之相关的Killer App,比如,C/S时代的SAP ERP,互联网 1.0 时代的门户,以及互联网 2.0时代的搜索和SNS等,那么在当今云计算这个时代有那些Killer App呢?当然首先想到的肯定是以VMware 和Amazon EC2为代表的虚拟化和相关IaaS服务,除此之外,新近崛起的大数据绝对也是云计算的Killer App之一。不仅类似百度、阿里,以及腾讯这样的互联网巨头有相关的应用需求,而且根据笔者平时与客户的接触,发现有很多普通中小企业,特别是中型的互联网和物联网企业,在大数据方面的场景也有很多。本文将首先给大家介绍一下在笔者眼中的大数据,以及大数据的意义和特点,再介绍一下大数据的常见处理流程,之后将会和大家分享一下笔者如何帮助一些中小企业实施大数据相关的解决方案,也就是大数据如何从“小”做起。
什么是大数据?
过去计算机产生的数据较简单,基本上都是一笔笔事务,总量虽大,但整体增长幅度都还是可控的。比如传统的金融企业,经常使用几台大型机就能管理其所有的业务数据。而最近几年,由于以平板、智能手机和传感器为代表的智能设备越来越多,这些设备的生成的数据更是远远地超过我们的想象。据IDC的统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将是现在的44倍。据另外一份数据显示,全球 90% 的数据都是在过去两年中生成的,并且每年以50%的速度增长。每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络会产生PB级别的数据;每个月,全球网友会发布了10多 亿条 Twitter 信息和300多 亿条 Facebook 信息。那么这些大数据的存在有什么价值和意义呢?
大数据的意义
笔者个人和一些朋友一直觉得大数据就好比一口油井,因为里面蕴含着非常丰富的价值,如果企业能有效利用其内部存储的海量数据,那么将会改善其自身的产品和服务,从而提升客户和受众的体验,在大数据时代获取竞争优势。并且随着本身分析和挖掘技术不断的提升,可以在之前的基础上提供新的决策模式,从而支持管理者进行快速和精确地决策,这样能够超越对手,抢占市场先机。
以下的内容会通过几个行业来举例讲解一下大数据有哪些意义和作用?
互联网企业
有一些客户主要是做网络舆情或者网络广告方面的业务,他们每天都会处理和收集TB级别的日志或者网页信息,结构化和非结构化数据都有。他们就是通过分析这些数据来为其客户提供价值,比如分析一下一个男性护肤品广告是在世界杯期间投放好,还是在亚洲杯期间播出好?在电子商务方面,eBay是个很好的例子。其分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,并且通过这些分析促进eBay自身的业务创新和利润增长。
智能电网
我们有一个合作伙伴,他们是做智能电网相关的解决方案。对那些电网而言,如果无法准确预估实际电力的使用情况,将会使电网要求电厂发出过量的电力,虽然这些过量电力可以通过某种模式进行保存,但是大量的电力浪费已不可避免。而通过他们智能电网的解决方案,每隔一刻钟会采集一个省几千万用户的用电数据,之后他们会根据这些数据来精确分析用户的用电模型,最后通过这个用电模型来优化电力生产,从而有效地减少电力资源的浪费。
车联网
在车联网方面,有一家客户在一个城市有几十万台基于Android的终端,而这些终端每隔一段时间都会发送具体位置的GPS消息给后端的数据集群,接着这些集群会分析这些海量的GPS信息,分析出哪些路段在什么时候比较堵,之后将这些非常有价值的信息不断地推送给客户,从而帮助用户减少在路上所消耗的时间。
医疗行业
在医疗行业,大数据的用例有很多。首先,通过分析大量的病例信息,将有效地帮助医生治病;其次,假设在一个病人身体的多个节点加入探针设备,而且每个探针每天会采集GB级别关于人体细胞和血液运行状态的数据,之后计算集群可以根据这些数据来进行分析,这样能更精确地判断病因,从而让医生对病人进行更具针对性的治疗。
机器学习
在这方面,最出名的例子莫过于最近很流行的Siri,它后台有一个庞大的HBase集群来对类似语言这样的文本数据进行分析和管理,从而使Siri变成一位越来越老练的个人助手,为iPhone 4S的用户提供了日期提醒、天气预报和饭店建议等服务。除此之外,还有IBM的Watson,它通过一个基于Hadoop UIMA框架的集群来挖掘海量的文本信息来实现一定程度的人工智能,并在美国著名知识问答节目Jeopardy中战胜多位出色的人类选手。
国家安全
这方面最出名的例子,莫过于美国的联邦情报局(CIA)。在过去10年中,他们通过无人侦察机收集了大量阿富汗那边地理相关的视频资料,之后通过分析这些海量视频资料,来对极具危害性的恐怖组织团伙进行定位。