大数据技术能够帮助企业用户在茫茫的数据海洋里快速找到所需要的东西。大数据分析相关的人才之争即将展开。
对于推特(Twitter)来说,处理海量的用户数据是一个非常令人头疼的问题,为此他们专门收购了一家公司帮助他们做这项工作。推特的成功完全取决于其对用户所产生数据的充分利用。他们需要处理大量的数据:推特拥有2亿多个托管账户,而这些账户每天会产生2.3亿条推文。
2011年7月份,社交网站巨子推特收购了BackType公司及该公司的Storm软件,后者能够从语法上实时分析数据流,例如数百万条的推文。收购之后,推特公布了Storm的源代码,无意使该软件商品化。Storm对于推特的价值在于其特殊的工作方式,因为这有助于识别新出现话题。比方说,推特使用该软件能够实时计算出Web地址在多个推特用户间的共享程度。
推特的Storm 软件首席工程师Nathan Marz解释说:“这一工作实际上是一种高强度的计算,涉及数千个数据调用和数百万份的用户记录。”在使用一台机器的情况下,计算Web地址的范围需要花上10分钟的时间。但是如果使用10台机器,那么计算只需要几秒钟。对于靠新兴趋势销售广告挣钱的公司而言,更快的运作非常关键。
推特等公司发现,他们手中掌握着大量的数据,而这些数据可帮助实现利润的最大化,并提高效率。而实现这些目标的前提是,他们能够快速组织和分析这些数据。目前大量新技术的出现使得这一目标成为可能,这些新技术大多数是开源技术。
团购网站LivingSocial 的CTO Aaron Batalion说:“如果我们能够更好地理解用户关注什么,利用这些数据提供更好的服务体验,那么我们无疑将获得竞争优势。”目前LivingSocial使用的是Apache Hadoop数据处理平台,以收集更多的用户关注信息。
Batalion说:“开发出一款产品,然后让它们工作起来就万事大吉的日子已经结束了。为了获得成功,你必须要想主意、测试它们、进行迭代、使用数据和分析法去搞清楚哪些在工作,哪些没有。这是我们使用大数据基础设施的方式。”
大数据越来越大
2011年5月,咨询公司McKinsey and Company公布了一份报告。该报告预测了企业在未来几年将会如何被数据洪流所淹没。他们还预测了包括医疗、公共部门和制造业等行业将从对快速增长的数据的分析中获益。
收集和分析交易数据可以让企业洞察到客户的选择,让他们能够及时通知产品设计与服务部门,同时让他们对新出现的问题进行快速补救。报告总结称:“对大数据的使用将成为单个企业的竞争力与增长的重要基础。大数据的使用将支撑下一波生产力增长与消费者盈余浪潮。”
当然,Teradata、IBM和甲骨文等公司推出太字节级(TB)的数据仓库已有十多年时间。在这段时期内,数据更多的是以各种各样的格式被收集与存储,数据能够在多个服务器间被平行处理,而这是大量信息被分析的必要基础。除了维护来自数据库的交易型数据,认真挑选数据仓库中的数据外,企业还获得了服务器产生的大量日志数据、由机器生成的数据表格、来自内部与外部社交网络的用户评论,以及其他松散的非结构型数据源。
Hortonworks公司的CTO Eric Baldeschwieler说:“传统的数据系统无法很好地处理大数据,它们无法处理各种各样的数据,同时这些系统无法以相应的速度进行扩展。这是因为数据增长速度很快,当今的数据很少是结构化的数据。”
研究机构Monash Research的Curt Monash称,数据增长的速度正在以指数级的速度增长。摩尔定律指出,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。 因此并不奇怪,新服务器的性能每18个月就会增长一倍,这也意味着它们的活动将相应地产生更多的数据集。
MapR公司的营销副总裁Jack Norris认为,大数据解决方案代表了数据处理方式出现了重大转变。此前,被认真挑选出来的数据通过被输入到数据仓库中,在那里它们将被进一步检测。随着数据量的增长,网络将成为瓶颈。而Hadoop等分布式系统能够在数据所在地就对数据进行分析。
大数据软件仅仅是收集企业产生的所有数据,让管理员和分析师以后再考虑如何使用这些数据,而不是在数据仓库中创建干净的用户数据子集放置数据,然后再以有限的预设方式应付查询。在这一层面上,与传统的数据库和数据仓库相比,它们要更具备可扩展性。