任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程。大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用。但从媒体和公众视野中,大数据技术总是带有神秘的色彩,似乎有着挖掘财富和预测未来的神奇力量。广泛流传的大数据应用案例包括Target超市根据女孩的购物历史判断是否怀孕,信用卡公司根据用户在不同时空的购物行为预测客户的下一个购买行为,等等。大数据技术也为我们描绘了一个个如“智慧城市”,“智慧交通”和“智慧医疗”等等的美好梦想。这些描述让大家对大数据技术充满了憧憬和美好预期。
我从2014年的大数据应用中总结了两个重要的现象或者说应用趋势。第一个现象是大数据技术优先应用在采用SQL进行结构化数据处理上,来解决数据量增大带来的处理能力的挑战;这与很多人宣传的大数据技术最适合处理非结构化数据(而不适合结构化数据处理)相反。我们发现企业面临两方面的挑战,一方面是累积的数据量越来越大,从GB增长到了TB(拥有PB级的企业客户也有,但是少数),另一方面,随着应用的增多和复杂化,计算能力越来越不能满足要求。大多数企业多年来根据业务需求在传统的关系数据库如DB2或者Oracle上开发自己的应用,数据量和应用的数量都在快速增加,传统数据库运行这些应用花的时间越来越长,即使只有1TB的数据,由于业务逻辑的复杂性,在传统关系数据库上运行统计业务,也从以前的日报(每日统计)降低到只能做现在的周报了。这样的时效性已经大大限制了企业的生产力。在IT系统日益成为企业业务本身的大趋势下,IT系统效率的低下严重影响了企业的竞争力。这些待处理的数据都是企业的结构化业务数据,现有的应用也都是基于SQL的。这是分布式的SQL on Hadoop技术发展的客观原因,也是星环科技致力于提升SQL运行性能和SQL支持完整程度的一个现实需求。
第二个现象或者需求是对实时时序数据的处理需求日益强烈,特别是随着传感器和监控设备等电子仪器的普及,企业有越来越多的实时数据。传统处理方法是将电子仪器产生的数据存入数据库后再统一分析。随着设备的增多和数据的增长,传统方案的延时越来越高。利用流处理技术在数据产生的时候就进行实时处理可以极大地提高企业的反应速度和工作效率。2014年星环科技部署了较多的流处理集群,来处理从用户产生的实时数据到传感器产生的数据。
这两个应用趋势我认为在2015年会变得更加强烈。下文简单总结了过去一年中在运营商、金融、物流、工商、交通、能源、广电和电商等多个领域中的大数据应用。
电信运营商
移动互联网时代的运营商面临着许多新挑战。微信等手机通讯APP的出现侵蚀了运营商的语音和短信收入,流量业务显得更加重要。另一方面,无线网络服务是运营商的核心竞争力。近年来,运营商正在投入大量资金建设网络来大力发展4G。4G网络的覆盖率不高或者质量不高导致的4G回落到3G或者2G会大大降低客户满意度。
经过最近一两年的探索,运营商在大数据平台建设方面总结了两个方向,一是利用大数据技术来提升运营效率,同时探索新的商业模式和数据运营方式。在过去的一年中,大数据在运营效率提升方面得到验证,而新的商业模式仍然在探索中。我们在广东移动的经营数据分析中应用星环的内存计算技术成功地将800多个指标的计算从原先Oracle的30小时减少到了4小时,在上海移动成功地将流量经营系统从DB2完整地迁移到了星环的TDH上,运行效率比原先的集群有5倍左右的提升。我们对SQL的完整支持使得应用系统迁移成为可能,而之前合作伙伴曾经尝试过将应用系统迁移到某知名Hadoop发行版上但没有成功。我们正在参与某省电信和某直辖市移动的4G网络优化项目,在这些项目中,我们的合作伙伴在用更高性能的星环TDH代替传统MPP数据库进行网络优化模型的建立和高速的模型运算,一方面发现网络中存在的问题,例如信号回落的问题,帮助运营商快速找出有问题的区域。另一方面通过TDH提供的完整SQL结合统计和机器学习算法,找到最佳的优化模型和参数,对网络进行细粒度的精确调整,以提高网络的覆盖度以及信号的质量。
金融
在2013年到2014年间,国有银行以及部分股份制银行或多或少地进行了大数据技术应用方面的探索,但是早期的应用局限在简单的历史交易查询以及非结构化数据的存储和检索上,并没有对银行的关键业务产生影响。而大数据技术在银行的应用前景被广泛传播,通过综合处理银行自有结构化交易数据以及外部互联网/政府数据,可以提升精细化客户管理水平以及进行大数据征信降低风险等。这些远景在2014年没有成为现实,2015年预计将是应用探索的一年。但我们在2014年在银行中实践了一些务实的应用。在这些应用中,TDH作为数据仓库的补充,用于提升数据分析的效率。同样受益于我们对SQL的完整支持,某股份制银行开始把一些复杂的贷款风险控制逻辑迁移到TDH Hadoop平台上进行运算。这些风控模型客户此前在多个MPP数据库和Hadoop发行版上进行过尝试,性能或者功能都没能满足他们的要求。从技术角度来看,这些分析涉及的数据量只有几个TB,但是分析业务极其复杂,涉及到近百张事实表和维度表,有些表的宽度甚至超过了几万字节。这个案例说明传统关系型数据库或者MPP数据库对于大数据场景下的复杂计算变得越来越捉襟见肘,银行需要一个更高效的数据处理工具。