八大行业Hadoop大数据应用回顾和展望

快递

快递行业IT系统产生的数据量和承载的压力过去一直没有得到大家的关注。近年来,快递行业的规模随着电子商务的高速发展出现了快速的扩张。巨大的市场需求给快递公司带来了前所未有的挑战,每年的“双十一”会给快递公司的处理能力施加远高于平时的压力。因此,怎样缓解“双十一”的爆仓、避免快件变“慢件”是每个快递公司的难题。

如何通过大数据的分析对快递流程进行改善和优化成为一个值得研究的问题,也是快递业提高竞争力的一个重要手段。快递的每一个生产环节都会产生的大量数据,监控这些数据进而对全国各处理中心的收寄和运载能力、出班投递计划做实时优化调整,公司就能降低成本。分析这些数据来对业务发展的趋势做出预测,公司就能做好准备应对暴涨的需求。然而,快递生产环节中的数据具有数据量大、并发性高、类型复杂的特点,上层应用对实时性要求很高,传统数据库在这样的情况下捉襟见肘。

我们和华胜天成合作一起为中国邮政EMS速递部门部署了大数据平台,对它在全国的揽投部、处理中心和集散中心的数据(包括已接收、留存件、已下段、未下段、已投递、未投递、揽收员、地址、已封发、已发运、未发运等等)进行处理。大数据平台将ESB(企业生产总线)流来的数据实时动态加载进流处理集群以及实时数据库,进行实时统计和指标监测,并且实现实时数据查询。这次部署给了客户简单易用的工具来对业务的每个环节实时监控,使得他们在海量的快递业务中都可以快速精准地发现问题,如快件的积压、遗失、破损等,从而提高服务质量。这个大数据平台平稳支撑了2014年“双十一”的数据处理压力。未来该平台也可根据最新的生产数据帮助快递公司调整和优化投递计划,为公司降低成本。

工商

工商部门在建设国家的“经济户籍库”积累了大量的市场主体信息、年检情况、执法数据和12315投诉等数据。对这些数据的统计分析可以帮助工商部门理解市场与经济形势。

大数据技术的其中一个简单应用是用在数据质量管理和统计分析上。由于是人工录入数据,不可避免存在一定出错的概率,虽然概率不大。同时企业和个人的基本信息被分散在几十张关系表中,信息存在一定程度的交叉关联。通过对数据进行大规模交叉比对和统计,可以发现数据中隐藏的错误并及时得到更正。这个应用使用了星环的内存计算技术,全量数据的校验和统计可在十分钟内完成,极大提高了工作效率。

另外,大数据技术也用于市场主体信息的查询系统中,可以应对上亿用户并发查询并在几百毫秒内就返回查询或搜索结果。对企业历史快照的查询可以让用户跟踪企业变更信息,掌握企业生命周期的变化规律。在解决了存储和查询问题的基础上,我们还帮助客户利用图计算引擎快速发现企业之间和企业相关人员之间的关联。通过对全库数据进行扫描,确认这些企业基于股权、任职等方面的关联关系,建立企业关联关系信息库。

电力

随着电力企业信息化快速建设和智能电力系统的全面建成,电力数据的增长速度将远远超出电力企业的预期。从发电侧为例,电力生产自动化控制程度的提高,对诸如压力、流量和温度等指标的监测精度,频度和准确度更高,对海量数据采集处理提出了更高的要求。就用电侧而言,一次采集频度的提升就会带来数据体量的“指数级”变化。电力数据量的增长已经远远超过某电力部门原先使用的关系数据库的处理能力。

我们在2014年主要帮助电力部门处理用电侧的数据。我们意外地发现电力数据的统计分析涉及非常复杂的SQL运算,从技术角度来看,大量使用了Oracle的PL/SQL扩展语法,包括存储过程/控制流/异常处理/增删查改/事务处理等。从应用角度来看,这些SQL逻辑主要用于用电量的历史统计和用电趋势的分析,以及对线路损耗的计算。我们协助客户通过机器学习的方法进行分析,发现用电量跟宏观经济走势以及气候有一定的相关性,同时也跟每个行业以及每个企业的经营状况密切相关。通过对企业用电量的统计以及它所处行业的用电水平的对比,可以发现企业的节能情况,通过对用电历史数据的分析,可以发现企业生产活动的变化或者节能措施的效果。某南方供电局采用TDH的平台统计找出节能环保的企业和用电大户,并对节能环保的企业给予补贴,目的是对全社会节能减排观念进行引导,推动工业由高耗能的粗放发展方式向低耗能、高效率的绿色和谐发展方式转变。