八大行业Hadoop大数据应用回顾和展望

我们还为某电力部门部署了一个试验性的故障处理系统,我们和合作伙伴建立了统一的配电网供电拓扑模型,利用图数据库存储从用户到变电站的整个供电拓扑网络数据,利用流处理系统进行实时告警,并实时查询电网拓扑图,快速研判停电事故发生的地点以及影响的范围。在此基础上,可以将停电事件通知抢修班组,及时恢复供电。同时可以主动告知用户,加强与用户互动,全面且直观的掌握全网的停电分布情况。

交通

随着经济迅猛发展,机动车辆不断增加,全国性的交通拥堵现象也越来越严重,如何通过信息化手段提高交通管理水平和保障道路安全已经成为一个重要的课题。

目前常用的方式是在道路卡口部署数字监控设备,这些设备7×24小时不间断捕获图像和视频数据,并进行识别,一个省或直辖市每日产生的过车数据有几千万条记录。这些数据主要用来为交通管理部门提供实时的路况信息,这些信息未来可以发布给公众作为出行的参考信息。同时协助管理部门进行交通管理,包括对重点营运车辆的监控,违法车辆的识别和布控,区间测速、套牌分析等实时性的分析应用。 我们和合作伙伴为某省公安厅交通管理部门部署了全省范围的交通监控系统,采用分布式队列实时采集全省各个交通卡口的车辆信息,使用流式计算集群对过车记录进行实时统计和监测,并实现上述多种实时分析应用,系统处理信息的端到端延时在2秒以内,较好地提高了交通管理的效率。

当然,交通行业的大数据应用还处于起步阶段,刚刚开始或者即将完成大数据的集中收集。利用大数据技术的强大分析和挖掘能力,未来可以显著提高交通信息的实时透明度,提升交通和拥堵管理的水平,降低事故的发生率,并为城市规划提供参考。

广电

在中国,广电系统正经历着数字化浪潮的冲击,基于网络化的影视播放给传统广电运营商很大挑战。在此背景下,华数传媒敏锐意识到,要想获得未来网络化传媒的生存与竞争优势,现在就必需向用户倾斜,打造“精准型”广电内容及传播运营商。华数传媒需要的数据基础架构需要能够满足海量、多来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,并提供快速实时的数据分析结果,迅速作用于业务。华数传媒选择了我们为其部署了大数据平台,在其之上开发了数字电视分析系统。该系统可以提供基于全量数据的实时榜单。以时间(小时/天/周)、用户等维度,对点播节目、直播节目、节目类别、搜索关键词等进行排名分析、同比环比分析、趋势分析等。系统还可以从时间、频道、影片类型、剧集等维度,根据在看数量、新增数量、结束观看数量、完整看完等分析用户走向。另外,通过对用户行为数据的采集分析,华数传媒可以对客户进行精准画像,使用智能推荐引擎,系统可以先于观众知道他们需求,预知将受到追捧的电视,为每一个用户量身定做推荐节目,以提高了产品的到达率,增强用户忠诚度。另外,系统还可通过观众对演员、情节、基调、类型等元数据的标签化,来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。得益于基于大数据平台的数字电视分析系统,华数传媒正在进行从内容传输到内容制造的“华丽转身”。

电子商务

在电子商务领域,大数据可以说已经成为业务支撑的关键技术,在营销推广、客户关怀等众多环节发挥重要作用。我们和锦江电商合作,利用大数据平台为该电商打造了产品推荐系统。我们基于大数据平台建设了客户标签体系。依托该电商大量的会员和访客,深度学习和挖掘客户的行为数据,依据RFM模型和客户信息,形成客户消费喜好、客户年龄、家庭状况、甚至星座、属相、消费频次、金额、出行方式等等信息计入客户标签。再将客户标签聚类分析,形成客户分群。如此,便能精准获取客户群体,实施精准营销。同时,我们还协助客户建设了产品标签体系。依据酒店与旅游等各类型产品特征,建设和挖掘产品标签,并经过一定的机器学习挖掘过程,将客户标签和产品标签对接,根据各类标签分析权重,建设智能化推荐系统。

该推荐系统可以智能化推荐产品,正逐步成为针对电商的会员关怀体系和精准服务体系中重要的基础环节。

总结和展望

总结了一下2014年的Hadoop大数据行业应用,有些应用可能是大家之前没有预想到的简单应用,有些则是复杂的数据分析和挖掘类应用。大数据技术本身是一个全新的数据处理和分析技术,拥有超过现有技术的强大处理能力和深度挖掘数据的能力,然而技术本身带来的价值需要通过上层应用来展现,因此如何应用这些能力来解决现实的问题是各个行业都在探索的课题。在2015年预计会有大量的基于大数据技术的创新应用涌现出来。