根据Cisco预测,2010-2015年,全球移动数据流量将激增26倍,将达到6.3EB/月;宽带IP数据流量将达到80.5EB/月。
数据的快速增长带来了数据存储、处理、分析的巨大压力,大数据技术的引入,不但满足了系统功能和性能的要求,带来良好的可扩展性,降低了IT部署的成本,此外它还拓展了数据智能分析的应用领域。大数据技术成为当前面临快速变化、数据爆炸时代的企业提升竞争力的有力工具。
大数据:云计算的延伸
什么是大数据?根据维基百科的定义,大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集。大数据的显着特征包括:Volume 数据体量巨大;Variety 数据类型繁多,包括结构化数据以及非结构化数据如网页、日志、视频、图片等等;Velocity要求的处理速度快。
大数据技术与云计算的发展密切相关,大数据技术是云计算技术的延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、NoSQL数据库、实时流数据处理以及智能分析技术如模式识别、自然语言理解、应用知识库等等。
对电信运营商而言,在当前智能手机、智能设备快速增长、移动互联网流量迅猛增加的情况下,大数据技术可以为运营商带来新的机会。大数据在运营商中的应用可以涵盖多个方面,包括企业管理分析如战略分析、竞争分析,运营分析如用户分析、业务分析、流量经营分析,网络管理维护优化如网络信令监测、网络运行质量分析,营销分析如精准营销、个性化推荐等。下面列举一些典型的应用场景。
典型应用1:网络管理维护优化
随着运营商网络数据业务流量快速增长,数据业务在运营商收入占比重不断增加,流量与收入之间的不平衡也越发突出,智能管道、精细化运营成为运营商突破困境的共识。网络管理维护和优化成为精细化运营中的一个重要基础。
传统的信令监测尤其是数据信令监测已经面临瓶颈,以某运营商省公司为例,原始数据信令达到1TB/天,以文件形式保存。而处理之后生成的xDR(x Detail Record)数据量达到550GB/天,以数据库形式保存。通常这些数据需要保存数天或数月,传统文件系统以及传统关系数据库处理这么大的数据量显得捉襟见肘。面对信令流量快速增长、扩展困难、成本高的情况,采用海量分布式文件系统,数据存储量不受限制,可以按需扩展,同时NoSQL数据库可以有效处理达PB级的数据,实时流处理及分析平台保证实时处理海量数据。
智能分析技术在大数据的支撑下将在网络管理维护优化中发挥积极作用,网络维护的实时性将得到提升,事前预防成为可能。比如通过历史流量数据以及专家知识库结合,生成预警模型,可以有效识别异常流量,防止网络拥塞或者病毒传播等异常。
典型应用2:用户行为分析
用户行为分析在流量经营中起重要的作用。用户行为结合用户profile、产品、服务、计费、财务等信息进行综合分析,得出细粒度、精确的结果,实现用户个性化的策略控制。今后还可以对管道内容进行分析,比如图片、电影、网页等,深入理解用户的行为特征。目前流量经营分析中的瓶颈主要是数据的采集和处理。比如某运营商省公司建立了营销门户系统,该系统为适应省公司精确化管理、针对性营销要求,实现对营销活动的日报统计等支撑,打造适用于全省各级营销管理人员、一线经理及支撑人员的营销支撑门户,提供与营销活动相关的日报、月报统计,包括量收、欠费、用户发展、预警信息、机构树汇总等内容。目前每月新增数据量达到4T,传统方式分析结果需要26个小时,数据处理效率低,系统扩展困难。采用Data Cloud、并行分布式处理等大数据技术后,报表分析只需要2个小时,满足了报表对时限的要求,系统扩展性好,可用性高。
典型应用3:个性化推荐
目前在各类增值业务中,根据用户喜好推荐各类业务或应用成为运营商服务用户的一个有效方式,比如应用商店软件推荐、IPTV视频节目推荐。这一类应用需要处理的数据量大,实时性要求高,涉及到大量的非结构化数据以及智能分析,大数据技术成为系统实现中关键的技术。以IPTV节目推荐为例,不仅需要分析用户已有日志及评论、打分等数据,还需要从互联网通过网络爬虫分析获得相关视频和评论进行综合分析。可以采用的相关技术包括并行计算框架、分布式文件系统以及文本分类/聚类/关联算法、文本摘要抽取、情感分析和文本语义分析、文本挖掘等智能分析算法。