电信大数据关键技术挑战

3 数据融合中的模式转换

电信大数据分析面临9个关键的挑战,分别是特征工程、预测算法、根本原因分析、实时分析、时空数据挖掘、知识工程、多媒体挖掘、图挖掘和隐私保护。

3.1 以时空数据为核心的特征工程

随着移动设备和移动互联网的普及,随时随地使用移动终端已经成为人们的一种基本生活习惯。因而电信数据成为获取城市用户、区域细粒度时空行为信息的重要数据源。这些细粒度行为信息可以被用作建模的重要特征,从而大幅提升电信数据挖掘效果[1]。因为电信数据来自多个数据源,如BSS(B域)的数据来自CRM(customer relationship management,客户关系管理)、账单、BI(business intelligence,商业智能)、客服和渠道等系统,OSS(O域)的数据来自于MR(measurement report,测量报告)、Gn口和Mc口等系统,时空和用户ID关联是把这些数据整合成统一特征集合的关键因素。以时空数据为核心的特征工程需要结合B域和O域进行关联分析,找出网络和用户特征的关联性。如图4所示,复杂的特征工程可以在以时空数据为核心的各种数据类型上构建。如人的社交关系可以表述为电话网络、短信网络和接触网络(两个人在相近时间、相近地点出现算是一次有效接触)。每个电话、短信或接触都有发生的时间和地点。需要设计有效的算法研究如何在这种有时空约束的图中提取反映用户复杂社会关系的特征。另一个例子是将用户的账单、影响力或者离网行为映射到每个位置上来评估每个位置的价值,从而可以得到高价值用户或者离网用户聚集的位置,开展基于位置的服务和营销。同时也可以构建基于用户行为的基站投资分析,得出精确基站选址目标。将通信行为、互联网行为、消费行为、营销反馈行为映射到时空位置坐标,也可以开放给其他行业,输出专业性的评估报告,有助零售业或者旅游业掌握移动用户的行为。例如,西班牙电信Telefonica的SmartSteps洞察方案将时空数据脱敏后开放给行业客户,每年有数千万欧元营收。其他的多媒体数据(客服语音记录)、文本数据(服务记录和移动搜索记录)和用户轨迹数据等都需要设计有效的特征提取算法。所以电信大数据挖掘的第一个核心挑战是以时空数据为核心的异构特征工程。