图 6 根本原因推断算法辅助商业智能
3.4 实时分析能力逐步成为基本需求
OSS数据的一个特点是更新速度快,如用户对网络的体验、网络故障诊断和位置更新信息,都是在秒级或者分钟级采集产生的。这些数据一旦不及时处理分析,将失去商业价值。例如,客户当时上网体验不好(例如无法使用支付宝或者微信支付出租车费),很有可能会即时拨打投诉电话,因此需要即时得到分析结果,并做一些补偿措施,给用户良好的体验。又例如网络故障诊断,需要在故障发生之后,立即分析并隔离相关的网络单元,启动备用方案。基于位置的营销需要及时判断用户的当前位置,推送附近商铺的合理产品,或者是当用户靠近营业厅附近时,推送合适的业务服务。实时分析能力需要流处理架构和在线学习算法,通过统计、预测一个短时间窗口内的数据流,迅速更新模型参数,并做出决策。之后的决策都基于模型,不需要重新学习历史数据,因此大大加快了模型的更新速度和分析速度,达到实时处理的目标。尤其对于海量OSS数据,流处理和在线学习技术是非常必要的。另一个挑战的技术方向是时间序列的挖掘,如何在数据流中快速捕捉数据在时序上的依赖关系(上下文关系),做出准确的预测,仍然十分困难,需要持续研究。
3.5 时空数据挖掘
电信数据相较于其他数据的一个核心优势就是含有用户细粒度的时空行为信息。有效的挖掘并利用这些时空数据可以充分地发挥电信数据的价值。但是,电信时空数据的挖掘面临4个核心挑战:数据的不精确性、数据的超稀疏性、数据的强依赖性和异构性,如图7所示。数据的不精确性是指通过电信数据计算的用户位置精度远低于GPS精度(但是电信位置数据的好处是不需要客户端任何负担,位置数据天然存在于网络侧)。如图7中浅色圆圈是某区域用户真实GPS位置,浅色圆圈是使用基于距离的定位算法从电信记录恢复的用户位置[2]。可以看到直接使用简单的基于位置的定位算法,数据存在很大的不精确性。如何设计更好的定位算法,如充分利用指纹和地图等信息,降低位置数据的不确定性,是第1个挑战。第2个挑战是数据的超稀疏性。每个用户只会出现在城市的一个很小的区域和一些小的时间片段中。如果把所有用户的时空数据放在一起,把每个小时间片段和地点的组合看成一个记录点,一个用户在绝大多数的记录点都是没有信息的。所以时空数据是一个超稀疏的数据集,如何处理并清洗这种超稀疏的数据集是一个技术挑战。时空数据有很强的时间和空间关联关系,如果按照时间切片或者地点切分将时空数据输入数据挖掘模型,这种关联关系就无法被有效地使用[3]。如何有效地组合使用有效的算法,如时间序列和神经网络来有效地表述时空数据的时空强依赖性,是第3个技术挑战。第4个技术挑战是时空数据和其他数据结合时导致的数据异构性,如图、文本挖掘都需要考虑相关数据产生的时间和地点才能进行更有效的信息提取。