电信大数据关键技术挑战

 

图 4 以时空数据为核心的特征工程

3.2 更加精准的预测算法

当特征工程完成以后,下一步需要做的是预测(如离网预测[1]),并根据预测结果做决策。业务价值通常取决于预测的精度,精度越高越好。图5对比了传统数据挖掘的预测流程和大数据下的预测流程,主要区别之一是传统数据挖掘采用的预测模型较简单(参数少),无法刻画数据统计分布的细节,而大数据背景下,通常采用大规模参数学习(如支撑十亿级别的模型参数处理百万级别的稠密连续特征向量),从而充分刻画统计细节和数据的相互依赖关系,达到更高的预测精度和更好的解释。传统的梯度下降(上升)算法在并行架构下可以优化大规模参数的神经网络模型,是未来高精度预测算法发展的主要方向之一。但是,电信领域的数据种类相对互联网领域数据种类较少,通常使用较少的特征也能带来业务性能的提升。未来需要更多的实验验证高维丰富的特征对电信业务的有效性和必要性。