城市大数据的生态模型及应用

3.6 分析过程

分析人员在针对具体问题进行分析前要学习很多算法,除此之外还要关注如下重要的问题。

(1)评估方法是关键

算法要在新数据上的表现和在样本数据上的表现几乎一样好。比较好的做法是把数据集一分为二,一部分用于训练模型,一部分用于模型评估。交叉验证,观察算法的稳定性。如果算法不能稳定下来,那么结果是非常可疑的。因为服务的领域是公共服务领域,如果一旦错误执行,就会存在很大危害。另外,训练模型也不能训练过度,避免出现过度拟合的问题。

(2)特征提取是根本

分析人员不要迷信算法,大多数复杂算法效果大同小异。但要确保完全理解这些等价算法中的一种,然后一直用下去。

在分析过程中如果能找到合适的特征,对于达到分析目标所需的样本数据量就能大大缩减。数据分析人员需要完整地掌握各种特征工程来快速找到样本数据的特征向量。如果分析人员非常懂业务,也可以弥补特征工程经验不足的短板。特征提取是大数据分析非常重要的成功因素。

(3)时间瓶颈是模型训练,而不是数据集规模

在模型训练过程中,需要花费大量的精力进行参数优化,从而得出比较合理的解。在承诺给政府部门一个分析结果之前,应该充分留有这部分的时间。