此外,提取出来的数据要经过一系列的处理后方可进入分析阶段。
那么常见的数据处理包含哪些内容呢?
首先,对拿到的数据,我们要进行数据清洗——对数据里的重复项、缺失项、矛盾项以及异常的波峰或者波谷进行处理的过程。对于重复项去重的方法有很多,在此就不做赘述。缺失数据最常见的处理方法是用平均数值填补,这个平均可以是所有数据的算术平均值,也可以是一段时间内的平均值等。而矛盾项指的是错误的数据,如原本应该都是1位的数字,提取到的数据中却出现了不是一位的数字、姓名的字段里出现了邮箱等等,这个时候要检查是数据提取时出现的错误还是数据录入时的错误,如果是提取时的错误并且错误对结果分析的影响较大时,应该及时反馈给相关负责人。
采集到的数据要尤其注意波峰和波谷,因为这往往是问题分析的关键所在。一般来说数据产生波峰或波谷的原因有获得了额外的推广机会、系统出现了故障、统计有bug等等。
其次要对数据做进一步的加工。因为提取出来的数据可能不是适合直接拿来分析的,这个时候往往就会用到一些函数和工具。
经过上述的清洗、加工步骤,得到了可以用以进行初步分析的数据。针对这些数据做进一步的处理,以期进行深入的分析。