目前在教育大数据领域中有很多研究领域,比较主要的是数据挖掘和学习分析。两者既有相同之处,又存在一定差异。
1.教育大数据和数据挖掘
数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程。目前认可度较高的一种处理模型是Fayyad等人设计的多处理阶段模型,在此不再赘述。在大数据时代处理数据理念上有三大转变:抽样到全体、绝对精确到效率、因果到相关[10]。大数据时代的数据挖掘继承于传统数据挖掘又不同于传统数据挖掘。首先是分析对象不同,传统数据分析的对象是在已知的数据范围中易处理的数据,而基于大数据的数据挖掘对象时包括非结构化数据的全部数据,不能保证原始数据是完整的、清洗过和没有错误的。其次是分析基础,传统分析是建立在关系数据模型之上的,是在系统内就创立的主题之间的关系基础上进行的,而在大数据分析中,绝大部分分析基于纵裂数据库之外。再其次是分析效率,传统数据处理过程中需要等待抽取、转换、加载等工作完成。而大数据分析是对数据进行实时分析。最后是硬件差别,在传统数据处理中所使用硬件比较昂贵。而大数据处理过程加入了对分析软件的使用,所以硬件成本较低。
近几年出现了许多有关教育数据挖掘(EDM)的文献。研究者对EDM研究的主题范围集中在使用数据挖掘提高机构效率和促进学生的学习过程。但是教育数据挖掘领域内还存在更广泛的话题,例如,在课程管理系统内(CMS)学生的退出和保留、个性化推荐系统、以及学生学习评价。
教育数据挖掘可以向教育者、学习者、教育管理者、家长及教育研究者提供决策帮助,最终提高学习者的学习水平。基于教育大数据的数据挖掘过程即将学习结果、学习内容、学习资源与教学行为等教育原始数据使用多种技术,如聚类、关系挖掘和模型构建等,最终达到预测学习者发展趋势、促进有效学习的目标。具体过程如图3所示。