网络教育环境分为开放式教学环境和非正式社会性教育环境,其中,非正式社会性教育环境是指基于智能终端(如,PC、移动终端等)和以自主学习为主的学习环境,数据存储于网络空间。从数据的角度看,封闭式教学环境是教育小数据环境,开放式教学环境和网络教育环境是教育大数据环境。
(二)作用过程
机器学习一般作用于教育数据挖掘过程。教育数据挖掘涉及开发、研究和应用计算机方法在收集的大量教育数据中检测模式,是教育与数据挖掘的融合。数据挖掘技术最早于1995年应用于教育领域,拉开了教育数据挖掘研究的帷幕,此后逐渐发展成为独立的研究领域。教育数据挖掘涉及的学科主要包括教育学、计算机科学和统计学[22],如图2所示。其中,机器学习作为计算机科学和统计学的融合,为教育数据挖掘提供了强有力的技术支持。

在教育数据挖掘过程中,机器学习主要作用于数据挖掘和解释部分,实现传统教育中缺少或人工难以完成的功能,通过对数据进行自动化分析来发现未知的新知识和模式,如图3所示。

其中,在数据解释部分,机器学习方法通过建立预测模型(Predictive Model)和描述模型(Descriptive Model)分析教育数据来发现模式和知识。预测模型通过已知的数据预测未知的数据,例如,通过分析学生的成绩来预测学习表现;描述模型通过分析数据发现新的模式或结构。
知识是机器学习的发现,主要分为原理类、实践类和优化类知识[23]。其中,原理类知识旨在验证或修正现有的教育理论,例如,发现新的学习规律;实践类知识旨在帮助教师开展教学实践,例如,预测学生表现和成绩;优化类知识旨在改进学习系统的效果和性能,例如,通过分析学习者知识提高系统的自适应能力。这些知识将最终反馈给教育系统进行迭代循环,以促进和改善学习。
(三)作用方法
目前,应用于教育领域的机器学习方法有很多,例如,分类、回归、聚类、文本挖掘、异常检查、关联规则挖掘、社会网络分析、模式发现和序列模式分析等[24-26]。其中,预测和聚类是目前最热门的。
1、预测(Prediction)
预测旨在开发一个模型,从数据其他方面的集合(预测变量)中,推断数据的一个单一方面(被预测变量)。简言之,就是从已知事件推测未知事件的过程。在教育应用中,常用的预测方法是分类(Classification)和回归(Regression),一般用来预测学生的表现和检测学生行为。
(1)分类:一般用于预测学生的学习表现,常用算法有决策树、随机森林、角色规则、逐步回归和逻辑回归等。例如,Lauria等使用逻辑回归、支持向量机和C4.5决策树等机器学习方法分析了不同数据源的学生数据集[27];Thammasiri等使用逻辑回归、决策树、神经网络和支持向量机等机器学习技术对七年的学生学习数据进行分析,来预测新生是否会在第二学期继续学习[28]。
(2)回归:一般用于分析学习行为与学习表现之间的关系,常用算法有线性回归和回归树等。例如,Kotsiantis采用回归算法分析学生在线提交作业的评分数据和学生的关键人口特征数据,来预测学生的学习表现[29];Hachey等采用二元逻辑回归算法分析学生在线课程记录及其GPA,来预测学生能否完成在线课程[30]。
2、聚类(Clustering)
聚类通常用于发现数据集中事先未知的常见分类。在教育应用中,通常用来基于学生学习和交互模式对学生分组或对相似的课程材料分组。例如,Yanto等基于使用属性变精度的近似值的精度均值,论证了使用变精度粗糙集模型对焦虑学生进行聚类的适用性[31];Aher和Lobo采用聚类算法和关联规则挖掘,对Moodle课程的学习记录进行聚类和分析,然后向学习者推荐合适的课程[32]。
(四)利益相关者与目标
我们通过梳理文献发现,机器学习教育应用的利益相关者包括学习者、教育者、教育管理者、教育研究者和开发人员(课程或软件)等,如表1所示。其中主要目标体现在:支持学习者开展个性化学习,通过学习行为分析预测和可视化反馈,提高学习者的学习表现;支持教育者掌握整体和个体学生的学习情况,自动获得实时客观的教学反馈,促进教学表现的改善;支持教育管理者制定决策,提供客观全面的教育反馈;支持教育研究者和开发人员更精准地评估和维护教育系统和在线课程。