大数据的3V定义基本是从大数据的特征出发,即:规模性(Volume)、多样性(Variety)和高速性(Velocity).目前比较认可是4V定义,如国际数据公司(IDC)认为,大数据是符合4V特征的数据集,即在3V基础上增加价值性(Value)。而IBM认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义是:“巨量资料(Big Data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。
另一方面,教育大数据的定义最早从产生教育大数据的主体出发,将教育大数据分为广义的和狭义的两类:广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据;狭义的教育大数据是指学习者行为数据。也有研究指出教育大数据指整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。
基于以上研究,可以认为教育大数据的定义包含三层含义:第一个含义,教育大数据是教育领域的大数据,是面向特定教育主题的多类型、多维度、多形态的数据集合;第二个含义,教育大数据是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习;第三个含义,教育大数据是一种分布式计算架构方式,通过数据共享的各种支持技术达到共建共享的思想。也就是说,我们把教育大数据定义为:面向教育全过程时空的多种类型的全样本的数据集合。教育大数据不仅仅是建设教育大数据中心,不仅仅是分析全过程学习数据,更多的是一种共享的生态思想。
与用传统方法收集的教育数据相比,教育大数据有更强的实时性、连续性、综合性和自然性,并使用不同的应用程序来分析和处理不同复杂度和深度的数据。传统教育数据收集的大多是阶段性的数据,而且大多在用户知情的情况下收集,使用的分析方法也通常是简单的统计分析方法。教育大数据收集的是整个教育教学过程中静态和动态的所有数据,可以在不影响教师和学生活动的情况下,连续记录整个教学活动的所有数据,如教学资料、互动反映和学生在每个知识点上停留的时间等。