大数据背景下教育数据挖掘在学生在线学习行为分析中的应用研究

计算技术与自动化 / 2018年03月28日 03:38

新闻

吕海燕+周立军+张杰��

摘要:本文基于我院自行开发并已广泛投入使用的计算机基础信息化导学平台中的日志数据。首先对平台中学员登陆情况、资源浏览情况相关的数据进行收集预处理;接下来对学员的登陆行为、和资源浏览情况进行统计分析;在此基础上,采用决策树算法分析得到了对影响学员登陆行为及资源浏览行为的影响因素。依据分析结果,可使教育教学工作者基于学习者的学习情况来实现教学内容组织、构建教学模式等。

关键词:大数据;信息化导学平台;教育数据挖掘;登陆行为;资源浏览行为

中图分类号:TP311文献标识码:ADOI:10.3969/j.issn.10036199.2017.01.027

“數据驱动学校,分析变革教育”的大数据时代已经来临,利用教育数据挖掘技术和学习分析技术,构建教育领域相关模型,探索教育变量之间的相关关系,为教育教学决策提供有效支持将成为未来教育的发展趋势。“大数据”的出现,将掀起人类教与学的又一次变革。

1教育数据挖掘及其价值

教育数据挖掘是一个将来自各种教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生及其家长、教育研究人员以及教育软件系统开发人员所利用。[1]教育数据挖掘也可被看作是嵌入已有教育系统的一个新的模块,并与教育系统中的各种要素产生良性互动,最终实现改进教学的目的。[1]教育数据挖掘对于我们教育工作者来讲,教育数据挖掘的作用主要是向我们提供更多更客观的反馈信息,使我们能够更好地调整和优化教学策略、改进教学过程、完善课程开发,基于学习者的学习情况来实现教学内容组织、创新以及构建教学模式等。[2]根据数据挖掘的应用领域,可以将教育数据挖掘分为ELearning(教学)数据挖掘、EManagement(管理)数据挖掘和EResearch(科研)数据挖掘。而在ELearning(教学)数据挖掘领域.[3]本文,主要是从ELearning(教学)数据挖掘应用出发,基于我院的信息化导学平台日志数据,对学员的学习行为进行分析。

2学生在线学习行为分析教育数据挖掘模式构建

学习者在线学习行为分析主要是基于网络教学平台对师生学习过程的记录数据,针对行为主体(教师、学生)的行为方式(登陆、浏览资源、在线交流等)、行为客体(各类资源、网路课程模块等)的被使用情况以及行为发生时间进行统计、可视化和各类挖掘,并结合师生的特征数据对影响在线学习行为的因素进行挖据。

教育数据挖掘模式为完成特定挖掘任务而建,是多种数据挖掘工具和算法的集成应用。

教育数据挖掘模式由“数据挖掘工作”“工具与算法”以及“数据”三要素构成。[4]“工具与算法”为数据挖掘工作提供支撑,并产生相应的“数据”,如图1所示。这三个要素在时间上的展开将分别形成数据挖掘工作流、工具与算法流以及数据流。其中数据挖掘工作流包括数据收集、数据预处理、数据挖掘、模式解释评价与应用等环节。其中,学习过程数据挖掘模式用于学习过程及学习行为分析,其挖掘模式如图2所示。

其中,在数据挖掘工作流的核心环节,主要的数据挖掘任务有学习者登陆行为分析、学习资源浏览模式分析、学生行为影响因素分析等。

3基于信息化导学平台的学生学习行为影响因素分析

计算机基础课程信息化导学平台,是我院自行开发并已广泛投入使用的计算机类基础课程在线自主学习平台。该平台具有较强的交互性、开放性、跟踪性、反馈型,教学资源丰富多样[5]。学员通过该平台进行自主学习过程中会产生大量的各种日志数据,如学员的登陆行为数据信息、学员对各种资源的浏览情况的数据记录等。本文主要采用网络日志分析这一非反应性研究方法及相关分析、差异检验、聚类分析等数据挖掘方法,对学员的在线学习网络日志进行细致深入的分析,以探索学员在线学习行为的内在影响因素。

3.1数据采集与预处理

以15级学员为主,选取了学员的基本信息数据和在使用信息化导学平台时产生的登陆、资源浏览、学习体验等日志数据,以及学员在使用形成性考试平台时产生的考试数据,共四份数据。将这些数据导入数据库,形成四张数据表。这四张数据表的关联通过“学号”这一字段来建立。如图3所示。经过联合查询,对这四张数据表进行交集运算,取得这四张表中共有的学员,共1265名。然后将这1265名学员对应的基本信息数据、登陆数据、资源浏览数据和形成性测验数据作为分析对象,进行统计分析和数据挖掘。

3.2学员学习登陆行为描述与影响因素分析

在登陆行为数据表中,学生学号和登陆时间是两个主要字段。本文不以学生的登陆次数为计数单位,而是以某个时间单位的登陆人数来统计。如果以登陆次数来统计可能会由于个别学员的反复登陆而造成学员学习强大的假象。因此,本文主要以登陆时间 “周”为分类字段统计学员的登陆率(登陆平台的人数除以学员总数);以学号为字段统计每个学员的登陆天数。本文以 2015年10月11日课程开学日所在周为第一周,该课程的持续周数15周。

(1)以时间段“周”为单位统计,发现学员群体学习的周期

对于学员个体而言,学习周期是不确定的。但是从教学这的角度来说,需要了解整个学员群体的学习周期,即通过登陆平台的记录,分析统计多长时间内整个学生群体都会登陆参与学习,以衡量群体在线学习开展的速度。作为教学者,需要了解,随着学习时间的推移,有多少学生不再来学习了,以衡量群体在线学习终止的速度。通过对每周累计登陆率的统计分析得到学员的学习周期,如图4所示。

可以看出,到第5周,有40%的学员参与了在线学习;第6周开始急剧增加;到最后一周,所有学员全部参与了在线学习。这说明,学员整体开展在线学习的速度是慢的,提醒教学者应该加以干预,如在第2周就应该督促学员登陆导学平台参与学习。作为教学者,也可 以此为参考对教学资源在时间上进行合理分配。

(2)影响学员登陆行为的影响因素分析

Microsoft决策树算法由Microsoft SQL Server Analysis Services提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。决策树根据向特定结果发展的趋势进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。该算法原理是:通过在树中创建一系列拆分来生成数据挖掘模型。这些拆分以“节点”来表示。每当发现输入列与可预测列密切相关时,该算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。为了提高效率,微软决策树采用了两层结构,在建树算法和数据库直接设立了一个数据挖掘中间件,如图5所示。

综合考虑学员的层次(本科、飞行员、士官)、专业、性别三种因素,本文采用Microsoft决策树算法构建挖掘结构和挖掘模型,对学员的登陆行为(以天数为衡量单位)影响因素进行分析。以层次、专业、性别为输入值,以登陆天数为预测值,建立如下图6所示的决策树。

其中的比例比为 登陆天数 “ 不少于5天”的学员与 “少于5天”的学员的比例。通过分析结果可以看出,层次、专业、性别对登陆天数的影响程度是不一样的。层次影响最强,其次是专业,最后是性别。其中,飞行员、士官层次学员的登陆天数明显低于本科层次学员;飞行员和士官层次之间,飞行员的登陆天数要高于士官层次学员;而在某个层次内,如本科层次,不同的专业之间学员的登陆天数差别也有明显区别(由于保密原因,这里不便明确具体专业信息),而性别对登陆天数的影响最小。依据这些分析结果,教学者可以对不同层次、专业的学员在线学习行为进行合理的引导和调整。如对于本科层次内,不同专业之间的登陆行为之所以有较大差别,是因为不同的专业由不同的学员队进行管理、其专业指向性也有所不同,因此学员的学风有较大差别。学员管理者可以依据分析结果,对相应的学员队进行有针对性的加强管理,以提高其学习效果。

3.3学员资源浏览行为描述与影响因素分析

计算机基础课程信息化导学平台中的学习资源丰富多样。其中,课程包含了我院计算机基础类的所有通识课程,主要有《大学计算机基础》、《计算机程序设计》和《计算机硬件基础》三门课程;课程的教学资源一般按照案例、章节和知识点进行编排,资源类型有操作视频演示、Flash动画交互操作、类型丰富多样的测试题等。通过学员对各门课程以及课程中相应资源模块的浏览日志进行统计分析,以找到影响学员浏览行为的因素。统计分析结果如表1所示。

可以看出,从各资源模块的被使用程度和被学员的关注程度来看(主要通过“浏览频次”和“学生参与率”反映),由高到低依次是课程各章节案例库、视频资源区、Flash动画交互区、问题库、辅助资料库、常用软件工具库,这些恰好是这些资源模块在课程首页由上而下呈现的顺序。这说明各课程模块首页的布局反映了学员的学习习惯,也可能是这种布局对各资源模块的被使用程度产生了影响。对课程资源模块设计的指导意义在于,要使某种资源得到学员的关注,应将其置于相应课程模块首页的显著位置。

从学员对课程各资源模块的学习情况来看(主要通过“单个资源人均浏览频次”),由高到低依次是Flash动画交互区、问题库、课程各章节案例库、视频资源库、常用软件工具库、辅助资料库。学员对Flash动画交互区的学习程度最高的原因主要是,该模块采用动画以交互的方式让学员学会相应的操作,更能激发学员的学习兴趣,吸引学员反复学习。学员访问程度次高的是问题库,说明学员有较强的通过常见问题库来解答学习过程中各种疑问的需求。今后应该进一步丰富问题库,并将问题库的检索区域置于课程首页的显著位置,以便及时方便地解答学员的各种疑惑,帮助学员完成相应课程的学习。

4结论

本文通过对15级学员基于计算机基础信息化导学平台进行在线学习时产生的登录数据和资源浏览数据进行统计、挖掘分析,发现了学员在线学习行为的一些基本特点及其影响因素。从群体角度看,在线学习行为在时间的分布上相对均衡,以周为时间段第6、7周的学员登录率最高;从个体角度看,学员在线学习时间相对较少;影响学员在线学习时间投入的内在因素有层次、专业及性别等因素,其中层次因素是最重要的因素。相同层次的学员,不同专业之间的学员在线学习投入的主要影响因素是其专业,而这与其专业特点和所在学员管理队有较大关系;学员对不同资源的学习程度的不同主要取决于资源在课程页面上的分布、学习资源的特色及学员的自身需求,若想要某一类型的资源引起学员的足够重视,可以首先将其置于课程首页的显著位置,同时要基于学员的兴趣改进资源的特色等。

参考文献

[1]洪雪峰.教育数据挖掘下的学习效果探析[J].长沙铁道学院学报:社会科学版,2014(5):196-198.

[2]BIENKOWSKI M,FENG M,MEANS B.Enhancing Teaching and Learning through Educational Data Miningand Learning Analytics:An Issue Brief[M].Washington,D.C,2012.

[3]BAKER R S J.Data Mining for Education.International Encyclopedia of Education[M].3rd ed.Oxford,UK:Elsevier,2011.

[4]RAMASWAMI M,BHASKARAN, CHAIDR A.Based Performance Prediction Model in Educational Data Mining[J].IJCSI International Journal of Computer Science Issues,2010(1):10-18.

[5]呂海燕.基于“信息化导学平台”的翻转课堂教学模式[J].计算机教育,2016(2):73-78.

[6]葛道凯,张少刚.教育数据挖掘方法与应用[M].北京:科学出版社,2012.9.

第36卷第1期2017年3月计算技术与自动化Computing Technology and AutomationVol36,No1Mar. 2 0 1 7第36卷第1期2017年3月计算技术与自动化Computing Technology and AutomationVol36,No1Mar. 2 0 1 7

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。