时间:2023-09-07 17:40:06
导语:在人工智能网络教育的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:数据挖掘;教学系统;关联规则;决策树
中图分类号:TP301文献标识码:A文章编号:1009-3044(2009)24-6933-02
The Application of Data Mining in Distance Teaching System
WU Bin1,WU Chen2
(1.School of Information Science & Technology, Jiujiang University,Jiujiang 332005,China;2.Shandong Laigang Construction Co. , Ltd, Laiwu 271126, China)
Abstract: With the continuous development of Web technology, the research and use of Web-based distance education system receive increasing attention,Data mining, artificial intelligence technology in distance teaching system has become increasingly widespread, Data mining technology such as association rules,statistics analysis,classification technology etc. can be used in teching system and improve the intelligence of the system, The service of distance teaching system can be improved better, and to help students raise their study efficiency.
Key words: data mining; teaching system; association system; decision tree
随着网络技术的深入发展,人们对于各种网络应用的需求正在急剧增加,基于网络的远程教育站点在国内外如雨后春笋般迅速崛起。如何充分发挥网络教学功能,利用现代技术,构建功能强大的远程教学系统是现在研究的重点。
在远程教育中,会有海量的信息产生,但这些信息存储分散,记录凌乱,数据庞大,而采用数据挖掘技术可以从这些大量的数据中发现学生的访问习惯、学习兴趣、学习倾向等,然后根据学生的访问规律调整系统的结构,动态地为学生定制个性化的网站。据此可以给学生推荐课程和学习资料,也可以将学生的反馈建议提供给教师,使教师能够及时调整教学内容。总之,数据挖掘知识的采用为现代远程教育系统的智能化、个性化提供了重要的技术手段[1-2]。
1 数据挖掘概念和技术
1.1 数据挖掘概念
数据挖掘(Data Mining),是指从大量数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息,这些信息的表现形式为:规则、概念、规律及模式等。许多人把数据挖掘视为另一个常用的术语数据中的知识发现或KDD的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。通过数据挖掘,可以从数据库提取有趣的知识、规律等高层信息,并可以从不同的角度观察或浏览他们。发现的知识可以用于做决策、过程控制、信息管理和查询处理[3]。
随着Internet的发展,大量的信息都是从Web上获取的,因此Web挖掘成为一个新的研究内容。Web挖掘指利用数据挖掘技术从Web文档和访问数据中发现和抽取知识。按照挖掘对象的不同,将Web数据挖掘分为三类:Web内容挖掘(Web Content Mining),Web结构挖掘(Web Structure Mining),Web使用挖掘(Web Usage Mining), 如图1所示。
1.2 数据挖掘技术
数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表
现出多种多样的形式。由于数据易受噪声、不一致等因素的影响,所以在进行数据挖掘前要进行数据预处理,以降低原始数据的维数,提高数据的质量和挖掘的速度。知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括关联规则、遗传算法、决策树等[4]。
1.2.1 关联规则
关联规则是一种简单、实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。
定义1 设集合I ={i1 , i2 , ..., im },由m个不同项目组成,事务数据库记为D,D中的每一条事务记为T, T?哿I。关联规则是形如A?圯B的蕴涵式,其中A?奂I ,B?奂I,并且A∩B=Φ。
定义2 支持度:如果X?圯Y在T 中的S % 成立,则称X?圯Y的支持度为S %, 即:S % = (| { t | t 中含有X , Y} | / | T | ) ×100 %;支持度S %表示X?圯Y 中出现的普遍程度[5]。
定义3 置信度C%:Confidence (X?圯Y) = P(Y|X) = P(X∪Y)/P(X), C% = (| { t | t 中含有X , Y} | / | { t | t 中含有X } | ) ×100 %,置信度表征的是规则的强度[5]。
关联规则挖掘算法中最基本的算法是Apriori算法。Apriori采用了层次搜索的方法,通过第k-1个频繁集搜索生成第k个频繁集,同时使用了Apriori性质,即频繁项集的所有非空子集都是频繁项集,任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集[6]。
1.2.2 遗传算法
遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度[4]。
1.2.3 决策树
决策树是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。决策树方法中最为著名的算法是Quinlan提出的ID3算法[7],该算法以信息熵的增益进行属性选择,增益率能克服增益偏向于多值属性的特点。决策树分类的其它算法还有FACT, QUEST,CHAIR及ID3的增量版本ID4和ID5等。
ID3算法的核心思想是在决策树中各级节点上选择属性,用信息增益作为属性选择标准,使得在每一非叶节点进行测试时,能获得关于被测试例子最大的类别信息,使用该属性将例子集分成子集后,系统的熵值最小。同时,期望非叶节点到达各后代叶节点的平均路径最短,生成的决策树平均深度最小,提高分类速度和准确率。
2 数据挖掘在远程教学系统中的应用
2.1 远程教育概述
现代远程教育是随着现代信息技术的发展而产生的一种新型教育方式。计算机技术、多媒体技术、通信技术的发展,特别是Intemet的迅猛发展,使远程教育的手段有了质的飞跃,成为高新技术条件下的远程教育。现代远程教育是一种相对于面授教育、师生分离、非面对面组织的教学活动,它是一种跨学校、跨地区的教育体制和教学模式,它的特点有:学生与教师分离;学习的场所和形式灵活多变等。与面授教育相比,远距离教育的优势在于它可以突破时空限制,提供更多的学习机会,扩大教学规模,提高教学质量,降低教学的成本。网络和信息技术对现代社会生活的影响非常大,对远程教育的发展也有很大的影响。人们在网络远程教学中很方便地接受知识、掌握知识,大大提高了效率。由于远程教育本身的特征,它的确比其他的教育形式能够更加满足终身教育所要求的“任何地方、任何人、任何时间、任何需要”等特点[8]。
2.2 数据挖掘在远程教学系统中的应用
在教学活动中,教学质量的好坏除与教学条件、教师业务水平有关外,更重要的是学习的主体-学生。学生学习成绩好坏除智力因素外,还有多方面的因素,最重要的是学习方法。因此,使用关联规则挖掘出知识点之间的关联规则,采用决策树方法,将学生按照学习成绩进行分类,通过此方法来实现知识点的主动推荐,进而达到帮助学生提高学生学习成绩的目的[9]。
通过数据的收集与描述找出影响学生学习成绩的因素,然后进行数据采集,将数据加以处理进行分析;接着通过数据预处理步骤对包含有噪声、不完整、不一致数据进行处理;然后通过关联规则对数据进行分析,挖掘知识点之间的关联规则,为学生推荐某些应该学习的知识点,帮助学生提高学习效率;通过分类技术的使用将学生按照学习成绩进行分类,当学生通过教学系统进行学习时,系统主动为其推荐应该学习的知识。
3 结论
伴随着科学技术和教育的不断发展,利用互连网进行远程教育是必然趋势,尤其是Web数据挖掘技术的应用,使个性化、智能化的远程教育成为可能。随着新的数据挖掘方法的不断出现,数据挖掘工具也将不断产生和完善。尽管数据挖掘知识在远程教育中的应用刚刚起步[10],还有许多理论问题和技术问题有待于进一步的深入探究,但我们相信数据挖掘技术在教育系统中的应用前景是非常光明的。
参考文献:
[1] 张震.基于Web的智能网络教学框架模型的设计与实现[J].现代教育技术,2004,14(3):64-67.
[2] 何典,宋中山.基于Web 挖掘的个性化网络教育研究[J].计算机与现代化,2005,(5):100-102.
[3] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007,3:3-6.
[4] 王桂芹,黄道.数据挖掘技术综述[J].电脑应用技术,2007,,69: 1-6.
[5] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社:2002.11-20.
[6] 黄明,魏静波,牛娃.对Apriori算法的进一步改进[J].大连铁道学院学报,2003,24(4):48-49
[7] J.R.Quinlan. Induction of Decision Trees[J].Machine learning, 1986,(1): 81-106.
[8] 张成,石雪萍,张瑞. 远程教育系统在网络时代的应用[J].中国成人教育,2008,5:1-2.