时间:2022-03-04 02:39:36
导语:在大学生个人消费总结的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:数据挖掘;聚类;贫困生分析;校园一卡通 ;消费数据
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)20-4934-03
Analysis of Impoverished College Students Based on Campus Card Consumption Data
FEI Xiao-dan1, DONG Xin-ke2,ZHANG Hui2
(1.School of National Defense Science and Technology, South West University of Science and Technology, Mianyang 621010, China;work Information Center, South West University of Science and Technology, Mianyang 621010, China)
Abstract:At present, most of the universities and colleges in China have established a comprehensive system for aiding impoverished students. However, two of the factors accounting for the fact that identifying poor students is still a difficult problem are that the poor students application information is somewhat subjective and that the degree of poverty is difficult to quantify. Seeking an objective and efficient evaluation criterion for identifying impoverished students is one of the most important research themes in college funding. In this paper, data mining tools such as the K-means clustering algorithm are used to analyze campus card consumption data. In addition, based on the clustering result, an impoverished students index algorithm for calculating each student’s poverty index is established, which assists in decision-making of college funding.
Key word: data mining; clustering; analysis of impoverished students; campus card ; consumption data
我国已逐步建立起“奖、贷、助、补、减、免”等多种形式有机结合的较为完善的高校贫困生资助政策体系[1]。但是现有的基于人工的贫困生认定工作难以甄别申请材料的真实性,在认定中存在一定的主观因素,同时也不能量化学生的贫困情况,如何客观、高效地认定贫困生依然是一件十分困难的工作。
校园信息化建设的飞速发展使得利用学生平时在校的消费信息分析学生的消费行为成为了可能[2]。该文以西南科技大学一卡通消费数据为基础,采用开源的数据挖掘工具weka进行二次开发来分析学生的消费行为,同时提出了K-means聚类算法下的贫困指数计算方法来辅助高校中的贫困生认定工作。
1 贫困生认定与校园一卡通消费数据
干净而合乎要求的数据是数据挖掘成功应用的基础[3],如何从海量的校园一卡通数据中获取准确真实反映学生消费行为的数据成为贫困生分析的关键之一。
本文的工作主要是以校园一卡通数据为基础,借鉴高校学生经济困难程度评估方法[4],分析学生的消费数据,客观反映消费数据中体现的学生贫困状况。因此,需要全面考虑消费数据中能够反映贫困生的数据指标。
根据对高校学生资助工作的调查了解和对现有贫困生的分析和调查,该文提出:贫困生使用校园一卡通在校内消费频率较高的假设。
通过如图1所示的流程进行数据的提取分析。
在假设前提下,经过以上的操作,提取最能反映学生消费状况的数据[5]。该文有针对性地选取了一卡通消费数据中统计出的某段时间内学生个人消费总次数(xfzcs)、消费总金额(xfzje)、次均消费金额(cjxfje)和日均消费金额(rjxfje)四个指标作为数据挖掘的基础参考特征指标。
2 聚类算法与选择数据预处理
为了达到高效、快捷、可扩展性强等要求,该文采用在Weka开源工具二次开发[6]的基础上,选择聚类算法进行贫困生数据的挖掘。选择哪一个聚类算法和数据预处理的好坏关系到整个贫困生分析的效果。
2.1 聚类算法选择
本文对Weka中所有自带的聚类算法进行了实验[7]。通过对聚类效率、算法灵活性、实施复杂程度、参数个数、聚类分布、是否适合贫困生分析等等方面进行了对比分析。大量实验的结果显示,K-means算法是这些聚类算法中最合适的算法。因此,该文选择K-means算法作为贫困生消费数据分析的聚类算法。
2.2 数据预处理
本文研究数据全部是西南科技大学校园一卡通数据库中各项真实消费数据,首先对一卡通数据库中的庞大数据进行清洗、过滤、筛选[8]形成贫困生分析数据仓库。为了使预处理后的数据符合weka的输入,进一步对数据仓库中经过规范、清洗、规约后得到的数据采用Weka预处理工具进行了数据格式变换。
3 实验
在Weka 3.6.0平台上进行二次开发,利用K-means聚类结果构建学生贫困指数算法,计算出学生的贫困指数,直观反映学生的贫困状况。
3.1 聚类处理
首先,参数选择上本文实验采用如下参数设置:1) 最大迭代次数都设置均为500;2) 每次均随机初始化聚类;3) 聚类的组数分别为5组至15组。
本实验在西南科技大学中的9个学院学生一学期的消费数据上进行,其中每个学院的人数都在1000人以上,能够很好地反映全校各学院学生的消费情况。
实验将前面预处理完成的符合K-means输入格式的数据在Weka工具中进行聚类,调整聚类组数,依次得到每个组的聚类结果。
实验总共产生16组结果,聚类结果显示:1) 被聚类的数据项为100%;2) 聚类的时间均在0.12s以下;3) 聚类的组数可控;4) 类别内的误差平方和在22以内,整体较低,反映了聚类的准确率较高,其中,组数为5的时候最高为21.920955836779992,组数为15的时候最低为8.843188728817841;5) 聚类的组数越大聚类的准确率越高。
3.2 贫困指数算法
在实验基础上,对Weka进行二次开发,并设计出一个可以直观反映贫困生贫困程度的贫困指数算法。该文算法是依据以下对贫困生的调查结果和基本思想提出的:
1) 贫困生使用一卡通消费频率高。
2) 贫困生消费总金额相对较小。
3) 贫困生次均消费金额较少。
4) 从实际情况分析可以得出,贫困生日均消费金额比较少,而且日均消费频率较稳定。
根据以上四点,可以总结出:1) 贫困生消费次数必须达到必要消费次数;2) 贫困指数和消费次数呈正相关,和消费总金额、日均消费金额和次均消费金额呈负相关。根据总结,提出了如下贫困指数计算公式,如公式1所示:
其中,PovertyIndex表示学生的贫困指数,averageTime表示全部学生的平均消费次数,averageConsume表示全部学生的平均消费金额,[?]表示必要消费次数控制因子,[λ]表示贫困生消费总金额控制因子。这两个因子分别用于保证贫困生必须在必要消费次数以上和贫困生的总消费金额在平均消费水平的多少以内。
由贫困指数的定义可以看到贫困指数越大学生越贫困,反之则越不贫困。
必要消费总次数EssentialTime可以用公式2来表示:
本文贫困指数的计算流程表示在图2中。
3.3 实验结果
根据对资助工作的了解、贫困生的调查以及学生消费行为的研究,并进行实验分析验证,最终本文选取[?]的值为0.8,[λ]的值为2/3。
根据上述的条件,该文得到了各个学院的贫困生指数计算结果,表1显示了聚类组数为7的情况下,某学院的贫困指数计算结果。
其中,所有数据均保留最后实验结果,贫困指数越大说明该类的学生越贫困。
4 实验结果分析与总结
根据表1的结果可以看到第2组的贫困指数最大属于最贫困的一类同学;第1组和第6组次之,属于较为贫困的贫困一类;第3组和第4组的贫困指数更低,则属于不太贫困的一类;第5组和第7组则基本上不在校内消费,被认为是不贫困的一类人。
同时,还可以通过调节聚类的组数来改变实验结果的粒度,以便与真实的贫困生认定情况更加吻合,选出符合要求数目的贫困生人数。
本文提出的基于校园一卡通消费数据的贫困生分析可以总结如下,如图3 所示:
从整个系统的分析来看,本实验提出的方法高效、快捷、可扩展以及直观性强,对高校的贫困生认定工作将有十分积极的贡献。
5 结束语
本文首先在校园一卡通消费数据的基础上,采用Weka开源工具进行二次开发,选取K-means聚类算法挖掘学生的消费行为;然后,结合西南科技大学的实际情况,在挖掘结果的基础上构建贫困生指数算法计算学生的贫困指数。该文提供了一种高效、快捷、可扩展以及直观的贫困生评价体系,不仅可以很好地为贫困生认定提供直接的参考,而且能够在此基础上开发完善的贫困生评定系统,为高校学生资助等管理部门提供了更科学的决策支持。
参考文献:
[1] 唐颖,李明江.数据挖掘在高校贫困生消费信息管理中的应用研究[J].湖南商学院学报, 2011,18(6):45-49.
[2] 李剑波.数据挖掘技术在高校贫困生综合评价中的应用[J].商业文化, 2009(7):248.
[3] 邵峰晶,于忠清.数据挖掘原理与算法[M]. DynoMedia Inc., 2003.
[4] 张春生,聂风华,邱显清.高校学生经济困难程度评估方法研究[J].清华大学教育研究,2006(1).
[5] YANG D, XIONG Z. Study of the Cognizance Method of the University Poor Student[J]. Meitan Higher Education, 2007(5):19.
[6] 陈慧萍,林莉莉,王建东,等. WEKA 数据挖掘平台及其二次开发[J].计算机工程与应用, 2008, 44(19): 76-79.