一种改进地标点采样的不平衡数据聚类算法

摘要:对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.

关键词:
  • 不平衡数据  
  • 谱聚类  
  • 地标点采样  
  • 奇异值分解  
作者:
韩素青; 李淑慧
单位:
太原师范学院计算机科学与技术系; 晋中030619
刊名:
太原师范学院学报·社会科学版

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

太原师范学院学报·社会科学版由太原师范学院主办,太原师范学院主管的学术刊物,国内刊号为:14-1303/C。创办于2012年,双月刊,在全国同类期刊中发行数量名列前茅。其主要栏目有:历史学研究、文学研究、语言学研究、法学研究、经济学研究、教育学研究等。