基于最大二元组和综合特征的文本分类框架

摘要:为有效地分类出多个热门主题兴趣的作者群体,提出了一种基于综合特征和最大二元组的文本分类框架,该分类框架针对DBLP数据集.分类框架的核心是构建双边图和对标题进行准确分类.第一阶段从DBLP数据集中提取标题,为保证提取的标题和主题的正确映射,采用综合特征进行分类,即辨识特征和语义特征的结合;第二阶段构建双边图,生成多个“主题—作者”的最大二元组聚类,获得作者集合.与其他类似方法相比,本文的分类框架在准确率、召回率和F1测度方面具有更好的优势,能以较高精度识别出相似热门主题的最大聚类.

关键词:
  • 最大二元组  
  • 文本分类  
  • 辨识特征  
  • 语义特征  
  • 双边图  
作者:
马黎
单位:
武汉大学计算机学院; 湖北武汉430072; 商丘职业技术学院学报编辑部; 河南商丘476000
刊名:
西北师范大学学报·自然科学版

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

西北师范大学学报·自然科学版紧跟学术前沿,紧贴读者,国内刊号为:62-1087/N。坚持指导性与实用性相结合的原则,创办于1942年,杂志在全国同类期刊中发行数量名列前茅。

发表咨询 文秘咨询 加急见刊 杂志订阅 返回首页