基于类别特征扩展的短文本分类方法研究

摘要:【目的】针对短文本分类中的内容稀疏问题,提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集,完成对短文本内容及词汇向量表征上的扩充,并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明,基于类别特征扩展后的短文本在分类的准确率上提升3%,在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题,提高短文本分类的性能。

关键词:
  • 词向量  
  • lda  
  • 模型  
  • 卷积神经网络  
  • 短文本分类  
作者:
邵云飞; 刘东苏
单位:
西安电子科技大学经济与管理学院; 西安710126
刊名:
数据分析与知识发现

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数据分析与知识发现杂志紧跟学术前沿,紧贴读者,国内刊号为:10-1478/G2。坚持指导性与实用性相结合的原则,创办于1980年,杂志在全国同类期刊中发行数量名列前茅。