基于交叉熵与困惑度的LDA-SVM主题研究

摘要:目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文将对主题提取进行研究,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本语句与语句之间的相似性.首先,采用ISOMAP方法降低样本集的向量空间维度;其次,提出交叉熵结合困惑度的算法模型,进而确定LDA需要提取的最优主题数目;最后,通过剧本-主题的方式,利用LDA算法挖掘剧本的隐含主题词,同时利用SVM对主题词做出进一步的分类.

关键词:
  • 中文影视剧本  
  • isomap降维  
  • lda  
  • 交叉熵  
  • 困惑度  
  • svm  
作者:
薛佳奇; 杨凡
单位:
西安建筑科技大学信息与控制工程学院; 西安710055; 西安建筑科技大学理学院; 西安710055
刊名:
智能计算机与应用

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:智能计算机与应用

智能计算机与应用杂志紧跟学术前沿,紧贴读者,国内刊号为:23-1573/TN。坚持指导性与实用性相结合的原则,创办于2011年,杂志在全国同类期刊中发行数量名列前茅。