基于语义图优化算法的中文微博观点摘要研究

摘要:为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF.IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE—SU4值上分别提升了0.63%,1.51%,2.69%。

关键词:
  • 微博摘要  
  • 语义图优化  
  • 句子相似度  
作者:
张聪; 裴家欢; 黄锴宇; 黄德根; 殷章志
单位:
大连理工大学计算机科学与技术学院; 辽宁大连116024
刊名:
山东大学学报·理学版

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

山东大学学报·理学版紧跟学术前沿,紧贴读者,国内刊号为:37-1389/N。坚持指导性与实用性相结合的原则,创办于1951年,杂志在全国同类期刊中发行数量名列前茅。