融合图结构与节点关联的关键词提取方法

摘要:单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。

关键词:
  • 关键词提取  
  • 随机游走  
  • 节点属性  
  • 语义信息  
  • 节点关联  
作者:
马慧芳; 王双; 李苗; 李宁
单位:
西北师范大学计算机科学与工程学院; 甘肃兰州730070; 桂林电子科技大学广西可信软件重点实验室; 广西桂林541004; 中国科学院信息工程研究所; 北京100093
刊名:
中文信息学报

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:中文信息学报

中文信息学报紧跟学术前沿,紧贴读者,国内刊号为:11-2325/N。坚持指导性与实用性相结合的原则,创办于1986年,杂志在全国同类期刊中发行数量名列前茅。