基于加权关联模式挖掘与规则后件扩展的跨语言信息检索

摘要:【目的】针对自然语言处理中查询主题漂移和词不匹配问题,提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法。【方法】该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集,利用置信度和相关度评价加权关联规则,根据扩展模型从规则中提取优质扩展词实现规则后件扩展,扩展词与原查询词项组合为新查询再次检索文档得到最终检索结果。【结果】实验结果表明,与单语言检索基准比较,本文检索模型的R-prec和P@10平均增幅分别为42.49%和25.53%;与跨语言检索基准比较,其平均增幅分别为91.87%和64.61%;与现有基于加权关联规则挖掘的跨语言检索方法比较,R-prec和P@10最高平均增幅分别可达93.20%和34.60%。【局限】只进行实验性研究,需要探讨在实际跨语言搜索引擎中的具体应用。【结论】本文检索模型能有效地减少查询主题漂移和词不匹配问题,改善和提高检索性能。

关键词:
  • 信息检索  
  • 跨语言检索  
  • 文本挖掘  
  • 关联规则  
  • 自然语言处理  
作者:
黄名选; 卢守东; 徐辉
单位:
广西财经学院广西(东盟)财经研究中心; 南宁530003; 广西跨境电商智能信息处理重点实验室(广西财经学院); 南宁530003; 广西财经学院信息与统计学院; 南宁530003
刊名:
数据分析与知识发现

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数据分析与知识发现杂志紧跟学术前沿,紧贴读者,国内刊号为:10-1478/G2。坚持指导性与实用性相结合的原则,创办于1980年,杂志在全国同类期刊中发行数量名列前茅。