基于词向量计算的中医症状术语相似度研究

摘要:研究针对中医临床症状词描述的差异与分歧,以Word2vec和FastText为工具,基于现有中医药语料库,进行中医症状相似度研究,发现了一些较为晦涩、生僻的症状同义词及近义词,扩充了中医症状词的词表,并通过对Pearson、Spearman系数,以及召回率的比较,认为FastText在这一任务上有更好的表现。但是由于中文分词,特别是中医古籍分词的先天劣势,以及现有语料不够丰富,导致召回率和准确率还有很大的提升空间,未来值得进一步研究。

关键词:
  • 中医临床决策支持系统  
  • word2vec  
  • fasttext  
  • 词向量  
  • 症状相似度  
作者:
朱玲; 李敬华; 胡钦谙; 杨峰
单位:
中国中医科学院中医药信息研究所; 北京市100700; 中国社科院语言研究所; 北京市100732; 中国中医科学院针灸研究所; 北京市100700
刊名:
中国数字医学

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:中国数字医学

中国数字医学杂志紧跟学术前沿,紧贴读者,国内刊号为:11-5550/R。坚持指导性与实用性相结合的原则,创办于2006年,杂志在全国同类期刊中发行数量名列前茅。