基于层叠条件随机场模型的电子病历文本信息抽取

摘要:自然语言处理技术已用于非结构化中文电子病历信息抽取,并且新的算法或模型不断出现,但其应用效果的证据较少。共收集北京某大型三甲综合医院呼吸专科住院电子病历38218份,通过对数据预处理,抽象文本特征与定义语法规则,产生训练数据集和测试集,构建层叠条件随机场模型,并评估该模型的识别效果。结果表明,针对入院记录、出院记录、辅助检查报告3大类共39种非结构化文本,该模型可准确、快速地处理病历文本信息,应用效果较为理想。

关键词:
  • 医疗电子病历  
  • 自然语言处理  
  • 机器学习  
  • 层叠条件随机场模型  
  • 信息抽取  
作者:
梁立荣; 李长伟; 沈晔; 周立娟; 景行; 童朝晖
单位:
首都医科大学附属北京朝阳医院北京市呼吸疾病研究所临床流行病学研究室; 北京100020; 乔治亚大学公共卫生学院流行病学与生物统计学系; 佐治亚雅典30602; 北京无极慧通科技有限公司; 北京100085; 首都医科大学附属北京朝阳医院北京市呼吸疾病研究所呼吸与危重症医学科; 北京100020
刊名:
计算机应用与软件

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机应用与软件

计算机应用与软件杂志紧跟学术前沿,紧贴读者,国内刊号为:31-1260/TP。坚持指导性与实用性相结合的原则,创办于1984年,杂志在全国同类期刊中发行数量名列前茅。