基于双向LSTM网络的流式文档结构识别

摘要:流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。

关键词:
  • 文档结构识别  
  • 流式文档  
  • 特征提取  
  • 序列标注  
  • 长短期时间记忆网络  
作者:
张真; 李宁; 田英爱
单位:
北京信息科技大学网络文化与数字传播北京市重点实验室; 北京100101; 北京信息科技大学计算机学院; 北京100101
刊名:
计算机工程

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程

计算机工程杂志紧跟学术前沿,紧贴读者,国内刊号为:31-1289/TP。坚持指导性与实用性相结合的原则,创办于1975年,杂志在全国同类期刊中发行数量名列前茅。