摘要:针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊
期刊名称:中文信息学报
中文信息学报紧跟学术前沿,紧贴读者,国内刊号为:11-2325/N。坚持指导性与实用性相结合的原则,创办于1986年,杂志在全国同类期刊中发行数量名列前茅。