CN109636303B

CN109636303B - 一种半自动提取和结构化文档信息的存储方法及***

Info

Publication number: CN109636303B
Application number: CN201811262115.2A
Authority: CN
Inventors: 李瑞轩; 熊梦婷; 李玉华; 辜希武; 刘洋; 张纯鹏; 李相臣; 苑雨萌
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-10-27
Filing date: 2018-10-27
Publication date: 2020-12-08
Anticipated expiration: 2038-10-27
Also published as: CN109636303A

Abstract

本发明公开了一种半自动提取和结构化文档信息的存储方法及***，主要实现对文档信息的半自动分类提取和结构化。***中WebUI模块提供的Web界面用于支撑项目管理模块、提取项收集模块和用户管理模块；项目管理模块导入待分析的PDF文档；提取项收集模块对待提取列表中的信息进行人工校准和保存；用户管理模块是对用户权限的管理；采用存储模块保存文档元信息和提取项信息；实现对文档信息的自动化提取和结构化，核心采用自动化提取算法模块，用于将上传的文档扫描后自动检测生成提取项的页面预测，同时对提取项收集模块得到的信息进行结构化；本***实现了对文档信息半自动提取和结构化，使存储的信息更合理化，同时提升了***的速度和效率。

Description

一种半自动提取和结构化文档信息的存储方法及***

技术领域

本发明属于信息检索技术领域，更具体地，涉及一种半自动提取和结构化文档信息的存储方法及***。

背景技术

目前，随着信息时代的飞速发展，对文档信息的检索需求也越来越高，诸多行业的检索***成为核心竞争的指标，其中较为突出的表现在金融领域。

以证劵公司为例，有效利用大量公开披露的资产购买报告书信息来提高竞争力非常重要，大部分上市公司的信息以PDF文档的形式在网上公开披露，以供个人或组织下载使用。通常金融领域内构建知识库采用以下两种方案：第一种，依靠互联网上零碎的资料和负责小组的经验，针对网上公告的内容进行解读、整理和归纳，这种方法很大程度依靠从业人员的经历和经验，有着极高的从业门槛，难以规模化应用到其他领域；第二种，可通过现有的交易检索***获取交易的概览信息，但是这种检索***提供的金融分析报告是公告的原始文本或简单处理后的文本，对于多维度的信息解读还没有有效的手段，智能化程度较低，因此存在交易缺失或者不准确的情况。

总体而言，以上两种方案建立的文档信息抽取及结构存储化***存在信息数据来源混杂、检索能力有限和提取繁杂等问题，同时由于文本及表格自动结构化困难导致理解难度较大。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种半自动化提取和结构化文档信息的存储方法及***，旨在解决现有文档信息的存储化***存在的抽取项自动定位难题和特定文本及表格结构化的问题。

为实现上述目的，一方面，本发明提供了一种半自动化提取及结构化文档信息的存储方法，具体步骤如下：

(1)用户通过WebUI模块上传文档到项目管理模块；

(2)项目管理模块在上传文档过程中将文档元信息存入存储模块的数据库和文件***中，同时建立项目元信息用来记录文档与用户的一对一关联关系，并存入模块的数据库中；

(3)项目管理模块启动自动化提取算法模块的构建文档树流程，即扫描全文的文档内容，自动检测生成提取项的页面预测，存入存储模块的文件***中；

(4)用户通过WebUI模块点击开始具体的提取项流程，具体步骤如下：

(4.1)提取项收集模块调取存储模块的文件***中的预测结果；

(4.2)WebUI模块根据预测结果定位提取项内容在文档中的具体页面；

(4.3)调取提取项内容，进行人工核验定位的位置；

(4.4)提取项收集模块调用自动化提取算法模块，对核验后文档内容里的文本内容和表格内容分别进行的识别和还原，完成对文档内容的结构化操作；

(4.5)将结构化后的提取项结果传回提取项收集模块；

(4.6)用户在提取项收集模块对提取项内容再次进行核验；

(5)提取项内容传回存储模块存储；

综上所述，上述方法能够对上传的各类文档进行算法扫描，自动构建文档的树形结构，针对需要提取的关键信息给出位置预测，协助人工整理提取数据，对提取后的部分内容项进行结构化操作，使得内容更加容易被机器理解，从而得到所需文档的相关关键信息。

另一方面，本发明提供了一种半自动化提取及结构化文档信息的存储***，整个***包括：项目管理模块、自动化提取算法模块、提取项收集模块、用户管理模块、WebUI模块和存储模块。

所述WebUI模块基于B/S架构提供***与操作人员交互的Web界面，支撑项目管理模块、提取项收集模块和用户管理模块三个子模块。

优选地，WebUI模块对项目管理模块的支撑是通过文件上传操作及上传进度条显示的方式呈现，方便用户查看算法分析的过程及项目的管理；对提取项收集模块的支撑体现在提取树的展示及待提取项的提取流程引导上，针对不同类型的提取项，采用一致的提取流程，分别设计不同内页结构来与之适应；对用户管理模块的支撑体现在对于登陆的不同用户，***的界面不同，严格控制用户的操作权限。

所述项目管理模块，用于管理项目的文档元信息及内容信息。

优选地，项目管理模块具体用于管理和调度整个项目的工作周期，在文档上传过程中构建独立的项目空间，提取并记录文档元信息到文件***以及数据库，方便用户查看和管理自己账户下的所有项目内容，并启动算法模块的工作任务。

所述提取项收集模块，用于对待提取列表中的信息进行人工校准和保存。

优选地，所述提取项收集模块具体用于对每个项目文档的提取层级树管理，包括内容的展示，增加，更新，删除等。在这个过程中针对不同类型的提取项设计不同的提取流程。对于文本类型的提取项，设计直接读取PDF内的文档信息，自动化提取算法进行格式优化后展示给用户进行核对和编辑。对于表格类型的抽取项，我们先用表格抽取工具获得csv格式的表格，再利用自动化提取算法进行格式优化后展示给用户进行核对和编辑，编辑采用的在线协作表格编辑工具确保在多用户情况下表格的一致性。对于图片类型的提取项，由用户确定图片边界后自动截取保存到对应的文件***，并保留元信息到数据库。

所述用户管理模块，用于不同权限用户的管理。

优选地，用户管理模块用于管理员对普通用户的账号进行管理和进度监督，针这两种不同的用户设置不同的项目权限和功能选项，管理员对于普通用户的所有项目进度可以进行全局监控，方便其掌握整个工作的进展情况，也可以修正任意普通用户的提取项内容，使得提取***的容错性更好；对于普通用户，仅给予个人项目管理的权限。

所述自动化提取算法模块是本项目的核心模块，采用文本分析算法和专家规则结合来完成构建文档树的过程，即对在项目管理模块上传的文档进行全文扫描，自动检测生成关键提取项的页面预测，此外对提取项收集模块提取内容的结果，包括文本和表格，进行结构化的功能；

优选地，所述自动化提取算法模块包括两个部分，一是生成提取项预测结果的子模块；二是文本与表格自动结构化的子模块。

生成提取项预测结果子模块的具体过程是，在文档上传过程中对文档进行全文扫描，得到文档每页的图片形式和文字内容，针对文字内容进行文档树的构建，通常，针对文档内容构造不同子类章节对应表，确定整个文档树与提取项类目树的对应关系。进一步对每一个子类的子项进行章节内检索，根据提取子项构造特征，检索对应的特征并确定该子项的物理页码。最后将所有的检索结果存入文件内，以供后续模块使用。

文本与表格自动结构化的子模块的具体内容是针对提取出的文本内容和表格内容用算法进行优化，对于文本内容，采用规则加条件随机融合的方法对文本的时间，主体客体及对应关系内容进行识别，达到结构化的目的。对于表格内容，采用对表格构造特定的结构优化算法协助解决表格结构还原性的问题，使得整个过程人工干预较少，结果准确率更高。

所述存储模块，用于保存上述文档信息和提取项的文本、表格及图表信息。

优选地，所述存储模块具体用来存储文档元信息及提取内容信息，分为文件存储和数据库存储。文件存储部分用来存储文档的元信息、缩略图信息、预测结果文件及提取到的表格和图片文件。数据库则记录项目元信息、提取树、提取项的文本信息，提取表格和图片的元信息和用户信息。

通过本发明所构思的以上技术方案，与现有技术相比，由于本***实现了自动提取和结构化文档的存储，能够取得以下有益效果：

(1)本发明能够准确建立上传文档的文档树形结构，并针对每个文档与待提取层级树构造相应的物理联系，能高效支撑人工核验的算法。

(2)本发明会针对各个领域的文档设计完整的信息提取项框架，以多层级树的形式组织整理，部分树节点可根据实际情况人为增加删减，部分树节点内容也可以联动，使得信息的组织更加合理，查询更加高效。

(3)自动化提取算法模块对提取出的内容项进行自动结构化操作，用于有效解决文档信息的表格提取和文本结构化难题。

(4)基于B/S的架构设计可以完成多终端形式的提取任务，方便水平拓展，使得整个过程并行化程度更高。相对于传统的手工搜集或单机任务，在***的速度、效率方面有极大的提升。

附图说明

图1是本发明提供的***结构示意图；

图2是本发明提供的工作机制图；

图3是本发明提供的文档信息半自动提取和结构化流程示意图；

图4是本发明提供的文档信息提取层级树的架构形式；

图5是本发明提供的文档信息提取层级树具体实例示意图；

图6为本发明提供的文档信息提取层级树的叶子节点类型图；

图7为本发明公开的一种各种类型提取项的提取存储流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是整个***的结构示意图，从图1可以看出本***包括项目管理模块100、自动化提取算法模块200、提取项收集模块300、用户管理模块400、WebUI模块500、存储模块600。WebUI模块500支撑项目管理模块100、提取项收集模块300、用户管理模块400三个模块的可视化及交互。自动化提取算法模块200为核心算法，负责提取过程中智能化的部分。存储模块600为最后的结果存储模块。

图2是整个***的工作机制如图2所示，WebUI模块500通过B/S机制可以运行在多个个人电脑的浏览器上，通过互联网或者局域网访问主机服务(项目管理模块100，自动化提取算法模块200，提取项收集模块300，用户管理模块400)，主机服务通过前后端操作将结果分别存到存储模块600的文件***服务器和数据库上。

优选地，所述WebUI模块对项目管理模块的支撑是通过文件上传操作及上传进度条显示的方式呈现，方便用户查看算法分析的过程及项目的管理；对提取项收集模块的支撑体现在提取树的展示及待提取项的提取流程引导上，针对不同类型的提取项，采用一致的提取流程，分别设计不同内页结构来与之适应；对用户管理模块的支撑体现在对于登陆的不同用户，***的界面不同，严格控制用户的操作权限。

优选地，所述项目管理模块具体用于管理和调度整个项目的工作周期，在文档上传过程中构建独立的项目空间，提取并记录文档元信息到文件***以及数据库，方便用户查看和管理自己账户下的所有项目内容，并启动算法模块的工作任务。

生成提取项预测结果的子模块具体过程是，在文档上传过程中对文档进行全文扫描，得到文档每页的图片形式和文字内容，针对文字内容进行文档树的构建，通常，针对文档内容构造不同子类章节对应表，确定整个文档树与提取项类目树的对应关系。进一步对于每一个子类的子项进行章节内检索，根据提取子项构造特征，检索对应的特征并确定该子项的物理页码。最后将所有的检索结果存入文件内，以供后续模块使用。

文本与表格自动结构化的子模块的具体内容是针对提取出的文本内容和表格内容用算法进行优化，对于文本内容采用规则加条件随机场融合的方法对文本的时间，主体客体及对应关系内容进行识别，达到结构化的目的。对于表格内容，采用对表格构造特定的结构优化算法协助解决表格结构还原性的问题，使得整个过程人工干预较少，结果准确率更高。

优选地，所述提取项收集模块具体用于对每个项目文档的提取层级树管理，包括内容的展示，增加，更新，删除等。在这个过程中针对不同类型的提取项设计不同的提取流程。对于文本类型的提取项，设计直接读取PDF内的文档信息，自动化提取算法进行格式优化后展示给用户进行核对和编辑。对于表格类型的抽取项，先用表格抽取工具获得csv格式的表格，再利用自动化提取算法进行格式优化后展示给用户进行核对和编辑，编辑采用的在线协作表格编辑工具确保在多用户情况下表格的一致性。对于图片类型的提取项，由用户确定图片边界后自动截取保存到对应的文件***，并保留元信息到数据库。

存储模块具体用来存储文档元信息及提取内容信息，分为文件存储和数据库存储。文件存储部分用来存储文档的元信息，缩略图信息，预测结果文件及提取到的表格和图片文件。数据库则记录项目元信息、提取树、提取项的文本信息、提取表格和图片的元信息、用户信息。

用户管理模块400的目的是方便管理员管理所有项目的进度并对普通用户的结果进行核验，此外作为一个封闭的***，管理员负责进行账号的分配。

图3是本发明提供的文档信息半自动提取和结构化流程示意图，具体步骤如下：

S101，用户通过WebUI模块上传文档到项目管理模块。

S102，项目管理模块在上传文档过程中将文档元信息存入存储模块的文件***中，建立项目元信息用来记录文档与用户的一对一关联关系，并存入模块的数据库中。

S103，项目管理模块启动自动化提取算法模块的构建文档树流程，即扫描全文自动监测生成提取项的页面预测，存入存储模块的文件***中。

S104,用户通过WebUI模块点击开始具体的提取项流程，具体步骤如下：

(S1)提取项收集模块调取存储模块的文件***中的预测结果；

(S2)WebUI模块根据预测结果定位提取项内容在文档中的具体页面；

(S3)根据提取项内容，人工核验定位的位置；

(S4)提取项收集模块调用自动化提取算法模块，对核验后文档内容里的文本内容和表格内容分别进行的识别和还原，完成对文档内容的结构化操作；

(S5)将结构化后的提取项结果传回提取项收集模块；

S105，用户在提取项收集模块对提取项内容再次进行核验，最后将提取项内容传回存储模块。

如图4所示，上述的提取项为树形层级结构的信息组织架构，叶子节点为真正需要提取的内容。特别指明，该提取树可能存在多个完全相同的子树。以图5披露的交易报告书为例，信息包括交易概况、标的资产情况、财务会计信息及相关中介机构的声明，其中标的资产涉及多个子树，具体多少个子树需要根据用对户标的内容判断自行添加，此外，添加完多个标的资产之后有多处其他的子树涉及联动，也就是说，主树上有多少个标的资产，其他对应子树自动就会有几个子树对应这些标的子树的属性。

图6涉及的提取项有五种基本类型，即文字，表格，图片，固定表头的表格和文字表格混排；对于文字表格的混排，通常只是在显示上会有所区别，本质上是文字和表格的提取。

不同的提取项类型有不同的提取存储方式，图7是具体的提取存储流程，对于每个提取项，算法预测和人工核准之后，确定最终的定位坐标，根据提取项的类型得到最终的提取结果。图片类型将图片元信息存入数据库，图片文件存入文件***；文本类型和固定表头表格可以对结果进行自动结构化及在线编辑后存入数据库；表格类型先进行自动结构化然后可以通过表格在线编辑工具进行修正后将元信息存入数据库，表格文件存入文件***。

本发明提供了一种半自动提取和结构化文档信息的存储方法及***，该发明采用由项目管理模块、自动化提取算法模块、提取项收集模块、用户管理模块、WebUI模块和存储模块组成的***，使文档信息能够供多终端使用，从多个角度优化信息提取操作流程，并得到结构化的内容信息，极大的减轻了人工操作的负担。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半自动提取和结构化文档信息的存储方法，其特征在于，包括：

(1)在文档上传的过程中获取包括文档元信息和文档内容的文档信息，根据识别的文档内容生成提取项的页面预测信息；所述提取项为树形层级结构的信息组织架构；

(2)存储文档元信息和生成的页面预测信息；

(3)根据保存的文档元信息和页面预测信息，核准提取项的物理页码并对提取项的文档内容进行结构化操作；

所述步骤(3)具体包括如下步骤：(3.1)调取保存的文档元信息和生成的页面预测信息；(3.2)根据预测的信息定位提取项内容在文档中的具***置；(3.3)通过上述位置显示的文档内容，核验定位的位置是否正确；(3.4)核验后对文档内容里的文本内容和表格内容分别进行识别和还原，完成对文档内容的结构化操作；(3.5)将上述提取项的结构化结果传回***；

(4)对上述提取的文档内容核验存储。

2.如权利要求1所述的方法，其特征在于，所述提取项包括五种基本类型：文字，表格，图片，固定表头的表格和文字表格混排。

3.如权利要求2所述的方法，其特征在于，所述提取项类型采用三种提取存储方法，具体情况如下：

所述的图片类型将图片元信息存入数据库，图片文件存入文件***；

所述的文本类型和固定表头表格先进行结构化操作和在线编辑，再存入数据库；

所述的表格类型先进行结构化操作，再通过表格在线编辑工具修正，最后表格的元信息存入数据库，表格文件存入文件***。

4.一种半自动提取和结构化文档信息的存储***，其特征在于，包括：

WebUI模块提供***与操作人员交互的Web界面，用于支撑项目管理模块和提取项收集模块；

项目管理模块，接收端与WebUI模块交互，输出端与存储模块交互；所述项目管理模块用于管理项目的文档元信息及内容信息，将接收的文档元信息存入存储模块，并在文档上传的过程中启动自动化提取算法模块构建文档树流程的功能；

提取项收集模块，接收端与WebUI模块交互，输出端与存储模块交互；所述提取项收集模块用于对待提取列表中的信息进行校准和保存，并启动自动化提取算法模块对提取项结构化文本和表格的功能；

自动化提取算法模块，接收端与项目管理模块和提取项收集模块交互；所述自动化提取算法模块用于对项目管理模块传送的文档构建文档树及对提取项收集模块提取的内容结构化；

所述自动化提取算法模块包括生成提取项预测信息的子模块和文本与表格自动结构化子模块；所述生成提取项预测信息的子模块在文档上传过程中对文档内容进行全文扫描，得到文档每页的图片形式和文字内容，针对文字内容进行文档树的构建；所述文本与表格自动结构化的子模块针对提取出的文本内容和表格内容分别进行识别和还原；

存储模块，接收端与项目管理模块和提取项收集模块交互，所述存储模块用于保存文档信息和提取项的内容信息。

5.如权利要求4所述的***，其特征在于，所述***还包括用户管理模块，接收端与WebUI模块交互，输出端与存储模块交互；用于对不同权限用户的管理。

6.如权利要求4所述的***，其特征在于，所述存储模块包括文件存储和数据库存储；

所述文件存储用来存储文档的元信息、缩略图信息、预测结果文件及提取到的表格和图片文件；

所述数据库记录项目元信息、提取树、提取项的文本信息、提取表格和图片的元信息以及用户信息。

7.如权利要求4或5所述的***，其特征在于文档信息为金融文档信息。