CN109816118A

CN109816118A - 一种基于深度学习模型的创建结构化文档的方法及终端

Info

Publication number: CN109816118A
Application number: CN201910074243.2A
Authority: CN
Inventors: 黄征; 陈凯; 周曲; 周异; 何建华
Original assignee: Xiamen Shang Ji Network Technology Co Ltd; Shanghai Shenyou Intelligent Technology Co Ltd
Current assignee: Xiamen Shang Ji Network Technology Co Ltd; Shanghai Shenyou Intelligent Technology Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-28
Anticipated expiration: 2039-01-25
Also published as: CN109816118B

Abstract

本发明涉及一种基于深度学习模型的创建结构化文档的方法及终端，属于数据处理领域。本发明通过预设训练样本集；所述训练样本集中的每一样本包括文档图片和与所述文档图片对应的标注文档；所述标注文档记录所述文档图片中每一关键字段的位置信息和类别信息；使用所述训练样本集训练预设的第一深度学习模型，得到第二深度学习模型；所述第二深度学习模型分析第一文档图片，得到所述第一文档图片中每一关键字段的位置信息和类别信息；根据所述第一文档图片中每一关键字段的位置信息和类别信息创建与所述第一文档图片对应的结构化文档。实现了提高文档图片转换为结构化文档的准确度。

Description

一种基于深度学习模型的创建结构化文档的方法及终端

技术领域

本发明涉及一种基于深度学习模型的创建结构化文档的方法及终端，属于数据处理领域。

背景技术

文档结构化是一种从文档的大量文字信息里面提取出关键的字段的信息，比如收据里面的付款方、付款日期和收款方等，并按照一定的结构保存起来的过程。大量的文档通过文档结构化的处理以后，可以提供高效的文档检索、文档分析以及其它智能化等服务。文档结构化的关键也是主要的技术难点就是从大量文字中提取出关键字段信息，包括确定所需要的关键字段在文档中所处位置，以及将定位好的的文字识别出来。

对于一些具有大业务量和高精确度要求的文档结构化应用，比如***报销和银行结账等，很多文档结构化***里面关键的任务都是由人工来完成。一个基于人工的文档结构化***的工作流程如图1所示，包括人工定位字段、人工识别字段文字、输入识别出来的文字到存档的结构化文档中相应的字段。尽管人工定位字段和人工识别文字有较高的准确度，但是基于人工的文档结构化***有很多缺陷，比如人工识别速度慢、人工成本昂贵、性能容易受到疲劳等因素影响、需要额外的文字输入时间、文字输入容易带入额外的错误等，不利于建立大规模、高效和经济的文档结构化***。

随着近几年来信息处理技术，尤其是深度学***，帮助实现多种场景应用的落地。深度学习技术在文档结构化***上也得到一定应用。目前一种采用深度学习技术的文档结构化方案，工作流程如图2所示，包括如下基本步骤：通过对大量文档进行模版分析和统计，确定不同的关键字段在文档中的固定位置；对需要被结构化处理的文档进行预处理，如果不是数字文档，需要预处理扫描存储为数字图像；对关键字段的内容所在位置进行归一化对齐处理；根据不同关键字段对应的固定位置，从待处理的文档中截取出字段对应的图像；利用深度学习OCR技术识别文字；将识别的文字自动存入到结构化文档相应的字段。

现有的深度学习技术方案，将字段定位任务简化为从图像中固定位置截取字段对应的图像，利用深度学习OCR技术识别文字，在关键任务上实现了完全自动化，极大提高了计算效率。但是这种文档结构化***，仅在待截取的字段在所有文档中的位置都固定的情况下有效，限制了该***的使用范围。实际应用中如果***打印***设置不同的关键字段的内容打印位置设置或者关键字段内容长度发生变化，会导致这些关键字段的内容信息发生偏移，超出设置范围，从而引起错误。对于一些票据识别应用，大量的票据通过扫描或者手机拍照等方式存入计算机，很容易引起票据在图像中的位移，而且不同的票据可能有不同的版式，同一字段在图像中的位置不一定相同，这些特点使得上述文档结构化方案对票据识别等业务不太适用。上述文档结构化方案对于易发生位置偏移的应用场景，将图像转换为结构化文档结的准确度较低。

发明内容

本发明所要解决的技术问题是：如何提高文档图片转换为结构化文档的准确度。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于深度学习模型的创建结构化文档的方法，包括：

S1、预设训练样本集；所述训练样本集中的每一样本包括文档图片和与所述文档图片对应的标注文档；所述标注文档记录所述文档图片中每一关键字段的位置信息和类别信息；

S2、使用所述训练样本集训练预设的第一深度学习模型，得到第二深度学习模型；

S3、所述第二深度学习模型分析第一文档图片，得到所述第一文档图片中每一关键字段的位置信息和类别信息；

S4、根据所述第一文档图片中每一关键字段的位置信息和类别信息创建与所述第一文档图片对应的结构化文档。

优选地，所述S4具体为：

S41、获取一关键字段的位置信息，得到当前位置信息；

S42、截取所述第一文档图片上与所述当前位置信息对应的图像，得到关键字段图片；

S43、识别所述关键字段图片中的字符，得到文本信息；

S44、添加所述一关键字段的类别信息和所述文本信息至预设的结构化文档；

S45、重复执行S41至S44，直至与所述第一文档图片对应的每一关键字段均被遍历。

优选地，所述S2具体为：

S21、为每一类别信息分配一个唯一的数字编号；

S22、所述第一深度学习模型识别所述训练样本集中的一样本，得到信息集合；所述信息集合包括位置信息和类别信息；

S23、获取与所述一样本对应的标注文档，得到当前标注文档；

S24、比较所述信息集合和所述当前标注文档，计算得到误差值；所述信息集合和所述当前标注文档中的类别信息均使用所述数字编号表示；

S25、根据所述误差值调整所述第一深度学习模型的参数；

S26、重复执行S22至S25，直至所述误差值小于预设的阈值，得到所述第二深度学习模型。

优选地，所述第一深度学习模型用于目标检测。

本发明还提供一种基于深度学习模型的创建结构化文档的终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

优选地，所述S4具体为：

S41、获取一关键字段的位置信息，得到当前位置信息；

S43、识别所述关键字段图片中的字符，得到文本信息；

优选地，所述S2具体为：

S21、为每一类别信息分配一个唯一的数字编号；

S25、根据所述误差值调整所述第一深度学习模型的参数；

优选地，所述第一深度学习模型用于目标检测。

本发明具有如下有益效果：

1、本发明提供一种基于深度学习模型的创建结构化文档的方法及终端，区别于现有技术将字段定位任务简化为从图像中固定位置截取字段对应的图像，本发明使用训练好的第二深度学习模型先识别出文档图片中关键字段的位置信息和类别信息，进而可根据位置信息识别出与所述类别信息对应的文本内容，并以结构化的数据形式保存类别信息及其对应的文本内容。本发明提供的文档结构化方法，关键字段可在文档图片上的任一位置，使得在通过扫描或拍照方式将文档图片存入计算机等易引起关键字段在文档图片中发生位置偏移的应用场景中，也能正确识别并匹配关键字段的类别和文本内容，提高了将文档图片转换为结构化文档的准确度。同时，对于存在多种布局版本但实质内容相同的文档图片，使用同一模型即可完成识别出各类别关键字段所在的位置，而无需像现有技术那样，一种布局版本就需要使用一套专用的关键字段位置信息去匹配，极大程度上节省了资源，并提高了将文档图片转换为结构化文档的效率和准确度。

2、进一步地，根据一关键字段的位置信息识别出与所述一关键字段的类别信息对应的文本信息，并将属于同一关键字段的类别信息与文本信息关联，存入结构化文档中，有利于提供高效的文档检索、文档分析以及其它智能化服务。

3、进一步地，由于深度学习模型的输出为数字，在标注文档中也使用数字编号表示类别信息，避免将深度学习模型的输出结果转换为对应的信息类别过程中出错，有利于提高比较深度学习模型识别结果和标准结果之间差异的准确度，从而提高使用训练样本集训练得到的第二深度学习模型识别信息类别的准确度。

4、进一步地，第一深度学习模型用于目标检测，使得通过训练样本集训练后得到的第二深度学习模型，无论关键字段位于文档图片的何处，都能够识别出文档图片中的关键字段，进而获取关键字段的位置信息。区别于现有技术利用大量模版分析和统计关键字段的位置的方法，使用固定的边框在文档固定的位置去框取关键字段，文档定位性能容易受到文档变形、扫描变形、关键字段内容过长或者跨行等因素影响，本发明将深度学习模型目标检测的思想应用到文档关键字段的定位中，具有很高的准确度和灵活性，以及更大的适用范围。

附图说明

图1为人工文档结构化方法的流程图；

图2为现有的文档结构化方法的流程图；

图3为本发明提供的一种基于深度学习模型的创建结构化文档的方法的具体实施方式的流程框图；

图4为训练样本样例；

图5为总金额关键字段的字符片段图片样例；

图6为本发明提供的一种基于深度学习模型的创建结构化文档的终端的具体实施方式的结构框图；

标号说明：

1、处理器； 2、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图3至图6，

本发明的实施例一为：

如图3所示，本发明提供一种基于深度学习模型的创建结构化文档的方法，包括：

S1、预设训练样本集；所述训练样本集中的每一样本包括文档图片和与所述文档图片对应的标注文档；所述标注文档记录所述文档图片中每一关键字段的位置信息和类别信息。

例如，收集1000张票据图片，经过处理后作为样本，一部分样本作为训练样本，一部分作为测试样本。每张票据包括一定数目的字段，其中包括感兴趣的关键字段。每个样本包括文档图片，以及一份对关键字段进行标注的文档。标注文档记载每个关键字段在文档图片中的位置和关键字段的类别信息。文档标注可以采取纯人工的方法，或者采用深度学习预标注然后使用人工修正的方法。图4为一份样本样例，是一张通用定额***，里面标注了四个关键字段(***类型，***代码，***号码和总金额)的位置和类别。用作训练和测试的样本，可不断补充。

S2、使用所述训练样本集训练预设的第一深度学习模型，得到第二深度学习模型。具体为：

S21、为每一类别信息分配一个唯一的数字编号；

优选地，所述第一深度学习模型用于目标检测。

例如，目前已有一些比较成熟的用于目标检测的深度学习模型，Faster-RCNN，SSD和Yolo等，可以用来检测图像中是否有给定的目标，比如猫、狗、飞机等。本实施例采用现有的目标检测的深度学习网络模型，作为待训练的第一深度学习模型，但是是创新地用来检测不同的关键字段。不同的关键字段属于不同的种类，同一关键字段的内容可以变化。

其中，第一深度学习模型用于目标检测，使得通过训练样本集训练后得到的第二深度学习模型，无论关键字段位于文档图片的何处，都能够识别出文档图片中的关键字段，进而获取关键字段的位置信息。区别于现有技术利用大量模版分析和统计关键字段的位置的方法，使用固定的边框在文档固定的位置去框取关键字段，文档定位性能容易受到文档变形、扫描变形、关键字段内容过长或者跨行等因素影响，本发明将深度学习模型目标检测的思想应用到文档关键字段的定位中，具有很高的准确度和灵活性，以及更大的适用范围。

其中，由于深度学习模型的输出为数字，在标注文档中也使用数字编号表示类别信息，避免将深度学习模型的输出结果转换为对应的信息类别过程中出错，有利于提高比较深度学习模型识别结果和标准结果之间差异的准确度，从而提高使用训练样本集训练得到的第二深度学习模型识别信息类别的准确度。

S25、根据所述误差值调整所述第一深度学习模型的参数；

其中，本实施例中深度学习模型结构采用卷积神经网络和长短时记忆网络(longshort term memory,LSTM)以及CTC的结构。卷积神经网络具有多个阶段(stage)，每个阶段都包含一定数目的卷积模块(提取图象特征)和池化层(缩小特征图大小)等。

例如，训练样本输入到第一深度学习模型训练之前，每种感兴趣的关键字段会被分配一个唯一的数字编号。第一深度学习模型将检测输入的训练样本里面的关键字段，输出每个检测到的关键字段的位置及关键字段对应的数字编号。训练过程中，训练样本直接输入到第一深度学习模型中，在计算机里面可以作为一个3维矩阵来表示训练样本。比如I_(w0,h0,c0)，这里w0代表输入训练样本中文档图片的宽度(像素的个数)，h0代表文档图片的高度，c0代表文档图片的颜色通道，彩色图片有红蓝绿三个颜色通道，灰度图片只有一个颜色通道。然后将训练样本的标注文档中的关键字段的位置信息和以数字编号表示的类别信息与第一深度学习模型的输出进行比较，计算定位和分类的加权综合误差，根据定位和分类的综合误差反向输入到第一深度学习模型，调整深度学习网络的参数，然后继续学习，将训练好的第一深度学习模型在测试样本集上做测试，直到第一深度学习模型定位和分类误差降低到一定程度具有了较好的定位分类能力之后停止训练，得到训练好的第二深度学习模型。

S3、所述第二深度学习模型分析第一文档图片，得到所述第一文档图片中每一关键字段的位置信息和类别信息。

S4、根据所述第一文档图片中每一关键字段的位置信息和类别信息创建与所述第一文档图片对应的结构化文档。具体为：

S41、获取一关键字段的位置信息，得到当前位置信息。

其中，当前位置信息为能完全包含所述一关键字段的最小方形的四个顶点坐标。

S42、截取所述第一文档图片上与所述当前位置信息对应的图像，得到关键字段图片。

其中，一个关键字段对应一个关键字段图片。

S43、识别所述关键字段图片中的字符，得到文本信息。

其中，在所述S43之前，需训练用于识别关键字段图片中的字符的第三深度学习模型；所述第三深度学习模型用于识别所述关键字段图片中的字符，得到文本信息。具体为：

收集一定数量的字符片段图片(比如100000张)，经过处理后作为深度学习字符识别的样本，一部分样本作为训练样本，一部分作为测试样本。每张图片对应一个关键字段。每个字符片段样本包括字符片段图片以及一份与字符片段图片对应的标注文档。与字符片段图片对应的标注文档里面，记载字符片段图片的字符内容。字符片段样本的标注可以采取纯人工的方法，或者采用深度学习预标注然后使用人工修正的方法。图5所示为一个总金额关键字段的字符片段图片样例，与该字符片段对应的标注文档记载的字符内容为4500.00。用作训练的样本，可不断补充。利用训练样本集训练用于字符识别的第三深度模型。

训练样本输入到深度学习模型训练之前，字符标注会被转换成数字标注，每个感兴趣的汉字、英文字母、数字和标点符号都会被映射成一个唯一不相同的数字编号。深度学习将检测输入的训练图片里面的每个字符并输出检测到的字符对应的数字编号，也就是对检测到的字符进行分类。

训练过程中，字符片段图片直接输入到深度学习网络，在计算机里面可以作为一个3维矩阵来表示。训练样本的数字编号用于和深度学习模型的输出进行比较，计算识别误差并调整网络参数。通过深度学习网络的卷积模块后，训练图片的特征将被提取，输出一定通道数目的特征图，比如F_(w1,h1,c1)，此处w1、h1和c1分别表示经过卷积模块后的特征图的宽度、高度和通道数。经过多阶段的卷积模块和池化层后，卷积网络输出的特征图(记为F_(wn,hn,cn))被作为输入送入到长短时记忆(LSTM)网络。在特征图的宽度方向上每一列(对应一个像素宽度)的特征信息(包括高度维度和通道维度)逐一输入到LSTM网络,每一列输出所有可能字符以及一种额外字符(表示无字符)的概率。LSTM网络的输出经过CTC模块的处理，输出识别的有效字符的整数代号，经过映射转换输出深度学习模型识别得到的有效字符。对深度学习模型识别得到的有效字符和训练样本自带的标注文档进行比较，可以计算深度学习网络识别的误差，根据识别误差反向输入到深度学习模型，调整深度学习模型的参数，然后继续学习，直到深度学习网络识别误差降低到一定程度具有了较好的识别能力之后停止训练，得到第三深度学习模型。

其中，也可使用传统的识别模型识别所述关键字段图片中的字符，得到文本信息。

S44、添加所述一关键字段的类别信息和所述文本信息至预设的结构化文档。

其中，本实施例的结构化文档包括类别字段和文本内容字段；结构化文档中的每一条记录存储与文档图片中的一个关键字段相关的信息。

例如，将图4所示的票据转换为结构化文档如表1所示：

表1

类别	文本内容
		BillTittle	厦门市顺丰速运有限公司定额***
InvoiceCode	135021454352
		InvoiceNo	00369040
TotalAmount	壹佰元整

本实施例提供一种基于深度学习模型的创建结构化文档的方法及终端，区别于现有技术将字段定位任务简化为从图像中固定位置截取字段对应的图像，本发明使用训练好的第二深度学习模型先识别出文档图片中关键字段的位置信息和类别信息，进而可根据位置信息识别出与所述类别信息对应的文本内容，并以结构化的数据形式保存类别信息及其对应的文本内容。本发明提供的文档结构化方法，关键字段可在文档图片上的任一位置，使得在通过扫描或拍照方式将文档图片存入计算机等易引起关键字段在文档图片中发生位置偏移的应用场景中，也能正确识别并匹配关键字段的类别和文本内容，提高了将文档图片转换为结构化文档的准确度。同时，对于存在多种布局版本但实质内容相同的文档图片，使用同一模型即可完成识别出各类别关键字段所在的位置，而无需像现有技术那样，一种布局版本就需要使用一套专用的关键字段位置信息去匹配，极大程度上节省了资源，并提高了将文档图片转换为结构化文档的效率和准确度。相比较于现有的人工方案和固定位置文字识别方案，可以大幅度提高创建结构化文档的速度和准确度，降低结构化文档创建***的成本，有利于增加结构化文档创建***的规模，支持更多的用户。

本发明的实施例二为：

如图6所示，本发明还提供一种基于深度学习模型的创建结构化文档的终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

S21、为每一类别信息分配一个唯一的数字编号；

优选地，所述第一深度学习模型用于目标检测。

S25、根据所述误差值调整所述第一深度学习模型的参数；

S41、获取一关键字段的位置信息，得到当前位置信息。

其中，一个关键字段对应一个关键字段图片。

S43、识别所述关键字段图片中的字符，得到文本信息。

其中，在所述S43之前，需训练用于识别关键字段图片中的字符的第三深度学习模型，所述第三深度学习模型用于识别所述关键字段图片中的字符，得到文本信息。具体为：

例如，将图4所示的票据转换为结构化文档如表2所示：

表2

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习模型的创建结构化文档的方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习模型的创建结构化文档的方法，其特征在于，所述S4具体为：

S41、获取一关键字段的位置信息，得到当前位置信息；

S43、识别所述关键字段图片中的字符，得到文本信息；

3.根据权利要求1所述的基于深度学习模型的创建结构化文档的方法，其特征在于，所述S2具体为：

S21、为每一类别信息分配一个唯一的数字编号；

S25、根据所述误差值调整所述第一深度学习模型的参数；

4.根据权利要求1所述的基于深度学习模型的创建结构化文档的方法，其特征在于，所述第一深度学习模型用于目标检测。

5.一种基于深度学习模型的创建结构化文档的终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

6.根据权利要求5所述的基于深度学习模型的创建结构化文档的终端，其特征在于，所述S4具体为：

S41、获取一关键字段的位置信息，得到当前位置信息；

S43、识别所述关键字段图片中的字符，得到文本信息；

7.根据权利要求5所述的基于深度学习模型的创建结构化文档的终端，其特征在于，所述S2具体为：

S21、为每一类别信息分配一个唯一的数字编号；

S25、根据所述误差值调整所述第一深度学习模型的参数；

8.根据权利要求5所述的基于深度学习模型的创建结构化文档的终端，其特征在于，所述第一深度学习模型用于目标检测。