CN111507214A

CN111507214A - 文档识别方法、装置及设备

Info

Publication number: CN111507214A
Application number: CN202010265465.5A
Authority: CN
Inventors: 杨猛; 邵利铎; 鹿慧; 何栋; 于灏; 孟庆峰; 刘松; 刘皓; 蔡雨佳; 尹磊; 张大鹏; 肖潇; 邸杰; 王龙涛; 张晓奇
Original assignee: Peoples Insurance Company of China
Current assignee: Peoples Insurance Company of China
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-07

Abstract

本说明书实施例提供了一种文档识别方法、装置及设备，其中，方法包括：采集目标业务对应的综合文档图像，所述综合文档图像中的综合文档包含执行所述目标业务所需的至少一个独立文档；对所述综合文档图像中包含的独立文档进行定位分割，以确定各所述独立文档在所述综合文档图像中的位置；对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容。本说明书实施例通过采集综合文档图像，并对其进行定位分割以及文本识别，提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

Description

文档识别方法、装置及设备

技术领域

本文件涉及图像处理领域，尤其涉及一种文档识别方法、装置及设备。

背景技术

在各种金融、报销、政府、服务等业务办理中都需要提供各种文档原件或者复印件，有的还可以提供电子件。例如：银行业务、保险业务、财务报销等。现阶段各种业务环节涉及的文档都需要人工采集后对提交的文档进行分类，调用不同的文档识别模块进行识别和结构化，然后存入数据库。

在识别过程中，各种文档需要相互分开单独识别，即使所提交的文档很小，能够在一张图上放置多个文档，一般也要一次提交一个文档。这样一个业务流程会变得繁琐。

发明内容

本说明书提供了一种文档识别方法、装置及设备，用以解决现有技术中在针对多个文档进行识别时，识别效率低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本说明书实施例提供了一种文档识别方法，包括：

采集目标业务对应的综合文档图像，所述综合文档图像中的综合文档包含执行所述目标业务所需的至少一个独立文档；

对所述综合文档图像中包含的独立文档进行定位分割，以确定各所述独立文档在所述综合文档图像中的位置；

对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容。

第二方面，本说明书实施例提供了一种文档识别装置，包括：

图像采集模块，采集目标业务对应的综合文档图像，所述综合文档图像中的综合文档包含执行所述目标业务所需的至少一个独立文档；

文档分割模块，对所述综合文档图像中包含的独立文档进行定位分割，以确定各所述独立文档在所述综合文档图像中的位置；

文档识别模块，对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容。

第三方面，本说明书实施例提供了一种文档识别设备，包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

第四方面，本说明书实施例提供了一种存储介质。该存储介质用于存储计算机可执行指令。所述计算机可执行指令在被执行时实现以下流程：

本说明书实施例提供的文档识别方法、装置及设备，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的文档识别方法的应用场景架构示意图；

图2为本说明书实施例提供的文档识别方法的流程示意图一；

图3为本说明书实施例提供的文档识别方法的流程示意图二；

图4为本说明书实施例提供的文档识别方法的流程示意图三；

图5为本说明书实施例提供的文档识别方法的流程示意图四；

图6为本说明书实施例提供的文档识别方法的流程示意图五；

图7为本说明书实施例提供的文档识别方法的流程示意图六；

图8为本说明书实施例提供的文档识别装置的模块组成示意图；

图9为本说明书实施例提供的文档识别设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

图1为本说明书实施例提供的文档识别方法的应用场景示意图，如图1所示，该场景包括：执行目标业务的***、图像采集设备以及文档识别设备；其中，执行目标业务的***可以是在执行银行业务、保险业务、财务报销业务等业务时所使用的业务***。针对办理不同类型的目标业务，用户需要向办理业务的相关工作人员提供办理该目标业务所需的各种文档材料，比如身份证、***、驾驶证、银行卡的原件或者复印件等；图像采集设备，用于对用户提供的各种文档进行图像采集；文档识别设备，用于对图像采集设备采集的文档图像进行文本识别，以获取各文档所包含的内容信息；执行目标业务的***，基于各文档所包含的内容信息执行目标业务。

具体的，在工作人员获取到用户提供的为办理目标业务所需要的各种文档后，可将这些文档非重叠的放置在图像采集区，通过图像采集设备一次性采集，形成包含至少一个文档的文档图像。为方便描述方案，本说明书进行了如下定义：将用户提交的每一个原始文档称为“独立文档”；对至少一个独立文档进行一次性图像采集时，由该至少一个独立文档所构成的文档集合称为“综合文档”；相应所采集的图像称为“综合文档图像”。在得到综合文档图像后，对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；最后对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。通过对综合文档图像中的独立文档所在位置的图像进行定位分割以及文本识别，可以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

进一步地，在对综合文档图像中包含的独立文档进行定位分割时，可以对综合文档图像进行实例分割，得到以QuadBox四个点表示的独立文档在综合文档图像中的位置。以QuadBox四个点表示每个独立文档在综合文档图像中的位置，可以更贴近文档的真实位置。

进一步地，在对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容时，可以先对独立文档所在位置的图像进行实例分割，划分出多个包含文本的文本框；然后采用预先训练得到的行文本识别模型，对文本框中包含的文本进行行文本识别，确定文本框所包含的文本内容。通过文本框快速锁定文本的细化位置范围，可以更高效的识别独立文档中文本内容。

进一步地，在对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容时，可以先对独立文档所在位置的图像进行实例分割，确定独立文档中文字方向；然后根据独立文档中文字方向，对从相应独立文档中划分出的文本框的方向进行转正调整；最后采用预先训练得到的行文本识别模型，对转正调整后的文本框中包含的文本进行行文本识别，确定所述文本框所包含的文本内容。通过对文本框的方向进行转正调整，可以提高文本识别的准确性。

进一步地，在确定各独立文档在综合文档图像中的位置之后，还可以对各独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别；相应地，对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容时，可采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型，对待识别独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。通过采用与待识别独立文档的文档类型相匹配的文本识别模型对待识别独立文档所在位置的图像进行文本识别，可以提高识别效率，以及识别结果的准确度。

进一步地，在对各独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别时，可以采用预先训练好的特征提取模型，提取独立文档所在位置的图像的文档图像特征；然后将提取的文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配，并根据相似匹配结果确定独立文档对应的文档类别。

进一步地，在确定独立文档中所包含的文本内容之后，还可对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。进一步地，可以选择与独立文档的文档类别相匹配的文档结构信息模板，对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。另外，在得到各独立文档对应的文档结构化信息之后，还可以将文档结构化信息转换成指定格式的数据后进行保存和/或输出，以方便后续执行针对独立文档内容信息的处理。

进一步地，在确定各独立文档在综合文档图像中的位置之后，还可以对独立文档在综合文档图像中的位置进行透视变换，得到校正后的独立文档图像；相应地，在对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容时，可以对校正后的独立文档图像进行文本识别，确定独立文档中所包含的文本内容。通过对独立文档图像进行透视变换，可以提高文本识别结果的准确度。

下面通过多个实施例来进一步说明本说明书的技术方案。

实施例一

基于上述应用场景架构，图2为本说明书实施例提供的文档识别方法的流程示意图一，图2中的方法能够由图1中的文档识别设备执行，如图2所示，该方法包括以下步骤：

步骤S102，采集目标业务对应的综合文档图像，综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档。

其中，目标业务可以包括：银行业务、保险业务和财务报销业务等。

针对办理不同类型的目标业务，用户需要向办理业务的相关工作人员提供办理该目标业务所需的各种文档材料，这些文档可包括：个人证件(身份证、学历证、学位证、结婚证、户口本、驾驶证、行驶证等)；公司证件(营业执照、开户许可证等)；单据(支票、承兑汇票、进账单、托收凭证等银行单据)；***(增值税***、增值税电子普通***、定额***、火车票、汽车票、飞机行程单、机打***、手写***等财务***)、医疗单据(医疗***、门诊病历、处方、诊断证明、费用明细等)以及各种卡片(银行卡、购物卡、名片等)。

典型业务场景举例如下：

银行业务：①在办理个人银行业务时，特别是开户时，个人需要提交身份证原件，业务***需要识别身份证、提取身份证上的文字信息和人脸比对；②对公开户业务则需要提供更多的相关文档，如营业执照、开户许可证、法人身份证等；③业务中，则会产生各种处理单据，如进账单、支票、承兑汇票等，这些单据都需要电子化的数据，以供保存、检索、查阅等；

保险业务：①个人在办理汽车保险的时候，需要提供身份证、行驶证等证件；②在汽车保险理赔的时候需要提供身份证、行驶证、驾驶证、银行卡等相关证件；③健康险投保的时候需要提供身份证或者驾驶证等证件；④在保险理赔环节则需要提供各种医疗单据、身份证、银行卡等；

财务报销业务：个人财务报销的时候需要提供各种***、报销单，并需要对其进行电子化、进行合法性查验、最后将这些结构化数据对接到相应地企业资源计划(EnterpriseResource Planning，ERP)***、办公自动化(Office Automation，OA)***或者财务***等。

具体地，在工作人员获取到用户提供的用于办理目标业务所需要的各种文档后，可将这些文档非重叠的放置在图像采集区，通过图像采集设备一次性采集，形成包含至少一个文档的文档图像。例如，图像采集设备可采用光学字符识别(Optical CharacterRecognition，OCR)技术采集文档图像。

为方便描述方案，本说明书实施例中将用户提交的每一个原始文档称为“独立文档”；对至少一个独立文档进行一次性图像采集时，由该至少一个独立文档所构成的文档集合称为“综合文档”，相应所采集的图像称为“综合文档图像”。

步骤S104，对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置。

对综合文档图像中包含的独立文档进行定位和分割，其目的是从综合文档图像中分割出每一个独立文档的位置。考虑到独立文档通常是四边形边框，因此可以对分割后的每个独立文档采用QuadBox四个点表示其在综合文档图像中的位置。

具体地，在对综合文档图像中包含的独立文档进行定位和分割时，可以采用多种定位分割方式。例如，可采用传统的图像处理分析的方法；也可以采用深度学习的方法，最常用的深度学习方法包括图像处理立体匹配算法(Sum of Squared Defferences，SSD)、YOLO(You Only Look Once)、Faster-RCNN系列算法；还可以采用实例分割的方法。

在一具体实施例中，在对综合文档图像中包含的独立文档进行定位分割时，可采用对综合文档图像进行实例分割，得到以QuadBox四个点表示的独立文档在综合文档图像中的位置。

例如，可以选择Mask RCNN(Mask RCNN是Faster RCNN的扩展，对于Faster RCNN的每个Proposal Box都要使用FCN进行语义分割，分割任务与定位、分类任务是同时进行的)作为实例分割的方法对独立文档进行定位分割。

步骤S106，对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。

具体地，可针对各独立文档所在位置的图像区域，通过文本识别软件将图像中的文字转换成文本格式，以得到各独立文档中所包含的文本内容。

本实施例中，对于识别图像中文字所采用的具体识别方法和识别模型不做限定。

本说明书实施例提供的文档识别方法，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

实施例二

本实施例在实施例一的基础上，对图2所示的文档识别方法进行拓展和补充。

图3为本说明实施例提供的文档识别方法的流程示意图二，如图3所示，所述步骤S106可包括：

S106-2，对独立文档所在位置的图像进行实例分割，划分出多个包含文本的文本框；

具体地，可利用实例分割的方法对步骤S104中定位分割得到的独立文档所在位置的图像进行文字定位，确定出所有文字字头的位置，从而在独立文档所在位置的图像中切割出多个包含文本的文本框。以身份证作为定位分割出的独立文档为例，从身份证所在位置的图像中切割出的文本框可包括：以每个字头(如姓名、性别、出生、住址、公民身份证号)以及这些字头后面对应的具体内容所在的位置分别被切割作为一个文本框。

S106-4，采用预先训练得到的行文本识别模型，对文本框中包含的文本进行行文本识别，确定文本框所包含的文本内容。

具体地，对于上一步骤定位分割得到的每个文本框中的每一行文本，可以采用预先训练得到的行文本识别模型识别出相应文本的内容，即得到每一行文本的所有字符编码串。其中，行文本识别模型可引用CNN(卷积神经网络)+RNN(循环神经网络)+CTC(Connectionist temporal classification，主要用于处理序列标注问题中的输入与输出标签的对齐问题)技术进行模型训练后形成。该行文本识别模型的具体训练方法如下：

标注样本图像中整行文本图像对应的文本信息，无需标注字符分割信息，直接送入CRNN(卷积循环神经网络)，最后采用CTC技术计算Loss，进行梯度更新，得到整行识别网络模型，即本步骤中已经预训练形成的行文本识别模型。在实际训练过程中，还可以对训练的模型进行扩展，引入注意力机制，采用CNN+RNN+Attention训练形成行文本识别模型，完成整行文本的识别任务。

进一步地，为了提高文本识别的准确度和效率，如图4所示，所述步骤S106还可包括：

S106-6，对独立文档所在位置的图像进行实例分割，确定所述独立文档中文字方向。

具体地，对独立文档所在位置的图像进行实例分割，确定出图像中所有文字字头的方向和位置，从而得到图像主方向。

S106-8，根据独立文档中文字方向，对从相应独立文档中划分出的文本框的方向进行转正调整。

具体地，根据上一步骤中确定的独立文档所在位置的图像主方向(即独立文档中文字方向)，对从该独立文档中划分出的文本框的方向进行转正调整。

相应地，上述S106-4可相应变换为：S106-4’，采用预先训练得到的行文本识别模型，对转正调整后的文本框中包含的文本进行行文本识别，确定文本框所包含的文本内容。

进一步地，如图5所示，上述文档识别方法中在步骤S104之后还包括：

S108，对各独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别。

其中，文档类别可包括：身份证、驾驶证、***、银行卡等。

具体地，可以通过提取独立文档所在位置的图像的文档图像特征来判断该独立文档对应的文档类别。

例如：采用预先训练好的特征提取模型，提取独立文档所在位置的图像的文档图像特征；将提取的文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配，并根据相似匹配结果确定独立文档对应的文档类别。

其中，预先注册的各文档类别所包含的文档图像特征的形成过程如下：

对已标注文档类别的文档图像样本，采用同样上述的预先训练好的特征提取模型提取出文档图像样本的文档图像特征，然后将提取的文档图像特征按所属的文档类别分类注册到模板特征库中。

相应地，上述S106可相应变换为：S106’，采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型，对待识别独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。

具体地，在训练行文本识别模型时，可以按文档类别单独训练对应的模型。这样，在对独立文档所在位置的图像进行文本识别时，可以选取与待识别独立文档的文档类别相匹配的行文本识别模型进行文本识别，从而提高识别结果的准确性。

进一步地，如图6所示，在步骤S106’之后还可包括：

S110，对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。

具体地，在识别出独立文档的文本内容后，可以对这些文本内容进行信息结构化处理，以得到结构化的文档信息。

在文档信息结构化过程中，可选择与独立文档的文档类别相匹配的文档结构信息模板，对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。

例如，文档类别有多种多样，大致可以分成三大类别，所以文档结构信息模板也对应分成三大类：

第一种是固定版式，如身份证、行驶证、驾驶证、增值税***，飞机行程单等。这些文档的结构化方法采用基于固定模板的结构化方法，每一个版式制定一个文档结构信息模板，通过模板匹配的方式进行文档信息结构化。

第二种是有限数量版式，如出租车***、营业执照、医疗***。针对有限数量的版式，需要根据版式上面的区分信息，将该类文档版式再进行细分，形成有限数量的文档结构信息模板，然后通过模板匹配的方式进行文档信息结构化。

第三种是自由版式，没有固定的文档结构信息模板。针对自由版式的文档，则需要采用自然语言处理NLP的方式进行处理，对所识别的文本中每一个条目进行分类，然后根据已有的模板指导提取常规信息。

通过将识别出的独立文档的文本内容转换成文档结构化信息，可以更方便的对文档内容信息进行存储和操作处理。

进一步地，在步骤S110之后还可包括：

S112，将文档结构化信息转换成指定格式的数据后进行保存和/或输出。

完成单个独立文档的结构化之后，需要将结构化信息转换成可以用于传输和/或存储的数据。本实施例中提供两种指定格式的输出模式，一种是JSON格式，另外一种是XML格式，数据格式可按照企业自定义标准进行格式化输出。一般需要输出Key：Value信息，图像的QuadBox，独立文档图像等。

在识别综合文档图像中各独立文档所包含的文本内容，得到每一个独立文档的格式化信息后，可将这些格式化信息打包成一个更大的JSON或者XML以进行输出和/或保存。

进一步地，如图7所示，在步骤S104之后，还可包括：

S114，对独立文档在综合文档图像中的位置进行透视变换，得到校正后的独立文档图像。

例如，可以对以QuadBox四个点表示的独立文档在综合文档图像，进行透视变换(Perspective Transformation)，即将图片投影到一个新的视平面(Viewing Plane)，也称作投影映射(Projective Mapping)，从而得到校正后的独立文档图像。

相应地，上述S106可相应变换为：S106”，对校正后的独立文档图像进行文本识别，确定独立文档中所包含的文本内容。

通过对独立文档图像进行透视变换，得到校正后的独立文档图像，对校正后的独立文档图像进行文本识别，提高了识别准确度。

另外，需要说明的是，本说明书中各实施例中的方法步骤可以在逻辑不冲突的情况下构成任意形式的组合实施例，以满足更复杂的应用场景需求。

本说明书实施例中，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

实施例三

对应上述图2至图7描述的文档识别方法，基于相同的技术构思，本说明书实施例还提供一种文档识别装置。图8为本说明书实施例提供的文档识别装置的模块组成示意图，该装置用于执行图2至图7描述的文档识别方法，如图8所示，该装置包括：

图像采集模块201，采集目标业务对应的综合文档图像，综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档；

文档分割模块202，对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；

文档识别模块203，对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。

本说明书实施例提供的文档识别装置，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

可选地，文档分割模块202，对综合文档图像进行实例分割，得到以QuadBox四个点表示的独立文档在所述综合文档图像中的位置。

可选地，文档识别模块203可包括：

文本分割单元，对独立文档所在位置的图像进行实例分割，划分出多个包含文本的文本框；

文本识别单元，采用预先训练得到的行文本识别模型，对文本框中包含的文本进行行文本识别，确定文本框所包含的文本内容。

可选地，文档识别模块203还可包括：

文本转正单元，对独立文档所在位置的图像进行实例分割，确定独立文档中文字方向；根据独立文档中文字方向，对从相应独立文档中划分出的文本框的方向进行转正调整；

文本识别单元，采用预先训练得到的行文本识别模型，对转正调整后的文本框中包含的文本进行行文本识别，确定文本框所包含的文本内容。

可选地，上述装置还可包括：

文档分类模块，对各独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别；

文档识别模块203，采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型，对待识别独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容。

可选地，文档分类模块，采用预先训练好的特征提取模型，提取独立文档所在位置的图像的文档图像特征；将提取的文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配，并根据相似匹配结果确定独立文档对应的文档类别。

可选地，上述装置还可包括：

文档结构化模块，在确定独立文档中所包含的文本内容之后，对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。

可选地，文档结构化模块，选择与独立文档的文档类别相匹配的文档结构信息模板，对独立文档的文本内容进行结构化处理，得到各独立文档对应的文档结构化信息。

可选地，上述装置还可包括：

文档处理模块，在得到各独立文档对应的文档结构化信息之后，将文档结构化信息转换成指定格式的数据后进行保存和/或输出。

可选地，上述装置还可包括：

所述装置还包括：

透视变换模块，对独立文档在所述综合文档图像中的位置进行透视变换，得到校正后的独立文档图像；

相应地，文档识别模块203，对校正后的独立文档图像进行文本识别，确定独立文档中所包含的文本内容。

需要说明的是，本说明书中关于文档识别装置的实施例与本说明书中关于文档识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的文档识别方法的实施，重复之处不再赘述。

实施例四

对应上述图2至图7描述的文档识别方法，基于相同的技术构思，本说明书实施例还提供一种文档识别设备，该设备用于执行上述的文档识别方法，图9为本说明书实施例提供的一种文档识别设备的结构示意图。

如图9所示，文档识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器301和存储器302，存储器302中可以存储有一个或一个以上存储应用程序或数据。其中，存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括文档识别设备中的一系列计算机可执行指令。更进一步地，处理器301可以设置为与存储器302通信，在文档识别设备上执行存储器302中的一系列计算机可执行指令。文档识别设备还可以包括一个或一个以上电源303，一个或一个以上有线或无线网络接口304，一个或一个以上输入输出接口305，一个或一个以上键盘306等。

在一个具体的实施例中，文档识别设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对文档识别设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

本说明书实施例中提供的文档识别设备，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

可选地，计算机可执行指令在被执行时，所述对所述综合文档图像中包含的独立文档进行定位分割包括：

对所述综合文档图像进行实例分割，得到以QuadBox四个点表示的所述独立文档在所述综合文档图像中的位置。

可选地，计算机可执行指令在被执行时，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容包括：

对所述独立文档所在位置的图像进行实例分割，划分出多个包含文本的文本框；

采用预先训练得到的行文本识别模型，对所述文本框中包含的文本进行行文本识别，确定所述文本框所包含的文本内容。

可选地，计算机可执行指令在被执行时，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容还包括：

对所述独立文档所在位置的图像进行实例分割，确定所述独立文档中文字方向；

根据所述独立文档中文字方向，对从相应所述独立文档中划分出的所述文本框的方向进行转正调整；

采用预先训练得到的行文本识别模型，对所述转正调整后的文本框中包含的文本进行行文本识别，确定所述文本框所包含的文本内容。

可选地，计算机可执行指令在被执行时，所述确定各所述独立文档在所述综合文档图像中的位置之后还包括：

对各所述独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别；

所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容包括：

采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型，对所述待识别独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容。

可选地，计算机可执行指令在被执行时，所述对各所述独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别包括：

采用预先训练好的特征提取模型，提取所述独立文档所在位置的图像的文档图像特征；

将提取的所述文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配，并根据相似匹配结果确定所述独立文档对应的文档类别。

可选地，计算机可执行指令在被执行时，所述确定所述独立文档中所包含的文本内容之后还包括：

对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息。

可选地，计算机可执行指令在被执行时，所述对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息包括：

选择与所述独立文档的文档类别相匹配的文档结构信息模板，对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息。

可选地，计算机可执行指令在被执行时，所述得到各所述独立文档对应的文档结构化信息之后还包括：

将所述文档结构化信息转换成指定格式的数据后进行保存和/或输出。

对所述独立文档在所述综合文档图像中的位置进行透视变换，得到校正后的独立文档图像；

对所述校正后的独立文档图像进行文本识别，确定所述独立文档中所包含的文本内容。

本说明书实施例提供的文档识别设备，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

需要说明的是，本说明书中关于文档识别设备的实施例与本说明书中关于文档识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的文档识别方法的实施，重复之处不再赘述。

实施例五

对应上述图2至图7描述的文档识别方法，基于相同的技术构思，本说明书实施例还提供一种存储介质，用于存储计算机可执行指令，一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

本说明书实施例中提供的存储介质所存储的计算机可执行指令在被处理器执行时，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对所述综合文档图像中包含的独立文档进行定位分割包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容还包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述确定各所述独立文档在所述综合文档图像中的位置之后还包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对各所述独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述确定所述独立文档中所包含的文本内容之后还包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述得到各所述独立文档对应的文档结构化信息之后还包括：

本说明书实施例提供的存储介质所存储的计算机可执行指令在被处理器执行时，通过采集目标业务对应的综合文档图像，该综合文档图像中的综合文档包含执行目标业务所需的至少一个独立文档，以对执行目标任务所需的多个独立文档进行一次性图像采集；然后对综合文档图像中包含的独立文档进行定位分割，以确定各独立文档在综合文档图像中的位置；对各独立文档所在位置的图像进行文本识别，确定独立文档中所包含的文本内容，从而实现在一次综合文档图像采集后，通过对综合文档图像的定位分割以及文本识别，以提高对多个独立文档的识别速度，进而提高目标业务的执行效率。

需要说明的是，本说明书中关于存储介质的实施例与本说明书中关于文档识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的文档识别方法的实施，重复之处不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应地硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种文档识别方法，包括：

2.根据权利要求1所述的方法，所述对所述综合文档图像中包含的独立文档进行定位分割包括：

3.根据权利要求1所述的方法，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容包括：

4.根据权利要求3所述的方法，所述对各所述独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容还包括：

5.根据权利要求1所述的方法，所述确定各所述独立文档在所述综合文档图像中的位置之后还包括：

6.根据权利要求5所述的方法，所述对各所述独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别包括：

7.根据权利要求5或6所述的方法，所述确定所述独立文档中所包含的文本内容之后还包括：

8.根据权利要求7所述的方法，所述对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息包括：

9.根据权利要求7所述的方法，所述得到各所述独立文档对应的文档结构化信息之后还包括：

10.根据权利要求1所述的方法，所述确定各所述独立文档在所述综合文档图像中的位置之后还包括：

11.一种文档识别装置，包括：

12.根据权利要求11所述的装置，所述文档分割模块，对所述综合文档图像进行实例分割，得到以QuadBox四个点表示的所述独立文档在所述综合文档图像中的位置。

13.根据权利要求11所述的装置，所述文档识别模块包括：

文本分割单元，对所述独立文档所在位置的图像进行实例分割，划分出多个包含文本的文本框；

文本识别单元，采用预先训练得到的行文本识别模型，对所述文本框中包含的文本进行行文本识别，确定所述文本框所包含的文本内容。

14.根据权利要求13所述的装置，所述文档识别模块还包括：

文本转正单元，对所述独立文档所在位置的图像进行实例分割，确定所述独立文档中文字方向；根据所述独立文档中文字方向，对从相应所述独立文档中划分出的所述文本框的方向进行转正调整；

所述文本识别单元，采用预先训练得到的行文本识别模型，对所述转正调整后的文本框中包含的文本进行行文本识别，确定所述文本框所包含的文本内容。

15.根据权利要求11所述的装置，所述装置还包括：

文档分类模块，对各所述独立文档所在位置的图像进行分类识别，以确定相应独立文档对应的文档类别；

所述文档识别模块，采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型，对所述待识别独立文档所在位置的图像进行文本识别，确定所述独立文档中所包含的文本内容。

16.根据权利要求15所述的装置，所述文档分类模块，采用预先训练好的特征提取模型，提取所述独立文档所在位置的图像的文档图像特征；将提取的所述文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配，并根据相似匹配结果确定所述独立文档对应的文档类别。

17.根据权利要求15或16所述的装置，所述装置还包括：

文档结构化模块，在确定所述独立文档中所包含的文本内容之后，对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息。

18.根据权利要求17所述的装置，所述文档结构化模块，选择与所述独立文档的文档类别相匹配的文档结构信息模板，对所述独立文档的文本内容进行结构化处理，得到各所述独立文档对应的文档结构化信息。

19.根据权利要求17所述的装置，所述装置还包括：

文档处理模块，在得到各所述独立文档对应的文档结构化信息之后，将所述文档结构化信息转换成指定格式的数据后进行保存和/或输出。

20.根据权利要求11所述的装置，所述装置还包括：

透视变换模块，对所述独立文档在所述综合文档图像中的位置进行透视变换，得到校正后的独立文档图像；

所述文档识别模块，对所述校正后的独立文档图像进行文本识别，确定所述独立文档中所包含的文本内容。

21.一种文档识别设备，包括：

处理器；以及，

22.一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现以下流程：