CN110298338A

CN110298338A - 一种文档图像分类方法及装置

Info

Publication number: CN110298338A
Application number: CN201910538341.7A
Authority: CN
Inventors: 朱军民; 王勇; 康铁钢
Original assignee: Knowlegeable Science And Technology Ltd Of Beijing Yi Dao
Current assignee: Knowlegeable Science And Technology Ltd Of Beijing Yi Dao
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-10-01
Anticipated expiration: 2039-06-20
Also published as: CN110298338B

Abstract

本发明公开了一种文档图像分类方法及装置，属于计算机视觉领域。该方法对文本特征向量提取模型和图像特征向量提取模型分别进行训练，利用文本特征向量和图像特征向量相融合的嵌入特征方式提取文档图像的融合特征向量，基于融合特征向量的相似性实现对文档图像进行分类。该方法能够快速注册、分类各种文档图像，可以极大地简化业务流程，简化OCR API，一个API就可以提供所有的文档识别，真正做到“一次接入永久使用”。

Description

一种文档图像分类方法及装置

技术领域

本发明涉及计算机视觉领域，尤其是一种文档图像分类方法及装置。

背景技术

在各行各业目前还有很多纸质文档需要保存、处理、检索等，尤其在金融领域如银行、证券、保险、互金、财务、税务等行业。之前这些纸质文档的电子化一般是人工录入，随着OCR领域技术不断普及，很多行业逐步采用了OCR识别技术代替人工录入，很大程度提高了工作效率。但是目前能够很好的OCR识别并结构化的前提是需要明确知道文档的类别，否则很难有一个很好的结构化结果。另外很多场合比如银行柜台，目前应用是用户必须选择目前要识别的图像是什么类别，然后才能拍摄图像并识别，如果能够自动将输入的图像进行分类，就可以批量扫描，自动分类识别，将大大提高业务处理速度。还有一些SaaS服务，目前的接口都是按照各种处理的文档的类别来划分的，用户在调用之前必须明确知道图像内部，然后调用该类别接口进行识别和结构化，否则只能使用通用OCR，得到只是纯文本。

如果能够在图像OCR和结构化之前将图像的类别分类好，那么将会大大降低人工操作工作，同时也可以简化图像识别API。但是文档图像分类技术还存在以下难点：

1、样式多获取难：文档图像种类太多，不同领域有不同的文档类型，不可能都能够采集到用于训练，而且有时候是后期才加入的，无法预先获取，还有的文档是保密的，无法在非脱敏的情况下训练。

2、采集方式复杂：随着手机、平板、高拍仪、扫描仪、照相机等采集设备普及，特别是手机普及，文档图像获取方式从传统的扫描方式转向了拍摄方式，当前90％以上的文档图像都是拍摄而非扫描的，拍摄的图像由于背景比较复杂，所以比之扫描仪来说，在背景、分辨率、方向、光照、字体、字符大小等各种条件都不如扫描仪，而且无法统一规范。

3、图像内容复杂：需要分类的图像按照内容分非常复杂，有常用的卡证(身份证、银行卡、户口本、军官证等等)，有常用的财务***(增值税***、定额***、交通票、行程单)，有各类银行单据(如进账单、支票、承兑汇票、转账凭证等等)，有各类合同、财务报表、书籍、报刊、杂志等等。有的带关键字而有的没有关键字，有的有表格线而有的没有表格线，有的带文档名称而有的没有文档名称。

发明内容

为了解决以上问题，本发明提供了一种文档图像分类方法，该方法针对各类文档图像的分类提供一套行之有效的方法，融合文档图像的图像级别特征和文本级别特征，通过特征相似性进行分类。该方法能够快速注册、分类各种文档图像，可以极大的简化业务流程，简化OCRAPI，一个API就可以提供所有的文档识别，真正做到“一次接入永久使用”。

根据本发明的第一方面，提供一种文档图像分类方法，其特征在于，所述文档图像具有文本特征向量和图像特征向量，所述方法对文本特征向量提取模型和图像特征向量提取模型分别进行训练，利用文本特征向量和图像特征向量相融合的嵌入特征方式提取文档图像的融合特征向量，基于融合特征向量的相似性实现对文档图像进行分类。

进一步的，所述方法包括：

步骤1：选取用于对特征向量提取模型进行训练的文档图像训练集合，提取各文档图像的训练融合特征向量，对文本特征向量提取模型和图像特征向量提取模型进行训练；

步骤2：选取用于对注册融合特征向量进行注册的文档图像注册集合，提取各文档图像的注册融合特征向量，并分别存入数据库进行注册；

步骤3：针对待分类的文档图像分类集合，提取各文档图像的分类融合特征向量，计算分类融合特征向量与各注册融合特征向量的相似度，根据相似度计算结果对文档图像进行分类。

进一步的，所述步骤1具体包括：

步骤11：选取文档图像训练集合，所述文档图像训练集合包括M个文档图像训练样本，M为整数；

步骤12：将M个文档图像训练样本按照不同的类别进行分类；

步骤13：输入文档图像训练集合中的第r个文档图像，并进行方向校正，r为整数，且1≤r≤M；

步骤14：通过文本特征向量提取模型和图像特征向量提取模型提取第r个文档图像的文本特征向量和图像特征向量；

步骤15：获得第r个文档图像的文本特征向量和图像特征向量相融合的训练融合特征向量；

步骤16：基于文档图像训练集合的M个训练融合特征向量对文本特征向量提取模型和图像特征向量提取模型进行训练。

进一步的，所述方法基于文档图像训练集合的M个训练融合特征向量采用三元组损失函数(Triplet Loss)对文本特征向量提取模型和图像特征向量提取模型进行训练。

进一步的，所述Triplet Loss损失函数为：

其中，N为文档图像训练样本集合，i为其中某一样本实例的三元组表示Anchor样本，表示Positive样本，表示Negative样本，分别是的特征表达，α为最小间隔，加号的意思是该loss只是关注大于等于0的情况，如果小于0则无需处理，因为Anchor与Positive近，Anchor与Negative样本远。

进一步的，第r个文档图像的文本特征向量和图像特征向量的融合方式包括：

若第r个文档图像的文本特征向量和图像特征向量的向量长度相等，则相加以进行融合；或

将第r个文档图像的文本特征向量和图像特征向量直接拼接以进行融合；或

对第r个文档图像的文本特征向量和图像特征向量进行向量拼接，经过全连接网络，以进行融合，从而得到训练融合特征向量。

进一步的，所述步骤2具体包括：

步骤21：选取文档图像注册集合，所述文档图像注册集合包括K个文档图像，K为整数；

步骤22：输入文档图像注册集合中的第p个文档图像，并进行方向校正，p为整数，且1≤p≤K；

步骤23：通过训练后的文本特征向量提取模型和图像特征向量提取模型提取第p个文档图像的文本特征向量和图像特征向量；

步骤24：获得第p个文档图像的文本特征向量和图像特征向量相融合的注册融合特征向量；

步骤26：将K个注册融合特征向量分别存入数据库，进行注册。

进一步的，所述步骤3具体包括：

步骤31：选取文档图像分类集合，所述文档图像分类集合包括L个文档图像，L为整数；

步骤32：输入文档图像注册集合中的第q个文档图像，并进行方向校正，q为整数，且1≤q≤L；

步骤33：通过训练后的文本特征向量提取模型和图像特征向量提取模型提取第q个文档图像的文本特征向量和图像特征向量；

步骤34：获得第q个文档图像的文本特征向量和图像特征向量相融合的分类融合特征向量；

步骤35：计算第q个文档图像的分类融合特征向量与数据库中的K个注册融合特征向量的相似度，根据相似度计算结果对第q个文档图像进行分类。

进一步的，采用欧氏距离、马氏距离或余弦距离作为第q个文档图像的分类融合特征向量与数据库中的K个注册融合特征向量的相似度判断依据。

根据本发明的第二方面，提供一种文档图像分类装置，其特征在于，所述装置采用根据以上任一方面所述的方法进行分类，所述装置包括：

文档图像训练模块，用于选取对特征向量提取模型进行训练的文档图像训练集合，提取各文档图像的训练融合特征向量，对文本特征向量提取模型和图像特征向量提取模型进行训练；

文档图像注册模块，用于选取提取注册融合特征向量并存入数据库进行注册的文档图像注册集合，提取各文档图像的注册融合特征向量，并分别存入数据库进行注册；

文档图像分类模块，用于针对待分类的文档图像分类集合，提取各文档图像的分类融合特征向量，计算分类融合特征向量与各注册融合特征向量的相似度，根据相似度计算结果对文档图像进行分类。

根据本发明的第三方面，提供一种文档图像分类***，所述***包括：

处理器和用于存储可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以执行如前述任一方面所述的文档图像分类方法。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任一方面所述的文档图像分类方法。

本发明的有益效果：

1、本发明利用文档图像中文本序列特征和图像空间特征相结合的特征嵌入式(Embedding)的方法，采用Triplet Loss损失函数进行网络训练，最后得到文档图像的特征表征网络。一旦网络被训练好之后，对于新的文档图像无需再重新训练，只需要使用网络进行特征提取入口，该方法就能很快区分出对应的类别。从根本上解决了文档图像分类新增一类都需要重新收集样本训练的困难，即使注册及时使用。该方法通过注册的方式，与人脸识别类似，可以快速分类以前没有学习过的类别，方便推广使用，易于扩展。

2、利用了文字特征和图像特征相结合，文字特征描述的是内容信息，图像特征描述的是图像的结构特征，从两个方面对文档图像进行描述大大提高了文档图像分类的精度，极大提高了相似文档图像的区分精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1示出根据本发明的文档图像分类方法流程图；

图2示出根据本发明的文档图像分类步骤流程图；

图3示出根据本发明的文档图像方向校正流程图；

图4示出根据本发明的文本特征提取流程图；

图5示出根据本发明的图像特征提取流程图；

图6示出根据本发明的Triplet Loss损失函数训练过程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

根据本发明，提供了一种文档图像分类方法，整个流程图如图1所示。

具体包括：

文档图像特征注册模块：

步骤1：特征向量提取：根据预先训练好的模型提取图像的分类特征向量；

步骤2：特征向量注册：将提取的特征向量存入图像分类的模板特征向量数据库。

文档图像分类模块：

步骤2：特征向量分类：将提取的特征向量与预先注册的特征向量进行比对，计算相似性。

在两个模块中其中特征向量提取步骤是相同的功能函数，可以实现对文档图像提取文档图像的分类特征向量。

模型的训练过程如下：

1)样本标注：将文档图像按照不同的类别准备好，并且将文档的方法校正和文本都预先提取完成；在本实例中，总共包含各种卡证、税务票据、医疗票据、银行单据共300类。

2)训练过程：采用了Triplet Loss损失函数的方式进行模型1和模型2同时训练。文档图像经过Embedding之后得到了表征文档图像的特征，然后采用Triplet Loss损失函数进行训练。Triplet Loss是深度学习中的一种损失函数，用于训练差异性较小的样本，如人脸等，Feed数据包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。

3)Triplet Loss损失函数的计算公式如下：

目标函数：距离用欧氏距离度量，+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。

其中，N为文档图像训练样本集合，i为其中某一样本实例的三元组表示Anchor样本，表示Positive样本，表示Negative样本，分别是的特征表达，α为最小间隔，加号的意思是该loss只是关注大于0的情况，如果小于等于0则无需处理，因为Anchor与Positive近，Anchor与Negative样本远。

下面以图1中左边图像文档分类为主要流程介绍，细化该流程图。具体步骤如图2所示：

(一)图像方向校正

1)图像预处理：图像尺寸进行调整，满足卷积神经网络边界条件。

2)图像角度拟合：采用全卷积FCN，预测输入图像的文本位置和文本角度，将所有预测的文字区域内的文字主方向进行平均，获得图像方向角度。

3)拟合出角度之后，将图像旋转顺时针旋转到字头朝上位置，同时将定位的文本框也随之旋转。

4)输出校正的文档图像和文档图像中定位的文本行的文本框(留作下一步使用)。

这里，步骤4)采用UNet型网络设计的实例分割网络，先通过一个5层的卷积层，进行图像的特征提取，然后上采样并融合上一层的卷积结果，最后得到一个1/2(可以根据分割的目标不同，选择不同的尺度如1,1/2,1/4,1/8等)图像大小的64位特征图Featuremap，根据分割的需求，输出不同的分数图(scoresmap)：

1)输出一个文字方向分数图(Direction scoresmap)，每一个像素所在视野区域内文字的方向信息，归一化在[0,1]，对应[0,2π]的角度。

2)输出6个实例对象分割图Objectmap，即6个实例对象分数图(scoresmap)，包括背景、线条、图章、插图、印刷体文本、手写体文本等6个目标实例对象。输出值是这6个类别经过归一化指数函数(softmax)之后的输出，取值范围在[0,1]。

3)输出8紧邻方向的链接信息——称作八邻域像素链接图Linkmap，每一个方向上2个scoresmap，对应正链接(Pos-Link)和负链接(Neg-Link)，输出值也是经过softmax之后的，取值范围在[0,1]之间。

实例分割全卷积神经网络FCN的训练过程如下：

1)样本标注

所有的实例对象都采用矢量线段来表述，对于线条使用有线线段和线宽描述，对于文字，采用多边形进行描述；对于文字方向，则标记每一个字符矩形框内为一个方向，字符方向为字头朝向，定义向上(正向)为0度角，一个字符框内的所有像素为一个方向。

2)训练过程

将样本集分为训练集和测试集，通过训练集对神经网络进行训练，得到全卷积神经网络的模型，然后通过测试集对模型进行测试，以确定算法的泛化能力，如果效果不佳则继续修改参数重新训练，直到训练的模型在测试集上能够达到预设的准确率。如果准确率不能满足要求，则继续增加训练样本，增加样本的多样性，重新进行训练，然后进行测试，如此循环。如此，输出准确率满足要求的全卷积神经网络模模型。

(二)文本特征向量提取

1)文本行识别

对于上一步定位的每一行文本，识别出文本的内容，行文本识别技术采用了CRNN(cnn+rnn+ctc)技术，得到每一行文本的所有字符编码串。该模型是已经预训练好的整行文字识别模型，具体训练方法：标注整行图像对应的文本信息，无需标注字符分割信息，直接送入CRNN网络，最后采用CTC技术计算Loss，进行梯度更新，得到整行识别网络模型。在本步骤中采用已经预训练的网络模型。

2)文本行排序

对每一行文本信息进行排序，按照从上到下，从左到右进行排序，确保数据的顺序性。

3)文本行特征向量提取(模型1)

将所有文本行按照顺序整合成一段文字，行与行之间用空格隔开，然后送入TCNN做文本特征的抽取，得到一个固定长度L_t的文本特征向量T，在实例中为128。

(三)图像特征向量提取

1)图像预处理：

将图像归一化到固定尺寸大小H×W，本实例中实际图像大小是512X512，原始图像的高宽比不变，空白区域用白色填补。

对于宽度或者高度512的情况：其中h，w是图像的原始尺寸，整个图像的缩小过程中，图像的高宽比不变；

对于宽度和高度都小于512的情况：直接将图像复制到固定尺寸图像的中央，四周空白区域用白色填充。

2)图像特征向量提取(模型2)：

利用卷积神经网络对图像进行卷积和下采样处理，使用VGG或者ResNet等现成网络,卷积网络输出8x8x512的featuremap，最后通过全连接得到一个长度为L_i的图像特征向量I，在实例中为128。

(四)特征向量融合

将特征向量I和特征向量T进行融合，融合有多种方式，一种如果两个向量长度相等，则对应值可以先加；另一种是将两个向量进行拼接，可以选择在经过一个FC层。在本实例中采用了第二种方式，将特征联接在一起，得到一个256长度的特征向量，然后经过一个全连接网络，得到一个128位融合特征。得到最终对于图像的嵌入特征(Embedding)。

(五)特征向量分类

特征向量分类就是采用上述提取特征向量，计算相似度。计算两个特征向量的相似度，可以采用马氏距离、欧氏距离、余弦距离(cos距离)等等。在本实例中，采用了欧氏距离作为判断依据。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种文档图像分类方法，其特征在于，所述文档图像具有文本特征向量和图像特征向量，所述方法对文本特征向量提取模型和图像特征向量提取模型分别进行训练，利用文本特征向量和图像特征向量相融合的嵌入特征方式提取文档图像的融合特征向量，基于融合特征向量的相似性实现对文档图像进行分类。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤1具体包括：

步骤12：将M个文档图像训练样本按照不同的类别进行分类；

4.根据权利要求3所述的方法，其特征在于，第r个文档图像的文本特征向量和图像特征向量的融合方式包括：

5.根据权利要求2所述的方法，其特征在于，所述步骤2具体包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤3具体包括：

7.根据权利要求6所述的方法，其特征在于，采用欧氏距离、马氏距离或余弦距离作为第q个文档图像的分类融合特征向量与数据库中的K个注册融合特征向量的相似度判断依据。

8.一种文档图像分类装置，其特征在于，所述装置采用根据权利要求1至7中任一项所述的方法进行分类，所述装置包括：

9.一种文档图像分类***，其特征在于，所述***包括：

处理器和用于存储可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以执行根据权利要求1至7中任一项所述的文档图像分类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的文档图像分类方法。