CN113657445B

CN113657445B - 基于Resnet的单行文本图片比对方法及***

Info

Publication number: CN113657445B
Application number: CN202110787302.8A
Authority: CN
Inventors: 廖万里; 金卓; 肖飞; 林春莲
Original assignee: Zhuhai Kingsware Information Technology Co Ltd
Current assignee: Zhuhai Kingsware Information Technology Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2022-06-07
Anticipated expiration: 2041-07-13
Also published as: CN113657445A

Abstract

本发明公开了基于Resnet的单行文本图片比对方法及***，该方法包括以下步骤：训练步骤，输入训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练；识别步骤，输入待对比的单行文本图片，通过训练好的特征提取网络网络模型，得到待对比的单行文本图片的编辑距离。本发明实现了基于特征提取神经网络的编辑距离计算，能有效提高单行文本图片的对比准确度。

Description

基于Resnet的单行文本图片比对方法及***

技术领域

本发明涉及文本识别的技术领域，特别涉及一种基于Resnet的单行文本图片比对方法及***。

背景技术

目前为了解决单行文本图片的对比问题，通常通过OCR技术识别出文本内容然后计算文本编辑距离。但该方法的对比准确率通常受限于OCR的准备率，而OCR是比图片对比更为复杂的问题，导致单行文本图片的对比准确度无法提高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于Resnet的单行文本图片比对方法，能够有效提高单行文本图片的对比准确度。

本发明还提出一种具有上述基于Resnet的单行文本图片比对方法的基于Resnet的单行文本图片比对***。

本发明还提出一种具有上述基于Resnet的单行文本图片比对方法的计算机可读存储介质。

根据本发明的第一方面实施例的基于Resnet的单行文本图片比对方法，包括以下步骤：训练步骤，输入训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练；识别步骤，输入待对比的单行文本图片，通过训练好的特征提取网络网络模型，得到所述待对比的单行文本图片的编辑距离。

根据本发明实施例的基于Resnet的单行文本图片比对方法，至少具有如下有益效果：以训练特征提取神经网络为基础，引入分段函数将欧式距离转化为编辑距离，并基于编辑距离的设计损失函数完成特征提取神经网络的训练，从而实现基于特征提取神经网络的编辑距离计算，有效提高单行文本图片的对比准确度。

根据本发明的一些实施例，所述特征提取网络为Resnet网络结构，网络中包括多个卷积组；其中，第一个卷积组只包括1次卷积计算操作，卷积核为7×7，步长为2；除第一个以外的卷积组包括多个相同的残差单元。

根据本发明的一些实施例，所述利用分段函数将欧式距离转化为编辑距离的方法包括：

其中，

D(x)为对比的单行文本图片之间的欧式距离，N为大于0的整数。

根据本发明的一些实施例，所述损失函数为最小化样本预测编辑距离与实际编辑距离之差。

根据本发明的一些实施例，所述训练数据的获取方法包括：获取第一文本数据，对所述第一文本数据的每一行进行***、替换和删除中的至少一项操作，得到第二文本数据；将所述第一文本数据及所述第二文本数据转化为图片，并按行进行切割，得到第一训练单行文本图片数据集。

根据本发明的一些实施例，所述训练数据的获取方法还包括：对所述第一训练单行文本图片数据集中的图片进行加入噪声、高斯模糊和图像锐化中的至少一项操作，得到第二训练单行文本图片数据集。

根据本发明的第二方面实施例的基于Resnet的单行文本图片比对***，包括：模型训练模块，用于接收训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练；编辑距离识别模块，用于接收待对比的单行文本图片，通过训练好的特征提取网络网络模型，得到所述待对比的单行文本图片的编辑距离。

根据本发明实施例的基于Resnet的单行文本图片比对***，至少具有如下有益效果：以训练特征提取神经网络为基础，引入分段函数将欧式距离转化为编辑距离，并基于编辑距离的设计损失函数完成特征提取神经网络的训练，从而实现基于特征提取神经网络的编辑距离计算，有效提高单行文本图片的对比准确度。

根据本发明的第三方面实施例的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面实施例的方法。

根据本发明实施例的计算机可读存储介质，至少具有与本发明的第一方面实施例的方法同样的有益效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的方法的流程示意图；

图2为模型训练模块的训练示意图；

图3为本发明实施例的检测过程示意图；

图4为本发明实施例中的编辑距离的计算方法的图像示意；

图5为本发明实施例的***的模块示意框图。

附图标记：

模型训练模块100、编辑距离识别模块200。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个及两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本发明的描述中，步骤标号仅是为了描述的方便或者引述的方便所作出的标识，各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参照图1，本发明的实施例的方法包括：训练步骤，输入训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练；识别步骤，输入待对比的单行文本图片，通过训练好的特征提取网络网络模型，得到所述待对比的单行文本图片的编辑距离。

本实施例中，模型的训练由数据准备及处理、图片特征向量、损失函数优化、模型评估这几个部分组成。首先是数据准备，准备一份电子文档(长文档，页数大于30页)，对该份文档的每行文本分别进行***、删除、替换等一次或多次操作，形成编辑距离为1、2、3、4、5、6的电子文档，然后，将其转化为图片并切割成单行文本图片形成训练集。为了给模型增加难度，使训练出的模型更准确，泛化能力更强，还可以对每个单行文本图片分别加入噪声、高斯模糊等图片处理的操作，然后将相同文字的单行文本图片构成一类，放入同一个文件夹内，形成该单行文本的训练数据。

其次是提取所给单行文本图片的特征向量。本实施例采用的特征提取方式是以Resnet网络结构作为单行文本图片的特征提取，在优化特征向量上，引入分段函数将欧式距离转化为编辑距离，并基于编辑距离设计损失函数完成特征提取神经网络的训练。之所以采用这种模型进行训练是因为Resnet网络结构在传统的网络结构上加入了残差学习的机制。解决了深度网络的退化问题，可以训练出更深的网络结构，在特征向量的提取上更为精确。此外，本实施例在损失函数的计算方面，以编辑距离计算为基础构建损失函数，使神经网络不断调整特征向量提取的方式，寻找出最优特征向量提取的网络结构。在本实施例中，训练时以轮询的方式分别从训练集中提取任意两张单行文本图片，构成样本对，轮询32次，即每个轮次的训练共64张图片。然后计算样本对的欧式距离，以此为基础引入阶梯函数计算编辑距离，进而计算损失函数，通过多轮次的训练使损失函数逐渐收敛并趋于稳定，此时模型的评估效果也应该为最优状态。而后将模型训练的最优权重保存下来，以便做图片识别。

此外，在模型的评估上，每次从评估集里随机提取32张图片进行评估。两两构成一对，根据模型预测的特征向量的计算欧式距离，再根据分段函数将欧式距离转换成编辑距离。如果编辑距离与真实值相同，则判断为模型预测正确，否则预测错误。统计所有图片预测准确的个数除以总的评估图片数的一半，得到模型的评估值。

本实施例中，还会对模型训练保存的权重进行封装，使用户能以接口的形式访问到该服务。单行文本图片比对返回的结果以json的形式返回，返回的结果包括传入图片名称、两图片的编辑距离、模型结果的置信度。

(1)***结构

本实施例的***，参照图5，分为模型训练模块100和编辑距离识别模块200两个模块。模型训练模块100，用于接收训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练；编辑距离识别模块200，用于接收待对比的单行文本图片，通过训练好的特征提取网络网络模型，得到待对比的单行文本图片的编辑距离。

模型训练模块100，参照图2，由数据提取、特征提取网络结构、L2正则化、损失函数计算、模型评估这几个部分构成。本实施例中，特征提取网络是由Resnet网络结构，网络一共包含5个卷积组(卷积组的数量可以根据实际需要进行调整)，每个卷积组中包含1个或多个基本的卷积计算过程，第1个卷积组只包含1次卷积计算操作，卷积核为7x7，步长为2，第2-5个卷积组都包含多个相同的残差单元，通常把第2-5个卷积组分别叫做Stage1、Stage2、Stage3、Stage4。损失函数是根据引入的分段函数将欧式距离转化为编辑距离，并基于编辑距离进行计算的。

本实施例中，编辑距离识别模块200由后端应用程序部分和页面展示部分构成。如图3所示，用户在页面端传入比对的两张单行文本图片到后端，后端将模型的结果返回到前端进行展示。

(2)训练数据集的准备

首先将一批第一文本数据，首先对该第一文本数据的每行文本进行***、替换和删除中至少一项的操作，生成一批新的第二文本数据。并将第二文本数据和原有的第一文本数据转换成图片的形式，并对完整图片的按行进行切割处理，形成第一训练单行文本图片数据集。然后对第一训练单行文本图片数据集中的这些单行文本图片分别进行加入噪声、高斯模糊和图像锐化等至少一项的处理，使同一文本的单行文本图片有多种特征，提高模型的泛化能力，形成第二训练单行文本图片数据集，并将每行文本处理前的原图像和处理后的图像归为同一类，放入同一个文件夹内，构成完整的训练集。

(3)编辑距离的阶梯函数

本实施例中为了将连续的欧式距离转换成编辑距离引入了连续可导的阶梯函数，该阶梯函数是基于sigmoid函数改造的。sigmoid函数的计算公式是：

本实施例的分段函数是基于sigmoid函数进行改造的，以7分类为例(分类数可基于模型的数据进行调整)，计算公式如下：

其中，N＝0,1,2,..,6，代表两图片的编辑距离，x为上述得到的编辑距离D(x_i)，向量，所以编辑距离的计算公式如下：

该编辑距离的图像如图4所示。

从图中可知，根据不同的分类，编辑距离的激活函数以阶梯式进行连接，当x<10时，两图片的编辑距离为0，当10≤x<30时，两图片的编辑距离为1,依此类推，当x≥110，编辑距离为6。编辑距离可根据训练集的分类进行调整。

本实施例使用深度神经网络提取单行文本图片特征，基于特征向量计算欧式距离，最后基于阶梯函数实现欧式距离到编辑距离的转换。

下面是编辑距离计算的例子。若有两张需要比较相似度的文本图片，分别记为图片A和图片B，取得的特征向量分别为X^A，X^B，特征向量X为：

X＝[x₁,x₂,x₃,…,x_n]

两特征向量的欧式距离的计算公式为：

由此得到两图片欧式距离的特征向量，在此基础上引入分段函数用于编辑距离的计算，具体公式如下：

(3)损失函数

编辑距离损失函数就是最小化样本预测编辑距离与实际编辑距离之差，样本预测编辑距离由编辑上面给出的编辑距离计算公式给出，设预测编辑距离为：Y^I，图片中文本的实际编辑距离为：Y^R，编辑距离向量Y为：

Y＝[y₁,y₂,y₃,…,y_n]

损失函数即为：

尽管本文描述了具体实施方案，但是本领域中的普通技术人员将认识到，许多其它修改或另选的实施方案同样处于本公开的范围内。例如，结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外，虽然已根据本公开的实施方案描述了各种例示性具体实施和架构，但是本领域中的普通技术人员将认识到，对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。

上文参考根据示例性实施方案所述的***、方法、***和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解，框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样，根据一些实施方案，框图和流程图中的一些块可能无需按示出的顺序执行，或者可以无需全部执行。另外，超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。

因此，框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机***或者专用硬件和计算机指令的组合来实现。

本文所述的程序模块、应用程序等可包括一个或多个软件组件，包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令，所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如，本文所述的例示性方法的一种或多种操作)被执行。

软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言，诸如与特定硬件体系结构和/或操作***平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言，其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中，包含上述编程语言示例中的一者的指令的软件组件可直接由操作***或其它软件组件执行，而无需首先转换成另一种形式。

软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如，预设的或固定的)或动态的(例如，在执行时创建或修改的)。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Resnet的单行文本图片比对方法，其特征在于，包括以下步骤：

训练步骤，输入训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练，所述利用分段函数将欧式距离转化为编辑距离的方法包括：

其中，

D(x)为对比的单行文本图片之间的欧式距离，N为大于0的整数，y为编辑距离；

识别步骤，输入待对比的单行文本图片，通过训练好的特征提取网络模型，得到所述待对比的单行文本图片的编辑距离。

2.根据权利要求1所述的基于Resnet的单行文本图片比对方法，其特征在于，所述特征提取网络为Resnet网络结构，网络中包括多个卷积组；其中，第一个卷积组只包括1次卷积计算操作，卷积核为7×7，步长为2；除第一个以外的卷积组包括多个相同的残差单元。

3.根据权利要求1所述的基于Resnet的单行文本图片比对方法，其特征在于，所述损失函数为最小化样本预测编辑距离与实际编辑距离之差。

4.根据权利要求1所述的基于Resnet的单行文本图片比对方法，其特征在于，所述训练数据的获取方法包括：

获取第一文本数据，对所述第一文本数据的每一行进行***、替换和删除中的至少一项操作，得到第二文本数据；

将所述第一文本数据及所述第二文本数据转化为图片，并按行进行切割，得到第一训练单行文本图片数据集。

5.根据权利要求4所述的基于Resnet的单行文本图片比对方法，其特征在于，所述训练数据的获取方法还包括：

对所述第一训练单行文本图片数据集中的图片进行加入噪声、高斯模糊和图像锐化中的至少一项操作，得到第二训练单行文本图片数据集。

6.一种基于Resnet的单行文本图片比对***，使用权利要求1至5中任一项的方法，其特征在于，包括：

模型训练模块，用于接收训练数据集，通过特征提取网络提取单行文本图片的特征，利用分段函数将欧式距离转化为编辑距离，并基于编辑距离构建损失函数，完成特征提取网络的训练，所述利用分段函数将欧式距离转化为编辑距离的方法包括：

其中，

编辑距离识别模块，用于接收待对比的单行文本图片，通过训练好的特征提取网络模型，得到所述待对比的单行文本图片的编辑距离。

7.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5中任一项的方法。