CN111783778A

CN111783778A - 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法

Info

Publication number: CN111783778A
Application number: CN202010831754.7A
Authority: CN
Inventors: 杜明本; 钟琴隆; 杜志城; 于文才; 李鑫玉; 张亚宁
Original assignee: Shandong Banner Information Co ltd
Current assignee: Shandong Banner Information Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-16

Abstract

一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法，包括如下步骤：获取若干平整文档图片，将平整文档图片进行变形得到训练文档图片；将训练文档图片以及与之对应设置的平整文档图片作为深度学***整的文档图片。本申请采用平整文档图片进行随机变形的方式来得到训练图片，由于在此种情况下，可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性，从而可以大大提高模型训练效率以及模型的选用效率，以此来提高在文档处理过程中训练素材的高品质性，继而为得到高质量的校正模型提供基础。

Description

一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法

技术领域

本申请涉及一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法。

背景技术

由于手机的普及，随手拍照成为了对于文档进行数字化记录的普遍方法，并可以基于此进行如文字识别等的后续操作。但是，由于随手拍照得到的文档常存在扭曲和/或变形，光线条件也不稳定。在此状况之下的文字识别难以达到理想效果。为了提升识别效率，现在一般借助平板式扫描仪来保证文档的规整度。但是可想而知，此种设备并不易携带，成本也较高。因此，如何解决扭曲的文档图片来便于内容分析和信息提取变的颇为急迫。首要需要处理的事情是将文档进行还原，但是现有的还原方式多是一种图像拉伸扭转，并无法弥补文档图片上的缺憾，有时反而是扩大了这种缺憾，使得部分文字更难识别或者识别错误率陡增。而且在拍摄文档图像时，一个常见的实际问题是文档不处于扫描的理想状态：它们可能是弯曲的、折叠的或皱缩的。此时则通常需要对文档图像进行数字扁平化操作，图片质量的原因大大影响后续的文字识别。

发明内容

为了解决上述问题，本申请一方面提出了一种扭曲文档图片的校正模型的训练方法，包括如下步骤：获取若干平整文档图片，将平整文档图片进行变形得到训练文档图片；将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型。

优选的，所述训练文档图片按照如下方法生成：将平整文档图片进行网格分割，随机选择其中一个网格，对此网格进行变形，然后***到原有的平整文档图片中，原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片。本申请采用平整文档图片进行随机变形的方式来得到训练图片，由于在此种情况下，可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性，从而可以大大提高模型训练效率以及模型的选用效率，以此来提高在文档处理过程中训练素材的高品质性，继而为得到高质量的校正模型提供基础。

优选的，在网格上选择一随机边界点作为变形起点，通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片。

优选的，所述变形的方式包括弯曲和折叠。

优选的，所述深度学习采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型。传统的文档扭曲修改方式多是进行特征提取，然后在最后的图像复原上还是基于传统的优化技术，本申请通过带空洞卷积的Dilated_DocUNet模型，即Dilated_DocUNet模型实现端对端的深度学习更加有利于对于图像的复原工作。

优选的，所述Dilated_DocUNet模型中的损失函数采用LeakyReLU。LeakyReLU，即

解决了当x＜0的情况下，梯度消失的问题，针对本申请，由于各个变形的随意性，LeakyReLU损失函数在Dilated_DocUNet模型中具有更好的变现效果，模型的训练效率和效果都得到的提高。

优选的，所述Dilated_DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。可以大大提高在训练过程中的训练效率，减小迭代次数，且能实现并行化操作。

另一方面，本申请还公开了一种扭曲文档图片的校正方法，包括如下步骤：获取经深度学习获得的校正模型以及待识别的变形文档图片；校正模型获取待识别的变形文档图片，对变形文档图片进行识别得到被纠正后的纠正文档图片。

优选的，所述待识别的变形文档图片先进行尺寸归一化处理。

优选的，所述变形文档图片的变形方式为弯曲和/或折叠。

本申请能够带来如下有益效果：

1、本申请采用平整文档图片进行随机变形的方式来得到训练图片，由于在此种情况下，可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性，从而可以大大提高模型训练效率以及模型的选用效率，以此来提高在文档处理过程中训练素材的高品质性，继而为得到高质量的校正模型提供基础；

2、传统的文档扭曲修改方式多是进行特征提取，然后在最后的图像复原上还是基于传统的优化技术，本申请通过带空洞卷积的Dilated_DocUNet模型，即Dilated_DocUNet模型实现端对端的深度学习更加有利于对于图像的复原工作。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施的流程示意图；

图2为本申请实施的另一流程示意图；

图3为实施例1的原始图片；

图4为图3经处理之后的图片。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本申请进行详细阐述。

在第一个实施例中，如图1，图3-图4所示，一种扭曲文档图片的校正方法，包括如下步骤：

S1.获取若干平整文档图片；

S2.将平整文档图片进行变形得到训练文档图片；

所述训练文档图片按照如下方法生成：将平整文档图片进行网格分割，随机选择其中一个网格，对此网格进行变形，然后***到原有的平整文档图片中，原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片；在网格上选择一随机边界点作为变形起点，通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片；所述变形的方式包括弯曲和折叠。

S3.将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型；

深度学***整文档图片处理过程中采用小批量随机梯度下降法进行训练。

S4.获取待识别的变形文档图片；

先对待识别的变形文档图片进行尺寸归一化处理，然后再进行识别处理；

S5.校正模型获取待识别的变形文档图片，对变形文档图片进行识别得到被纠正后的纠正文档图片；

S6.判断纠正文档图片相较于原有需要表达信息的恢复程度以及所需要的时间，恢复达到100％，记为10分，有明显的变形扭曲之处记为5分，基本没有变化记为1分。对10个变形文档图片进行识别，统计平均分和所需要的平均处理时间。

在第二个实施例中，如图1所示，相较于第一个实施例，其采用传统的DocUNet模型，

一种扭曲文档图片的校正方法，包括如下步骤：

S1.获取若干平整文档图片；

S2.将平整文档图片进行变形得到训练文档图片；

S4.获取待识别的变形文档图片；

在第三个实施例中，如图2所示，相较于第一个实施例，其采用的原始图片为本已经扭曲的真实图片和平整图片：

S301.获取若干平整文档图片；

S302.获取平整文档图片经自然变形(拍照方式，贴附地点等)得到的训练文档图片；

S303.将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型；

S304.获取待识别的变形文档图片；

S305.校正模型获取待识别的变形文档图片，对变形文档图片进行识别得到被纠正后的纠正文档图片；

S306.判断纠正文档图片相较于原有需要表达信息的恢复程度以及所需要的时间，恢复达到100％，记为10分，有明显的变形扭曲之处记为5分，基本没有变化记为1分。对10个变形文档图片进行识别，统计平均分和所需要的平均处理时间。

项目	识别平均分	处理所需时间(ms)
			第一个实施例	9.3	27
第二个实施例	7.4	31
			第三个实施例	9.4	85

由此可见，采用Dilated_DocUNet模型对于提高其识别能力，具有非常大的提升作用；而采用本申请采用的方法随机产生变形的训练图片的方式，虽然对于最终识别效果增益不明显，但是却大大提高了其处理效率，所用时间基本上为采用自然扭曲图片的1/3。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种扭曲文档图片的校正模型的训练方法，其特征在于：包括如下步骤：

获取若干平整文档图片，

将平整文档图片进行变形得到训练文档图片；

将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型。

2.根据权利要求1所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：所述训练文档图片按照如下方法生成：将平整文档图片进行网格分割，随机选择其中一个网格，对此网格进行变形，然后***到原有的平整文档图片中，原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片。

3.根据权利要求2所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：在网格上选择一随机边界点作为变形起点，通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片。

4.根据权利要求2所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：所述变形的方式包括弯曲和折叠。

5.根据权利要求1所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：所述深度学习采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型。

6.根据权利要求5所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：所述Dilated_DocUNet模型中的损失函数采用LeakyReLU。

7.根据权利要求5所述的一种扭曲文档图片的校正模型的训练方法，其特征在于：所述Dilated_DocUNet模型通过训练数据集处理过程中采用小批量随机梯度下降法进行训练。

8.一种扭曲文档图片的校正方法，其特征在于：包括如下步骤：

获取经深度学习获得的校正模型以及待识别的变形文档图片；

校正模型获取待识别的变形文档图片，对变形文档图片进行识别得到被纠正后的纠正文档图片。

9.根据权利要求8所述的一种变形文档图片的校正方法，其特征在于：所述待识别的变形文档图片先进行尺寸归一化处理。

10.根据权利要求8所述的一种变形文档图片的校正方法，其特征在于：所述变形文档图片的变形方式为弯曲和/或折叠。