CN116403226A

CN116403226A - 无约束褶皱文档图像矫正方法、***、设备及存储介质

Info

Publication number: CN116403226A
Application number: CN202310392392.XA
Authority: CN
Inventors: 李厚强; 周文罡; 冯浩; 刘绍锴
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-07

Abstract

本发明公开了一种无约束褶皱文档图像矫正方法、***、设备及存储介质，它们是一一对应的方案，相关方案能够解决现有方案应用场景受限的问题，即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时，本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法，本发明对输入的褶皱文档图像无任何形式上的约束，能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像，本发明可被广泛应用于智能手机等带有相机的便携式设备，应用场景更加广泛，准确率更高。因此，本发明将极大地促进文档图像数字化的普及，为纸质文档的数字化转换提供强有力的技术支持。

Description

无约束褶皱文档图像矫正方法、***、设备及存储介质

技术领域

本发明涉及褶皱文档图像矫正技术领域，尤其涉及一种无约束褶皱文档图像矫正方法、***、设备及存储介质。

背景技术

随着便携式相机和智能手机的快速进步和普及，越来越多的人选择用它们拍摄扫描纸质文档，而不需要像以往一样使用专用平板扫描仪。然而，由于拍摄环境中诸多不确定因素，如相机位置不确定、光照环境不确定，以及纸张形变类型和程度不确定等，由这些设备拍摄的文档图像往往会带有不同程度的各式各样的失真和变形。这使得下游任务的处理，如自动化的文本识别、内容分析、编辑和理解等，变得更加困难。同时，这也不利于日常生活中信息和知识的传播和交流。为了解决这一问题，褶皱文档图像矫正成为了当前计算机视觉领域中的重要研究课题。

传统的解决方案主要基于3D重建技术。这些方法通常需要依赖附加的硬件设备(如激光扫描仪、深度相机等)，或者是通过围绕褶皱纸张拍摄多视角图像，来重建纸张的三维立体结构，并在此基础上进行展平矫正。然而，由于较高的硬件成本或繁琐的拍摄要求，这些技术的推广和使用受到了极大的限制。

目前，许多智能手机都内置有文档矫正算法。这些算法大都基于投影变换技术：首先检测拍摄的文档图像中纸质文档的四条直线边缘或四个角点，形成文档所在的四边形区域；然后应用投影变换技术将其映射为规整的矩形图像，从而完成对拍摄文档图像的矫正。然而，这一解决方案要求拍摄的图像中，必须出现完整的文档，且如果文档本身存在形变无法进行矫正恢复，进而影响效果。这一限制同样带来了不便：很多时候，用户可能只关注于文档的部分区域。

近年来，深度学习被引入到褶皱文档图像矫正领域。相对于传统的方法，基于深度学习的方法在实现相似性能的同时，仅需要较少的计算开销。通过使用渲染引擎合成的大量形变-无形变图像对进行训练，神经网络学习到了矫正文档褶皱的能力。在推理阶段，输入单张褶皱的RGB文档图像，神经网络可以输出逐像素的坐标映射矩阵，将输入图像中褶皱文档区域中的像素采样到空图像中，得到完整的矫正图像。

总体来说，无论是智能手机内置的文档矫正算法，还是现有的深度学习方法，它们主要存在如下缺陷：

(1)当前基于深度学习的文档图像矫正算法，普遍只能矫正有完整边界的褶皱文档图像，即输入图像中必须包含一个完整的文档。然而，在实际应用场景中，用户可能仅仅想要关注或者分享文档中的部分区域或文字。因此，拍摄的图像可能会存在文档边界缺失的情况。此外，通过手机拍摄的文档图像往往存在边缘部分缺失的情况。这种情况下，现有的文档图像矫正方法将会失效，无法得到正常的矫正结果。当前的技术方案，对于无文档边界或仅包含部分文档边界的文档图像的矫正问题，缺乏有效的研究，需要进一步探索和改进。

(2)当前智能手机内置的文档图像矫正算法的适用场景受限。这些算法只适用于完整的、无形变的文档图像，即该纸质文档无折叠、弯曲和褶皱，且完整的出现在拍摄的图像中。简单来说，这些算法只是将纸质文档的成像投影平面切换到一个规则的矩形形状，一旦纸质文档的形状不是规则的四边形，这些算法就无法正常地完成文档图像矫正。

(3)现有的基于深度学习的文档图像矫正算法，矫正的文档图像仍然存在一定程度的失真。这是因为，这些在模型训练时，仅考虑了有完整边界文档图像，忽略了无文档边界或仅包含部分文档边界的文档图像。而将后者纳入模型训练，能够有效地提高模型的准确性和鲁棒性。原因在于，让无文档边界或仅包含部分文档边界的文档图像加入训练，能够提升模型的泛化性，让模型更有效地学习如何利用图像中仅存的形变的文本行等特征来矫正图像。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种无约束褶皱文档图像矫正方法、***、设备及存储介质，可以矫正无文档边界或仅包含部分文档边界的形变文档图像，也可以提升有完整文档边界图像的矫正效果。总而言之，本发明对输入的褶皱文档图像，无关于其中文档边界完整性及形变程度的约束，对各种形变文档图像均能有效地矫正恢复，且能够有效地提高文档图像矫正的实用性和实际应用效果。

本发明的目的是通过以下技术方案实现的：

一种无约束褶皱文档图像矫正方法，包括：

建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对，其中，每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵；

构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练；

将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络，获得预测坐标映射矩阵，利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像。

一种无约束褶皱文档图像矫正***，包括：

像素映射关系建模与样本对生成单元，用于建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对，其中，每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵；

网络构建与训练单元，用于构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练；

图像矫正单元，用于将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络，获得预测坐标映射矩阵，利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，能够解决现有方案应用场景受限的问题，即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时，本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法，本发明对输入的褶皱文档图像无任何形式上的约束，能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像，本发明可被广泛应用于智能手机等带有相机的便携式设备，应用场景更加广泛，准确率更高。因此，本发明将极大地促进文档图像数字化的普及，为纸质文档的数字化转换提供强有力的技术支持。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种无约束褶皱文档图像矫正方法的流程图；

图2为本发明实施例提供的输入形变文档图像和输出无形变文档像素映射关系的建模示意图；

图3为本发明实施例提供的基于无约束的文档图像矫正网络实现形变图像矫正的流程图；

图4为本发明实施例提供的一种无约束褶皱文档图像矫正***的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种无约束褶皱文档图像矫正方法、***、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种无约束褶皱文档图像矫正方法，如图1所示，其主要包括：

步骤1、通过建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对，其中，样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵。

如图2所示，本步骤的优选实施方式如下：

(1)全局矫正。获取具有完整边界的褶皱文档图像，然后使用其对应的坐标映射矩阵，将所述具有完整边界的褶皱文档图像矫正为无形变文档图像。

在本发明实例中，具有完整边界的褶皱文档图像及其坐标映射矩阵均来自现有的公开数据集，该坐标映射矩阵描述了褶皱文档图像和对应无形变文档图像每一个像素的坐标映射关系，即无形变文档图像中每一个像素在褶皱文档图像中的像素位置。

(2)局部坐标映射关系建模。在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块，称为无约束褶皱文档图像块，根据该区域的坐标映射矩阵找到无形变文档图像中对应区域，称为无形变文档图像块，再截取坐标映射矩阵中同区域的矩阵，即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵。

如图2所示，左下角虚线框部分为随机截取的一个区域的图像，即无约束褶皱文档图像块，右下角虚线框为对应的无形变文档图像块。由于此处是随机截取一个区域的图像，得到的是无文档边界或无完整文档边界的皱褶文档图像，当然也可以是具有完整文档边界的皱褶文档图像，因此，称之为无约束褶皱文档图像块。

本发明实施例中，对于每一具有完整边界的褶皱文档图像，都可以通过建模褶皱文档图像到无形变文档图像的像素映射关系，获得无约束褶皱文档图像块，以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵，二者形成一个样本对。

本发明实施例中，通过多个样本对可以形成训练数据集；其中，对于每一具有完整边界的褶皱文档图像，在执行全局矫正后可以执行一次或多次局部坐标映射关系建模，得到一个或多个样本对；当然也可以多个具有完整边界的褶皱文档图像进行图2所示的建模得到对应的样本对。具体的样本对数量可以根据实际情况或者经验进行设定。

需要说明的是，图2主要是呈现建模褶皱文档图像到无形变文档图像的像素映射关系的原理，考虑到隐私问题，文档图像中的文字做了模糊处理，但并不影响方案实施，在实际应用中，不会调节文档图像的清晰度。

步骤2、构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练。

本发明实施例中，文档图像矫正网络可以是一个全卷积神经网络，如UNet网络，主要包含特征提取器与特征解码器。

训练时，输入为样本对中的无约束褶皱文档图像块，通过特征提取器进行特征提取，并通过特征解码器输出预测坐标映射矩阵，将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息，与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。

训练过程可参照常规技术实现，本发明不做赘述，当满足设定的停止条件(例如，训练次数达到设定次数，或者损失函数收敛等)时，停止训练。

步骤3、将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络，获得预测坐标映射矩阵，利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像。

本发明实施例中，无约束褶皱文档图像可以是任意褶皱形式的形变图像I_d，如图3所示，可以是(a)部分所示的具有完整边界的褶皱文档图像，可以是(b)部分所示的无文档边界的褶皱文档图像，也可以是(c)部分所示的无完整文档边界的皱褶文档图像；通过训练后的无约束的文档图像矫正网络进行特征提取与特征解码，输出预测坐标映射矩阵f_b，之后利用上采样算法(例如，双线性插值算法)，通过预测坐标映射矩阵f_b对无约束褶皱文档图像进行矫正，得到矫正图像I_r。

本发明实施例提供的上述方案，能够解决现有方案应用场景受限的问题，即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时，本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法，本发明对输入的褶皱文档图像无任何形式上的约束，能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像，本发明可被广泛应用于智能手机等带有相机的便携式设备，应用场景更加广泛，准确率更高。因此，本发明将极大地促进文档图像数字化的普及，为纸质文档的数字化转换提供强有力的技术支持。

实施例二

本发明实施例提供一种无约束褶皱文档图像矫正***，如图4所示，该***主要包括：

本发明实施例中，所述建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对包括：

获取具有完整边界的褶皱文档图像，然后使用其对应的坐标映射矩阵，将所述具有完整边界的褶皱文档图像矫正为无形变文档图像；

在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块，称为无约束褶皱文档图像块，根据该区域的坐标映射矩阵找到无形变文档图像中对应区域，称为无形变文档图像块，再截取坐标映射矩阵中同区域的矩阵，即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵；

获得的无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵形成一个样本对。

本发明实施例中，所述构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练包括：

构建包含特征提取器与特征解码器的无约束的文档图像矫正网络；

本发明实施例中，所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像包括：

利用上采样算法，通过预测坐标映射矩阵对所述无约束褶皱文档图像进行矫正，得到矫正图像。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、智能手机、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种无约束褶皱文档图像矫正方法，其特征在于，包括：

2.根据权利要求1所述的一种无约束褶皱文档图像矫正方法，其特征在于，所述建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对包括：

3.根据权利要求1所述的一种无约束褶皱文档图像矫正方法，其特征在于，所述构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练包括：

4.根据权利要求1所述的一种无约束褶皱文档图像矫正方法，其特征在于，所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像包括：

5.一种无约束褶皱文档图像矫正***，其特征在于，包括：

6.根据权利要求5所述的一种无约束褶皱文档图像矫正***，其特征在于，所述建模褶皱文档图像到无形变文档图像的像素映射关系，生成样本对包括：

7.根据权利要求5所述的一种无约束褶皱文档图像矫正***，其特征在于，所述构建无约束的文档图像矫正网络，并利用多个样本对形成的训练数据集进行训练包括：

8.根据权利要求5所述的一种无约束褶皱文档图像矫正***，其特征在于，所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正，获得矫正图像包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～4任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～4任一项所述的方法。