CN112767270B

CN112767270B - 褶皱文档图像矫正***

Info

Publication number: CN112767270B
Application number: CN202110068838.4A
Authority: CN
Inventors: 李厚强; 周文罡; 冯浩
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-07-15
Anticipated expiration: 2041-01-19
Also published as: CN112767270A

Abstract

本发明公开了一种褶皱文档图像矫正***，包括：文档区域定位模块，通过检测输入的褶皱文档图像中每个像素的置信度，得到前景文档区域的掩模矩阵，从而去除输入的褶皱文档图像的背景区域，提取出文档区域图像；渐进矫正模块，通过提取文档区域图像的语义特征，通过门控循环单元技术，循环的重复矫正，结合最后一次矫正得到的坐标映射矩阵对输入的褶皱文档图像进行映射，得到矫正后的文档图像。该***使得矫正后的文档图像能够复原原始文档的全部内容，且尽可能地减少矫正内容的扭曲程度。同时，***仅仅需要较小的计算开销和适用于各种不规则的文档图像的矫正，以利于其广泛地推广使用。

Description

褶皱文档图像矫正***

技术领域

本发明涉及图像矫正技术领域，尤其涉及一种褶皱文档图像矫正***。

背景技术

随着便携式相机和智能手机的快速进步和普及，纸质文档的数字化相比于以往变得日益便捷。然而，由于相机位置不确定，光照强度不均匀以及各种不可控的纸张变形(即折叠，弯曲和褶皱)等因素，由这些设备拍摄的文档图像往往带有不种程度的失真和变形。这给下游任务处理带来了极大的困难，例如自动文本识别，内容分析，编辑和保存，同时这也不利于日常生活中的沟通与交流。为了解决这个问题，近年来，褶皱文档图像矫正已经成为新兴的研究课题。

传统的解决方案多是基于3D重建技术。这些方法往往依赖于附加的硬件设备(例如，激光扫描仪，深度相机等)或是围绕褶皱纸张拍摄的多视角图像，去重建纸张的三维立体结构，获得立体结构后再去将纸张展平做矫正。然而，由于较高的硬件成本或者繁琐的拍摄要求，这些技术的推广使用受到了极大的限制。

当前很多智能手机都内置有文档矫正算法。这些技术基于对拍摄的图像中文档的四条直线边缘或者纸张四个角点的检测，得到文档所在的四边形区域，后运用投影变换技术，将其映射至规整的矩形空图像，从而完成对拍摄文档图像的矫正。

近年来，基于深度学习的方法被引入到褶皱文档图像矫正领域。通过在渲染合成的数据集上训练，神经网络具有了矫正文档褶皱的能力。输入单张褶皱的RGB文档图像，神经网络即可输出逐像素的坐标映射矩阵，将输入图像中褶皱文档区域中的像素映射到待填充的空图像中，最终得到完整的矫正图像。

但是，上述介绍的各项现有技术中仍主要存在如下技术问题：

1、现有的基于深度学习的技术所存在的技术问题。

1)矫正后的文档边缘不完整。现有的基于深度学习的技术直接将单张褶皱的RGB图像输入到神经网络进行形变的矫正。然而，在输入的褶皱图像中，纸张往往置于各种各样的背景环境中。这给网络模型的训练优化增加了额外的负担，即神经网络需要首先识别图像中的文档像素区域，再去进行对形变的几何矫正。换句话说，神经网络需要兼顾文档区域分割和几何形变矫正两个任务。因此，使用这样的技术矫正的文档图像往往边缘不完整，且形变的矫正也不完善。

2)矫正后的文本图像中文本等内容依然存在不同程度的扭曲。现有的基于深度学习的技术在训练几何矫正的神经网络时，仅仅依赖于对映射坐标矩阵进行像素级约束，缺乏对文档扭曲的直接约束。因此，在实际应用时，矫正的文档图像中文本行或者其他内容仍然存在不同程度的扭曲。

3)网络模型参数量较大和推理时间较长。褶皱文档图像矫正技术广泛应用于智能手机，因此在保证矫正效果鲁棒性的同时，还需要确保可接受的计算开销。现有的基于深度学习的技术，其网络模型过大或推理时间过长，不适用于推广使用。

2、智能手机内置的文档矫正算法所存在的技术问题。

当前智能手机内置的文档矫正算法，适用场景受限，仅适用于无形变的矩形文档的图像，即该纸质文档无折叠，弯曲和揉皱。当前手机内置的文档矫正算法，基于这一先验，利用投影变换技术实现视角转换。换句话说，一旦纸质文档不是规则的矩形形状，便不能完成矫正。

发明内容

本发明的目的是提供一种褶皱文档图像矫正***，使得矫正后的文档图像能够复原原始文档的全部内容，且尽可能地减少矫正内容的扭曲程度。同时，该***仅仅需要较小的计算开销和适用于各种不规则形变的文档图像的矫正，以利于其广泛地推广使用。

本发明的目的是通过以下技术方案实现的：

一种褶皱文档图像矫正***，包括：

文档区域定位模块，通过检测输入的褶皱文档图像中每个像素的置信度，得到前景文档区域的掩模矩阵，从而去除输入的褶皱文档图像的背景区域，提取出文档区域图像；

渐进矫正模块，通过提取文档区域图像的语义特征，通过门控循环单元技术，循环地重复矫正，结合最后一次矫正得到的后向坐标映射矩阵对输入的褶皱文档图像进行像素映射，得到矫正后的文档图像。

由上述本发明提供的技术方案可以看出，矫正***拓展了当前智能手机普遍搭载的文档矫正算法的适用范围，即适用于现实生活场景中各类不规则的文档形变。它首先显式地移除输入文档图像中的复杂背景区域，从而避免了其对矫正过程的干扰，并且保证了矫正后文档的完整性；然后，它对移除背景的文档图像进行渐进地几何矫正，循环地多次矫正和扭曲代价的引入使其能够充分还原原始文档内容，降低了矫正后文档的扭曲程度。除此之外，在达到上述矫正质量的同时，相比于以往基于神经网络的技术，本***需要较小的计算开销，有利于其搭载于智能手机等其他带有相机的智能设备，方便其推广使用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种褶皱文档图像矫正***的结构示意图；

图2为本发明实施例提供的基于迭代的渐进矫正单元的原理图；

图3为本发明实施例提供的扭曲代价函数的原理图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种褶皱文档图像矫正***，该***基于神经网络技术实现，如图1所示，其主要包括：

1)文档区域定位模块，通过检测输入的褶皱文档图像中每个像素的置信度，得到前景文档区域的掩模矩阵，从而去除输入的褶皱文档图像的背景区域(减少其对后续的几何矫正过程的干扰，提高矫正文档图像的完整性和还原质量)，提取出文档区域图像。

2)渐进矫正模块，通过提取文档区域图像的语义特征，通过门控循环单元(GRU)技术，循环地重复矫正，结合最后一次矫正得到的后向坐标映射矩阵对输入的褶皱文档图像进行像素映射，得到矫正后的文档图像。相比于现有技术只进行一次矫正的方法，这样的技术设计保证了最终矫正结果的优越性及鲁棒性。此外，该模块较小的计算开销保证了整体矫正体统的运行效率。

3)***中的上述两个模块需要预先进行优化，利用输入褶皱图像和输出矫正图像的像素坐标位置的联系，设计了一个优化矫正图像扭曲的代价函数。它对输出的矫正图像中所有的行像素和列像素添加直线正则约束。通过大量样本的训练学习，降低矫正图像的扭曲程度，提高还原质量。

为了便于理解，下面针对本发明实施例上述***中各模块工作过程以及相关的优化算法进行介绍。

一、文档区域定位模块。

输入的褶皱文档图像为RGB褶皱文档图像I_D，文档区域定位模块处理过程包括：

首先，通过多尺度的降采样和上采样结构，预测每个像素属于前景文档区域的置信度，从而得到置信度矩阵；示例性的，置信度范围为[0,1]，数值越高表明像素属于前景文档区域的概率越大。

然后，利用设定阈值(例如，0.5)将置信度矩阵二值化，得到前景文档区域的掩模矩阵

最后，将前景文档区域的掩模矩阵

逐通道地与RGB褶皱文档图像I_D进行矩阵相乘，得到文档区域图像I_d。

文档区域图像I_d是背景干净的褶皱文档图像，此处的背景干净指的是背景区域像素值置为0。该模块可替换为其他任何用于语义分割或者显著性目标检测的神经网络。

本发明实施例中，

其中，

为实数集符号，H与W为图像的高度与宽度，数值3与1均为图像的通道数目。

二、渐进矫正模块。

渐进矫正模块将门控循环单元(GRU)技术迁移至图像领域，循环地重复矫正过程，输出后向坐标映射矩阵的序列{f¹,…,f^K}，实现渐进地文档矫正，此处K表示循环矫正的次数，示例性的，数值范围可以为[10,20]。

本发明实施例中，所述渐进矫正模块包括：语义特征提取器、以及基于迭代的渐进矫正单元。

如图2所示，所述语义特征提取器G_θ，用于提取文档区域图像I_d的语义特征c₀。语义特征c₀仅需要提取一次，之后将被输入到循环单元用于后续的渐进矫正。示例性的，语义特征提取器可以由多层卷积层(ConvolutionalLayer)组成。

基于迭代的渐进矫正单元，结合语义特征c₀进行K次循环矫正，得到后向坐标映射矩阵的序列{f¹,…,f^K}，其中，

和

分别代表水平和垂直方向的后向坐标映射；取第K次循环矫正得到后向坐标映射矩阵f^K对输入的褶皱文档图像，基于双线性插值算法进行像素映射，得到矫正后的文档图像I_r：

其中，(x,y)代表像素坐标。

本发明实施例中，k＝1,…,K，f⁰初始化为0矩阵，即坐标指向于当前自身像素位置。如图2所示，以第k次矫正为例，过程如下：

1)使用第k-1次矫正输出的后向坐标映射矩阵f^k-1对语义特征c₀进行空间变换(图1与图2中用符号W表示空间变换操作)，得到矫正空间的图像特征c_k-1：

其中，(x,y)代表像素坐标；同样的，

和

分别代表水平和垂直方向的后向坐标映射。

2)如图2所示，用两个结构相同的卷积模块F_θ和W_θ分别对后向坐标映射矩阵f^k-1以及图像特征c_k-1分别进行特征提取操作，并将提取出的特征与语义特征c₀在通道层面进行拼接。示例性的，特征提取操作可以通过设置的两个卷积模块(卷积层)实现，每一卷积模块各自提取f^k-1、c_k-1的特征。

3)拼接后的特征与第k-1次矫正输出的隐状态特征h_k-1一起输入至循环单元，循环单元是门控循环单元(GRU)技术在图像领域的应用，即将其中的全连接层替换为卷积层，称为ConvGRU。ConvGRU输出第k次矫正的隐状态特征h_k和对第k-1次矫正输出的后向坐标映射矩阵f^k-1的修正残差Δf^k，从而得到第k次矫正的后向坐标映射矩阵f^k：

f^k＝f^k-1+Δf^k。

三、***的优化算法。

***各模块需要预先进行优化。优化阶段，文档区域定位模块的损失函数为对置信度矩阵的二值交叉熵损失；渐进矫正模块的损失函数为K次矫正损失的指数加权：

其中，λ与α均为设定的系数，

分别为第k次矫正的后向坐标映射矩阵的回归损失、扭曲代价。示例性的，λ的取值范围为[0.8,0.9]，α的取值范围为[0.3,0.5]。

优选的，本发明实施例中，基于褶皱图像和矫正图像的像素坐标映射关系，设计了扭曲代价函数。如图3所示，上方虚线框展示了褶皱图像(左侧图像)和预测的矫正图像(右侧图像)的像素位置联系，下方虚线框展示了真实值的前向像素坐标映射矩阵(左侧图像)和迭代矫正预测的后向坐标映射矩阵(右侧图像)的坐标联系，①和②表示计算计算扭曲代价的过程。具体地，第k次矫正的扭曲代价的计算方式为：首先，根据第k次矫正预测的后向坐标映射矩阵f^k，对输入褶皱图像I_D进行矫正，得到矫正图像

接着，将矫正图像

的每一行及每一列的像素，映射回褶皱文档图像I_D中；然后，将映射后的每一行像素和每一列像素根据真实值的前向坐标映射矩阵

映射回矫正的图像

中；最后，此时行像素的行坐标方差和列像素的列坐标的方差(在完美矫正的情况下应该为0)，即为相应行和相应列的扭曲代价；将所有行和列的扭曲代价求和并取平均，即得到第k次矫正的扭曲代价。

在推理阶段，最后一次(第K次)矫正输出的后向坐标映射矩阵f^K，对输入的褶皱文档图像I_D基于双线性插值算法进行像素映射，得到矫正的文档图像I_r。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。