CN116403226A - 无约束褶皱文档图像矫正方法、***、设备及存储介质 - Google Patents
无约束褶皱文档图像矫正方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN116403226A CN116403226A CN202310392392.XA CN202310392392A CN116403226A CN 116403226 A CN116403226 A CN 116403226A CN 202310392392 A CN202310392392 A CN 202310392392A CN 116403226 A CN116403226 A CN 116403226A
- Authority
- CN
- China
- Prior art keywords
- document image
- unconstrained
- fold
- mapping matrix
- coordinate mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003702 image correction Methods 0.000 title claims description 47
- 238000013507 mapping Methods 0.000 claims description 79
- 239000011159 matrix material Substances 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 238000011084 recovery Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000037303 wrinkles Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/43—Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种无约束褶皱文档图像矫正方法、***、设备及存储介质,它们是一一对应的方案,相关方案能够解决现有方案应用场景受限的问题,即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时,本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法,本发明对输入的褶皱文档图像无任何形式上的约束,能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像,本发明可被广泛应用于智能手机等带有相机的便携式设备,应用场景更加广泛,准确率更高。因此,本发明将极大地促进文档图像数字化的普及,为纸质文档的数字化转换提供强有力的技术支持。
Description
技术领域
本发明涉及褶皱文档图像矫正技术领域,尤其涉及一种无约束褶皱文档图像矫正方法、***、设备及存储介质。
背景技术
随着便携式相机和智能手机的快速进步和普及,越来越多的人选择用它们拍摄扫描纸质文档,而不需要像以往一样使用专用平板扫描仪。然而,由于拍摄环境中诸多不确定因素,如相机位置不确定、光照环境不确定,以及纸张形变类型和程度不确定等,由这些设备拍摄的文档图像往往会带有不同程度的各式各样的失真和变形。这使得下游任务的处理,如自动化的文本识别、内容分析、编辑和理解等,变得更加困难。同时,这也不利于日常生活中信息和知识的传播和交流。为了解决这一问题,褶皱文档图像矫正成为了当前计算机视觉领域中的重要研究课题。
传统的解决方案主要基于3D重建技术。这些方法通常需要依赖附加的硬件设备(如激光扫描仪、深度相机等),或者是通过围绕褶皱纸张拍摄多视角图像,来重建纸张的三维立体结构,并在此基础上进行展平矫正。然而,由于较高的硬件成本或繁琐的拍摄要求,这些技术的推广和使用受到了极大的限制。
目前,许多智能手机都内置有文档矫正算法。这些算法大都基于投影变换技术:首先检测拍摄的文档图像中纸质文档的四条直线边缘或四个角点,形成文档所在的四边形区域;然后应用投影变换技术将其映射为规整的矩形图像,从而完成对拍摄文档图像的矫正。然而,这一解决方案要求拍摄的图像中,必须出现完整的文档,且如果文档本身存在形变无法进行矫正恢复,进而影响效果。这一限制同样带来了不便:很多时候,用户可能只关注于文档的部分区域。
近年来,深度学习被引入到褶皱文档图像矫正领域。相对于传统的方法,基于深度学习的方法在实现相似性能的同时,仅需要较少的计算开销。通过使用渲染引擎合成的大量形变-无形变图像对进行训练,神经网络学习到了矫正文档褶皱的能力。在推理阶段,输入单张褶皱的RGB文档图像,神经网络可以输出逐像素的坐标映射矩阵,将输入图像中褶皱文档区域中的像素采样到空图像中,得到完整的矫正图像。
总体来说,无论是智能手机内置的文档矫正算法,还是现有的深度学习方法,它们主要存在如下缺陷:
(1)当前基于深度学习的文档图像矫正算法,普遍只能矫正有完整边界的褶皱文档图像,即输入图像中必须包含一个完整的文档。然而,在实际应用场景中,用户可能仅仅想要关注或者分享文档中的部分区域或文字。因此,拍摄的图像可能会存在文档边界缺失的情况。此外,通过手机拍摄的文档图像往往存在边缘部分缺失的情况。这种情况下,现有的文档图像矫正方法将会失效,无法得到正常的矫正结果。当前的技术方案,对于无文档边界或仅包含部分文档边界的文档图像的矫正问题,缺乏有效的研究,需要进一步探索和改进。
(2)当前智能手机内置的文档图像矫正算法的适用场景受限。这些算法只适用于完整的、无形变的文档图像,即该纸质文档无折叠、弯曲和褶皱,且完整的出现在拍摄的图像中。简单来说,这些算法只是将纸质文档的成像投影平面切换到一个规则的矩形形状,一旦纸质文档的形状不是规则的四边形,这些算法就无法正常地完成文档图像矫正。
(3)现有的基于深度学习的文档图像矫正算法,矫正的文档图像仍然存在一定程度的失真。这是因为,这些在模型训练时,仅考虑了有完整边界文档图像,忽略了无文档边界或仅包含部分文档边界的文档图像。而将后者纳入模型训练,能够有效地提高模型的准确性和鲁棒性。原因在于,让无文档边界或仅包含部分文档边界的文档图像加入训练,能够提升模型的泛化性,让模型更有效地学习如何利用图像中仅存的形变的文本行等特征来矫正图像。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种无约束褶皱文档图像矫正方法、***、设备及存储介质,可以矫正无文档边界或仅包含部分文档边界的形变文档图像,也可以提升有完整文档边界图像的矫正效果。总而言之,本发明对输入的褶皱文档图像,无关于其中文档边界完整性及形变程度的约束,对各种形变文档图像均能有效地矫正恢复,且能够有效地提高文档图像矫正的实用性和实际应用效果。
本发明的目的是通过以下技术方案实现的:
一种无约束褶皱文档图像矫正方法,包括:
建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
一种无约束褶皱文档图像矫正***,包括:
像素映射关系建模与样本对生成单元,用于建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
网络构建与训练单元,用于构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
图像矫正单元,用于将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,能够解决现有方案应用场景受限的问题,即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时,本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法,本发明对输入的褶皱文档图像无任何形式上的约束,能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像,本发明可被广泛应用于智能手机等带有相机的便携式设备,应用场景更加广泛,准确率更高。因此,本发明将极大地促进文档图像数字化的普及,为纸质文档的数字化转换提供强有力的技术支持。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种无约束褶皱文档图像矫正方法的流程图;
图2为本发明实施例提供的输入形变文档图像和输出无形变文档像素映射关系的建模示意图;
图3为本发明实施例提供的基于无约束的文档图像矫正网络实现形变图像矫正的流程图;
图4为本发明实施例提供的一种无约束褶皱文档图像矫正***的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种无约束褶皱文档图像矫正方法、***、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种无约束褶皱文档图像矫正方法,如图1所示,其主要包括:
步骤1、通过建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵。
如图2所示,本步骤的优选实施方式如下:
(1)全局矫正。获取具有完整边界的褶皱文档图像,然后使用其对应的坐标映射矩阵,将所述具有完整边界的褶皱文档图像矫正为无形变文档图像。
在本发明实例中,具有完整边界的褶皱文档图像及其坐标映射矩阵均来自现有的公开数据集,该坐标映射矩阵描述了褶皱文档图像和对应无形变文档图像每一个像素的坐标映射关系,即无形变文档图像中每一个像素在褶皱文档图像中的像素位置。
(2)局部坐标映射关系建模。在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块,称为无约束褶皱文档图像块,根据该区域的坐标映射矩阵找到无形变文档图像中对应区域,称为无形变文档图像块,再截取坐标映射矩阵中同区域的矩阵,即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵。
如图2所示,左下角虚线框部分为随机截取的一个区域的图像,即无约束褶皱文档图像块,右下角虚线框为对应的无形变文档图像块。由于此处是随机截取一个区域的图像,得到的是无文档边界或无完整文档边界的皱褶文档图像,当然也可以是具有完整文档边界的皱褶文档图像,因此,称之为无约束褶皱文档图像块。
本发明实施例中,对于每一具有完整边界的褶皱文档图像,都可以通过建模褶皱文档图像到无形变文档图像的像素映射关系,获得无约束褶皱文档图像块,以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵,二者形成一个样本对。
本发明实施例中,通过多个样本对可以形成训练数据集;其中,对于每一具有完整边界的褶皱文档图像,在执行全局矫正后可以执行一次或多次局部坐标映射关系建模,得到一个或多个样本对;当然也可以多个具有完整边界的褶皱文档图像进行图2所示的建模得到对应的样本对。具体的样本对数量可以根据实际情况或者经验进行设定。
需要说明的是,图2主要是呈现建模褶皱文档图像到无形变文档图像的像素映射关系的原理,考虑到隐私问题,文档图像中的文字做了模糊处理,但并不影响方案实施,在实际应用中,不会调节文档图像的清晰度。
步骤2、构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练。
本发明实施例中,文档图像矫正网络可以是一个全卷积神经网络,如UNet网络,主要包含特征提取器与特征解码器。
训练时,输入为样本对中的无约束褶皱文档图像块,通过特征提取器进行特征提取,并通过特征解码器输出预测坐标映射矩阵,将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息,与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。
训练过程可参照常规技术实现,本发明不做赘述,当满足设定的停止条件(例如,训练次数达到设定次数,或者损失函数收敛等)时,停止训练。
步骤3、将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
本发明实施例中,无约束褶皱文档图像可以是任意褶皱形式的形变图像Id,如图3所示,可以是(a)部分所示的具有完整边界的褶皱文档图像,可以是(b)部分所示的无文档边界的褶皱文档图像,也可以是(c)部分所示的无完整文档边界的皱褶文档图像;通过训练后的无约束的文档图像矫正网络进行特征提取与特征解码,输出预测坐标映射矩阵fb,之后利用上采样算法(例如,双线性插值算法),通过预测坐标映射矩阵fb对无约束褶皱文档图像进行矫正,得到矫正图像Ir。
本发明实施例提供的上述方案,能够解决现有方案应用场景受限的问题,即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时,本发明也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法,本发明对输入的褶皱文档图像无任何形式上的约束,能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像,本发明可被广泛应用于智能手机等带有相机的便携式设备,应用场景更加广泛,准确率更高。因此,本发明将极大地促进文档图像数字化的普及,为纸质文档的数字化转换提供强有力的技术支持。
实施例二
本发明实施例提供一种无约束褶皱文档图像矫正***,如图4所示,该***主要包括:
像素映射关系建模与样本对生成单元,用于建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
网络构建与训练单元,用于构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
图像矫正单元,用于将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
本发明实施例中,所述建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对包括:
获取具有完整边界的褶皱文档图像,然后使用其对应的坐标映射矩阵,将所述具有完整边界的褶皱文档图像矫正为无形变文档图像;
在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块,称为无约束褶皱文档图像块,根据该区域的坐标映射矩阵找到无形变文档图像中对应区域,称为无形变文档图像块,再截取坐标映射矩阵中同区域的矩阵,即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
获得的无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵形成一个样本对。
本发明实施例中,所述构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练包括:
构建包含特征提取器与特征解码器的无约束的文档图像矫正网络;
训练时,输入为样本对中的无约束褶皱文档图像块,通过特征提取器进行特征提取,并通过特征解码器输出预测坐标映射矩阵,将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息,与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。
本发明实施例中,所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像包括:
利用上采样算法,通过预测坐标映射矩阵对所述无约束褶皱文档图像进行矫正,得到矫正图像。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、智能手机、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种无约束褶皱文档图像矫正方法,其特征在于,包括:
建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
2.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对包括:
获取具有完整边界的褶皱文档图像,然后使用其对应的坐标映射矩阵,将所述具有完整边界的褶皱文档图像矫正为无形变文档图像;
在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块,称为无约束褶皱文档图像块,根据该区域的坐标映射矩阵找到无形变文档图像中对应区域,称为无形变文档图像块,再截取坐标映射矩阵中同区域的矩阵,即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
获得的无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵形成一个样本对。
3.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练包括:
构建包含特征提取器与特征解码器的无约束的文档图像矫正网络;
训练时,输入为样本对中的无约束褶皱文档图像块,通过特征提取器进行特征提取,并通过特征解码器输出预测坐标映射矩阵,将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息,与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。
4.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像包括:
利用上采样算法,通过预测坐标映射矩阵对所述无约束褶皱文档图像进行矫正,得到矫正图像。
5.一种无约束褶皱文档图像矫正***,其特征在于,包括:
像素映射关系建模与样本对生成单元,用于建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
网络构建与训练单元,用于构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
图像矫正单元,用于将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
6.根据权利要求5所述的一种无约束褶皱文档图像矫正***,其特征在于,所述建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对包括:
获取具有完整边界的褶皱文档图像,然后使用其对应的坐标映射矩阵,将所述具有完整边界的褶皱文档图像矫正为无形变文档图像;
在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块,称为无约束褶皱文档图像块,根据该区域的坐标映射矩阵找到无形变文档图像中对应区域,称为无形变文档图像块,再截取坐标映射矩阵中同区域的矩阵,即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
获得的无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵形成一个样本对。
7.根据权利要求5所述的一种无约束褶皱文档图像矫正***,其特征在于,所述构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练包括:
构建包含特征提取器与特征解码器的无约束的文档图像矫正网络;
训练时,输入为样本对中的无约束褶皱文档图像块,通过特征提取器进行特征提取,并通过特征解码器输出预测坐标映射矩阵,将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息,与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。
8.根据权利要求5所述的一种无约束褶皱文档图像矫正***,其特征在于,所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像包括:
利用上采样算法,通过预测坐标映射矩阵对所述无约束褶皱文档图像进行矫正,得到矫正图像。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~4任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392392.XA CN116403226A (zh) | 2023-04-13 | 2023-04-13 | 无约束褶皱文档图像矫正方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392392.XA CN116403226A (zh) | 2023-04-13 | 2023-04-13 | 无约束褶皱文档图像矫正方法、***、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116403226A true CN116403226A (zh) | 2023-07-07 |
Family
ID=87008754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310392392.XA Pending CN116403226A (zh) | 2023-04-13 | 2023-04-13 | 无约束褶皱文档图像矫正方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912831A (zh) * | 2023-09-15 | 2023-10-20 | 东莞市将为防伪科技有限公司 | 信码防伪印刷物的采集信息处理方法及*** |
-
2023
- 2023-04-13 CN CN202310392392.XA patent/CN116403226A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912831A (zh) * | 2023-09-15 | 2023-10-20 | 东莞市将为防伪科技有限公司 | 信码防伪印刷物的采集信息处理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Document rectification and illumination correction using a patch-based CNN | |
Zhang et al. | Framebreak: Dramatic image extrapolation by guided shift-maps | |
Piva | An overview on image forensics | |
RU2368006C1 (ru) | Способ и система адаптивного переформатирования цифровых изображений | |
RU2631765C1 (ru) | Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот | |
US8503813B2 (en) | Image rectification method | |
JP2007074579A (ja) | 画像処理装置、及びプログラム | |
CN112767270B (zh) | 褶皱文档图像矫正*** | |
JP2007074578A (ja) | 画像処理装置、撮影装置、及びプログラム | |
US11620730B2 (en) | Method for merging multiple images and post-processing of panorama | |
CN107749986B (zh) | 教学视频生成方法、装置、存储介质和计算机设备 | |
CN103019537A (zh) | 一种图像预览方法及装置 | |
CN114615480B (zh) | 投影画面调整方法、装置、设备、存储介质和程序产品 | |
CN104506775A (zh) | 基于立体视觉匹配的图像采集抖动消除方法及装置 | |
CN116403226A (zh) | 无约束褶皱文档图像矫正方法、***、设备及存储介质 | |
CN111222432A (zh) | 人脸活体检测方法、***、设备及可读存储介质 | |
JP2017120503A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP4898655B2 (ja) | 撮像装置及び画像合成プログラム | |
CN109359652A (zh) | 一种从数码照片中快速自动提取矩形扫描件的方法 | |
Zhang et al. | Nonlocal edge-directed interpolation | |
US20210281742A1 (en) | Document detections from video images | |
CN113837019B (zh) | 一种化妆进度检测方法、装置、设备及存储介质 | |
CN115082960A (zh) | 图像处理方法、计算机设备及可读存储介质 | |
CN115761827A (zh) | 一种化妆进度检测方法、装置、设备及存储介质 | |
CN112036342A (zh) | 单证抓拍方法、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |