CN111783778A - 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法 - Google Patents

一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法 Download PDF

Info

Publication number
CN111783778A
CN111783778A CN202010831754.7A CN202010831754A CN111783778A CN 111783778 A CN111783778 A CN 111783778A CN 202010831754 A CN202010831754 A CN 202010831754A CN 111783778 A CN111783778 A CN 111783778A
Authority
CN
China
Prior art keywords
document picture
training
document
picture
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010831754.7A
Other languages
English (en)
Inventor
杜明本
钟琴隆
杜志城
于文才
李鑫玉
张亚宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Banner Information Co ltd
Original Assignee
Shandong Banner Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Banner Information Co ltd filed Critical Shandong Banner Information Co ltd
Priority to CN202010831754.7A priority Critical patent/CN111783778A/zh
Publication of CN111783778A publication Critical patent/CN111783778A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法,包括如下步骤:获取若干平整文档图片,将平整文档图片进行变形得到训练文档图片;将训练文档图片以及与之对应设置的平整文档图片作为深度学***整的文档图片。本申请采用平整文档图片进行随机变形的方式来得到训练图片,由于在此种情况下,可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性,从而可以大大提高模型训练效率以及模型的选用效率,以此来提高在文档处理过程中训练素材的高品质性,继而为得到高质量的校正模型提供基础。

Description

一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的 校正方法
技术领域
本申请涉及一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法。
背景技术
由于手机的普及,随手拍照成为了对于文档进行数字化记录的普遍方法,并可以基于此进行如文字识别等的后续操作。但是,由于随手拍照得到的文档常存在扭曲和/或变形,光线条件也不稳定。在此状况之下的文字识别难以达到理想效果。为了提升识别效率,现在一般借助平板式扫描仪来保证文档的规整度。但是可想而知,此种设备并不易携带,成本也较高。因此,如何解决扭曲的文档图片来便于内容分析和信息提取变的颇为急迫。首要需要处理的事情是将文档进行还原,但是现有的还原方式多是一种图像拉伸扭转,并无法弥补文档图片上的缺憾,有时反而是扩大了这种缺憾,使得部分文字更难识别或者识别错误率陡增。而且在拍摄文档图像时,一个常见的实际问题是文档不处于扫描的理想状态:它们可能是弯曲的、折叠的或皱缩的。此时则通常需要对文档图像进行数字扁平化操作,图片质量的原因大大影响后续的文字识别。
发明内容
为了解决上述问题,本申请一方面提出了一种扭曲文档图片的校正模型的训练方法,包括如下步骤:获取若干平整文档图片,将平整文档图片进行变形得到训练文档图片;将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型。
优选的,所述训练文档图片按照如下方法生成:将平整文档图片进行网格分割,随机选择其中一个网格,对此网格进行变形,然后***到原有的平整文档图片中,原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片。本申请采用平整文档图片进行随机变形的方式来得到训练图片,由于在此种情况下,可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性,从而可以大大提高模型训练效率以及模型的选用效率,以此来提高在文档处理过程中训练素材的高品质性,继而为得到高质量的校正模型提供基础。
优选的,在网格上选择一随机边界点作为变形起点,通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片。
优选的,所述变形的方式包括弯曲和折叠。
优选的,所述深度学习采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型。传统的文档扭曲修改方式多是进行特征提取,然后在最后的图像复原上还是基于传统的优化技术,本申请通过带空洞卷积的Dilated_DocUNet模型,即Dilated_DocUNet模型实现端对端的深度学习更加有利于对于图像的复原工作。
优选的,所述Dilated_DocUNet模型中的损失函数采用LeakyReLU。LeakyReLU,即
Figure BDA0002638256440000021
解决了当x<0的情况下,梯度消失的问题,针对本申请,由于各个变形的随意性,LeakyReLU损失函数在Dilated_DocUNet模型中具有更好的变现效果,模型的训练效率和效果都得到的提高。
优选的,所述Dilated_DocUNet模型通过训练文档图片和平整文档图片处理过程中采用小批量随机梯度下降法进行训练。可以大大提高在训练过程中的训练效率,减小迭代次数,且能实现并行化操作。
另一方面,本申请还公开了一种扭曲文档图片的校正方法,包括如下步骤:获取经深度学习获得的校正模型以及待识别的变形文档图片;校正模型获取待识别的变形文档图片,对变形文档图片进行识别得到被纠正后的纠正文档图片。
优选的,所述待识别的变形文档图片先进行尺寸归一化处理。
优选的,所述变形文档图片的变形方式为弯曲和/或折叠。
本申请能够带来如下有益效果:
1、本申请采用平整文档图片进行随机变形的方式来得到训练图片,由于在此种情况下,可以通过图片对比或者其他自动化方式来判断训练得到的模型是否有较好的适配性,从而可以大大提高模型训练效率以及模型的选用效率,以此来提高在文档处理过程中训练素材的高品质性,继而为得到高质量的校正模型提供基础;
2、传统的文档扭曲修改方式多是进行特征提取,然后在最后的图像复原上还是基于传统的优化技术,本申请通过带空洞卷积的Dilated_DocUNet模型,即Dilated_DocUNet模型实现端对端的深度学习更加有利于对于图像的复原工作。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施的流程示意图;
图2为本申请实施的另一流程示意图;
图3为实施例1的原始图片;
图4为图3经处理之后的图片。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本申请进行详细阐述。
在第一个实施例中,如图1,图3-图4所示,一种扭曲文档图片的校正方法,包括如下步骤:
S1.获取若干平整文档图片;
S2.将平整文档图片进行变形得到训练文档图片;
所述训练文档图片按照如下方法生成:将平整文档图片进行网格分割,随机选择其中一个网格,对此网格进行变形,然后***到原有的平整文档图片中,原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片;在网格上选择一随机边界点作为变形起点,通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片;所述变形的方式包括弯曲和折叠。
S3.将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型;
深度学***整文档图片处理过程中采用小批量随机梯度下降法进行训练。
S4.获取待识别的变形文档图片;
先对待识别的变形文档图片进行尺寸归一化处理,然后再进行识别处理;
S5.校正模型获取待识别的变形文档图片,对变形文档图片进行识别得到被纠正后的纠正文档图片;
S6.判断纠正文档图片相较于原有需要表达信息的恢复程度以及所需要的时间,恢复达到100%,记为10分,有明显的变形扭曲之处记为5分,基本没有变化记为1分。对10个变形文档图片进行识别,统计平均分和所需要的平均处理时间。
在第二个实施例中,如图1所示,相较于第一个实施例,其采用传统的DocUNet模型,
一种扭曲文档图片的校正方法,包括如下步骤:
S1.获取若干平整文档图片;
S2.将平整文档图片进行变形得到训练文档图片;
所述训练文档图片按照如下方法生成:将平整文档图片进行网格分割,随机选择其中一个网格,对此网格进行变形,然后***到原有的平整文档图片中,原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片;在网格上选择一随机边界点作为变形起点,通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片;所述变形的方式包括弯曲和折叠。
S3.将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型;
深度学***整文档图片处理过程中采用小批量随机梯度下降法进行训练。
S4.获取待识别的变形文档图片;
先对待识别的变形文档图片进行尺寸归一化处理,然后再进行识别处理;
S5.校正模型获取待识别的变形文档图片,对变形文档图片进行识别得到被纠正后的纠正文档图片;
S6.判断纠正文档图片相较于原有需要表达信息的恢复程度以及所需要的时间,恢复达到100%,记为10分,有明显的变形扭曲之处记为5分,基本没有变化记为1分。对10个变形文档图片进行识别,统计平均分和所需要的平均处理时间。
在第三个实施例中,如图2所示,相较于第一个实施例,其采用的原始图片为本已经扭曲的真实图片和平整图片:
S301.获取若干平整文档图片;
S302.获取平整文档图片经自然变形(拍照方式,贴附地点等)得到的训练文档图片;
S303.将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型;
深度学***整文档图片处理过程中采用小批量随机梯度下降法进行训练。
S304.获取待识别的变形文档图片;
先对待识别的变形文档图片进行尺寸归一化处理,然后再进行识别处理;
S305.校正模型获取待识别的变形文档图片,对变形文档图片进行识别得到被纠正后的纠正文档图片;
S306.判断纠正文档图片相较于原有需要表达信息的恢复程度以及所需要的时间,恢复达到100%,记为10分,有明显的变形扭曲之处记为5分,基本没有变化记为1分。对10个变形文档图片进行识别,统计平均分和所需要的平均处理时间。
项目 识别平均分 处理所需时间(ms)
第一个实施例 9.3 27
第二个实施例 7.4 31
第三个实施例 9.4 85
由此可见,采用Dilated_DocUNet模型对于提高其识别能力,具有非常大的提升作用;而采用本申请采用的方法随机产生变形的训练图片的方式,虽然对于最终识别效果增益不明显,但是却大大提高了其处理效率,所用时间基本上为采用自然扭曲图片的1/3。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种扭曲文档图片的校正模型的训练方法,其特征在于:包括如下步骤:
获取若干平整文档图片,
将平整文档图片进行变形得到训练文档图片;
将训练文档图片以及与之对应设置的平整文档图片作为深度学习的训练数据集进行模型训练得到校正模型。
2.根据权利要求1所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:所述训练文档图片按照如下方法生成:将平整文档图片进行网格分割,随机选择其中一个网格,对此网格进行变形,然后***到原有的平整文档图片中,原有的平整文档图片按照网格的边界变化进行结合匹配以得到训练文档图片。
3.根据权利要求2所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:在网格上选择一随机边界点作为变形起点,通过随机设置的变形的方向和强度对平整文档图片进行变形以得到训练文档图片。
4.根据权利要求2所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:所述变形的方式包括弯曲和折叠。
5.根据权利要求1所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:所述深度学习采用多层次堆叠的带空洞卷积的Dilated_DocUNet模型。
6.根据权利要求5所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:所述Dilated_DocUNet模型中的损失函数采用LeakyReLU。
7.根据权利要求5所述的一种扭曲文档图片的校正模型的训练方法,其特征在于:所述Dilated_DocUNet模型通过训练数据集处理过程中采用小批量随机梯度下降法进行训练。
8.一种扭曲文档图片的校正方法,其特征在于:包括如下步骤:
获取经深度学习获得的校正模型以及待识别的变形文档图片;
校正模型获取待识别的变形文档图片,对变形文档图片进行识别得到被纠正后的纠正文档图片。
9.根据权利要求8所述的一种变形文档图片的校正方法,其特征在于:所述待识别的变形文档图片先进行尺寸归一化处理。
10.根据权利要求8所述的一种变形文档图片的校正方法,其特征在于:所述变形文档图片的变形方式为弯曲和/或折叠。
CN202010831754.7A 2020-08-18 2020-08-18 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法 Pending CN111783778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010831754.7A CN111783778A (zh) 2020-08-18 2020-08-18 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010831754.7A CN111783778A (zh) 2020-08-18 2020-08-18 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法

Publications (1)

Publication Number Publication Date
CN111783778A true CN111783778A (zh) 2020-10-16

Family

ID=72762190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010831754.7A Pending CN111783778A (zh) 2020-08-18 2020-08-18 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法

Country Status (1)

Country Link
CN (1) CN111783778A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034406A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
CN115082935A (zh) * 2022-07-04 2022-09-20 网易有道信息技术(北京)有限公司 用于对文档图像进行矫正的方法、设备及存储介质
CN116453131A (zh) * 2023-06-15 2023-07-18 荣耀终端有限公司 文档图像矫正方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150093033A1 (en) * 2013-09-30 2015-04-02 Samsung Electronics Co., Ltd. Method, apparatus, and computer-readable recording medium for converting document image captured by using camera to dewarped document image
US10311556B1 (en) * 2018-07-02 2019-06-04 Capital One Services, Llc Systems and methods for image data processing to remove deformations contained in documents
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150093033A1 (en) * 2013-09-30 2015-04-02 Samsung Electronics Co., Ltd. Method, apparatus, and computer-readable recording medium for converting document image captured by using camera to dewarped document image
US10311556B1 (en) * 2018-07-02 2019-06-04 Capital One Services, Llc Systems and methods for image data processing to remove deformations contained in documents
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KE MA ET AL.: "DocUNet: Document Image Unwarping via A Stacked U-Net", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
方圆圆: "《人脸识别与美颜算法实战 基于Python、机器学习与深度学习》", 30 April 2020, 机械工业出版社 *
桑塔努•帕塔纳亚克: "《Python人工智能项目实践》", 31 October 2019, 机械工业出版社 *
焦李成 等: "《人工智能、类脑计算与图像解译前言》", 31 January 2020, 西安电子科技大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034406A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
CN113034406B (zh) * 2021-04-27 2024-05-14 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
CN115082935A (zh) * 2022-07-04 2022-09-20 网易有道信息技术(北京)有限公司 用于对文档图像进行矫正的方法、设备及存储介质
CN116453131A (zh) * 2023-06-15 2023-07-18 荣耀终端有限公司 文档图像矫正方法、电子设备及存储介质
CN116453131B (zh) * 2023-06-15 2023-10-20 荣耀终端有限公司 文档图像矫正方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111783778A (zh) 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法
CN109657665B (zh) 一种基于深度学习的***批量自动识别***
AU2007224085B2 (en) Model- based dewarping method and apparatus
US8009928B1 (en) Method and system for detecting and recognizing text in images
EP2405391A1 (en) Image retrieval method, image retrieval program, and image registration method
Attivissimo et al. An automatic reader of identity documents
US9330331B2 (en) Systems and methods for offline character recognition
CN111507181B (zh) 票据图像的矫正方法、装置及计算机设备
WO2014044159A1 (en) Method and device for batch scanning 2d barcodes
CN103020929B (zh) 基于文字特征的碎纸机破碎文档恢复方法
CN104866847A (zh) 一种快速的鲁棒答题卡识别方法
CN112036259A (zh) 一种基于图像处理与深度学习相结合的表格矫正与识别的方法
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
CN111667556A (zh) 表格矫正方法及装置
WO2016199080A1 (en) Method of correcting a captured image, method of selecting a drawing sketched on a page or on two adjacent pages of a notebook, a relative app for smartphone, a hardback notebook and a hardback agenda
US8208736B2 (en) Method and system for adaptive recognition of distorted text in computer images
CN112102232A (zh) 一种诱导多能干细胞菌落质量自动评估方法及装置
CN107506767B (zh) 一种图片内数字粘连识别的方法和装置
CN107077516A (zh) 从纸质工程制图中产生工件加工代码的方法和装置
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
CN112149644A (zh) 基于全局特征指导的二维注意力机制文本识别方法
CN111797827A (zh) 一种文字方向混排的自动化ocr识别方法
CN105809157A (zh) 答题卡建模方法和装置
CN107292255B (zh) 基于特征矩阵相似度分析的手写数字识别方法
CN109165642A (zh) 一种基于深度学习的增强型答题卡智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016

RJ01 Rejection of invention patent application after publication