CN115100660A - 文档图像的倾斜校正方法及装置 - Google Patents

文档图像的倾斜校正方法及装置 Download PDF

Info

Publication number
CN115100660A
CN115100660A CN202210742965.2A CN202210742965A CN115100660A CN 115100660 A CN115100660 A CN 115100660A CN 202210742965 A CN202210742965 A CN 202210742965A CN 115100660 A CN115100660 A CN 115100660A
Authority
CN
China
Prior art keywords
document image
classification model
inclination angle
slope
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210742965.2A
Other languages
English (en)
Inventor
孙铁
周博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210742965.2A priority Critical patent/CN115100660A/zh
Publication of CN115100660A publication Critical patent/CN115100660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像校正技术领域,提供一种文档图像的倾斜校正方法及装置。所述方法包括:将获取到的文档图像输入训练好的分类模型,从分类模型的各预设倾斜角度中,确定文档图像对应的目标倾斜角度;根据目标倾斜角度,对文档图像进行校正,获取目标文档图像;其中,述分类模型由标记有预估倾斜角度的各图像样本进行训练后得到。本申请实施例提供的文档图像的倾斜校正方法,能够对任意方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。

Description

文档图像的倾斜校正方法及装置
技术领域
本申请涉及图像校正技术领域,具体涉及一种文档图像的倾斜校正方法及装置。
背景技术
文献在电子化过程,例如扫描或拍摄等过程中,通常会由于人为等外界因素影响从而照成扫描或拍摄的文档与图像正边成一定角度,即倾斜现象,导致出现文字行倾斜的文档图像。当文档图像存在较严重的文字行倾斜时,则需要对文档图像进行倾斜校正,避免由于文字行的倾斜导致OCR识别结果准确率下降。
对于文档图像的倾斜校正,相关技术中,通常通过霍夫变换以及基于离散点求最小外接轮廓,以确定倾斜角度,从而根据倾斜角度完成倾斜校正。但这种方式受限于单一排版的倾斜文档图像,同时受限于轮廓或霍夫直线检测的高度不确定性以及阈值选择不定性,无法有效地实现任意方向的倾斜文档图像的文本行校正,进而可能导致文档图像校正后,其方向与实际情况不同,导致对文档图像的倾斜校正结果的偏差较大。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种文档图像的倾斜校正方法,能够对任意方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。
本申请还提出一种文档图像的倾斜校正装置。
本申请还提出一种电子设备。
本申请还提出一种计算机可读存储介质。
根据本申请第一方面实施例的文档图像的倾斜校正方法,包括:
将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
本申请实施例提供的文档图像的倾斜校正方法,通过将文档图像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对文档图像进行倾斜角度的分类,确定文档图像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对文档图像进行校正,从而将对文档图像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的图像样本训练得到的分类模型,便可实现对任意360度方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。
根据本申请的一个实施例,还包括:
将各所述图像样本依次输入预构建的分类模型进行模型训练,每次输入所述图像样本后均根据所述分类模型输出的所述图像样本的预设倾斜角度,与所述图像样本的预估倾斜角度的角度差,调整所述分类模型的参数,直至任一所述图像样本对应的所述角度差满足预设条件,完成所述分类模型的训练。
根据本申请的一个实施例,还包括:
确定所述目标文档图像中存在多个文本行,获取各所述文本行的斜率;
根据各所述斜率,对所述目标文档图像进行旋转校正。
根据本申请的一个实施例,获取各所述文本行的斜率,包括:
从所述目标文档图像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率。
根据本申请的一个实施例,根据所述文本框各顶点的坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
根据本申请的一个实施例,还包括:
确定所述宽边的长度大于所述长边,且所述宽边与所述长边的长度差大于预设值,根据所述宽边两端的顶点坐标,确定对应的所述文本行的斜率。
根据本申请的一个实施例,根据各所述斜率,对所述目标文档图像进行旋转校正,包括:
根据各所述斜率,确定平均斜率;
根据所述平均斜率,对所述目标文档图像进行旋转校正。
根据本申请第二方面实施例的文档图像的倾斜校正装置,包括:
倾斜角度获取模块,用于将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
文档图像校正模块,用于根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
根据本申请第三方面实施例的电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述任一实施例所述的文档图像的倾斜校正方法。
根据本申请第四方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的文档图像的倾斜校正方法。
根据本申请第五方面实施例的计算机程序产品,包括:所述计算机程序被处理器执行时实现如上述任一实施例所述的文档图像的倾斜校正方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过将文档图像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对文档图像进行倾斜角度的分类,确定文档图像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对文档图像进行校正,从而将对文档图像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的图像样本训练得到的分类模型,便可实现对任意360度方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。
进一步的,通过大量的图像样本输入预构建的分类模型进行模型训练,以根据分类模型输出的图像样本的预设倾斜角度,与图像样本的预估倾斜角度的角度差,来调整分类模型的参数,直至任一图像样本对应的角度差满足预设条件,完成分类模型的训练,从而提高分类模型对图像进行预设倾斜角度的分类的准确性,进而提高后续针对文档图像的倾斜角度的检测的准确性。
进一步的,通过在确定目标文档图像中存在多个文本行后,获取各文本行的斜率,并利用各文本行的斜率来对目标文档图像进行旋转校正,从而实现对轻微角度的倾斜校正,进一步提高文档图像的轻微倾斜校正效果。
进一步的,通过获取文本行对应的各文本框,并基于文本框各顶点的二维坐标,来确定对应的文本行的斜率,从而能够快速准确地确定文本行的斜率,从而进一步提高文档图像的轻微倾斜校正效果。
进一步的,通过将文本框的长边和宽边进行比较,以根据比较结果,来判断对应的文本行的方向,从而根据方向来确定对应的斜率获取方式,进而能够准确地确定任意方向的文本行的斜率,从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文档图像的倾斜校正方法的流程示意图;
图2是本申请又一实施例提供的文档图像的倾斜校正方法的流程示意图;
图3是本申请实施例中对图2的文档图像的倾斜校正方法中文本行斜率的获取作进一步细化的流程图;
图4是本申请实施例提供的文档图像的倾斜校正装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,将通过几个具体的实施例对本申请实施例提供的文档图像的倾斜校正方法及装置进行详细介绍和说明。
在一实施例中,提供了一种文档图像的倾斜校正方法,该方法应用于服务器,用于进行文档图像的倾斜校正。其中,服务器可以是独立的服务器或者是多个服务器组成的服务器集群来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能采样点设备等基础云计算服务的云服务器。
如图1所示,本实施例提供的一种文档图像的倾斜校正方法包括:
步骤101,将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
步骤102,根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
通过将文档图像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对文档图像进行倾斜角度的分类,确定文档图像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对文档图像进行校正,从而将对文档图像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的图像样本训练得到的分类模型,便可实现对任意360度方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。
在一实施例中,文档图像可以是任意场景的文档图像,如身份证、银行卡、营业执照、***、汇款单、合同等。其可通过扫描或拍摄等电子化的方式获取。
在一实施例中,分类模型为深度网络结构,其存在5段卷积层,每一段内有2个或3个卷积层,每段结尾连接一个最大池化层用于缩小图片尺寸;各段内部的卷积核数一样,越靠近全连接层卷积核数量越多。分类模型中创建有参数初始化函数,如卷积操作con_op函数、全连接层操作fc_op函数、池化操作mpool_op函数中的至少一种。
示例性的,分类模型的第一段卷积输出尺寸为112*112*64,第二段卷积输出为56*56*128,第三段卷积输出28*28*256,第四段卷积输出14*14*512,第五段卷积输出7*7*512。其使用tf.reshape将pool5的结果扁平化,即表示为7*7*512的一维向量。分类模型的第一个全连接层使用fc_op函数创建,隐含节点是4096,激活函数为ReLu。分类模型使用tf.nn.dropout函数创建Dropout层,在分类模型进行训练时,节点保留率为0.5,在分类模型进行倾斜角度预测时为1。分类模型的第二个全连接层和第一个全连接层一致,紧跟一个dropout层,输出节点为1000,使用softmax处理得到分类概率输出,使用tf.argmax得到最大的类别。最终将fc8、softmax、predictions和参数列表p作为函数结果返回。
在一实施例中,分类模型中预设有多个倾斜角度的类别,即多个预设倾斜角度。由于通过对海量的图像进行观察,发现图像的倾斜角度如果忽略轻微的倾斜,则可将倾斜分为四个方向,分别为正对着的0角度倾斜,旋转90度倾斜,旋转270度倾斜,旋转180度倾斜,因此多个预设的预设倾斜角度可分别为0°,90°,180°以及270°。可以理解的,除上述多个预设倾斜角度外,还可根据实际情况设置其他的预设倾斜角度。此时,多个预设倾斜角度即可视为分别表示对应的类别。
在一实施例中,分类模型是由标记有预估倾斜角度的各图像样本进行训练后得到。具体地,将各图像样本依次输入预构建的分类模型进行模型训练,每次输入图像样本后均根据分类模型输出的图像样本的预设倾斜角度,与图像样本的预估倾斜角度的角度差,调整分类模型的参数,直至任一图像样本对应的角度差满足预设条件,完成分类模型的训练。
在一实施例中,对于分类模型的训练,可先采集各种场景下的海量图像样本,如身份证、银行卡、营业执照、***、汇款单、合同等,然后对图像样本进行预估倾斜角度标注。其中,图像样本的预估倾斜角度,可以是从图像样本测得的实际倾斜角度。如图像样本测得的实际倾斜角度为20°,则预估倾斜角度为20°。或者,可根据图像样本测得的实际倾斜角度,从分类模型的各预设倾斜角度中,获取与该实际倾斜角度最接近的预设倾斜角度作为预估倾斜角度。如图像样本测得的实际倾斜角度为20°,各预设倾斜角度为0°,90°,180°以及270°,则预估倾斜角度为0°。
在采集到标注有预估倾斜角度的各图像样本后,将各图像样本依次输入分类模型进行训练。在训练过程中,对于任一图像样本,获取分类模型针对该图像样本输出的预设倾斜角度,然后将输出的预设倾斜角度,与该图像样本的预估倾斜角度进行比对。若两者的角度差小于预设值,则不做处理;若两者的角度差大于预设值,则根据预设值,调整分类模型的参数。完成分类模型的参数调整后,再将下一图像样本输入分类模型进行模型训练,直至所有图像样本输入某一次调整参数后的分类模型,得到的所有角度差均小于预设值,则判定分类模型训练完成。
通过大量的图像样本输入预构建的分类模型进行模型训练,以根据分类模型输出的图像样本的预设倾斜角度,与图像样本的预估倾斜角度的角度差,来调整分类模型的参数,直至任一图像样本对应的角度差满足预设条件,完成分类模型的训练,从而提高分类模型对图像进行预设倾斜角度的分类的准确性,进而提高后续针对文档图像的倾斜角度的检测的准确性。
在一实施例中,在完成分类模型的训练后,将获取到的文档图像输入该训练好的分类模型,即可通过训练好的分类模型对文档图像进行分类,以从各预设倾斜角度中,确定文档图像所属的预设倾斜角度,从而将文档图像所属的预设倾斜角度确定为目标倾斜角度。
在确定目标倾斜角度后,将文档图像的中心点,基于目标倾斜角度进行旋转校正,从而得到目标文档图像。
考虑到在得到目标文档图像后,可能还存在轻微角度的倾斜。因此,为进一步提高文档图像的倾斜校正效果,在一实施例中,如图2所示,除图1所示步骤外,还包括:
步骤103,确定所述目标文档图像中存在多个文本行,获取各所述文本行的斜率;
步骤104,根据各所述斜率,对所述目标文档图像进行旋转校正。
在一实施例中,由于目标文档图像若只存在单个文本行,则轻微的倾斜并不影响OCR识别的准确性。因此为提高处理效率,可先对目标文档图像进行文本行的检测,若目标文档图像只存在一个文本行,则不进行处理,否则,对目标文档图像的各文本行进行提取,并获取各文本行的斜率。在获取到各文本行的斜率后,可从各文本行的斜率中,提取相同数量最多的斜率作为目标斜率,并根据目标斜率对目标文档进行旋转校正。
通过在确定目标文档图像中存在多个文本行后,获取各文本行的斜率,并利用各文本行的斜率来对目标文档图像进行旋转校正,从而实现对轻微角度的倾斜校正,进一步提高文档图像的倾斜校正效果。
为使获取到的斜率更为准确,在一实施例中,如图3所示,各文本行的斜率获取过程包括:
步骤201,从所述目标文档图像中,获取各所述文本行对应的各文本框;
步骤202,根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率。
在一实施例中,在获取到目标文档图像后,对目标文档图像的各文本行进行检测,得到每个文本行对应的文本框。在获取各文本框后,将文本框的四个顶点分别认定为文本框的左上顶点,右上顶点,右下顶点以及左下顶点,然后从基于目标文档图像的中心点建立的二维坐标系中,获取任一文本框的这4个顶点坐标,分别为左上顶点(x1,y1)、右上顶点(x2,y2)、右下顶点(x3,y3)以及左下顶点(x4,y4)。在获取四个顶点坐标后,可根据左上顶点和右上顶点的坐标,或者右下顶点以及左下顶点的坐标,确定文本行的斜率为K=(y2-y1)/(x2-x1),或者K=(y4-y3)/(x4-x3)。
通过获取文本行对应的各文本框,并基于文本框各顶点的二维坐标,来确定对应的文本行的斜率,从而能够快速准确地确定文本行的斜率,从而进一步提高文档图像的轻微倾斜校正效果。
考虑到目标文档图像中,各文本行的方向可能不同,如其中一个文本行的方向可能为水平方向,另一个文本行的方向可能为竖直方向。此时若仅根据水平方向的斜率对目标文档图像进行轻微的倾斜校正,可能会导致竖直方向上的校正不够准确。为此,在一实施例中,根据所述文本框各顶点的坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
在一实施例中,由于文本框为长方形,因此在确定文本框的四个顶点坐标后,可根据左上顶点和右上顶点的坐标,或者右下顶点以及左下顶点的坐标,确定文本框的长边。如左上顶点的坐标为(x1,y1),右上顶点的坐标为(x2,y2),则两个顶点的距离即为该文本框的长边。可以理解的,文本框的长边还可由左下顶点和右下顶点的坐标距离确定。同理,可根据右上顶点和右下顶点之间的坐标距离,或者左上顶点和左下顶点的坐标距离,确定该文本框的宽边。
在确定文本框的长边和宽边后,若长边大于框边,且长边与宽边的长度差大于预设值,则可判定该文本框的方向为水平方向,此时可根据长边两端的顶点坐标,如左上顶点的坐标(x1,y1),以及右上顶点的坐标(x2,y2),确定文本行的斜率为K=(y2-y1)/(x2-x1)。其中,预设值可根据实际情况进行设定,如30mm等。
同理,在一实施例中,若确定宽边的长度大于长边,且宽边与长边的长度差大于预设值,则可判定该文本框的方向为竖直方向,此时可根据宽边两端的顶点坐标,如右上顶点的坐标(x2,y3),以及右下顶点的坐标(x3,y3),确定对应的文本行的斜率为K=(y3-y2)/(x3-x2)。
通过将文本框的长边和宽边进行比较,以根据比较结果,来判断对应的文本行的方向,从而根据方向来确定对应的斜率获取方式,进而能够准确地确定任意方向的文本行的斜率,从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。
在获取到各文本行的斜率后,为使根据斜率进行轻微校正的结果更为准确,在一实施例中,根据各所述斜率,对所述目标文档图像进行旋转校正,包括:
根据各所述斜率,确定平均斜率;
根据所述平均斜率,对所述目标文档图像进行旋转校正。
在一实施例中,在获取到各文本行的斜率后,可直接对各文本行的斜率进行求平均,得到的斜率即可确定为平均斜率。或者,为使得到的平均斜率更为精确,可先将所有算出的斜率进行求平均,得到的斜率确定为基线。然后对该基线的上下限增加预设阈值,得到目标区间。在得到目标区间后,对各文本行的斜率进行过滤,从各文本行的斜率中,过滤掉位于目标区间外的斜率,获取位于目标区间的斜率作为目标斜率。然后对各目标斜率进行求平均,得到平均斜率。
在得到平均斜率后,通过平均斜率计算旋转角度,并获取目标文档图像的中心位置后,通过OPENCV方法,如warpAffine对目标文档图像进行旋转,最终得到对轻微倾斜角度进行矫正后的图像。
下面对本申请提供的文档图像的倾斜校正装置进行描述,下文描述的文档图像的倾斜校正装置与上文描述的文档图像的倾斜校正方法可相互对应参照。
在一实施例中,如图4所示,提供了一种文档图像的倾斜校正装置,包括:
倾斜角度获取模块210,用于将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
文档图像校正模块220,用于根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
通过将文档图像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对文档图像进行倾斜角度的分类,确定文档图像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对文档图像进行校正,从而将对文档图像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的图像样本训练得到的分类模型,便可实现对任意360度方向的文档图像进行倾斜校正,提高文档图像的倾斜校正结果的准确性。
在一实施例中,倾斜角度获取模块210还用于:
将各所述图像样本依次输入预构建的分类模型进行模型训练,每次输入所述图像样本后均根据所述分类模型输出的所述图像样本的预设倾斜角度,与所述图像样本的预估倾斜角度的角度差,调整所述分类模型的参数,直至任一所述图像样本对应的所述角度差满足预设条件,完成所述分类模型的训练。
在一实施例中,文档图像校正模块220还用于:
确定所述目标文档图像中存在多个文本行,获取各所述文本行的斜率;
根据各所述斜率,对所述目标文档图像进行旋转校正。
在一实施例中,文档图像校正模块220具体用于:
从所述目标文档图像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率。
在一实施例中,文档图像校正模块220具体用于:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
在一实施例中,文档图像校正模块220还用于:
确定所述宽边的长度大于所述长边,且所述宽边与所述长边的长度差大于预设值,根据所述宽边两端的顶点坐标,确定对应的所述文本行的斜率。
在一实施例中,文档图像校正模块220具体用于:
根据各所述斜率,确定平均斜率;
根据所述平均斜率,对所述目标文档图像进行旋转校正。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行文档图像的倾斜校正方法,例如包括:
将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种存储介质,存储介质包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的文档图像的倾斜校正方法,例如包括:
将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
另一方面,本申请实施例还提供一种处理器可读存储介质,处理器可读存储介质存储有计算机程序,计算机程序用于使处理器执行上述各实施例提供的方法,例如包括:
将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种文档图像的倾斜校正方法,其特征在于,包括:
将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
2.根据权利要求1所述的文档图像的倾斜校正方法,其特征在于,还包括:
将各所述图像样本依次输入预构建的分类模型进行模型训练,每次输入所述图像样本后均根据所述分类模型输出的所述图像样本的预设倾斜角度,与所述图像样本的预估倾斜角度的角度差,调整所述分类模型的参数,直至任一所述图像样本对应的所述角度差满足预设条件,完成所述分类模型的训练。
3.根据权利要求1或2所述的文档图像的倾斜校正方法,其特征在于,还包括:
确定所述目标文档图像中存在多个文本行,获取各所述文本行的斜率;
根据各所述斜率,对所述目标文档图像进行旋转校正。
4.根据权利要求3所述的文档图像的倾斜校正方法,其特征在于,获取各所述文本行的斜率,包括:
从所述目标文档图像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率。
5.根据权利要求4所述的文档图像的倾斜校正方法,其特征在于,根据所述文本框各顶点的坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
6.根据权利要求5所述的文档图像的倾斜校正方法,其特征在于,还包括:
确定所述宽边的长度大于所述长边,且所述宽边与所述长边的长度差大于预设值,根据所述宽边两端的顶点坐标,确定对应的所述文本行的斜率。
7.根据权利要求3所述的文档图像的倾斜校正方法,其特征在于,根据各所述斜率,对所述目标文档图像进行旋转校正,包括:
根据各所述斜率,确定平均斜率;
根据所述平均斜率,对所述目标文档图像进行旋转校正。
8.一种文档图像的倾斜校正装置,其特征在于,包括:
倾斜角度获取模块,用于将获取到的文档图像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述文档图像对应的目标倾斜角度;
文档图像校正模块,用于根据所述目标倾斜角度,对所述文档图像进行校正,获取目标文档图像;
其中,所述述分类模型由标记有预估倾斜角度的各所述图像样本进行训练后得到。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文档图像的倾斜校正方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的文档图像的倾斜校正方法。
CN202210742965.2A 2022-06-27 2022-06-27 文档图像的倾斜校正方法及装置 Pending CN115100660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210742965.2A CN115100660A (zh) 2022-06-27 2022-06-27 文档图像的倾斜校正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210742965.2A CN115100660A (zh) 2022-06-27 2022-06-27 文档图像的倾斜校正方法及装置

Publications (1)

Publication Number Publication Date
CN115100660A true CN115100660A (zh) 2022-09-23

Family

ID=83294162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210742965.2A Pending CN115100660A (zh) 2022-06-27 2022-06-27 文档图像的倾斜校正方法及装置

Country Status (1)

Country Link
CN (1) CN115100660A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862022A (zh) * 2023-01-31 2023-03-28 深圳前海环融联易信息科技服务有限公司 图像矫正方法及其装置、设备、存储介质、产品
CN117690139A (zh) * 2023-12-12 2024-03-12 北京蓝湾博阅科技有限公司 一种基于纸质图书阅览电子化后的图像前处理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815954A (zh) * 2019-01-31 2019-05-28 科大讯飞股份有限公司 增值税***图像的方向校正方法、装置、设备及存储介质
CN111444918A (zh) * 2020-04-01 2020-07-24 中移雄安信息通信科技有限公司 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法
CN114283435A (zh) * 2021-12-02 2022-04-05 上海浦东发展银行股份有限公司 表格提取方法、装置、计算机设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815954A (zh) * 2019-01-31 2019-05-28 科大讯飞股份有限公司 增值税***图像的方向校正方法、装置、设备及存储介质
CN111444918A (zh) * 2020-04-01 2020-07-24 中移雄安信息通信科技有限公司 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法
CN114283435A (zh) * 2021-12-02 2022-04-05 上海浦东发展银行股份有限公司 表格提取方法、装置、计算机设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862022A (zh) * 2023-01-31 2023-03-28 深圳前海环融联易信息科技服务有限公司 图像矫正方法及其装置、设备、存储介质、产品
CN117690139A (zh) * 2023-12-12 2024-03-12 北京蓝湾博阅科技有限公司 一种基于纸质图书阅览电子化后的图像前处理方法及***

Similar Documents

Publication Publication Date Title
CN110569878B (zh) 一种基于卷积神经网络的照片背景相似度聚类方法及计算机
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN110569721A (zh) 识别模型训练方法、图像识别方法、装置、设备及介质
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
CN115100660A (zh) 文档图像的倾斜校正方法及装置
EP3321842A1 (en) Lane line recognition modeling method, apparatus, storage medium, and device, recognition method and apparatus, storage medium, and device
CN109766778A (zh) 基于ocr技术的***信息录入方法、装置、设备及存储介质
CN111027504A (zh) 人脸关键点检测方法、装置、设备及存储介质
CN111814785B (zh) ***识别方法及相关模型的训练方法以及相关设备、装置
CN112686812A (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
US20210216766A1 (en) Method and device for identifying number of bills and multiple bill areas in image
CN115082941A (zh) 表格文档影像的表格信息获取方法及装置
CN112686248B (zh) 证件增减类别检测方法、装置、可读存储介质和终端
CN114049499A (zh) 用于连续轮廓的目标对象检测方法、设备及存储介质
CN110766016A (zh) 一种基于概率神经网络的喷码字符识别方法
CN108961262B (zh) 一种复杂场景下的条码定位方法
CN113221897B (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及***
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN116310832A (zh) 遥感图像处理方法、装置、设备、介质及产品
US20230069608A1 (en) Object Tracking Apparatus and Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination