CN113159037A - 图片矫正方法、装置、计算机设备及存储介质 - Google Patents

图片矫正方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113159037A
CN113159037A CN202110570636.XA CN202110570636A CN113159037A CN 113159037 A CN113159037 A CN 113159037A CN 202110570636 A CN202110570636 A CN 202110570636A CN 113159037 A CN113159037 A CN 113159037A
Authority
CN
China
Prior art keywords
picture
current
initial
mask
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110570636.XA
Other languages
English (en)
Other versions
CN113159037B (zh
Inventor
熊军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110570636.XA priority Critical patent/CN113159037B/zh
Publication of CN113159037A publication Critical patent/CN113159037A/zh
Application granted granted Critical
Publication of CN113159037B publication Critical patent/CN113159037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了图片矫正方法、装置、计算机设备及存储介质,涉及大数据技术,先基于语义分割模型对当前待识别图片进行掩码图片提取,然后基于图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度以旋转掩码图片,最终基于旋转后的掩码图片进行透视变换得到当前最终矫正图片,由于是基于深度学习算法之一的语义分割算法,且基于多样的训练数据集训练模型,提高了图片处理过程中的鲁棒性。

Description

图片矫正方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能的图像处理技术领域,尤其涉及一种图片矫正方法、装置、计算机设备及存储介质。
背景技术
当用户需要办理服务业务时,经常会需要用到种各证件卡片,如身份证。更具体如用户通过手机应用程序进行投保、保单信息更改或理赔时,需要随机上传一张身份证图片以供***进行身份证识别,但是用户上传的身份证图片是随机拍摄的,因此在对身份证识别前需要进行图片矫正,此时需要增加身份证方向判断将原图进行角度扭正。
目前常用图片矫正方法为尺度不变特征转换即SIFT(Scale-invariant featuretransform),通过模板匹配的方法找到原图中身份证图片的4点角点再进行透视变换。虽然SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关,对于光线、噪声、些微视角改变的容忍度也相当高,但稍模糊的图片鲁棒性较差。
发明内容
本发明实施例提供了一种图片矫正方法、装置、计算机设备及存储介质,旨在解决现有技术中图片矫正基于尺度不变特征转换法,虽然对光线、噪声、些微视角改变的容忍度也相当高,但稍模糊的图片鲁棒性较差的问题。
第一方面,本发明实施例提供了一种图片矫正方法,其包括:
若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集;
判断所述当前掩码图片是否经过边界框截取;
若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度;
根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集;
调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立;以及
根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
第二方面,本发明实施例提供了一种图片矫正装置,其包括:
掩码图片获取单元,用于若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集;
边框截取判断单元,用于判断所述当前掩码图片是否经过边界框截取;
旋转调整角度获取单元,用于若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度;
当前调整图片获取单元,用于根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集;
图片方向分类单元,用于调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立;以及
图片矫正单元,用于根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的图片矫正方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的图片矫正方法。
本发明实施例提供了一种图片矫正方法、装置、计算机设备及存储介质,先基于语义分割模型对当前待识别图片进行掩码图片提取,然后基于图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度以旋转掩码图片,最终基于旋转后的掩码图片进行透视变换得到当前最终矫正图片,由于是基于深度学习算法之一的语义分割算法,且基于多样的训练数据集训练模型,提高了图片处理过程中的鲁棒性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图片矫正方法的应用场景示意图;
图2为本发明实施例提供的图片矫正方法的流程示意图;
图3为本发明实施例提供的图片矫正装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的图片矫正方法的应用场景示意图;图2为本发明实施例提供的图片矫正方法的流程示意图,该图片矫正方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S106。
S101、若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集。
在本实施例中,为了更清楚的理解本申请的技术方案,下面具体以初始待处理图片为身份证图片为例来说明。当然,初始待处理图片并不一定局限于身份证图片,也可以是***图片、驾驶证图片等,这些图片都有一些共同点,即是具有方向性,一般是图片的宽度大于长度。本申请是在以服务器为执行主体的角度描述技术方案。
当获取了所述当前待识别图片并输入至所述语义分割模型进行运算后,可以得到与当前待识别图片对应的当前掩码图片,还可以通过哈里斯角点检测算法获取当前掩码图片对应的四个顶点,例如以左上角顶点为起始点且以顺时针方向来检测,可将上述四个顶点分别记为顶点A、顶点B、顶点C、顶点D。此时可以先分别获取顶点A、顶点B、顶点C、顶点D分别对应的顶点坐标,然后以顶点A与顶点B的连线作为第一轮廓连线、以顶点B与顶点C的连线作为第二轮廓连线、以顶点C与顶点D的连线作为第三轮廓连线、以顶点D与顶点A的连线作为第四轮廓连线。
当获取了轮廓连线对应的表达式而且获取了每一个顶点对应的顶点坐标后,即获取了当前掩码图片对应的最大图片轮廓参数,以及顶点坐标参数。这样,即可根据掩码图片对应的最大图片轮廓参数,以及顶点坐标参数进行后续的图片矫正。
在一实施例中,如图2所示,步骤S101之前还包括:
S1011、接收初始待处理图片集,将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,并将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值。
在本实施例中,当用户端上传了一批图片组成的初始待处理图片集后,服务器接收初始待处理图片集。以初始待处理图片集中包括的初始待处理图片为身份证图片为例,由于每一个用户的身份证图片是至少包括2张图片(即一张身份证正面图片和身份证反面图片),例如以初始待处理图片集中包括N个用户为例,初始待处理图片集中至少包括2N张初始待处理图片。由于用户的身份证图片的正面和反面都是具有方向性,故所接收的初始待处理图片集中的初始待处理图片可以是经过旋转调正向后的图片,也可以是未经过任何旋转调正的原始图片。
在一实施例中,若所接收的初始待处理图片是经过旋转调正后的图片,在服务器初始接收到未经过旋转调正的图片时,在步骤S1011之前可以经过以下图片旋转处理:
通过DBNet文本检测模型获取初始图片集中各张初始图片包括的文字块及文字块四点坐标;
将各张初始图片包括的文字块根据对应的文字块四点坐标进行仿射变化,得到与各张初始图片分别对应的文字调正后图片;
通过调用预先训练的文字方向分类模型获取各张文字调整后图片中文字块方向,统计得到各张文字调整后图片的文字块方向统计值;
根据各张文字调整后图片的文字块方向统计值,获取各张文字调整后图片的当前方向;
根据各张文字调整后图片的当前方向获取对应的调正旋转角度;
将各张文字调整后图片根据对应的调正旋转角度进行旋转调整,得到各张文字调整后图片分别对应的旋转调整后图片,组成初始待处理图片集。
在本实施例中,当服务器接收到了初始图片集后,需要对其中每一张初始图片根据文字块方向进行方向调整,以实现将图片方向旋正。具体是先通过DBNet文本检测模型获取每一张初始图片中包括的文字块,同时也能获取各文字块对应的文字块四点坐标。DBNet文本检测模型是可微二值化网络文本检测模型,该可微二值化网络文本检测模型如下:
Figure BDA0003082526970000061
其中,x=Pi,j-Ti,j,Pi,j表示图片的像素点(i,j)的概率图值,Ti,j表示图片的像素点(i,j)的网络学习阈值图对应取值。
当通过DBNet文本检测模型获取每一张初始图片中包括的文字块,同时也能获取各文字块对应的文字块四点坐标之后,由于这些文字块可能是倾斜的方向,故为了更加准确的根据文字块方向识别图片方向,还需要将各文字块由倾斜的方向旋转至水平方向。此时可以通过仿射变化截取出每张初始图片中的所有文字块。具体实施时,可以调用OpenCV中封装好的仿射变化模型对各文字块进行旋转和截取,即可得到与各张初始图片分别对应的文字调正后图片。
当获取了各张初始图片分别对应的文字调正后图片后,可以调用预先存储的文字方向分类模型(具体可以是PP-OCR中文文本方向分类器)对每张文字调正后图片中的各个文字块方向进行识别,其中文字块方向存在横向正立、横向倒立、竖向正立及竖向倒立这四种情况。当统计了每一张文字调正后图片中各文字块的方向后,可以统计获取该文字调正后图片中横向正立文字块的第一统计值,横向倒立文字块的第二统计值,竖向正立文字块的第三统计值及竖向倒立文字块的第四统计值,由第一统计值-第四统计值组成该张文字调整后图片的文字块方向统计值(这一文字块方向统计值可以视为一个参数集合)。
之后选择该张文字调整后图片的文字块方向统计值中最大的统计值作为该张文字调整后图片的当前方向,然后根据各张文字调整后图片的当前方向获取对应的调正旋转角度;最后将各张文字调整后图片根据对应的调正旋转角度进行旋转调整,得到各张文字调整后图片分别对应的旋转调整后图片,组成初始待处理图片集。
例如该文字调正后图片中横向正立文字块的第一统计值为最大值,则该张文字调整后图片的当前方向整体是正立方向,旋转调正无需作任何旋转;该文字调正后图片中横向正立文字块的第二统计值为最大值,则该张文字调整后图片的当前方向整体是倒立方向,旋转调正需要将该张文字调整后图片逆时针旋转180度;该文字调正后图片中竖向正立文字块的第三统计值为最大值,则该张文字调整后图片的当前方向整体是竖向正立方向,旋转调正需要将该张文字调整后图片逆时针旋转270度;该文字调正后图片中竖向倒立文字块的第四统计值为最大值,则该张文字调整后图片的当前方向整体是竖向倒立方向,旋转调正需要将该张文字调整后图片逆时针旋转90度。
若所接收的初始待处理图片是未经过任何旋转调正的原始图片,可以直接不作任何处理直接进行掩码处理得到对应的掩码图片集。
在一实施例中,以所述初始待处理图片为身份证为例,所述步骤S1011中将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,具体如下:
通过边缘检测获取所述初始待处理图片集中每一张初始待处理图片的目标区域,并将每一张初始待处理图片的目标区域之外的区域记作为目标外区域;
将每一张初始待处理图片的目标外区域的像素值均进行归0处理,并将每一张初始待处理图片的目标区域的像素值均进行置1处理,得到与每一张初始待处理图片对应的掩码图片,组成掩码图片集。
在本实施例中,通过常见的边缘检测模型(如坎尼算子模型、索贝尔算子模型、拉普拉斯算子模型等)对所述初始待处理图片集中每一张初始待处理图片进行边缘检测,得到每一张初始待处理图片的目标区域(该目标区域一般是包括身份证信息的区域),并将每一张初始待处理图片的目标区域之外的区域记为目标外区域。通过这一目标区域的识别,能快速定位身份证区域。
之后为了快速的获取掩码图片,此时可以将每一张初始待处理图片的目标外区域的像素值均进行归0处理,并将每一张初始待处理图片的目标区域的像素值均进行置1处理,这样每一张初始待处理图片的目标区域成为了全白色区域,而每一张初始待处理图片的目标外区域成为了全黑色区域。通过上述处理可以准确的获取每一张初始待处理图片的掩码图片,便于后续进一步进行图像处理。
在一实施例中,所述将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值,包括:
将所述初始待处理图片集中初始待处理图片为正面图片的标注值标注为1;
将所述初始待处理图片集中初始待处理图片为背面图片的标注值标注为0。
在本实施例中,当获取了所述掩码图片集中每一张掩码图片后,可以通过服务器中部署的标注工具调用预先设置的标注策略对每一张初始待处理图片进行自动标注,其中可以将正面图片的标注值标注为1,将背面图片的标注值标注为0。
S1012、根据所述掩码图片集对应的初始待处理图片集,以及所述掩码图片集中每一张掩码图片进行模型训练,得到语义分割模型。
在本实施例中,当所述掩码图片集对应的初始待处理图片集,以及所述掩码图片集中每一张掩码图片后,将所述初始待处理图片集中每一张初始待处理图片对应的像素矩阵作为待训练语义分割模型的输入,并将所述掩码图片集中每一张掩码图片作为待训练语义分割模型的输出,对待训练语义分割模型进行模型训练后,即可得到语义分割模型。
在一实施例中,所述语义分割模型采用Deeplab网络,且将Deeplab网络中池化层的步长设置为1,并将Deeplab网络中池化层增加1个像素的填充,通过这一结构的语义分割模型不仅确保池化后的图片尺寸并未减小,并且依然保留了池化整合特征的特性。
在一实施例中,步骤S101之后还包括:
获取所述当前掩码图片对应的当前最大轮廓图;
获取与所述当前最大轮廓图对应的当前边界框;
通过所述当前边界框将所述当前待识别图片进行目标区域截取,得到当前目标区域图片。
在本实施例中,若之前未对图片进行旋转调正处理,此时为了降低图片大小后输入图片方向分类模型,此时可以通过步骤S103中获取的当前掩码图片来先获取当前最大轮廓图,然后根据最大轮廓图获取对应的boundingbox(可以理解为当前边界框,通过这一当前边界框可以将包括身份证信息的区域框选出来),最后通过boundingbox对应的图片区域将所述当前待识别图片进行目标区域截取,得到当前目标区域图片。通过这一图片截取操作,能有效降低当前待识别图片的识别区域大小,提高后续的识别效率。
S102、判断所述当前掩码图片是否经过边界框截取。
在本实施例中,当通过语义分割模型对当前待识别图片进行处理得到当前掩码图片后,为了进一步对当前待识别图片进行矫正处理,此时还需判断所述当前掩码图片是否经过边界框截取以降低图片尺寸。
S103、若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角。
在本实施例中,若所述当前掩码图片未经过边界框截取,表示所述当前掩码图片只是经过掩码处理而未进行图片有效区域截取,若此时仍以当前待识别图片为身份证图片为例来说明,由于身份证图片在正向情况下具有图片宽度大于图片高度的特点,此时可以将据图片宽度值大于图片高度值对应的图片定向策略来确定当前掩码图片是否为正向图片。
若所述当前掩码图片的当前图片宽度值大于当前图片高度值,表示这一身份证图片当前可能是正面横向正立、正面横向倒立、背面横向正立、背面横向倒立这四种情况,若所述当前掩码图片为上述4种情况之一时,无需对所述当前掩码图片进行旋转调整,此时对应的当前图片旋转调整角为0度。
若所述当前掩码图片的当前图片宽度值小于或等于当前图片高度值,表示这一身份证图片当前可能是正面竖向正立、正面竖向倒立、背面竖向正立、背面竖向倒立这四种情况,若所述当前掩码图片为上述4种情况之一时,需对所述当前掩码图片进行旋转调整,具体是可以将当前掩码图片顺时针旋转90度,此时对应的当前图片旋转调整角为90度。
S104、根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集。
在本实施例中,当根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整后,当前调整图片必然是正面横向正立、正面横向倒立、背面横向正立、背面横向倒立这四种情况其中之一。而且与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集相对于四个顶点坐标集也是相应做了调整。例如四个顶点坐标集记作S1={(x1,y1),(x2,y2),(x3,y3),(x4,y4)},这四个顶点按顺时针方向分别对应左上角顶点、右上角顶点、右下角顶点及左下角顶点,将四个顶点坐标集S1中4个顶点按照顺时针90度旋转调整后的调整顶点坐标集S2={(x4,y4),(x1,y1),(x2,y2),(x3,y3)}。
S105、调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立。
在本实施例中,调用预先训练的图片分类模型(例如Mobilev2-ssd模型、ssdlite模型),可以快速的获取所述当前调整图片对应的图片正反面方向,其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立。
由于现在是先做分割,分割之后再采用逻辑判断(身份证长大于宽)及目标检测的方法确定4个顶点坐标顺序,通过图片分类模型是对没有背景干扰的当前调整图片进行分类,该图片分类模型的检测任务更简单,模型分类准确率更高。
S106、根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在本实施例中,当已知了所述当前调整图片的图片识别结果,此时就已知了该图片是正面还是反面,但无论是正面还是反面,此时都通过对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在一实施例中,对当前调整图片进行透视变换的具体过程如下:
获取所述当前调整图片中每一像素点的像素坐标;
获取透视变换矩阵,将每一像素点的像素坐标对应的行向量与所述透视变换矩阵相乘,得到与每一像素点对应的变换像素坐标,及当前最终矫正图片。
可见,通过对所述当前调整图片进行透视变换后,能将消除之前因摄像头采集图片因拍照角度导致的倾斜得到校正,便于后续更加准确的进行图像识别。
在一实施例中,步骤S102之后还包括:
若所述当前掩码图片经过边界框截取,获取与所述当前掩码图片对应的当前目标区域图片;
将所述当前目标区域图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在本实施例中,若所述当前掩码图片经过边界框截取,表示所述当前掩码图片进行图片有效区域截取,此时可以直接获取与所述当前掩码图片对应的当前目标区域图片。其中,对所述当前目标区域图片进行透视变换的具体过程参考步骤S106。
该方法是先基于语义分割模型对当前待识别图片进行掩码图片提取,然后基于图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度以旋转掩码图片,最终基于旋转后的掩码图片进行透视变换得到当前最终矫正图片,由于是基于深度学习算法之一的语义分割算法,且基于多样的训练数据集训练模型,提高了图片处理过程中的鲁棒性。
本发明实施例还提供一种图片矫正装置,该图片矫正装置用于执行前述图片矫正方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的图片矫正装置的示意性框图。该图片矫正装置100可以配置于服务器中。
如图3所示,图片矫正装置100包括:掩码图片获取单元101、边框截取判断单元102、旋转调整角度获取单元103、当前调整图片获取单元104、图片方向分类单元105、图片矫正单元106。
掩码图片获取单元101,用于若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集。
在本实施例中,为了更清楚的理解本申请的技术方案,下面具体以初始待处理图片为身份证图片为例来说明。当然,初始待处理图片并不一定局限于身份证图片,也可以是***图片、驾驶证图片等,这些图片都有一些共同点,即是具有方向性,一般是图片的宽度大于长度。本申请是在以服务器为执行主体的角度描述技术方案。
当获取了所述当前待识别图片并输入至所述语义分割模型进行运算后,可以得到与当前待识别图片对应的当前掩码图片,还可以通过哈里斯角点检测算法获取当前掩码图片对应的四个顶点,例如以左上角顶点为起始点且以顺时针方向来检测,可将上述四个顶点分别记为顶点A、顶点B、顶点C、顶点D。此时可以先分别获取顶点A、顶点B、顶点C、顶点D分别对应的顶点坐标,然后以顶点A与顶点B的连线作为第一轮廓连线、以顶点B与顶点C的连线作为第二轮廓连线、以顶点C与顶点D的连线作为第三轮廓连线、以顶点D与顶点A的连线作为第四轮廓连线。
当获取了轮廓连线对应的表达式而且获取了每一个顶点对应的顶点坐标后,即获取了当前掩码图片对应的最大图片轮廓参数,以及顶点坐标参数。这样,即可根据掩码图片对应的最大图片轮廓参数,以及顶点坐标参数进行后续的图片矫正。
在一实施例中,如图3所示,图片矫正装置100还包括:
图片集预处理单元1011、接收初始待处理图片集,将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,并将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值。
在本实施例中,当用户端上传了一批图片组成的初始待处理图片集后,服务器接收初始待处理图片集。以初始待处理图片集中包括的初始待处理图片为身份证图片为例,由于每一个用户的身份证图片是至少包括2张图片(即一张身份证正面图片和身份证反面图片),例如以初始待处理图片集中包括N个用户为例,初始待处理图片集中至少包括2N张初始待处理图片。由于用户的身份证图片的正面和反面都是具有方向性,故所接收的初始待处理图片集中的初始待处理图片可以是经过旋转调正向后的图片,也可以是未经过任何旋转调正的原始图片。
在一实施例中,若所接收的初始待处理图片是经过旋转调正后的图片,在服务器初始接收到未经过旋转调正的图片时,图片集预处理单元1011还包括:
文字块定位单元,用于通过DBNet文本检测模型获取初始图片集中各张初始图片包括的文字块及文字块四点坐标;
仿射变化单元,用于将各张初始图片包括的文字块根据对应的文字块四点坐标进行仿射变化,得到与各张初始图片分别对应的文字调正后图片;
文字块方向统计单元,用于通过调用预先训练的文字方向分类模型获取各张文字调整后图片中文字块方向,统计得到各张文字调整后图片的文字块方向统计值;
当前方向获取单元,用于根据各张文字调整后图片的文字块方向统计值,获取各张文字调整后图片的当前方向;
调正旋转角度获取单元,用于根据各张文字调整后图片的当前方向获取对应的调正旋转角度;
旋转调整单元,用于将各张文字调整后图片根据对应的调正旋转角度进行旋转调整,得到各张文字调整后图片分别对应的旋转调整后图片,组成初始待处理图片集。
在本实施例中,当服务器接收到了初始图片集后,需要对其中每一张初始图片根据文字块方向进行方向调整,以实现将图片方向旋正。具体是先通过DBNet文本检测模型获取每一张初始图片中包括的文字块,同时也能获取各文字块对应的文字块四点坐标。DBNet文本检测模型是可微二值化网络文本检测模型,该可微二值化网络文本检测模型如下:
Figure BDA0003082526970000131
其中,x=Pi,j-Ti,j,Pi,j表示图片的像素点(i,j)的概率图值,Ti,j表示图片的像素点(i,j)的网络学习阈值图对应取值。
当通过DBNet文本检测模型获取每一张初始图片中包括的文字块,同时也能获取各文字块对应的文字块四点坐标之后,由于这些文字块可能是倾斜的方向,故为了更加准确的根据文字块方向识别图片方向,还需要将各文字块由倾斜的方向旋转至水平方向。此时可以通过仿射变化截取出每张初始图片中的所有文字块。具体实施时,可以调用OpenCV中封装好的仿射变化模型对各文字块进行旋转和截取,即可得到与各张初始图片分别对应的文字调正后图片。
当获取了各张初始图片分别对应的文字调正后图片后,可以调用预先存储的文字方向分类模型(具体可以是PP-OCR中文文本方向分类器)对每张文字调正后图片中的各个文字块方向进行识别,其中文字块方向存在横向正立、横向倒立、竖向正立及竖向倒立这四种情况。当统计了每一张文字调正后图片中各文字块的方向后,可以统计获取该文字调正后图片中横向正立文字块的第一统计值,横向倒立文字块的第二统计值,竖向正立文字块的第三统计值及竖向倒立文字块的第四统计值,由第一统计值-第四统计值组成该张文字调整后图片的文字块方向统计值(这一文字块方向统计值可以视为一个参数集合)。
之后选择该张文字调整后图片的文字块方向统计值中最大的统计值作为该张文字调整后图片的当前方向,然后根据各张文字调整后图片的当前方向获取对应的调正旋转角度;最后将各张文字调整后图片根据对应的调正旋转角度进行旋转调整,得到各张文字调整后图片分别对应的旋转调整后图片,组成初始待处理图片集。
例如该文字调正后图片中横向正立文字块的第一统计值为最大值,则该张文字调整后图片的当前方向整体是正立方向,旋转调正无需作任何旋转;该文字调正后图片中横向正立文字块的第二统计值为最大值,则该张文字调整后图片的当前方向整体是倒立方向,旋转调正需要将该张文字调整后图片逆时针旋转180度;该文字调正后图片中竖向正立文字块的第三统计值为最大值,则该张文字调整后图片的当前方向整体是竖向正立方向,旋转调正需要将该张文字调整后图片逆时针旋转270度;该文字调正后图片中竖向倒立文字块的第四统计值为最大值,则该张文字调整后图片的当前方向整体是竖向倒立方向,旋转调正需要将该张文字调整后图片逆时针旋转90度。
若所接收的初始待处理图片是未经过任何旋转调正的原始图片,可以直接不作任何处理直接进行掩码处理得到对应的掩码图片集。
在一实施例中,以所述初始待处理图片为身份证为例,图片集预处理单元1011,包括:
区域划分单元,用于通过边缘检测获取所述初始待处理图片集中每一张初始待处理图片的目标区域,并将每一张初始待处理图片的目标区域之外的区域记作为目标外区域;
分区域图片处理单元,用于将每一张初始待处理图片的目标外区域的像素值均进行归0处理,并将每一张初始待处理图片的目标区域的像素值均进行置1处理,得到与每一张初始待处理图片对应的掩码图片,组成掩码图片集。
在本实施例中,通过常见的边缘检测模型(如坎尼算子模型、索贝尔算子模型、拉普拉斯算子模型等)对所述初始待处理图片集中每一张初始待处理图片进行边缘检测,得到每一张初始待处理图片的目标区域(该目标区域一般是包括身份证信息的区域),并将每一张初始待处理图片的目标区域之外的区域记为目标外区域。通过这一目标区域的识别,能快速定位身份证区域。
之后为了快速的获取掩码图片,此时可以将每一张初始待处理图片的目标外区域的像素值均进行归0处理,并将每一张初始待处理图片的目标区域的像素值均进行置1处理,这样每一张初始待处理图片的目标区域成为了全白色区域,而每一张初始待处理图片的目标外区域成为了全黑色区域。通过上述处理可以准确的获取每一张初始待处理图片的掩码图片,便于后续进一步进行图像处理。
在一实施例中,图片集预处理单元1011,包括:
第一标注单元,用于将所述初始待处理图片集中初始待处理图片为正面图片的标注值标注为1;
第二标注单元,用于将所述初始待处理图片集中初始待处理图片为背面图片的标注值标注为0。
在本实施例中,当获取了所述掩码图片集中每一张掩码图片后,可以通过服务器中部署的标注工具调用预先设置的标注策略对每一张初始待处理图片进行自动标注,其中可以将正面图片的标注值标注为1,将背面图片的标注值标注为0。
模型训练单元1012,用于根据所述掩码图片集对应的初始待处理图片集,以及所述掩码图片集中每一张掩码图片进行模型训练,得到语义分割模型。
在本实施例中,当所述掩码图片集对应的初始待处理图片集,以及所述掩码图片集中每一张掩码图片后,将所述初始待处理图片集中每一张初始待处理图片对应的像素矩阵作为待训练语义分割模型的输入,并将所述掩码图片集中每一张掩码图片作为待训练语义分割模型的输出,对待训练语义分割模型进行模型训练后,即可得到语义分割模型。
在一实施例中,所述语义分割模型采用Deeplab网络,且将Deeplab网络中池化层的步长设置为1,并将Deeplab网络中池化层增加1个像素的填充,通过这一结构的语义分割模型不仅确保池化后的图片尺寸并未减小,并且依然保留了池化整合特征的特性。
在一实施例中,图片矫正装置100还包括:
最大轮廓图获取单元,用于获取所述当前掩码图片对应的当前最大轮廓图;
当前边界框获取单元,用于获取与所述当前最大轮廓图对应的当前边界框;
目标区域截取单元,用于通过所述当前边界框将所述当前待识别图片进行目标区域截取,得到当前目标区域图片。
在本实施例中,若之前未对图片进行旋转调正处理,此时为了降低图片大小后输入图片方向分类模型,此时可以通过步骤S103中获取的当前掩码图片来先获取当前最大轮廓图,然后根据最大轮廓图获取对应的boundingbox(可以理解为当前边界框,通过这一当前边界框可以将包括身份证信息的区域框选出来),最后通过boundingbox对应的图片区域将所述当前待识别图片进行目标区域截取,得到当前目标区域图片。通过这一图片截取操作,能有效降低当前待识别图片的识别区域大小,提高后续的识别效率。
边框截取判断单元102,用于判断所述当前掩码图片是否经过边界框截取。
在本实施例中,当通过语义分割模型对当前待识别图片进行处理得到当前掩码图片后,为了进一步对当前待识别图片进行矫正处理,此时还需判断所述当前掩码图片是否经过边界框截取以降低图片尺寸。
旋转调整角度获取单元103,用于若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角。
在本实施例中,若所述当前掩码图片未经过边界框截取,表示所述当前掩码图片只是经过掩码处理而未进行图片有效区域截取,若此时仍以当前待识别图片为身份证图片为例来说明,由于身份证图片在正向情况下具有图片宽度大于图片高度的特点,此时可以将据图片宽度值大于图片高度值对应的图片定向策略来确定当前掩码图片是否为正向图片。
若所述当前掩码图片的当前图片宽度值大于当前图片高度值,表示这一身份证图片当前可能是正面横向正立、正面横向倒立、背面横向正立、背面横向倒立这四种情况,若所述当前掩码图片为上述4种情况之一时,无需对所述当前掩码图片进行旋转调整,此时对应的当前图片旋转调整角为0度。
若所述当前掩码图片的当前图片宽度值小于或等于当前图片高度值,表示这一身份证图片当前可能是正面竖向正立、正面竖向倒立、背面竖向正立、背面竖向倒立这四种情况,若所述当前掩码图片为上述4种情况之一时,需对所述当前掩码图片进行旋转调整,具体是可以将当前掩码图片顺时针旋转90度,此时对应的当前图片旋转调整角为90度。
当前调整图片获取单元104,用于根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集。
在本实施例中,当根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整后,当前调整图片必然是正面横向正立、正面横向倒立、背面横向正立、背面横向倒立这四种情况其中之一。而且与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集相对于四个顶点坐标集也是相应做了调整。例如四个顶点坐标集记作S1={(x1,y1),(x2,y2),(x3,y3),(x4,y4)},这四个顶点按顺时针方向分别对应左上角顶点、右上角顶点、右下角顶点及左下角顶点,将四个顶点坐标集S1中4个顶点按照顺时针90度旋转调整后的调整顶点坐标集S2={(x4,y4),(x1,y1),(x2,y2),(x3,y3)}。
图片方向分类单元105,用于调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立。
在本实施例中,调用预先训练的图片分类模型(例如Mobilev2-ssd模型、ssdlite模型),可以快速的获取所述当前调整图片对应的图片正反面方向,其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立。
由于现在是先做分割,分割之后再采用逻辑判断(身份证长大于宽)及目标检测的方法确定4个顶点坐标顺序,通过图片分类模型是对没有背景干扰的当前调整图片进行分类,该图片分类模型的检测任务更简单,模型分类准确率更高。
图片矫正单元106,用于根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在本实施例中,当已知了所述当前调整图片的图片识别结果,此时就已知了该图片是正面还是反面,但无论是正面还是反面,此时都通过对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在一实施例中,图片矫正单元106包括:
像素坐标获取单元,用于获取所述当前调整图片中每一像素点的像素坐标;
像素坐标变换单元,用于获取透视变换矩阵,将每一像素点的像素坐标对应的行向量与所述透视变换矩阵相乘,得到与每一像素点对应的变换像素坐标,及当前最终矫正图片。
可见,通过对所述当前调整图片进行透视变换后,能将消除之前因摄像头采集图片因拍照角度导致的倾斜得到校正,便于后续更加准确的进行图像识别。
在一实施例中,图片矫正装置100还包括:
目标区域直接定位单元,用于若所述当前掩码图片经过边界框截取,获取与所述当前掩码图片对应的当前目标区域图片;
目标区域直接变换单元,用于将所述当前目标区域图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
在本实施例中,若所述当前掩码图片经过边界框截取,表示所述当前掩码图片进行图片有效区域截取,此时可以直接获取与所述当前掩码图片对应的当前目标区域图片。其中,对所述当前目标区域图片进行透视变换的具体过程参考图片矫正单元106的处理过程。
该装置是先基于语义分割模型对当前待识别图片进行掩码图片提取,然后基于图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度以旋转掩码图片,最终基于旋转后的掩码图片进行透视变换得到当前最终矫正图片,由于是基于深度学习算法之一的语义分割算法,且基于多样的训练数据集训练模型,提高了图片处理过程中的鲁棒性。
上述图片矫正装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行图片矫正方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行图片矫正方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的图片矫正方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的图片矫正方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种图片矫正方法,其特征在于,包括:
若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集;
判断所述当前掩码图片是否经过边界框截取;
若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度;
根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集;
调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立;以及
根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
2.根据权利要求1所述的图片矫正方法,其特征在于,所述若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集之前,还包括:
接收初始待处理图片集,将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,并将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值;
根据所述掩码图片集对应的初始待处理图片集,以及所述掩码图片集中每一张掩码图片进行模型训练,得到语义分割模型。
3.根据权利要求2所述的图片矫正方法,其特征在于,所述接收初始待处理图片集,将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,并将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值之前,还包括:
若所接收的初始待处理图片是经过旋转调正后的图片,在服务器初始接收到未经过旋转调正的图片时,可以经过以下图片旋转处理:
通过DBNet文本检测模型获取初始图片集中各张初始图片包括的文字块及文字块四点坐标;
将各张初始图片包括的文字块根据对应的文字块四点坐标进行仿射变化,得到与各张初始图片分别对应的文字调正后图片;
通过调用预先训练的文字方向分类模型获取各张文字调整后图片中文字块方向,统计得到各张文字调整后图片的文字块方向统计值;
根据各张文字调整后图片的文字块方向统计值,获取各张文字调整后图片的当前方向;
根据各张文字调整后图片的当前方向获取对应的调正旋转角度;
将各张文字调整后图片根据对应的调正旋转角度进行旋转调整,得到各张文字调整后图片分别对应的旋转调整后图片,组成初始待处理图片集。
4.根据权利要求2所述的图片矫正方法,其特征在于,所述将所述初始待处理图片集通过掩码处理得到对应的掩码图片集,包括:
通过边缘检测获取所述初始待处理图片集中每一张初始待处理图片的目标区域,并将每一张初始待处理图片的目标区域之外的区域记作为目标外区域;
将每一张初始待处理图片的目标外区域的像素值均进行归0处理,并将每一张初始待处理图片的目标区域的像素值均进行置1处理,得到与每一张初始待处理图片对应的掩码图片,组成掩码图片集。
5.根据权利要求2所述的图片矫正方法,其特征在于,所述将所述初始待处理图片集中每一张初始待处理图片根据预设的标注策略进行标注,得到与所述掩码图片集中每一张掩码图片对应的标注值,包括:
将所述初始待处理图片集中初始待处理图片为正面图片的标注值标注为1;
将所述初始待处理图片集中初始待处理图片为背面图片的标注值标注为0。
6.根据权利要求1所述的图片矫正方法,其特征在于,所述若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集之后,还包括:
获取所述当前掩码图片对应的当前最大轮廓图;
获取与所述当前最大轮廓图对应的当前边界框;
通过所述当前边界框将所述当前待识别图片进行目标区域截取,得到当前目标区域图片。
7.根据权利要求1所述的图片矫正方法,其特征在于,所述判断所述当前掩码图片是否经过边界框截取之后,还包括:
若所述当前掩码图片经过边界框截取,获取与所述当前掩码图片对应的当前目标区域图片;
将所述当前目标区域图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
8.一种图片矫正装置,其特征在于,包括:
掩码图片获取单元,用于若检测接收到用户端上传的当前待识别图片,将所述当前待识别图片输入至本地存储已训练的语义分割模型,得到当前掩码图片,并获取到与所述当前待识别图片对应的最大图片轮廓参数,以及与当前待识别图片对应的四个顶点坐标集;
边框截取判断单元,用于判断所述当前掩码图片是否经过边界框截取;
旋转调整角度获取单元,用于若所述当前掩码图片未经过边界框截取,获取当前掩码图片的当前图片宽度值和当前图片高度值,根据图片宽度值大于图片高度值对应的图片定向策略获取所述当前掩码图片对应的当前图片旋转调整角度;
当前调整图片获取单元,用于根据所述当前图片旋转调整角度对所述当前待识别图片进行旋转调整,得到对应的当前调整图片,并得到与所述当前待识别图片的四个顶点坐标集相对应的调整顶点坐标集;
图片方向分类单元,用于调用预先训练的图片分类模型,将所述当前调整图片输入至图片分类模型进行运算,得到与当前调整图片对应的图片识别结果;其中,所述图片识别结果为正面横向正立、正面横向倒立、背面横向正立、或背面横向倒立;以及
图片矫正单元,用于根据所述图片识别结果及所述调整顶点坐标集对所述当前调整图片进行透视变换,得到与所述当前调整图片对应的当前最终矫正图片。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的图片矫正方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的图片矫正方法。
CN202110570636.XA 2021-05-25 2021-05-25 图片矫正方法、装置、计算机设备及存储介质 Active CN113159037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110570636.XA CN113159037B (zh) 2021-05-25 2021-05-25 图片矫正方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110570636.XA CN113159037B (zh) 2021-05-25 2021-05-25 图片矫正方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113159037A true CN113159037A (zh) 2021-07-23
CN113159037B CN113159037B (zh) 2023-08-08

Family

ID=76877413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110570636.XA Active CN113159037B (zh) 2021-05-25 2021-05-25 图片矫正方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113159037B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792422A (zh) * 2022-05-16 2022-07-26 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110866871A (zh) * 2019-11-15 2020-03-06 深圳市华云中盛科技股份有限公司 文本图像矫正方法、装置、计算机设备及存储介质
CN111860522A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 身份证图片处理方法、装置、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110866871A (zh) * 2019-11-15 2020-03-06 深圳市华云中盛科技股份有限公司 文本图像矫正方法、装置、计算机设备及存储介质
CN111860522A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 身份证图片处理方法、装置、终端及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792422A (zh) * 2022-05-16 2022-07-26 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法
CN114792422B (zh) * 2022-05-16 2023-12-12 合肥优尔电子科技有限公司 一种基于增强透视的光学文字识别方法

Also Published As

Publication number Publication date
CN113159037B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN109271937B (zh) 基于图像处理的运动场地标志物识别方法及***
WO2018219054A1 (zh) 一种车牌识别方法、装置及***
Li et al. Supervised people counting using an overhead fisheye camera
Rengarajan et al. From bows to arrows: Rolling shutter rectification of urban scenes
CN108830133B (zh) 合同影像图片的识别方法、电子装置及可读存储介质
WO2019061658A1 (zh) 眼镜定位方法、装置及存储介质
CN109492642B (zh) 车牌识别方法、装置、计算机设备及存储介质
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
US9785850B2 (en) Real time object measurement
US20050196044A1 (en) Method of extracting candidate human region within image, system for extracting candidate human region, program for extracting candidate human region, method of discerning top and bottom of human image, system for discerning top and bottom, and program for discerning top and bottom
CN108564579B (zh) 一种基于时空相关的混凝土裂缝检测方法及检测装置
CN109447117B (zh) 双层车牌识别方法、装置、计算机设备及存储介质
CN109190617B (zh) 一种图像的矩形检测方法、装置及存储介质
CN112396050B (zh) 图像的处理方法、设备以及存储介质
CN114049499A (zh) 用于连续轮廓的目标对象检测方法、设备及存储介质
CN112651953A (zh) 图片相似度计算方法、装置、计算机设备及存储介质
CN112419207A (zh) 一种图像矫正方法及装置、***
CN114037992A (zh) 仪表示数识别方法、装置、电子设备及存储介质
CN111950554A (zh) 一种身份证识别方法、装置、设备及存储介质
CN109753981B (zh) 一种图像识别的方法及装置
CN113159037B (zh) 图片矫正方法、装置、计算机设备及存储介质
CN113469216B (zh) 零售终端海报识别与完整性判断方法、***及存储介质
US20170352170A1 (en) Nearsighted camera object detection
CN111695374B (zh) 监控视角中斑马线区域的分割方法、***、介质及设备
CN104408430B (zh) 一种车牌定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant