CN110427939A - 校正倾斜文本图像的方法、装置、介质及电子设备 - Google Patents

校正倾斜文本图像的方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110427939A
CN110427939A CN201910713052.6A CN201910713052A CN110427939A CN 110427939 A CN110427939 A CN 110427939A CN 201910713052 A CN201910713052 A CN 201910713052A CN 110427939 A CN110427939 A CN 110427939A
Authority
CN
China
Prior art keywords
text
corrected
text image
image
filed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910713052.6A
Other languages
English (en)
Inventor
王亚领
王洁
马文伟
刘设伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201910713052.6A priority Critical patent/CN110427939A/zh
Publication of CN110427939A publication Critical patent/CN110427939A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种校正倾斜文本图像的方法、装置、计算机可读存储介质和电子设备,涉及计算机技术领域,所述方法包括:对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息;根据至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标;根据至少两个标记点坐标形成的向量与预设方向的向量确定待校正文本图像的倾斜角度和方向;根据待校正文本图像的倾斜角度和方向对待校正文本图像进行校正。本发明实施例的技术方案中,通过深度学习模型对待校正文本图像进行文本检测后,根据得到的文本区域的标记点坐标确定待校正文本图像的倾斜角度和方向,适用于多个场景的倾斜文本图像校正,处理过程简单快速有效。

Description

校正倾斜文本图像的方法、装置、介质及电子设备
技术领域
本发明涉及计算机软件技术领域,具体而言,涉及一种校正倾斜文本图像的方法、装置、计算机可读存储介质及电子设备。
背景技术
拍摄包含文字的自然场景得到的文本图像中,文本图像中的文本不可避免地会出现某些程度的倾斜,这加大了对文本图像进行光学字符识别(Optical CharacterRecognition,OCR)的难度,文本图像的倾斜校正是使用OCR进行文本图像预处理的关键环节,简单快速有效的校正能够辅助OCR更精准快速识别,例如可以服务于保险业务场景中的各种单据以及卡证识别。
进行文本图像的倾斜校正首先要检测文本图像的倾斜角度。在相关技术中,通过霍夫变换检测二值化后的文本图像中的直线进行文本图像倾斜角度检测时,要求文本图像中必须存在直线或者文本图像的背景颜色和文本区域颜色差异显著,对不满足要求的文本图像不能处理,该方案计算量大、检测速度慢且检测效果易受文本图像的光照影响。在另一相关技术中,通过对文本区域外接矩形进行文本图像倾斜角度检测时,要求文本区域的四个边界全部都在文本图像之内,不具有普适性。在又一相关技术中,通过对二值化后的文本图像进行投影旋转进行文本图像倾斜角度检测时,不能处理包含相互交错的多行文本的文本图像。
如何简单快速有效地进行文本图像倾斜校正是当前亟需解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种校正倾斜文本图像的方法、装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服不能简单快速有效地进行文本图像倾斜校正的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种校正倾斜文本图像的方法,包括:对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息;根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标;根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向;若所述待校正文本图像的倾斜角度不为零,则根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正。
在一些实施例中,所述获取至少一个文本区域的位置信息,包括:获取每个文本区域的左上、右上、左下、右下四个角的坐标信息。
在一些实施例中,所述根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标包括:根据每个文本区域的所述四个角中的第一角和第二角的坐标信息确定每个文本区域的目标线段长度,所述目标线段的两个端点坐标为所述第一角和所述第二角的坐标;选取目标线段长度最长的预设数量的文本区域形成文本区域集;选取所述文本区域集中目标线段长度为中位数的文本区域作为所述目标文本区域;根据所述目标文本区域的所述第一角和所述第二角的坐标信息确定所述目标文本区域的两个标记点坐标。
在一些实施例中,所述第一角为左下角,所述第二角为右下角,所述目标线段为所述文本区域的底边;或者,所述第一角为左上角,所述第二角为右上角,所述目标线段为所述文本区域的上边。
在一些实施例中,所述第一角为左上角,所述第二角为右下角,所述目标线段为所述文本区域的对角线。
在一些实施例中,所述根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向,包括:根据所述两个标记点坐标形成的向量与水平方向的向量的点乘确定所述待校正文本图像的倾斜角度;根据所述两个标记点坐标形成的向量与水平方向的向量的叉乘确定所述待校正文本图像的倾斜方向。
在一些实施例中,所述根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正,包括:若所述待校正文本图像的倾斜方向为正值,则根据所述待校正文本图像的倾斜角度逆时针旋转所述待校正文本图像;若所述待校正文本图像的倾斜方向为负值,则根据所述待校正文本图像的倾斜角度顺时针旋转所述待校正文本图像。
根据本发明实施例的第二方面,提供了一种校正倾斜文本图像的装置,包括:第一获取单元,用于对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息;第二获取单元,用于根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标;确定单元,用于根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向;校正单元,用于若所述待校正文本图像的倾斜角度不为零,则根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正。
在一些实施例中,所述第二获取单元包括:确定子单元,用于根据每个文本区域的左下和右下两个角的坐标信息确定每个文本区域的底边长度;第一选取子单元,用于选取底边长度最长的预设数量的文本区域形成文本区域集;第二选取子单元,用于选取所述文本区域集中底边长度为中位数的文本区域作为所述目标文本区域。
据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的校正倾斜文本图像的方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的校正倾斜文本图像的方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,通过深度学习模型对待校正文本图像进行文本检测后,根据得到的文本区域的标记点坐标确定待校正文本图像的倾斜角度和方向,适用于多个场景的倾斜文本图像校正,处理过程简单快速有效。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明实施例的一种校正倾斜文本图像的方法的流程图;
图2示意性示出了根据本发明实施例的待校准文本图像的示意图;
图3示意性示出了根据本发明实施例的带校准文本图像进行文本区域检测的示意图;
图4示意性示出了根据本发明实施例的计算目标文字区域的倾斜角度和方向的示意图;
图5示意性示出了根据本发明实施例的校正后的文本图像的示意图;
图6示意性示出了根据本发明实施例的一种校正倾斜文本图像的装置的方框图;
图7示意性示出了适于用来实现本发明实施例的电子设备的计算机***的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
文本图像的倾斜校正是使用OCR进行文本图像预处理的关键环节。进行文本图像的倾斜校正首先要检测文本图像的倾斜角度。相关技术中检测文本图像的倾斜角度的方法对不满足要求的文本图像不能处理,且具有计算量大、检测速度慢的特点。
为解决上述问题,本发明实施例提供一种校正倾斜文本图像的方法,通过深度学习模型对待校正文本图像进行文本检测,并根据得到的标记点坐标形成的向量确定的待校正文本图像的倾斜角度,进而进行文本图像的倾斜校正,能够解决相关技术中多个文本图像倾斜角检测方法存在的缺陷问题,弥补其不足,在OCR预处理环节后续的版面分析、文字定位切分和文字理解提供有力的保障。
图1示意性示出了本公开的示例性实施方式的一种校正倾斜文本图像的方法。参考图1,该校正倾斜文本图像的方法可以包括以下步骤:
步骤S102,对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息。
步骤S104,根据至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标。
步骤S106,根据至少两个标记点坐标形成的向量与预设方向的向量确定待校正文本图像的倾斜角度和方向。
步骤S108,若待校正文本图像的倾斜角度不为零,则根据待校正文本图像的倾斜角度和方向对待校正文本图像进行校正。
在本发明实施例的技术方案中,通过深度学习模型对待校正文本图像进行文本检测,并获取文本区域的标记点坐标,根据文本区域的标记点坐标得到待校正文本图像的倾斜角度和方向,进而进行待校正文本图像的校正,该方案不需要对待校正文本图像进行图片二值化等预处理,运算量较小,其处理过程受文本图像的内容、质量以及光照的影响较小,能够快速有效地校正倾斜文本图像。
在本发明实施例中,步骤S102中可以使用训练好的深度学习模型对待校正文本图像进行文本检测。在一个实施例中,可以在获取待校正文本图像后,进行边缘检测等图像预处理,之后将经过预处理的待校正文本图像输入第一模型,获得各目标字段区域的位置信息。然后,根据该位置信息截取待校正文本图像中各目标字段区域的图像作为分区域图像,并将该分区域图像输入第二模型,获得分区域图像中的目标字段的文本信息。这里,第一模型和第二模型均可以为深度学习模型,第一模型可以为经典检测算法,第二模型可以为卷积神经网络或者深度残差网络或者长短时记忆神经元,并且不局限于此。
在本发明实施例中,进行文本检测后,可以得到多个文本区域的位置信息。其中,每个文本区域的位置信息可以包括文本区域的左上、右上、左下、右下四个坐标位置,并且并不局限于此。在建立直角坐标系后,每个文本区域的左上、右上、左下、右下四个角的坐标信息可以标记为:左上(xlt,ylt)、右上(xrt,yrt)、左下(xlb,ylb)、右下(xrb,yrb)。这里直角坐标系的原点可以为待校正文本图像的左下角。
在步骤S104中,可以以文本区域的左下和右下两个坐标位置作为文本区域的两个标记点坐标,且并不局限于此,例如,也可以以文本区域的左上和右上两个坐标位置作为文本区域的两个标记点坐标。通过左下和右下两两个标记点坐标形成的向量和水平向量可以计算文本区域的倾斜角度和方向,文本区域的倾斜角度和方向即为文本图像的倾斜角度和方向。
在步骤S106中,需要在多个文本区域中选取一个目标文本区域。根据至少一个文本区域的位置信息确定目标文本区域的两个标记点坐标时,需要根据目标文本区域的左下和右下两个角的坐标信息确定目标文本区域的两个标记点坐标。这样,根据目标文本区域的标记点坐标计算得到的目标文本区域的倾斜角度和方向即为文本图像的倾斜角度和方向。
选取目标文本区域的标记点坐标时,根据每个文本区域的四个角中的第一角和第二角的坐标信息确定每个文本区域的目标线段长度,选取目标线段长度最长的预设数量的文本区域形成文本区域集,选取文本区域集中目标线段长度为中位数的文本区域作为目标文本区域,根据目标文本区域的第一角和第二角的坐标信息确定目标文本区域的两个标记点坐标。
其中,目标线段的两个端点坐标为第一角和第二角的坐标,即目标线段为由第一角和第二角两个点确定的线段。
这里,可以设定第一角为左下角,第二角为右下角,目标线段为文本区域的底边,也可以设定第一角为左上角,第二角为右上角,目标线段为文本区域的上边。还可以设定第一角为左上角,第二角为右下角,目标线段为文本区域的对角线。
以下以可以设定第一角为左下角,第二角为右下角,目标线段为文本区域的底边为例进行详述。选取目标文本区域的标记点坐标时,可以根据每个文本区域的左下和右下两个角的坐标信息确定每个文本区域的底边长度,并选取底边长度最长的预设数量的文本区域形成文本区域集,进而选取文本区域集中底边长度为中位数的文本区域作为目标文本区域。
这里,在选取目标文本区域时,也可以确定每个文本区域的上边或者侧边长度并选取若干文本区域形成文本区域集,进而选取文本区域集中上边或侧边长度为中位数的文本区域作为目标文本区域。
在本发明实施例中,根据文本区域的左下和右下两个角的坐标信息,利用欧氏距离计算公式可以求出该文本区域的底边长度。
由于底边长度越大越能正确反映文本的清切角度,需要在底边长度最长的预设数量的文本区域中选取目标文本区域。选取文本区域集中底边长度为中位数的文本区域可以避免某些文字区域定位不准确,消除随机影响。
对定位到的n个文本区域,根据以下公式计算第i(i=1,2,…n),文本区域的底边长度base_sidei,计算底边长度base_sidei的欧式公式为:
从base_sidei中选取底边最长的30%的文本区域,并从中选取底边为中位数的文本区域,这里,预设数量可以为30%,且并不局限于此。在预设数量为30%时,如图3所示,待校正文本图像的文本区域的数量为21个,需要选取的组成文本区域集的文本区域的数量为6个,在这6个文本区域中,选取底边长度为中位数的文本区域即文本内容为“荤菜某某一”的文本区域为目标文本区域。该文本区域的右下坐标位置为A(xrb,yrb),左下坐标位置为O(xlb,ylb)
在本发明实施例中,预设方向可以为水平方向或者竖直方向且并不局限于此。在预设方向为水平方向时,在步骤S106中,确定待校正文本图像的倾斜角度和方向时,需要根据两个标记点坐标形成的向量与水平方向的向量的点乘确定待校正文本图像的倾斜角度,根据两个标记点坐标形成的向量与水平方向的向量的叉乘确定待校正文本图像的倾斜方向。
这里,如图4所示,倾斜角度和倾斜方向即为倾斜角θ的大小和方向。根据两个标记点坐标形成的向量与水平方向的向量即可以计算出两个向量之间的夹角即倾斜角θ的大小和方向。
其中,右下坐标和左下坐标构成的向量为:
令水平向量为B(1,0),则:
根据以下向量点乘公式计算两向量夹角θ的大小:
根据以下向量叉乘公式计算角度θ的方向:
结果为正,则向量的顺时针方向;若结果为负,则向量的逆时针方向;若结果为0,则代表两向量共线,夹角为零。
在步骤S108中,根据待校正文本图像的倾斜角度和方向对待校正文本图像进行校正时,若待校正文本图像的倾斜方向为正值,则根据待校正文本图像的倾斜角度逆时针旋转待校正文本图像;若待校正文本图像的倾斜方向为负值,则根据待校正文本图像的倾斜角度顺时针旋转待校正文本图像。
具体地,在步骤S108中,计算得到的角度θ及其方向,对该倾斜文本图像进行旋转矫正。若为正,则将待矫正倾斜文本图像以图像中心为中心店进行逆时针旋转角度θ,若为负,则将待矫正倾斜文本图像以图像中心为中心点进行顺时针旋转角度θ,若为零(此时θ也为零),则图片不需要进行倾斜矫正。
本发明实施例提供的校正倾斜文本图像的方法,通过深度学习模型对待校正文本图像进行文本检测后,根据得到的文本区域的标记点坐标确定待校正文本图像的倾斜角度和方向,适用于多个场景的倾斜文本图像校正,处理过程简单快速有效。
以下介绍本发明的装置实施例,可以用于执行本发明上述的校正倾斜文本图像的方法。如图6所示,根据本发明实施例提供的一种校正倾斜文本图像的装置600包括:
第一获取单元620,用于对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息。
第二获取单元640,用于根据至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标。
确定单元660,用于根据至少两个标记点坐标形成的向量与预设方向的向量确定待校正文本图像的倾斜角度和方向。
校正单元680,用于若待校正文本图像的倾斜角度不为零,则根据待校正文本图像的倾斜角度和方向对待校正文本图像进行校正。
其中,第二获取单元640包括:确定子单元,用于根据每个文本区域的左下和右下两个角的坐标信息确定每个文本区域的底边长度;第一选取子单元,用于选取底边长度最长的预设数量的文本区域形成文本区域集;第二选取子单元,用于选取文本区域集中底边长度为中位数的文本区域作为目标文本区域。
在本发明实施例中,第一获取单元620可以获取每个文本区域的左上、右上、左下、右下四个角的坐标信息。
第二获取单元640在确定目标文本区域的至少两个标记点坐标时,可以根据每个文本区域的左下和右下两个角的坐标信息确定每个文本区域的底边长度,再选取底边长度最长的预设数量的文本区域形成文本区域集,并选取文本区域集中底边长度为中位数的文本区域作为目标文本区域。
第二获取单元640还根据目标文本区域的左下和右下两个角的坐标信息确定目标文本区域的两个标记点坐标。
确定单元660在确定待校正文本图像的倾斜角度和方向时,需要根据两个标记点坐标形成的向量与水平方向的向量的点乘确定待校正文本图像的倾斜角度,再根据两个标记点坐标形成的向量与水平方向的向量的叉乘确定待校正文本图像的倾斜方向。
校正单元680根据待校正文本图像的倾斜角度和方向对待校正文本图像进行校正,若待校正文本图像的倾斜方向为正值,可以根据待校正文本图像的倾斜角度逆时针旋转待校正文本图像;若待校正文本图像的倾斜方向为负值,可以根据待校正文本图像的倾斜角度顺时针旋转待校正文本图像。
由于本发明的示例实施例的校正倾斜文本图像的装置的各个功能模块与上述校正倾斜文本图像的方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的校正倾斜文本图像的方法的实施例。
本发明实施例的校正倾斜文本图像的装置,通过深度学习模型对待校正文本图像进行文本检测后,根据得到的文本区域的标记点坐标确定待校正文本图像的倾斜角度和方向,适用于多个场景的倾斜文本图像校正,处理过程简单快速有效。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备的计算机***700的结构示意图。图7示出的电子设备的计算机***700仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的校正倾斜文本图像的方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S102,通过深度学***方向的向量确定所述待校正文本图像的倾斜角度和方向;S108,若所述待校正文本图像的倾斜角度不为零,则根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种校正倾斜文本图像的方法,其特征在于,包括:
对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息;
根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标;
根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向;
若所述待校正文本图像的倾斜角度不为零,则根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一个文本区域的位置信息,包括:
获取每个文本区域的左上、右上、左下、右下四个角的坐标信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标包括:
根据每个文本区域的所述四个角中的第一角和第二角的坐标信息确定每个文本区域的目标线段长度,所述目标线段的两个端点坐标为所述第一角和所述第二角的坐标;
选取目标线段长度最长的预设数量的文本区域形成文本区域集;
选取所述文本区域集中目标线段长度为中位数的文本区域作为所述目标文本区域;
根据所述目标文本区域的所述第一角和所述第二角的坐标信息确定所述目标文本区域的两个标记点坐标。
4.根据权利要求3所述的方法,其特征在于,所述第一角为左下角,所述第二角为右下角,所述目标线段为所述文本区域的底边;或者,所述第一角为左上角,所述第二角为右上角,所述目标线段为所述文本区域的上边。
5.根据权利要求4所述的方法,其特征在于,所述第一角为左上角,所述第二角为右下角,所述目标线段为所述文本区域的对角线。
6.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向,包括:
根据所述两个标记点坐标形成的向量与水平方向的向量的点乘确定所述待校正文本图像的倾斜角度;
根据所述两个标记点坐标形成的向量与水平方向的向量的叉乘确定所述待校正文本图像的倾斜方向。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正,包括:
若所述待校正文本图像的倾斜方向为正值,则根据所述待校正文本图像的倾斜角度逆时针旋转所述待校正文本图像;
若所述待校正文本图像的倾斜方向为负值,则根据所述待校正文本图像的倾斜角度顺时针旋转所述待校正文本图像。
8.一种校正倾斜文本图像的装置,其特征在于,包括:
第一获取单元,用于对待校正文本图像进行文本检测,获取至少一个文本区域的位置信息;
第二获取单元,用于根据所述至少一个文本区域的位置信息确定目标文本区域的至少两个标记点坐标;
确定单元,用于根据所述至少两个标记点坐标形成的向量与预设方向的向量确定所述待校正文本图像的倾斜角度和方向;
校正单元,用于若所述待校正文本图像的倾斜角度不为零,则根据所述待校正文本图像的倾斜角度和方向对所述待校正文本图像进行校正。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的校正倾斜文本图像的方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的校正倾斜文本图像的方法。
CN201910713052.6A 2019-08-02 2019-08-02 校正倾斜文本图像的方法、装置、介质及电子设备 Pending CN110427939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910713052.6A CN110427939A (zh) 2019-08-02 2019-08-02 校正倾斜文本图像的方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910713052.6A CN110427939A (zh) 2019-08-02 2019-08-02 校正倾斜文本图像的方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN110427939A true CN110427939A (zh) 2019-11-08

Family

ID=68413974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910713052.6A Pending CN110427939A (zh) 2019-08-02 2019-08-02 校正倾斜文本图像的方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110427939A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751720A (zh) * 2019-12-09 2020-02-04 深圳牙领科技有限公司 托槽模型的处理方法、矫正***及计算机存储介质
CN110942435A (zh) * 2019-11-27 2020-03-31 讯飞智元信息科技有限公司 一种文档图像处理的方法和装置
CN111062874A (zh) * 2019-12-12 2020-04-24 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN111104941A (zh) * 2019-11-14 2020-05-05 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN111768345A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN112001238A (zh) * 2020-07-14 2020-11-27 浙江大华技术股份有限公司 端子排的接线状态识别方法、识别装置以及存储介质
CN112784836A (zh) * 2021-01-22 2021-05-11 浙江康旭科技有限公司 一种文本图形偏移角度预测及其校正方法
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN118072299A (zh) * 2024-04-17 2024-05-24 福建晨曦信息科技集团股份有限公司 证件图像文字内容识别方法、计算机设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425142B (zh) * 2008-09-17 2011-05-11 北大方正集团有限公司 页面倾斜角度的确定方法和装置
CN102646194A (zh) * 2012-02-22 2012-08-22 大连理工大学 一种利用字符边缘特征进行打印机类型取证的方法
CN105761219A (zh) * 2016-02-03 2016-07-13 北京云江科技有限公司 文本图像倾斜矫正方法和***
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN109034165A (zh) * 2018-07-06 2018-12-18 北京中安未来科技有限公司 一种证件图像的裁切方法、装置、***及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425142B (zh) * 2008-09-17 2011-05-11 北大方正集团有限公司 页面倾斜角度的确定方法和装置
CN102646194A (zh) * 2012-02-22 2012-08-22 大连理工大学 一种利用字符边缘特征进行打印机类型取证的方法
CN105761219A (zh) * 2016-02-03 2016-07-13 北京云江科技有限公司 文本图像倾斜矫正方法和***
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN109034165A (zh) * 2018-07-06 2018-12-18 北京中安未来科技有限公司 一种证件图像的裁切方法、装置、***及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104941A (zh) * 2019-11-14 2020-05-05 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN110942435B (zh) * 2019-11-27 2023-05-30 讯飞智元信息科技有限公司 一种文档图像处理的方法和装置
CN110942435A (zh) * 2019-11-27 2020-03-31 讯飞智元信息科技有限公司 一种文档图像处理的方法和装置
CN110751720A (zh) * 2019-12-09 2020-02-04 深圳牙领科技有限公司 托槽模型的处理方法、矫正***及计算机存储介质
CN111062874A (zh) * 2019-12-12 2020-04-24 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN111062874B (zh) * 2019-12-12 2023-03-31 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN111768345A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN111768345B (zh) * 2020-05-12 2023-07-14 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN112001238A (zh) * 2020-07-14 2020-11-27 浙江大华技术股份有限公司 端子排的接线状态识别方法、识别装置以及存储介质
CN112784836A (zh) * 2021-01-22 2021-05-11 浙江康旭科技有限公司 一种文本图形偏移角度预测及其校正方法
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN118072299A (zh) * 2024-04-17 2024-05-24 福建晨曦信息科技集团股份有限公司 证件图像文字内容识别方法、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110427939A (zh) 校正倾斜文本图像的方法、装置、介质及电子设备
CN108345882B (zh) 用于图像识别的方法、装置、设备和计算机可读存储介质
CN106920279B (zh) 三维地图构建方法和装置
CN108446698A (zh) 在图像中检测文本的方法、装置、介质及电子设备
US11538096B2 (en) Method, medium, and system for live preview via machine learning models
CN108830329A (zh) 图片处理方法和装置
CN108898185A (zh) 用于生成图像识别模型的方法和装置
CN109598272A (zh) 字符行图像的识别方法、装置、设备及介质
CN110096929A (zh) 基于神经网络的目标检测
CN107688824A (zh) 图片匹配方法及终端设备
CN109344762A (zh) 图像处理方法和装置
US10713515B2 (en) Using multiple cameras to perform optical character recognition
CN110853488B (zh) 一种poi标签显示方法、装置和设备
CN109063653A (zh) 图像处理方法和装置
CN108170751B (zh) 用于处理图像的方法和装置
CN114648756B (zh) 一种基于指向向量的书本文字识别指读方法和***
CN110414502A (zh) 图像处理方法及装置、电子设备和计算机可读介质
CN109086834A (zh) 字符识别方法、装置、电子设备及存储介质
CN108182457A (zh) 用于生成信息的方法和装置
CN108882025A (zh) 视频帧处理方法和装置
CN109584165A (zh) 一种数字图像的矫正方法、装置、介质及电子设备
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN109614972A (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN109934058B (zh) 人脸图像处理方法、装置、电子设备、存储介质及程序
CN110401793A (zh) 用于控制智能终端的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication