CN105590112B - 一种图像识别中倾斜文字判断方法 - Google Patents

一种图像识别中倾斜文字判断方法 Download PDF

Info

Publication number
CN105590112B
CN105590112B CN201510608915.5A CN201510608915A CN105590112B CN 105590112 B CN105590112 B CN 105590112B CN 201510608915 A CN201510608915 A CN 201510608915A CN 105590112 B CN105590112 B CN 105590112B
Authority
CN
China
Prior art keywords
text
image
pixel
point
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510608915.5A
Other languages
English (en)
Other versions
CN105590112A (zh
Inventor
陈炳章
何宏靖
刘世林
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510608915.5A priority Critical patent/CN105590112B/zh
Publication of CN105590112A publication Critical patent/CN105590112A/zh
Application granted granted Critical
Publication of CN105590112B publication Critical patent/CN105590112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种图像识别中倾斜文字判断方法;在图像文字识别中,通过选择一个行向量,把该行向量与文字笔画相交的左右两侧交点的坐标点提取出来;以左右两侧的交点为起点分别向左上和右上两个方向追踪对应笔画的边缘点,并将追踪结果分别存于Vector1,Vector2中;通过对比两个类元素数量的大小确定文字的倾斜方向,并将较大类中最小的倾斜角度作为文字的倾斜角度。通过本发明方法实现倾斜角度判断的计算量小,判断结果准确度高,实时性好。此外本发明在判断出文字倾斜方向和角度的基础上,通过仿射变换将图像中倾斜的文字矫正,解决了文字切分难题,在图像文字识别领域有广阔的应用前景。

Description

一种图像识别中倾斜文字判断方法
技术领域
本发明涉及图像识别领域,特别涉及一种图像识别中倾斜文字判断方法。
背景技术
随着社会的发展和科技的进度,种类繁多的视听设备丰富了人们的日常生活;具有拍照、摄像功能的电子设备随处可见,并随着智能手机的普及逐渐渗透到每个人的日常生活中,大量的视听设备产生了数量巨大的图像、影像,并伴随着网络的发展和社交平台的分享而快速传播;大量的图像传播的同时,人们对于图像识别和图像搜索技术的需求也在快速增长,可以说图像识别和图像搜索将成为搜索技术的发展方向。
在众多的图像识别技术中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重要的可利用信息,而且图像文字识别技术所应用的领域也很重要,比如说:银行签名的识别,交通管理网络中对于车牌号的追踪和识别,网络安全中对于验证码的识别;这些应用都关系到重要的经济活动或者社会管理活动。
目前图像文字识别中的难点在于:常见的待识别图像文字中往往包含各种噪声的干扰,比如说背景噪声、线条噪声、污染物噪声等;而且图像中的文字往往还具有一些扭曲特征,比如说旋转、倾斜等,目前在去除噪声干扰方面已经取得了良好的效果;但是对于倾斜等扭曲特征的判断和矫正仍然困难重重;而且现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来。这样的切分方式在文字有倾斜的情况下,会变得比较复杂;因为文字倾斜的时候,相邻文字间经过垂直投影后的像素点可能会有重叠,这样就无法找到两个文字之间正常的界限;进而不能有效的对文字进行切分。
将倾斜的文字矫正,对于图像识别的意义重大;想要矫正倾斜文字,首先需要识别出文字倾斜方向和角度。目前有采用Hough变换的方法来得到倾斜的角度,进而对文字进行矫正,但是该方法的计算量特别大,很难满足识别的实时性的需求。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种图像识别中倾斜文字判断方法。本方法在图像中选取一行向量,通过将该行向量与文字每个笔画上的左右两侧的交点作为起始点,分别向左右两个方向追踪笔画的边缘点。如果笔画向左(或向右)倾斜,那么向右(或向左)寻找的像素数量就非常有限,若追踪到的像素点数量达到设置的阈值,则认为此次追踪有效;计算每次追踪的起点到终点的倾斜角度,通过分别统计向左和向右有效追踪类元素的个数,确定文字的倾斜方向。在此基础上,将对应类中最小的角度确定为文字的倾斜角度。通过本发明方法来判断文字倾斜角度的计算量较小,科学准确,实现过程简单,便于使用,具有较好的实时性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种图像识别中倾斜文字判断方法,包含以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字每个笔画相交的最左侧像素点坐标值和最右侧像素点坐标值。
(1-2)以所述行向量与每个笔画相交的最左侧像素点为起点,向左上方追踪对应笔画的边缘点,并将判断结果存于Vector1中;具体的判断过程如下:
以所述行向量与每个相交笔画的最左侧像素点为起点;优先判断与其相邻的左上方像素点是否为0;如果为0,则以上一像素点为基础继续判断与其相邻的左上方像素点是否为0;
否则,以上一像素点为基础判断其正上方的像素点是否为0;依次循环,直到某点相邻的左上方和正上方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最左侧像素点(第一左侧交点A)坐标(XA,YA)为例说明判断过程:
(1-2-1)以第一左侧交点A点为起点,首先判断A点的相邻左上方像素点A1的灰度值是否为0(灰度值为0表示该像素点颜色为黑色);如果为0,则以A1点为新的起点,继续判断该点A1相邻的左上方像素点A11的灰度值是否为0;
否则,以第一左侧交点A为基础判断该点(A)的正上方像素点A2的灰度值是否为0,如果为0,则以A2为基础判断其左上方像素点(A21)的坐标值是否为0;依次循环;
(1-2-2)直到判断出某点的左上方像素点和正上方像素点的灰度值均不为0,结束判断,并以该点为本次判断的终点(第一左侧终点AEND),假设坐标值为
(1-2-3)判断A,AEND两点之间的距离h是否达到Q预设的阈值Q;如果达到阈值,则认为该终点为有效终点AEND有效;
(1-2-4)计算A,AEND两点之间的正切值:并将该值存于类Vector1中。
(1-3)以所述行向量与每个笔画相交的最右侧坐标为起点,向右上方追踪对应笔画的边缘点,并将判断结果存于Vector2中;具体的判断过程如下:
以所述行向量与每个相交笔画的最右侧像素点为起点;优先判断与其相邻的右上方像素点是否为0;如果为0,则以上一像素点为基础判断与其相邻的右上方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正上方像素点是否为0;依次循环,直到某点相邻的右上方和正上方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最右侧交点(第一右侧交点B)坐标(XB,YB)为起点为例说明判断过程:
(1-3-1)首先判断与B点相邻的右上方像素点B1的灰度值是否为0;如果为0,判断该点(B1)相邻的右上方像素点B11的灰度值是否为0;
否则,以B点为基础,判断与其相邻的正上方像素点B2的灰度值是否为0;如果为0,则以B2为基础判断与其相邻的右上方像素点B21的坐标值是否为0;依次循环;
(1-3-2)直到判断出某点的右上方像素点和正上方像素点的灰度值均不为0,结束判断,并以该点为终点(第一右侧终点BEND),假设坐标值为
(1-3-3)判断B,BEND两点之间的距离h是否达到预设的阈值Q;如果达到阈值,则认为该终点为有效终点BEND有效;
(1-3-4)计算B,BEND两点之间的正切值:并将该值存于类Vector2中。
(1-4)比较Vector1与Vector2的元素个数;如果Vector1>Vector2,则判定文字向左倾斜;如果Vector1<Vector2,则判定文字向右倾斜。
(1-5)将选择所述Vector1与Vector2中元素较多的类,作为倾斜角度判断的依据;选择其中正切值最小的对应角度值θ作为文字的倾斜角度。
在判断出文字的倾斜方向和倾斜角度的基础上,本发明提供一种图像识别中倾斜文字的矫正方法,在倾斜角度θ的基础上,通过仿射变换来实现倾斜文字的矫正。具体的过程包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据倾斜角度,计算出矫正后的目标图像上的对应坐标值。
作为一种优选,若文字向左倾斜θ,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1);对应(第一行,第一列)、(第一行,最后一列)、(最后一行,最后一列)坐标目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1),其中image.rows-1是图像最后一行的行坐标值,image.cols-1是图像最后一列的列坐标值。
或者,若文字向右倾斜,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(0,image.rows-1);目标图像上对应的三组坐标为:(0,0),((image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1)。
(2-2)根据目标图像和源图像的坐标对应关系,计算出对应的仿射变换矩阵M。
(2-3)利用计算出来的仿射变换矩阵M将源图像的对应像素点映射到目标图像上,实现对倾斜文字图像的矫正。
作为一种优选,所述步骤(2-2)中仿射变换矩阵M的计算采用getAffineTransform函数。
作为一种优选,所述步骤(2-3)中的矫正映射采用warpAffine函数来实现。
与现有技术相比,本发明的有益效果:本发明提供一种图像识别中倾斜文字判断方法,通过在图像文字选择一个行向量,找出所述行向量与文字每个笔画相交的最左侧像素点和最右侧像素点,以上述像素点为基础,分别向左上方和右上方追踪对应笔画的边缘点,判断方式简单可行,可靠性高;当追踪距离大于设定的阈值时,判断该次追踪有效,通过设置阈值来消除笔画局部复杂性对倾斜角度判断结果的影响,提高判断的准确性。通过比较向左右两侧有效追踪的数量,判断出文字的倾斜方向;此过程根据统计原理,科学可信,计算量小,实现过程简单。在判断出倾斜方向的基础上,选择对应类中起点到终点的最小倾斜角度作为图像文字的倾斜角度,这样的倾斜角度判断方式,排除了笔画本身复杂性对倾斜角度判断结果的干扰。对倾斜角度的判断准确,计算量小,实时性好。
此外本发明在判断出文字倾斜方向和倾斜角度的基础上通过仿射变换算法将倾斜文字矫正,矫正后的图像文字在进行识别时便于切分,可提高图像文字的识别准确率,在图像文字识别领域有广阔的应用前景。
附图说明:
图1为本图像识别中倾斜文字判断方法的流程示意图。
图2为本图像识别中倾斜文字判断方法中所述步骤(1-2)流程示意图。
图3为所述步骤(1-2)中向左上方追踪的像素点位置示意图。
图4为本图像识别中倾斜文字判断方法中所述步骤(1-3)流程示意图。
图5为所述步骤(1-3)中向右上方追踪的像素点位置示意图。
图6为实施例1起始像素点选择简化示意图。
图7为实施例1以左侧交点为起点向左上方追踪笔画边缘的像素点判断结果示意图。
图8为实施例1为实施例1以右侧交点为起点向右上方追踪笔画边缘的像素点判断结果示意图。
图9为图8的简化示意图。
图10为图9的倾斜结果示意图。
需要说明的是:本发明所有附图均为示意性的,不代表实际的尺寸和比例。为了更加清楚的说明像素点追踪的过程,附图中将图像文字轮廓化,不代表真实二值化颜色。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种图像识别中倾斜文字判断方法。在图像中选取一行向量,通过将该行向量与文字每个笔画上的左右两侧的交点作为起始点,分别向左右两个方向追踪笔画的边缘点。如果笔画向左(或向右)倾斜,那么向右(或向左)寻找的像素数量就非常有限,若追踪到的像素点数量达到设置的阈值,则认为此次追踪有效;计算每次追踪的起点到终点的倾斜角度,通过分别统计向左和向右有效追踪类元素的个数,确定文字的倾斜方向。在此基础上,将对应类中最小的角度确定为文字的倾斜角度。通过本发明方法来判断文字倾斜角度的计算量较小,科学准确,实现过程简单,便于使用,具有较好的实时性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种图像识别中倾斜文字判断方法,包含如图1所示的以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字每个笔画相交的最左侧像素点坐标值和最右侧像素点坐标值。本方法以笔画边缘的倾斜角度的统计规律来确定文字的倾斜方向和倾斜角度,因此将判断的起点设置成行向量与笔画交点的最左侧或者最右侧像素点的方式方便在接下来的步骤中追踪笔画边缘像素点。此外,所述行向量的选择高度根据图像文字的具体情况而定,一般来说选择在图像文字的中间位置比较好,如果行向量的位置设置的偏低可能造成在行向量以上的笔画偏长,偏多,这样需要追踪的路径偏长,计算量大,复杂度增加,影响判断的效率。另外如果行向量的设置位置太高可能引起在行向量以上的笔画偏短,偏少,这样在进行笔画追踪时,就不能追踪到可用的有效笔画,造成判断失败。
(1-2)以所述行向量与每个笔画相交的最左侧像素点为起点,向左上方追踪对应笔画的边缘点,进而判断文字向左倾斜的可能性;具体的判断过程如图2所示:
以行向量与每个相交笔画的最左侧像素点为起点;优先判断与其相邻的左上方像素点是否为0;
如果为0,则以上一像素点为基础继续判断与其相邻的左上方像素点是否为0;
否则,以上一像素点为基础判断其正上方的像素点是否为0;
依次循环,直到某点相邻的左上方和正上方像素点均不为0,结束判断;并将该点作为此次判断的终点。
以第一左侧交点A,坐标值为(XA,YA)为例说明判断过程(像素点的位置关系如图3所示):
(1-2-1)以A点为起点,优先判断与A点的相邻左上方像素点A1(坐标值为(XA-1,YA-1))的灰度值是否为0(在二值化处理的图片中灰度值分布在0-255之间,其中灰度值为0表示该像素点颜色为黑色,而灰度为255表示该像素点颜色为白色);
如果为0,则以A1点为新的起点,判断与该点(A1)相邻的左上方像素点A11(坐标值为(XA-2,YA-2))的灰度值是否为0;
否则,则以上一像素点A为基础,判断与其相邻的正上方像素点A2(坐标值为(XA,YA-1))的灰度值是否为0,如果为0,则以该点(A2)为基础判断与其相邻的左上方像素点A21(坐标值为(XA-1,YA-2))的灰度值是否为0;依次循环;
(1-2-2)直到判断出某点相邻的左上方像素点和正上方像素点的灰度值均不为0,结束判断,并以该点为本次判断的终点(第一左侧终点AEND假设坐标值为);
(1-2-3)判断A,AEND两点之间的距离是否达到预设的阈值Q;如果h≥Q,则认为该终点为有效终点;
(1-2-4)计算A到AEND之间的正切值并将该值存于类Vector1中。
(1-3)以每个笔画的所述最右侧像素点为起点,向右上方追踪对应笔画的边缘点,进而判断该笔画向右侧倾斜的可能性;具体的判断过程如图4所示:
以行向量与每个相交笔画的最右侧像素点为起点;优先判断与其相邻的右上方像素点是否为0;
如果为0,则以上一像素点为基础判断与其相邻的右上方像素点是否为0;
否则,以上一像素点为基础判断其正上方的像素点是否为0;依次循环,直到某点相邻的右上方和正上方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最右侧交点(第一右侧交点B,坐标(XB,YB))为起点说明判断过程(像素点的位置关系如图5所示):
(1-3-1)首先判断与B点相邻的右上方像素点B1(坐标值为(XB+1,YB-1))的灰度值是否为0;
如果为0,判断B1相邻的右上方像素点B11(坐标值为(XB+2,YB-2))的灰度值是否为0;
否则,判断与B点相邻的正上方像素点B2(坐标值为(XB,YB-1))的灰度值是否为0,如果为0,则以B2为基础判断与其右上方像素点B21(坐标值为(XB+1,YB-2))的坐标值是否为0;依次循环;
(1-3-2)直到判断出某点相邻的右上方像素点和正上方像素点的灰度值均不为0,结束判断,并以该点为终点(第一右侧终点BEND,假设坐标值为);
(1-3-3)判断B、BEND两点之间的距离如果h≥Q,则认为该终点为有效终点。
设置判断阈值的原因在于,行向量选择的位置不同与图像中文字笔画相交的高度也有区别,在这样的情况下所切分出来的笔画可能仅仅为笔画中的一小部分,而由于文字笔画构造的复杂性切分出局部笔画的构造可能更加复杂,所对应的倾斜方向并不具有文字倾斜方向的代表性,因此必须去除太短追踪路径才能消除局部笔画对倾斜角度判断结果的影响。(1-3-4)计算BBEND两点之间的正切值并将该值存于类Vector2中。
(1-4)比较Vector1与Vector2的元素个数;如果Vector1>Vector2,则判定文字向左倾斜;如果Vector1<Vector2,则判定文字向右倾斜。
(1-5)将选择所述Vector1与Vector2中元素较多的类,作为倾斜角度判断的依据;选择其中正切值最小的对应角度值θ作为文字的倾斜角度。实际的应用中由于文字笔画构造的复杂性,在文字本身没有倾斜的情况下,文字笔画也有倾斜的可能性:比如说“文”中的“ノ”和“ヘ”分别向右和向左倾斜,因此对单个笔画的倾斜角度进行考察,并不足以说明文字准确的倾斜方向;但是大多数文字中都包含竖直笔画;在这种情况下,本身向某个方向倾斜的笔画在文字整体倾斜时的倾斜角度一般都大于竖直笔画的倾斜角度。因此在倾斜方向判断的基础上,将对应类中的最小倾斜角度确定为文字的倾斜角度的方式能够排除文字笔画本身复杂性的干扰,得到最合理,准确的结果。
进一步的,所述步骤(1-2)和步骤(1-3)的顺序可以调换,本发明方法通过分别向左右两个方向最终笔画的边缘点,并且通过比较Vector1与Vector2中有效元素的多少来判断文字的倾斜方向,因此笔画判断方向的先后顺序不影响最终的判断结果。
进一步的,在判断出文字的倾斜方向和倾斜角度的基础上,本发明提供一种图像识别中倾斜文字的矫正方法,在倾斜角度θ的基础上,通过仿射变换来实现倾斜文字的矫正。一般的图片旋转、倾斜、扭曲等特征都可以通过仿射变换的方法来实现,尤其是在使用机器处理图像中,使用仿射变换的方法对图像的处理效率极高,具体的过程包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据倾斜角度θ,计算出矫正后的位置坐标值。
作为一种优选,若文字向左倾斜θ,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1);对应(第一行,第一列)、(第一行,最后一列)、(最后一行,最后一列)坐标;目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1)。
或者,若文字向右倾斜,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(0,image.rows-1),目标图像上对应的三组坐标为:(0,0),((image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1),其中image.rows-1是图像最后一行的行坐标值,image.cols-1是图像最后一列的列坐标值。本处选择位于源图像上的边角上的坐标值作为计算的基础,这样的坐标选择的计算量最小,简单可行。在实施倾斜矫正的时候把图像的偏移距离d=(image.rows-1)*tanθ,分为两等分后平均分配到第一行和最后一行点上面,这样的处理方式,可避免在进行倾斜矫正时,因单个坐标移动时带来图像位置的整体移动。
(2-2)根据目标图像和源图像的坐标对应关系,计算出对应的仿射变换矩阵M。
(2-3)利用计算出来的仿射变换矩阵M将源图像中的对应像素点映射到目标图像中。实现倾斜文字的矫正。
作为一种优选,所述步骤(2-2)中仿射变换矩阵M的计算采用getAffineTransform函数。
作为一种优选,所述步骤(2-3)中的矫正映射采用warpAffine函数来实现。
实施例1
本实施例以汉字“大中”为例说明图像文字倾斜的判定过程:如图6所示,选择一个行向量与图像文字文字每个笔画相交的最左侧和最右侧交点分别为:第一左侧交点A、第一右侧交点B、第二左侧交点C、第二右侧交点D、第三左侧交点E、第三右侧交点F、第四左侧交点G以及第四右侧交点H。
如图7所示,分别以第一左侧交点A、第二左侧交点C、第三左侧交点E以及第四左侧交点G为起点向左上方追踪对应笔画的边缘,第一左侧终点AEND小于阈值Q,去除对应倾斜角对判断结果的影响Vector1中无有效元素;
如图8所示,分别以第一右侧交点B、第二右侧交点D、第三右侧交点F、第四右侧交点H为起点向右上方判断对应笔画的边缘点,追踪结果简化示意图如图9所示。可以看出向右上方追踪时,对应终点分别是第一右侧终点BEND、第二右侧终点DEND、第三右侧终点FEND以及第四右侧终点HEND;对应倾斜角度如图10所示。其中所述第一右侧终点BEND和第三右侧终点FEND到对应起点的距离h>Q(假设设定的阈值Q=7)第一右侧终点BEND,第三右侧终点FEND为有效终点,将B到BEND所对应的倾斜角度θB,F到BEND所对应的倾斜角度θF存于Vector2中。
比较Vector1和Vector2的元素个数,Vector1<Vector2;判断文字向右倾斜,倾斜角度为Vector2中最小的角度θF。
通过上述过程可以看出本方法以较小的计算量,准确的判断出了图像文字的倾斜方向和倾斜文字,实现过程简单,实时性好。本实施例其他判断过程及原理与具体实施方式相同,在此不再赘述。

Claims (9)

1.一种图像识别中倾斜文字判断方法,其特征在于,包含以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字笔画相交的最左侧像素点和最右侧像素点坐标值;
(1-2)以所述行向量与每个笔画相交的最左侧像素点为起点,向左上方追踪对应笔画的边缘点,并将判断结果存于Vector1中;
追踪笔画边缘点包含以下步骤:
以行向量与每个相交笔画的最左侧像素点为起点,优先判断与其相邻的左上方像素点是否为0;
如果为0,则以上一像素点为基础,判断与其相邻的左上方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正上方像素点是否为0;
依次循环,直到某点相邻的左上方像素点和正上方像素点均不为0,结束判断,并将该点作为此次判断的终点;
(1-3)以所述行向量与每个笔画相交的最右侧像素点为起点,向右上方追踪对应笔画的边缘点,并将判断结果存于Vector2中;
追踪笔画边缘点包含以下步骤:
以行向量与每个相交笔画的最右侧像素点为起点,优先判断与其相邻的右上方像素点是否为0;
如果为0,则以上一像素点为基础判断与其相邻的右上方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正上方的像素点是否为0;
依次循环,直到某点相邻的右上方像素点和正上方像素点均不为0,结束判断,并将该点作为此次判断的终点;
所述步骤(1-2)和(1-3)中计算每次追踪起点到终点的距离h,如果h≥Q,则判定该次笔画追踪有效,其中Q为判断阈值;
(1-4)比较Vector1与Vector2的元素个数的多少;如果Vector1>Vector2,则判定文字向左倾斜;如果Vector1<Vector2,则判定文字向右倾斜。
2.如权利要求1所述的图像识别中倾斜文字判断方法,其特征在于,还包含步骤:
(1-5)将在所述Vector1与所述Vector2相比元素较多的类中,选择其中最小的倾斜角度作为图像文字的倾斜角度。
3.如权利要求2所述的图像识别中倾斜文字判断方法,其特征在于,所述步骤(1-2)与所述步骤(1-3)的顺序可以调换。
4.一种图像识别中倾斜文字的矫正方法,其特征在于,在权利要求1至3之一的基础上,用仿射变换的方法将倾斜文字矫正。
5.如权利要求4所述的一种图像识别中倾斜文字的矫正方法,其特征在于,包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据方向和倾斜角度计算出矫正后对应的坐标值;
(2-2)根据目标图像和源图像对应的坐标关系,计算出对应的仿射变换矩阵M;
(2-3)利用所述仿射变换矩阵M将源图像映射到目标图像上,实现倾斜文字矫正。
6.如权利要求5所述的一种图像识别中倾斜文字的矫正方法,其特征在于,所述步骤(2-2)采用getAffineTransform函数来计算仿射变换矩阵M。
7.如权利要求5所述的一种图像识别中倾斜文字的矫正方法,其特征在于,所述步骤(2-3)中采用warpAffine函数来实现倾斜文字的矫正计算。
8.如权利要求5至7之一所述的一种图像识别中倾斜文字的矫正方法,其特征在于,若文字向左倾斜θ,所述步骤(2-1)中源图像中所选取的3组坐标值为:(0,0),(image.cols-1,0),(0,image.rows-1),目标图像上的对应坐标值为:(0,0),(image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1)。
9.如权利要求5至7之一所述的一种图像识别中倾斜文字的矫正方法,其特征在于,若文字向右倾斜θ,所述步骤(2-1)中源图像中所选取的3组坐标值为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1);目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1)。
CN201510608915.5A 2015-09-22 2015-09-22 一种图像识别中倾斜文字判断方法 Active CN105590112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510608915.5A CN105590112B (zh) 2015-09-22 2015-09-22 一种图像识别中倾斜文字判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510608915.5A CN105590112B (zh) 2015-09-22 2015-09-22 一种图像识别中倾斜文字判断方法

Publications (2)

Publication Number Publication Date
CN105590112A CN105590112A (zh) 2016-05-18
CN105590112B true CN105590112B (zh) 2018-12-04

Family

ID=55929682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510608915.5A Active CN105590112B (zh) 2015-09-22 2015-09-22 一种图像识别中倾斜文字判断方法

Country Status (1)

Country Link
CN (1) CN105590112B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680108B (zh) * 2017-07-28 2019-06-21 平安科技(深圳)有限公司 倾斜图像的倾斜值获取方法、装置、终端及存储介质
CN108269267B (zh) * 2017-07-28 2019-10-08 平安科技(深圳)有限公司 倾斜图像的倾斜值获取方法及装置、终端、存储介质
CN109684815A (zh) * 2018-12-13 2019-04-26 珍岛信息技术(上海)股份有限公司 一种可自我学习的验证码识别方法
CN111753809A (zh) * 2020-07-10 2020-10-09 上海眼控科技股份有限公司 一种用于手写签名矫正的方法与设备
CN114973292B (zh) * 2022-07-29 2022-11-15 山东矩阵软件工程股份有限公司 一种基于不规则表面的文字识别方法、***及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930594A (zh) * 2010-04-14 2010-12-29 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法
CN102831418A (zh) * 2011-06-17 2012-12-19 汉王科技股份有限公司 手写体汉字倾斜矫正方法及装置
CN104112128A (zh) * 2014-06-19 2014-10-22 中国工商银行股份有限公司 应用于票据影像字符识别的数字图像处理***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3051401B1 (en) * 2012-07-05 2018-12-19 Fujitsu Limited Image display apparatus, image enlargement method, and image enlargement program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930594A (zh) * 2010-04-14 2010-12-29 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法
CN102831418A (zh) * 2011-06-17 2012-12-19 汉王科技股份有限公司 手写体汉字倾斜矫正方法及装置
CN104112128A (zh) * 2014-06-19 2014-10-22 中国工商银行股份有限公司 应用于票据影像字符识别的数字图像处理***及方法

Also Published As

Publication number Publication date
CN105590112A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105590112B (zh) 一种图像识别中倾斜文字判断方法
CN106485183B (zh) 一种二维码定位方法及***
CN105184294B (zh) 一种基于像素追踪的倾斜文字判断识别方法
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
Samra et al. Localization of license plate number using dynamic image processing techniques and genetic algorithms
JP5522408B2 (ja) パターン認識装置
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN103577815A (zh) 一种人脸对齐方法和***
WO2012121951A1 (en) Text region detection system and method
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN101930532A (zh) 基于手机摄像头快速响应矩阵码识读方法
CN113490947A (zh) 检测模型训练方法、装置、检测模型使用方法及存储介质
CN111898538A (zh) 证件鉴伪方法、装置、电子设备及存储介质
CN112101108B (zh) 一种基于图形极点位置特征的左右转交通标志识别方法
CN114240981A (zh) 标记识别方法及装置
CN107766854A (zh) 一种基于模板匹配实现快速页码识别的方法
CN114782770A (zh) 一种基于深度学习的车牌检测与车牌识别方法及***
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN112686265A (zh) 一种基于层级轮廓提取的象形文字分割方法
CN110427909B (zh) 一种移动端驾驶证检测方法、***及电子设备和存储介质
Xu et al. License plate recognition system based on deep learning
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 610041 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province, 199, Building 1, Unit 21, Building 1-6

Patentee after: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Address before: 610041 Building 1005, Sidon International Plaza B, 666 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province

Patentee before: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Oblique character determination method in image identification

Effective date of registration: 20200608

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200701

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Oblique character determination method in image identification

Effective date of registration: 20200722

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210812

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An inclined character judgment method in image recognition

Effective date of registration: 20210818

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2021980007811

PE01 Entry into force of the registration of the contract for pledge of patent right
PP01 Preservation of patent right

Effective date of registration: 20240428

Granted publication date: 20181204

PP01 Preservation of patent right