CN111046872B - 一种光学字符识别方法 - Google Patents

一种光学字符识别方法 Download PDF

Info

Publication number
CN111046872B
CN111046872B CN201911272032.6A CN201911272032A CN111046872B CN 111046872 B CN111046872 B CN 111046872B CN 201911272032 A CN201911272032 A CN 201911272032A CN 111046872 B CN111046872 B CN 111046872B
Authority
CN
China
Prior art keywords
character
image
extracting
projection
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911272032.6A
Other languages
English (en)
Other versions
CN111046872A (zh
Inventor
王冲
张永鹏
武亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jieenshi Intelligent Technology Co ltd
Original Assignee
Shenzhen Jieenshi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jieenshi Intelligent Technology Co ltd filed Critical Shenzhen Jieenshi Intelligent Technology Co ltd
Priority to CN201911272032.6A priority Critical patent/CN111046872B/zh
Publication of CN111046872A publication Critical patent/CN111046872A/zh
Application granted granted Critical
Publication of CN111046872B publication Critical patent/CN111046872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种光学字符识别方法,具体包括:获取字符候选区域、对图像进行倾斜校正、提取一行字符图像、提取单字符图像以及识别提取的字符,本发明对字符背景明暗变化比较鲁棒,且对点阵字符和粘连字符也能进行正确分割,提高了字符分割的准确性。

Description

一种光学字符识别方法
技术领域
本发明涉及光学字符识别技术领域,具体涉及一种光学字符识别方法。
背景技术
人类的生产过程、日常生活以及商业活动,会产生大量的数据,例如:3C行业产品、通讯行业产品、半导体产品、汽车电子行业、锂电行业、消费类电子行业、机器制造行业、印刷行业、生活用品行业、烟草行业、医药行业、PCB/FPCB行业、液晶面板行业、LED行业等等。这些数据以文本、图像等形式存在于网络和各种数据库中。为了获取图像中的文本信息,需要对图像进行分析,分割图像中的字符,然后识别分割后的单字符图像,从而获取图像包含的信息。在单字符分割领域比较常用的方法有:1、先对图像二值化,然后进行腐蚀、膨胀处理并获取字符;2、基于来连通域分析的方法对图像进行分割获取字符等。上述方法对于背景明暗变化、字符粘连、点阵字符等情况不能很好的解决。
在工业自动化中,字符识别需要在各种复杂环境下稳定快速的识别各式各样的字符。上述背景明暗变化和字符粘连问题对字符分割的影响更加突出。
发明内容
本发明所要解决的技术问题是一种光学字符识别方法,对字符背景明暗变化比较鲁棒,且对点阵字符和粘连字符也能进行正确分割,能够提高字符分割的准确性。
本发明是通过以下技术方案来实现的:一种光学字符识别方法,包括:
基于笔画宽度变换提取候选字符区域图像;
对上述候选字符图像进行倾斜校正,包括行字符倾斜和斜体字;
对上述校正后的图像进行水平方向投影,提取一行字符图像;
对所述行字符图像进行垂直投影,提取多个单字符图像;
对所述单字符图像进行识别,得到图像中的文本信息。
作为优选的技术方案,上述字符识别方法包含如下特点,所述基于笔画宽度变换获取候选字符区域包括:设置笔画宽度,字符高度,字符宽度;
对图像放缩进行放缩操作,使字符大小放缩到目标尺寸,提升字符检测速度;
对图像进行边缘检测,计算每个像素边缘像素点的梯度方向;
对任意一个边缘像素点p,假设Dp为其梯度方向,按照梯度方向,沿着路线r=p+n*Dp(n>0)寻找另一个边缘像素点q,Dq为该边缘点的梯度方向,Dq方向和Dp方向大致相反
寻找到满足条件的点对,计算两点间的距离;如果没有找到q或者二者的梯度方向不是相反的,则继续循环上述步骤寻找下一个点对;
当像素点p和像素点q之间的距离与设定笔画宽度的差值小于阈值(设定笔画宽度的1~2倍),保留该点对以及两点连线上的像素点;
循环上述步骤遍历所有边缘像素点,将所有满足条件的点对连线图像作为字符候选区域。
作为优选的技术方案,上述字符识别方法包含如下特点,所述对候选字符图像进行倾斜校正包括:
对所述字符候选区域图像进行膨胀处理,将可能的断裂字符连接起来,其中模板宽度设置的笔画宽度大小;
对上述膨胀后的图像进行连通域分析,计算每个连通域的外接矩形;
根据设定的字符高度、宽度,对上述外接矩形进行筛选,并按照矩形框垂直方向的位置信息把所有矩形框分成多行;
选择矩形框数量最多的行,按照两个矩形框之间的距离进行聚类,这里直接使用k-mean聚类,将矩形框分成两类,选择聚类数量最多的类;
对上述聚类矩形框的中心点进行直线拟合,直线的角度即为字符行的倾斜角度的。
如果所识别字符为斜体字时,则需要进一步对图像校正。在[-30°,30°]内按照固定步长循环以下操作:
1、对上述校正后的图像进行角度为a的错切变换,其中a∈[-30°,30°];
2、对变换后的图像按照灰度值进行垂直投影;
3、计算出投影值的最大与最小值的差值;
4、在[-30°,30°]内确定出差值最大的角度,即为斜体字倾斜角度。
作为优选的技术方案,上述字符识别方法包含如下特点,所述对图像进行水平方向投影包括:
对上述校正后的图像进行水平投影,该图像可以是校正后的灰度图像,也可以是校正后的笔画宽度转换图像;可以使用以下几种方式进行投影:方差、能量、标准差、最小灰度值、最大灰度值、明暗变化次数或这几种方法的组合;下面投影如果不做具体说明,则都是以上一种或几种组合;对投影波形分段,且每段大小至少为设置的字符高度,通常为字符高度的1.1或1.2倍;对图像背景明暗程度进行估计,计算每段的最小值,然后对这些点进行插值,可得一条折线数据,即图像背景明暗程度的估计,接着计算投影波数据和该折线数据的差值,获得处理后的补偿投影数据;
利用阈值1对投影波进行处理,获取多行字符图像;接着再用阈值2(阈值2≥阈值1)剔除投影值大于阈值1小于阈值2的行字符;最后用阈值3剔除行字符宽度比较小的行,最后提取一行字符图像。
作为优选的技术方案,上述字符识别方法包含如下特点,所述提取单个字符包括:
将上述字符行图像进行垂直投影,投影方式与水平投影方式相同,获取投影波后用阈值方法将非字符区域剔除,获得可能的单字符图像;
为了更精确的切合分割每个字符,用OTSU阈值化算法处理每个单字符图像,并对每个字符图像再次进行水平投影进行分割,计算每个字符图像中字符的精确上下边界,提取精确的单字符图像;
作为优选的技术方案,上述字符识别方法包含如下特点,所述对单字符进行识别包括:
获取单字符后,检查目录中是否已经有训练好的字符识别模型;如果没有则需要手动输入每个单字符图像的标签并训练字符识别模型;如果已有字符识别模型则直接加载字符识别模型,对每个图像进行识别。在训练前需要先对图像进行放缩、模糊等处理,然后训练相应的字符识别模型。
本发明的有益效果是:在字符识别过程中,对字符图像进行分割时,能够快速稳定的对字符进行分割,不会因为字符背景明暗变化而出现错分割;对点阵字符能够有效的进行分割;对部分粘连字符也能有效的进行分割。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明根据实施例示出的字符识别的总流程图;
图2为本发明根据实施例示出对图像进行倾斜校正的流程图;
图3A-3D为本发明根据实施例示出对图像进行投影后的投影数据图像;
图4为本发明根据实施例示出通过图像获取补偿投影数据的流程图;
图5为本发明根据实施例示出利用3个阈值获取单字符图像的流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
在本发明的描述中,需要理解的是,术语“一端”、“另一端”、“外侧”、“上”、“内侧”、“水平”、“同轴”、“中央”、“端部”、“长度”、“外端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本发明使用的例如“上”、“上方”、“下”、“下方”等表示空间相对位置的术语是出于便于说明的目的来描述如附图中所示的一个单元或特征相对于另一个单元或特征的关系。空间相对位置的术语可以旨在包括设备在使用或工作中除了图中所示方位以外的不同方位。例如,如果将图中的设备翻转,则被描述为位于其他单元或特征“下方”或“之下”的单元将位于其他单元或特征“上方”。因此,示例性术语“下方”可以囊括上方和下方这两种方位。设备可以以其他方式被定向(旋转90度或其他朝向),并相应地解释本文使用的与空间相关的描述语。
在本发明中,除非另有明确的规定和限定,术语“设置”、“套接”、“连接”、“贯穿”、“插接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
图1为根据实施例示出的一种光学字符识别方法的总流程图。如图1所示,本实施例中,光学字符识别的流程包括以下步骤:
输入待识别图像;
本实例中设字符的颜色为白色,背景的颜色为黑色;当字符颜色为黑色时,对图像进行颜色反转可以获得字符颜色为白色的图像。
设置笔画宽度,字符高度,字符宽度;
在步骤S1中,从待识别图像中用笔画宽度转换提取可能的字符区域;
该步骤的主要目的是获取字符的倾斜角度,不需要获取每个字符的准确位置,因此为了减少程序运行时间,先对图像进行放缩。设置字符放缩的目标尺寸,字符宽度设置为20个像素左右,计算将字符放缩到该字符宽度的放缩比例,然后对图像按照该放缩比例进行放缩;当字符宽度小于设定的目标尺寸时,则不需要对图像进行放缩处理,直接使用原图像即可;
计算放缩后图像的边缘,这里用canny算法对图像进行边缘检测,其中低阈值设置为图像灰度均值的0.66倍,高阈值设置为图像灰度均值的1.33倍。然后计算每个边缘像素点的梯度方向;
对任意一个边缘像素点p,假设Dp为其梯度方向,按照梯度方向,沿着路线r=p+n*Dp(n>0)寻找另一个边缘像素点g,Dq为该边缘点的梯度方向,Dq方向和Dp方向大致相反寻找到满足条件的点对,计算两点间的距离,这里的距离为欧氏距离||p-q||;如果没有找到q或者二者的梯度方向不是相反的,则继续循环上述步骤寻找下一个点对;
当像素点p和像素点q之间的距离与设定笔画宽度的差值小于阈值(设定笔画宽度的1~2倍),保留该点对以及两点连线上的像素点,且灰度值设置为255;然后逐点循环上述步骤,将所有满足条件的点对和连线保留下来,并组成一幅字符候选区域的图像。
在步骤S2中,计算图像的倾斜角度并对图像进行倾斜校正。为了更加清楚的说明倾斜校正的原理,图2给出了倾斜校正的流程图;
根据上述字符候选区域图像,这里可以大致获得字符的位置。但是由于经过字符宽度转换后的图像单个字符经常会出现字符断裂的情况,因此这里需要通过腐蚀膨胀处理来将字符断裂的字符连接起来,由于字符颜色为白色,这里用膨胀白像素的方式对断裂字符进行连接。然后对图像进行连通域分析,可以获得每个连通域的像素点,由于字符行存在倾斜,因此这里不能直接使用每个字符的外界矩形的长宽作为该字符图像的长宽,这里需要计算每个连通域的最小外接矩形,并将最小外接矩形的长宽作为该字符图像的长宽。
图像2中的S201为将上述最小外接矩形分成多行。获取每个字符的连通域、最小外接矩形后,不能直接通过这些字符矩形框获取字符的倾斜角度,因为这些矩形框是整个图像所有字符的矩形框,同时还包括一些非字符区域的矩形框,因此这里需要对这些最小外接矩形进行分行和剔除非字符区域的操作。根据设定的字符放缩目标尺寸,以及放缩后笔画宽度的大小对这些最小外接矩形进行筛选分行操作。具体的筛选条件如下:
1、连通域的面积最少为目标放缩尺寸的3倍;
2、最小外接矩形的长宽与目标放缩尺寸的差值小于放缩后笔画宽度的1.5或2倍;
上述第一个条件是为了筛选掉一些非字符区域的矩形框,因为字符的笔画宽度至少为1个像素,字符宽度的最小值为笔画宽度(例如:“1”),字符高度为目标尺寸大小(忽略标点符号),因此通过该筛选条件可以剔除一部分连通域面积比较小的非字符区域。第二个筛选条件主要是筛选出长宽符合条件的连通域,并将这些连通域作为字符候选区域。将上述满足条件的矩形框分行,这里主要是根据矩形框的纵坐标进行分行。当两个矩形框的纵坐标的差值大于目标字符高度时,则这两个字符为不同行的字符;当该差值小于目标字符高度时,则这两个字符为同一行字符。对所有矩形框按照上述条件进行分行,并提取行字符数量最多的一行。需要注意的是,如果每行字符的倾斜角度都不同,则需要分别计算每行的倾斜角度,这种情况暂不考虑,即假设每行字符的倾斜角度相同。
经过上述处理后,所提取矩形框的长宽和放缩目标尺寸相近,都是字符候选区域,但是为了更准确的获取仅含字符的区域,需要进一步剔除候选区域中的可能的非字符区域。由于大多数字符是均匀排列的,因此可以根据字符间的间距进一步剔除非字符区域。对上述已提取的行进行排序,这里是按照横坐标由小到大对矩形框进行排列。接着计算相邻字符之间的间距,由于只提取了一行字符的矩形框,所以可以直接通过计算相邻矩形框之间的间距估计字符间距,用两个矩形框纵向和横向坐标距离差的绝对值的和表示。
获取矩形框之间的间隔距离后,用聚类的方法将所有矩形框分成两类。经过上述步骤处理后,保留下来的非字符区域的候选区域几乎很少,因此聚类后只需要选择聚类数量较多的一类,即为字符区域。这里直接使用k-mean聚类的方法,其中k值设置为2,即将字符候选区域聚类成字符区域和非字符区域,然后提取聚类数量比较多矩形框类别。
最后对上述聚类后的矩形框的中心点进行直线拟合,并计算出直线的角度,即该行字符的倾斜角度。此外这里字符行的倾斜角度的上下限设置为±45°,当字符行的角度超过45°时,需要对图像进行旋转(例如:旋转±90°)然后按上述步骤操作,即可得到行字符的角度。
通过上述倾斜校正后可以得到行字符的倾斜角度,但是当字体是斜体字时,则需要进一步对图像进行倾斜校正,计算出斜体字的倾斜角度,因为接下来将要使用投影的方法对字符进行分割,若字符为斜体字会影响投影分割效果。这里假设斜体字的倾斜角度在[-30°,30°]之间,超过此范围的暂不做考虑。在[-30°,30°]之间按照固定步长2,循环下述步骤:
1、对上述校正后的图像进行角度为a的错切变换,其中a∈[-30°,30°];
2、对变换后的图像按照灰度值进行垂直投影;
3、计算出投影值的最大与最小值的差值;
4、在[-30°,30°]内计算出差值最大的角度,即为斜体字倾斜角度。
通过上述步骤即可获得校正后的图像,该图像中的字体是基本摆正的,这使得接下来投影更加准确。
在步骤S3和步骤S4中都使用了投影方法对字符分割,且基本操作流程相似,下面将详细介绍垂直投影的原理,水平投影可用类似方法获得,图3A-3D为一个投影的实例,图4和图5为用投影方法分割字符的流程图;
图3A为已经提取出来的行字符图像;图3B为该图像的投影图像,该投影数据是灰度值投影和标准差投影按照1:1的比例进行融合后的数据;图3C中为对图像进行分段后求出每段最小值并进行插值后的图像,该折线即为图像背景明暗变化的估计,图中的3C0点,为一个最小值点;图3D为补偿投影数据的图像。从图3B可以看出图像的明暗变化对字符分割影响很大,不能用一个阈值对字符进行正确分割,且图像中有两个字符是粘连在一起的,也无法直接进行分割。图3D为分段补偿后的投影数据,图像中有两个阈值,阈值1的作用是对字符进行分割,阈值2的作用是排除噪声和非字符区域的干扰,可以明显的看出经过补偿后,图像中的字符已经可以用一个阈值进行分割了,背景明暗变化对字符分割的影响已经被排除了,且粘连的两个字符“23”也已经可以正确的进行分割了。下面将结合图3A-3D以及图4和图5详细介绍投影分割的原理。
图4为提取补偿投影数据的流程图。对上述倾斜校正后的图像进行投影,获取图像的投影数据。接着设置“分段步长”,并对投影数据进行分段,且分段步长的最小值为字符宽度,该步长通常设置为字符宽度的1.1或1.2倍。若用小于字符宽度的步长对投影数据进行分段,一定会出现某个分段数据完全是字符区域的投影数据(不包含背景数据),从而不能有效的对背景进行补偿;但若用大于字符宽度的步长对投影数据进行分段时,则不会出现上述问题,即每个分段数据一定包含背景区域。由于字符区域的灰度值比背景区域大,所以投影后投影数据的字符区域数值也会大于背景区域。由此可得,计算每段投影数据的最小值,该值通常位于字符背景区域。用每段投影数据逐点减去该段中的最小值,会消除背景灰度明暗变化对字符分割的影响。由于明暗变化通常都是连续变化的,不会分段出现,因此可以对这些分段区域中的最小值点进行插值运算,使得这些数据更加逼近明暗变化的真实情况。最后用投影数据逐点减去插值数据,即可以获得补偿投影数据。
除了上述方法外,还可以用另一种方法获取补偿投影数据。获取图像投影数据并设置分段步长后,直接计算投影数据的局部最小值点。计算每个局部最小值点邻域中的最小值点,即在以每个局部最小值点为中心点、分段步长为宽度的投影数据中计算最小值点,然后对所有最小值点进行插值,最后用投影数据减去插值数据,即可获取补偿投影数据。该方法第一次计算局部最小值点,也是为了估计背景区域的灰度值,但是由于字符形状的变化,一些字符区域的点也会被选择出来,因此需要再次计算每个局部最小值点分段步长区域中的最小值点,来排除字符区域局部最小值点。
图5为通过三个阈值提取分割后的字符区域的流程图。通过上述方法提取补偿投影数据后,就可以通过调节阈值对图像进行分割获取单字符图像。通过阈值1(即图3D中的阈值1)可以获得所有满足该阈值的字符候选区域,即在补偿投影数据中比较补偿投影数据和阈值1的大小,将所有投影数据大于阈值1的区域提取出来,即字符候选区域。上述方法获取的字符候选区域会受到一些噪声或者小斑点的影响,为了剔除这些噪声和斑点的影响,这里引入另外两个阈值来消除这些影响:阈值2和阈值3。通过阈值2(即图3D中的阈值2)剔除字符候选区域中的一些非字符区域,当字符候选区域的投影数据存在大于阈值2的投影数据时,保留该候选区域;否则认为该区域为非字符区域,将该区域从字符候选区域中剔除。最后通过阈值3对满足上面两个阈值的字符候选区域再次进行筛选,阈值3与前两个阈值不同的是,对每个字符候选区域的宽度进行筛选。当字符候选区域的宽度大于阈值3时,则认为该字符候选区域为字符区域;否则认为该候选区域为非字符区域。通过上述三个阈值对补偿投影数据进行分析后,即可获得字符区域的图像。
上述步骤在垂直投影和水平投影均有使用,但是部分细节部分又有些不同。在水平投影提取一行字符图像时,既可以直接在原始图像通过上述投影步骤提取一行字符图像,也可以在笔画宽度转换后的图上通过上述投影步骤提取一行字符图像。笔画宽度转换后的图像,字符区域会被保留下来,这样便于接下来的投影分割,如果字符背景比较简单甚至可以直接用笔画宽度转换定位字符,但是背景复杂且存在粘连字符或者字符是点阵字符时,笔画宽度转换效果就不太理想,因此为了使本申请的使用范围更加广泛,这里仅使用笔画宽度转换对字符进行粗略的定位。使用笔画宽度转换图像提取一行字符图像时,需要对图像进行膨胀处理,因为笔画宽度转换后字符会出现断裂的情况,通过膨胀会消除字符断裂对水平投影的影响,此外当一行字符超过2个时,由于断裂的区域各不相同,也会减少字符断裂对水平投影的影响。
在垂直投影提取单字符时,虽然可以直接利用垂直投影结果对行字符图像截图获取单字符图像,但是实际中由于各种外界因素的影响,一行字符通常不会在一个水平线上,即在行字符图像中(通过水平投影提取),每个字符的上下边界并不会紧贴图像的上下边界。因此通过垂直投影截取单字符图像后,还需要对单字符图像进行一次水平投影,以获取精确的上下边界。由于单字符图像比较小,可以直接对单字符图像进行二值化,然后通过水平投影获取单字符图像的精确上下边界,并提取单字符图像。
最后,若存在已经训练好的字符识别模型,则可以直接对单字符图像进行识别;若不存在,则需要手动输入单字符图像的标签并训练字符识别模型。为了增加字符识别的鲁棒性,在训练模型前先对字符进行预处理,包括:归一化、模糊、均衡化等处理,然后再训练字符识别模型。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (1)

1.一种光学字符识别方法,其特征在于,具体包括以下几大步骤:
步骤一、获取字符候选区域;步骤二、对图像进行倾斜校正;步骤三、提取一行字符图像;步骤四、提取单字符图像;步骤五、识别提取的字符;
其中,步骤一、获取字符候选区域:利用笔画宽度变换获取图像中的字符候选区域;
步骤二、对图像进行倾斜校正:根据字符候选区域估计字符的倾斜角度,并对图像进行倾斜校正;
步骤三、提取一行字符图像:对图像进行水平投影,根据水平投影数据和字符高度提取一行字符图像;
步骤四、提取单字符图像:对已提取的行字符图像进行垂直投影,根据垂直投影数据和字符宽度对图像进行分割并提取单字符图像;
步骤五、识别提取的字符;
步骤二中,对图像进行倾斜校正包括:
(2.1)根据字符的高度和宽度对字符候选区域进行筛选,利用连通域分析的方法计算每个字符区域的外接矩形,按照垂直方向的位置信息把矩形框分成多行,选择矩形数量最多的行;接着按照矩形框之间的距离信息进行聚类,获取聚类数量最多的类别,并提取矩形框的中心点进行直线拟合,直线的角度即为字符行的倾斜角度;
(2.2)如果字体为斜体字时,需要继续对图像进行校正,将上步校正后的图像进行角度为a的错切变换,并进行垂直投影,计算出投影值的最大最小值的差值,并在[-30°,30°],重复该步骤,确定出差值最大的角度,即为斜体字倾斜角度;
步骤一中,利用笔画宽度变换获取图像中的字符候选区域包括:
(1.1)对图像进行边缘检测,计算每个边缘像素点的方向梯度值;
(1.2)对任意一个边缘像素点p,Dy为其梯度方向,按照梯度方向,沿着路线r=P+R*Dy(R>0)寻找另一个边缘像素点q,Dq为该边缘像素点q的梯度方向,Dq方向和Dy方向相反;
(1.3)如果没有找到q或者二者的梯度方向不是相反的,则重新寻找;
(1.4)找到后计算两点间的距离,当边缘像素点p和边缘像素点q之间的距离满足阈值时,保留该点对以及两点连线上的像素点;
(1.5)利用上述方法遍历所有边缘像素,将所有满足条件的点对连线图像作为字符候选区域;
步骤三中,提取一行字符图像包括:
(3.1)对所述校正后的图像进行水平投影;
(3.2)为了消除背景明暗变化对字符分割的影响,需要对图像进行背景估计,首先对投
影数据进行分段,计算每段的最小值,根据这些最小值点对图像背景的明暗程度进行背景估计,然后计算补偿投影数据;
(3.3)使用三个阈值对补偿投影数据进行分析,阈值1提取多行字符候选图像,阈值2和阈值3剔除非字符行区域,阈值2>=阈值1,最后提取一行字符图像;
步骤四中,提取单字符图像包括:
(4.1)对上述提取行字符图像进行垂直投影;
(4.2)投影方式与水平投影方式相似,获取投影数据后,结合字符宽度和阈值分析将所述行字符图像分割为多个单字符图像;
(4.3)为了更精确的切合分割每个字符,对单字符图像再次进行垂直投影进行分割,计算单字符图像中字符的精确上下边界,提取精确的单字符图像;
步骤五中,识别提取字符包括:
(5.1)对上述分割好的单字符图像进行分类,这里使用决策树、神经网络、支持向量机、K最邻近方法对字符图像进行分类;
(5.2)为了消除噪声影响,先对图像进行放缩、模糊处理,然后训练相应的字符识别模型。
CN201911272032.6A 2019-12-12 2019-12-12 一种光学字符识别方法 Active CN111046872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272032.6A CN111046872B (zh) 2019-12-12 2019-12-12 一种光学字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272032.6A CN111046872B (zh) 2019-12-12 2019-12-12 一种光学字符识别方法

Publications (2)

Publication Number Publication Date
CN111046872A CN111046872A (zh) 2020-04-21
CN111046872B true CN111046872B (zh) 2023-10-24

Family

ID=70236196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272032.6A Active CN111046872B (zh) 2019-12-12 2019-12-12 一种光学字符识别方法

Country Status (1)

Country Link
CN (1) CN111046872B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986222A (zh) * 2020-08-21 2020-11-24 国网宁夏电力有限公司营销服务中心(国网宁夏电力有限公司计量中心) 基于自适应混合阈值的智能电表芯片图像二值化处理方法
CN111967474B (zh) * 2020-09-07 2024-04-26 凌云光技术股份有限公司 基于投影的文本行字符分割方法及装置
CN112699883B (zh) * 2021-01-12 2023-05-16 首钢京唐钢铁联合有限责任公司 板材喷码的识别方法及识别***
CN113569608A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 基于深度学习的文本识别方法、装置、设备及存储介质
CN113297872B (zh) * 2021-03-24 2024-01-12 福州符号信息科技有限公司 一种Dotcode识别方法、设备
CN113033569A (zh) * 2021-03-30 2021-06-25 扬州大学 基于灰度投影极值的多行喷码字符序贯分割方法
CN113468958B (zh) * 2021-05-26 2022-11-18 河南格通智能科技有限公司 一种接触网支柱号牌识别方法
CN113421256B (zh) * 2021-07-22 2024-05-24 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116751A (zh) * 2013-01-24 2013-05-22 河海大学 一种车牌字符自动识别方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别***及识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4860574B2 (ja) * 2006-09-13 2012-01-25 株式会社キーエンス 文字切り出し装置、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116751A (zh) * 2013-01-24 2013-05-22 河海大学 一种车牌字符自动识别方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别***及识别方法

Also Published As

Publication number Publication date
CN111046872A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046872B (zh) 一种光学字符识别方法
CN106407883B (zh) 一种复杂表格及其内部手写数字识别方法
CN115082419B (zh) 一种吹塑箱包生产缺陷检测方法
CN110119741B (zh) 一种有背景的卡证图像信息识别方法
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
WO2018086233A1 (zh) 一种字符分割方法和装置、及元件检测方法和装置
CN113724231B (zh) 一种基于语义分割和目标检测融合模型的工业缺陷检测方法
CN101807257A (zh) 图像标签信息识别方法
CN110766016B (zh) 一种基于概率神经网络的喷码字符识别方法
CN103310211A (zh) 一种基于图像处理的填注标记识别方法
JP2000011089A (ja) 光学式文字認識システムの2値化方法
CN110648330B (zh) 摄像头玻璃的缺陷检测方法
CN114331986A (zh) 一种基于无人机视觉的坝体裂纹识别与测量方法
Gilly et al. A survey on license plate recognition systems
CN115588208A (zh) 一种基于数字图像处理技术的全线表结构识别方法
CN114863492A (zh) 一种低质量指纹图像的修复方法及修复装置
CN107368826B (zh) 用于文本检测的方法和装置
CN108537815B (zh) 一种视频图像前景分割方法和装置
CN114140416A (zh) 一种基于机器视觉的玻璃边缘检测方法和***
CN109753981B (zh) 一种图像识别的方法及装置
CN112085723B (zh) 一种货车摇枕弹簧窜出故障自动检测方法
CN108205678B (zh) 一种含有亮斑干扰的铭牌文字识别处理方法
CN108898584B (zh) 一种基于图像分析的全自动贴面电容装焊极性判别方法
CN112288372B (zh) 一种可同时识别一维条码和三段码字符的快递单识别方法
CN106845488B (zh) 一种车牌图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant