CN116824594B - 一种用于图像中定位关键词的文本排序方法 - Google Patents

一种用于图像中定位关键词的文本排序方法 Download PDF

Info

Publication number
CN116824594B
CN116824594B CN202310834541.3A CN202310834541A CN116824594B CN 116824594 B CN116824594 B CN 116824594B CN 202310834541 A CN202310834541 A CN 202310834541A CN 116824594 B CN116824594 B CN 116824594B
Authority
CN
China
Prior art keywords
connected domain
coordinate
domains
connected domains
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310834541.3A
Other languages
English (en)
Other versions
CN116824594A (zh
Inventor
韦箫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Xike Intelligent Technology Co ltd
Original Assignee
Guangdong Xike Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Xike Intelligent Technology Co ltd filed Critical Guangdong Xike Intelligent Technology Co ltd
Priority to CN202310834541.3A priority Critical patent/CN116824594B/zh
Publication of CN116824594A publication Critical patent/CN116824594A/zh
Application granted granted Critical
Publication of CN116824594B publication Critical patent/CN116824594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种用于图像中定位关键词的文本排序方法,涉及机器视觉技术领域,步骤是:a.对所有提取的连通域按照x方向作一次从左到右的排序,结果存放于向量R1中;b.将R1的所有连通域取出,存入向量R0中,此时R1为空;c.前向遍历R0,将R0的每一个连通域与反向遍历的R1的所有连通域进行相对位置关系的判断,满足条件的连通域从R0中取出,放入向量R1中,否则执行d步骤;d.将R0的连通域与DR最末的一个连通域进行相对位置关系的判断,满足条件的连通域从R0中取出,放入DR,否则放入R1中;本发明大大降低了关键词被漏检以及错检的概率。

Description

一种用于图像中定位关键词的文本排序方法
技术领域
本发明涉及机器视觉技术领域,更具体地说,它涉及一种用于图像中定位关键词的文本排序方法。
背景技术
在图像中对关键词的位置进行定位,往往需要用到OCR技术,作为OCR预处理的一个步骤:连通域的排序,对关键词定位的准确性起着非常重要的作用。在该步骤中,需要对连通域进行文本排序。所谓的文本排序,就是将连将通域的中心坐标,先按照从左到右,再从上到下的顺序进行排序,即符合人们阅读文章的顺序。已有的方法(Halcon中的sort_region函数中的’character’排序算法)通常是先对所有连通域做行分割的处理,处理方法是:只要连通域的最小外接矩形框在Y轴方向上满足所设置的重叠百分比,那么这些连通域就属于同一行,然后再对每一行的连通域做从左到右的排序。这种方法只能处理版面比较规整的图像,而在实际应用中,图像上的文本布局并不规整。如果使用上述方法,很容易造成如图2、3以及图4、5所示的错误情况。在图2中,词“CORD”中”D”的最小外接矩形框在Y轴方向上与词“DOT”中”D”以及“T”的最小外接矩形框重叠,但是与词“DOT”中”O”的最小外接矩形框不重叠。这样就会造成OCR的识别结果为”CORDDT”,并不是所期待的“CORDDOT”结果,在错误的识别结果下就无法正确提取关键词“DOT”。在图4中,”Y”的最小外接矩形框在Y轴方向上与字符”5”的最小外接矩形框重叠,导致最终识别结果为”2Y5”,并不是所期待的”2Y156”结果,在错误的识别结果下就无法正确提取关键词”156”。
为了避免上述的错误,本发明提出了一种针对图像连通域的排序方法,大大提高了在图像中定位关键词的准确率。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种用于图像中定位关键词的文本排序方法。
为实现上述目的,本发明提供了如下技术方案:
一种用于图像中定位关键词的文本排序方法,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,并将排序好的结果依次存放到向量R1中;
步骤2:将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量,将R0的第一个连通域取出,并存入DR中,作为新的一行的基准连通域;
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域,获取R0[j]的位置参数:min_j,max_j,cy_j,cx_j,以及up_j;
步骤4:遍历R0遍历到第j个连通域,即R0[j],按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域R1[k]进行相对位置的比较,如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以将R0[j]存入R1中,如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1];
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域DR[end],获取DR[end]的位置参数:min_e,max_e,cy_e,以及cx_e,将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较,如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中;
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
进一步的,R0表示初始化为空,存储未被排序的连通域,R1表示初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域,DR表示最终输出的连通域。
进一步的,cx_k表示第k个连通域的最小外接矩形框的中心x坐标,cy_k表示第k个连通域的最小外接矩形框的中心y坐标,max_k表示第k个连通域的最小外接矩形框的最大Y坐标,min_k表示第k个连通域的最小外接矩形框的最小Y坐标,up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点,H表示up_k到min_k之间的距离,W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围,该参数需要根据实际情况手动设置,用于限制比较的范围。
进一步的,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,其它参数同理。
进一步的,min_e表示DR[end]的最小外接矩形框的最小Y坐标,其它参数同理。
与现有技术相比,本发明具备以下有益效果:
以图7为例,通过本发明所述的方法,最终的行分割结果如图14所示,其中,同一种颜色的连通域表示同一行,不同颜色的连通域表示不同行,从图15和图16可以看出,本发明能够避免已有方法对图2和图4所得到的错误的行分割结果,本发明可以确保图2中关键词“DOT”的每一个连通域归属于同一行,以及图4中关键词”156”的每一个连通域归属于同一行,有利于在后续的OCR识别结果中正确的提取所需的关键词。
附图说明
图1为本发明一种用于图像中定位关键词的文本排序方法的流程图;
图2为现有图像文本布局的样本图一;
图3为已有方法对样本图一的行分割结果图;
图4为现有图像文本布局的样本图二;
图5为已有方法对样本图二的行分割结果图;
图6为连通域最小外接矩形框的位置的参数定义图;
图7为连通域最小外接矩形框按X轴的排序结果图;
图8为待排序与未排序的连通域属于同一行需满足的条件一、二、三的展示图;
图9为错误的分行情况一的展示图;
图10为将错误的分行情况一修正为正确的分行情况的展示图;
图11为待排序与未排序的连通域属于同一行需满足的条件四、五、六的展示图;
图12为错误的分行情况二的展示图;
图13为将错误的分行情况二修正为正确的分行情况的展示图;
图14为本发明对图7连通域的排序结果图;
图15为本发明对图3连通域的排序结果图;
图16为本发明对图5连通域的排序结果图。
具体实施方式
定义3个向量,分别命名为R0,R1和DR,它们的作用分别如下:
R0:初始化为空,存储未被排序的连通域。R1:初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域。DR:最终输出的连通域。
定义连通域最小外接矩形框的位置的相关变量:cx_k:第k个连通域的最小外接矩形框的中心x坐标。cy_k:第k个连通域的最小外接矩形框的中心y坐标。max_k:第k个连通域的最小外接矩形框的最大Y坐标。min_k:第k个连通域的最小外接矩形框的最小Y坐标。up_k:第k个连通域的最小外接矩形框的中心点与上边界之间的中点。H:up_k到min_k之间的距离。W:被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围,该参数需要根据实际情况手动设置,用于限制比较的范围。
参照图1至图16,一种用于图像中定位关键词的文本排序方法,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,如图7所示。并将排序好的结果依次存放到向量R1中。
步骤2:此时在R1中的连通域是不满足最终排序规则的,将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量。将R0的第一个连通域(即R0[0])取出,并存入DR中,作为新的一行的基准连通域。
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域。获取R0[j]的位置参数:min_j,max_j,cy_j,cx_j,以及up_j。(其中,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,其它参数同理)。
步骤4:在遍历R0中的任意一个连通域时(这里假设遍历到第j个连通域,即R0[j]),按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域(这里假设是R1[k])进行相对位置的比较(如图8所示),如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以要将R0[j]存入R1中。该步骤可防止如图9所示的错误分行情况,由于连通域c跟a满足同一行的条件,但是c跟b也满足同一行的条件,而此时b被判定为不属于a的同一行时,b已经被存放R1当中,那么c此时也应该存放入R1当中,放到下一次判断的时候,b和c就可以被规为同一行,如图10所示。如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1]。
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域(这里设为DR[end])。获取DR[end]的位置参数:min_e,max_e,cy_e,以及cx_e。(其中,min_e表示DR[end]的最小外接矩形框的最小Y坐标,其它参数同理)。将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较(如图11所示),如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中。该步骤可实现如图10所示的结果,将b和c分为同一行,a归属于另一行。同时也可避免如图12所示的错误分行情况,连通域a和b满足同一行的条件,而c与a不满足同一行的条件,通过步骤5,可将c与b的相对位置关系进行判断,结果是c与b满足同一行的条件,那么a,b和c则都归属于同一行,如图13所示。
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本模板的保护范围。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (3)

1.一种用于图像中定位关键词的文本排序方法,其特征在于,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,并将排序好的结果依次存放到向量R1中;
步骤2:将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量,将R0的第一个连通域取出,并存入DR中,作为新的一行的基准连通域;
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域,获取R0[j]的位置参数: min_j, max_j, cy_j, cx_j, 以及up_j,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,max_j表示R0中第j个连通域的最小外接矩形框的最大Y坐标,cx_j表示R0中第j个连通域的最小外接矩形框的中心x坐标,cy_j表示R0中第j个连通域的最小外接矩形框的中心y坐标,up_j表示R0中第j个连通域的最小外接矩形框的中心点与上边界之间的中点;
步骤4:遍历R0遍历到第j个连通域,即R0[j],按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域R1[k]进行相对位置的比较,如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以将R0[j]存入R1中,如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1];
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域DR[end],获取DR[end]的位置参数: min_e, max_e, cy_e, 以及cx_e,min_e表示DR[end]的最小外接矩形框的最小Y坐标,max_e表示DR[end]的最小外接矩形框的最大Y坐标,cx_e表示DR[end]的最小外接矩形框的中心x坐标,cy_e表示DR[end]的最小外接矩形框的中心y坐标,将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较,如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中;
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
2.根据权利要求1所述的一种用于图像中定位关键词的文本排序方法,其特征在于,R0表示初始化为空,存储未被排序的连通域,R1表示初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域,DR表示最终输出的连通域。
3.根据权利要求2所述的一种用于图像中定位关键词的文本排序方法,其特征在于,cx_k表示第k个连通域的最小外接矩形框的中心x坐标,cy_k表示第k个连通域的最小外接矩形框的中心y坐标,max_k表示第k个连通域的最小外接矩形框的最大Y坐标,min_k表示第k个连通域的最小外接矩形框的最小Y坐标,up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点,H表示up_k到min_k之间的距离,W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围。
CN202310834541.3A 2023-07-10 2023-07-10 一种用于图像中定位关键词的文本排序方法 Active CN116824594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310834541.3A CN116824594B (zh) 2023-07-10 2023-07-10 一种用于图像中定位关键词的文本排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310834541.3A CN116824594B (zh) 2023-07-10 2023-07-10 一种用于图像中定位关键词的文本排序方法

Publications (2)

Publication Number Publication Date
CN116824594A CN116824594A (zh) 2023-09-29
CN116824594B true CN116824594B (zh) 2024-04-26

Family

ID=88139221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310834541.3A Active CN116824594B (zh) 2023-07-10 2023-07-10 一种用于图像中定位关键词的文本排序方法

Country Status (1)

Country Link
CN (1) CN116824594B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、***
WO2022142627A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 地址信息的提取方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、***
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法
WO2022142627A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 地址信息的提取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116824594A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US11878433B2 (en) Method for detecting grasping position of robot in grasping object
US5907631A (en) Document image processing method and system having function of determining body text region reading order
CN109740606B (zh) 一种图像识别方法及装置
CN109446885B (zh) 一种基于文本的元器件识别方法、***、装置和存储介质
CN110907947B (zh) 一种移动机器人slam问题中的实时回环检测方法
CN110598634B (zh) 一种基于图例库的机房草图识别方法及其装置
CN115495055B (zh) 基于界面区域识别技术的rpa元素匹配方法及***
CN111461113B (zh) 一种基于变形平面物体检测网络的大角度车牌检测方法
CN112935703B (zh) 识别动态托盘终端的移动机器人位姿校正方法及***
JP2016095753A (ja) 文字認識システム及び文字認識方法
CN111967337A (zh) 一种基于深度学习和无人机影像的管道线变化检测方法
CN114022508A (zh) 一种目标跟踪方法、终端及计算机可读存储介质
CN114782487A (zh) 一种海面船只检测跟踪方法及***
CN116824594B (zh) 一种用于图像中定位关键词的文本排序方法
CN111553410B (zh) 基于关键点局部曲面特征直方图和空间关系的点云识别方法
CN110490887B (zh) 一种基于3d视觉的对矩形包裹边缘快速识别定位方法
CN112241975A (zh) 特征模板的匹配定位方法和匹配定位装置
CN112215240B (zh) 一种提高2d复杂边缘检测精度的优化方法
CN111814619A (zh) 一种户型图的比例尺值获取方法
CN114519330A (zh) 一种集成电路的调整方法、装置、存储介质及终端设备
Ozdil et al. Optical character recognition without segmentation
Aizono et al. Efficient Outlier Removal Combining REPPnP and the Levenberg-Marquardt Method
CN115965927B (zh) 一种路面信息提取方法、装置、电子设备及可读存储介质
CN112883290B (zh) 一种基于分支定界法的自动切图方法
Yang et al. Identification of Layout elements in Chinese academic papers based on Mask R-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: Unit 01-05 and 08, Floor 18, No. 15, the Pearl River West Road, Tianhe District, Guangzhou, Guangdong 510000

Applicant after: Guangdong Xike Intelligent Technology Co.,Ltd.

Address before: Unit 01-05, 08, Floor 18, No. 15, the Pearl River West Road, Tianhe District, Guangzhou, Guangdong 510000 (for office use only)

Applicant before: GUANGZHOU SICK SENSOR Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant