CN116824594B - 一种用于图像中定位关键词的文本排序方法 - Google Patents
一种用于图像中定位关键词的文本排序方法 Download PDFInfo
- Publication number
- CN116824594B CN116824594B CN202310834541.3A CN202310834541A CN116824594B CN 116824594 B CN116824594 B CN 116824594B CN 202310834541 A CN202310834541 A CN 202310834541A CN 116824594 B CN116824594 B CN 116824594B
- Authority
- CN
- China
- Prior art keywords
- connected domain
- coordinate
- domains
- connected domains
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001292396 Cirrhitidae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种用于图像中定位关键词的文本排序方法,涉及机器视觉技术领域,步骤是:a.对所有提取的连通域按照x方向作一次从左到右的排序,结果存放于向量R1中;b.将R1的所有连通域取出,存入向量R0中,此时R1为空;c.前向遍历R0,将R0的每一个连通域与反向遍历的R1的所有连通域进行相对位置关系的判断,满足条件的连通域从R0中取出,放入向量R1中,否则执行d步骤;d.将R0的连通域与DR最末的一个连通域进行相对位置关系的判断,满足条件的连通域从R0中取出,放入DR,否则放入R1中;本发明大大降低了关键词被漏检以及错检的概率。
Description
技术领域
本发明涉及机器视觉技术领域,更具体地说,它涉及一种用于图像中定位关键词的文本排序方法。
背景技术
在图像中对关键词的位置进行定位,往往需要用到OCR技术,作为OCR预处理的一个步骤:连通域的排序,对关键词定位的准确性起着非常重要的作用。在该步骤中,需要对连通域进行文本排序。所谓的文本排序,就是将连将通域的中心坐标,先按照从左到右,再从上到下的顺序进行排序,即符合人们阅读文章的顺序。已有的方法(Halcon中的sort_region函数中的’character’排序算法)通常是先对所有连通域做行分割的处理,处理方法是:只要连通域的最小外接矩形框在Y轴方向上满足所设置的重叠百分比,那么这些连通域就属于同一行,然后再对每一行的连通域做从左到右的排序。这种方法只能处理版面比较规整的图像,而在实际应用中,图像上的文本布局并不规整。如果使用上述方法,很容易造成如图2、3以及图4、5所示的错误情况。在图2中,词“CORD”中”D”的最小外接矩形框在Y轴方向上与词“DOT”中”D”以及“T”的最小外接矩形框重叠,但是与词“DOT”中”O”的最小外接矩形框不重叠。这样就会造成OCR的识别结果为”CORDDT”,并不是所期待的“CORDDOT”结果,在错误的识别结果下就无法正确提取关键词“DOT”。在图4中,”Y”的最小外接矩形框在Y轴方向上与字符”5”的最小外接矩形框重叠,导致最终识别结果为”2Y5”,并不是所期待的”2Y156”结果,在错误的识别结果下就无法正确提取关键词”156”。
为了避免上述的错误,本发明提出了一种针对图像连通域的排序方法,大大提高了在图像中定位关键词的准确率。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种用于图像中定位关键词的文本排序方法。
为实现上述目的,本发明提供了如下技术方案:
一种用于图像中定位关键词的文本排序方法,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,并将排序好的结果依次存放到向量R1中;
步骤2:将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量,将R0的第一个连通域取出,并存入DR中,作为新的一行的基准连通域;
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域,获取R0[j]的位置参数:min_j,max_j,cy_j,cx_j,以及up_j;
步骤4:遍历R0遍历到第j个连通域,即R0[j],按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域R1[k]进行相对位置的比较,如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以将R0[j]存入R1中,如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1];
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域DR[end],获取DR[end]的位置参数:min_e,max_e,cy_e,以及cx_e,将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较,如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中;
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
进一步的,R0表示初始化为空,存储未被排序的连通域,R1表示初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域,DR表示最终输出的连通域。
进一步的,cx_k表示第k个连通域的最小外接矩形框的中心x坐标,cy_k表示第k个连通域的最小外接矩形框的中心y坐标,max_k表示第k个连通域的最小外接矩形框的最大Y坐标,min_k表示第k个连通域的最小外接矩形框的最小Y坐标,up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点,H表示up_k到min_k之间的距离,W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围,该参数需要根据实际情况手动设置,用于限制比较的范围。
进一步的,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,其它参数同理。
进一步的,min_e表示DR[end]的最小外接矩形框的最小Y坐标,其它参数同理。
与现有技术相比,本发明具备以下有益效果:
以图7为例,通过本发明所述的方法,最终的行分割结果如图14所示,其中,同一种颜色的连通域表示同一行,不同颜色的连通域表示不同行,从图15和图16可以看出,本发明能够避免已有方法对图2和图4所得到的错误的行分割结果,本发明可以确保图2中关键词“DOT”的每一个连通域归属于同一行,以及图4中关键词”156”的每一个连通域归属于同一行,有利于在后续的OCR识别结果中正确的提取所需的关键词。
附图说明
图1为本发明一种用于图像中定位关键词的文本排序方法的流程图;
图2为现有图像文本布局的样本图一;
图3为已有方法对样本图一的行分割结果图;
图4为现有图像文本布局的样本图二;
图5为已有方法对样本图二的行分割结果图;
图6为连通域最小外接矩形框的位置的参数定义图;
图7为连通域最小外接矩形框按X轴的排序结果图;
图8为待排序与未排序的连通域属于同一行需满足的条件一、二、三的展示图;
图9为错误的分行情况一的展示图;
图10为将错误的分行情况一修正为正确的分行情况的展示图;
图11为待排序与未排序的连通域属于同一行需满足的条件四、五、六的展示图;
图12为错误的分行情况二的展示图;
图13为将错误的分行情况二修正为正确的分行情况的展示图;
图14为本发明对图7连通域的排序结果图;
图15为本发明对图3连通域的排序结果图;
图16为本发明对图5连通域的排序结果图。
具体实施方式
定义3个向量,分别命名为R0,R1和DR,它们的作用分别如下:
R0:初始化为空,存储未被排序的连通域。R1:初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域。DR:最终输出的连通域。
定义连通域最小外接矩形框的位置的相关变量:cx_k:第k个连通域的最小外接矩形框的中心x坐标。cy_k:第k个连通域的最小外接矩形框的中心y坐标。max_k:第k个连通域的最小外接矩形框的最大Y坐标。min_k:第k个连通域的最小外接矩形框的最小Y坐标。up_k:第k个连通域的最小外接矩形框的中心点与上边界之间的中点。H:up_k到min_k之间的距离。W:被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围,该参数需要根据实际情况手动设置,用于限制比较的范围。
参照图1至图16,一种用于图像中定位关键词的文本排序方法,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,如图7所示。并将排序好的结果依次存放到向量R1中。
步骤2:此时在R1中的连通域是不满足最终排序规则的,将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量。将R0的第一个连通域(即R0[0])取出,并存入DR中,作为新的一行的基准连通域。
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域。获取R0[j]的位置参数:min_j,max_j,cy_j,cx_j,以及up_j。(其中,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,其它参数同理)。
步骤4:在遍历R0中的任意一个连通域时(这里假设遍历到第j个连通域,即R0[j]),按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域(这里假设是R1[k])进行相对位置的比较(如图8所示),如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以要将R0[j]存入R1中。该步骤可防止如图9所示的错误分行情况,由于连通域c跟a满足同一行的条件,但是c跟b也满足同一行的条件,而此时b被判定为不属于a的同一行时,b已经被存放R1当中,那么c此时也应该存放入R1当中,放到下一次判断的时候,b和c就可以被规为同一行,如图10所示。如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1]。
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域(这里设为DR[end])。获取DR[end]的位置参数:min_e,max_e,cy_e,以及cx_e。(其中,min_e表示DR[end]的最小外接矩形框的最小Y坐标,其它参数同理)。将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较(如图11所示),如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中。该步骤可实现如图10所示的结果,将b和c分为同一行,a归属于另一行。同时也可避免如图12所示的错误分行情况,连通域a和b满足同一行的条件,而c与a不满足同一行的条件,通过步骤5,可将c与b的相对位置关系进行判断,结果是c与b满足同一行的条件,那么a,b和c则都归属于同一行,如图13所示。
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本模板的保护范围。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (3)
1.一种用于图像中定位关键词的文本排序方法,其特征在于,包括如下步骤:
步骤1:提取图像中所有的连通域后,将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序,并将排序好的结果依次存放到向量R1中;
步骤2:将R1中所有的连通域取出,并存入向量R0中,此时R1为空向量,将R0的第一个连通域取出,并存入DR中,作为新的一行的基准连通域;
步骤3:按照索引从小到大的顺序遍历R0,循环下标设为j,则R0[j]表示向量R0中的第j个连通域,获取R0[j]的位置参数: min_j, max_j, cy_j, cx_j, 以及up_j,min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标,max_j表示R0中第j个连通域的最小外接矩形框的最大Y坐标,cx_j表示R0中第j个连通域的最小外接矩形框的中心x坐标,cy_j表示R0中第j个连通域的最小外接矩形框的中心y坐标,up_j表示R0中第j个连通域的最小外接矩形框的中心点与上边界之间的中点;
步骤4:遍历R0遍历到第j个连通域,即R0[j],按照索引从大到小的顺序遍历R1,循环下标设为k,将R0[j]与R1中满足条件三的连通域R1[k]进行相对位置的比较,如果满足条件三的同时,也满足条件一和二,表明在R1中存在与R0[j]属于同一行的连通域,所以将R0[j]存入R1中,如果R1被遍历结束,且从未能同时满足条件一,二和三的时候,则执行步骤5,否则回到步骤3,遍历R0中的下一个连通域,即R0[j+1];
步骤5:取出向量DR的最后一个连通域,即最近一次存入DR的连通域DR[end],获取DR[end]的位置参数: min_e, max_e, cy_e, 以及cx_e,min_e表示DR[end]的最小外接矩形框的最小Y坐标,max_e表示DR[end]的最小外接矩形框的最大Y坐标,cx_e表示DR[end]的最小外接矩形框的中心x坐标,cy_e表示DR[end]的最小外接矩形框的中心y坐标,将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较,如果同时满足条件四,五和六,则将R0[j]存入DR中,否则将R0[j]存入R1中;
步骤6:判断R0是否被遍历结束,如果未遍历结束,则回到步骤3,继续遍历,否则判断R1是否为空,如果R1为空,说明所有连通域已经被排序结束,则DR保存的就是所有已排序好的连通域,如果R1不为空,说明还有连通域未被排序,则回到步骤2,继续执行,直到步骤6中判断R1为空。
2.根据权利要求1所述的一种用于图像中定位关键词的文本排序方法,其特征在于,R0表示初始化为空,存储未被排序的连通域,R1表示初始化为已经按照X轴方向从左到右进行排序的连通域,后续用于临时存储不符合排序规则的连通域,DR表示最终输出的连通域。
3.根据权利要求2所述的一种用于图像中定位关键词的文本排序方法,其特征在于,cx_k表示第k个连通域的最小外接矩形框的中心x坐标,cy_k表示第k个连通域的最小外接矩形框的中心y坐标,max_k表示第k个连通域的最小外接矩形框的最大Y坐标,min_k表示第k个连通域的最小外接矩形框的最小Y坐标,up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点,H表示up_k到min_k之间的距离,W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834541.3A CN116824594B (zh) | 2023-07-10 | 2023-07-10 | 一种用于图像中定位关键词的文本排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834541.3A CN116824594B (zh) | 2023-07-10 | 2023-07-10 | 一种用于图像中定位关键词的文本排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116824594A CN116824594A (zh) | 2023-09-29 |
CN116824594B true CN116824594B (zh) | 2024-04-26 |
Family
ID=88139221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310834541.3A Active CN116824594B (zh) | 2023-07-10 | 2023-07-10 | 一种用于图像中定位关键词的文本排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824594B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844275A (zh) * | 2016-03-25 | 2016-08-10 | 北京云江科技有限公司 | 文本图像中文本行的定位方法 |
CN105989366A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市思路飞扬信息技术有限责任公司 | 文本图像的倾斜角矫正、版面分析方法和助视装置、*** |
WO2022142627A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 地址信息的提取方法、装置、设备及介质 |
-
2023
- 2023-07-10 CN CN202310834541.3A patent/CN116824594B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989366A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市思路飞扬信息技术有限责任公司 | 文本图像的倾斜角矫正、版面分析方法和助视装置、*** |
CN105844275A (zh) * | 2016-03-25 | 2016-08-10 | 北京云江科技有限公司 | 文本图像中文本行的定位方法 |
WO2022142627A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 地址信息的提取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116824594A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11878433B2 (en) | Method for detecting grasping position of robot in grasping object | |
US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、***、装置和存储介质 | |
CN110907947B (zh) | 一种移动机器人slam问题中的实时回环检测方法 | |
CN110598634B (zh) | 一种基于图例库的机房草图识别方法及其装置 | |
CN115495055B (zh) | 基于界面区域识别技术的rpa元素匹配方法及*** | |
CN111461113B (zh) | 一种基于变形平面物体检测网络的大角度车牌检测方法 | |
CN112935703B (zh) | 识别动态托盘终端的移动机器人位姿校正方法及*** | |
JP2016095753A (ja) | 文字認識システム及び文字認識方法 | |
CN111967337A (zh) | 一种基于深度学习和无人机影像的管道线变化检测方法 | |
CN114022508A (zh) | 一种目标跟踪方法、终端及计算机可读存储介质 | |
CN114782487A (zh) | 一种海面船只检测跟踪方法及*** | |
CN116824594B (zh) | 一种用于图像中定位关键词的文本排序方法 | |
CN111553410B (zh) | 基于关键点局部曲面特征直方图和空间关系的点云识别方法 | |
CN110490887B (zh) | 一种基于3d视觉的对矩形包裹边缘快速识别定位方法 | |
CN112241975A (zh) | 特征模板的匹配定位方法和匹配定位装置 | |
CN112215240B (zh) | 一种提高2d复杂边缘检测精度的优化方法 | |
CN111814619A (zh) | 一种户型图的比例尺值获取方法 | |
CN114519330A (zh) | 一种集成电路的调整方法、装置、存储介质及终端设备 | |
Ozdil et al. | Optical character recognition without segmentation | |
Aizono et al. | Efficient Outlier Removal Combining REPPnP and the Levenberg-Marquardt Method | |
CN115965927B (zh) | 一种路面信息提取方法、装置、电子设备及可读存储介质 | |
CN112883290B (zh) | 一种基于分支定界法的自动切图方法 | |
Yang et al. | Identification of Layout elements in Chinese academic papers based on Mask R-CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Unit 01-05 and 08, Floor 18, No. 15, the Pearl River West Road, Tianhe District, Guangzhou, Guangdong 510000 Applicant after: Guangdong Xike Intelligent Technology Co.,Ltd. Address before: Unit 01-05, 08, Floor 18, No. 15, the Pearl River West Road, Tianhe District, Guangzhou, Guangdong 510000 (for office use only) Applicant before: GUANGZHOU SICK SENSOR Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |