CN116824594B

CN116824594B - 一种用于图像中定位关键词的文本排序方法

Info

Publication number: CN116824594B
Application number: CN202310834541.3A
Authority: CN
Inventors: 韦箫华
Original assignee: Guangdong Xike Intelligent Technology Co ltd
Current assignee: Guangdong Xike Intelligent Technology Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2024-04-26
Anticipated expiration: 2043-07-10
Also published as: CN116824594A

Abstract

本发明公开了一种用于图像中定位关键词的文本排序方法，涉及机器视觉技术领域，步骤是：a.对所有提取的连通域按照x方向作一次从左到右的排序，结果存放于向量R1中；b.将R1的所有连通域取出，存入向量R0中，此时R1为空；c.前向遍历R0，将R0的每一个连通域与反向遍历的R1的所有连通域进行相对位置关系的判断，满足条件的连通域从R0中取出，放入向量R1中，否则执行d步骤；d.将R0的连通域与DR最末的一个连通域进行相对位置关系的判断，满足条件的连通域从R0中取出，放入DR，否则放入R1中；本发明大大降低了关键词被漏检以及错检的概率。

Description

一种用于图像中定位关键词的文本排序方法

技术领域

本发明涉及机器视觉技术领域，更具体地说，它涉及一种用于图像中定位关键词的文本排序方法。

背景技术

在图像中对关键词的位置进行定位，往往需要用到OCR技术，作为OCR预处理的一个步骤：连通域的排序，对关键词定位的准确性起着非常重要的作用。在该步骤中，需要对连通域进行文本排序。所谓的文本排序，就是将连将通域的中心坐标，先按照从左到右，再从上到下的顺序进行排序，即符合人们阅读文章的顺序。已有的方法(Halcon中的sort_region函数中的’character’排序算法)通常是先对所有连通域做行分割的处理，处理方法是：只要连通域的最小外接矩形框在Y轴方向上满足所设置的重叠百分比，那么这些连通域就属于同一行，然后再对每一行的连通域做从左到右的排序。这种方法只能处理版面比较规整的图像，而在实际应用中，图像上的文本布局并不规整。如果使用上述方法，很容易造成如图2、3以及图4、5所示的错误情况。在图2中，词“CORD”中”D”的最小外接矩形框在Y轴方向上与词“DOT”中”D”以及“T”的最小外接矩形框重叠，但是与词“DOT”中”O”的最小外接矩形框不重叠。这样就会造成OCR的识别结果为”CORDDT”，并不是所期待的“CORDDOT”结果，在错误的识别结果下就无法正确提取关键词“DOT”。在图4中，”Y”的最小外接矩形框在Y轴方向上与字符”5”的最小外接矩形框重叠，导致最终识别结果为”2Y5”，并不是所期待的”2Y156”结果，在错误的识别结果下就无法正确提取关键词”156”。

为了避免上述的错误，本发明提出了一种针对图像连通域的排序方法，大大提高了在图像中定位关键词的准确率。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种用于图像中定位关键词的文本排序方法。

为实现上述目的，本发明提供了如下技术方案：

一种用于图像中定位关键词的文本排序方法，包括如下步骤：

步骤1：提取图像中所有的连通域后，将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序，并将排序好的结果依次存放到向量R1中；

步骤2：将R1中所有的连通域取出，并存入向量R0中，此时R1为空向量，将R0的第一个连通域取出，并存入DR中，作为新的一行的基准连通域；

步骤3：按照索引从小到大的顺序遍历R0，循环下标设为j，则R0[j]表示向量R0中的第j个连通域，获取R0[j]的位置参数：min_j,max_j,cy_j,cx_j,以及up_j；

步骤4：遍历R0遍历到第j个连通域，即R0[j]，按照索引从大到小的顺序遍历R1，循环下标设为k，将R0[j]与R1中满足条件三的连通域R1[k]进行相对位置的比较，如果满足条件三的同时，也满足条件一和二，表明在R1中存在与R0[j]属于同一行的连通域，所以将R0[j]存入R1中，如果R1被遍历结束，且从未能同时满足条件一，二和三的时候，则执行步骤5，否则回到步骤3，遍历R0中的下一个连通域，即R0[j+1]；

步骤5：取出向量DR的最后一个连通域，即最近一次存入DR的连通域DR[end]，获取DR[end]的位置参数：min_e,max_e,cy_e,以及cx_e，将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较，如果同时满足条件四，五和六，则将R0[j]存入DR中，否则将R0[j]存入R1中；

步骤6：判断R0是否被遍历结束，如果未遍历结束，则回到步骤3，继续遍历，否则判断R1是否为空，如果R1为空，说明所有连通域已经被排序结束，则DR保存的就是所有已排序好的连通域，如果R1不为空，说明还有连通域未被排序，则回到步骤2，继续执行，直到步骤6中判断R1为空。

进一步的，R0表示初始化为空，存储未被排序的连通域，R1表示初始化为已经按照X轴方向从左到右进行排序的连通域，后续用于临时存储不符合排序规则的连通域，DR表示最终输出的连通域。

进一步的，cx_k表示第k个连通域的最小外接矩形框的中心x坐标，cy_k表示第k个连通域的最小外接矩形框的中心y坐标，max_k表示第k个连通域的最小外接矩形框的最大Y坐标，min_k表示第k个连通域的最小外接矩形框的最小Y坐标，up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点，H表示up_k到min_k之间的距离，W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围，该参数需要根据实际情况手动设置，用于限制比较的范围。

进一步的，min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标，其它参数同理。

进一步的，min_e表示DR[end]的最小外接矩形框的最小Y坐标，其它参数同理。

与现有技术相比，本发明具备以下有益效果：

以图7为例，通过本发明所述的方法，最终的行分割结果如图14所示，其中，同一种颜色的连通域表示同一行，不同颜色的连通域表示不同行，从图15和图16可以看出，本发明能够避免已有方法对图2和图4所得到的错误的行分割结果，本发明可以确保图2中关键词“DOT”的每一个连通域归属于同一行，以及图4中关键词”156”的每一个连通域归属于同一行，有利于在后续的OCR识别结果中正确的提取所需的关键词。

附图说明

图1为本发明一种用于图像中定位关键词的文本排序方法的流程图；

图2为现有图像文本布局的样本图一；

图3为已有方法对样本图一的行分割结果图；

图4为现有图像文本布局的样本图二；

图5为已有方法对样本图二的行分割结果图；

图6为连通域最小外接矩形框的位置的参数定义图；

图7为连通域最小外接矩形框按X轴的排序结果图；

图8为待排序与未排序的连通域属于同一行需满足的条件一、二、三的展示图；

图9为错误的分行情况一的展示图；

图10为将错误的分行情况一修正为正确的分行情况的展示图；

图11为待排序与未排序的连通域属于同一行需满足的条件四、五、六的展示图；

图12为错误的分行情况二的展示图；

图13为将错误的分行情况二修正为正确的分行情况的展示图；

图14为本发明对图7连通域的排序结果图；

图15为本发明对图3连通域的排序结果图；

图16为本发明对图5连通域的排序结果图。

具体实施方式

定义3个向量，分别命名为R0,R1和DR,它们的作用分别如下：

R0:初始化为空，存储未被排序的连通域。R1:初始化为已经按照X轴方向从左到右进行排序的连通域，后续用于临时存储不符合排序规则的连通域。DR:最终输出的连通域。

定义连通域最小外接矩形框的位置的相关变量：cx_k:第k个连通域的最小外接矩形框的中心x坐标。cy_k:第k个连通域的最小外接矩形框的中心y坐标。max_k:第k个连通域的最小外接矩形框的最大Y坐标。min_k:第k个连通域的最小外接矩形框的最小Y坐标。up_k:第k个连通域的最小外接矩形框的中心点与上边界之间的中点。H:up_k到min_k之间的距离。W:被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围，该参数需要根据实际情况手动设置，用于限制比较的范围。

参照图1至图16，一种用于图像中定位关键词的文本排序方法，包括如下步骤：

步骤1：提取图像中所有的连通域后，将连通域最小外接矩形框左上角的x坐标按照X轴方向从左到右进行排序，如图7所示。并将排序好的结果依次存放到向量R1中。

步骤2：此时在R1中的连通域是不满足最终排序规则的，将R1中所有的连通域取出，并存入向量R0中，此时R1为空向量。将R0的第一个连通域(即R0[0])取出，并存入DR中，作为新的一行的基准连通域。

步骤3：按照索引从小到大的顺序遍历R0，循环下标设为j，则R0[j]表示向量R0中的第j个连通域。获取R0[j]的位置参数：min_j,max_j,cy_j,cx_j,以及up_j。(其中，min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标，其它参数同理)。

步骤4：在遍历R0中的任意一个连通域时(这里假设遍历到第j个连通域，即R0[j])，按照索引从大到小的顺序遍历R1，循环下标设为k，将R0[j]与R1中满足条件三的连通域(这里假设是R1[k])进行相对位置的比较(如图8所示)，如果满足条件三的同时，也满足条件一和二，表明在R1中存在与R0[j]属于同一行的连通域，所以要将R0[j]存入R1中。该步骤可防止如图9所示的错误分行情况，由于连通域c跟a满足同一行的条件，但是c跟b也满足同一行的条件，而此时b被判定为不属于a的同一行时，b已经被存放R1当中，那么c此时也应该存放入R1当中，放到下一次判断的时候，b和c就可以被规为同一行，如图10所示。如果R1被遍历结束，且从未能同时满足条件一，二和三的时候，则执行步骤5，否则回到步骤3，遍历R0中的下一个连通域，即R0[j+1]。

步骤5：取出向量DR的最后一个连通域，即最近一次存入DR的连通域(这里设为DR[end])。获取DR[end]的位置参数：min_e,max_e,cy_e,以及cx_e。(其中，min_e表示DR[end]的最小外接矩形框的最小Y坐标，其它参数同理)。将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较(如图11所示)，如果同时满足条件四，五和六，则将R0[j]存入DR中，否则将R0[j]存入R1中。该步骤可实现如图10所示的结果，将b和c分为同一行，a归属于另一行。同时也可避免如图12所示的错误分行情况，连通域a和b满足同一行的条件，而c与a不满足同一行的条件，通过步骤5，可将c与b的相对位置关系进行判断，结果是c与b满足同一行的条件，那么a，b和c则都归属于同一行，如图13所示。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本模板的保护范围。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种用于图像中定位关键词的文本排序方法，其特征在于，包括如下步骤：

步骤3：按照索引从小到大的顺序遍历R0，循环下标设为j，则R0[j]表示向量R0中的第j个连通域，获取R0[j]的位置参数： min_j, max_j, cy_j, cx_j, 以及up_j，min_j表示R0中第j个连通域的最小外接矩形框的最小Y坐标，max_j表示R0中第j个连通域的最小外接矩形框的最大Y坐标，cx_j表示R0中第j个连通域的最小外接矩形框的中心x坐标，cy_j表示R0中第j个连通域的最小外接矩形框的中心y坐标，up_j表示R0中第j个连通域的最小外接矩形框的中心点与上边界之间的中点；

步骤5：取出向量DR的最后一个连通域，即最近一次存入DR的连通域DR[end]，获取DR[end]的位置参数： min_e, max_e, cy_e, 以及cx_e，min_e表示DR[end]的最小外接矩形框的最小Y坐标，max_e表示DR[end]的最小外接矩形框的最大Y坐标，cx_e表示DR[end]的最小外接矩形框的中心x坐标，cy_e表示DR[end]的最小外接矩形框的中心y坐标，将步骤4中未被存入R1的连通域R0[j]与DR[end]进行相对位置的比较，如果同时满足条件四，五和六，则将R0[j]存入DR中，否则将R0[j]存入R1中；

2.根据权利要求1所述的一种用于图像中定位关键词的文本排序方法，其特征在于，R0表示初始化为空，存储未被排序的连通域，R1表示初始化为已经按照X轴方向从左到右进行排序的连通域，后续用于临时存储不符合排序规则的连通域，DR表示最终输出的连通域。

3.根据权利要求2所述的一种用于图像中定位关键词的文本排序方法，其特征在于，cx_k表示第k个连通域的最小外接矩形框的中心x坐标，cy_k表示第k个连通域的最小外接矩形框的中心y坐标，max_k表示第k个连通域的最小外接矩形框的最大Y坐标，min_k表示第k个连通域的最小外接矩形框的最小Y坐标，up_k表示第k个连通域的最小外接矩形框的中心点与上边界之间的中点，H表示up_k到min_k之间的距离，W表示被用于判断相对位置关系的两个连通域中心点x坐标的距离的最大范围。