CN113159031B

CN113159031B - 一种手写文本检测方法、装置及存储介质

Info

Publication number: CN113159031B
Application number: CN202110428121.6A
Authority: CN
Inventors: 陈鹏飞; 毛亮; 陈映庭; 杨晓帆
Original assignee: Guangzhou Huiyi Culture Technology Co ltd
Current assignee: Guangzhou Huiyi Culture Technology Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2024-05-10
Anticipated expiration: 2041-04-21
Also published as: CN113159031A

Abstract

本发明公开了一种手写文本检测方法在、装置及存储介质，该方法包括：输入待检测文本图片，采用关键点定位算法对待检测文本图片的文本行进行定位，得到文本行定位信息；根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行；根据水平投影对矫正文本行的单个文字进行分割，得到候选文字区域；计算候选文字区域中整行文字的包围框的平均宽度，并根据平均宽度合并整行文字的包围框，得到最终的文字检测结果。本发明实施例不仅能够有效矫正不同角度和不同方向的文本行，还能够准确合并左右偏旁被分割的文字，结合了汉字的特点对手写文本进行检测，进一步提高了文本检测的准确性和可靠性。

Description

一种手写文本检测方法、装置及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种手写文本检测方法、装置及存储介质。

背景技术

文本检测识别在日常生活中拥有广泛的应用场景，诸如身份证识别、车票识别、车牌识别、表格识别等。手写文本相比印刷文本形状更加多变，相应的检测识别难度也更大。现有的文本检测方法大多针对印刷体文本，印刷体文本相比手写文本行排列更加整齐，无论传统方法还是深度学习的方法都易于进行单个文字的检测。但是由于手写文本行存在高低不一致的情况，且文字存在左右和上下结构，导致现有的文本检测方法难以准确检测手写文本。

发明内容

本发明提供一种手写文本检测方法，以解决现有的文本检测方法难以准确检测手写文本的技术问题。

本发明的第一实施例提供了一种手写文本检测方法，包括：

输入待检测文本图片，采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；

根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行；

根据水平投影对所述矫正文本行的单个文字进行分割，得到候选文字区域；

计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果。

进一步的，所述采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息，具体为：

在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进，根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息。

进一步的，所述原始文本行包括倾斜文本行和高低不一致文本行，所述根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行，具体为：

根据文本行定位信息得到所述文本行的四点定位信息，获取根据所述四点定位信息所连成的四边形的各边长，根据所述四边形的各边长确定目标矫正矩形；

利用opencv计算所述文本行关键点坐标到所述目标矫正矩形的仿射变换矩阵；

根据所述仿射变换矩阵将所述倾斜文本行和所述高低不一致文本行仿射变换至矫正文本行。

进一步的，所述根据水平投影对所述矫正文本行的单个文字进行分割，得到候选文字区域，具体为：

对所述矫正文本行进行二值化处理后，在水平方向对所述矫正文本行中的像素值进行累加，得到波浪线；

通过设置阈值对所述波浪线中的波峰进行分割，得到候选文字区域。

进一步的，所述计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果，具体为：

计算所述候选文字区域中整行文字包围框的平均宽度，将与所述整行文字包围框相邻，且宽度小于所述平均宽度的包围框进行合并，得到最终的文字检测结果。

本发明的第二实施例提供了一种手写文本检测装置，其特征在于，包括：

定位模块，用于输入待检测文本图片，采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；

矫正模块，用于根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行；

分割模块，用于根据水平投影对所述矫正文本行的单个文字进行分割，得到候选文字区域；

合并模块，用于计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果。

进一步的，所述矫正模块，具体用于：

进一步的，所述分割模块，具体用于：对所述矫正文本行进行二值化处理后，在水平方向对所述矫正文本行中的像素值进行累加，得到波浪线；

进一步的，所述合并模块，具体用于：

本发明的第三实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的一种手写文本检测方法。

本发明实施例采用关键点定位算法对文本行进行定位，得到精确的文本行定位信息，再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正，能够有效矫正不同角度和不同方向的文本行，从而能够提高文本检测的准确性；本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字，且每一文字的包围框均进行了位置的调整，结合了汉字的特点对手写文本进行检测，进一步提高了文本检测的准确性和可靠性。

附图说明

图1是本发明实施例提供的手写文本检测方法的流程示意图；

图2是本发明实施例提供的文本行定位的效果示意图；

图3是本发明实施例提供的文本行矫正的效果示意图；

图4是本发明实施例提供的整行文字进行分割的效果示意图；

图5是本发明实施例提供的文本检测的效果示意图；

图6是本发明实施例提供的手写文本检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参阅图1-5，本发明的第一实施例。本发明的第一实施例提供了如图1所示的一种手写文本检测方法，包括：

S1、输入待检测文本图片，采用关键点定位算法对待检测文本图片的文本行进行定位，得到文本行定位信息；

S2、根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行；

S3、根据水平投影对矫正文本行的单个文字进行分割，得到候选文字区域；

S4、计算候选文字区域中整行文字的包围框的平均宽度，并根据平均宽度合并整行文字的包围框，得到最终的文字检测结果。

作为本发明实施例的一种具体实施方式，采用关键点定位算法对待检测文本图片的文本行进行定位，得到文本行定位信息，具体为：

在yolov3关键点定位算法的基础上增加一条关键点输出分支对yolov3关键点定位算法进行改进，根据改进的yolov3关键点定位算法对待检测文本图片的文本行进行定位，得到文本行定位信息。

请参阅图2，本发明实施例提供的文本行定位的效果示意图。在本发明实施例中，改进的yolov3关键点定位算法能够同时实现文本行的检测和关键点定位，有利于提高对文本行的定位准确性。

作为本发明实施例的一种具体实施方式，原始文本行包括倾斜文本行和高低不一致文本行，根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行，具体为：

根据文本行定位信息得到文本行的四点定位信息，获取根据四点定位信息所连成的四边形的各边长，根据四边形的各边长确定目标矫正矩形；

利用opencv计算文本行关键点坐标到目标矫正矩形的仿射变换矩阵；

根据仿射变换矩阵将倾斜文本行和高低不一致文本行仿射变换至矫正文本行。

请参阅图3，本发明实施例提供的文本行矫正的效果示意图。本发明实施例根据四点定位信息连成的四边形的各边长分别为：上边长W1，下边长W2,左边长H1，右边长H2，则确定目标矫正矩形的坐标为(0,0)，((W1+W2)/2,0),((W1+W2)/2，(H1+H2)/2)，(0，(H1+H2)/2)。利用opencv计算出文本行关键点坐标到目标矫正矩形的仿射变换矩阵，再利用仿射变换将倾斜文本行或高低不一致文本行矫正为目标矫正矩形对应的文本行。本发明实施例通过放射变换对原始文本行中的倾斜文本行和高低不一致文本行进行矫正，实现二维坐标到二维坐标之间的线性变换，有利于保持二维图形的平直性。提高文本行矫正的效果。其中放射变换的原理为：

作为本发明实施例的一种具体实施方式，根据水平投影对矫正文本行的单个文字进行分割，得到候选文字区域，具体为：

对矫正文本行进行二值化处理后，在水平方向对矫正文本行中的像素值进行累加，得到波浪线；

通过设置阈值对波浪线中的波峰进行分割，得到候选文字区域。

请参阅图4，本发明实施例提供的整行文字进行分割的效果示意图。在本发明实施例中，根据水平投影对单个文字进行分割得到候选文字区域，即为初步的文字检测结果。本发明实施例采用水平投影法能够快速、准确实现单个文字的分割，避免对大量文字进行检测时导致的耗时过长以及性能受限的问题，有利于提高文字检测的效率。

作为本发明实施例的一种具体实施方式，计算候选文字区域中整行文字的包围框的平均宽度，并根据平均宽度合并整行文字的包围框，得到最终的文字检测结果，具体为：

计算候选文字区域中整行文字包围框的平均宽度，将与整行文字包围框相邻，且宽度小于平均宽度的包围框进行合并，得到最终的文字检测结果。

请参阅图5，是本发明实施例提供的文本检测的效果示意图。本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字，且每一文字的包围框均进行了位置的调整，结合了汉字的特点对手写文本进行检测，进一步提高了文本检测的准确性和可靠性。

实施本发明实施例，具有以下有益效果：

本发明实施例采用关键点定位算法对文本行进行定位，得到精确的文本行定位信息，再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正，能够有效矫正不同角度和不同方向的文本行，从而能够提高文本检测的准确性；本发明实施例采用水平投影对矫正文本中的单个文字进行分割，并根据整行文字的包围框宽度，对相邻宽度较小的两个文字包围框进行合并，能够有效避免文本中汉子左右偏旁被分为两个汉字导致文本检测效果较差的问题，从而能够进一步提高文本检测的准确性。

请参阅图6，本发明的第二实施例提供了一种手写文本检测装置，,包括：

定位模块10，用于输入待检测文本图片，采用关键点定位算法对待检测文本图片的文本行进行定位，得到文本行定位信息；

矫正模块20，用于根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行；

分割模块30，用于根据水平投影对矫正文本行的单个文字进行分割，得到候选文字区域；

合并模块40，用于计算候选文字区域中整行文字的包围框的平均宽度，并根据平均宽度合并整行文字的包围框，得到最终的文字检测结果。

作为本发明实施例的一种具体实施方式，定为模块，具体用于：

作为本发明实施例的一种具体实施方式，矫正模块20，具体用于：

作为本发明实施例的一种具体实施方式，分割模块30，具体用于：对矫正文本行进行二值化处理后，在水平方向对矫正文本行中的像素值进行累加，得到波浪线；

请参阅图4，本发明实施例提供的整行文字进行分割的效果示意图。在本发明实施例中，根据水平投影对单个文字进行分割得到候选文字区域，即为初步的文字检测结果。本发明实施例采用水平投影法能够快速、准确实现单个文字的分割，避免对大量文字进行检测时导致的耗时过长以及性能受限的问题，有利于提高文字检测的效率

作为本发明实施例的一种具体实施方式，合并模块40，具体用于：

实施本发明实施例，具有以下有益效果：

本发明的第三实施例提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如上述的一种手写文本检测方法。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种手写文本检测方法，其特征在于，包括：

输入待检测文本图片，采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；所述采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息，具体为：在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进，根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；

计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果；所述计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果，具体为：计算所述候选文字区域中整行文字包围框的平均宽度，将与所述整行文字包围框相邻，且宽度小于所述平均宽度的包围框进行合并，得到最终的文字检测结果。

2.如权利要求1所述的手写文本检测方法，其特征在于，所述原始文本行包括倾斜文本行和高低不一致文本行，所述根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正，得到矫正文本行，具体为：

3.如权利要求1所述的手写文本检测方法，其特征在于，所述根据水平投影对所述矫正文本行的单个文字进行分割，得到候选文字区域，具体为：

4.一种手写文本检测装置，其特征在于，包括：

定位模块，用于输入待检测文本图片，采用关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；具体用于：在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进，根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位，得到文本行定位信息；

合并模块，用于计算所述候选文字区域中整行文字的包围框的平均宽度，并根据所述平均宽度合并所述整行文字的包围框，得到最终的文字检测结果；所述合并模块，具体用于：计算所述候选文字区域中整行文字包围框的平均宽度，将与所述整行文字包围框相邻，且宽度小于所述平均宽度的包围框进行合并，得到最终的文字检测结果。

5.如权利要求4所述的手写文本检测装置，其特征在于，所述原始文本行包括倾斜文本行和高低不一致文本行，所述矫正模块，具体用于：

6.如权利要求4所述的手写文本检测装置，其特征在于，所述分割模块，具体用于：对所述矫正文本行进行二值化处理后，在水平方向对所述矫正文本行中的像素值进行累加，得到波浪线；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至3中任意一项所述的一种手写文本检测方法。