CN113159031B - 一种手写文本检测方法、装置及存储介质 - Google Patents
一种手写文本检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113159031B CN113159031B CN202110428121.6A CN202110428121A CN113159031B CN 113159031 B CN113159031 B CN 113159031B CN 202110428121 A CN202110428121 A CN 202110428121A CN 113159031 B CN113159031 B CN 113159031B
- Authority
- CN
- China
- Prior art keywords
- text
- line
- text line
- positioning information
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000012937 correction Methods 0.000 claims abstract description 39
- 230000009466 transformation Effects 0.000 claims abstract description 39
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种手写文本检测方法在、装置及存储介质,该方法包括:输入待检测文本图片,采用关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息;根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;根据水平投影对矫正文本行的单个文字进行分割,得到候选文字区域;计算候选文字区域中整行文字的包围框的平均宽度,并根据平均宽度合并整行文字的包围框,得到最终的文字检测结果。本发明实施例不仅能够有效矫正不同角度和不同方向的文本行,还能够准确合并左右偏旁被分割的文字,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其是涉及一种手写文本检测方法、装置及存储介质。
背景技术
文本检测识别在日常生活中拥有广泛的应用场景,诸如身份证识别、车票识别、车牌识别、表格识别等。手写文本相比印刷文本形状更加多变,相应的检测识别难度也更大。现有的文本检测方法大多针对印刷体文本,印刷体文本相比手写文本行排列更加整齐,无论传统方法还是深度学习的方法都易于进行单个文字的检测。但是由于手写文本行存在高低不一致的情况,且文字存在左右和上下结构,导致现有的文本检测方法难以准确检测手写文本。
发明内容
本发明提供一种手写文本检测方法,以解决现有的文本检测方法难以准确检测手写文本的技术问题。
本发明的第一实施例提供了一种手写文本检测方法,包括:
输入待检测文本图片,采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;
根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域;
计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果。
进一步的,所述采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息,具体为:
在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进,根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息。
进一步的,所述原始文本行包括倾斜文本行和高低不一致文本行,所述根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行,具体为:
根据文本行定位信息得到所述文本行的四点定位信息,获取根据所述四点定位信息所连成的四边形的各边长,根据所述四边形的各边长确定目标矫正矩形;
利用opencv计算所述文本行关键点坐标到所述目标矫正矩形的仿射变换矩阵;
根据所述仿射变换矩阵将所述倾斜文本行和所述高低不一致文本行仿射变换至矫正文本行。
进一步的,所述根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域,具体为:
对所述矫正文本行进行二值化处理后,在水平方向对所述矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对所述波浪线中的波峰进行分割,得到候选文字区域。
进一步的,所述计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果,具体为:
计算所述候选文字区域中整行文字包围框的平均宽度,将与所述整行文字包围框相邻,且宽度小于所述平均宽度的包围框进行合并,得到最终的文字检测结果。
本发明的第二实施例提供了一种手写文本检测装置,其特征在于,包括:
定位模块,用于输入待检测文本图片,采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;
矫正模块,用于根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
分割模块,用于根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域;
合并模块,用于计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果。
进一步的,所述矫正模块,具体用于:
根据文本行定位信息得到所述文本行的四点定位信息,获取根据所述四点定位信息所连成的四边形的各边长,根据所述四边形的各边长确定目标矫正矩形;
利用opencv计算所述文本行关键点坐标到所述目标矫正矩形的仿射变换矩阵;
根据所述仿射变换矩阵将所述倾斜文本行和所述高低不一致文本行仿射变换至矫正文本行。
进一步的,所述分割模块,具体用于:对所述矫正文本行进行二值化处理后,在水平方向对所述矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对所述波浪线中的波峰进行分割,得到候选文字区域。
进一步的,所述合并模块,具体用于:
计算所述候选文字区域中整行文字包围框的平均宽度,将与所述整行文字包围框相邻,且宽度小于所述平均宽度的包围框进行合并,得到最终的文字检测结果。
本发明的第三实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的一种手写文本检测方法。
本发明实施例采用关键点定位算法对文本行进行定位,得到精确的文本行定位信息,再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正,能够有效矫正不同角度和不同方向的文本行,从而能够提高文本检测的准确性;本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字,且每一文字的包围框均进行了位置的调整,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
附图说明
图1是本发明实施例提供的手写文本检测方法的流程示意图;
图2是本发明实施例提供的文本行定位的效果示意图;
图3是本发明实施例提供的文本行矫正的效果示意图;
图4是本发明实施例提供的整行文字进行分割的效果示意图;
图5是本发明实施例提供的文本检测的效果示意图;
图6是本发明实施例提供的手写文本检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参阅图1-5,本发明的第一实施例。本发明的第一实施例提供了如图1所示的一种手写文本检测方法,包括:
S1、输入待检测文本图片,采用关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息;
S2、根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
S3、根据水平投影对矫正文本行的单个文字进行分割,得到候选文字区域;
S4、计算候选文字区域中整行文字的包围框的平均宽度,并根据平均宽度合并整行文字的包围框,得到最终的文字检测结果。
本发明实施例采用关键点定位算法对文本行进行定位,得到精确的文本行定位信息,再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正,能够有效矫正不同角度和不同方向的文本行,从而能够提高文本检测的准确性;本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字,且每一文字的包围框均进行了位置的调整,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
作为本发明实施例的一种具体实施方式,采用关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息,具体为:
在yolov3关键点定位算法的基础上增加一条关键点输出分支对yolov3关键点定位算法进行改进,根据改进的yolov3关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息。
请参阅图2,本发明实施例提供的文本行定位的效果示意图。在本发明实施例中,改进的yolov3关键点定位算法能够同时实现文本行的检测和关键点定位,有利于提高对文本行的定位准确性。
作为本发明实施例的一种具体实施方式,原始文本行包括倾斜文本行和高低不一致文本行,根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行,具体为:
根据文本行定位信息得到文本行的四点定位信息,获取根据四点定位信息所连成的四边形的各边长,根据四边形的各边长确定目标矫正矩形;
利用opencv计算文本行关键点坐标到目标矫正矩形的仿射变换矩阵;
根据仿射变换矩阵将倾斜文本行和高低不一致文本行仿射变换至矫正文本行。
请参阅图3,本发明实施例提供的文本行矫正的效果示意图。本发明实施例根据四点定位信息连成的四边形的各边长分别为:上边长W1,下边长W2,左边长H1,右边长H2,则确定目标矫正矩形的坐标为(0,0),((W1+W2)/2,0),((W1+W2)/2,(H1+H2)/2),(0,(H1+H2)/2)。利用opencv计算出文本行关键点坐标到目标矫正矩形的仿射变换矩阵,再利用仿射变换将倾斜文本行或高低不一致文本行矫正为目标矫正矩形对应的文本行。本发明实施例通过放射变换对原始文本行中的倾斜文本行和高低不一致文本行进行矫正,实现二维坐标到二维坐标之间的线性变换,有利于保持二维图形的平直性。提高文本行矫正的效果。其中放射变换的原理为:
作为本发明实施例的一种具体实施方式,根据水平投影对矫正文本行的单个文字进行分割,得到候选文字区域,具体为:
对矫正文本行进行二值化处理后,在水平方向对矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对波浪线中的波峰进行分割,得到候选文字区域。
请参阅图4,本发明实施例提供的整行文字进行分割的效果示意图。在本发明实施例中,根据水平投影对单个文字进行分割得到候选文字区域,即为初步的文字检测结果。本发明实施例采用水平投影法能够快速、准确实现单个文字的分割,避免对大量文字进行检测时导致的耗时过长以及性能受限的问题,有利于提高文字检测的效率。
作为本发明实施例的一种具体实施方式,计算候选文字区域中整行文字的包围框的平均宽度,并根据平均宽度合并整行文字的包围框,得到最终的文字检测结果,具体为:
计算候选文字区域中整行文字包围框的平均宽度,将与整行文字包围框相邻,且宽度小于平均宽度的包围框进行合并,得到最终的文字检测结果。
请参阅图5,是本发明实施例提供的文本检测的效果示意图。本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字,且每一文字的包围框均进行了位置的调整,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
实施本发明实施例,具有以下有益效果:
本发明实施例采用关键点定位算法对文本行进行定位,得到精确的文本行定位信息,再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正,能够有效矫正不同角度和不同方向的文本行,从而能够提高文本检测的准确性;本发明实施例采用水平投影对矫正文本中的单个文字进行分割,并根据整行文字的包围框宽度,对相邻宽度较小的两个文字包围框进行合并,能够有效避免文本中汉子左右偏旁被分为两个汉字导致文本检测效果较差的问题,从而能够进一步提高文本检测的准确性。
请参阅图6,本发明的第二实施例提供了一种手写文本检测装置,,包括:
定位模块10,用于输入待检测文本图片,采用关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息;
矫正模块20,用于根据文本行定位信息对待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
分割模块30,用于根据水平投影对矫正文本行的单个文字进行分割,得到候选文字区域;
合并模块40,用于计算候选文字区域中整行文字的包围框的平均宽度,并根据平均宽度合并整行文字的包围框,得到最终的文字检测结果。
本发明实施例采用关键点定位算法对文本行进行定位,得到精确的文本行定位信息,再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正,能够有效矫正不同角度和不同方向的文本行,从而能够提高文本检测的准确性;本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字,且每一文字的包围框均进行了位置的调整,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
作为本发明实施例的一种具体实施方式,定为模块,具体用于:
在yolov3关键点定位算法的基础上增加一条关键点输出分支对yolov3关键点定位算法进行改进,根据改进的yolov3关键点定位算法对待检测文本图片的文本行进行定位,得到文本行定位信息。
请参阅图2,本发明实施例提供的文本行定位的效果示意图。在本发明实施例中,改进的yolov3关键点定位算法能够同时实现文本行的检测和关键点定位,有利于提高对文本行的定位准确性。
作为本发明实施例的一种具体实施方式,矫正模块20,具体用于:
根据文本行定位信息得到文本行的四点定位信息,获取根据四点定位信息所连成的四边形的各边长,根据四边形的各边长确定目标矫正矩形;
利用opencv计算文本行关键点坐标到目标矫正矩形的仿射变换矩阵;
根据仿射变换矩阵将倾斜文本行和高低不一致文本行仿射变换至矫正文本行。
请参阅图3,本发明实施例提供的文本行矫正的效果示意图。本发明实施例根据四点定位信息连成的四边形的各边长分别为:上边长W1,下边长W2,左边长H1,右边长H2,则确定目标矫正矩形的坐标为(0,0),((W1+W2)/2,0),((W1+W2)/2,(H1+H2)/2),(0,(H1+H2)/2)。利用opencv计算出文本行关键点坐标到目标矫正矩形的仿射变换矩阵,再利用仿射变换将倾斜文本行或高低不一致文本行矫正为目标矫正矩形对应的文本行。本发明实施例通过放射变换对原始文本行中的倾斜文本行和高低不一致文本行进行矫正,实现二维坐标到二维坐标之间的线性变换,有利于保持二维图形的平直性。提高文本行矫正的效果。其中放射变换的原理为:
作为本发明实施例的一种具体实施方式,分割模块30,具体用于:对矫正文本行进行二值化处理后,在水平方向对矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对波浪线中的波峰进行分割,得到候选文字区域。
请参阅图4,本发明实施例提供的整行文字进行分割的效果示意图。在本发明实施例中,根据水平投影对单个文字进行分割得到候选文字区域,即为初步的文字检测结果。本发明实施例采用水平投影法能够快速、准确实现单个文字的分割,避免对大量文字进行检测时导致的耗时过长以及性能受限的问题,有利于提高文字检测的效率
作为本发明实施例的一种具体实施方式,合并模块40,具体用于:
计算候选文字区域中整行文字包围框的平均宽度,将与整行文字包围框相邻,且宽度小于平均宽度的包围框进行合并,得到最终的文字检测结果。
请参阅图5,是本发明实施例提供的文本检测的效果示意图。本发明实施例能够准确合并在初步检测中左右偏旁被分割的文字,且每一文字的包围框均进行了位置的调整,结合了汉字的特点对手写文本进行检测,进一步提高了文本检测的准确性和可靠性。
实施本发明实施例,具有以下有益效果:
本发明实施例采用关键点定位算法对文本行进行定位,得到精确的文本行定位信息,再根据文本行定位信息通过放射变换对待检测文本图片中的文本行进行矫正,能够有效矫正不同角度和不同方向的文本行,从而能够提高文本检测的准确性;本发明实施例采用水平投影对矫正文本中的单个文字进行分割,并根据整行文字的包围框宽度,对相邻宽度较小的两个文字包围框进行合并,能够有效避免文本中汉子左右偏旁被分为两个汉字导致文本检测效果较差的问题,从而能够进一步提高文本检测的准确性。
本发明的第三实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如上述的一种手写文本检测方法。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种手写文本检测方法,其特征在于,包括:
输入待检测文本图片,采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;所述采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息,具体为:在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进,根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;
根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域;
计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果;所述计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果,具体为:计算所述候选文字区域中整行文字包围框的平均宽度,将与所述整行文字包围框相邻,且宽度小于所述平均宽度的包围框进行合并,得到最终的文字检测结果。
2.如权利要求1所述的手写文本检测方法,其特征在于,所述原始文本行包括倾斜文本行和高低不一致文本行,所述根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行,具体为:
根据文本行定位信息得到所述文本行的四点定位信息,获取根据所述四点定位信息所连成的四边形的各边长,根据所述四边形的各边长确定目标矫正矩形;
利用opencv计算所述文本行关键点坐标到所述目标矫正矩形的仿射变换矩阵;
根据所述仿射变换矩阵将所述倾斜文本行和所述高低不一致文本行仿射变换至矫正文本行。
3.如权利要求1所述的手写文本检测方法,其特征在于,所述根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域,具体为:
对所述矫正文本行进行二值化处理后,在水平方向对所述矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对所述波浪线中的波峰进行分割,得到候选文字区域。
4.一种手写文本检测装置,其特征在于,包括:
定位模块,用于输入待检测文本图片,采用关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;具体用于:在yolov3关键点定位算法的基础上增加一条关键点输出分支对所述yolov3关键点定位算法进行改进,根据改进的yolov3关键点定位算法对所述待检测文本图片的文本行进行定位,得到文本行定位信息;
矫正模块,用于根据所述文本行定位信息对所述待检测文本图片中的原始文本行进行仿射变换矫正,得到矫正文本行;
分割模块,用于根据水平投影对所述矫正文本行的单个文字进行分割,得到候选文字区域;
合并模块,用于计算所述候选文字区域中整行文字的包围框的平均宽度,并根据所述平均宽度合并所述整行文字的包围框,得到最终的文字检测结果;所述合并模块,具体用于:计算所述候选文字区域中整行文字包围框的平均宽度,将与所述整行文字包围框相邻,且宽度小于所述平均宽度的包围框进行合并,得到最终的文字检测结果。
5.如权利要求4所述的手写文本检测装置,其特征在于,所述原始文本行包括倾斜文本行和高低不一致文本行,所述矫正模块,具体用于:
根据文本行定位信息得到所述文本行的四点定位信息,获取根据所述四点定位信息所连成的四边形的各边长,根据所述四边形的各边长确定目标矫正矩形;
利用opencv计算所述文本行关键点坐标到所述目标矫正矩形的仿射变换矩阵;
根据所述仿射变换矩阵将所述倾斜文本行和所述高低不一致文本行仿射变换至矫正文本行。
6.如权利要求4所述的手写文本检测装置,其特征在于,所述分割模块,具体用于:对所述矫正文本行进行二值化处理后,在水平方向对所述矫正文本行中的像素值进行累加,得到波浪线;
通过设置阈值对所述波浪线中的波峰进行分割,得到候选文字区域。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至3中任意一项所述的一种手写文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428121.6A CN113159031B (zh) | 2021-04-21 | 2021-04-21 | 一种手写文本检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428121.6A CN113159031B (zh) | 2021-04-21 | 2021-04-21 | 一种手写文本检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159031A CN113159031A (zh) | 2021-07-23 |
CN113159031B true CN113159031B (zh) | 2024-05-10 |
Family
ID=76869121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110428121.6A Active CN113159031B (zh) | 2021-04-21 | 2021-04-21 | 一种手写文本检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159031B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869314A (zh) * | 2021-10-13 | 2021-12-31 | 广东金赋科技股份有限公司 | 一种文本方向聚类矫正的图像信息提取方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991382A (ja) * | 1995-07-17 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | オンライン手書き文字認識方法及びその装置 |
JPH1166238A (ja) * | 1997-08-22 | 1999-03-09 | Hitachi Software Eng Co Ltd | 手書き文字認識方法 |
CN104268603A (zh) * | 2014-09-16 | 2015-01-07 | 科大讯飞股份有限公司 | 用于文字性客观题的智能阅卷方法及*** |
CN107688806A (zh) * | 2017-08-21 | 2018-02-13 | 西北工业大学 | 一种基于仿射变换的自由场景文本检测方法 |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及*** |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
CN111488870A (zh) * | 2019-01-28 | 2020-08-04 | 富士通株式会社 | 文字识别方法和文字识别装置 |
KR20200101481A (ko) * | 2019-01-28 | 2020-08-28 | 삼성전자주식회사 | 전자 장치 및 그의 필체 보정 방법 |
WO2021051868A1 (zh) * | 2019-09-20 | 2021-03-25 | 平安科技(深圳)有限公司 | 目标的定位方法及装置、计算机设备、计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10062001B2 (en) * | 2016-09-29 | 2018-08-28 | Konica Minolta Laboratory U.S.A., Inc. | Method for line and word segmentation for handwritten text images |
-
2021
- 2021-04-21 CN CN202110428121.6A patent/CN113159031B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991382A (ja) * | 1995-07-17 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | オンライン手書き文字認識方法及びその装置 |
JPH1166238A (ja) * | 1997-08-22 | 1999-03-09 | Hitachi Software Eng Co Ltd | 手書き文字認識方法 |
CN104268603A (zh) * | 2014-09-16 | 2015-01-07 | 科大讯飞股份有限公司 | 用于文字性客观题的智能阅卷方法及*** |
CN107688806A (zh) * | 2017-08-21 | 2018-02-13 | 西北工业大学 | 一种基于仿射变换的自由场景文本检测方法 |
CN111488870A (zh) * | 2019-01-28 | 2020-08-04 | 富士通株式会社 | 文字识别方法和文字识别装置 |
KR20200101481A (ko) * | 2019-01-28 | 2020-08-28 | 삼성전자주식회사 | 전자 장치 및 그의 필체 보정 방법 |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及*** |
WO2021051868A1 (zh) * | 2019-09-20 | 2021-03-25 | 平安科技(深圳)有限公司 | 目标的定位方法及装置、计算机设备、计算机存储介质 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
Non-Patent Citations (3)
Title |
---|
Online handwritten character recognition using local affine transformation;Wakahara, T.;Transactions of the Institute of Electronics, Information and Communication Engineers(第2期);第379-386页 * |
回归――聚类联合框架下的手写文本行提取;朱健菲,等;中国图象图形学报(第08期);第1207-1217页 * |
基于组件合并的手写体汉字串分割;吕岳,等;软件学报(第11期);第1554-1559页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113159031A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN106960208B (zh) | 一种仪表液晶数字自动切分和识别的方法及*** | |
Tian et al. | Rectification and 3D reconstruction of curved document images | |
JP4170441B2 (ja) | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 | |
CN103034848B (zh) | 一种表单类型的识别方法 | |
EP3258422A1 (en) | Character segmentation and recognition method | |
JP5082637B2 (ja) | 画像処理プログラム、画像処理方法及び画像処理装置 | |
Das et al. | A fast algorithm for skew detection of document images using morphology | |
KR101207127B1 (ko) | 문자 인식 전처리 방법 및 장치 | |
US9324001B2 (en) | Character recognition device and character segmentation method | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
CN104794421A (zh) | 一种qr码定位及识别方法 | |
CN108830133A (zh) | 合同影像图片的识别方法、电子装置及可读存储介质 | |
CN113159031B (zh) | 一种手写文本检测方法、装置及存储介质 | |
Ligang et al. | Automatic document image mosaicing algorithm with hand-held camera | |
Pan et al. | An efficient method for skew correction of license plate | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 | |
CN113139399A (zh) | 一种图像线框识别方法及服务器 | |
JP4224328B2 (ja) | 車番認識装置 | |
JP2006155126A (ja) | 車両番号認識装置 | |
CN110969612A (zh) | 二维码印刷缺陷检测方法 | |
Alaei et al. | A new text-line alignment approach based on piece-wise painting algorithm for handwritten documents | |
CN111914847B (zh) | 一种基于模板匹配的ocr识别方法及其*** | |
Chethan et al. | Graphics separation and skew correction for mobile captured documents and comparative analysis with existing methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |