CN108108731A - 基于合成数据的文本检测方法及装置 - Google Patents
基于合成数据的文本检测方法及装置 Download PDFInfo
- Publication number
- CN108108731A CN108108731A CN201611055485.XA CN201611055485A CN108108731A CN 108108731 A CN108108731 A CN 108108731A CN 201611055485 A CN201611055485 A CN 201611055485A CN 108108731 A CN108108731 A CN 108108731A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- textual
- detected
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于合成数据的文本检测方法,包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用文本检测的全卷积神经网络模型得到待检测图像的灰度图的概率图并进行阈值二值化,得到二值化概率图;对二值化概率图与待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在该除去非文本背景区域的图像中提取候选文本框;获取不同尺度下的除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对其进行过滤,得到最终的文本框;本发明实施例同时还公开了一种基于合成数据的文本检测装置。
Description
技术领域
本发明涉及图像检测领域,尤其涉及一种基于合成数据的文本检测方法及装置。
背景技术
随着图像采集设备,如照相机、可拍照手机、掌上电脑等在人们日常生活中的广泛使用,基于图像内容的图像检测技术受到了越来越多的重视;在图像所包含的内容当中,文本信息由于更容易被人类和计算机理解,因而受到了极大的关注。
对于场景图像中的文本检测,目前较为流行的方法是利用深度学习技术进行文本检测,主要包括基于区域的方法和基于像素的方法;该方法在利用全卷积神经网络得到文字的概率图之后,直接利用文字各尺度的概率图进行非极大值抑制,得到最终检测结果;这种方法没有充分利用原始图像的信息,其检测结果极易受到概率图中异常概率点的影响,从而产生较多偏差,检测结果不精确。
发明内容
有鉴于此,本发明实施例期望提供一种基于合成数据的文本检测的方法及装置,以实现场景图像中文本的检测,提高检测的精度和准确度。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种基于合成数据的文本检测方法,所述方法包括:
对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;
利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;
对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;
获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
上述方案中,在所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练之前,所述方法还包括:
对GB2312标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。
上述方案中,所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型,包括:
对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;
将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。
上述方案中,所述利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图,包括:
将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;
利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;
利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。
上述方案中,所述对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框,包括:
对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;
对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。
上述方案中,所述利用分类器对所述候选文本框集进行过滤,得到最终的文本框,包括:
利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。
本发明提供一种基于合成数据的文本检测装置,所述装置包括:
训练模块,用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;
获取模块,用于利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;
提取模块,用于对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;
过滤模块,用于获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
上述方案中,所述装置还包括:
生成模块,用于对GB2372标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。
上述方案中,所述训练模块,具体用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;
将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。
上述方案中,所述获取模块,具体用于将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;
利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;
利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。
上述方案中,所述提取模块,具体用于对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;
对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。
上述方案中,所述过滤模块,具体用于利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。
本发明实施例所提供的基于合成数据的文本检测的方法及装置,通过对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框;实现了对场景图像中文本的检测,提高了文本检测的精度和准确度。
附图说明
图1为本发明基于合成数据的文本检测方法实施例一的流程图;
图2为本发明基于合成数据的文本检测方法实施例二的流程图;
图3为本发明基于合成数据的文本检测方法实施例二的单字图像数据集示意图;
图4为本发明基于合成数据的文本检测方法实施例二的获取待检测图像的灰度图的概率图的过程示意图;
图5为本发明基于合成数据的文本检测方法实施例二的对二值化概率图与待检测图像的灰度图进行图像操作的示意图;
图6为本发明基于合成数据的文本检测方法实施例二的检测结果示意图;
图7为本发明基于合成数据的文本检测装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
图1为本发明基于合成数据的文本检测方法实施例一的流程图;如图1所示,本发明实施例提供的基于合成数据的文本检测方法可以包括如下步骤:
步骤101:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型。
对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本使用深度神经网络结构进行训练,得到文本和非文本分类模型;然后将得到的文本和非文本分类模型的全连接层转化为卷积层,获得文本检测的全卷积神经网络模型。
步骤102:利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图。
以任一待检测图像作为输入数据,先对该待检测图像进行灰度处理,得到该待检测图像的灰度图;然后利用步骤101中获得的文本检测的全卷积神经网络模型对得到的待检测图像的灰度图进行处理,得到待检测图像的灰度图的概率图;再利用二阶线性插值的方法将得到的待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并对恢复后的待检测图像的灰度图的概率图进行阈值二值化处理,得到二值化概率图。
步骤103:对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框。
在得到待检测图像的二值化概率图之后,对所述二值化概率图进行游程平滑处理,然后对游程平滑处理后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到除去非文本背景区域的图像;在得到所述除去非文本背景区域的图像之后,对该除去非文本背景区域的图像进行阈值化和水平游程平滑处理,求其连通区域的最小包围矩形,并将获得的连通区域的最小包围矩形作为候选文本框。
步骤104:获取在不同尺度下的所述除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
对步骤102中输入的待检测图像进行多个尺度的缩放,然后重复执行步骤102至步骤103,获取不同尺度下的除去非文本背景区域的待检测图的候选文本框,形成候选文本框集;在形成候选文本框集之后,利用Adaboost分类器对所述候选文本框集中的所有候选文本框根据其紧实度及长宽比等特征进行过滤,去除掉不符合要求的候选文本框,得到最终的文本框,即得到最终的文本检测结果。
本发明实施例提供的基于合成数据的文本检测方法,通过对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框;实现了对场景图像中文本的检测,提高了文本检测的精度和准确度。
实施例二
图2为本发明基于合成数据的文本检测方法实施例二的流程图;如图2所示,本发明实施例提供的基于合成数据的文本检测方法可以包括如下步骤:
步骤201:对GB2312标准中的每个一级常用汉字进行处理,得到单字图像数据集。
对于GB2312标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声等处理,得到单字图像数据集。
例如,对GB2312标准中的“五”字进行处理,得到“五”字的单字图像数据集;图3为本发明基于合成数据的文本检测方法实施例二的单字图像数据集示意图;如图3所示,对“五”字采用不同字体类型和视觉特征进行倾斜、旋转、透视、加噪声等处理,可生成“五”字的单字图像数据集;对GB2312标准中的每个一级常用汉字使用相同的方法进行倾斜、旋转、透视、加噪声等处理,每个汉字都生成如1000张文字图像,然后将这些文字图像集中起来,构成最终的单字图像数据集。
步骤202:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型。
获得单字图像数据集后,将该单字图像数据集作为正样本,并从大量非文本图像数据集中随机裁剪出与所述正样本等量的不含有文本信息的图像块作为负样本,然后将所述正样本和所述负样本进行深度神经网络训练,得到文本和非文本分类模型。
步骤203:将文本和非文本分类模型转化为文本检测的全卷积神经网络模型。
通过对正样本和负样本进行深度神经网络训练,得到文本和非文本分类模型之后,将得到的文本和非文本分类模型的全连接层转化为卷积层,进而得到文本检测的全卷积神经网络模型。
步骤204:利用文本检测的全卷积神经网络模型得到待检测图像的灰度图的概率图。
在获得文本检测的全卷积神经网络模型之后,以任一待检测图像作为输入数据,先对其进行灰度处理,获得待检测图像的灰度图;然后利用得到的文本检测的全卷积神经网络模型对获得的灰度图进行处理,进而得到待检测图像的灰度图的概率图。
图4为本发明基于合成数据的文本检测方法实施例二的获取待检测图像的灰度图的概率图的过程示意图;如图4所示,待检测图像41中包含有文本信息,将该待检测图像41作为输入数据,并对其进行灰度处理,可获得待检测图像41的灰度图;然后对待检测图像41的灰度图利用步骤203获得的文本检测的全卷积神经网络模型进行处理,便可得到待检测图像41的灰度图的概率图42。
步骤205:对待检测图像的灰度图的概率图进行阈值二值化,得到二值化概率图。
在得到待检测图像的灰度图的概率图之后,先使用二阶线性插值的方法将该概率图的尺寸恢复到与待检测图像同等的尺寸,然后设置一阈值Th,对恢复尺寸后的概率图进行阈值分割,高于设定阈值Th的像素处置1,低于设定阈值Th的像素处置0,即对恢复尺寸后的待检测图像的灰度图的概率图进行阈值二值化,得到二值化概率图。
例如,可设定图4中获得的概率图42的阈值Th为0.7,并使用二阶线性插值的方法将该概率图42的尺寸恢复到与待检测图像41同等的尺寸;对概率图42恢复尺寸后的概率图进行阈值二值化时,将高于设定阈值0.7的像素处的灰度值置为1,而将低于设定阈值0.7的像素处的灰度值置为0,便得到待检测图像41的二值化概率图。
步骤206:对二值化概率图与待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像。
在对待检测图像的灰度图的概率图进行阈值二值化,得到二值化概率图后,使用游程平滑算法对该二值化概率图进行游程平滑处理,将属于同一文本行的高概率值区域连接起来,然后将游程平滑后的二值化概率图与待检测图像的灰度图进行图像“与”操作,过滤掉二值化概率图中的非文本背景区域,从而得到除去非文本背景区域的图像。
图5为本发明基于合成数据的文本检测方法实施例二的对二值化概率图与待检测图像的灰度图进行图像操作的示意图;如图5所示,使用游程平滑算法对图4中的概率图42的二值化概率图进行游程平滑处理,将属于同一文本行的高概率值区域连接起来,得到游程平滑后的二值化概率图51;然后用游程平滑后的二值化概率图51与图4中的待检测图像41的灰度图进行图像“与”操作,过滤掉二值化概率图51中的大部分非文本背景区域,便可得到除去非文本背景区域的图像52。
步骤207:在除去非文本背景区域的图像中提取候选文本框。
在获取到除去非文本背景区域的图像之后,对该除去非文本背景区域的图像进行阈值化和水平游程平滑处理,将获得的连通区域的最小包围矩形作为候选文本框。
例如,对图5中获得的除去非文本背景区域的图像52进行阈值化处理,并利用水平游程平滑算法对其进行水平游程平滑处理,求其连通区域的最小包围矩形,将获得的连通区域的最小包围矩形作为候选文本框。
步骤208:获取在不同尺度下的除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集。
对输入的待检测图像进行多个尺度的缩放,比如,对待检测图像进行0.3倍、0.5倍、1.2倍等多个尺度的缩放,得到不同尺寸的待检测图像,然后将得到的不同尺寸的待检测图像作为输入数据,重复执行步骤204至步骤207,获取在不同尺度下的除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集。
步骤209:利用分类器对候选文本框集进行过滤,得到最终的文本框。
在得到候选文本框集之后,利用Adaboost分类器对所述候选文本框集中的所有候选文本框根据紧实度,如面积、周长,及长宽比等特征进行过滤,去除不符合要求的候选文本框,即去除概率图误判的候选文本框,得到最终的文本框,即最终的文本检测结果。
例如,获取到不同尺度下的除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集之后,利用Adaboost分类器对候选文本框集中的每一个候选文本框根据长宽比特征进行过滤,去除掉不符合长宽比要求的候选文本框,即去除掉概率图误判的候选文本框,便可得到最终的文本检测结果。
图6为本发明基于合成数据的文本检测方法实施例二的检测结果示意图;如图6所示,在用Adaboost分类器对候选文本框集中的每一个候选文本框根据长宽比特征进行过滤后,得到的文本框区域与图4中的待检测图像41相比,很好的重现了待检测图像中的文本信息,获得了较精确的文本检测结果。
本发明实施例提供的基于合成数据的文本检测方法,通过对GB2312标准中的每个一级常用汉字进行处理,得到单字图像数据集;对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;将文本和非文本分类模型转化为文本检测的全卷积神经网络模型;利用文本检测的全卷积神经网络模型得到待检测图像的灰度图的概率图;对待检测图像的灰度图的概率图进行阈值二值化,得到二值化概率图;对二值化概率图与待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像;在除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集;利用分类器对候选文本框集进行过滤,得到最终的文本框;实现了对场景图像中文本的检测,提高了文本检测的精度和准确度。
实施例三
图7为本发明基于合成数据的文本检测装置实施例的结构示意图;如图7所示,本发明实施例提供的基于合成数据的文本检测装置07包括:训练模块71、获取模块72、提取模块73、过滤模块74;其中,
所述训练模块71,用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;
所述获取模块72,用于利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;
所述提取模块73,用于对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;
所述过滤模块74,用于获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
进一步的,所述装置07还包括:生成模块75;其中,
所述生成模块75,用于对GB2372标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。
进一步的,所述训练模块71,具体用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;
将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。
进一步的,所述获取模块72,具体用于将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;
利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;
利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。
进一步的,所述提取模块73,具体用于对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;
对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。
进一步的,所述过滤模块74,具体用于利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。
本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在实际应用中,所述训练模块71、获取模块72、提取模块73、过滤模块74、生成模块75均可由位于基于合成数据的文本检测装置07中的中央处理器(Central ProcessingUnit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (12)
1.一种基于合成数据的文本检测方法,其特征在于,所述方法包括:
对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;
利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;
对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;
获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
2.根据权利要求1所述的方法,其特征在于,在所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练之前,所述方法还包括:
对GB2312标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。
3.根据权利要求1所述的方法,其特征在于,所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型,包括:
对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;
将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图,包括:
将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;
利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;
利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。
5.根据权利要求1所述的方法,其特征在于,所述对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框,包括:
对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;
对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。
6.根据权利要求1所述的方法,其特征在于,所述利用分类器对所述候选文本框集进行过滤,得到最终的文本框,包括:
利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。
7.一种基于合成数据的文本检测装置,其特征在于,所述装置包括:
训练模块,用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;
获取模块,用于利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;
提取模块,用于对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;
过滤模块,用于获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
生成模块,用于对GB2372标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。
9.根据权利要求7所述的装置,其特征在于,所述训练模块,具体用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;
将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。
10.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;
利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;
利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。
11.根据权利要求7所述的装置,其特征在于,所述提取模块,具体用于对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;
对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。
12.根据权利要求7所述的装置,其特征在于,所述过滤模块,具体用于利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611055485.XA CN108108731B (zh) | 2016-11-25 | 2016-11-25 | 基于合成数据的文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611055485.XA CN108108731B (zh) | 2016-11-25 | 2016-11-25 | 基于合成数据的文本检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108731A true CN108108731A (zh) | 2018-06-01 |
CN108108731B CN108108731B (zh) | 2021-02-05 |
Family
ID=62205258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611055485.XA Active CN108108731B (zh) | 2016-11-25 | 2016-11-25 | 基于合成数据的文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108731B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583367A (zh) * | 2018-11-28 | 2019-04-05 | 网易(杭州)网络有限公司 | 图像文本行检测方法及装置、存储介质和电子设备 |
CN109670495A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种基于深度神经网络的长短文本检测的方法及*** |
CN110276279A (zh) * | 2019-06-06 | 2019-09-24 | 华东师范大学 | 一种基于图像分割的任意形状场景文本探测方法 |
CN110414499A (zh) * | 2019-07-26 | 2019-11-05 | 第四范式(北京)技术有限公司 | 文本位置定位方法和***以及模型训练方法和*** |
CN110427946A (zh) * | 2019-07-04 | 2019-11-08 | 天津车之家数据信息技术有限公司 | 一种文档图像二值化方法、装置和计算设备 |
CN110569835A (zh) * | 2018-06-06 | 2019-12-13 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
CN111062264A (zh) * | 2019-11-27 | 2020-04-24 | 重庆邮电大学 | 一种基于双通路混合卷积网络的文档对象分类方法 |
CN111259878A (zh) * | 2018-11-30 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 一种检测文本的方法和设备 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
JP2021527256A (ja) * | 2018-06-06 | 2021-10-11 | コグネックス・コーポレイション | ビジョンシステムで画像内のパターンを検出及び分類するためのシステム及び方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1804861A (zh) * | 2005-12-29 | 2006-07-19 | 北大方正集团有限公司 | 一种文稿图像几何畸变的校正方法 |
CN102750540A (zh) * | 2012-06-12 | 2012-10-24 | 大连理工大学 | 基于形态滤波增强的最稳定极值区视频文本检测方法 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
-
2016
- 2016-11-25 CN CN201611055485.XA patent/CN108108731B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1804861A (zh) * | 2005-12-29 | 2006-07-19 | 北大方正集团有限公司 | 一种文稿图像几何畸变的校正方法 |
CN102750540A (zh) * | 2012-06-12 | 2012-10-24 | 大连理工大学 | 基于形态滤波增强的最稳定极值区视频文本检测方法 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
TONG HE ET AL: "Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network", 《ARXIV:1603.09423V1[CS.CV]》 * |
黄晓明 等: "自然场景文本区域定位", 《重庆邮电大学学报(自然科学版)》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569835A (zh) * | 2018-06-06 | 2019-12-13 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
US11568629B2 (en) | 2018-06-06 | 2023-01-31 | Cognex Corporation | System and method for finding and classifying patterns in an image with a vision system |
JP2021527256A (ja) * | 2018-06-06 | 2021-10-11 | コグネックス・コーポレイション | ビジョンシステムで画像内のパターンを検出及び分類するためのシステム及び方法 |
JP7316731B2 (ja) | 2018-06-06 | 2023-07-28 | コグネックス・コーポレイション | ビジョンシステムで画像内のパターンを検出及び分類するためのシステム及び方法 |
CN110569835B (zh) * | 2018-06-06 | 2024-03-05 | 北京搜狗科技发展有限公司 | 一种图像识别方法、装置和电子设备 |
CN109583367A (zh) * | 2018-11-28 | 2019-04-05 | 网易(杭州)网络有限公司 | 图像文本行检测方法及装置、存储介质和电子设备 |
CN111259878A (zh) * | 2018-11-30 | 2020-06-09 | 中移(杭州)信息技术有限公司 | 一种检测文本的方法和设备 |
CN109670495A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种基于深度神经网络的长短文本检测的方法及*** |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN111476067B (zh) * | 2019-01-23 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN110276279A (zh) * | 2019-06-06 | 2019-09-24 | 华东师范大学 | 一种基于图像分割的任意形状场景文本探测方法 |
CN110427946A (zh) * | 2019-07-04 | 2019-11-08 | 天津车之家数据信息技术有限公司 | 一种文档图像二值化方法、装置和计算设备 |
CN110427946B (zh) * | 2019-07-04 | 2021-09-03 | 天津车之家数据信息技术有限公司 | 一种文档图像二值化方法、装置和计算设备 |
CN110414499A (zh) * | 2019-07-26 | 2019-11-05 | 第四范式(北京)技术有限公司 | 文本位置定位方法和***以及模型训练方法和*** |
CN111062264A (zh) * | 2019-11-27 | 2020-04-24 | 重庆邮电大学 | 一种基于双通路混合卷积网络的文档对象分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108108731B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108731A (zh) | 基于合成数据的文本检测方法及装置 | |
CN105574513B (zh) | 文字检测方法和装置 | |
CN110084249A (zh) | 基于金字塔特征注意的图像显著性检测方法 | |
CN106650740B (zh) | 一种车牌识别方法及终端 | |
CN103218605B (zh) | 一种基于积分投影与边缘检测的快速人眼定位方法 | |
CN109359539B (zh) | 注意力评估方法、装置、终端设备及计算机可读存储介质 | |
CN104866868A (zh) | 基于深度神经网络的金属币识别方法和装置 | |
CN104751153B (zh) | 一种识别场景文字的方法及装置 | |
CN110582783B (zh) | 训练装置、图像识别装置、训练方法和计算机可读信息存储介质 | |
CN108986125B (zh) | 物体边缘提取方法、装置及电子设备 | |
CN110245697B (zh) | 一种表面脏污检测方法、终端设备及存储介质 | |
CN112712273B (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
CN103946865B (zh) | 用于有助于检测图像内的文本的方法和装置 | |
CN109598301B (zh) | 检测区域去除方法、装置、终端和存储介质 | |
CN105117740A (zh) | 字体识别方法及装置 | |
Leavline et al. | On teaching digital image processing with MATLAB | |
CN111563505A (zh) | 一种基于像素分割合并的文字检测方法及装置 | |
CN111680577A (zh) | 人脸检测方法和装置 | |
CN108764248B (zh) | 图像特征点的提取方法和装置 | |
CN105930811A (zh) | 基于图像处理的手掌纹理特征检测方法 | |
CN112418220A (zh) | 一种单字检测方法、装置、设备及介质 | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、***、设备和存储介质 | |
CN105913427A (zh) | 一种基于机器学习的噪声图像显著性检测方法 | |
Hashemi et al. | Evaluation and classification new algorithms in Image Resizing | |
CN115331209A (zh) | 一种青铜器铭文识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310012 building A01, 1600 yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd. Applicant after: China Mobile Communications Corp. Address before: 310012, No. 14, building three, Chang Torch Hotel, No. 259, Wensanlu Road, Xihu District, Zhejiang, Hangzhou Applicant before: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd. Applicant before: China Mobile Communications Corp. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |