CN108171104A

CN108171104A - 一种文字检测方法及装置

Info

Publication number: CN108171104A
Application number: CN201611124294.4A
Authority: CN
Inventors: 文亚飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-06-15
Anticipated expiration: 2036-12-08
Also published as: WO2018103608A1; CN108171104B; US10896349B2; US20190188528A1

Abstract

本发明实施例提供了一种文字检测方法及装置，其中方法包括：获取待检测图像的边缘信息；根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点；对所述候选文字像素点进行投影切割，根据投影切割结果确定所述待检测图像中的文字区域。通过本发明实施例可以提高文字检测的准确率和速度。

Description

一种文字检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文字检测方法及装置。

背景技术

随着互联网技术的快速发展，互联网承载的图片内容呈***性增长趋势，对图片中的文字进行检测具有十分重要的研究和应用价值，例如应用于图片分类、图片检索、文字识别等。

目前常用的是基于笔画宽度变换(Stroke Width Transform，SWT)的文字检测方案，主要包括：对输入图像以固定阈值提取canny边缘和梯度方向，进行笔画宽度变换，对边缘图像进行连通域分析，增加笔画宽度的约束，通过先验知识比如连通域笔画的方差，均值，高，宽，高宽比等把明显不满足要求的非文字连通域滤除掉，通过上述步骤得到的连通域为单个的候选字符，再将笔画宽度、颜色、距离相近的候选字合并成整行。然而，上述方案在对低对比度、背景纹理丰富的复杂图像进行文字检测时容易存在漏检以及误检的情况，并且检测速度慢，不适合实时或者大数据处理的场景。可见，如何提供一种准确率高并且速度快的文字检测方案已成为亟待解决的问题。

发明内容

本发明实施例提供了一种文字检测方法及装置，可以提高文字检测的准确率和速度。

本发明实施例第一方面提供了一种文字检测方法，包括：

获取待检测图像的边缘信息。

根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

对所述候选文字像素点进行投影切割，根据投影切割结果确定所述待检测图像中的文字区域。

本发明实施例第二方面提供了一种文字检测装置，包括：

获取模块，用于获取待检测图像的边缘信息。

确定模块，用于根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

投影切割模块，用于对所述候选文字像素点进行投影切割。

所述确定模块，还用于根据投影切割结果确定所述待检测图像中的文字区域。

通过本发明实施例可以获取待检测图像的边缘信息，根据该待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定该待检测图像中的候选文字像素点，并对该候选文字像素点进行投影切割，再根据投影切割结果即可确定该待检测图像中的文字区域，从而可以提高文字检测的准确率，还可以提高文字检测的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文字检测方法的第一实施例流程示意图；

图2a是本发明实施例提供的一种灰度直方图；

图2b是本发明实施例提供的另一种灰度直方图；

图2c是本发明实施例提供的又一种灰度直方图；

图2d是本发明实施例提供的又一种灰度直方图；

图2e是本发明实施例提供的一种文字检测的示意图；

图2f是本发明实施例提供的另一种文字检测的示意图；

图2g是本发明实施例提供的又一种文字检测的示意图；

图2h是本发明实施例提供的又一种文字检测的示意图；

图3是本发明实施例提供的一种文字检测方法的第二实施例流程示意图；

图4a是本发明实施例提供的又一种文字检测的示意图；

图4b是本发明实施例提供的又一种文字检测的示意图；

图4c是本发明实施例提供的又一种文字检测的示意图；

图4d是本发明实施例提供的又一种文字检测的示意图；

图5是本发明实施例提供的一种文字检测装置的结构示意图；

图6是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为本发明实施例提供的一种文字检测方法的第一实施例流程示意图。本实施例中所描述的文字检测方法，包括以下步骤：

101、服务器获取待检测图像的边缘信息。

在一些可行的实施方式中，服务器接收输入的待检测图像，获取待检测图像的边缘信息之前，可以对待检测图像进行去噪处理、拉伸处理等，例如，将待检测图像与高斯平滑模板作卷积，以滤除像素噪声；当待检测图像的宽度或高度小于一定阈值(例如400个像素)时，对待检测图像进行拉伸处理，使得在待检测图像中存在文字时可以提高文字之间的间距，避免文字之间的粘连。

在一些可行的实施方式中，服务器接收输入的待检测图像，获取待检测图像的边缘信息之前，可以将待检测图像转化为灰度图像，获取待检测图像的灰度直方图，通过统计待检测图像的灰度直方图中像素值的分布情况，确定待检测图像的图像类型。其中，图像类型包括具备背景单一、字迹清晰、高对比度等特点的简单图文，以及具备复杂背景、低对比度、文字编排样式复杂、文字规格不一等特点的复杂图文。一般地，简单图文的灰度直方图中像素值的分布情况大都满足相似特征：某一像素值对应的像素个数明显高于其它像素值对应的像素个数，而复杂图文则不具备这一特征，从而可以在统计待检测图像的灰度直方图中像素值的分布情况后，判断待检测图像的灰度直方图中是否存在某个像素值对应的像素个数比其它像素值对应的像素个数都多出几个数量级(例如3个数量级及以上)或者是否存在某个像素值对应的像素个数在待检测图像的全部像素个数中的占比达到了一定比例(例如90％)，如果存在某个像素值对应的像素个数比其它像素值对应的像素个数都多出几个数量级或者存在某个像素值对应的像素个数在待检测图像的全部像素个数中的占比达到了一定比例，则可以判定待检测图像为简单图文，否则，可以判定为复杂图文。

如图2a所示，右图为原始图像，左图为对应的灰度直方图，根据灰度直方图中各个像素值对应的像素个数可知存在一像素值对应的像素个数比其它像素值对应的像素个数都多出几个数量级，从而判定右图为简单图文。类似地，如图2b所示，右图也为简单图文。

如图2c所示，右图为原始图像，左图为对应的灰度直方图，根据灰度直方图中各个像素值对应的像素个数可知有多个像素值对应的像素个数较为接近，不存在一像素值对应的像素个数比其它像素值对应的像素个数都多出几个数量级，从而判定右图为复杂图文。类似地，如图2d所示，右图也为复杂图文。

具体实现中，服务器可以利用canny边缘检测算法获取待检测图像的边缘信息，如果待检测图像为简单图文，则利用一低阈值(第一边缘检测阈值)获取待检测图像的边缘信息，以提取更加丰富的边缘信息；如果待检测图像为复杂图文，则利用一高阈值(第二边缘检测阈值)获取待检测图像的边缘信息，以减少背景边缘的干扰。其中，第一边缘检测阈值小于第二边缘检测阈值。以待检测图像的原始图像参照图2h为例，则得到的待检测图像的边缘信息可以如图2e所示，即图2e中的白色轮廓。

102、所述服务器根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

其中，待检测图像的边缘信息包括待检测图像的边缘像素点的位置分布信息。

具体实现中，服务器根据待检测图像的边缘信息中边缘像素点的位置分布信息确定出待检测图像的各个边缘像素点。预设的候选文字像素点确定规则可以是：预先定义一个高度为2h个像素、宽度为2w个像素的十字架，服务器分别以每一个边缘像素点为中心，查询左右宽度分别为w个像素和上下高度分别为h个像素的图像区域(即十字架)内存在的其它边缘像素点的个数，如果左右宽度分别为w个像素的图像区域内存在至少一个其它边缘像素点，且上下高度分别为h个像素的图像区域内也存在至少一个其它边缘像素点，则将相应的边缘像素点确定为候选文字像素点，否则，确定为干扰边缘像素点，并将其滤除，从而可以快速、准确地标记出候选文字像素点，并且可以滤除干扰边缘像素点，效果如图2f所示。

其中，上述十字架的高度、宽度例如可以对应取待检测图像的高度、宽度的1/5。

103、所述服务器对所述候选文字像素点进行投影切割，根据投影切割结果确定所述待检测图像中的文字区域。

具体实现中，服务器可以对待检测图像中的候选文字像素点进行横向投影切割和纵向投影切割，将非文字行和非文字列置空，以去除其中的非文字区域，得到包括文字的多个矩形框，具体可以进行多次横向投影切割和纵向投影切割，以去除尽可能多的非文字区域。

进一步地，服务器可以利用设定的高、宽、高宽比来滤除一些不符合既定要求的矩形框，例如，宽或高小于12个像素的矩形框需滤除，高宽比大于5的矩形框需滤除，从而可以准确得到待检测图像中的文字区域，效果如图2g中的矩形框所示。将检测结果得到的文字区域映射回图2h所示的原始图像，可以看出所有文字区域都被检测了出来。

本发明实施例中，服务器可以获取待检测图像的边缘信息，根据该待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定该待检测图像中的候选文字像素点，并对该候选文字像素点进行投影切割，再根据投影切割结果即可确定该待检测图像中的文字区域，从而可以提高文字检测的准确率，具有很高的鲁棒性，还可以提高文字检测的速度，适用于需要实时处理以及大数据处理等的应用场景。

请参阅图3，为本发明实施例提供的一种文字检测方法的第二实施例流程示意图。本实施例中所描述的文字检测方法，包括以下步骤：

301、服务器获取待检测图像的边缘信息。

302、所述服务器根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

303、所述服务器利用第一切割阈值对所述候选文字像素点进行横向投影切割，得到初始候选文字区域。

具体实现中，服务器对候选文字像素点进行横向投影切割，获取每一行的投影点个数，将投影点个数大于或等于第一切割阈值的行确定为有效行，否则确定为非有效行，将上下连续的有效行进行合并，而非有效行则断开，从而得到待检测图像中一个个的初始候选文字区域，如图4a所示，其中的矩形框即为初始候选文字区域。其中，第一切割阈值例如可以取待检测图像宽度的1/10。

此外，对于投影点个数出现突变的行也应断开，例如，前面连续10行的投影点个数都在100～200之间，而当前行的投影点个数小于50，则当前行也应断开。

304、所述服务器利用第二切割阈值和/或第三切割阈值对所述初始候选文字区域中的候选文字像素点进行纵向投影切割，利用第四切割阈值和/或第五切割阈值对纵向投影切割后的所述初始候选文字区域中的候选文字像素点进行横向投影切割，得到目标候选文字区域。

其中，服务器可以自适应采用高低双阈值对横向投影切割的结果(即每一个初始候选文字区域)进行纵向投影切割。

具体实现中，假设第二切割阈值为低阈值，第三切割阈值为高阈值。其中，第二切割阈值具体包括投影点阈值和列阈值，投影点阈值可以取1，列阈值可以取初始候选文字区域高度的1/3。服务器首先利用低阈值(即第二切割阈值)进行纵向投影切割以应对投影无干扰的情况，具体包括：获取每一列的投影点个数，将投影点个数小于投影点阈值的列确定为候选非文字列，当连续的候选非文字列超过列阈值时，将这些候选非文字列全部判定为非文字列，并将非文字列置空。

进一步地，如果不存在投影点个数小于投影点阈值的列，则服务器再利用高阈值(即第三切割阈值)进行纵向投影切割以应对投影有干扰的情况。其中，第三切割阈值具体也包括投影点阈值和列阈值，投影点阈值可以取初始候选文字区域高度的1/10，列阈值可以取初始候选文字区域高度的1/5。具体包括：获取每一列的投影点个数，将投影点个数小于投影点阈值的列确定为候选非文字列，当连续的候选非文字列超过列阈值时，将这些候选非文字列判定为非文字列，并将非文字列置空。其中，自适应地采用高低双阈值进行纵向投影切割后的效果如图4b所示。

进一步地，服务器对初始候选文字区域中的候选文字像素点进行纵向投影切割之后，可以自适应地采用高低双阈值对纵向投影切割后的每一个初始候选文字区域中的候选文字像素点进行横向投影切割，以得到目标候选文字区域，具体实现过程与自适应采用高低双阈值进行纵向投影切割类似，只是将投影方式改为横向投影，假设第四切割阈值为低阈值，第五切割阈值为高阈值，第四切割阈值具体包括投影点阈值和行阈值，则投影点阈值可以取1，行阈值可以取纵向投影切割后的初始候选文字区域宽度的1/3。第五切割阈值具体也包括投影点阈值和行阈值，则投影点阈值可以取纵向投影切割后的初始候选文字区域宽度的1/10，行阈值可以取纵向投影切割后的初始候选文字区域宽度的1/5。同样是服务器首先利用低阈值(即第四切割阈值)进行横向投影切割以应对投影无干扰的情况，如果不存在投影点个数小于投影点阈值的行，则服务器再利用高阈值(即第五切割阈值)进行横向投影切割以应对投影有干扰的情况。其中，自适应地采用高低双阈值进行横向投影切割后的效果如图4c所示。

在一些可行的实施方式中，服务器可以采用304中的方法对得到的目标候选文字区域再进行第二次纵向投影切割和横向投影切割，以删掉空白区域，得到更加准确的文字区域。

在一些可行的实施方式中，服务器在自适应采用高低双阈值进行纵向投影切割的过程中，可以同时结合初始候选文字区域中的候选文字像素点的几何位置约束进行，可以是将几何位置约束出现突变的列视为干扰列，并进行置空处理。此时，几何位置约束可以包括以下至少之一：初始候选文字区域中两个连续的候选文字像素点之间的最大距离、初始候选文字区域中位置最高的候选文字像素点与位置最低的候选文字像素点之间的最大距离、初始候选文字区域中位置最高的候选文字像素点的位置和位置最低的候选文字像素点的位置。

在一些可行的实施方式中，服务器在自适应采用高低双阈值进行横向投影切割的过程中，可以同时结合初始候选文字区域中的候选文字像素点的几何位置约束进行，可以是将几何位置约束出现突变的行视为干扰行，并进行置空处理。此时，几何位置约束可以包括以下至少之一：纵向投影切割后的初始候选文字区域中两个连续的候选文字像素点之间的最大距离、纵向投影切割后的初始候选文字区域中位置最左的候选文字像素点与位置最右的候选文字像素点之间的最大距离、纵向投影切割后的初始候选文字区域中位置最左的候选文字像素点的位置和位置最右的候选文字像素点的位置。

305、所述服务器利用预设的非文字区域滤除规则滤除所述目标候选文字区域中的非文字区域，将所述目标候选文字区域中的剩余区域作为所述待检测图像中的文字区域。

其中，预设的非文字区域滤除规则具体可以包括设定的高、宽、高宽比等。

具体实现中，服务器可以利用设定的高、宽、高宽比来滤除目标候选文字区域中的非文字区域，例如，宽或高小于12个像素的区域需滤除，高宽比大于5的区域需滤除，将目标候选文字区域中的剩余区域作为待检测图像中的文字区域，从而可以准确得到待检测图像中的文字区域，效果如图2g中的矩形框所示。将检测结果得到的文字区域映射回图2h所示的原始图像，可以看出所有文字区域都被检测了出来。

306、所述服务器根据所述文字区域的位置信息，对所述文字区域作行归并处理。

其中，文字区域的位置信息包括相邻文字区域边界的距离。

具体实现中，服务器可以将横向的边界距离较近(例如小于或等于文字区域行高的3倍)的两个或多个文字区域进行行归并，得到横向尽量连通的文字区域，以减少文字区域的行内部漏字情况的发生。

307、所述服务器将行归并后的所述文字区域输入预先训练好的文字检测模型，以滤除所述文字区域中的非文字区域。

具体实现中，服务器可以将检测到的文字区域输入文字检测模型，以进一步滤除非文字区域，效果如图4d所示。其中，可以通过人工合成的方式获得大量文字行图片的正样本以及非文字行图片的负样本进行训练，具体可以是利用caffe框架进行训练，基于LeNet-5模型构建基于卷积神经网络(Convolutional Neural Network，CNN)的文字检测模型，利用文字检测模型滤除非文字区域这一步骤的时间占比很低，并可以有效的滤除非文字区域，从而进一步提高了文字检测的准确度。

可以理解的是，采用本发明实施例得到的文字检测结果(即文字区域)可以用于后续的文字识别，还可以用于根据检测到的文字区域(例如图4d中的矩形框)的数量对图像进行快速地分类，分为文本图像和非文本图像，还可以根据文字区域在图像中的位置信息实现对图像的有效特征进行筛选，从而可以让图像的特征只聚焦在文字区域或非文字区域。

本发明实施例中，服务器可以获取待检测图像的边缘信息，根据该待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定该待检测图像中的候选文字像素点，利用第一切割阈值对候选文字像素点进行横向投影切割，得到初始候选文字区域，首先利用第二切割阈值和/或第三切割阈值对初始候选文字区域中的候选文字像素点进行纵向投影切割，再利用第四切割阈值和/或第五切割阈值对纵向投影切割后的初始候选文字区域中的候选文字像素点进行横向投影切割，从而得到目标候选文字区域，以及利用预设的非文字区域滤除规则滤除目标候选文字区域中的非文字区域，将目标候选文字区域中的剩余区域即可作为待检测图像中的文字区域，还可以根据文字区域的位置信息，对文字区域作行归并处理，再将行归并后的文字区域输入预先训练好的文字检测模型，以滤除文字区域中的非文字区域，从而可以提高文字检测的准确率，具有很高的鲁棒性，还可以提高文字检测的速度，适用于需要实时处理以及大数据处理等的应用场景。

请参阅图5，为本发明实施例提供的一种文字检测装置的结构示意图。本实施例中所描述的文字检测装置，包括：

获取模块501，用于获取待检测图像的边缘信息。

确定模块502，用于根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

投影切割模块503，用于对所述候选文字像素点进行投影切割。

所述确定模块502，还用于根据投影切割结果确定所述待检测图像中的文字区域。

在一些可行的实施方式中，所述装置还包括：

归并模块504，用于根据所述文字区域的位置信息，对所述文字区域作行归并处理。

过滤模块505，用于将行归并后的所述文字区域输入预先训练好的文字检测模型，以滤除所述文字区域中的非文字区域。

在一些可行的实施方式中，所述装置还包括：

统计模块506，用于统计待检测图像的灰度直方图中像素值的分布情况。

其中，所述确定模块502，还用于根据所述分布情况，确定所述待检测图像的图像类型。

其中，所述获取模块501，具体用于：

若所述待检测图像为简单图文，则利用第一边缘检测阈值获取所述待检测图像的边缘信息。

若所述待检测图像为复杂图文，则利用第二边缘检测阈值获取所述待检测图像的边缘信息。

其中，所述第一边缘检测阈值小于所述第二边缘检测阈值。

在一些可行的实施方式中，所述确定模块502，具体用于：

根据所述待检测图像的边缘信息，确定所述待检测图像的边缘像素点。

将所述待检测图像的边缘像素点中的目标边缘像素点确定为候选文字像素点。

其中，以所述目标边缘像素点为中心的左右宽度分别为w个像素和上下高度分别为h个像素的图像区域内同时存在其它边缘像素点，w、h均为正整数。

在一些可行的实施方式中，所述投影切割模块503，具体用于：

利用第一切割阈值对所述候选文字像素点进行横向投影切割，得到初始候选文字区域。

利用第二切割阈值和/或第三切割阈值对所述初始候选文字区域中的候选文字像素点进行纵向投影切割。

利用第四切割阈值和/或第五切割阈值对纵向投影切割后的所述初始候选文字区域中的候选文字像素点进行横向投影切割，得到目标候选文字区域。

其中，所述确定模块502，具体用于：

利用预设的非文字区域滤除规则滤除所述目标候选文字区域中的非文字区域，将所述目标候选文字区域中的剩余区域作为所述待检测图像中的文字区域。

在一些可行的实施方式中，所述投影切割模块503，具体还用于：

对所述候选文字像素点进行横向投影切割，将投影点个数大于或等于第一切割阈值的行确定为有效行。

将所述有效行合并得到初始候选文字区域。

利用所述初始候选文字区域中的候选文字像素点的几何位置约束对所述初始候选文字区域中的候选文字像素点进行纵向投影切割。

在一些可行的实施方式中，所述几何位置约束包括：所述初始候选文字区域中两个连续的候选文字像素点之间的最大距离、所述初始候选文字区域中位置最高的候选文字像素点与位置最低的候选文字像素点之间的最大距离、所述初始候选文字区域中位置最高的候选文字像素点的位置和位置最低的候选文字像素点的位置中的一种或多种。

可以理解的是，本实施例的文字检测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

通过本发明实施例可以获取待检测图像的边缘信息，根据该待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定该待检测图像中的候选文字像素点，并对该候选文字像素点进行投影切割，再根据投影切割结果即可确定该待检测图像中的文字区域，从而可以提高文字检测的准确率，具有很高的鲁棒性，还可以提高文字检测的速度，适用于需要实时处理以及大数据处理等的应用场景。

请参阅图6，为本发明实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器，包括：处理器601、网络接口602及存储器603。其中，处理器601、网络接口602及存储器603可通过总线或其他方式连接，本发明实施例以通过总线连接为例。

其中，处理器601(或称中央处理器(Central Processing Unit，CPU))是服务器的计算核心以及控制核心。网络接口602可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)，受处理器601的控制用于收发数据。存储器603(Memory)是服务器的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器603可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器601的存储装置。存储器603提供存储空间，该存储空间存储了服务器的操作***和可执行程序代码，可包括但不限于：Windows***(一种操作***)、Linux(一种操作***)***等等，本发明对此并不作限定。

在本发明实施例中，处理器601通过运行存储器603中的可执行程序代码，执行如下操作：

处理器601，用于获取待检测图像的边缘信息。

所述处理器601，还用于根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点。

所述处理器601，还用于对所述候选文字像素点进行投影切割。

所述处理器601，还用于根据投影切割结果确定所述待检测图像中的文字区域。

在一些可行的实施方式中，所述处理器601，还用于根据所述文字区域的位置信息，对所述文字区域作行归并处理。

所述处理器601，还用于将行归并后的所述文字区域输入预先训练好的文字检测模型，以滤除所述文字区域中的非文字区域。

在一些可行的实施方式中，所述处理器601，还用于统计待检测图像的灰度直方图中像素值的分布情况。

所述处理器601，还用于根据所述分布情况，确定所述待检测图像的图像类型。

其中，所述处理器601，具体用于：

其中，所述第一边缘检测阈值小于所述第二边缘检测阈值。

在一些可行的实施方式中，所述处理器601，具体用于：

其中，所述处理器601，具体用于：

在一些可行的实施方式中，所述处理器601，具体还用于：

将所述有效行合并得到初始候选文字区域。

在一些可行的实施方式中，所述处理器601，具体还用于：

具体实现中，本发明实施例中所描述的处理器601、网络接口602及存储器603可执行本发明实施例提供的一种文字检测方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例提供的一种文字检测装置中所描述的实现方式，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种文字检测方法，其特征在于，包括：

获取待检测图像的边缘信息；

根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点；

2.根据权利要求1所述的方法，其特征在于，所述对所述候选文字像素点进行投影切割，根据投影切割结果确定所述待检测图像中的文字区域之后，所述方法还包括：

根据所述文字区域的位置信息，对所述文字区域作行归并处理；

将行归并后的所述文字区域输入预先训练好的文字检测模型，以滤除所述文字区域中的非文字区域。

3.根据权利要求1或2所述的方法，其特征在于，所述获取待检测图像的边缘信息之前，所述方法还包括：

统计待检测图像的灰度直方图中像素值的分布情况；

根据所述分布情况，确定所述待检测图像的图像类型；

其中，所述获取待检测图像的边缘信息，包括：

若所述待检测图像为简单图文，则利用第一边缘检测阈值获取所述待检测图像的边缘信息；

若所述待检测图像为复杂图文，则利用第二边缘检测阈值获取所述待检测图像的边缘信息；

其中，所述第一边缘检测阈值小于所述第二边缘检测阈值。

4.根据权利要求1～3中任一项所述的方法，其特征在于，所述根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点，包括：

根据所述待检测图像的边缘信息，确定所述待检测图像的边缘像素点；

将所述待检测图像的边缘像素点中的目标边缘像素点确定为候选文字像素点；

5.根据权利要求1～3中任一项所述的方法，其特征在于，所述对所述候选文字像素点进行投影切割，根据投影切割结果确定所述待检测图像中的文字区域，包括：

利用第一切割阈值对所述候选文字像素点进行横向投影切割，得到初始候选文字区域；

利用第二切割阈值和/或第三切割阈值对所述初始候选文字区域中的候选文字像素点进行纵向投影切割；

利用第四切割阈值和/或第五切割阈值对纵向投影切割后的所述初始候选文字区域中的候选文字像素点进行横向投影切割，得到目标候选文字区域；

6.根据权利要求5所述的方法，其特征在于，所述利用第一切割阈值对所述候选文字像素点进行横向投影切割，得到初始候选文字区域，包括：

对所述候选文字像素点进行横向投影切割，将投影点个数大于或等于第一切割阈值的行确定为有效行；

将所述有效行合并得到初始候选文字区域。

7.根据权利要求5或6所述的方法，其特征在于，所述利用第四切割阈值和/或第五切割阈值对纵向投影切割后的所述初始候选文字区域中的候选文字像素点进行横向投影切割，得到目标候选文字区域之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，

所述几何位置约束包括：所述初始候选文字区域中两个连续的候选文字像素点之间的最大距离、所述初始候选文字区域中位置最高的候选文字像素点与位置最低的候选文字像素点之间的最大距离、所述初始候选文字区域中位置最高的候选文字像素点的位置和位置最低的候选文字像素点的位置中的一种或多种。

9.一种文字检测装置，其特征在于，包括：

获取模块，用于获取待检测图像的边缘信息；

确定模块，用于根据所述待检测图像的边缘信息，利用预设的候选文字像素点确定规则确定所述待检测图像中的候选文字像素点；

投影切割模块，用于对所述候选文字像素点进行投影切割；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

归并模块，用于根据所述文字区域的位置信息，对所述文字区域作行归并处理；

过滤模块，用于将行归并后的所述文字区域输入预先训练好的文字检测模型，以滤除所述文字区域中的非文字区域。

11.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

统计模块，用于统计待检测图像的灰度直方图中像素值的分布情况；

其中，所述确定模块，还用于根据所述分布情况，确定所述待检测图像的图像类型；

其中，所述获取模块，具体用于：

其中，所述第一边缘检测阈值小于所述第二边缘检测阈值。

12.根据权利要求9～11中任一项所述的装置，其特征在于，所述确定模块，具体用于：

13.根据权利要求9～11中任一项所述的装置，其特征在于，所述投影切割模块，具体用于：

其中，所述确定模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述投影切割模块，具体还用于：

将所述有效行合并得到初始候选文字区域。

15.根据权利要求13或14所述的装置，其特征在于，所述投影切割模块，具体还用于：

16.根据权利要求15所述的装置，其特征在于，