CN107093172A

CN107093172A - 文字检测方法及***

Info

Publication number: CN107093172A
Application number: CN201610091568.8A
Authority: CN
Inventors: 徐昆; 郭晓威; 黄飞跃; 郑宇飞; 张惜今; 卢艺帆
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2017-08-25
Anticipated expiration: 2036-02-18
Also published as: CN107093172B; WO2017140233A1

Abstract

本发明公开了一种文字检测方法及***；方法包括：将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，以及，将目标图像转换为二值图像；将减色图像中具有相同色彩的连通块进行合并，以及将二值图像中具有相同色彩的连通块合并；对减色图像三色通道的每种色彩通道的连通块、以及二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到目标图像中候选的文字区域；在目标图像上对应候选的文字区域的位置提取特定区域，基于所提取的特定区域中包含文字区域的概率与预设概率阈值的比较结果判断提取的特定区域中是否包含文字行或文字列。实施本发明，能够对图像中的文本进行准确检测。

Description

文字检测方法及***

技术领域

本发明涉及图像中的文字检测技术，尤其涉及一种文字检测方法及***。

背景技术

文档图像即图像格式的文档，它是通过某种方式(如扫描)将纸质文档等转化为图像格式的文档，以供用户电子阅读，文档图像的典型示例是便携式文档格式(PDF，Portable Document Format)格式图像、以及DjVu格式图像。

目前的文字检测技术可以对文档图像中的文字进行检测(定位图像中承载文字的区域)，并基于检测到的承载文字的区域进行文字识别。

一般意义上的图像不仅包括文档图像，还包括非文档图像(也就是通过扫描格式图像如网络相册中的用户上传图像，这些图像可能是联合照片专家组(JPG)图像、位图(BMP)图像、标签图像文件格式(TIFF)图像、图形交换格式(GIF)图像以及可交换的图像文件格式(EXIF)图像等。

如果能识别非文档格式图像中的文字，则可以获得准确的语义信息，帮助用户检索、管理图像。要想识别非扫描格式图像中的文字，检测图像中的文字是必要的前置步骤，目前的文字检测技术多使用人工指定的特征来判别图像是否中是否包含有文字，且多针对英文字符进行检测，由于中文与英文在字形结构上存在显著的差异，应用于文档图像中的中文检测时住准确度与文档图像中检测英文的精度存在较大差异，难以满足实际应用的需求。

发明内容

本发明实施例提供一种文字检测方法及***，能够对图像中的文本进行准确检测。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种文字检测方法，所述方法包括：

将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，以及，将所述目标图像转换为二值图像；

将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并；

对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域；

在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。

优选地，所述将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，包括：

将所述目标图像的红绿蓝三色通道中每个通道分别做K个等级的量化得到K个等级的区间；

将所述目标图像中每个像素在RGB三色通道的亮度映射到对应通道量化的区间中，K为整数且255>K>1。

优选地，所述将减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并，包括：

对所述减色图像中以及所述二值图像中的每个像素作为一个单独的连通块，建立针对所述像素的并查集执行以下处理：

若所述像素与8邻接的像素中的任一像素的色彩相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块。

对每个所述连通块的像素面积进行判断，如果所述连通块的像素面积小于像素面积阈值，则将所述连通块并入与所述连通块相邻的连通块，并将所述连通块的色彩设置为所并入的连通块的色彩。

优选地，所述将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，所述方法还包括：

丢弃减色图像中以及二值图像中符合预设特征的连通块；所述预设特征包括以下至少之一：

所述连通块中面积小于像素面积阈值的连通块；

所述连通块中任意一边长度大于相应图像边长的第一预设比例的连通块；

所述连通块中任意一边长大于边框长度阈值，且像素面积与包围盒积的比值小于比值阈值的连通块。

基于所述减色图像中的每种色彩通道的连通块的位置关系分别进行合并为新的连通块，以及针对所述二值图像中的连通块基于位置关系进行合并为新的连通块；其中，包括执行以下处理至少之一：

合并距离小于距离阈值的连通块；

取任意两个所述连通块的各自的长宽的平均值的中的最大值，若所述最大值满足预设条件，合并所选取的所述两个连通块；

合并包围盒存在交叉且交叉部分符合预设交叉特征的连通块；

合并包围盒对齐且满足预设对齐合并规则的连通块。

优选地，所述对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域，包括：

基于连接合并规则不同类型的依次进行水平方向的合并、竖直方向的合并、以及水平方向的合并；其中，所述连接合并规则包括：

满足以下条件至少之一连接选取的两个连通块为新的连通块：

两个所述连通块的包围盒在参考轴向上的中心距离或者边缘距离中的最小距离，小于两个所述连通块的包围盒对应所述参考轴向的边长中最小边长的第一预设比例；

两个所述连通块的包围盒在在垂直于所述参考轴向的方向上的距离小于两个所述连通块的包围盒在垂直于所述参考轴向的边长中最小边长的第二预设比例；

两个所述连通块的包围盒在所述参考轴向的边长的差值小于两个所述连通块的包围盒对应所述参考轴向的边长中最小边长的第三预设比例。

优选地，所述在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列，包括：

以所述目标图像上提取出一个所述特定区域，将在所述减色图像和所述二值图像得到连接的包围盒，以特定滑窗步长滑窗将在所述减色图像和所述二值图中连接得到的包围盒送入卷积神经网络分类器中判别，得到每个所述滑窗内包含文字的概率；

对所述滑窗内包含文字的概率取平均值，得到所述候选的文字区域包括文字行或文字列的概率；

若所得到的大于预设的概率阈值，则判定所述特定区域内存在文字行或文字列。

第二方面，本发明实施例提供一种文字检测***，所述***包括：

减色二值处理单元，用于将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，以及，将所述目标图像转换为二值图像；

第一合并单元，用于将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并；

第二合并单元，用于对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域；

判断单元，用于在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。

优选地，所述减色二值处理单元，还用于将所述目标图像的红绿蓝三色通道中每个通道分别做K个等级的量化得到K个等级的区间；

优选地，所述第一合并单元，还用于对所述减色图像中以及所述二值图像中的每个像素作为一个单独的连通块，建立针对所述像素的并查集执行以下处理：

所述第一合并单元，还用于若所述像素与8邻接的像素中的任一像素的色彩相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块

所述第一合并单元，还用于对每个所述连通块的像素面积进行判断，如果所述连通块的像素面积小于像素面积阈值，则将所述连通块并入与所述连通块相邻的连通块，并将所述连通块的色彩设置为所并入的连通块的色彩。

优选地，所述***还包括：

丢弃处理单元，用于在所述第一合并单元将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，丢弃减色图像中以及二值图像中符合预设特征的连通块；所述预设特征包括以下至少之一：

丢弃掉所述连通块中面积小于像素面积阈值的连通块；

丢弃所述连通块中任意一边长度大于相应图像边长的第一预设比例的连通块；

丢弃所述连通块中任意一边长大于边框长度阈值，且像素面积与包围盒积的比值小于比值阈值的连通块。

优选地，所述***还包括

第四合并单元，用于在所述第一合并单元将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，基于所述减色图像中的每种色彩通道的连通块的位置关系分别进行合并为新的连通块，以及针对所述二值图像中的连通块基于位置关系进行合并为新的连通块；

其中，第四合并单元，还用于执行以下处理至少之一：

合并距离小于距离阈值的连通块；

合并包围盒对齐且满足预设对齐合并规则的连通块。

优选地，所述第二合并单元，还用于基于连接合并规则不同类型的依次进行水平方向的合并、竖直方向的合并，以及水平方向的合并；其中，所述连接合并规则包括：

优选地，所述判断单元，还用于以所述目标图像上提取出一个特定区域，将在所述减色图像和所述二值图像得到连接的包围盒，以特定滑窗步长滑窗将在所述减色图像和所述二值图中连接得到的包围盒送入卷积神经网络分类器中判别，得到每个所述滑窗内包含文字的概率；

所述判断单元，还用于对所述滑窗内包含文字的概率取平均值，得到所述候选的文字区域包括文字行或文字列的概率；

所述判断单元，还用于若所得到的大于预设的概率阈值，则判定所述特定区域内存在文字行或文字列。

本发明实施例中对图像按照色彩分割为连通块，将连通块为包含文字的潜在的包围盒，然后用卷积神经网络滑窗验证每个包围盒包含文字行(或文字列)的概率，当概率大于预设概率阈值时判定包围盒中包含有文字行(或文字列)，上述处理适用于文档图像和非文档图像，能够对图像中的文本进行准确检测。

附图说明

图1是本发明实施例文字检测方法的一个流程示意图一；

图2是本发明实施例文字检测方法的一个流程示意图二；

图3至图6是本发明实施例中文字检测方法的检测结果示意图；

图7至图8是本发明实施例中卷积神经网络的示意图；

图9是本发明实施例文字检测***的一个可选的结构示意图。

具体实施方式

本发明实施例提供一种用于在图像(包括扫描格式的图像和非扫描格式的图像)中检测文字的方法及***，这里的图像不仅包括常规的扫描格式的图像如PDF格式，还可以包括非文档图像如联合照片专家组(JPG)图像，位图(BMP)图像、标签图像文件格式(TIFF)图像、图形交换格式(GIF)图像、可交换的图像文件格式(EXIF)图像等。

本发明实施例记载的文字检测***通过实施文件检测方法对图像中承载文字的区域进行定位，文件检测***进行文字检测的图像可以是文档图像如PDF文档，也可以是非文档图像，如JPG图像、BMP图像、TIFF图像、GIF图像以及EXIF图像，作为图像的一个来源，主要是电子设备(如智能手机、平板电脑、笔记本电脑)的截屏、海报杂志等印刷品的扫描电子版、以及其他含有印刷体汉字的数字图像。

参见图1，本发明实施例中，在步骤101中将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，以及，将所述目标图像转换为二值图像；在步骤102中，将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并；在步骤103中对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域；在步骤104中，在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。

可以看出，文字检测***通过将图像的色彩聚类、分层，连通块合并和过滤，以及基于深度卷积神经网络的判别，定位如图3至图6示出的图像中的文本行(或者为文字列，如汉字的文字行、当然也可以为字母如英文字母、数字、符号的文本行，或汉字、字母、数字、符号等任意类型的字符组合形成的文本行)，从而基于定位的文本行对文本行中的文字进行识别。

以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

参见图2，本实施例文字检测***检测文字的方法包括以下步骤：

步骤201，对目标图像进行减色处理得到目标图像的减色图像。

输入要检测的目标图像，将目标图像的红绿蓝(RGB)三色的各个通道分别做K个等级的量化(K为整数且255>K>1，例如取值为4)，即RGB三色通道中每个通道的亮度划分(例如均匀划分)为K个区间(Bin)，也就是将0-255的亮度等级降低为0-(K-1)等级，将目标图像中每个像素在RGB三色通道的亮度映射到对应通道划分的Bin中，对于目标图像来说，由于RGG三色通道中每个通道具有256个亮度等级(0-255)，因此目标图像可以具有255^3(255的三次方)种色彩，而RGB三色通道中每个通道的亮度划分为K个区间后，目标图像具有K^3(K的三次方，小于255^3)种色彩，因此得到减色图像f1。

以K取值为2为例，每个通道在量化后具有0和1两个亮度的等级，也就是将每个通道的亮度等级0-255中的0-127映射到量化后的亮度0，将每个通道的亮度等级0-255中的128-255映射到量化后的亮度1，如目标图像中一个像素的对应RGB三色通道的亮度为(0，122，255)，则降色处理后的亮度为(0，0，1)，对目标图像中的每个像素进行上述的亮度映射的处理。

由于图像中的文字通常有2种情况:1)文字是单色的；2)文字的亮度与文字周边的区域有明显差异。步骤201分别针对上述两种情况实现了以下的技术效果：使减色图像中的文字具有K^3种色彩的一种。

步骤202，对目标图像进行局部二值化处理得到目标图像的二值图像。

将目标图像转换为灰度图(只有一个灰度通道)，对灰度图进行局部自适应二值化：将灰度图划分为N个窗口，对这N个窗口中的每一个窗口再按照一个统一的阈值T将窗口内的像素划分为两部分，得到二值图像f2，T为此像素为中心的预设尺寸(如25*25像素)的窗口的高斯加权和。

由于图像中的文字通常有2种情况:1)文字是单色的；2)文字的亮度与文字周边的区域有明显差异。步骤202分别针对上述两种情况实现了以下的技术效果：使二值图像中的文字属于黑色或白色的一种。

步骤201和步骤202中得到的减色图像以及二值图像中的文字对应的像素具有相同的色彩，步骤203中以每个像素作为连通块并将具有相同色彩的连通块合并，从而将文字进行连接。

步骤203，识别减色图像中以及二值图像中的连通块，将减色图像中具有相同色彩的连通块进行合并，以及将二值图像中具有相同色彩的连通块合并。

对于减色图像f1的RGB三色通道的每个色彩通道的连通块，以及二值图像f2的连通块(只有一个灰度图像)，执行以下处理：

1)对每个像素作为一个单独的连通块(也就是连通子图，是图论中的概念，把图像上每个像素作为无向图中的一个顶点，相邻的像素之间视作有一条边，整个图像视作一个无向图)。

2)建立并查集，并查集是一种经典的算法，用于高效率地进行连通块合并过程)。

3)遍历减色图像f1，以及二值图像f2的每个像素以执行以下处理：

遍历减色图像f1中的像素：对于某一像素，若该像素与8邻接的像素(是指像素的上下左右以及2条对角线的两端的共8个邻接的像素)中的任一像素的色彩(像素在RGB通道中任一通道的色彩是指像素在相应通道的亮度值，像素灰度图中的色彩是指像素在该灰度图中的灰度值)相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块；然后，遍历每个连通块，对每个连通块的像素面积进行判断：如果连通块k(k的取值范围对应连通块的数量)的像素面积小于像素面积阈值(4像素)，则该连通块k(像素面积小于像素面积阈值的)并入与该连通块k相邻的连通块，并将连通块(像素面积小于像素面积阈值的)的色彩设置为所并入的连通块的色彩。

例如，对于减色图像f1中的像素i(i取值为I₁≥i≥1，I₁为减色图像f1中的像素的数量)在RGB三色通道中任一通道X(这里，通道X为RGB三色通道中的任一通道，这里设为R通道)的亮度，若像素i与8邻接的像素(是指像素i的上下左右以及2条对角线的两端的共8个邻接像素)中的任一像素j在相应通道(与前述假设的R通道一致)的亮度一致，则将像素i所属的连通块与像素j所属的连通块合并为一个连通块。然后，遍历每个连通块，对每个连通块的像素面积进行判断：如果连通块k(k的取值范围为连通块的数量)的像素面积小于阈值(4像素)，则将连通块k合并到与连通块k相邻的连通块中，连通块k中像素的色彩设置为连通块k所并入的连通块的亮度。

再例如，对于某一像素，若目标图像的灰度图中的像素i(i取值为I₂≥i≥1，I₂为灰度图中的像素的数量)与8邻接的像素(像素i的上下左右以及2条对角线的两端的共8个像素)中的像素j的色彩(灰度值)相同，则将相邻的像素i和像素j所属的连通块合并为同一个连通块；然后，遍历每个连通块，对每个连通块的像素面积进行判断：如果连通块k(k的取值范围为连通块的数量)的像素面积小于阈值(4像素)，则将连通块k合并到与连通块k相邻的连通块中，连通块k中像素的灰度值设置为连通块k所并入的连通块中像素的灰度值。

步骤203将属于同一个字符(对于汉字，至少是同一个笔画)的像素合并在一起成为一个称为一个连通块供后续处理。

后续步骤204丢弃减色图像中以及二值图像中符合预设特征(这里的预设特征与图像中的非文字区域的特征对应)的连通块。

步骤204，对减色图像中以及二值图像中的连通块合并后，丢弃减色图像中以及二值图像中符合预设特征(这里的预设特征与图像中的非文字区域的特征对应)的连通块。

对减色图像f1中每种色彩通道的连通块、以及二值图像f2的连通块分别进行以下处理至少之一：

1)丢弃掉连通块中面积仍然小于像素面积阈值(例如4像素)的连通块，面积仍然小于像素面积阈值(例如4像素)的连通块视为未承载文字；

2)丢弃掉背景色对应的连通块：连通块任意一边长度大于相应图像边长的第一预设比例(如0.8倍)；

3)丢弃掉边框对应的连通块：连通块任意一边长大于边框长度阈值(如65像素)，且连通块像素面积与包围盒积的比值小于比值阈值(如0.22)。连通块的包围盒就是将连通块所含的所有像素都包括进去的最小的矩形(矩形的边对应平行于图像x和y轴，所以可以唯一确定)

可选地，鉴于图像中包括汉字等笔画不连通的文字的情况，还可以执行步骤206将图像中的文字(如汉字、以及英文字符中的i和j)中不连通的笔画合并到一起。

步骤205，基于减色图像中的每种色彩通道的连通块的位置关系(如距离、交叉)分别进行合并为新的连通块，以及针对二值图像中的连通块基于位置关系(如距离、交叉)进行合并为新的连通块。

1)合并距离小于距离阈值的连通块(距离是指两个连通块的包围盒中心点的切比雪夫距离d)。

2)取两个连通块的各自的长宽的平均值的中的最大值，设为ms(max((a1+b1)/2.0，(a2+b2)/2.0))，a1、b1是第一个连通块的包围盒的长度和宽度a2、b2是第二个连通块的包围盒的长度和宽度)，取0.4ms作为距离阈值。然后，若满足预设条件如：0.4ms<1或者1<0.4ms<3，且距离d<3；合并所选取的两个连通块。

3)对于减色图像f1的RGB三色通道的每个通道的连通块，以及二值图像f2的连通块，合并包围盒存在交叉且交叉部分符合预设交叉特征的连通块。例如，若两个连通块的包围盒存在交叉，则交叉部分的面积大于两个包围盒中面积较小者的面积的预设10％，且交叉部分面积小于图像面积的10％，则合并上述包围盒存在交叉的连个连通块。

4)合并包围盒对齐且满足预设对齐合并规则的连通块(对齐是指：连通块的包围盒在水平或者竖直方向上对齐，即：1)两个连通块的包围盒高度一致,且在竖直方向位置一致；2)两个连通块的包围盒的宽度一致，且在水平方向的位置一致)合并。

对齐合并规则的一个示例为：将对齐的连通块合并后，两个连通块的包围盒(也就是包含两个包围盒的最小包围盒)相对两个连通块的包围盒面积加和的增量小于面积增量比例阈值(如10％)，且合并后的包围盒的面积小于图像面积的比例阈值(如10％)，则合并这两个连通块的包围盒。

步骤206，对减色图像f1的RGB三色通道的每种色彩通道的连通块、以及二值图像f2中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到图像中候选的文字区域(包括文字行区域和文字列区域)。

目的在将单个的文字(如汉字)连接成文字行或者列：基于连接合并规则(对水平方向的合并和竖直方向的合并使用相同的连接合并规则，后续进行说明)首先对连通块的进行一次水平方向的合并，然后再做一次竖直方向的合并，最后再做一次水平方向的合并。

通常在图像中横排方式的文字比竖排文字常见，所以步骤206中首先对连通块进行水平方向的合并，，保证水平排列的文字首先进行合并，减小水平文字被错误地竖直合并的可能，然后对连通块进行竖直方向的合并，把不满足水平合并规则但满足竖直合并规则的合并好；但是这个过程中因为连通块的包围盒可能是变化的，产生新的满足水平合并规则的包围盒对，所以再做一次水平方向的连通块的合并。

连接合并规则的一个示例为两个连通块的包围盒满足以下条件至少之一连接两个连通块为新的连通块：

1)两个连通块的包围盒在参考轴向(水平轴或竖直轴)上的中心距离(两个包围盒在相应参考轴向上的中心的坐标的距离)或者边缘距离中的最小距离(两个包围盒在参考轴向上的边缘坐标之间的距离)，小于两个包围盒对应参考轴向的边长(与参考轴向方向一致边长)中最小边长的第一预设比例(如0.15倍)；

由于两个包围盒在相应参考轴向上的坐标范围可能是分离的也可能是部分重合的，所以采用中心距离或边缘距离中较小距离的方式能够最准确表征两个连通块的包围盒在相应参考轴向上的距离。

2)两个连通块的包围盒在垂直于参考轴向的方向的距离小于两个包围盒对应垂直于参考轴向的边长中最小边长的第二预设比例(如两倍)；

3)两个连通块的包围盒在参考轴向的边长的差值(两个2连通块的包围盒的对应参考轴向的边长的差值)小于两个连通块的包围盒在相应参考轴向的边长中最小边长的第三预设比例(如30％)。

步骤207，在目标图像上对应连接到一起的连通块对应的包围盒(也就是包含文字行或文字列的候选的文字区域)的位置提取特定区域，对于每个提取的特定区域，基于特定区域中包含文字行或文字列的概率对应判断该特定区域中是否包含文字行或文字列。

前述步骤201至步骤206中，将在减色图像f1和二值图像f2得到连接的包围盒，也就是被连接成一行的包围盒的并集得到的新的包围盒，形状上为矩形，也就是潜在的包括文字行或文字列的区域(也就是候选的文字区域)，在目标图像I上提取出一个感兴趣区域(ROIregion of interest，也就是前述的特定区域，从目标图像I中以方框、圆、椭圆、不规则多边形等方式勾勒出的需要处理的区域)，以特定滑窗步长如以该区域的最短边长S为窗口边长，0.5S为滑窗步长滑窗送入预先训练好的卷积神经网络(CNN)分类器中判别，得到每个滑窗内包含文字的概率p_w，对所有p_w取平均值，得到候选的文字区域是文字行(或文字列)的概率p_l，若概率p_l大于预设的概率阈值(取0.5)，则判定感兴趣区域内存在文字行(或文字列)。

步骤208，对重叠的包围盒合并成一个包围盒并作为包含文字的区域输出。

步骤201到204保证了包围盒(也即是潜在的文字区域)的位置准确性(即使这个包围盒内是别的图像元素而不是文字行(或文字列)，也能够准确地把对应文字行的图像元素丢弃，而步骤208中概率阈值过滤保证通过过滤的包围盒内都包含文字行(或文字列)，通过过滤的包围盒均有比较准确的位置，不需要非极大抑制，直接对所有重叠的包围盒，合并成一个包围盒并输出。

卷积神经网络训练步骤：

对拿到的数据(包含文字的图像)，标注其中的汉字，然后对上述步骤206(卷积神经网络过滤前)的输出进行筛选，选取于标注接近的部分，将包围盒按照上述步骤208中的方法切割为滑窗，人工分离出属于文字和不属于文字的窗口，所有的窗口被缩放至32*32像素。

将这些窗口构建训练和验证数据，训练图6和图7示出的神经网络，训练时每个数据被随机中心裁剪成27*27像素大小，并随机翻转。使用随机梯度下降(SGD)训练，训练的batch_size取50，权值衰减_(weight_decay)取0.0005，动量momentum取0.9，学习率(learning rate)以如下公式计算lr＝base_lr*(1+0.0001*iter)^(-0.75)，iter是迭代的次数，前10万次迭代，base_lr取0.001，之后取0.0001。

本发明实施例提供一种文字检测***，参见图9，包括：

减色二值处理单元100，用于将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，以及，将所述目标图像转换为二值图像；

第一合并单元200，用于将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并；

第二合并单元300，用于对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域；

判断单元400，用于在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列。

优选地，所述减色二值处理单元100，还用于将所述目标图像的红绿蓝三色通道中每个通道分别做K个等级的量化得到K个等级的区间；

优选地，所述第一合并单元200，还用于对所述减色图像中以及所述二值图像中的每个像素作为一个单独的连通块，建立针对所述像素的并查集执行以下处理：

所述第一合并单元200，还用于若所述像素与8邻接的像素中的任一像素的色彩相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块

所述第一合并单元200，还用于对每个所述连通块的像素面积进行判断，如果所述连通块的像素面积小于像素面积阈值，则将所述连通块并入与所述连通块相邻的连通块，并将所述连通块的色彩设置为所并入的连通块的色彩。

优选地，所述***还包括：

丢弃处理单元500，用于在所述第一合并单元200将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，丢弃减色图像中以及二值图像中符合预设特征的连通块；所述预设特征包括以下至少之一：

丢弃掉所述连通块中面积小于像素面积阈值的连通块；

优选地，所述***还包括

第三合并单元600，用于在所述第一合并单元200将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，基于所述减色图像中的每种色彩通道的连通块的位置关系分别进行合并为新的连通块，以及针对所述二值图像中的连通块基于位置关系进行合并为新的连通块；

其中，第三合并单元600，还用于执行以下处理至少之一：

合并距离小于距离阈值的连通块；

合并包围盒对齐且满足预设对齐合并规则的连通块。

优选地，所述第二合并单元300，还用于基于连接合并规则不同类型的依次进行水平方向的合并、竖直方向的合并，以及水平方向的合并；其中，所述连接合并规则包括：

优选地，所述判断单元400，还用于以所述目标图像上提取出一个感兴趣区域，将在所述减色图像和所述二值图像得到连接的包围盒，以特定滑窗步长滑窗将在所述减色图像和所述二值图中连接得到的包围盒送入卷积神经网络分类器中判别，得到每个所述滑窗内包含文字的概率；

所述判断单元400，还用于对所述滑窗内包含文字的概率取平均值，得到所述候选的文字区域包括文字行或文字列的概率；

所述判断单元400，还用于若所得到的大于预设的概率阈值，则判定所述感兴趣区域内存在文字行或文字列。

本发明实施例提供一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令用于执行图1或图2示出的文件检测方法。

综上所述，本发明实施例具有以下有益效果：

本发明提出了图像中文字检测的方法及***，适用于定位网络相册中的图像中的印刷体汉字等文字，输出的结果可作为文字识别***的输入，帮助最终产生准确的文字识别结果。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文字检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将目标图像的三色通道中的每个图像进行减色处理，得到减色图像，包括：

3.如权利要求1所述的方法，其特征在于，所述将减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并，包括：

若所述像素与8邻接的像素中的任一像素的色彩相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块；

4.如权利要求1所述的方法，其特征在于，所述将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，所述方法还包括：

丢弃所述减色图像中以及所述二值图像中符合预设特征的连通块；所述预设特征包括以下至少之一：

所述连通块中面积小于像素面积阈值的连通块；

5.如权利要求1所述的方法，其特征在于，所述将所述减色图像中具有相同色彩的连通块进行合并，以及将所述二值图像中具有相同色彩的连通块合并之后，所述方法还包括：

基于所述减色图像中的每种色彩通道的连通块的位置关系分别进行合并为新的连通块，以及针对所述二值图像中的连通块基于位置关系进行合并为新的连通块；其中，所述合并包括执行以下处理至少之一：

合并距离小于距离阈值的连通块；

合并包围盒对齐且满足预设对齐合并规则的连通块。

6.如权利要求1所述的方法，其特征在于，所述对所述减色图像三色通道的每种色彩通道的连通块、以及所述二值图像中的连通块，分别在竖直和水平方向上以连接的方式进行合并，得到所述目标图像中候选的文字区域，包括：

7.如权利要求1至6任一项所述的方法，其特征在于，所述在所述目标图像上对应所述候选的文字区域的位置提取特定区域，基于所提取的所述特定区域中包含文字区域的概率与预设概率阈值的比较结果判断所述提取的特定区域中是否包含文字行或文字列，包括：

8.一种文字检测***，其特征在于，所述***包括：

9.如权利要求8所述的***，其特征在于，

所述减色二值处理单元，还用于将所述目标图像的红绿蓝三色通道中每个通道分别做K个等级的量化得到K个等级的区间；

10.如权利要求8所述的***，其特征在于，

所述第一合并单元，还用于对所述减色图像中以及所述二值图像中的每个像素作为一个单独的连通块，建立针对所述像素的并查集执行以下处理：

所述第一合并单元，还用于若所述像素与8邻接的像素中的任一像素的色彩相同，则将相邻的两个色彩相同的像素所属的连通块合并为同一个连通块；

11.如权利要求7所述的***，其特征在于，所述***还包括：

所述连通块中面积小于像素面积阈值的连通块；

12.如权利要求8所述的***，其特征在于，所述***还包括

其中，所述第四合并单元，还用于执行以下处理至少之一：

合并距离小于距离阈值的连通块；

合并包围盒对齐且满足预设对齐合并规则的连通块。

13.如权利要求8所述的***，其特征在于，

所述第二合并单元，还用于基于连接合并规则不同类型的依次进行水平方向的合并、竖直方向的合并、以及水平方向的合并；其中，所述连接合并规则包括：

14.如权利要求8至13任一项所述的***，其特征在于，

所述判断单元，还用于以所述目标图像上提取出一个特定区域，将在所述减色图像和所述二值图像得到连接的包围盒，以特定滑窗步长滑窗将在所述减色图像和所述二值图中连接得到的包围盒送入卷积神经网络分类器中判别，得到每个所述滑窗内包含文字的概率；