CN105574513A

CN105574513A - 文字检测方法和装置

Info

Publication number: CN105574513A
Application number: CN201510970839.2A
Authority: CN
Inventors: 姚聪; 周舒畅; 周昕宇; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2016-05-11
Anticipated expiration: 2035-12-22
Also published as: CN105574513B

Abstract

本发明公开了一种文字检测方法和装置。该文字检测方法包括：接收待检测图像；经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及对所述文字区域概率图进行分割操作，以确定所述文字区域。上述文字检测方法和装置可以在有效抑制复杂背景的干扰的同时，检测不同语种、方向、颜色、字体和尺寸的文字，适应范围广。此外，该文字检测方法和装置具有鲁棒性强的特点，可以有效应对图像噪声、图像模糊、图像中复杂背景、非均匀光照等因素的干扰。

Description

文字检测方法和装置

技术领域

本发明涉及图像处理领域，具体涉及一种文字检测方法和装置。

背景技术

随着智能手机的广泛普及和移动互联网的迅速发展，通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常，在文字和其他物体并存的场景，用户往往首先更关注场景中的文字信息，因而正确识别图像中的文字对用户拍摄意图会有更深入的理解。这就涉及了文字检测技术来识别拍摄图像中的文字区域。

文字检测作为一项重要的基础技术，具有巨大的应用价值和广阔的应用前景，特别是自然场景图像的文字检测。例如，自然场景图像的文字检测技术可直接应用于增强现实、地理定位、人机交互、机器人导航、自动驾驶汽车和工业自动化等领域。

然而，待检测图像中大多包含较复杂的背景，且其质量可能受到噪声、模糊、非均匀光照等因素的影响；此外，文字具有多样性，比如，自然场景图像中的文字可能具有不同的颜色、尺寸、字体和方向等。这些因素都会给文字检测带来巨大的困难和挑战。基于上述原因，现有的文字检测方法容易产生虚警(falsealarm)，也即将背景中的非文字成分错误地判别为文字。此外，现有的文字检测方法在适应性方面也存在不足之处，例如，大部分方法只能检测水平方向的文字，对于倾斜或旋转的文字则无能为力。又例如，有些方法只能够应用于中文检测，无法直接推广到不同类别语言(如英文、俄文、韩文等)的文字。而且当图像中存在严重的噪声、模糊或者非均匀光照时，现有的文字检测方法又往往会产生错误。总之，现有的文字检测方法和***在精度和适用范围等方面存在缺陷。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的文字检测方法和装置。

根据本发明一个方面，提供了一种文字检测方法，包括：

接收待检测图像；经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及

对所述文字区域概率图进行分割操作，以确定所述文字区域。

根据本发明另一方面，还提供了一种文字检测装置，包括语义分析模块和分割模块。语义分析模块用于接收待检测图像，并使用语义预测模型以生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域。分割模块用于对所述文字区域概率图进行分割操作，以确定所述文字区域。

上述文字检测方法和装置中，支持对待检测图像的全图直接进行文字检测，不同于基于简单阈值分割、滑动窗或连通分量的算法。其可以在有效抑制复杂背景的干扰的同时，检测不同语种、方向、颜色、字体和尺寸的文字，适应范围广。此外，该文字检测方法和装置具有鲁棒性强的特点，可以有效应对图像噪声、图像模糊、图像中复杂背景、非均匀光照等因素的干扰。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1a和图1b分别示例性地示出了根据本发明一个实施例的待检测图像和经检测图像；

图2示例性地示出了根据本发明一个实施例的文字检测方法的流程图；

图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b分别示例性地示出了根据本发明的实施例的待检测图像的全图和其对应生成的文字区域概率图。

图7示例性地示出了根据本发明一个实施例的获得待检测图像的方法的流程图；

图8示例性地示出了根据本发明一个实施例的对文字区域概率图进行分割操作的方法的流程图；

图9示例性地示出了根据本发明一个实施例的训练神经网络的方法的流程图；

图10a、图10b、图10c和图10d分别示出了根据本发明一个实施例的具有标注信息的样本图像；

图11a和图11b分别示出了根据本发明一个实施例的具有标注信息的样本图像和其对应的掩模图；

图12示例性地示出了根据本发明一个实施例的全卷积神经网络的示意图；

图13示例性地示出了根据本发明一个实施例的文字检测装置的示意性框图；

图14示例性地示出了根据本发明另一个实施例的文字检测装置的示意性框图；以及

图15示例性地示出了根据本发明一个实施例的文字检测***的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更合理地自动识别图像中文字区域，本发明提供了一种文字检测方法。图1a和图1b分别示例性地示出了根据本发明一个实施例的待检测图像和经检测图像。图2示出了根据本发明一个实施例的文字检测方法200的流程图。如图2所示，该方法200包括步骤S210至步骤S230。

在步骤S210中，接收待检测图像。待检测图像可以是原始图像，也可以是对原始图像进行预处理后得到的图像。在本发明的一个实施例中，可以通过对采集到的原始图像进行预处理得到所述待检测图像。下文中将结合具体附图对所述图像预处理的方法进行详细描述。

在步骤S220中，经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域。根据本发明的一个实施例，文字区域是指图像中包含文字的区域。以图1a和图1b为例，图1b中两个黑色四边形内部的区域是文字区域。在第一个文字区域中，包含文字“我在生长”，在第二个文字区域中，包含文字“请不要踩我”。

在一个实施例中，文字区域概率图使用不同的像素值表示不同的概率以区分所述待检测图像的文字区域和所述待检测图像的非文字区域。在一个实施例中，图像的像素值越高表示该像素所在区域属于文字区域的概率越高，图像的像素值越低则表示该像素所在区域属于文字区域的概率越低。例如像素值为0的黑色像素表示该像素所在区域属于文字区域的概率为0，像素值为255的白色像素表示该像素所在区域属于文字区域的概率为100％。

根据本发明的一个实施例，待检测图像的全图经由语义预测模型生成文字区域概率图。语义预测模型用于根据待检测图像的语义生成文字区域概率图，以预测待检测图像中的像素属于文字区域还是属于非文字区域。图像语义是图像的高层特征，其虽然以图像的色彩、纹理、形状等等底层特征为基础，但是与这些底层特征显著不同。图像语义作为知识信息的基本描述载体，能将完整的图像内容转换成可直观理解的类文本语言表达，在图像理解中起着至关重要的作用。图像理解输入的是图像数据，输出的是知识，其属于图像研究领域的高层内容。语义预测模型能够实现图像理解，其能够直接根据图像语义识别图像中的文字区域，这与基于阈值分割图像的各个模型显著不同。语义预测模型可以基于其对待检测图像的理解，根据待检测图像的语义，生成更理想的文字区域概率图，从而预测待检测图像中的像素属于文字区域还是属于非文字区域，以获得更合理的文字区域。

所述语义预测模型可以通过训练神经网络得到。神经网络可用于根据大量的输入估计一般的未知近似函数。神经网络能够机器学习，具有较强的自适应性质。经过训练的神经网络能够逼近一个任意函数，其能够从已知数据“学习”。由此，神经网络非常适用于经过训练用作语义预测模型，来识别待检测图像中的文字区域。在下文中将结合图9至图12对训练神经网络获得语义预测模型进行详细描述。

图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b分别是根据本发明的实施例的待检测图像的全图和经由语义预测模型生成的对应的文字区域概率图。图3a、图4a、图5a和图6a可以是待检测的图像的全图，并且，图像上含有文字区域，例如，图3a上的文字区域中包含的是中文；图4a图像上包含的文字区域包含中文和英文，并且如图4a所示，图4a中的文字区域的方向非水平；图5a的图像上的文字区域包含俄文；图6a图像的文字区域包含韩文。并且，可以看出，图3a、图4a、图5a和图6a的图像具有不同的背景，且背景比较复杂；并且，上述图像中的文字也具有多样性，例如这些文字具有不同的颜色、字体、语种和尺寸等信息。图3b、图4b、图5b和图6b分别示出所述图3a、图4a、图5a和图6a的待检测图像的全图经过语义预测模型之后所生成的文字区域概率图。生成的文字区域概率图使用不同的像素值表示不同的概率以区分待检测图像的文字区域和非文字区域。例如，使用像素值255的像素填充文字区域，表示该区域属于文字区域的概率最高，使用像素值0的像素填充非文字区域(例如，背景区域)，表示该区域属于文字区域的概率最低，从而区分出待检测图像中的文字区域和非文字区域。以图4b为例，图4b的文字区域概率图使用不同的像素值区分待检测图像4a中的文字区域和非文字区域。例如，使用具有像素值为255的像素填充待检测图像4a中的两个文字区域，“非授权请勿入内”和“AuthorizedPersonnelOnly”，从而得到如图4b所示出的文字区域概率图，并且，图4b的文字区域概率图也完整准确地示出了待检测图像4a中的文字区域的方向。

在步骤S230中，对步骤S220所生成的文字区域概率图进行分割操作，以确定文字区域。因为文字区域概率图中的像素的数值可以表示该像素所在区域属于文字区域的概率，从而区分文字区域和非文字区域，所以可以根据底层特征(例如图像的灰度)对文字区域概率进行分割。

例如，该步骤S230可以通过对文字区域概率图进行二值化操作来获得文字区域。本发明中，由于期望区分文字区域和非文字区域(背景区域)，所以利用二值化操作即可实现该目的。二值化操作实现简单，计算量少并且速度快。

二值化操作可以是阈值分割操作。可选地，阈值T为可调参数。如果灰度值255表示属于文字区域的概率为100％，灰度值0表示属于文字区域的概率为0，那么可以将阈值设置为128。

二值化操作还可以是基于区域增长的分割操作。区域增长方法是根据同一物体区域内像素的相似性质来聚集像素的方法。具体地，从初始区域(例如，文字区域概率图中像素值较大的像素)开始，将相邻的具有同样性质(与当前像素的像素值的差比较小)的像素归并到目前的区域中从而逐步增长区域，直至没有可以归并的像素为止。

可以认为分割后所获得的图像中平均像素值较小的区域为非文字区域，其他区域为文字区域。下文中将结合具体的附图对二值化操作确定所述文字区域进行详细描述。

本领域普通技术人员可以理解，上述方法200具有普适性。其可以用于任何图像的文字检测。该方法200可以针对文档图像进行文字检测和识别，文档图像例如证件和票据的照片、纸件文档的扫描件等。该方法200还可以针对自然场景图像进行文字检测和识别。

本发明的上述方法200摒弃了基于滑动窗的检测方式以及基于连通分量的检测方式，采用了基于语义分割的全新检测方式。该方法200能够实现全图预测，即输入和输出都是整幅图像，而不是局部区域或窗口，因此可以更好地利用图像中的上下文信息，特别是自然场景图像中的上下文信息，从而得到更准确的文字检测结果。

该方法200可以处理不同场景、不同质量的图像。该方法200可以在有效抑制复杂背景的干扰的同时，检测不同颜色、字体和尺寸的文字。该方法200可以自动预测文字行的方向，可以直接检测图像中不同方向的文字。该方法200对文字所属的语言不敏感，可以同时检测不同类别语言(如中文、英文、韩文等)对应的文字。此外，该方法200具有鲁棒性强的特点，可以有效应对噪声、模糊、复杂背景、非均匀光照等因素的干扰。

图7示出了根据本发明一个实施例的获得所述待检测图像的流程图。

在步骤S710中，接收原始图像。在一个实施例中，原始图像可以具有复杂的背景信息，其包含的文字区域也可以具有多样性，例如文字区域可以包括有不同的颜色、字体、语种和尺寸等的文字信息。

在步骤S720中，对接收到的原始图像进行预处理，以获得待检测图像。在一个实施例中，可以将接收到的原始图像进行尺度归一化，即将原始图像的最大维度(例如，原始图像的高度和宽度中的较大者)缩放到预设尺寸，所述预设尺寸可以包括480、640、800、和960像素等。在尺度归一化操作之后得到的待检测图像的长宽比例与原始图像的长宽比例保持相同。

图8示例性地示出了根据本发明一个实施例的对文字区域概率图进行分割操作的方法的流程图。

在步骤S810中，对待检测图像的文字区域概率图进行二值化操作。

可以理解，可以直接根据二值化操作的结果来获得文字区域。在本发明中，由于期望区分文字区域和非文字区域(背景区域)，所以利用二值化操作即可实现该目的。二值化操作实现简单，计算量少并且速度快。

二值化操作还可以是基于区域增长的分割操作。区域增长方法是根据同一物体区域内像素的相似性质来聚集像素的方法。具体地，从初始区域(例如，文字区域概率图中像素值较大的像素)开始，将相邻的具有同样性质(与当前像素的像素值的差比较小)的像素归并到目前的区域中从而逐步增长区域，直至没有可以归并的像素为止

在图8所示的实施例中，在二值化操作之后，还包括步骤S820和步骤S830。

在步骤S820中，确定二值化操作所获得的每个连通区域的轮廓。该步骤可以用现有的或未来研发的任何边缘检测方法来实现，例如基于诸如Sobel或Canny算子等各种边缘检测方法。

在步骤S830中，将每个连通区域的轮廓拟合为四边形以确定所述文字区域。在一个实施例中，所有四边形的内部区域可以作为文字区域。具体地，假设所有四边形组成的集合为B,B＝{b_k},k＝1,2,…Q,其中b_k表示拟合获得的四边形，Q表示四边形的数目，k为下标。则集合B即为文字检测的结果输出。

四边形围成的区域能够较好地包括任何方向、语言的文字，并且其计算简单。例如图6b的文字区域概率图所示，图像中噪声、图像中文字形状等种种原因可能导致文字区域概率图未能较理想地表示像素属于文字区域的概率。通过用四边形区域来拟合文字区域，可以进一步保证文字区域内包含全部文字内容，从而保证文字检测的精度。

图9示例性地示出了根据本发明一个实施例的训练神经网络以得到语义预测模型的方法的流程图。该方法的目的在于从样本图像中学习语义预测模型，该模型可以有效区分待检测图像中的文字区域和非文字区域。

样本图像是已知其中文字区域的图像。如上所述，神经网络具有“学习”能力，可以通过利用多个样本图像训练神经网络来获得可用的语义预测模型。在该实施例中，该训练方法使得语义预测模型能够根据待检测图像的语义，生成更准确的文字区域概率图，从而预测所述待检测图像中的像素属于文字区域还是非文字区域，从而，使得文字检测方法的检测结果的正确率更高。

本领域普通技术人员可以理解，对于文字检测***来说，该语义预测模型可以预先存储于其中。

在步骤S910中，接收多个样本图像和其标注信息。

在一个实施例中，可以从不同来源采集大量包含文字的各种图像作为样本图像，例如，自然场景图像。期望样本图像种类丰富且数目较多，以获得理想的语义预测模型。在一个实施例中，样本图像的数目不少于1000。

可以使用多边形在每个样本图像中标注所述样本图像中的所有文字区域，从而获得样本图像的标注信息。标注的基本文字单位可以是文字行或单词。样本图像中文字区域的标注信息可以以多边形(例如，四边形)的形式保存。具体地，在一个实施例中，可以仅保存四边形的四个顶点的坐标。以四边形的形状保存标注信息不仅可以满足任何方向、语言的文字，而且便于计算。

图10a、图10b、图10c和图10d分别示出了根据本发明一个实施例的经标注的具有标注信息的样本图像。如这些图中所示出的，可以用四边形(图中浅色四边形)标注样本图像中的文字区域，且该标注区域适用于任意字体、语种、以及文字的方向。

在步骤S920中，根据所述样本图像和其标注信息生成样本图像的掩膜图。具体地，对于样本图像I和对应的标注信息a，生成一幅与样本图像I大小一致的掩膜图。在一个实施例中，所述掩膜图可以包括二值掩膜图R。在所述二值掩膜图R中，使用不同的像素值区分样本图像的文字区域和非文字区域。在一个实施例中，对于样本图像I，使用具有第一像素值的像素填充标注信息所标注的文字区域，使用具有第二像素值的像素填充非文字区域，从而生成二值掩膜图R，其中，第一像素值和第二像素值不同，以区分所述文字区域和非文字区域。例如，在二值掩膜图R中，所标注的文字区域(也即使用四边形标注的内部区域)的像素值被填充为255，而非文字区域的像素值被填充为0。

图11a和图11b分别示出了根据本发明一个实施例的经标注的具有标注信息的样本图像和其对应的掩膜图。如图11a所示，使用四边形将原样本图像的文字部分(例如，“海淀建设证券”、“海淀中街”、“HAIDIANZHONGJIE”、“海淀南路”)标注出来，并据此生成图11b中所示的掩模图。其中，使用具有像素值为255的像素填充标注出来的文字部分，使用像素值为0的像素填充非文字部分，从而得到图11b中所示的掩膜图。

在步骤S930中，利用样本图像和其掩膜图构建训练集，并训练神经网络，以获得语义预测模型M。原始的样本图像和其对应的掩膜图构成训练样本集S。S＝{(I_i,R_i)},i＝1,2,...,N，其中I_i表示原始的样本图像，R_i为原始的样本图像I_i对应的掩膜图，N为训练样本集S中样本图像的数目，i为下标。

在一个实施例中，神经网络可以包括全卷积神经网络。全卷积神经网络是一类特殊的神经网络，其特点在于从输入到输出的所有包含可学参数的层都是卷积层(convolutionallayer)。全卷积神经网络避免了对图像的复杂前期预处理，可以直接输入原始图像，其特别适用于对具有复杂背景的图像的分析处理，可以使图像的文字检测结果更准确。

根据本发明一个具体实施例，可以采用一个由13个层构成的全卷积神经网络。图12示出了该全卷积神经网络的示意图。

在该全卷积神经网络中除了包括卷积层，还包括最大池化层。最大池化层隔开连续的卷积层，其可以有效减少计算量，同时增强神经网络的鲁棒性。

该全卷积神经网络的输入为原始图像数据。如图12所示，该全卷积神经网络包括第一卷积层和第二卷积层，其中滤波器的数目可以为64，滤波器大小可以为3x3。第二卷积层连接第一最大池化层(maxpoollayer)。接下来是第三卷积层和第四卷积层，其中滤波器的数目可以为128，滤波器大小可以为3x3。第四卷积层连接第二最大池化层。接下来是第五卷积层、第六卷积层和第七卷积层，其中滤波器的数目为256，滤波器大小为3x3。第七卷积层连接第三最大池化层。接下来是第八卷积层、第九卷积层和第十卷积层，其中滤波器的数目可以为512，滤波器大小可以为3x3。第十卷积层连接第四最大池化层。接下来是第十一卷积层、第十二卷积层和第十三卷积层，其中滤波器的数目可以为512，滤波器大小可以为3x3。

在训练过程中，每次将一个样本图像和对应的掩膜图输入到全卷积神经网络中，初始学习率可以为0.00000001，每经过10000轮迭代，学习率降为原来的1/10。当迭代100000轮后，训练过程可以终止。训练过程终止时所获得的全卷积神经网络即为期望的语义预测模型。经由所述训练好的语义预测模型，可以根据待检测图像的语义生成待检测图像的全图的文字区域概率图，从而预测待检测图像中的文字区域。

本领域普通技术人员可以理解，虽然上面以13层的全卷积神经网络为例来说明，但是全卷积神经网络的层数可以是包括6到19之间的任意数。这个范围的层数权衡了计算结果准确性和计算量这两个方面。此外，上面所述的滤波器的数目和大小也仅为示例，而非限制。例如滤波器的数目还可以是100、500或1000等，滤波器的大小还可以是1x1或5x5。

根据本发明另一方面，还提供了一种文字检测装置。图13示出了根据本发明一个实施例的文字检测装置1300的示意性框图。如图13所示，文字检测装置1300包括语义分析模块1330和分割模块1340。在根据本发明的一个实施例中，所述语义分析模块1330还包括语义预测模型1350。

语义分析模块1330用于接收待检测图像，并使用语义预测模型1350生成所述待检测图像的全图的文字区域概率图。语义预测模型用于根据待检测图像的语义生成文字区域概率图，以预测所述待检测图像中的像素属于文字区域还是属于非文字区域。所述文字区域概率图使用不同的像素值表示不同的概率以区分所述待检测图像的文字区域和所述待检测图像的非文字区域。

在一个实施例中，待检测图像可以是原始图像，也可以是对原始图像进行预处理后得到的图像。

在一个实施例中，语义预测模型1350可以通过训练神经网络得到。在下文中将结合图14对训练神经网络获得语义预测模型1350进行详细描述。

结合图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b描述文字区域概率图。图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b分别是根据本发明的实施例的待检测图像的全图和经由语义预测模型1350生成的对应的文字区域概率图。图3a、图4a、图5a和图6a可以是待检测的图像的全图，并且，图像上含有文字区域，图3b、图4b、图5b和图6b示出所述图3a、图4a、图5a和图6a的待检测图像的全图经过语义预测模型1350之后所生成的文字区域概率图。生成的文字区域概率图使用不同的像素值表示不同的概率以区分待检测图像的文字区域和非文字区域。例如，使用像素值255的像素填充文字区域，表示该区域属于文字区域的概率最高，使用像素值0的像素填充非文字区域(例如，背景区域)，表示该区域属于文字区域的概率最低，从而区分出待检测图像中的文字区域和非文字区域。以图4b为例，图4b的文字区域概率图使用不同的像素值区分待检测图像4a中的文字区域和非文字区域。例如，使用具有像素值为255的像素填充待检测图像4a中的两个文字区域，“非授权请勿入内”和“AuthorizedPersonnelOnly”，从而得到如图4b所示出的文字区域概率图，并且，图4b的文字区域概率图也完整准确地示出了原待检测图像4a中的文字区域的方向

分割模块1340用于对所述文字区域概率图进行分割操作，以确定文字区域。因为文字区域概率图中的像素的数值可以表示该像素属于文字区域的概率，所以可以根据底层特征(例如图像的灰度)对文字区域概率进行分割。

例如，分割模块1340可以通过对文字区域概率图进行二值化操作来获得文字区域。本发明中，由于期望区分文字区域和非文字区域(背景区域)，所以利用二值化操作即可实现该目的。二值化操作实现简单，计算量少并且速度快。

二值化操作之后，所述分割模块1340还可以用于确定二值化操作所获得的每个连通区域的轮廓。可以用现有的或未来研发的任何边缘检测方法来实现，例如基于诸如Sobel或Canny算子等各种边缘检测方法。分割模块1340还可以用于将每个连通区域的轮廓拟合为四边形以确定所述文字区域。在一个实施例中，所有四边形的内部区域可以作为文字区域。具体地，假设所有四边形组成的集合为B,B＝{b_k},k＝1,2,…Q,其中b_k表示拟合获得的四边形，Q表示四边形的数目，k为下标。则集合B即为文字检测的结果输出。

在一个实施例中，可以认为分割模块1340分割后所获得的图像中平均像素值较小的区域为非文字区域，其他区域为文字区域。

图14示出了根据本发明另一实施例的文字检测装置1400的示意性框图。文字检测装置1400中的语义分析模块1330与文字检测装置1300中的语义分析模块1330类似，文字检测装置1400中的分割模块1340与文字检测装置1300中的分割模块1340类似，为了简洁，在此不再赘述。

与文字检测装置1300相比，文字检测装置1400增加了图像预处理模块1410和训练模块1420。

根据本发明的实施例，所述图像预处理模块1410接收原始图像。在一个实施例中，原始图像可以具有复杂的背景信息，可以包括具有多样性的文字区域，例如，有不同的颜色、字体、语种和尺寸的文字信息。

图像预处理模块1410对接收到的原始图像进行预处理。在一个实施例中，图像预处理模块1410可以对接收到的原始图像进行尺度归一化，即将原始图像的最大维度(例如，原始图像的高度和宽度中的较大者)缩放到预设尺寸，所述预设尺寸可以包括480、640、800、和960像素等。并且，预处理之后得到的图像的长宽比例与所述原始图像的长宽比例保持相同。

经过预处理之后，图像预处理模块1410得到所述待检测图像并将所述待检测图像的全图输出至所述语义分析模块1330进行处理。其中，根据上文的描述，所述待检测图像具有预设尺寸大小，并且所述待检测图像的长宽比例与所述原始图像的长宽比例相同。

根据本发明的一个实施例，训练模块1420用于利用多个样本图像训练神经网络，以获得语义预测模型1350，该模型可以有效地区分待检测图像中的文字区域和非文字区域。

在一个实施例中，训练模块1420可以从不同来源采集大量包含文字的各种图像作为样本图像并接收样本图像的标注信息。样本图像例如是自然场景图像。期望样本图像种类丰富且数目较多，以获得理想的语义预测模型。在一个实施例中，样本图像的数目不少于1000。

每个样本图像中的所有文字区域可以使用多边形在该样本图像中标注。标注的基本文字单位可以是文字行或单词。样本图像中文字区域的标注信息可以以多边形(例如，四边形)的形式保存。具体地，在一个实施例中，可以仅保存四边形的四个顶点的坐标。以四边形的形状保存标注信息不仅可以满足任何方向、语言的文字，而且便于计算。

训练模块1420还用于根据样本图像和其标注信息生成样本图像的掩膜图。在一个实施例中，所述掩膜图包括二值掩膜图。具体地，对于样本图像I和对应的标注信息a，训练模块1420生成一幅与样本图像I大小一致的掩膜图，例如，二值掩膜图R。二值掩膜图R使用不同的像素值区分样本图像的文字区域和非文字区域。在一个实施例中，对于样本图像I，使用具有第一像素值的像素填充所标注的文字区域，使用具有第二像素值的像素填充非文字区域，从而生成所述掩膜图，其中，第一像素值和第二像素值不同，以区分所述文字区域和非文字区域。例如，所标注的文字区域(也即使用四边形标注的内部区域)的像素值被填充为255，而非文字区域的像素值被填充为0。

训练模块1420进一步用于利用样本图像和其掩膜图构建训练集，并训练神经网络，以获得语义预测模型1350。具体地，原始的样本图像和其对应的掩膜图构成的训练样本集为S。S＝{(I_i,R_i)},i＝1,2,...,N，其中I_i表示原始的样本图像，R_i为原始的样本图像I_i对应的掩膜图，N为训练样本集S中样本图像的数目，i为下标。

在一个实施例中，神经网络可以是全卷积神经网络。全卷积神经网络是一类特殊的神经网络，其特点在于从输入到输出的所有包含可学参数的层都是卷积层。全卷积神经网络避免了对图像的复杂前期预处理，可以直接输入原始图像，其特别适用于对具有复杂背景的图像的分析处理，可以使图像的文字检测结果更准确。

训练模块1420将训练样本集S输入全卷积神经网络进行训练，以得到语义预测模型1350。根据本发明一个具体实施例，可以采用一个由13个层构成的全卷积神经网络。图12示出了该全卷积神经网络的示意图。

该全卷积神经网络的输入为原始图像数据。如图12所示，该全卷积神经网络包括第一卷积层和第二卷积层，其中滤波器的数目可以为64，滤波器大小可以为3x3。第二卷积层连接第一最大池化层。接下来是第三卷积层和第四卷积层，其中滤波器的数目可以为128，滤波器大小可以为3x3。第四卷积层连接第二最大池化层。接下来是第五卷积层、第六卷积层和第七卷积层，其中滤波器的数目为256，滤波器大小为3x3。第七卷积层连接第三最大池化层。接下来是第八卷积层、第九卷积层和第十卷积层，其中滤波器的数目可以为512，滤波器大小可以为3x3。第十卷积层连接第四最大池化层。接下来是第十一卷积层、第十二卷积层和第十三卷积层，其中滤波器的数目可以为512，滤波器大小可以为3x3。

在训练过程中，每次将一个样本图像和对应的掩膜图输入到全卷积神经网络中，初始学习率可以为0.00000001，每经过10000轮迭代，学习率降为原来的1/10。当迭代100000轮后，训练过程可以终止。训练过程终止时所获得的全卷积神经网络即为期望的语义预测模型。经由所述训练好的语义预测模型，可以根据待检测图像的语义生成文字区域概率图，从而预测待检测图像中的文字区域。

经过训练模块1420利用多个样本图像训练神经网络而获得的语义预测模型1350可以有效地区分待检测图像中的文字区域和非文字区域。

图15示出了根据本发明实施例的文字检测***1500的示意性框图。如图15所示，文字检测***1500包括处理器1510、存储器1520以及在所述存储器1520中存储的程序指令1530。

所述程序指令1530在所述处理器1510运行时可以实现根据本发明实施例的文字检测装置的各个功能模块的功能，并且/或者可以执行根据本发明实施例的文字检测方法的各个步骤。

具体地，在所述程序指令1530被所述处理器1510运行时，执行以下步骤：接收待检测图像；经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及对所述文字区域概率图进行分割操作，以确定所述文字区域。语义预测模型用于根据图像的语义预测所述待检测图像中的像素属于文字区域还是属于非文字区域。

此外，在所述程序指令1530被所述处理器1510运行时，还执行以下步骤：接收原始图像；以及对所述原始图像进行预处理，以获得所述待检测图像，其中，所述待检测图像具有预设尺寸大小，并且所述待检测图像的长宽比例与所述原始图像的长宽比例相同。

此外，在所述程序指令1530被所述处理器1510运行时所执行的对所述文字区域概率图进行分割操作以确定所述文字区域的步骤包括：对所述文字区域概率图进行二值化操作，以确定所述文字区域。

此外，在所述程序指令1530被所述处理器1510运行时所执行的对所述文字区域概率图进行二值化操作以确定所述文字区域的步骤包括：确定所述二值化操作所获得的每个连通区域的轮廓；以及将所述轮廓拟合为四边形，其中，所述四边形内部区域为所述文字区域。

此外，在所述程序指令1530被所述处理器1510运行时，还执行以下步骤：利用多个样本图像训练神经网络，以获得所述语义预测模型。

此外，在所述程序指令1530被所述处理器1510运行时，所执行的利用多个样本图像训练神经网络以获得所述语义预测模型的步骤包括：接收所述样本图像和所述样本图像的标注信息；根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图；以及利用所述样本图像和所述掩膜图训练所述神经网络，以获得所述语义预测模型。

此外，在所述程序指令1530被所述处理器1510运行执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述掩膜图包括二值掩膜图，并且所述二值掩膜图使用不同的像素值区分所述样本图像的文字区域和非文字区域。

此外，在所述程序指令1530被所述处理器1510运行执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述神经网络包括全卷积神经网络。

此外，在所述程序指令1530被所述处理器1510运行执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述全卷积神经网络的层数包括6到19之间的任意数。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的文字检测方法的相应步骤，并且用于实现根据本发明实施例的文字检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含用于训练神经网络以获得语义预测模型的计算机可读的程序代码，另一个计算机可读存储介质包含用于进行文字检测的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的文字检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的文字检测方法。

在一个实施例中，所述计算机程序指令在被计算机运行时执行以下步骤：接收待检测图像；经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及对所述文字区域概率图进行分割操作，以确定所述文字区域。所述语义预测模型用于根据图像的语义预测所述待检测图像中像素属于文字区域还是属于非文字区域。

此外，所述计算机程序指令在被计算机运行时执行，还执行以下步骤：接收原始图像；以及对所述原始图像进行预处理，以获得所述待检测图像，其中，所述待检测图像具有预设尺寸大小，并且所述待检测图像的长宽比例与所述原始图像的长宽比例相同。

此外，在所述计算机程序指令在被计算机运行时所执行的对所述文字区域概率图进行分割操作以确定所述文字区域的步骤包括：对所述文字区域概率图进行二值化操作，以确定所述文字区域。

此外，在所述计算机程序指令在被计算机运行时所执行的对所述文字区域概率图进行二值化操作以确定所述文字区域的步骤包括：确定所述二值化操作所获得的每个连通区域的轮廓；以及将所述轮廓拟合为四边形，其中，所述四边形内部区域为所述文字区域。

此外，在所述计算机程序指令在被计算机运行时，还执行以下步骤：利用多个样本图像训练神经网络，以获得所述语义预测模型。

此外，在所述计算机程序指令在被计算机运行时，所执行的利用多个样本图像训练神经网络以获得所述语义预测模型的步骤包括：接收所述样本图像和所述样本图像的标注信息；根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图；以及利用所述样本图像和所述掩膜图训练所述神经网络，以获得所述语义预测模型。

此外，在所述计算机程序指令在被计算机运行时执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述掩膜图包括二值掩膜图，并且所述二值掩膜图使用不同的像素值区分所述样本图像的文字区域和非文字区域。

此外，在所述计算机程序指令在被计算机运行时执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述神经网络包括全卷积神经网络。

此外，在所述计算机程序指令在被计算机运行时执行利用多个样本图像训练神经网络以获得所述语义预测模型的步骤中，所述全卷积神经网络的层数包括6到19之间的任意数。

本领域普通技术人员通过阅读上文关于文字检测方法的详细描述，能够理解上述文字检测装置、***的结构、实现以及优点，因此这里不再赘述。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字检测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文字检测方法，包括：

接收待检测图像；

经由语义预测模型生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及

2.如权利要求1所述的方法，还包括：

接收原始图像；以及

对所述原始图像进行预处理，以获得所述待检测图像，

其中，所述待检测图像具有预设尺寸大小，并且所述待检测图像的长宽比例与所述原始图像的长宽比例相同。

3.权利要求1所述的方法，其中，对所述文字区域概率图进行分割操作，以确定所述文字区域包括：

对所述文字区域概率图进行二值化操作，以确定所述文字区域。

4.如权利要求3所述的方法，其中，对所述文字区域概率图进行二值化操作，以确定所述文字区域包括：

确定所述二值化操作所获得的每个连通区域的轮廓；以及

将所述轮廓拟合为四边形，其中，所述四边形内部区域为所述文字区域。

5.如权利要求1所述的方法，还包括：

利用多个样本图像训练神经网络，以获得所述语义预测模型。

6.如权利要求5所述的方法，其中，利用多个样本图像训练神经网络，以获得所述语义预测模型包括：

接收所述样本图像和所述样本图像的标注信息；

根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图；以及

利用所述样本图像和所述掩膜图训练所述神经网络，以获得所述语义预测模型。

7.如权利要求6所述的方法，其中，所述掩膜图包括二值掩膜图，并且所述二值掩膜图使用不同的像素值区分所述样本图像的文字区域和非文字区域。

8.如权利要求5所述的方法，其中，所述神经网络包括全卷积神经网络。

9.如权利要求8所述的方法，其中，所述全卷积神经网络的层数包括6到19之间的任意数。

10.如权利要求1至9任一项所述的方法，其中，所述语义预测模型用于根据所述待检测图像的语义预测所述待检测图像中的像素属于文字区域还是属于非文字区域。

11.一种文字检测装置，包括：

语义分析模块，用于接收待检测图像，并使用语义预测模型以生成所述待检测图像的全图的文字区域概率图，其中，所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域；以及

分割模块，用于对所述文字区域概率图进行分割操作，以确定所述文字区域。

12.如权利要求11所述的文字检测装置，所述装置进一步包括：

图像预处理模块，用于接收原始图像，并对所述原始图像进行预处理，以获得所述待检测图像，

13.权利要求11所述的文字检测装置，其中，所述分割模块进一步用于对所述文字区域概率图进行二值化操作，以确定所述文字区域。

14.如权利要求13所述的文字检测装置，其中，所述分割模块进一步用于确定所述二值化操作所获得的每个连通区域的轮廓，并将所述轮廓拟合为四边形，其中，所述四边形内部区域为所述文字区域。

15.如权利要求11所述的文字检测装置，所述装置还包括：

训练模块，连接至所述语义分析模块，用于利用多个样本图像训练神经网络，以获得所述语义预测模型。

16.如权利要求15所述的文字检测装置，其中，所述训练模块进一步用于接收所述样本图像和所述样本图像的标注信息，根据所述样本图像和所述样本图像的标注信息生成所述样本图像的掩膜图，以及利用所述样本图像和所述掩膜图训练所述神经网络，以获得所述语义预测模型。

17.如权利要求16所述的文字检测装置，其中，所述掩膜图包括二值掩膜图，并且所述二值掩膜图使用不同的像素值区分所述样本图像的文字区域和非文字区域。

18.如权利要求15所述的文字检测装置，其中，所述神经网络包括全卷积神经网络。

19.如权利要求18所述的文字检测装置，其中，所述全卷积神经网络的层数包括6到19之间的任意数。

20.如权利要求11至19任一项所述的文字检测装置，其中，语义预测模型用于根据所述待检测图像的语义预测所述待检测图像中的像素属于文字区域还是属于非文字区域。