CN111652217B

CN111652217B - 文本检测方法、装置、电子设备及计算机存储介质

Info

Publication number: CN111652217B
Application number: CN202010496952.2A
Authority: CN
Inventors: 秦勇; 李兵; 张子浩
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-05-03
Anticipated expiration: 2040-06-03
Also published as: CN111652217A

Abstract

本申请实施例提供一种本申请实施例提供的文本检测方法、装置、电子设备及计算机存储介质，所述文本检测方法包括：对待检测文本图像进行特征提取和分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图；获取文本区域阈值图对应的文本区域边框二值图，以及文本区域中心点概率图对应的文本区域中心点二值图；对文本区域中心点二值图进行连通域检测，确定文本区域的聚类中心，进而根据文本区域边框二值图中文本区域边框的像素点与聚类中心的相似度，确定所述待检测文本图像中的文本检测结果。通过本发明实施例，提升了文本检测尤其是密集文本检测的速度。

Description

文本检测方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种文件检测方法、装置、电子设备及计算机存储介质。

背景技术

文本检测是一种检测图像中的文本区域并标记其边界框的技术，文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等。

文本检测的主要目的是定位文本行或字符在图像中的位置，目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。

但是，这种方法计算量过大，不仅需要耗费大量计算资源，而且耗时较长。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种文件检测方法、装置、电子设备及计算机可读存储介质，用以克服上述全部或者部分缺陷。

第一方面，本申请实施例提供一种文本检测方法，其包括：

对待检测文本图像进行特征提取和分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图；

获取所述文本区域阈值图对应的文本区域边框二值图，以及所述文本区域中心点概率图对应的文本区域中心点二值图；

对所述文本区域中心点二值图进行连通域检测，根据文本检测结果确定文本区域的聚类中心；

根据所述文本区域边框二值图中文本区域边框的像素点与所述聚类中心的相似度，确定所述待检测文本图像的文本检测结果。

第二方面，本申请实施例提供了一种文本检测装置，其包括：

特征提取模块，用于对待检测文本图像进行特征提取和分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图；

二值图获取模块，用于获取所述文本区域阈值图对应的文本区域边框二值图，以及所述文本区域中心点概率图对应的文本区域中心点二值图；

聚类中心确定模块，用于对所述文本区域中心点二值图进行连通域检测，确定文本区域的聚类中心；

结果确定模块，用于根据所述文本区域边框二值图中文本区域边框的像素点与所述聚类中心的相似度，确定所述待检测文本图像的文本检测结果。

第三方面，本申请实施例提供一种电子设备，其包括处理器和存储器，所述存储器中存储有程序指令，所述处理器配置为调用所述处理器中的程序指令以执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被配置为在被处理器执行时使所述处理器执行如第一方面所述的方法。

根据本申请实施例提供的文本检测方法、装置、电子设备及计算机存储介质，对待检测文本图像进行特征提取和分割，可以得到较为准确的文本区域阈值图和文本区域中心点概率图，进而，基于根据对文本区域阈值图二值化得到的文本区域边框二值图及连通域检测结果，可以有效表征文本区域边框，根据对文本区域中心点概率图二值化得到的文本区域中心点二值图及连通域检测结果，可以确定文本区域的聚类中心。基于此，根据文本区域边框二值图中的像素点与聚类中心的相似度，即可确定出聚类中心对应的文本区域边框的像素点，由此确定待检测文本图像中的文本检测结果，如文本区域的文本框。一方面，通过二值图进行相应的处理和计算，涉及的计算量减小，可以提升文本检测的速度和效率；另一方面，通过聚类方式，相较于其它神经网络模型的处理方式，不仅降低了文本检测的实现成本，且能够提升计算速度和效率，也由此提升了文本检测的速度和效率。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比值绘制的。附图中：

图1为本申请实施例提供的一种文本检测方法的应用场景图；

图2A为本申请实施例提供的一种文本检测方法的流程图；

图2B为一种PAN网络的结构示意图；

图2C为一种DB网络的结构示意图；

图2D为本申请实施例的神经网络模型的结构示意图；

图3为本申请实施例提供的一种神经网络模型训练方法的流程图；

图4为本申请实施例提供的另一种文本检测方法的流程图。

图5为本申请实施例提供的一种文本检测装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1为根据本申请实施例提供的文件检测方法的应用场景图。如图1所示，该文本检测方法应用于文本检测***。该文本检测***可以包括服务器101和终端102。服务器101和终端102通过网络连接。终端102获取待检测文本图像，并将待检测文本图像通过网络连接发送给服务器101，由服务器101在接收到该待检测文本图像之后，对待检测文本图像进行特征提取和分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图；获取文本区域阈值图对应的文本区域边框二值图，以及文本区域中心点概率图对应的文本区域中心点二值图；对文本区域中心点二值图进行连通域检测，确定文本区域的聚类中心；根据文本区域边框二值图中文本区域边框的像素点与聚类中心的相似度，确定待检测文本图像中的文本检测结果，并通过网络连接发送至终端102。

服务器101可以由单独的服务器101实现，也可以由多个服务器101组成的服务器101集群实现。终端102可以是移动终端，例如手机、平板电脑、膝上型计算机、个人数字助理和/或智能穿戴式设备等，本实施例对此不做限定。

需要说明的是，上述应用场景仅是一个示例，在一些实施例中，上述文件检测方法也可以由内置在终端中的文本检测装置直接对获取的待检测文本图像进行文本检测，获得文本检测结果。文本检测装置也可以在得到的文本检测结果之后也可以进行文字识别，得到识别结果。此外，本发明实施例的方案可适用于具有各种文本密度的文本检测，包括但不限于常规密度文本、密集密度文本、稀疏密度文本，尤其是密集密度文本。其中，确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置，包括但不限于：根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等，本发明实施例对此不作限制。

图2A为本申请实施例提供的一种文件检测方法的流程图。为了便于描述，下文以该文本检测方法应用于服务器来举例说明。如图2A所示，该文本检测方法具体包括如下步骤：

S201、对待检测文本图像进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

本实施例中，待检测文本图像是需要进行文本检测的图像，待检测文本图像中可以包括一个以上的文本片段。在获取到待检测文本图像之后，可以将待检测文本图像进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

在一种可行方式中，可以对待检测文本图像进行特征提取，获得特征映射图；将特征映射图进行图像分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

可选地，上述过程可通过神经网络模型的方式实现。其中，神经网络模型中至少包括特征提取主干网络和特征金字塔网络的架构。神经网络模型的特征提取主干网络采用轻量级神经网络，待检测文本图像输入到预训练的神经网络模型之后，神经网络模型的特征提取主干网络对待检测文本图像提取纹理、边缘、角点和语义信息等特征。具体地，特征提取主干网络采样不同大小的卷积核对待检测文本图像进行卷积操作，得到不同尺度的特征映射图，其中低层特征映射图具有高分辨率，但是携带的特征语义信息比较少，高层特征映射图携带的特征语义信息比较丰富，但是各文本像素的位置比较粗略。特征提取主干网络例如可以采用ResNet 18网络结构，也可以采用其他轻量级神经网络结构，本实施例对此不作限定。在特征提取主干网络之后跟随有特征金字塔网络，特征金字塔网络通过融合低层特征映射图和高层特征映射图的信息来增强不同尺度的特征映射图，以提高特征提取主干网络提取的特征的接受域和表达能力。

进一步地，通过对特征金字塔网络输出的特征映射图进行进一步的特征提取和图像分割处理，可以得到待检测文本图像的文本区域阈值图和文本区域中心点概率图。

在一种可行方式中，通过神经网络模型对待检测文本图像进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图可以包括：使用PAN(像素聚合网络)结构和DB(可微分二值化网络)结构，对待检测文本图像进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

其中，像素聚合网络简称PAN，一种PAN的结构如图2B所示。图2B中，通过输入层接收输入的文本图像，主干网络部分采用了ResNet，ResNet对文本图像进行特征提取，并将提取的特征交给两个FPEM(Feature Pyramid Enhancement Module，特征金字塔增强模块)，FPEM可再次提取特征，以进行特征增强，使特征更具表征能力。在两个FPEM之后，特征融合模块FFM对FPEM输出的特征进行融合，进而，将文本区域中的文字像素引导到正确的核中去，实现文本检测。

本发明实施例中使用了PAN的部分结构，包括Resnet18(残差网络部分)和FPEM，如图2B中点线状虚线部分所示。具体到本实施例，使用的PAN结构部分以Resnet18为基础网络骨架，对输入的待检测文本图像提取纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过2个FPEM模块，再次提取纹理、边缘、角点和语义信息等特征。

相较于单个FPEM模块，2个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同，包括：对得到的4组大小不同的多通道特征映射，按照从大到小的，从前往后的次序，依次称为正向第一、正向第二、正向第三、正向第四组特征映射，先对正向第四组特征映射进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征映射按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为反向第二组特征映射，同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射，然后同样的操作作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射，同时将正向第四组特征映射视为反向第一组特征映射，由此得到4组反向特征映射；将第四组反向特征映射作为目标第一组特征映射，然后对目标第一组特征映射进行2倍下采样，即大小缩小2倍，然后将其与反向第三组特征映射按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为目标第二组特征映射，同样的操作作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射，然后同样的操作作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射，目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第2个FPEM模块是以第1个FPEM模块的输出作为输入，进行同样的操作，得到输出。该输出中包括形成至少一个特征映射图的特征，或者说，输出的特征可以形成特征映射图。

可微分二值化网络也称为DB(Differentiable Binarization)网络，其也是以Resnet18为基础网络架构，一种DB的示意结构如图2C所示。图2C中，输入图像被馈送至一个金字塔特征的backbone；金字塔特征被上采样为同一大小，并被级联以生产特征F；接着，通过特征F同时预测概率图(P)和阈值图(T)；最后，通过P和F计算近似的二值。本发明实施例中，使用DB的部分结构，如图2C中点线状虚线框所示，在训练过程中，PAN结构部分输出的特征映射图被输出该DB部分，该DB部分对其提取特征，然后将提取到的特征全部上采样到原始图像大小的1/4并串联起来，与DB的二通道不同的是，串联后的特征经过一次卷积操作和两次反卷积操作，得到7通道的特征映射图作为输出，第一个通道输出文本区域的概率图，第二个通道输出文本区域的阈值图，第三个通道输出文本区域中心点的概率图，第四至七通道输出表示特征图大小个四维向量。

一种结合了上述PAN结构和DB结构的神经网络模型的结构如图2D所示。从图2D中可见，本发明实施例的神经网络模型有效利用了PAN中的前向处理部分和DB中的后向处理部分。需要说明的是，图2D中仅示意至上采样后特征映射图的输出，针对输出的特征映射图进行处理，进而获得待检测文本图像的文本区域阈值图和文本区域中心点概率图及其后续处理部分等，本领域技术人员可以结合本申请的文字部分获得。

由上，本发明实施例中针对待检测文本图像，可以使用PAN结构对待检测文本图像进行特征提取，获得PAN特征提取结果；将PAN特征提取结果输入DB结构进行上采样，通过DB结构对上采样后的特征进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。这种方式中，使用了PAN的处理速度较快的前向处理部分进行特征提取，和DB的处理速度较快的后向处理部分进行概率图获取，提升了特征提取和概率图获取的速度和效率，也进一步提升了文本检测的速度和效率。

为了提高计算速度并且进一步提高提取的特征的接受域和表达能力，可选的，在本申请的一种实施例中，所述对所述待检测文本图像进行特征提取，获得特征映射图，包括：

S2011、将待检测文本图像输入神经网络模型(如PAN结构)中的残差网络部分，获得第一文本图像特征。

以PAN结构为例，在待检测文本图像输入神经网络模型的PAN结构之后，可以对其进行纹理、边缘、角点和语义信息等特征的提取，得到第一文本图像特征。例如，使用轻量级模型ResNet-18进行特征提取，卷积层2、3、4、5层的卷积阶段分别产生四组特征映射图，这里每个卷积层的卷积操作对应于输入的待检测文本图像，分别采用4、8、16、32的卷积步长。这里得到的四组特征映射图可以称为第一文本图像特征。

S2012、再将第一文本图像特征输入神经网络模型(如所述PAN结构)中的特征金字塔增强结构部分，获得第二文本图像特征；根据第二文本图像特征，获得特征映射图。

其中，特征金字塔增强网络包括两个特征金字塔增强模块(Feature PyramidEnhancement Module，FPEM)。FPEM是一个U型模块，包括两个阶段,上采样增强和下采样增强。上采样增强作用于输入特征金字塔,在这一阶段,FPEM在具有32、16、8、4像素的步长的特征图上迭代地执行增强。在下采样阶段,输入是通过放大增强产生的特征金字塔，并且下采样增强从4步到32步进行实施，下采样增强阶段的输出特征金字塔是FPEM的最终输出结果。FPEM是可级联的模块，在前FPEM的输出可以作为在后FPEM的输入。类似于特征金字塔网络,FPEM能够通过融合低层特征映射图和高层特征映射图的信息来增强不同尺度的特征映射图。然而，由于FPEM可以级联，随着级联数量的增加，不同尺度的特征图更加融合，特征的感知领域变得更大。此外，由于FPEM建立在分离卷积的基础上，其需要的计算开销较小，进而使得计算速度较快。

具体地，在通过特征提取主干网络得到第一文本图像特征之后，第一文本图像特征经由特征金字塔增强网络的至少两个FPEM模块再次提取纹理、边缘、角点和语义信息等特征，输出第二文本图像特征。在第一文本图像特征由四组特征映射表示的情况下，第二文本图像特征也由四组特征映射图表示。

上述过程中，使用PAN的前向处理部分进行特征提取，提高了特征提取的处理速度。

此外，在一种可行方式中，将所述特征映射图进行图像分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图，包括：对所述特征映射图进行上采样，将上采样后的特征映射图中的特征进行串联，基于串联结果进行图像分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

以DB为例，上述过程可以实现为：使用DB结构对所述特征映射图进行上采样，将上采样后特征映射图中的特征进行串联，基于串联结果进行图像分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图。

图像分割是一种把图像分成若干个区域并提出感兴趣目标的过程，其将数字图像划分成互不相交的区域。图像分割的过程也是一个标记过程，即把属于同一区域的像素赋予相同的编号。本实施例中，通过DB结构实现图像分割，并获得相应的阈值图和概率图，相较于其它方式获得的概率图，通过DB结构获得的阈值图和概率图更为准确，并且，DB结构的特征处理速度也更快。

例如，将第二文本图像特征中的至少两组特征映射图输入DB结构，通过DB结构上采样到同一尺度，例如输入到神经网络模型的待检测文本图像大小的1/4，即W/4*H/4，其中，W和H分别为输入到神经网络模型的待检测文本图像大小的宽和高。然后，将至少两组特征映射图串联在一起，得到融合后的特征映射图。这里，上采样可以通过插值的方法扩大相应特征映射图的大小，串联可以将第二文本图像特征中的至少两组特征映射图以通道为轴串联在一起，例如，第二文本图像特征由四组特征映射图表示，每组特征映射图的通道数量为512，则生成的一组特征映射图的数量为512，融合后的特征映射图是对第二文本图像特征中的四组特征映射图的缩放和通道串联结果。

进而，可以分别对融合后的特征映射图进行一次卷积和两次反卷积操作，得到相应的文本区域阈值图和文本区域中心点概率图。文本区域阈值图和文本区域中心点概率图的大小与输入至神经网络模型的待检测文本图像的大小相同。例如，可以通过一个3*3的卷积层和两个步长为2的反卷积层分别对融合后的特征映射图进行一次卷积操作和两次非卷积操作，得到文本区域阈值图和文本区域中心点概率图。

文本区域阈值图可以表示待检测文本图像中预测的文本区域边框的概率矩阵，该矩阵中的元素的值域为(0,1)。文本区域的中心点位置的文本像素构成待检测文本图像中的文本区域中心点，文本区域中心点是经过神经网络模型预测得到的。

在本申请的一种实施例中，除文本区域阈值图和文本区域中心点概率图外，通过DB结构还可以获得四通道特征映射图。四通道特征映射图联合起来表示与上采样后的特征映射图相同大小的四维特征向量。

S202、获取文本区域阈值图对应的文本区域边框二值图，以及文本区域中心点概率图对应的文本区域中心点二值图。

具体地，在通过神经网络模型得到文本区域阈值图和文本区域中心点概率图之后，可以通过利用第一二值化阈值对文本区域阈值图进行二值化，得到文本区域边框二值图，利用第二二值化阈值对文本区域中心点概率图进行二值化，得到文本区域中心点二值图。

其中，利用第一二值化阈值对文本区域阈值图进行二值化可以理解为根据第一二值化阈值将文本区域阈值图中的所有像素值转换为0或1的数值，第一二值化阈值可以根据先验知识确定，本实施例对此不做限定。在二值化的过程中，例如，可以将文本区域阈值图中小于第一二值化阈值的像素值转换为1，将大于第一二值化阈值的像素值转换为0，由此可以根据文本区域边框二值图中的像素值确定出指示文本区域边框的所有像素点，例如将像素值为1的像素点确定为指示文本区域边框的像素点。

相应地，利用第二二值化阈值对文本区域中心点概率图进行二值化可以理解为根据第二二值化阈值将文本区域中心点概率图中的所有像素值转化为0或1的数值，第二二值化阈值同样可以根据先验知识确定，本实施例对此不做限定。在二值化过程中，例如，可以将文本区域中心点概率图中大于第二二值化阈值的像素值转化为1，将小于第二二值化阈值的像素值转换为0。通过二值化阈值方式，可以简化二值化的实现，快速生成二值图。

S203、对文本区域中心点二值图进行连通域检测，根据检测结果确定文本区域的聚类中心。

具体地，在文本区域中心点二值图中检测连通域，根据对连通域的检测结果确定文本区域的聚类中心。检测连通域的方法可以采用现有或未来可用的任何适当的连通域检测方法，本实施例对此不做限定。在文本区域中心点二值图中检测得到的连通域可以为一个，也可以为多个，每个连通域对应一个文本区域，一个文本区域具有一个聚类中心，相应地，聚类中心可以为一个，也可以为多个。

可选的，在本申请的一种实施例中，对文本区域中心点二值图进行连通域检测，确定文本区域的聚类中心，可以包括：确定文本区域中心点二值图中的连通域；根据连通域中的像素点对应的特征向量(如前述四维向量)的平均值，确定连通域对应的文本区域的聚类中心。通过这种方式，可以准确确定文本区域的聚类中心。

具体地，在文本区域中心点二值图中检测连通域，确定文本区域中心点位置图中的连通域，每个连通域中包括至少两个像素点。根据文本区域中心点二值图不同，确定的连通域可以为一个，也可以为多个。由于根据四通道特征映射图可以确定出文本区域中心点二值图中的每个像素点对应的四维向量，因此，在确定文本区域中心点二值图中的连通域之后，相应地可以得到连通域中的像素点对应的四维向量，由此根据连通域中的像素点对应的四维向量的平均值作为连通域对应的文本区域的聚类中心。聚类中心的数量与连通域的数量相同。

当聚类中心包括多个时，根据所述连通域中的像素点对应的特征向量的平均值，确定所述连通域对应的文本区域的聚类中心，包括：根据所述连通域中的像素点对应的特征向量的平均值，确定所述连通域对应的多个聚类中心；根据多个聚类中心之间的特征空间距离，确定对应的文本区域的聚类中心。由此，若两个聚类中心之间的特征空间距离过小，则有可能存在不准确的聚类中心，可基于该特征空间距离进行判定，从而保证聚类中心确定的准确度。

S204、根据文本区域边框二值图中文本区域边框的像素点与聚类中心的相似度，确定待检测文本图像中的文本检测结果。

本实施例中，根据本文区域边框二值图可以得到指示文本区域边框的所有像素点，在获取到文本区域的聚类中心之后，可以根据这些像素点与聚类中心的相似度，判断这些像素点中的每个像素点属于哪个聚类中心，例如可以根据预设阈值对这些像素点进行分类，确定每个聚类中心对应的文本区域边框中的像素点，通过计算每个文本区域边框的外接多边形，确定每个文本区域。

可选的，在本申请的一种实施例中，相似度由特征空间距离度量，相应地，根据文本区域边框二值图中文本区域边框的像素点与聚类中心的相似度，确定待检测文本图像中的文本检测结果，包括：计算文本区域边框的像素点对应的特征向量(如前述四维向量)与至少一个聚类中心之间的特征空间距离；根据与每个聚类中心的特征空间距离，确定每个聚类中心对应的文本区域边框中的像素点(例如，根据与每个聚类中心的特征空间距离小于或等于预设距离的像素点，确定每个聚类中心对应的文本区域边框中的像素点)；根据每个聚类中心对应的文本区域边框中的像素点，确定待检测文本图像的文本检测结果。其中，特征空间距离可以用L2范数表示。通过这种方式，有效利用了模型已取得的特征向量，提高了计算速度。

本申请实施例中，对待检测文本图像进行特征提取和分割，可以得到较为准确的文本区域阈值图和文本区域中心点概率图，进而，基于根据对文本区域阈值图二值化得到的文本区域边框二值图及连通域检测结果，可以有效表征文本区域边框，根据对文本区域中心点概率图二值化得到的文本区域中心点二值图及连通域检测结果，可以确定文本区域的聚类中心。基于此，根据文本区域边框二值图中的像素点与聚类中心的相似度，即可确定出聚类中心对应的文本区域边框的像素点，由此确定待检测文本图像中的文本检测结果，如文本区域的文本框。一方面，通过二值图进行相应的处理和计算，涉及的计算量减小，可以提升了文本检测的速度和效率；另一方面，通过聚类方式，相较于其它神经网络模型的处理方式，不仅降低了文本检测的实现成本，且能够提升计算速度和效率，也由此提升了文本检测的速度和效率。

图3为本申请实施例提供的一种神经网络模型的训练方法。以本实施例训练好的神经网络模型应用于图2所示的文本检测方法中。如图3所示，该神经网络模型的训练步骤包括：

S301、获取训练集中的样本文本图像。

其中，训练集是包括用于对神经网络模型进行训练的多个样本文本图像。通过这些样本文本图像对神经网络模型进行训练，可以使神经网络模型学习到对图像中文本区域进行检测的能力。

其中，样本文本图像包括：原始样本图像、与原始样本图像对应的文本区域中心点样本图和内缩文本区域样本二值图。

S302、将样本文本图像输入神经网络模型中，预测得到样本文本区域概率图、样本文本区域阈值图、样本文本区域中心点概率图。

例如，将样本文本图像输入神经网络模型中，通过神经网络模型对原始样本图像进行特征提取；根据提取的特征进行图像分割，获得样本文本区域概率图、样本文本区域阈值图和样本文本区域中心点概率图。

例如，可以将样本文本图像输入神经网络模型中，通过神经网络模型中的PAN结构对原始样本图像进行特征提取；将PAN结构提取的特征输入DB结构进行图像分割，获得样本文本区域概率图、样本文本区域阈值图和样本文本区域中心点概率图。

其中，样本文本区域概率图可以表示样本文本图像中各个像素属于文本的概率所构成的矩阵。样本文本区域阈值图可以表示样本文本图像中的文本区域边框的概率矩阵。样本文本区域中心点概率图可以表示样本文本图像中中心点位置像素所构成的概率矩阵。

此外，还可以获得四通道特征映射图，四通道特征映射图联合起来表示上述特征映射图大小的四维特征向量。

本实施例中，神经网络模型的结构可以参照图2D及其相关描述，即，神经网络模型采用PAN结构+DB结构，其中，PAN结构可采用特征提取主干网络和特征金字塔增强网络的架构，即将样本文本图像输入神经网络模型的PAN结构之后，通过神经网络模型中的特征提取主干网络如Resnet18对样本本文图像进行特征提取，得到第一样本文本图像特征，通过神经网络模型中的特征金字塔增强网络对第一样本文本图像特征进行特征提取，得到第二样本文本图像特征，将第二文本图像样本特征输入DB结构，对第二样本文本图像特征中的至少两组特征映射图进行上采样及特征融合，得到融合后的特征映射图，对融合后的特征映射图进行卷积和反卷积处理，得到样本文本区域概率图、样本文本区域阈值图、样本文本区域中心点概率图和样本四通道特征映射图。由于在特征提取主干网络之后跟随有特征金字塔增强网络，特征金字塔增强模块包括至少两个可级联的FPEM，FPEM能够通过融合低层特征映射图和高层特征映射图的信息来增强不同尺度的特征映射图，提高了特征提取主干网络提取的特征的接受域和表达能力，并且随着级联数量的增加，不同尺度的特征图更加融合，特征的感知领域变得更大。此外，由于FPEM建立在分离卷积的基础上，其需要的计算开销较小，进而使得计算速度较快。

S303、根据样本文本区域概率图和样本文本区域阈值图，获得对应的样本内缩文本区域二值图。

例如，使用可微分二值化函数对样本文本区域概率图和样本文本区域阈值图进行处理，得到样本内缩文本区域二值图。

本实施例中，通过在神经网络模型中引入可微分二值化函数可以将二值化纳入整个神经网络模型的训练，实现端到端训练，使得训练得到的神经网络模型更为准确。

具体地，可以通过将样本文本区域概率图和样本文本区域阈值图代入可微分二值化函数得到样本内缩文本区域二值图，可微分二值化函数的公式可以为：

其中，P表示文本区域概率图，T表示文本区域阈值图，i和j分别表示第i行第j列元素，

表示近似二值图，B表示二值图，t表示预设阈值，通常为0.5。

S304、根据样本内缩文本区域二值图与内缩文本区域样本二值图的差异，以及，样本文本区域中心点概率图与文本区域中心点样本图的差异，对神经网络模型进行训练。

根据内缩文本区域样本二值图和所得到的样本内缩文本区域二值图，以及神经网络模型中预设的第一损失函数，确定第一损失值；根据文本区域中心点样本图和得到的样本文本区域中心点概率图，以及神经网络模型中预设的第二损失函数，确定第二损失值；根据第一损失值和第二损失值，对神经网络模型进行训练，直至达到训练结束条件。如训练达到预设次数，或者，第一损失值和第二损失值达到预设阈值，等等。

此外，可选的，在本申请的一种实施例中，所述样本文本图像中还包括样本文本区域框图，本实施例的方法还可以确定文本区域中心点样本图中的多个中心点，根据各个中心点包含的像素对应的特征向量，确定各个中心点对应的文本区域的聚类中心；获取样本文本区域框图的文本框上的像素点与聚类中心的第一特征空间距离，以及，各个聚类中心之间的第二特征空间距离；根据第一特征空间距离与预设的第一距离阈值的差异，和，第二特征空间距离与预设的第二距离阈值的差异，对神经网络模型进行训练。其中，所述第距离一阈值和所述第二距离阈值可以由本领域技术人员根据实际情况适当设置。。

具体地，在文本区域中心点样本图中，每个样本文本区域中心点是一个预设半径的圆，例如半径为5的圆，取每个文本区域中心点位置包含的像素点对应的特征向量如四维向量，并将得到的四维向量计算平均值，作为每个文本区域的聚类中心。然后根据标注的样本文本区域框图得到每个文本区域边框上的像素点，计算每个文本区域边框上的像素点对应的四维向量与对应聚类中心的第一特征空间距离，例如L2范数，并将该第一特征空间距离与第一距离阈值进行比较，同时，计算各文本区域的聚类中心之间的第二特征空间距离，并将该第二特征空间距离与第二距离阈值进行比较，根据两个比较的结果计算第三损失函数，得到第三损失值以引导特征向量如前述四维向量的训练。

训练过程中，可以将目标损失函数最小化时的模型参数作为神经网络模型的模型参数，返回至获取训练集中的样本文本图像的步骤继续训练，直到满足训练结束条件。

例如，对于每个样本文本图像计算得到的损失函数的损失值，根据其最小化过程中产生的梯度调整神经网络模型的模型参数，然后在调整之后的模型参数的基础上执行步骤S301至步骤S304，以对下一个样本文本图像进行预测，直到满足训练结束条件。

本申请实施例中，在神经网络模型的特征提取阶段采用PAN结构，其中的特征金字塔增强网络提高了前向计算的速度，而且在神经网络模型训练时，在PAN结构后采用了DB结构，引入可微分二值化函数，将根据可微分二值化函数处理得到的二值图纳入整个神经网络模型的训练，使得可以实现端到端训练，并且提高了神经网络模型的准确度，进而在神经网络模型的应用阶段，可以输出更为准确的特征图，以通过较为简单的后处理即可确定文本检测结果，得到真实的文本区域，提升文本检测尤其是密集文本检测的速度。

图4为本申请实施例提供的另一种文本检测方法的流程图。本实施例在前述方法实施例的基础上，提供了一种文本检测方法的具体实现方式，如图4所示，该文本检测方法包括：

S401、将待检测文本图像输入Resnet 18网络进行特征提取。

其中，Resnet 18网络是前述方法实施例中特征提取主干网络的一种具体示例。为便于与后续的特征提取相区别，本步骤中的特征提取标记为提取特征1，通过提取特征1可以提取到待检测文本图像的纹理、边缘、角点和语义信息等特征。

S402、将提取到的特征，经过两个FPEM模块，再次提取特征。

本步骤中，两个FPEM模块对应于前述方法实施例中的特征金字塔增强网络。基于步骤S402，通过两个FPEM模块再次进行特征提取，标记为提取特征2，提取特征2是可以再次对图像的纹理、边缘、角点和语义信息等特征进行提取，并得到对应的4组特征映射。

S403、将再次提取的特征形成的特征映射图上采样到原始图像1/4大小并串联。

本步骤中，将步骤S403再次提取特征得到的4组特征映射的特征映射图大小全部上采样到原始图像的1/4大小，并串联在一起，此处串联的含义是指将4组与原始图片1/4大小一样的特征映射，以通道为轴串在一起，举例来说，如果每组特征映射通道为512，则串联在一起之后得到一组特征映射，其通道数量为512。

S404、将串联得到的特征映射进行一次卷积操作、两次反卷积操作，得到七通道的特征映射图。

本步骤中，七通道的特征映射图可以划分为两组，第一组包括2通道特征映射图，其分别为文本区域概率图和文本区域阈值图，第二组包括5通道特征映射图，其分别为文本区域中心点概率图和四通道特征映射图，其中，四通道特征映射图也可以被视为特征图大小个4维向量。

在应用阶段，后续步骤仅用到2通道特征映射图中的文本区域阈值图，而在训练阶段，需要2通道特征映射图中的文本区域概率图和文本区域阈值图二者参与训练。具体地，在训练阶段，使用一个可微二值化函数，对第一通道表示的文本概率图和第二通道表示的阈值图进行处理，得到内缩文本区域二值图，用真实的内缩文本二值图作为标签与上述得到的内缩文本二值图计算目标损失函数，用真实的文本区域中心点图与第三通道表示的文本区域中心点图计算目标损失函数，用真实的文本区域中心点图与真实的文本框图作为先验信息，引导第四至第七通道表示的4维向量进行聚类，具体操作为：每个文本区域中心点是一个半径为5的圆，取每个文本区域中心点位置包含的像素点位置对应的4维向量，并对取得的向量计算平均值，作为每个文本区域的聚类中心，然后，计算每个文本框上像素点位置对应4维向量与对应聚类中心的向量L2范数，设置一个阈值，L2范数的结果与其比较，同时，文本区域的聚类中心之间计算L2范数，也设置一个阈值与L2范数结果进行比较，根据上述两个比较结果，计算目标损失函数，以此引导4维向量的训练。

S405、根据第一预设阈值对文本区域中心点概率图进行二值化，得到文本区域中心点二值图。

S406、在文本区域中心点二值图中计算连通域，提取每个连通域包含的4维向量，计算每个连通域包含的4维向量的平均值作为每个文本区域的聚类中心。

S407、根据第二预设阈值对文本区域阈值图进行二值化，得到文本区域边框二值图，提取文本区域二值图中文本区域边框上每个像素点对应的四维向量。

S408、根据文本区域边框上每个像素点对应的四维向量与聚类中心的相似度，根据第三预设阈值对文本区域边框上的像素点进行分类，得到真实文本区域。

本步骤中，通过文本区域边框上每个像素点对应的四维向量与聚类中心计算向量L2范数，根据第三预设阈值判断每个像素点属于哪个文本区域的聚类中心，等到计算完成，得到描述每个文本区域边框的像素点。根据描述每个文本区域边框的像素点计算每个文本区域边框的外接多边形，得到真实的文本区域，完成密集文本检测。

本申请实施例中，通过在前处理阶段使用两个FPEM模块，使得提供的文件检测方法的前向计算更快，同时由于训练过程中使用可微分二值化函数，将二值化纳入整个神经网络模型的训练，实现端到端训练，提高了神经网络模型的准确度，使得在应用阶段可以得到更为准确的文本区域阈值图，进而可以通过文本区域阈值图进行处理，使用较少的计算量完成文本检测，提高了密集文本检测速度。

图5为本申请实施例提供的一种文本检测装置的结构示意图。如图5所示，该文本检测装置可以包括：

特征提取模块501，用于对待检测文本图像进行特征提取和分割，获取待检测文本图像的文本区域阈值图和文本区域中心点概率图；

二值图获取模块502，用于获取文本区域阈值图对应的文本区域边框二值图，以及文本区域中心点概率图对应的文本区域中心点二值图；

聚类中心确定模块503，用于对文本区域中心点二值图进行连通域检测，确定文本区域的聚类中心；

结果确定模块504，用于根据文本区域边框二值图中文本区域边框的像素点与聚类中心的相似度，确定待检测文本图像中的的文本检测结果。

本实施例提供的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

图6为本申请实施例提供的一种电子设备的结构示意图，本实施例提供的电子设备，用于执行本申请任意方法实施例提供的文本检测方法。如图5所示，本实施例提供的电子设备，可以包括：处理器601和存储器602，存储器602中存储有程序指令，处理器601配置为调用存储器602中的程序指令以执行本申请任意方法实施例提供的文本检测方法。

处理器601可以包括中央处理器(CPU，单核或者多核)，图形处理器(GPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器，或者多个用于控制程序执行的集成电路。

存储器602可以包括只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以包括电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器602可以是独立设置的，也可以和处理器601集成在一起。

在具体实现中，作为一种实施例，处理器601可以包括一个或多个CPU。在具体实现中，作为一种实施例，上述电子设备可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

电子设备的具体执行过程可参见本申请任意方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意方法实施例提供的文本检测方法。

本领域技术人员应明白，本公开的实施例可提供为方法、装置(设备)、或计算机程序产品。上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本检测方法。此外，当通用计算机访问用于实现在此示出的文本检测方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本检测方法，其特征在于，包括：

对所述文本区域中心点二值图进行连通域检测，根据检测结果确定文本区域的聚类中心；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本区域中心点二值图进行连通域检测，根据检测结果确定文本区域的聚类中心，包括：

确定所述文本区域中心点二值图中的连通域；

根据所述连通域中的像素点对应的特征向量的平均值，确定所述连通域对应的文本区域的聚类中心。

3.根据权利要求2所述的方法，其特征在于，所述根据所述连通域中的像素点对应的特征向量的平均值，确定所述连通域对应的文本区域的聚类中心，包括：

根据所述连通域中的像素点对应的特征向量的平均值，确定所述连通域对应的多个聚类中心；

根据多个聚类中心之间的特征空间距离，确定对应的文本区域的聚类中心。

4.根据权利要求2所述的方法，其特征在于，所述根据所述文本区域边框二值图中文本区域边框的像素点与所述聚类中心的相似度，确定所述待检测文本图像的文本检测结果，包括：

计算所述文本区域边框的像素点对应的特征向量与至少一个所述聚类中心之间的特征空间距离；

根据所述特征空间距离，确定每个所述聚类中心对应的文本区域边框中的像素点；

根据每个所述聚类中心对应的文本区域边框中的像素点，确定所述待检测文本图像的文本检测结果。

5.根据权利要求1所述的方法，其特征在于，所述获取所述文本区域阈值图对应的文本区域边框二值图，以及所述文本区域中心点概率图对应的文本区域中心点二值图，包括：

利用第一二值化阈值对所述文本区域阈值图进行二值化，得到所述文本区域边框二值图；

利用第二二值化阈值对所述文本区域中心点概率图进行二值化，得到所述文本区域中心点二值图。

6.根据权利要求1所述的方法，其特征在于，所述对待检测文本图像进行特征提取和分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图，包括:

对所述待检测文本图像进行特征提取，获得特征映射图；

将所述特征映射图进行图像分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图。

7.根据权利要求6所述的方法，其特征在于，所述对所述待检测文本图像进行特征提取，获得特征映射图，包括：

将所述待检测文本图像输入神经网络模型的残差网络部分，获得第一文本图像特征；

再将所述第一文本图像特征输入所述神经网络模型中的特征金字塔增强结构部分，获得第二文本图像特征；

根据所述第二文本图像特征，获得所述特征映射图。

8.根据权利要求7所述的方法，其特征在于，所述将所述特征映射图进行图像分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图，包括：

对所述特征映射图进行上采样，将上采样后的特征映射图中的特征进行串联，基于串联结果进行图像分割，获取所述待检测文本图像的文本区域阈值图和文本区域中心点概率图。

9.根据权利要求7所述的方法，其特征在于，所述神经网络模型通过以下步骤训练得到：

获取训练集中的样本文本图像，其中，所述样本文本图像包括：原始样本图像、与所述原始样本图像对应的文本区域中心点样本图和内缩文本区域样本二值图；

将样本文本图像输入神经网络模型中，预测得到样本文本区域概率图、样本文本区域阈值图、样本文本区域中心点概率图；

根据所述样本文本区域概率图和样本文本区域阈值图，获得对应的样本内缩文本区域二值图；

根据所述样本内缩文本区域二值图与所述内缩文本区域样本二值图的差异，以及，所述样本文本区域中心点概率图与所述文本区域中心点样本图的差异，对所述神经网络模型进行训练。

10.根据权利要求9所述的方法，其特征在于，所述将样本文本图像输入神经网络模型中，预测得到样本文本区域概率图、样本文本区域阈值图、样本文本区域中心点概率图，包括：

将所述样本文本图像输入所述神经网络模型中，通过所述神经网络模型对所述原始样本图像进行特征提取；

根据提取的特征进行图像分割，获得样本文本区域概率图、样本文本区域阈值图和样本文本区域中心点概率图。

11.根据权利要求9或10所述的方法，其特征在于，所述样本文本图像还包括与所述原始样本图像对应的样本文本区域框图；所述方法还包括：

确定所述文本区域中心点样本图中的多个中心点，根据各个中心点包含的像素对应的特征向量，确定各个中心点对应的文本区域的聚类中心；

获取所述样本文本区域框图的文本框上的像素点与所述聚类中心的第一特征空间距离，以及，各个聚类中心之间的第二特征空间距离；

根据所述第一特征空间距离与预设的第一距离阈值的差异，和，所述第二特征空间距离与预设的第二距离阈值的差异，对所述神经网络模型进行训练。

12.一种文本检测装置，其特征在于，包括：

聚类中心确定模块，用于对所述文本区域中心点二值图进行连通域检测，根据检测结果确定文本区域的聚类中心；

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有程序指令，所述处理器配置为调用所述处理器中的程序指令以执行如权利要求1-11中任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被配置为在被处理器执行时使所述处理器执行如权利要求1-11中任一项所述的方法。