CN112528976B

CN112528976B - 文本检测模型的生成方法和文本检测方法

Info

Publication number: CN112528976B
Application number: CN202110180236.8A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-09-21
Anticipated expiration: 2041-02-09
Also published as: CN112528976A

Abstract

本申请实施例提供了一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备。文本检测模型的生成方法包括：构建待训练的第一子模型，使用多个经过标注的文本图像作为训练数据，对第一子模型进行训练；构建待训练的第二子模型，对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据，对第二子模型进行训练，训练时保持第二残差网络的参数不变，对两个级联的全连接层的参数调优，达到停止条件后停止训练；将训练后的第一子模型和训练后的第二子模型级联，得到文本检测模型。利用本申请实施例能够实现对密集文本的快速检测。

Description

文本检测模型的生成方法和文本检测方法

技术领域

本申请涉及文本检测技术领域，具体涉及一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

当前“文本检测”技术应用范围广泛，是很多计算机视觉任务的前置步骤，例如图像搜索、文字识别、身份认证、视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置。相较于通用目标的检测而言，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此对文本的精准定位既十分重要又具有挑战性。

目前常见的文本检测方法大致包括两类，一类方案是基于滑动窗口的文本检测，基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以锚点框为滑动窗口在图像上或图像经过卷积操作后的特征映射图上进行遍历搜索，对于每个搜索到的位置框，判断框内是否存在文本，该方法的优点是文本框判定后不需要复杂的后处理，缺点是计算量大，耗费计算资源且耗时较长；另一类方案是基于计算连通域（或称基于分割思想）的方法，使用全卷积神经网络模型提取图像特征，对特征图进行二值化并计算其连通域，然后根据不同应用场景（对应不同种类的训练数据集）使用特定方法判断文本行位置，该方法的优点是计算量小、计算速度快，缺点是后处理步骤繁琐，涉及大量后处理阶段的计算和调优，后处理策略是否合理对算法整体的性能形成重要制约，存在较大优化空间。

关于文本检测，当前还出现了例如“像素聚合网络”和“可微分二值化法”等的解决方案，它们在一些开放环境的场景文本检测中具有不错的表现，速度非常快，但是在某些特定的密集文本场景下，处理速度受文本框数量的影响非常大，几乎随文本框数量的增长而呈线性下降趋势，难以满足实际应用场景的速度需求。

发明内容

本申请期望提供一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备，以至少解决上述一种技术问题。

第一方面，本申请实施例提供一种文本检测模型的生成方法，包括：

构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块FPEM模块、上采样处理模块、卷积处理模块和反卷积处理模块；

使用多个经过标注的文本图像作为训练数据，对所述第一子模型进行训练，训练过程包括：将经过标注的文本图像输入所述第一残差网络进行特征提取，提取得到的特征通过所述两个级联的FPEM模块处理后得到四组特征映射，所述上采样处理模块对所述四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，所述卷积处理模块和所述反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

构建待训练的第二子模型，其包括：第二残差网络和两个级联的全连接层，所述第二残差网络复用训练后的第一残差网络的参数；

对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据，对所述第二子模型进行训练，训练时保持所述第二残差网络的参数不变，对所述两个级联的全连接层的参数调优，达到停止条件后停止训练；

将训练后的第一子模型和训练后的第二子模型级联，得到文本检测模型。

第二方面，本申请实施例提供一种文本检测方法，其基于如上所述的方法所生成的文本检测模型，所述文本检测方法包括：

将目标图像输入文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，所述四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

对所述真实文本区域概率图进行二值化得到真实文本区域二值图，获取所述目标图像的梯度图像，将所述真实文本区域二值图与所述梯度图像进行串联；

串联后的结果输入第二子模型后，得到输出的所述目标图像的各像素点对应的文本行的位置类别，根据各像素点对应的文本行的位置类别确定真实文本区域的位置。

第三方面，申请实施例还提供一种文本检测模型的生成装置，包括：

第一构建模块，用于构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块FPEM模块、上采样处理模块、卷积处理模块和反卷积处理模块；

第一训练模块，用于使用多个经过标注的文本图像作为训练数据，对所述第一子模型进行训练，训练过程包括：将经过标注的文本图像输入所述第一残差网络进行特征提取，提取得到的特征通过所述两个级联的FPEM模块处理后得到四组特征映射，所述上采样处理模块对所述四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，所述卷积处理模块和所述反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

第二构建模块，用于构建待训练的第二子模型，其包括：第二残差网络和两个级联的全连接层，所述第二残差网络复用训练后的第一残差网络的参数；

第二训练模块，用于对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据，对所述第二子模型进行训练，训练时保持所述第二残差网络的参数不变，对所述两个级联的全连接层的参数调优，达到停止条件后停止训练；

级联处理模块，用于将训练后的第一子模型和训练后的第二子模型级联，得到文本检测模型。

第四方面，申请实施例还提供一种文本检测装置，其基于如上所述的方法所生成的文本检测模型，所述文本检测装置包括：

图像输入模块，用于将目标图像输入所述文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，所述四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

二值化图处理模块，用于对所述真实文本区域概率图进行二值化得到真实文本区域二值图；

梯度图处理模块，用于获取所述目标图像的梯度图像；

拼接处理模块，用于将所述真实文本区域二值图与所述梯度图像进行串联；

文本区域确定模块，用于在串联后的结果输入第二子模型后，得到输出的所述目标图像的各像素点对应的文本行的位置类别，根据各像素点对应的文本行的位置类别确定真实文本区域的位置。

第五方面，本申请实施例还提供一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

第六方面，本申请实施例还提供一种非易失性计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

本申请实施例通过结合PAN和DB两者的优势，对提取特征的网络模型输出做出一些调整，同时用分类网络代替复杂的后处理操作，将所有的操作全部放在GPU上并行，全面的提升密集文本检测的速度。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1是本申请实施例的文本检测模型的生成方法的流程框图；

图2是本申请一个实施例的文本检测方法的流程框图；

图3是本申请一个实施例的密集文本检测的处理流程框图；

图4是本申请实施例的文本检测模型的生成装置结构示意图；

图5是本申请实施例的文本检测装置结构示意图；

图6示意性地示出本申请实施例的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

以下参考本申请若干实施例详细阐释本申请的原理和实施方式。

本申请实施例提供一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备。为了清楚地阐述本申请实施例的思想，首先对图像文本检测技术涉及的像素聚合网络技术以及可微分二值化法的相关内容进行简要描述。

像素聚合网络（Pixel Aggregation Network，PAN）是以残差网络ResNet（例如ResNet18）为基础网络框架，对输入图像提取纹理、边缘、角点、语义信息等特征，提取得到的特征包括4组大小不同的多通道特征映射，然后将得到的特征通过2个特征金字塔增强模块（Feature Pyramid Enhancement Module，FPEM）进行处理，可再次提取纹理、边缘、角点、语义信息等特征，其中FPEM模块是结合卷积、反卷积和批归一化操作的处理模块，下文将做详细描述；然后在输出特征图上进行上采样，可得到一个6通道的特征映射，其中：

·第1个通道的特征图是表示文本行区域的概率图，二值化处理后计算连通域，可得到具体的文本行区域；

·第2个通道的特征图是表示按照一定规则和比例进行内缩后的文本行区域的概率图，二值化处理后计算连通域，可得到具体的内缩文本行区域；

其中，剩余的4个通道联合起来表示特征图大小的4维特征向量，可使用聚类的方法，结合文本区域图和内缩文本区域图，通过计算每个像素点位置的4维特征向量与聚类中心点的距离，可判断出现在文本区域却未出现在内缩文本区域的像素点具体属于哪个文本区域。

进一步，关于像素聚合网络PAN中的2个FPEM模块，每个FPEM模块所做处理是相同的，单个FPEM模块的处理过程具体如下：对于上一步的特征提取阶段得到4组大小不同的多通道特征映射，按照从大到小、从前往后的次序，依次称为：

(1)正向第一组特征映射，

(2)正向第二组特征映射，

(3)正向第三组特征映射，

(4)正向第四组特征映射，

先对正向第四组特征映射进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征映射按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，将得到的结果称为“反向第二组特征映射”，

类似地，将上述同样的操作作用于反向第二组特征映射和正向第二组特征映射，可得到“反向第三组特征映射”；

类似地，将上述同样的操作作用于反向第三组特征映射和正向第一组特征映射，可得到“反向第四组特征映射”，

其中，可将正向第四组特征映射视为“反向第一组特征映射”，

基于以上处理，可得到4组反向特征映射；

然后，将第四组反向特征映射作为“目标第一组特征映射”，对目标第一组特征映射进行2倍下采样，即将其大小缩小2倍，然后将其与反向第三组特征映射按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为“目标第二组特征映射”，

类似地，将上述同样的操作作用于目标第二组特征映射和反向第二组特征映射，可得到“目标第三组特征映射”，

类似地，将上述同样的操作作用于目标第三组特征映射和反向第一组特征映射，可得到“目标第四组特征映射”，

这里，目标第一组特征映射、目标第二组特征映射、目标第三组特征映射和目标第四组特征映射便是FFEM模块的输出；

以上描述了第1个FFEM模块的操作过程，第2个FFEM模块是以该第1个FFEM模块的输出作为输入，进行同样的操作，得到输出。像素聚合网络PAN技术中选择2个FPEM模块的原因在于，在多种应用实验结果中，设置2个FFEM模块处理后达到的效果被认为是最好的。

关于可微分二值化方法（Differentiable Binarization，DB），也是以ResNet（例如ResNet18）为基础网络架构，对输入图像提取特征，将提取到的特征图全部上采样到原始图像的1/4大小，并串联起来，再经过一次卷积操作可得到一个2通道的特征映射图作为输出，其中：

·第1个通道表示内缩文本区域的概率图，

·第2个通道表示文本区域的阈值图，其中，每个像素点距离真实的文本区域框的距离进行了归一化操作，距离均介于0至1之间；

其中包括一个可微分的二值化函数，该二值化函数的参数可跟随网络进行学习，并且根据阈值图和概率图可以计算出图像文本区域的二值图，在二值图上计算连通域可以得到内缩文本区域，接着按照一定规则和比例将内缩文本区域进行外扩，由此，能够得到真实的文本区域。

基于上述内容，可以看出，像素聚合网络PAN和可微分二值化法DB各有优势，其中，PAN由于使用FPEM模块，其前向计算相比于DB的前向计算更快，而DB的后处理比PAN更为简单，所以DB的后处理操作更快。对于一些场景文本检测数据集（例如每张图像中有4-5个文本框），两种方案的检测速度和检测结果基本上相差无几，但是，针对文本非常密集的应用场景（例如学生的算术练习册，一张图像上有超过100个文本区域），两种方案的处理速度受文本框数量影响很大，几乎随着文本框数量的增长，呈线性下降趋势。也就是说，在当前文本识别需求越来越高的应用环境下，PAN或者DB已经不能满足实际应用中的处理速度需求。

经过本申请发明人的大量研发，发现导致PAN或者DB处理速度慢的原因，或者说，已有的文本识别解决方案存在的技术缺陷，主要在于：无论基于PAN还是基于DB，后处理都非常的复杂，具体来看，首先是无法避免对内缩文本区域求取连通域，拉高了计算复杂度，其次是PAN是通过聚类的方式对内缩文本区域进行外扩，DB是通过特定算法对内缩文本区域进行外扩，这两种操作的耗时都非常高，且计算复杂，由于计算复杂，也不适合在并行计算能力强大的图形处理器（Graphics Processing Unit，GPU）上进行运算，最后导致各自方案的后处理环节成为计算瓶颈，处理速度无法提升。

本申请针对提升密集文本检测速度这一目的，力求结合PAN和DB两者的优势，对提取特征的网络模型的输出进行调整，并进一步以分类网络模型代替复杂的后处理操作，可全面提升密集文本检测的速度。

以上介绍了本申请的基本思想和相关术语，下面具体介绍本申请的各种非限制性实施方式。

图1示意性地示出了本申请实施例的文本检测模型的生成方法的流程框图，该方法包括以下步骤：

S101：构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块FPEM 模块、上采样处理模块、卷积处理模块和反卷积处理模块；

S102：使用多个经过标注的文本图像作为训练数据，对第一子模型进行训练，训练过程包括：将经过标注的文本图像输入第一残差网络进行特征提取，提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，上采样处理模块对四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，卷积处理模块和反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

S103：构建待训练的第二子模型，其包括：第二残差网络和两个级联的全连接层，第二残差网络复用训练后的第一残差网络的参数；

S104：对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据，对第二子模型进行训练，训练时保持第二残差网络的参数不变，对两个级联的全连接层的参数调优，达到停止条件后停止训练；

S105：将训练后的第一子模型和训练后的第二子模型级联，得到文本检测模型。

本申请的实施例构建并训练的第一子模型可对图像进行特征提取、FPEM模块处理、上采样、卷积与反卷积处理等一系列处理，对于第一子模型的输出，采用构建并训练的第二子模型作为分类网络模型，代替以往的后处理模块，对第一子模型的输出进行处理，如此，在保证整个文本检测模型的文本检测效果的前提下，相比于PAN或DB单独检测密集文本的场合，本申请实施例的文本检测模型可明显提升密集文本的检测速度。

在本申请实施例中，可选地，训练时，使用交并比值损失函数对第一个通道表示的内缩文本区域概率图进行训练；使用二分类交叉熵损失函数和交并比值损失函数同时对第二个通道的真实文本区域概率图进行训练；使用L1损失函数对第三个通道表示的真实文本区域阈值图进行训练；使用多分类交叉熵损失函数对两个级联的全连接层进行训练。

可选地，训练第二个通道的真实文本区域概率图时，二分类交叉熵损失函数对应第一权重值，交并比值损失函数对应第二权重值，第一权重值与第二权重值的和为1。

在本申请实施例中，可选地，两个级联的全连接层中的第一个全连接层的节点数为c1×h1×w1，第二个全连接层的节点数为w×h，每个节点代表一个像素点的位置类别，其中，c1表示通道数，h1表示特征映射高度，w1表示特征映射宽度，h是原始图像的高度，w是原始图像的宽度。

在本申请实施例中，可选地，文本检测模型还包括二值化图处理模块和梯度图处理模块。

在本申请实施例中，可选地，第一残差网络包括Resnet18网络，和/或，第二残差网络包括Resnet18网络。

参考图2，本申请实施例还提供一种文本检测方法，该方法基于前述的训练好的文本检测模型，具体包括以下步骤：

S201：将目标图像输入文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

S202：对真实文本区域概率图进行二值化得到真实文本区域二值图；

S203：获取目标图像的梯度图像；

S204：将真实文本区域二值图与梯度图像进行串联；

S205：串联后的结果输入第二子模型后，得到输出的目标图像的各像素点对应的文本行的位置类别，根据各像素点对应的文本行的位置类别确定真实文本区域的位置。

在本申请实施例中，可选地，根据各像素点对应的文本行的位置类别确定真实文本区域的位置，包括：根据各像素点对应的文本行的位置类别确定各像素点属于的文本行；根据各文本行的位置确定真实文本区域的位置。

本申请的以上至少一个实施例将PAN与DB的优势结合起来，可对神经网络模型的输出进行修正，使用训练好的分类网络模型代替以往的后处理模块，在保证最终的文本检测效果的前提下，相比于PAN或DB各自单独处理的方案，本申请实施例可明显提升密集文本检测速度，此外，以上运算过程可全部放在GPU实现，在一定程度上节约硬件资源成本。

以上描述了本申请实施例的多种实现方式，以下通过具体的例子描述本申请实施例的具体处理过程。

对于模型训练阶段，以Resnet18网络作为基础网络，对输入的训练数据（已标注出文本行的密集文本图像）进行卷积操作，提取特征，然后将提取到的特征使用2次FPEM模块进行处理，对处理之后的特征图像全部上采样到原图1/4大小，并进行串联（或称拼接），对串联后的特征图像进行一次卷积以及两次反卷积操作，得到一个3通道的输出特征图像，其大小与原图相同，结合PAN与DB的思想，其第一个通道表示内缩文本区域的概率图，第二个通道表示真实文本区域概率图，第三个通道表示真实文本区域阈值图（对应真实文本区域边界图）。

关于训练中使用的损失函数，使用交并比值（DiceLoss）作为目标损失函数对第一个通道表示的内缩文本区域概率图进行训练，使用二分类交叉熵损失函数和交并比值损失函数同时对第二个通道的真实文本区域概率图进行优化训练，这里，对于真实文本区域概率图，若两个区域相交，那么相交位置的像素点只能归属于一个区域，并且，使用L1损失函数对第三个通道表示的真实文本区域阈值图进行优化，其中优化第二个通道表示的真实文本区域概率图时，使用了二分类交叉熵和交并比值损失两种损失函数，分别给予两者相应的权重（权重值均在0到1之间，两个权重值之和为1），这里，为了结合PAN和DB的优势，应尽可能把模型训练至能够生成非常精确的真实文本区域概率图，训练完成后即得到文本检测模型的第一子模型。在得到真实文本区域概率图之后，对它进行二值化，可得到真实文本区域二值图。

进一步，使用上一步训练好的Resnet18网络模型作为主干网络（backbone），并复用训练好的Resnet18网络模型的参数，然后在其后接两个全连接层，第一个全连接层的节点为数为c1*h1*w1（其中，c1是通道数，h1是特征映射高度，w1是特征映射宽度），第二个全连接层的节点数为w*h（其中，h是原始图像的高度，w是原始图像的宽度），每个节点代表一个像素点的类别。如此，构建了待训练的分类网络，也就是文本检测模型中的第二子模型，对上一步训练好的第一子模型输出的真实文本区域概率图标注文本行的位置类别，作为本步骤的分类网络的训练数据，使用多分类交叉熵损失函数对2个全连接层进行训练，且训练时保持Resnet18网络的参数不变，只调节2个全连接层的参数，训练完成后，将两个子模型连接，得到文本检测模型。

进一步地，图3示出了本申请一个实施例的密集文本检测的流程图，处理步骤描述如下：

第一步，将密集文本图像输入第一子模型的Resnet18网络提取特征1；

第二步，将第一步提取到的特征1，经过两个FPEM模块处理以再次提取特征2，得到该特征2对应的4组特征映射；

第三步，将第二步得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小，并串联在一起；

第四步，将第三步得到特征映射进行一次卷积操作，再进行两次反卷积操作，输出特征映射通道数为3、特征映射大小与原图大小一致的特征映射图，其第一个通道表示内缩文本区域的概率图，第二个通道表示真实文本区域概率图，第三个通道表示真实文本区域阈值图；

第五步，根据先验知识设定阈值，对第四步预测得到的真实文本区域概率图进行二值化，得到真实文本区域二值图；

第六步，对原始密集文本图像求其梯度图像，并将求得的梯度图像和第五步得到的真实文本区域二值图进行串联；这里，这样处理的原因在于，真实文本区域二值图的特征单一，如果仅用真实文本区域二值图无法提取到有效特征，如果仅用真实图像串联则冗余信息过多；

第七步，将第六步得到的六维张量输入第二子模型，得到的输出为每个像素点的类别；

第八步，根据像素点类别，可以知道每个像素点属于哪个类别（对应文本行的位置），将每个像素点归类，也就是把类别相同的像素点收集在一起，可得到同类像素点的位置坐标，也即得到了真实文本区域的位置坐标。

至此，密集文本检测完成。

本申请的实施例用分类网络代替密集文本检测的后处理，在保证最终的密集文本检测效果的前提下，能够大幅提升密集文本检测的速度。

与上述至少一个实施例的处理方法相对应地，如图4所示，本申请实施例还提供一种文本检测模型的生成装置100，该装置包括：

第一构建模块110，用于构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块FPEM模块、上采样处理模块、卷积处理模块和反卷积处理模块；

第一训练模块120，用于使用多个经过标注的文本图像作为训练数据，对第一子模型进行训练，训练过程包括：将经过标注的文本图像输入第一残差网络进行特征提取，提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，上采样处理模块对四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，卷积处理模块和反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

第二构建模块130，用于构建待训练的第二子模型，其包括：第二残差网络和两个级联的全连接层，第二残差网络复用训练后的第一残差网络的参数；

第二训练模块140，用于对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据，对第二子模型进行训练，训练时保持第二残差网络的参数不变，对两个级联的全连接层的参数调优，达到停止条件后停止训练；

级联处理模块150，用于将训练后的第一子模型和训练后的第二子模型级联，得到文本检测模型。

可选地，第一训练模块120使用交并比值损失函数对第一个通道表示的内缩文本区域概率图进行训练；使用二分类交叉熵损失函数和交并比值损失函数同时对第二个通道的真实文本区域概率图进行训练；使用L1损失函数对第三个通道表示的真实文本区域阈值图进行训练；

第二训练模块140使用多分类交叉熵损失函数对两个级联的全连接层进行训练。

可选地，两个级联的全连接层中的第一个全连接层的节点数为c1×h1×w1，第二个全连接层的节点数为w×h，每个节点代表一个像素点的位置类别，其中，c1表示通道数，h1表示特征映射高度，w1表示特征映射宽度，h是原始图像的高度，w是原始图像的宽度。

可选地，文本检测模型还包括二值化图处理模块和梯度图处理模块。

可选地，第一残差网络包括Resnet18网络，和/或，第二残差网络包括Resnet18网络。

与上述至少一个实施例的处理方法相对应地，如图5所示，本申请实施例还提供一种文本检测装置200，其包括：

图像输入模块210，用于将目标图像输入文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的FPEM模块处理后得到四组特征映射，四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

二值化图处理模块220，用于对真实文本区域概率图进行二值化得到真实文本区域二值图；

梯度图处理模块230，用于获取目标图像的梯度图像；

拼接处理模块240，用于将真实文本区域二值图与梯度图像进行串联；

文本区域确定模块250，用于在串联后的结果输入第二子模型后，得到输出的目标图像的各像素点对应的文本行的位置类别，根据各像素点对应的文本行的位置类别确定真实文本区域的位置。

可选地，文本区域确定模块250包括：像素点处理子模块，用于根据各像素点对应的文本行的位置类别确定各像素点属于的文本行；文本行处理子模块，用于根据各文本行的位置确定真实文本区域的位置。

本申请实施例各装置中的各模块的功能可以参见上述方法实施例中的对应描述的处理，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。如图6所示，是根据本申请实施例的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示图形用户界面（Graphical User Interface，GUI）的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器***）。图6中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据搜索结果的分析处理电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至搜索结果的分析处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的方法对应的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，本申请图6实施例中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与搜索结果的分析处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（Liquid Crystal Display，LCD）、发光二极管（Light EmittingDiode，LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可在数字电子电路***、集成电路***、专用集成电路（Application Specific Integrated Circuits，ASIC）、计算机硬件、固件、软件、和/或它们的组合中实现。这些实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（programmable logic device，PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（Cathode Ray Tube，阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（Local Area Network，LAN）、广域网（Wide Area Network，WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本检测模型的生成方法，其特征在于，包括：

构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块、上采样处理模块、卷积处理模块和反卷积处理模块；

使用多个经过标注的文本图像作为训练数据，对所述第一子模型进行训练，训练过程包括：将经过标注的文本图像输入所述第一残差网络进行特征提取，提取得到的特征通过所述两个级联的特征金字塔增强模块处理后得到四组特征映射，所述上采样处理模块对所述四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，所述卷积处理模块和所述反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

2.根据权利要求1所述的方法，其特征在于，

训练时，使用交并比值损失函数对所述第一个通道表示的内缩文本区域概率图进行训练；使用二分类交叉熵损失函数和交并比值损失函数同时对所述第二个通道的真实文本区域概率图进行训练；使用L1损失函数对所述第三个通道表示的真实文本区域阈值图进行训练；使用多分类交叉熵损失函数对所述两个级联的全连接层进行训练。

3.根据权利要求2所述的方法，其特征在于，

训练所述第二个通道的真实文本区域概率图时，所述二分类交叉熵损失函数对应第一权重值，所述交并比值损失函数对应第二权重值，所述第一权重值与所述第二权重值的和为1。

4.根据权利要求1所述的方法，其特征在于，

所述两个级联的全连接层中的第一个全连接层的节点数为c1×h1×w1，第二个全连接层的节点数为w×h，每个节点代表一个像素点的位置类别，其中，c1表示通道数，h1表示特征映射高度，w1表示特征映射宽度，h是原始图像的高度，w是原始图像的宽度。

5.根据权利要求1所述的方法，其特征在于，

所述文本检测模型还包括二值化图处理模块和梯度图处理模块。

6.根据权利要求1-5中任一项所述的方法，其特征在于，

所述第一残差网络包括Resnet18网络，和/或，

所述第二残差网络包括Resnet18网络。

7.一种文本检测方法，其特征在于，其基于由权利要求1-6中任一项所述的方法所生成的文本检测模型，所述文本检测方法包括：

将目标图像输入所述文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的特征金字塔增强模块处理后得到四组特征映射，所述四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

8.根据权利要求7所述的方法，其特征在于，所述根据各像素点对应的文本行的位置类别确定真实文本区域的位置，包括：

根据各像素点对应的文本行的位置类别确定各像素点属于的文本行；

根据各文本行的位置确定真实文本区域的位置。

9.一种文本检测模型的生成装置，其特征在于，包括：

第一构建模块，用于构建待训练的第一子模型，其包括：第一残差网络、两个级联的特征金字塔增强模块、上采样处理模块、卷积处理模块和反卷积处理模块；

第一训练模块，用于使用多个经过标注的文本图像作为训练数据，对所述第一子模型进行训练，训练过程包括：将经过标注的文本图像输入所述第一残差网络进行特征提取，提取得到的特征通过所述两个级联的特征金字塔增强模块处理后得到四组特征映射，所述上采样处理模块对所述四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联，所述卷积处理模块和所述反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；达到停止条件后停止训练；

10.根据权利要求9所述的装置，其特征在于，

所述第一训练模块使用交并比值损失函数对所述第一个通道表示的内缩文本区域概率图进行训练；使用二分类交叉熵损失函数和交并比值损失函数同时对所述第二个通道的真实文本区域概率图进行训练；使用L1损失函数对所述第三个通道表示的真实文本区域阈值图进行训练；

所述第二训练模块使用多分类交叉熵损失函数对所述两个级联的全连接层进行训练。

11.根据权利要求10所述的装置，其特征在于，

所述第一训练模块训练所述第二个通道的真实文本区域概率图时，所述二分类交叉熵损失函数对应第一权重值，所述交并比值损失函数对应第二权重值，所述第一权重值与所述第二权重值的和为1。

12.根据权利要求9所述的装置，其特征在于，

13.根据权利要求9所述的装置，其特征在于，

14.根据权利要求9-13中任一项所述的装置，其特征在于，

所述第一残差网络包括Resnet18网络，和/或，

所述第二残差网络包括Resnet18网络。

15.一种文本检测装置，其特征在于，其基于由权利要求1-6中任一项所述的方法所生成的文本检测模型，所述文本检测装置包括：

图像输入模块，用于将目标图像输入所述文本检测模型中的第一子模型，其中，第一残差网络进行特征提取；提取得到的特征通过两个级联的特征金字塔增强模块处理后得到四组特征映射，所述四组特征映射由上采样处理模块分别上采样至特征图的1/4大小并进行串联；串联后的图像由卷积处理模块和反卷积处理模块依次进行一次卷积操作和两次反卷积操作，得到特征映射通道数为3的特征映射图，其中，第一个通道对应内缩文本区域的概率图，第二个通道对应真实文本区域概率图，第三个通道对应真实文本区域阈值图；

梯度图处理模块，用于获取所述目标图像的梯度图像；

16.根据权利要求15所述的装置，其特征在于，所述文本区域确定模块包括：

像素点处理子模块，用于根据各像素点对应的文本行的位置类别确定各像素点属于的文本行；

文本行处理子模块，用于根据各文本行的位置确定真实文本区域的位置。

17.一种计算设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。

18.一种非易失性计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。