CN114926826A

CN114926826A - 场景文本检测***

Info

Publication number: CN114926826A
Application number: CN202210451005.0A
Authority: CN
Inventors: 玛依热·依布拉音; 李媛; 艾斯卡尔·艾木都拉
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-19

Abstract

本发明涉及属于文本检测领域。本发明提供场景文本检测***，包括：图像获取单元，特征提取单元，特征融合单元以及可微分二值化模块，其中，特征提取单元，用于使用Resnet提取原始图像的特征图，所述Resnet骨干网络中嵌入残差校正支路；所述残差校正支路，用于在Resnet对原始图像进行常规卷积获得输入特征后，构成两个支路；其中一支路通过下采样将输入特征转换为低维嵌入，由该低维嵌入来校准另一支路中卷积核的卷积变换，并最终得到原始图像的特征图；最终根据目标特征图确定图像中的目标文本区域。本发明引入了残差校正支路(RCB)来扩大感受野，来提升获取上下文信息的能力，从而获得更大感受野的上下文信息。

Description

场景文本检测***

技术领域

本发明属于文本检测领域，具体涉及场景文本检测***。

背景技术

文字已经成为当代世界传递信息的必不可少手段之一，本例生活的社会场景中存在有各种各样的文字信息。自然场景文本检测就是在一幅图像中通过检测网络定位出文字区域，并用多边形边界框将文字区域表示出来，准确的检测结果有利于广泛的实际应用，如即时翻译、图像检索、场景解析、地理定位和车牌识别等，在计算机视觉领域与文档分析领域备受关注。近年来，随着卷积神经网络(CNN)的快速发展，场景文本检测取得了很大进展。本例可以将现有的基于CNN的文本检测算法大致分为两类:基于回归的方法和基于分割的方法。

对于基于回归的场景文本检测算法，通常采用具有特定方向的矩形框或四边形框的形式表示。虽然检测速度快，可以避免累积多个阶段的错误产生，但大多数现有的基于回归的方法由于文本表示形式的有限(轴对齐的矩形、旋转的矩形或四边形)已经无法准确且有效地解决文字检测问题，特别是用来检测Total-Text等数据集上任意形状的文本时性能不是很好，这对整个光学字符识别引擎中的后续文本识别是非常不利的。

对于基于分割的场景文本检测算法主要通过对像素进行分类来定位文本实例。虽然最近的方法在场景文本检测任务中取得了显著的改进，同时研究的重点也已经从横向文本转向多向文本和更具挑战性的任意形状文本(如弯曲文本)，但由于场景文本的特定属性，例如颜色、比例、方向、纵横比和形状的显著变化使其明显不同于一般目标对象，外加自然图像的属性不同，例如图像模糊程度、光照条件等，在任意形状的场景文本检测中仍存在挑战。

自然场景中的文本具有丰富、明确的语义信息，利用计算机技术快速、准确地提取场景图像中的文本信息是计算机视觉和模式识别领域当下热门的研究课题之一。场景文本检测技术是文本识别的基础，在人们的日常生活和生产中有着广泛的应用。与传统OCR相比，自然场景图像中的文本检测面临背景复杂、文本尺度和字体多样、图像质量的不确定性等诸多困难和挑战。近年来，随着深度学习技术的迅速发展，深度学习的方法在文本检测任务上效果显著，现有的卷积神经网络已经具备很好的表征能力，但是网络的感受野不足，定位能力不强，对文本的定位不准确，会导致在检测较长文本或者较大文本时容易出现误检或者漏检。另一方面，特征金字塔网络虽可以融合不同尺度的特征，但小尺度文本的高级语义信息在网络高层已经丢失，导致模型对多尺度文本的检测能力不强。

自然场景下的文本信息通常具有多样性和不规则性的特点，以及自然场景下任意形状文本检测的复杂性。由于采用手工设计特征的方式，传统的自然场景文字检测方法缺乏鲁棒性，而已有的基于深度学习的文本检测方法在各层网络提取特征的过程中存在丢失重要特征信息的问题。基于分割的文本检测方法是最近非常流行的检测方法之一，分割结果更能直观的描述各种形状的场景文本。原始的DB(Differentiable Binarization)算法利用可微分二值化算法简化后处理过程，解决了训练带来的梯度不可微问题，提高了场景文本检测的效率，但对网络中的语义信息和空间信息利用不充分，限制了网络的分类能力和定位能力。尽管基于分割的算法在检测任意形状的文本时具有优势，但由于缺乏足够的上下文信息也会造成误报或漏检。

发明内容

本发明的目的是针对现有技术中DBNet文本检测网络对网络中的语义信息和空间信息利用不充分，限制了网络的分类能力和定位能力，同时缺乏足够的上下文信息造成误报或漏检的问题提出场景文本检测***，从而使DBNet文本检测网络在特征提取过程中能够得到更深层次的语义信息以及明确重点文本特征。

本发明解决上述技术问题，采用的技术方案是，场景文本检测***，包括：图像获取单元，特征融合单元以及可微分二值化模块，其特征在于：

所述图像获取单元，用于获取原始图像；

所述特征提取单元，用于使用Resnet提取原始图像的特征图；所述Resnet骨干网络中嵌入残差校正支路；所述残差校正支路，用于在Resnet对原始图像进行常规卷积获得输入特征后，构成两个支路；其中一支路通过下采样将输入特征转换为低维嵌入，由该低维嵌入来校准另一支路中卷积核的卷积变换，最终得到原始图像的特征图；

所述特征融合单元，用于使用FPN对所述特征图进行特征融合，最终取得目标特征图；

所述可微分二值化模块，用于根据目标特征图确定图像中的目标文本区域。

在本发明实施例中，所述残差校正支路的两个支路分别为第一支路及第二支路；

所述第一支路用于，对输入特征进行常规卷积提取第一支路特征；

所述第二支路用于，对输入特征进行平均池化下采样r倍后进行卷积后进行上采样，最后经过Sigmoid激活函数后得到第二支路特征；

所述残差校正支路还用于，对第一支路特征及第二支路特征进行点乘操作，得到输出特征；输出特征与原始图像进行加和后，经过Relu激活函数后得到原始图像的特征图。

在本发明实施例中，采用平均池化下采样r倍，计算公式如下：

x′₂＝AvgPool_r(x₂)

其中，x₂为第二支路的输入特征；x′₂为第二支路的特征转换；r＝4。

在本发明实施例中，经过Sigmoid激活函数后得到第二支路特征的计算公式如下：

其中，y₂为第二支路特征；Up(·)是最近邻插值上采样；x′₂为第二支路的特征转换；k₂表示卷积操作。

在本发明实施例中，第一支路特征的计算公式如下：

其中，y₁为第一分支特征；x₁为第一支路的输入特征；k₁表示卷积操作。

在本发明实施例中，所述FPN结构中嵌入双分支注意特征融合模块；

所述双分支注意特征融合模块，用于增强多尺度场景文本的特征表达，使其检测的准确性得到提高。

在本发明实施例中，所述双分支注意特征融合模块包括全局特征通道以及局部特征通道；

所述FPN，用于对原始图像的任意两个特征图进行初始融合后，得到初始融合特征；

所述全局特征通道，用于对初始融合特征进行全局平均池化处理，再对其进行卷积提取全局特征通道注意力；

所述局部特征通道，用于对初始融合特征进行卷积提取局部特征通道注意力；

双分支注意特征融合模块，还用于将全局特征通道注意力与局部特征通道注意力进行加和后，再对其进行激活，然后再与原始图像的特征图中较大尺寸特征图进行逐元素相乘，从而最终确定目标特征图。

在本发明实施例中，全局特征通道注意力的计算公式如下：

g(X)＝B(PWConv₂(δ(B(PWConv₁(Avg(X))))))

其中，g(X)表示全局特征通道注意力；B表示BatchNorm层；PWConv表示逐点卷积；δ表示Relu激活函数，X表示初始融合特征；Avg表示全局平均池化。

在本发明实施例中，局部特征通道注意力的计算公式如下：

L(X)＝B(PWConv₂(δ(B(PWConv₁(X)))))

其中，L(X)表示局部特征通道注意力；B表示BatchNorm层；PWConv表示逐点卷积；δ表示Relu激活函数，X表示初始融合特征。

在本发明实施例中，将全局特征通道注意力与局部特征通道注意力进行加和后，再对其进行激活后与原始图像的特征图中较大尺寸特征图进行逐元素相乘，获取目标特征图的计算公式如下：

其中，X′表示目标特征图；

表示注意力权重；P表示原始图像的特征图中较大尺寸特征图；σ表示Sigmoid激活函数；g(X)表示全局特征通道注意力；L(X)表示局部特征通道注意力。

本发明的有益效果在于，本发明在DBNet算法的基础上改进了特征提取网络，改进的ResNet轻量化特征提取网络和更好的特征融合方法将不同深度的特征有效的融合在一起指导分割。ResNet引入了残差校正支路(RCB)来扩大感受野，提升获取上下文信息的能力，从而获得更大感受野的上下文信息。同时，为了提高对特征的使用效率，在FPN结构中加入双分支注意特征融合(TB-AFF)模块，通过结合全局和局部注意力机制来精确定位文本区域，准确检测自然场景下的文本位置。最后通过可微分二值化模块，将二值化的过程加入到模型的训练过程中，自适应地设置二值化阈值，将分割方法产生的概率图转化为文本区域，取得更好的文本检测效果。整个模型既保证了特征提取的质量，同时因为本身属于轻量级网络，在速度和精度方面达到了很好的平衡。在不牺牲速度的前提下，扩大了网络的感受野，学习到了更精细的文本位置信息，对文本区域进一步精准定位。

附图说明

图1为本发明实施例1中场景文本检测***结构图。

图2为本发明实施例1中残差校正支路结构图。

图3为本发明实施例1中双分支注意特征融合模块结构图。

图4为本发明实施例1中可微二值化的结构图。

图5为本发明实施例2中不同类型的文本示例上的可视化结果。

图6为本发明实施例2中Baseline和本发明的可视化结果。

图7为本发明实施例2中不同类型的文本示例上的可视化结果显示

具体实施方式

实施例1

本发明针对现有技术中DBNet文本检测网络对网络中的语义信息和空间信息利用不充分，限制了网络的分类能力和定位能力，同时缺乏足够的上下文信息造成误报或漏检的问题提供一种场景文本检测***，包括：图像获取单元，特征提取单元，特征融合单元以及可微分二值化模块，所述图像获取单元，用于获取原始图像；工作流程图如图1所示。

1、关于特征提取单元，介绍如下：

***使用Resnet提取原始图像的特征图，所述Resnet骨干网络中嵌入了残差校正支路(RCB)。***工作时，Resnet对原始图像进行常规卷积获得输入特征后，残差校正支路中的两个分支；其中一支路通过下采样将输入特征转换为低维嵌入，由该低维嵌入来校准另一支路中卷积核的卷积变换，并最终得到原始图像的特征图。具体而言，残差校正支路(RCB)不单单是对原始空间中的输入执行传统卷积，而是首先通过下采样将输入转换为低维嵌入，由该低维嵌入来校准另一个支路中卷积核的卷积变换。得益于这种卷积和卷积核间的通信，空间上的每一个点都有其附近区域的信息和通道上的交互信息，避免了整个全局信息中无关区域的干扰。同时也可以有效地扩大每个空间位置的感受野，从而关注更多的上下文信息。

其中，残差校正支路(RCB)，结构如图2所示，包括第一支路及第二支路；

第二支路上首先采用平均池化下采样r倍，计算公式如下：

x′₂＝AvgPool_r(x₂)

其中，x₂为第二支路的输入特征；x′₂为特征转换；r＝4。

经过Sigmoid激活函数后得到第二支路特征的计算公式如下：

其中，y₂为第二支路特征；k₂表示卷积操作；Up(·)是最近邻插值上采样，目的是将中间过程从小尺度空间映射到原始特征空间。Sigmoid激活函数可以增加神经网络模型的非线性，以便增加对样本非线性关系的拟合能力。相比于原始支路上的标准卷积，残差校正支路可以自适应地为每个通道和空间位置的周围环境建立依赖关系，允许每个通道和空间位置将其周围信息环境自适应地视为来自潜在空间的输入，以作为来自原始比例空间的响应中的标量，从而生成更具判别力的特征，提取出更加丰富的上下文信息，因此可以有效扩大具有残差校正支路的网络的视场。

第一支路特征的计算公式如下：

其中，y₁为第一分支特征；x₁为第一支路的输入特征；k₁表示卷积操作。第一支路的输入特征与第二支路的输入特征一致，均为Resnet对原始图像进行常规卷积获得的输入特征。

然后，对第一支路特征及第二支路特征进行点乘操作，得到输出特征；输出特征与该模块最开始的输入进行加和(即残差连接)后，经过Relu激活函数后得到原始图像的特征图。

残差校正支路(RCB)能够产生全局的感受野，充分获取分割图像的上下文信息。这在应用于卷积层时极大地增加了视野，可以达到扩增卷积感受野的目的，有助于很好地捕获整个判别区域。它使每个空间位置能够自适应地编码来自周围区域的信息上下文，增加了特征信息的提取能力。同时还考虑到了通道间的信息的增强，产生更丰富和更有判别性的特征表示，进而增强输出特征的多样性，改善了卷积网络的性能。

另一方面，残差校正支路不收集全局上下文信息，而仅考虑每个通道和空间位置周围的上下文信息，从而在某种程度上避免了来自无关区域(非文本区域)的某些污染信息。因此，可以精准地定位目标物体。而且从图中可以看出，残差校正支路模块通用性强，方便使用，可以很容易地运用在标准卷积层上。此外，众所周知，一般大多数基于注意力或非局部的方法都需要额外的可学习参数来构建相应的模块，然后将它们***到构建块中。与之不同的是，我们的残差校正支路不用依赖任何额外的可学习参数，适用于多种任务，可以很容易地嵌入到现代分类网络中。

2、关于特征融合单元，介绍如下：

本例的特征融合单元，用于使用FPN对所述特征图进行特征融合，最终取得目标特征图。

对于FPN结构来说,越深层的特征意味着更多的通道数,但是各层特征进行融合时都是自顶向下传播,所以顶层特征势必会减少更多的通道数,由于减少了特征通道必然会导致上下文信息的丢失，最高层的特征往往会丢失更多的信息,而图像的上下文语义信息对于分割网络有着至关重要的作用。

为了保留更多的上下文信息，本例选择FPN作为最常见场景的示例：长跳跃连接，并在FPN中加入双分支注意特征融合(TB-AFF)模块,充分利用网络各层提取到的特征来应对文本的尺度变化，可以保留更多的深层特征信息，提高金字塔的特征的性能。具体来说，将TB-AFF添加到了FPN中，以获得注意力网络，我们称为多尺度注意力融合网络(MSAFN)。其结构如图3所示，FPN结构中嵌入双分支注意特征融合(TB-AFF)模块，可以增强多尺度场景文本的特征表达，使其检测的准确性得到提高。

双分支注意特征融合(TB-AFF)模块是由长跳跃连接引起的特征融合，将CNN中的局部特征和全局特征相结合，汇集空间注意力的思想，在注意力模块内聚合多尺度特征上下文信息，生成的融合权重与特征图的大小相同，从而以逐元素的方式动态选择，适用于大多数常见场景。

所述双分支注意特征融合(TB-AFF)模块，包括全局特征通道以及局部特征通道；该全局特征通道基于SENet，但是全连接层换成了pointwise conv(逐点卷积)，也就是卷积核为1的正常卷积；局部特征通道采用pointwise conv(逐点卷积)提取局部特征的通道注意力，对SENet而言只利用了全局通道注意力，它偏向于全局范围的上下文，而提出的TB-AFF还聚合了局部通道上下文注意力，这有助于网络包含更少的背景杂波，更有利于小目标的检测。通过在双分支注意特征融合(TB-AFF)模块中加入跨层连接，可以实现多尺度特征信息的互补，以获得反映上下文信息的最终表示

其工作流程如下：FPN对原始图像的任意两个特征图进行初始融合，得到初始融合特征后；全局特征通道，对初始融合特征进行全局平均池化处理，再对其进行卷积提取全局特征通道注意力；局部特征通道，对初始融合特征进行卷积提取局部特征通道注意力，目的是为了保留细节。然后，将全局特征通道注意力与局部特征通道注意力进行加和后，再对其进行激活，然后再与原始图像的特征图中较大尺寸特征图进行逐元素相乘，从而最终确定目标特征图。通过TB-AFF模块将全局特征通道注意力与局部特征通道注意力融合,对特征图上的每个文本位置特征进行attention调整，通过加权求和所有位置的聚合特征来更新特征，并聚焦到文本区域上。

其中，对初始融合特征进行全局平均池化处理，再对其进行卷积提取全局通道上下文的计算公式如下：

g(X)＝B(PWConv₂(δ(B(PWConv₁(Avg(X))))))

其中，g(X)表示全局通道上下文；B表示BatchNorm层；PWConv表示逐点卷积δ表示Relu激活函数，X表示初始融合特征；Avg表示全局平均池化。这里的通道注意力机制采用逐点卷积的方式，逐步压缩通道改变卷积方向，为文本区域表现出高响应的通道分配更大的权重。与L(X)的不同点就是，对输入的X要先进行一次全局平均池化操作Global AveragePooling(GAP)，以此来获得全局注意信息。

同样，利用视觉注意层来加强局部细节的关注点的提取。局部特征的通道注意力的计算公式

也是通过逐点卷积来提取。对初始融合特征进行卷积提取局部通道上下文的计算公式如下：

L(X)＝B(PWConv₂(δ(B(PWConv₁(X)))))

其中，L(X)表示局部通道上下文；B表示BatchNorm层；PWConv表示逐点卷积δ表示Relu激活函数，X表示初始融合特征。L(X)与输入特征具有相同的形状，可以保留和突出低级特征中的细微细节。

对全局和局部注意力进行汇集，明确需要关注的特征。将全局通道上下文与局部通道上下文进行加和后，再对其进行激活后与原始图像的特征图中较大尺寸特征图进行逐元素相乘，获取目标特征图的计算公式如下：

其中，X′表示目标特征图；T(X)表示注意力权重；P表示原始图像的特征图中较大尺寸特征图；考虑到学习到的凸显关键区域的特征向量可能具有局限性，再将其和原始输入特征向量进行对应元素相加的操作，以学习到更为全面的特征。σ表示Sigmoid激活函数，使用sigmoid函数来激活，使注意力通道每个元素值在[0，1]之间，可以达到注意力模块强化有用图像信息和抑制无用信息的效果。

这里是因为全局特征通道注意力使用了全局平均池化操作，因此得到的特征高宽形状为1*1，而局部特征通道注意力与输入特征保持有相同的高宽尺寸，因此两者相加需要采取广播操作。

表示逐元素相乘，即两个特征图对应元素相乘。

综上，双分支注意特征融合(TB-AFF)模块结合了局部和全局的特征信息，以及两个输入特征，使用尺度不同的两个特征图来提取注意力权重，主要贡献如下：

(1)提出了通道注意中的尺寸问题，TB-AFF通过逐点卷积来关注通道的尺度问题，而不是大小不同的卷积核。使用逐点卷积是为了让TB-AFF尽可能的轻量化。

(2)TB-AFF不是在骨干网络中，而是在特征金字塔注意模块(FPN)中聚合全局和局部特征上下文信息。

3、关于可微分二值化模块，介绍如下：

***使用分割网络(segmentation network)对目标特征图进行分割产生概率图(probability map P)，P∈R^H×W，其中H和W分别表示输入图像的高度和宽度，要将概率图转化为二值图，二值化函数是至关重要的，标准二值化函数如下所示：

其中，值为1的像素被认为是有效的文本区域。t为设定的阈值，(i，j)表示图中的坐标点。标准二值化函数，是不可微的，所以不能随着分割网络而优化。为了解决二值化函数不可微的问题，本例使用如下公式进行二值化：

其中B’是近似二值图，T是从网络中学习的自适应阈值图，K是放大系数，在训练过程中，K的作用就是在反向传播中放大传播的梯度，这对于大多数的错误预测区域的改善是比较友好的，有利于产生更显著的预测。本例设置K＝50，该近似二值化函数与标准二值化函数相似，且具有可微性，可以在训练期间随分割网络进行优化。可微二值化可以自适应设定阈值T，这样的方法不仅能够很好地区分前景和背景，而且可以分离出连接紧密的文本实例。

具体来说，就是利用特征F对概率图(P)和阈值图(T)进行预测，根据可微二值化模块将概率图和阈值图结合得到二值图，自适应预测每个位置的阈值。最后通过边界框形成从近似二值图中获得文本的检测框。可微二值化的结构如图4所示。路径1代表标准二值化过程，虚线仅代表推理过程，路径2是本例使用的可微二值化，它自适应地预测图像每个位置的阈值。

损失函数在深度神经网络中扮演着至关重要的角色，本例使用L₁损失函数和二元交叉熵损失函数来优化本例的网络。本例的损失函数在训练过程中由三部分组成：概率图损失L_s、二值化图损失L_b、自适应阈值图损失L_t，表示如下：

L＝L_S+α×L_b+β×L_t

其中，α和β是权重参数，α设置为1，β设置为10。其中对概率图损失L_s和二值化图损失L_b采用二元交叉熵损失函数，其公式如下，还采用了hard negative mining来克服正负样本的不平衡。

其中，S₁表示对图像进行正负样本比例为1∶3的采样样本，对自适应阈值图损失L_t采用L1损失函数，其公式为：

其中，R_d为该区域内像素的索引，y^*为自适应阈值图的标签。

综上，可微分二值化模块根据目标特征图，可以有效的确定图像中的目标文本区域。

实施例2

为了验证本发明中场景文本检测***的有效性，本例还对三个具有挑战性的公共数据集进行了实验，分别是多方向文本数据集ICDAR2015、弯曲文本数据Total-Text以及多语言文本数据集MSRA-TD500。本例方法在不同类型的文本示例上的可视化结果如图5所示。包括弯曲的(e)和(f)、多方向的(a)和(b)、多语言的文本(c)和(d)。对于图5中的每个单元，概率图在第二列，阈值图在第三列，而二值化图在第四列。

1、训练配置

本例的实验使用Python 3.7作为编程语言，使用的深度学习框架是Pytorch1.5。本例采用Adam优化器训练模型，并采用余弦学习率衰减作为学习率调度，初始学习率为0.001，训练批次大小为16。对训练数据采用在(-10°,10°)范围内随机旋转角度、随机裁剪和翻转的方式进行数据增强，所有的图片都重新调整640×640。所有实验均在TITAN RTX上进行。初始学习率设置为0.007。在这三个数据集中，所有模型都在相同的策略下进行训练，在相同的设置下进行测试，这里就不过多介绍了。

2、实验与讨论

为了更好地证明本例提出的各个模块的实现，本例在多方向文本数据集ICDAR2015、曲线文本数据集Total-Text、多语言文本数据集MSRA-TD500上都进行了详细的消融研究，主要考虑3个性能参数：准确率、召回率以及综合评价指标，评估该模型的检测性能，证明了本例提出的残差校正支路(RCB)和双分支注意特征融合(TB-AFF)模块的影响。在网络训练过程中，相同的环境下进行实验，打“√"的地方表示使用了该方法。结果列于表1中。

表1 ICDAR2015数据集中的测试结果

表2 Total-Text数据集中的测试结果

表3 MSRA-TD500数据集中的测试结果

从表1、标2及表3可以看出，在ICDAR2015数据集、Total-Text数据集以及MSRA-TD500数据集上，加入RCB模块和/或TB-AFF模块后，召回率以及综合评价指标均得到了不同层的的提高。且，可以看出结合这两个模块的优点的网络的检测性能优于单独应用RCB模块或TB-AFF模块的网络。

RCB模块中，引入平均池化下采样操作来实现自校准，平均池化在整个池化窗口内建立位置之间的连接，这样可以更好地捕获上下文信息。实验结果表明，采用18层主干网络，使用所提出的残差校正分支可以大大提高基线结果。这一现象表明，采用残差校正支路的网络可以比原始支路上普通卷积生成更丰富、更有区别的特征表示，有助于发现更完整的目标物体，尽管它们的尺寸很小。当目标对象较小时，本例的网络还可以更好地局限于语义区域。同时，为了克服输入特征之间的语义和尺度不一致问题，本例的双分支注意特征融合(TB-AFF)模块将局部通道上下文添加到全局通道统计中。实验结果表明，所提出的基于TB-AFF的网络可以在小的参数预算下提高先进网络的性能。这表明人们应该关注深度神经网络中的特征融合，复杂的特征融合注意机制有可能产生更好的效果。进一步说明了与其盲目地增加网络的深度，不如更关注特征融合的质量。与线性方法(即加法和连接)相比，具有双分支注意特征融合(TB-AFF)模块的多尺度注意力融合网络(MSAFN)始终提供更好的性能。

图6显示了baseline和本发明的方法的可视化结果。对于图中的每个单元，概率图在第二列，阈值图在第三列，而二值化图在第四列。从实验结果可以看出，残差校正支路(RCB)和双分支注意特征融合(TB-AFF)模块在模型训练中对特征的提取发挥了重要的作用，有效增强了模型对文本特征的关注，对提取出来的文本特征进行了有效利用，在一定程度上提高了场景文本的检测精度。

图7展示了本发明与原始DBNet在不同类型的文本示例上的可视化结果,值得注意的是，这里的图像是从三个数据集中随机选择的，可以更好地证明本例模型的鲁棒性。对于图7(a),相较于Baseline和Ours,Baseline漏检了图中一部分文字(即"CA"),而本例的方法可以将其检测出来；对于图7(b)和图7(c),Baseline误检了非文本，将非文本区域作为文本区域检测出来，而本例的方法相比Baseline却可以很好地避免误检；对于图7(d),相较于Baseline和Ours,Baseline漏检了图中一部分文字(即"1"),而本例的方法可以将其检测出来；对于图7(e),Baseline漏检了中间的英文文字，而本例的方法却可以准确地检测出来；对于图7(f),Baseline将“COFFEE”作为两部分文字检测，而实际“COFFEE”表示的是一个语义信息，应该作为一个整体的文字区域被检测出来。

实验结果表明，本发明提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Total-Text以及多语言文本数据集MSRA-TD500上的检测能力。本例可以看到本发明在自然场景文本检测数据集下都很好，具有较好的性能，准确率、召回率及综合评价指标值指标值。通过加入残差校正支路(RCB)和双分支注意特征融合(TB-AFF)模块对于提取文本和方位的特征信息的增强，扩大了文本检测视野，有效改善了对于多尺度文本的检测效果。在没有损失检测效率的同时提高了原算法的检测精度，并在一定程度上优于当前针对自然场景下的文本检测。在不均匀照明、低分辨率、背景复杂等各种有挑战的场景中，本例模型能有效地应对文本剧烈的尺度变化，准确地检测出场景文本。一方面，残差校正支路包含自适应响应校准操作，有助于更精确地定位目标物体的准确位置。具有残差校正支路的ResNet可以更精确、更完整地定位目标物体(文本区域)，不会包括过多的背景部分，即使是在较低的网络深度。另一方面，双分支注意特征融合(TB-AFF)方法具有优越的性能，且具有良好的通用性，可使神经网络更有效率地抽取特征，可以有效改善现有的模型，会去注重在跟标签相关的目标上，展现了它强大的定位能力。这也证明了早期的特征融合对注意力特征融合也是有一定影响的。

综上，本发明为了弥补轻量级网络提取特征能力和感受野不足的缺陷，为骨干网络嵌入残差校正支路(RCB)以增强其提取特征的能力；为FPN嵌入双分支注意特征融合(TB-AFF)模块，用于增强多尺度场景文本的特征表达，使其检测的准确性得到提高。