CN114332839A

CN114332839A - 一种基于多空间联合感知的街景文本检测方法

Info

Publication number: CN114332839A
Application number: CN202111644537.8A
Authority: CN
Inventors: 陈平平; 陈瑛; 林志坚; 陈锋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Anticipated expiration: 2041-12-30
Also published as: CN114332839B

Abstract

本发明提供了一种基于多空间联合感知的街景文本检测方法，具体步骤如下：步骤S1：获取自然街景下的文本图像数据集，并将其划分为训练集与测试集；步骤S2：构造基于多空间联合感知的深度卷积神经网络；步骤S3：将训练图像数据集输入到步骤S2构造的网络中进行训练；步骤S4：将测试图像数据集输入至最优参数模型网络中进行预测；步骤S5：采用最小外接矩形算法生成文本实例的检测框，得到检测结果。不仅能够检测出任意形状的街景文本，而且能够保证文本检测的实时性。

Description

一种基于多空间联合感知的街景文本检测方法

技术领域

本发明涉及计算机视觉技术领域，特别是一种基于多空间联合感知的街景文本检测方法。

背景技术

场景文本检测在人机交互、自动驾驶等现实领域得到广泛的应用。场景的文本检测作为场景理解过程中基础而又重要的一环，它的检测精准性对场景理解起着至关重要的作用。同时，复杂场景本身存在的噪声、模糊和失真等局限性以及场景文本的多样性，使得精准定位文本这项任务更加具有挑战性。

随着深度学习的发展和目标检测技术的不断更新，以街景为背景的场景文本检测算法在规则形状文本数据中已取得了重大的进展，但如何检测不规则多方向的文本行以及实时文本检测的问题仍然是目前场景文本检测亟需解决的两大难题。为了解决不规则文本检测问题，采用像素级预测虽然可以较为准确的输出任意方向的多边形以及弯曲形状文本的定位结果，但在预测具有大字符间距这类特点的文本行上，容易将文本行内的间距像素误判为非文本像素，导致输出结果被过度分割为两个文本行，从而对检测精度造成影响。其次，像素级的运算在推理过程中需要花费巨大的时间成本，因此无法满足实时性要求。

发明内容

有鉴于此，本发明的目的在于提供一种基于多空间联合感知的街景文本检测方法，即提出了一种高效的联合多尺度空间、注意力空间与嵌入空间的文本检测网络框架，不仅能够检测出任意形状的街景文本，而且能够保证文本检测的实时性。并可将该方案应用于其他工业场景下的文本检测。

为实现上述目的，本发明采用如下技术方案：一种基于多空间联合感知的街景文本检测方法，具体步骤如下：

步骤S1：获取自然街景下的文本图像数据集，并将其划分为训练集与测试集；

步骤S2：构造基于多空间联合感知的深度卷积神经网络；

步骤S3：将训练图像数据集输入到步骤S2构造的网络中进行训练；

步骤S4：将测试图像数据集输入至最优参数模型网络中进行预测；

步骤S5：采用最小外接矩形算法生成文本实例的检测框，得到检测结果。

在一较佳的实施例中：步骤S1所使用的数据集为自然街景的全英文文本图像，ICDAR2015数据集包含1500张图像，其中1000张用于训练，500张用于测试，图像中的文本行方向是任意的，提供单词级别的标注信息。

在一较佳的实施例中：通过二值化方法将单词级别的标注区域转化为实例掩膜，即背景像素设为0，文本标注区域像素设为255；并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标签，用于网络训练和测试评估。

在一较佳的实施例中：步骤S2构造基于多空间联合感知的深度卷积神经网络，由轻量级的特征提取骨干、多尺度空间感知模块以及注意力空间感知模块构成；从特征骨干网络中提取4个不同尺度的特征图，并以此构建多尺度空间感知模块与注意力空间感知模块；将多尺度空间感知模块与注意力空间感知模块在同一尺度上的输出结果进行逐元素加法和上采样操作，从而得到最终用于输出的特征图。

在一较佳的实施例中：步骤S2中构建多尺度空间感知模块增强不同尺度空间上对文本特征的感知，该模块采用深度可分离卷积来减小计算成本，主体结构包含四个阶段：信道降维阶段、自顶向下增强阶段、自底向上增强阶段、深浅层融合增强阶段。

在一较佳的实施例中：步骤S2中构建注意力空间感知模块赋予文本特征注意力权重，利用全局平均池化与1维卷积来关注每个特征通道与范围与其邻近通道间的相关性。

在一较佳的实施例中：步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、通道数为512维的特征图，该特征图用于预测文本实例、文本中心实例以像素点嵌入表示。

在一较佳的实施例中：步骤S3中采用损失函数来训练优化网络各层的权重参数，该损失函数由文本实例优化损失函数L_Text、文本中心实例优化损失函数L_Cr、嵌入空间亲和度判别损失函数L_ESD共同构成：

文本实例优化损失函数L_Text，文本中心实例优化损失函数L_Cr的表达式如下：

式中，H表示交叉熵损失：即

i表示第i个像素点；P_Text、P_Cr表示文本实例的分割结果；G_Text、G_Cr表示真实文本标签区域；

嵌入空间亲和度判别损失函数L_ESD表达式如下：

式中，N是文本实例个数；[x]₊表示max(x,0)，其中，

T_i ^w表示第i个文本实例；T_i ^t,

分别表示第i、j个文本中心实例；f(p)表示该空间内文本实例像素点的特征向量；f(T_i ^t),

分别表示文本中心实例T_i ^t,

的特征向量，可由

计算得到；δ在本文中设置为1。

与现有技术相比，本发明具有以下有益效果：

1.本发明提出轻量型结构的多尺度空间感知模块与注意力空间感知模块来增强文本特征的表征能力。

2.本发明将多尺度空间感知模块、注意力空间感知模块与轻量型骨干网络的特征融合结果作为输出，在保证检测速度实时性的同时提升了检测算法的鲁棒性。

3.本发明通过训练嵌入空间亲和度判别损失函数优化特征向量间距与亲和程度的对应关系，从而在嵌入空间中监督分割结果的准确性。

4.本发明可以应用于其它工业场景下文本图像的检测。

附图说明

图1为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的检测流程图；

图2为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S1中ICDAR2015数据集的示例图；

图3为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S2中构建的多空间联合感知的文本检测网络结构图；

图4为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S22中构建的多尺度空间感知模块结构图；

图5为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S23中构建的注意力空间感知模块结构图；

图6为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S32中提出的嵌入空间亲和度判别损失函数原理示意图；

图7为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S5中测试图像数据集的检测结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明的基于多空间联合的街景文本检测算法，联合了多尺度空间、注意力空间以及嵌入空间中对特征的感知信息，以极小的计算开销提升了模型对文本特征的感知能力，能够实现街景文本尤其是不规则文本图像的鲁棒性检测。

如图1至7所示，本实施例提供了一种基于多空间联合感知的街景文本检测方法，包括以下步骤：

在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11：以ICDAR2015数据集为例，文本实例对应的真实标签是由数据集提供的标注框生成的二值化掩码图；然后使用Vatti clipping算法将多边形轮廓上的端点同时向内收缩D个像素，从而获得文本实例的形芯区域真实标签(c)。偏移量D的计算公式如下：

式中，S表示多边形的面积；L表示多边形的周长；r表示收缩比例，设置为0.5；

步骤S2：构造基于多空间联合感知的深度卷积神经网络；

步骤S21：以ResNet18为特征提取骨干，得到四个具有不同尺度的特征图，并以此构建多尺度空间感知模块与注意力空间感知模块；

在本实施例中，所述步骤S21具体包括以下步骤：

步骤S211：首先将图像输入至ResNet18用于提取不同层次的特征信息，然后将卷积层(Conv2、Conv3、Conv4、Conv5)输出的四个不同尺寸的特征图{f₂,f₃,f₄,f₅}作为多尺度空间感知模块和注意力空间感知模块的基础特征层；

步骤S22：构造多尺度空间感知模块，首先将主干网络输出的特征图维度统一调整至128维。然后自顶向下的融合来自侧方下采样与高层上采样后的特征信息，并此基础上增加了一条自底向上的反向路径将低层的信息向上传递来优化特征空间信息的表达。最后将原始特征图与增强后的特征图在相应尺度上进行逐元素相加操作；

在本实施例中，所述步骤S22具体包括以下步骤：

步骤S221：将主干网络输出的特征图维度统一调整至128维，得到调整维度后的特征图{f'₂,f'₃,f'₄,f'₅}，该阶段采用通道降维的方式来减小卷积计算的复杂度。

步骤S222：自顶向下的融合来自侧方下采样与高层上采样后的特征信息，将高层的语义信息向下传递从而增强特征的语义表达能力，即{p₂,p₃,p₄,p₅}。

步骤S223：由于低层特征中蕴含更多的位置信息，故在此基础上增加了一条自底向上的反向路径将低层的信息向上传递来优化特征空间信息的表达。

步骤S224：把S223步骤优化的特征图{p'₂,p'₃,p'₄,p'₅}与S221步骤调整的特征图{f'₂,f'₃,f'₄,f'₅}逐元素相加得到该模块最终输出的特征图

深浅层的相互融合使得最后输出的特征信息得到进一步增强。

步骤S23：构造注意力空间感知模块，首先将特征图逐层依次输入全局平均池化(Global Average Pooling,GAP)层进行压缩，然后通过一个大小为3或5的自适应1维卷积核来实现局部的跨通道交互，再利用Hard-sigmoid函数生成一组信道权重与输入特征层逐元素相乘，从而得到调整通道至128维的加权特征图；

在本实施例中，所述步骤S23具体包括以下步骤：

步骤S231：将主干网输出的特征图{f₂,f₃,f₄,f₅}逐层依次输入全局平均池化层进行压缩，再利用h-sigmoid函数生成一组信道权重与输入特征层逐元素相乘，从而得到加权特征图

步骤S232：通过核大小分别为3，5，5，5的4个1维卷积核来实现局部的跨通道交互；

步骤S233：利用h-sigmoid函数生成一组信道权重与输入特征层逐元素相乘；

步骤S234：使用1×1卷积将通道维数调整至128维，从而得到128维的加权特征图

步骤S24:将上述两个模块在同一尺度上的输出结果进行逐元素加法和上采样等操作，从而得到最终用于预测的特征图；

步骤S31:利用步骤S1的数据集和步骤S2构造的卷积神经网络，在Pytorch深度学习框架下进行训练；

步骤S32：利用损失函数不断优化更新各层的权重参数，损失函数表达式如下所示：

L＝L_Text+L_Cr+L_ESD；

式中，H表示交叉熵损失：即

嵌入空间亲和度判别损失函数L_ESD表达式如下：

式中，N是文本实例个数；[x]₊表示max(x,0)；T_i ^w表示第i个文本实例；T_i ^t,

分别表示文本中心实例T_i ^t,

的特征向量，可由

计算得到；δ在本文中设置为1。

在本实施例中，所述步骤S32具体包括以下步骤：

步骤S321：文本区域损失函数L_Text和文本形芯区域损失函数L_Cr是由二进制交叉熵损失函数(Binary Cross-Entropy Loss，BCE Loss)和骰子系数损失函数(Dice Loss)，即BCE-Dice Loss组合构建。

步骤S322：卷积神经网络直接将待检测的文本图像像素点x映射到4维度的空间

通过学习该空间的距离度量即可判断文本实例间的相似程度：文本实例与相对应的中心实例特征向量距离很小，不同文本中心实例距离很大。即满足以下条件：

将其转化为嵌入空间亲和度判别损失函数L_ESD：

分别表示文本中心实例T_i ^t,

的特征向量，可由

计算得到；δ在本文中设置为1。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于多空间联合感知的街景文本检测方法，其特征在于：具体步骤如下：

步骤S2：构造基于多空间联合感知的深度卷积神经网络；

2.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S1所使用的数据集为自然街景的全英文文本图像，ICDAR2015数据集包含1500张图像，其中1000张用于训练，500张用于测试，图像中的文本行方向是任意的，提供单词级别的标注信息。

3.根据权利要求1或2所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：通过二值化方法将单词级别的标注区域转化为实例掩膜，即背景像素设为0，文本标注区域像素设为255；并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标签，用于网络训练和测试评估。

4.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2构造基于多空间联合感知的深度卷积神经网络，由轻量级的特征提取骨干、多尺度空间感知模块以及注意力空间感知模块构成；从特征骨干网络中提取4个不同尺度的特征图，并以此构建多尺度空间感知模块与注意力空间感知模块；将多尺度空间感知模块与注意力空间感知模块在同一尺度上的输出结果进行逐元素加法和上采样操作，从而得到最终用于输出的特征图。

5.根据权利要求4所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中构建多尺度空间感知模块增强不同尺度空间上对文本特征的感知，该模块采用深度可分离卷积来减小计算成本，主体结构包含四个阶段：信道降维阶段、自顶向下增强阶段、自底向上增强阶段、深浅层融合增强阶段。

6.根据权利要求5所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中构建注意力空间感知模块赋予文本特征注意力权重，利用全局平均池化与1维卷积来关注每个特征通道与范围与其邻近通道间的相关性。

7.根据权利要求6所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、通道数为512维的特征图，该特征图用于预测文本实例、文本中心实例以像素点嵌入表示。

8.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S3中采用损失函数来训练优化网络各层的权重参数，该损失函数由文本实例优化损失函数L_Text、文本中心实例优化损失函数L_Cr、嵌入空间亲和度判别损失函数L_ESD共同构成：

式中，H表示交叉熵损失：即

嵌入空间亲和度判别损失函数L_ESD表达式如下：

式中，N是文本实例个数；[x]₊表示max(x,0)，其中，

T_i ^w表示第i个文本实例；T_i ^t,

分别表示文本中心实例T_i ^t,

的特征向量，可由

计算得到；δ在本文中设置为1。