CN114332839A - 一种基于多空间联合感知的街景文本检测方法 - Google Patents
一种基于多空间联合感知的街景文本检测方法 Download PDFInfo
- Publication number
- CN114332839A CN114332839A CN202111644537.8A CN202111644537A CN114332839A CN 114332839 A CN114332839 A CN 114332839A CN 202111644537 A CN202111644537 A CN 202111644537A CN 114332839 A CN114332839 A CN 114332839A
- Authority
- CN
- China
- Prior art keywords
- text
- space
- perception
- instance
- streetscape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 230000008447 perception Effects 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多空间联合感知的街景文本检测方法,具体步骤如下:步骤S1:获取自然街景下的文本图像数据集,并将其划分为训练集与测试集;步骤S2:构造基于多空间联合感知的深度卷积神经网络;步骤S3:将训练图像数据集输入到步骤S2构造的网络中进行训练;步骤S4:将测试图像数据集输入至最优参数模型网络中进行预测;步骤S5:采用最小外接矩形算法生成文本实例的检测框,得到检测结果。不仅能够检测出任意形状的街景文本,而且能够保证文本检测的实时性。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是一种基于多空间联合感知的街景文本检测方法。
背景技术
场景文本检测在人机交互、自动驾驶等现实领域得到广泛的应用。场景的文本检测作为场景理解过程中基础而又重要的一环,它的检测精准性对场景理解起着至关重要的作用。同时,复杂场景本身存在的噪声、模糊和失真等局限性以及场景文本的多样性,使得精准定位文本这项任务更加具有挑战性。
随着深度学习的发展和目标检测技术的不断更新,以街景为背景的场景文本检测算法在规则形状文本数据中已取得了重大的进展,但如何检测不规则多方向的文本行以及实时文本检测的问题仍然是目前场景文本检测亟需解决的两大难题。为了解决不规则文本检测问题,采用像素级预测虽然可以较为准确的输出任意方向的多边形以及弯曲形状文本的定位结果,但在预测具有大字符间距这类特点的文本行上,容易将文本行内的间距像素误判为非文本像素,导致输出结果被过度分割为两个文本行,从而对检测精度造成影响。其次,像素级的运算在推理过程中需要花费巨大的时间成本,因此无法满足实时性要求。
发明内容
有鉴于此,本发明的目的在于提供一种基于多空间联合感知的街景文本检测方法,即提出了一种高效的联合多尺度空间、注意力空间与嵌入空间的文本检测网络框架,不仅能够检测出任意形状的街景文本,而且能够保证文本检测的实时性。并可将该方案应用于其他工业场景下的文本检测。
为实现上述目的,本发明采用如下技术方案:一种基于多空间联合感知的街景文本检测方法,具体步骤如下:
步骤S1:获取自然街景下的文本图像数据集,并将其划分为训练集与测试集;
步骤S2:构造基于多空间联合感知的深度卷积神经网络;
步骤S3:将训练图像数据集输入到步骤S2构造的网络中进行训练;
步骤S4:将测试图像数据集输入至最优参数模型网络中进行预测;
步骤S5:采用最小外接矩形算法生成文本实例的检测框,得到检测结果。
在一较佳的实施例中:步骤S1所使用的数据集为自然街景的全英文文本图像,ICDAR2015数据集包含1500张图像,其中1000张用于训练,500张用于测试,图像中的文本行方向是任意的,提供单词级别的标注信息。
在一较佳的实施例中:通过二值化方法将单词级别的标注区域转化为实例掩膜,即背景像素设为0,文本标注区域像素设为255;并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标签,用于网络训练和测试评估。
在一较佳的实施例中:步骤S2构造基于多空间联合感知的深度卷积神经网络,由轻量级的特征提取骨干、多尺度空间感知模块以及注意力空间感知模块构成;从特征骨干网络中提取4个不同尺度的特征图,并以此构建多尺度空间感知模块与注意力空间感知模块;将多尺度空间感知模块与注意力空间感知模块在同一尺度上的输出结果进行逐元素加法和上采样操作,从而得到最终用于输出的特征图。
在一较佳的实施例中:步骤S2中构建多尺度空间感知模块增强不同尺度空间上对文本特征的感知,该模块采用深度可分离卷积来减小计算成本,主体结构包含四个阶段:信道降维阶段、自顶向下增强阶段、自底向上增强阶段、深浅层融合增强阶段。
在一较佳的实施例中:步骤S2中构建注意力空间感知模块赋予文本特征注意力权重,利用全局平均池化与1维卷积来关注每个特征通道与范围与其邻近通道间的相关性。
在一较佳的实施例中:步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、通道数为512维的特征图,该特征图用于预测文本实例、文本中心实例以像素点嵌入表示。
在一较佳的实施例中:步骤S3中采用损失函数来训练优化网络各层的权重参数,该损失函数由文本实例优化损失函数LText、文本中心实例优化损失函数LCr、嵌入空间亲和度判别损失函数LESD共同构成:
文本实例优化损失函数LText,文本中心实例优化损失函数LCr的表达式如下:
嵌入空间亲和度判别损失函数LESD表达式如下:
式中,N是文本实例个数;[x]+表示max(x,0),其中,
Ti w表示第i个文本实例;Ti t,分别表示第i、j个文本中心实例;f(p)表示该空间内文本实例像素点的特征向量;f(Ti t),分别表示文本中心实例Ti t,的特征向量,可由计算得到;δ在本文中设置为1。
与现有技术相比,本发明具有以下有益效果:
1.本发明提出轻量型结构的多尺度空间感知模块与注意力空间感知模块来增强文本特征的表征能力。
2.本发明将多尺度空间感知模块、注意力空间感知模块与轻量型骨干网络的特征融合结果作为输出,在保证检测速度实时性的同时提升了检测算法的鲁棒性。
3.本发明通过训练嵌入空间亲和度判别损失函数优化特征向量间距与亲和程度的对应关系,从而在嵌入空间中监督分割结果的准确性。
4.本发明可以应用于其它工业场景下文本图像的检测。
附图说明
图1为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的检测流程图;
图2为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S1中ICDAR2015数据集的示例图;
图3为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S2中构建的多空间联合感知的文本检测网络结构图;
图4为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S22中构建的多尺度空间感知模块结构图;
图5为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S23中构建的注意力空间感知模块结构图;
图6为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S32中提出的嵌入空间亲和度判别损失函数原理示意图;
图7为本发明优选实施例中一种基于多空间联合感知的街景文本检测方法的步骤S5中测试图像数据集的检测结果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的基于多空间联合的街景文本检测算法,联合了多尺度空间、注意力空间以及嵌入空间中对特征的感知信息,以极小的计算开销提升了模型对文本特征的感知能力,能够实现街景文本尤其是不规则文本图像的鲁棒性检测。
如图1至7所示,本实施例提供了一种基于多空间联合感知的街景文本检测方法,包括以下步骤:
步骤S1:获取自然街景下的文本图像数据集,并将其划分为训练集与测试集;
在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:以ICDAR2015数据集为例,文本实例对应的真实标签是由数据集提供的标注框生成的二值化掩码图;然后使用Vatti clipping算法将多边形轮廓上的端点同时向内收缩D个像素,从而获得文本实例的形芯区域真实标签(c)。偏移量D的计算公式如下:
式中,S表示多边形的面积;L表示多边形的周长;r表示收缩比例,设置为0.5;
步骤S2:构造基于多空间联合感知的深度卷积神经网络;
步骤S21:以ResNet18为特征提取骨干,得到四个具有不同尺度的特征图,并以此构建多尺度空间感知模块与注意力空间感知模块;
在本实施例中,所述步骤S21具体包括以下步骤:
步骤S211:首先将图像输入至ResNet18用于提取不同层次的特征信息,然后将卷积层(Conv2、Conv3、Conv4、Conv5)输出的四个不同尺寸的特征图{f2,f3,f4,f5}作为多尺度空间感知模块和注意力空间感知模块的基础特征层;
步骤S22:构造多尺度空间感知模块,首先将主干网络输出的特征图维度统一调整至128维。然后自顶向下的融合来自侧方下采样与高层上采样后的特征信息,并此基础上增加了一条自底向上的反向路径将低层的信息向上传递来优化特征空间信息的表达。最后将原始特征图与增强后的特征图在相应尺度上进行逐元素相加操作;
在本实施例中,所述步骤S22具体包括以下步骤:
步骤S221:将主干网络输出的特征图维度统一调整至128维,得到调整维度后的特征图{f'2,f'3,f'4,f'5},该阶段采用通道降维的方式来减小卷积计算的复杂度。
步骤S222:自顶向下的融合来自侧方下采样与高层上采样后的特征信息,将高层的语义信息向下传递从而增强特征的语义表达能力,即{p2,p3,p4,p5}。
步骤S223:由于低层特征中蕴含更多的位置信息,故在此基础上增加了一条自底向上的反向路径将低层的信息向上传递来优化特征空间信息的表达。
步骤S224:把S223步骤优化的特征图{p'2,p'3,p'4,p'5}与S221步骤调整的特征图{f'2,f'3,f'4,f'5}逐元素相加得到该模块最终输出的特征图深浅层的相互融合使得最后输出的特征信息得到进一步增强。
步骤S23:构造注意力空间感知模块,首先将特征图逐层依次输入全局平均池化(Global Average Pooling,GAP)层进行压缩,然后通过一个大小为3或5的自适应1维卷积核来实现局部的跨通道交互,再利用Hard-sigmoid函数生成一组信道权重与输入特征层逐元素相乘,从而得到调整通道至128维的加权特征图;
在本实施例中,所述步骤S23具体包括以下步骤:
步骤S232:通过核大小分别为3,5,5,5的4个1维卷积核来实现局部的跨通道交互;
步骤S233:利用h-sigmoid函数生成一组信道权重与输入特征层逐元素相乘;
步骤S24:将上述两个模块在同一尺度上的输出结果进行逐元素加法和上采样等操作,从而得到最终用于预测的特征图;
步骤S3:将训练图像数据集输入到步骤S2构造的网络中进行训练;
步骤S31:利用步骤S1的数据集和步骤S2构造的卷积神经网络,在Pytorch深度学习框架下进行训练;
步骤S32:利用损失函数不断优化更新各层的权重参数,损失函数表达式如下所示:
L=LText+LCr+LESD;
文本实例优化损失函数LText,文本中心实例优化损失函数LCr的表达式如下:
嵌入空间亲和度判别损失函数LESD表达式如下:
式中,N是文本实例个数;[x]+表示max(x,0);Ti w表示第i个文本实例;Ti t,分别表示第i、j个文本中心实例;f(p)表示该空间内文本实例像素点的特征向量;f(Ti t),分别表示文本中心实例Ti t,的特征向量,可由计算得到;δ在本文中设置为1。
在本实施例中,所述步骤S32具体包括以下步骤:
步骤S321:文本区域损失函数LText和文本形芯区域损失函数LCr是由二进制交叉熵损失函数(Binary Cross-Entropy Loss,BCE Loss)和骰子系数损失函数(Dice Loss),即BCE-Dice Loss组合构建。
步骤S322:卷积神经网络直接将待检测的文本图像像素点x映射到4维度的空间通过学习该空间的距离度量即可判断文本实例间的相似程度:文本实例与相对应的中心实例特征向量距离很小,不同文本中心实例距离很大。即满足以下条件:
将其转化为嵌入空间亲和度判别损失函数LESD:
式中,N是文本实例个数;[x]+表示max(x,0);Ti w表示第i个文本实例;Ti t,分别表示第i、j个文本中心实例;f(p)表示该空间内文本实例像素点的特征向量;f(Ti t),分别表示文本中心实例Ti t,的特征向量,可由计算得到;δ在本文中设置为1。
步骤S4:将测试图像数据集输入至最优参数模型网络中进行预测;
步骤S5:采用最小外接矩形算法生成文本实例的检测框,得到检测结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于多空间联合感知的街景文本检测方法,其特征在于:具体步骤如下:
步骤S1:获取自然街景下的文本图像数据集,并将其划分为训练集与测试集;
步骤S2:构造基于多空间联合感知的深度卷积神经网络;
步骤S3:将训练图像数据集输入到步骤S2构造的网络中进行训练;
步骤S4:将测试图像数据集输入至最优参数模型网络中进行预测;
步骤S5:采用最小外接矩形算法生成文本实例的检测框,得到检测结果。
2.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S1所使用的数据集为自然街景的全英文文本图像,ICDAR2015数据集包含1500张图像,其中1000张用于训练,500张用于测试,图像中的文本行方向是任意的,提供单词级别的标注信息。
3.根据权利要求1或2所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:通过二值化方法将单词级别的标注区域转化为实例掩膜,即背景像素设为0,文本标注区域像素设为255;并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标签,用于网络训练和测试评估。
4.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S2构造基于多空间联合感知的深度卷积神经网络,由轻量级的特征提取骨干、多尺度空间感知模块以及注意力空间感知模块构成;从特征骨干网络中提取4个不同尺度的特征图,并以此构建多尺度空间感知模块与注意力空间感知模块;将多尺度空间感知模块与注意力空间感知模块在同一尺度上的输出结果进行逐元素加法和上采样操作,从而得到最终用于输出的特征图。
5.根据权利要求4所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S2中构建多尺度空间感知模块增强不同尺度空间上对文本特征的感知,该模块采用深度可分离卷积来减小计算成本,主体结构包含四个阶段:信道降维阶段、自顶向下增强阶段、自底向上增强阶段、深浅层融合增强阶段。
6.根据权利要求5所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S2中构建注意力空间感知模块赋予文本特征注意力权重,利用全局平均池化与1维卷积来关注每个特征通道与范围与其邻近通道间的相关性。
7.根据权利要求6所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、通道数为512维的特征图,该特征图用于预测文本实例、文本中心实例以像素点嵌入表示。
8.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法,其特征在于:步骤S3中采用损失函数来训练优化网络各层的权重参数,该损失函数由文本实例优化损失函数LText、文本中心实例优化损失函数LCr、嵌入空间亲和度判别损失函数LESD共同构成:
文本实例优化损失函数LText,文本中心实例优化损失函数LCr的表达式如下:
嵌入空间亲和度判别损失函数LESD表达式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644537.8A CN114332839B (zh) | 2021-12-30 | 2021-12-30 | 一种基于多空间联合感知的街景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111644537.8A CN114332839B (zh) | 2021-12-30 | 2021-12-30 | 一种基于多空间联合感知的街景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114332839A true CN114332839A (zh) | 2022-04-12 |
CN114332839B CN114332839B (zh) | 2024-06-07 |
Family
ID=81016683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111644537.8A Active CN114332839B (zh) | 2021-12-30 | 2021-12-30 | 一种基于多空间联合感知的街景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332839B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN112183545A (zh) * | 2020-09-29 | 2021-01-05 | 佛山市南海区广工大数控装备协同创新研究院 | 一种任意形状的自然场景文本识别方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN113642390A (zh) * | 2021-07-06 | 2021-11-12 | 西安理工大学 | 一种基于局部注意力网络的街景图像语义分割方法 |
-
2021
- 2021-12-30 CN CN202111644537.8A patent/CN114332839B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112183545A (zh) * | 2020-09-29 | 2021-01-05 | 佛山市南海区广工大数控装备协同创新研究院 | 一种任意形状的自然场景文本识别方法 |
CN113642390A (zh) * | 2021-07-06 | 2021-11-12 | 西安理工大学 | 一种基于局部注意力网络的街景图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
林志坚: ""JMNET: Arbitrary-shaped scene text detection using multi-space perception"", 《NEUROCOMPUTING》, 24 October 2022 (2022-10-24) * |
Also Published As
Publication number | Publication date |
---|---|
CN114332839B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN113221639B (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN111242037A (zh) | 基于结构信息的车道线检测方法 | |
CN110929665B (zh) | 一种自然场景曲线文本检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN106682569A (zh) | 一种基于卷积神经网络的快速交通标识牌识别方法 | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN116051953A (zh) | 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
CN114022793A (zh) | 一种基于孪生网络的光学遥感图像变化检测方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN112836651B (zh) | 基于动态融合机制的手势图像特征提取方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN111553351A (zh) | 一种基于语义分割的场景任意形状的文本检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN115512096A (zh) | 基于CNN与Transformer的低分辨率图像分类方法及*** | |
CN116485860A (zh) | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN117409358A (zh) | 一种融合BiFPN的轻量化火焰检测方法 | |
CN111428447A (zh) | 一种基于显著性检测的智能图文排版方法 | |
CN110378880A (zh) | 基于视觉的火化机燃烧时间计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |