CN114118127B

CN114118127B - 一种视觉场景标志检测与识别方法及装置

Info

Publication number: CN114118127B
Application number: CN202111205085.3A
Authority: CN
Inventors: 张菁; 张广朋; 张冬明; 王柳谦
Original assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2024-05-21
Anticipated expiration: 2041-10-15
Also published as: CN114118127A

Abstract

本申请实施例涉及一种视觉场景标志的检测与识别方法及装置，该方法包括：通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据；基于多尺度特征融合网络模型，对视觉场景标志训练数据进行视觉场景标志的检测与识别；其中，多尺度特征融合网络模型基于以下步骤获得：构建多尺度特征融合网络模型；基于视觉场景标志合成数据对多尺度特征融合网络模型进行第一训练，得到第一训练后的多尺度特征融合网络模型；基于预先标注的视觉场景标志对第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的多尺度特征融合网络模型。本申请实施例能够提升视觉场景标志检测与识别的精准度和速度。

Description

一种视觉场景标志检测与识别方法及装置

技术领域

本发明涉及图片技术领域，尤其涉及一种视觉场景标志检测与识别方法及装置。

背景技术

随着互联网、智能手机和通信技术的发展，作为商家、组织宣传主要工具的标志图片传播迅速，其类别和数量快速增长，视觉场景标志检测与识别成为近年来的研究热点，其在广告效果检测、商标侵权分析及财产保护、智能交通***、敏感内容分析等各个领域有很广泛的应用。

视觉场景标志一般为自然场景中包含的实体标志，如商标、交通标志等，由于标志易受到非刚性形变、尺度差异、背景复杂等各种因素的影响，现有的目标检测技术在处理标志数据时性能难以尽如人意。因此，如何更有效提取视觉场景标志特征并进行快速检测与识别成为亟待解决的关键问题。

发明内容

本申请实施例提供一种视觉场景标志检测与识别方法及装置，用以解决现有技术中如何更有效提取视觉场景标志特征并进行快速检测与识别的技术问题，可以在保证视觉场景标志识别精度的同时，提升检测和识别的速度。

第一方面，本申请实施例提供一种视觉场景标志检测与识别方法，包括：

通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据；

基于多尺度特征融合网络模型，对所述视觉场景标志训练数据进行视觉场景标志的检测与识别；

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

基于视觉场景标志合成数据对所述多尺度特征融合网络模型进行第一训练，得到第一训练后的所述多尺度特征融合网络模型；

基于预先标注的视觉场景标志对所述第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的所述多尺度特征融合网络模型。

可选地，根据本申请实施例的一个视觉场景标志检测与识别方法，所述通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据包括：

获取初始标志图像，基于对所述初始标志图像的二值化处理过程，得到视觉场景标志训练数据的模板图像；

获取不含标志的背景图像，基于对所述背景图像的预处理过程，得到所述视觉场景标志训练数据的可合成区域；

基于所述视觉场景标志训练数据的模板图像与所述视觉场景标志训练数据的可合成区域，确定所述视觉场景标志训练数据。

可选地，根据本申请实施例的一个视觉场景标志检测与识别方法，所述多尺度特征融合网络模型包括视网膜网络模块RetinaNet、多尺度视觉场景标志特征优化模块Inception-Logo与注意力机制模块；

所述RetinaNet用于对所述视觉场景标志训练数据进行视觉场景标志多尺度特征提取和融合；

所述Inception-Logo用于对所述视觉场景标志训练数据进行视觉场景标志特征提取；

所述注意力机制模块用于对所述视觉场景标志训练数据进行视觉场景标志特征表示。

可选地，根据本申请实施例的一个视觉场景标志检测与识别方法，所述RetinaNet包括特征提取网络ResNet-50层、特征金字塔网络FPN结构层以及检测层；

所述对所述视觉场景标志训练数据进行视觉场景标志多尺度特征提取和融合，包括：

基于所述ResNet-50层与所述FPN结构层，获取多个特征图尺度；

基于所述检测层与所述多个特征图尺度，对所述视觉场景标志训练数据进行视觉场景标志多尺度特征提取和融合。

可选地，根据本申请实施例的一个视觉场景标志检测与识别方法，所述对所述视觉场景标志训练数据进行视觉场景标志特征提取，包括：

基于多个尺度的卷积核对所述视觉场景标志训练数据进行多种尺度的视觉场景标志特征提取。

可选地，根据本申请实施例的一个视觉场景标志检测与识别方法，所述注意力机制模块包括通道注意力单元和空间注意力单元；

所述对所述视觉场景标志训练数据进行视觉场景标志特征表示，包括：

通过所述通道注意力单元进行所述视觉场景标志的第一特征优化，得到第一优化特征表示；

基于第一优化特征表示，通过所述空间注意力单元进行所述视觉场景标志的第二特征优化，得到最优特征表示。

第二方面，本申请实施例还提供一种电子设备，包括：存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并实现如上所述第一方面所述的视觉场景标志检测与识别方法的步骤。

第三方面，本申请实施例提供一种视觉场景标志检测与识别装置，包括：

确定单元，用于通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据；

检测识别单元，用于基于多尺度特征融合网络模型，对所述视觉场景标志训练数据进行视觉场景标志的检测与识别；

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

第四方面，本申请实施例提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如上所述第一方面所述的视觉场景标志检测与识别方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述第一方面所述的视觉场景标志检测与识别方法的步骤。

本申请实施例提供的视觉场景标志检测与识别方法及装置，通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据，用于对视觉场景标志进行检测和识别。基于多尺度特征融合网络模型，对视觉场景标志训练数据进行视觉场景标志的检测与识别。通过将待识别视觉场景标志训练数据输入到多尺度特征融合模型中，能够准确的得到视觉场景标志的识别结果，提高视觉场景标志的检测速度。其中，多尺度特征融合网络模型基于以下步骤获得：构建多尺度特征融合网络模型，基于视觉场景标志合成数据对多尺度特征融合网络模型进行第一训练，得到第一训练后的多尺度特征融合网络模型，基于预先标注的视觉场景标志对第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的多尺度特征融合网络模型。经过对多尺度特征融合模型进行第一训练和第二训练，能够进一步的优化模型参数，实现快速鲁棒的视觉场景标志检测与识别。

附图说明

图1是本申请实施例提供的一种视觉场景标志检测与识别方法的流程示意图；

图2是本申请实施例提供的基于RetinaNet的多尺度特征融合网络示意图；

图3是本申请实施例提供的基于Inception的视觉场景标志特征优化示意图；

图4是本申请实施例提供的注意力机制模块运行流程示意图；

图5是本申请实施例提供的视觉场景标志检测与识别装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种视觉场景标志检测与识别方法的流程示意图，如图1所示，该视觉场景标志检测与识别方法可以包括如下步骤：

步骤101、通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据。

具体地，视觉场景标志可以是自然场景中包含的实体标志，如商标、交通标志等。视觉场景标志数量庞大、种类多样，人工标注数据比较昂贵。本申请实施例中的视觉场景标志训练数据中的目标识别类别可以指的是待识别视觉场景标志的类别，目标识别类别的视觉场景标志训练数据可以包括不同视觉场景标志类别的视觉场景标志形成的数据集合。并且，视觉场景标志训练数据是经过视觉场景标志合成算法确定后，目标识别类别的视觉场景标志训练数据可以满足大量数据训练的需求，并且用于视觉场景标志检测和识别的数据。通过确定视觉场景标志训练数据，可以进一步的进行数据训练和视觉场景标志的检测和识别。

步骤102、基于多尺度特征融合网络模型，对所述视觉场景标志训练数据进行视觉场景标志的检测与识别。

具体地，在确定视觉场景标志训练数据后，通过多尺度特征融合网络模型，对视觉场景标志进行检测与识别。其中，多尺度特征融合网络模型用于视觉场景标志检测与识别，可以基于以下步骤获得：

(1)构建多尺度特征融合网络模型，该模型用于对视觉场景标志训练数据进行视觉场景标志的检测与识别。

(2)基于视觉场景标志合成数据对所述多尺度特征融合网络模型进行第一训练，得到第一训练后的所述多尺度特征融合网络模型。其中，视觉场景标志合成数据的图像数量可以自主设定，在此不作具体限定，本申请实施例优选设置每类视觉场景标志合成数据为100张。

(3)基于预先标注的视觉场景标志对所述第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的所述多尺度特征融合网络模型。其中，预先标注的视觉场景标志可以是少量带有标注的视觉场景标志数据，用来训练和调整已经通过第一训练后的得到的多尺度特征融合网络模型。

由上述实施例可见，本申请实施例提供的视觉场景标志检测与识别方法及装置，通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据，用于对视觉场景标志进行检测和识别。基于多尺度特征融合网络模型，对视觉场景标志训练数据进行视觉场景标志的检测与识别。通过将视觉场景标志训练数据输入到多尺度特征融合模型中，能够准确的得到视觉场景标志的识别结果，提高视觉场景标志的检测速度。其中，多尺度特征融合网络模型基于以下步骤获得：构建多尺度特征融合网络模型，基于视觉场景标志合成数据对多尺度特征融合网络模型进行第一训练，得到第一训练后的多尺度特征融合网络模型，基于预先标注的视觉场景标志对第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的多尺度特征融合网络模型。经过对多尺度特征融合模型进行第一训练和第二训练，能够进一步的优化模型参数，实现快速鲁棒的视觉场景标志检测与识别。

可选地，所述通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据包括：

具体地，确定视觉场景标志训练数据可以包括如下步骤：

(1)获取初始标志图像，基于对所述初始标志图像的二值化处理过程，得到视觉场景标志训练数据的模板图像：

首先可以从网络搜集包含需要检测视觉场景标志的初始标志图像，优选通过大津法对初始标志图像进行二值化处理得到标志区域掩码图像，其中，大津法的计算公式可以包括：

g＝max[w₀(t)×(u₀(t)-u)²+w₁(t)×(u₁(t)-u)²]

其中，g表示前景(视觉场景标志)和背景的类间方差，w₀(t)表示属于前景的像素点数占整幅图像的比例，t表示前景和背景的分割阈值，u₀(t)表示前景的像素点数占整幅图像的比例的平均灰度，w₁(t)表示背景像素点数占整幅图像的比例，u₁(t)表示背景像素点数占整幅图像的比例的平均灰度，u代表图像中对应位置的灰度值。

本申请实施例优选大津法对初始标志图像进行二值化处理，此外还可以通过直方图方法、近似一维Means方法等对初始标志图像进行二值化处理，在此不作具体限定。

在得到标志区域掩码图像后，基于标志区域掩码图像和初始标志图像，将图像背景转化透明通道，获得视觉场景标志训练数据的模板图像，并且每张视觉场景标志训练数据对应一张模板图像。

(2)获取不含标志的背景图像，基于对所述背景图像的预处理过程，得到所述视觉场景标志训练数据的可合成区域：

首先获取FlickrLogos-32数据中的6000张不包含标志的图像作为合成算法的背景图像，其中，Flickrlogos-32数据可以是视觉场景标志公开数据，但只包括32类共2240张含有标注的图像，无法满足实际任务训练需求。不过，Flickrlogos-32数据中也包括6000张不含标志的背景图像，而且该背景图像符合视觉场景标志出现的场景，因此可以获取FlickrLogos-32数据中的6000张不包含标志的图像作为合成算法的背景图像。

为保证合成数据的有效性，需要尽量选取背景图像中较平滑区域，通过算法对背景图像进行预处理，从背景图像中选取可合成区域。

首先，通过边界全局率和超等高线图(Global Probability of Boundary andUltrametric Contour Map,gPb-UCM)图像分割模型对背景图像进行分割，得到背景图像中的分割图。此时输出单通道的背景图像，不同的分割图可以采用不同的数字进行填充，并通过以下步骤过滤其中不适合的合成区域，获得可合成候选区域：

A.对背景图像的分割图进行遍历，获取每个区域的最小外接矩形；

B.根据最小外接矩形的宽和高，过滤宽高过小、面积过小、宽高比过小的矩形区域。设定最小外接矩形的宽为w，高为h，宽w和高h的最小值为30像素；宽高比w/h的范围为0.3-0.7之间；设分割图的像素个数为I_n，I_n和最小外接矩形的面积比应当大于0.6。

其次，通过深度信息估计模型对背景图像进行深度估计，获取背景图像的深度图，深度图为单通道图像，通过深度图将合成候选区域转换为3-D视图，通过随机抽样一致算法(RANdom SAmple Consensus，RANSAC)拟合每个分割图的3-D平面，过滤拟合平面在z轴投射角度较小的候选区域，得到最终适合视觉场景标志的可合成区域。具体可以包括如下步骤：

A.将承载深度信息的灰度图转化为xyz三通道形式；

B.通过RANSAC算法估计每个分割图的拟合平面，平面函数如下列公式所示：

Mx+Ny+Pz+Q＝0

其中，x、y、z分别表示三维空间的x轴、y轴、z轴，M，N，P，Q分别为平面函数中对应的系数。

C.过滤拟合平面中P较小的分割图，即滤除其法向量在z轴投影较小的平面。此处P可以是预设的任意取值，本申请实施例可以选取该预设值的优化值为0.25。

(3)基于所述视觉场景标志训练数据的模板图像与所述视觉场景标志训练数据的可合成区域，确定所述视觉场景标志训练数据。

在得到视觉场景标志训练数据的可合成区域后，需要将视觉场景标志训练数据的模板图像变换到背景图像中，主要步骤如下：

A.获取每个可合成区域的轮廓坐标；

B.根据步骤(2)中拟合平面的法向量信息将对应轮廓坐标转为3-D形式，并将可合成区域进行旋转使其在视线正向区域；

C.将旋转后的区域平铺到平面上，即只保留其x轴和y轴的坐标信息；

D.获取平面的最小外包矩形，矩形可以是有角度的，并根据角度对平面区域进行旋转，使最终外包矩形角度为0；

E.根据变换前后分割图轮廓坐标的变化获得单应性变换矩阵H₀，其中，矩阵中h代表相应位置的变换系数：

F.利用单应性变换矩阵H₀将变换后的外包矩形坐标(l₁,r₁,r₂,l₂)扭曲到原图像中，得到原图像中区域的四点坐标(l′₁,r′₁,r′₂,l′₂)，其中，l₁,r₁,r₂,l₂分别代表矩形左上角、右上角、右下角、左下角的点坐标，以l₁(x₁,y₁)到l'₁(x'₁,y'₁)的变换为例，计算公式如下：

G.读取初始标志图像与其标志区域掩码图像，将尺度缩放为和背景图像可合成区域的外包矩形一致大小，并进行颜色抖动预处理：

首先将RGB图像转换为HSV图像，然后只改变色调hue的值，变换公式如下：

hue＝(hue+huec)％180

其中，huec为随机值，取值范围优选为5-30，在变换之后转化为RGB图像。

H.为使视觉场景标志合成效果更具有真实性和随机性，通过外包矩形四个点坐标和步骤F中获取的坐标(l'₁,r'₁,r'₂,l'₂)重新估计单应性变换矩阵H₁；

I.根据单应性变换矩阵H₁对初始标志图像与其标志区域掩码图像进行变换，并将变换后的图像根据掩码信息直接叠加到背景图像中，叠加方法如下所示：

其中，P(i,j)为背景图像的对应位置像素，A(i,j)为初始标志图像对应位置像素，Ms(i,j)为标志区域掩码图像对应位置像素。

在将初始标志图像变换到背景图像后可以直接得到标注框。

在合成时可以调整每张背景图像叠加初始标志图像的数量，本申请实施例优选设置每张背景图像最多叠加7个初始标志图像，即每张合成视觉场景标志最多含有7个目标。

由上述实施例可见，通过基于所述视觉场景标志训练数据的模板图像与所述视觉场景标志训练数据的可合成区域，确定所述视觉场景标志训练数据，能够进一步的对多尺度特征融合模型进行训练，从而对视觉场景标志训练数据进行检测和识别，提高视觉场景标志检测的精度。

可选地，所述多尺度特征融合网络模型包括RetinaNet、Inception-Logo与注意力机制模块；

具体地，多尺度特征融合网络模型包括RetinaNet、Inception-Logo与注意力机制模块，RetinaNet可以用于对视觉场景标志多尺度特征提取和融合，提高对尺度多变视觉场景标志的检测能力；在特征融合阶段，加入基于Inception-Logo对所述视觉场景标志训练数据进行视觉场景标志特征提取。同时，多尺度特征融合网络模型中使用注意力机制模块可以进一步细化视觉场景标志特征，提高特征表达能力。

由上述实施例可见，多尺度特征融合网络模型包括RetinaNet、Inception-Logo与注意力机制模块，能够优化视觉场景标志的特征提取和融合，同时提高视觉场景标志的表达能力。

可选地，所述RetinaNet包括ResNet-50层、特征金字塔网络(Feature PyramidNetworks，FPN)结构层以及检测层；

基于所述ResNet-50层与所述FPN结构层，获取多个特征图尺度；

具体地，如图2所示，确定视觉场景标志训练数据，在基于RetinaNet的多尺度特征融合网络中，RetinaNet包括ResNet-50层、FPN结构层以及检测层。

FPN结构层为自上而下top-down类型的金字塔特征融合层，可以利用高层语义信息，同时增加了特征映射的分辨率，能够有效应对小目标的检测。FPN结构层提取ResNet-50层中{C3、C4、C5}层，通过特征融合得到{P3、P4、P5}层特征。RetinaNet通过下采样C5层特征得到P6和P7层特征，并在{P3、P4、P5、P6、P7}层进行目标的检测，有效应对多尺度目标检测任务，但是P6层和P7层并没有参与后续特征融合。为充分利用语义信息提高特征表达能力，改进特征融合方法，将P5、P6层和P6、P7层特征分别融合得到P5'和P6'特征。P5层为经过Inception-Logo优化后的特征，在P5层特征下采样得到P6和P7层特征后，将P6层和P7层的特征分别和P5、P6层特征做融合得到P5'和P6'特征，融合前后的特征图尺度如下表1所示。网络最后的检测层在{P3、P4、P5'、P6'、P7}共五种尺度的特征图上做预测，其可以有效提高对不同尺度视觉场景标志的检测能力。

表1

卷积层	特征图尺度	卷积层	特征图尺度
				C3	75×75×512	P3	75×75×256
C4	38×38×1024	P4	38×38×256
				C5	19×19×2048	P5'	19×19×256
		P6'	10×10×256
						P7	5×5×256

不仅如此，本申请实施例中的预测层包括两个支路,分别生成目标候选框的类别和位置信息。假设在支路中生成的预测框总数为a，需要预测的类别数为c，全部的类别置信度的维度为a×c，位置偏移的维度为a×4。

在训练时使用的loss函数公式如下：

L＝L_cls+L_reg

其中，L_cls为类别损失函数，L_reg为回归损失函数。

L_cls使用Focal loos损失函数，具体计算方式如下：

L_cls＝-α_t(1-p_t)^γlog(p_t)

其中，P_t代表预测结果和真实标注的接近程度，α_t、γ为调制系数，优选的取值分别为0.25和2。

L_reg使用smooth L1损失函数，具体计算方式如下：

由上述实施例可见，通过RetinaNet能够优化视觉场景标志训练数据的特征提取，提高对不同尺度视觉场景标志训练数据的检测能力。

可选地，所述对所述视觉场景标志训练数据进行视觉场景标志特征提取，包括：

具体地，如图2所示，本申请实施例在C5层之后添加了Inception-Logo，用于对所述视觉场景标志训练数据进行视觉场景标志特征提取，具体描述如下：

如图2所示，本申请实施例的Inception-Logo输入特征Input为C5，维度为19×19×2048，输出为P5层。如图3所示，首先在B、C、D三条支路通过1×1卷积改变特征图通道个数为512，降低计算复杂度，但A支路是shortcut操作，其1×1卷积不改变特征通道数；接着C、D两条支路分别进行3×3和5×5的标准卷积，但是不改变特征图的尺度；然后分别对B、C、D三条支路进行可变形卷积提取特征，并使用concat操作合并特征图，接着使用1×1卷积将特征的通道数量重新变为2048；最后对A、E两条支路特征进行直接相加，并使用Relu激活函数进行激活，最终输出的特征尺度和输入尺度相同，为19×19×2048。

由上述实施例可见，通过将Inception-Logo添加至多尺度特征融合网络模型的高层，在不增加过多计算成本的情况下增强视觉场景标志特征的表达能力。对优化后的特征用于多尺度特征融合，优化融合效果，提升多尺度目标检测能力。Inception-Logo模块中包含可变形卷积，可以强化对变形视觉场景标志的建模能力。

可选地，所述注意力机制模块包括通道注意力单元和空间注意力单元；

具体地，如图2所示，本申请实施例在多尺度特征融合网络模型中添加卷积块注意力机制模块(Convolutional Block Attention Module,CBAM)，添加位置为P5'和P4之间，用于产生更具分辨性的特征表示，使高级语义信息和底层特征进行更有效的融合。CBAM可分为通道注意力单元和空间注意力单元。

如图4所示，通过所述通道注意力单元进行所述视觉场景标志的第一特征优化，得到第一优化特征表示。其中，通道注意力可以增加有效通道的权重，减少无效通道的权重。第一特征优化可以包括如下步骤：

通过全局平均池化(avg-pooling)和最大池化(max-pooling)两种方式来分别利用不同的信息。具体计算步骤如下：

A.输入一个H×W×C的特征F，H为输入特征高度，W为输入特征宽度，C为输入特征的通道数。对F分别进行全局平均池化和最大池化，然后通过两个卷积层提取特征，接着使用Sigmoid激活函数获得权重系数M_c(F)。

B.将权重系数M_c(F)和初始特征F相乘即可得到加权后的第一特征表示F'，计算公式如下：

基于第一优化特征表示，通过所述空间注意力单元进行所述视觉场景标志的第二特征优化，得到最优的所述特征表示。第二特征优化可以包括如下步骤：

A.将通道注意力单元输出的H×W×C的F’输入，H为输入特征高度，W为输入特征宽度，C为输入特征的通道数。并分别对F’进行通道维度的平均池化和最大池化，然后通过一个5×5的卷积层，并使用Sigmoid激活函数获得权重系数M_s(F')；

B.将权重系数M_s(F')和特征F'相乘即可得到加权后的最优的所述特征表示F”，计算公式如下：

最优的所述特征表示F”即为经过注意力机制模块后生成的具有分辩性的特征表示。

由上述实施例可见，通过注意力机制模块可以提高多尺度特征融合网络模型对视觉场景标志的关注度，抑制背景信息的干扰，有效提高标志检测的准确度。

图5是本申请实施例提供的视觉场景标志检测与识别装置的结构示意图，如图5所示，该视觉场景标志检测与识别装置包括：

确定模块51，用于通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据；

检测识别模块52，用于基于多尺度特征融合网络模型，对所述视觉场景标志训练数据进行视觉场景标志的检测与识别；

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6是本申请实施例提供的电子设备的结构示意图，该电子设备可以用于执行图1所示的视觉场景标志检测与识别方法，包括：

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

如图6所示，收发机600，用于在处理器610的控制下接收和发送数据。其中，在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器610代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机600可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器610负责管理总线架构和通常的处理，存储器620可以存储处理器610在执行操作时所使用的数据。

处理器610可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

另一方面，本申请实施例还提供一种处理器可读存储介质，处理器可读存储介质存储有计算机程序，计算机程序用于使处理器执行上述各实施例提供的方法，包括：

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

另一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述计算机程序产品在计算机上运行时，使得计算机执行上述方法的步骤，具体请详见上述方法实施例的内容，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程网络设备的处理器以产生一个机器，使得通过计算机或其他可编程网络设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程网络设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程网络设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视觉场景标志检测与识别方法，其特征在于，包括：

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

基于预先标注的视觉场景标志对所述第一训练后的多尺度特征融合网络模型进行第二训练，得到训练好的所述多尺度特征融合网络模型；

所述通过视觉场景标志合成算法确定目标识别类别的视觉场景标志训练数据包括：

基于所述视觉场景标志训练数据的模板图像与所述视觉场景标志训练数据的可合成区域，确定所述视觉场景标志训练数据；

所述基于所述视觉场景标志训练数据的模板图像与所述视觉场景标志训练数据的可合成区域，确定所述视觉场景标志训练数据包括：

在得到所述视觉场景标志训练数据的可合成区域后，将所述视觉场景标志训练数据的模板图像变换到背景图像中，所述变换的步骤包括：

A，获取每个可合成区域的轮廓坐标；

B，根据拟合平面的法向量信息将对应轮廓坐标转为3-D形式，并将可合成区域进行旋转使其在视线正向区域；

C，将旋转后的区域平铺到平面上，用于保留其x轴和y轴的坐标信息；

D，获取平面的最小外包矩形，并根据所述最小外包矩形的角度对平面区域进行旋转，使最终外包矩形角度为0；

E，根据变换前后分割图轮廓坐标的变化获得单应性变换矩阵H₀，其中，矩阵中h代表相应位置的变换系数：

F，利用所述单应性变换矩阵H₀将变换后的外包矩形坐标(l₁,r₁,r₂,l₂)扭曲到原图像中，得到原图像中区域的四点坐标(l′₁,r′₁,r′₂,l′₂)，其中，l₁,r₁,r₂,l₂分别代表矩形左上角、右上角、右下角、左下角的点坐标；

其中，l₁(x₁,y₁)到l′₁(x′₁,y′₁)的变换的计算公式如下：

G，读取初始标志图像与其标志区域掩码图像，将尺度缩放为和背景图像可合成区域的外包矩形一致大小，并进行颜色抖动预处理，所述预处理的步骤包括：

将RGB图像转换为HSV图像，并改变色调hue的值，变换公式如下：

hue＝(hue+huec)％180；

其中，huec为随机值，取值范围为5-30，在变换之后转化为RGB图像；

H，通过外包矩形四个点坐标和坐标(l′₁,r′₁,r′₂,l′₂)重新估计单应性变换矩阵H₁；

I，根据单应性变换矩阵H₁对初始标志图像与其标志区域掩码图像进行变换，并将变换后的图像根据掩码信息叠加到背景图像中，所述叠加的计算公式如下所示：

其中，P(i,j)为背景图像的对应位置像素，A(i,j)为初始标志图像对应位置像素，Ms(i,j)为标志区域掩码图像对应位置像素；

在将初始标志图像变换到背景图像后，得到标注框；

在合成时调整每张背景图像叠加初始标志图像的数量，并设置每张背景图像最多叠加7个初始标志图像，相应地，每张合成视觉场景标志最多含有7个目标。

2.根据权利要求1所述的视觉场景标志检测与识别方法，其特征在于，所述多尺度特征融合网络模型包括视网膜网络模块RetinaNet、多尺度视觉场景标志特征优化模块Inception-Logo与注意力机制模块；

3.根据权利要求2所述的视觉场景标志检测与识别方法，其特征在于，所述RetinaNet包括特征提取网络ResNet-50层、特征金字塔网络FPN结构层以及检测层；

基于所述ResNet-50层与所述FPN结构层，获取多个特征图尺度；

4.根据权利要求2所述的视觉场景标志检测与识别方法，其特征在于，所述对所述视觉场景标志训练数据进行视觉场景标志特征提取，包括：

5.根据权利要求2所述的视觉场景标志检测与识别方法，其特征在于，所述注意力机制模块包括通道注意力单元和空间注意力单元；

6.一种电子设备，其特征在于，所述电子设备包括：存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

A，获取每个可合成区域的轮廓坐标；

hue＝(hue+huec)％180；

在将初始标志图像变换到背景图像后，得到标注框；

7.一种视觉场景标志检测与识别装置，其特征在于，所述装置用于实施如权利要求1-5任一所述的一种视觉场景标志检测与识别方法，所述装置包括：

其中，所述多尺度特征融合网络模型基于以下步骤获得：

构建多尺度特征融合网络模型；

8.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至5任一项所述的视觉场景标志检测与识别方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述视觉场景标志检测与识别方法的步骤。