CN113076972A

CN113076972A - 一种基于深度学习的两阶段Logo图像检测方法及***

Info

Publication number: CN113076972A
Application number: CN202110240268.2A
Authority: CN
Inventors: 侯素娟; 侯强; 孟晔; 王静; 贾伟宽; 郑元杰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-07-06
Also published as: ZA202202140B

Abstract

本公开公开的一种基于深度学习的两阶段Logo图像检测方法及***，包括：获取待识别的Logo图像；将待识别的Logo图像输入训练好的图像检测模型中，获取图像识别结果；其中，图像检测模型包括特征提取网络、全连接网络和卷积网络，特征提取网络的输出分别输入全连接网络和卷积网络中，进行图像检测。实现了对Logo图像的准确识别。

Description

一种基于深度学习的两阶段Logo图像检测方法及***

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于深度学习的两阶段Logo图像检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网广告的不断增加，虚假广告和违规广告等情况也愈演愈烈，商标的盗用、篡改、侵权等事件时有发生。为了保障互联网市场经济的健康快速发展以及维护广大人民群众的合法权益，更重要的是要在技术上进行严格的把关，对图像中的商标进行检测与识别已经成为人们迫切的需求。通过商标的自动检测技术可以快速准确识别商家上架的商品商标，判断其是否属于违规商品品牌。利用商标的检测技术可以通过检测互联网上的图像，通过结果分析某类品牌的关注度，以及在哪些场景下更加适用，从而给出特定的发展方向。一方面，商标检测可以通过分析结果给出商家进行后续营销的策略，如互联网广告投放等。另一方面，商标检测可以定向分析用户的品牌偏好，并对用户进行个性化推荐。研究如何对互联网图片中商标的有效、质量、快速检测是具有非常重要的应用价值。

目前目标检测领域的深度学习方法主要分为两大类：两阶段方法和一阶段方法。两阶段方法：首先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行目标分类和目标回归。常见的算法有R-CNN、Fast R-CNN和Faster R-CNN等，它们的特点是准确度高但速度较慢。一阶段方法：不需要产生候选框，直接将目标框定位的问题转化为回归问题处理，常见的算法有YOLO和SSD等，它们的特点是速度快但准确度不高。对于Logo图像检测而言，存在类别多、数量大、目标较小、形变大、多尺度等特点，使得采用现有的两阶段方法或一阶段方法对Logo图像进行识别时，识别准确率较低。

发明内容

本公开为了解决上述问题，提出了一种基于深度学习的两阶段Logo图像检测方法及***，实现了对Logo图像的准确识别。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于深度学习的两阶段Logo图像检测方法，包括：

获取待识别的Logo图像；

将待识别的Logo图像输入训练好的图像检测模型中，获取图像识别结果；

其中，图像检测模型包括特征提取网络、全连接网络和卷积网络，特征提取网络的输出分别输入全连接网络和卷积网络中，进行图像检测。

第二方面，提出了一种基于深度学习的两阶段Logo图像检测***，包括：

图像获取模块，用于获取待识别的Logo图像；

图像识别模块，用于将待识别的Logo图像输入训练好的图像检测模型中，获取图像识别结果；

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于深度学习的两阶段Logo图像检测方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于深度学习的两阶段Logo图像检测方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开通过利用两个不同的分支生成类别置信度和边框偏移量，全连接网络可以更好的对logo进行分类，而卷积网络可以更好的对logo边界框进行回归，使得检测结果更加准确，尤其是对多类别的预测。

2、本公开通过使用FPN网络和BFP网络相结合的方式来融合增强特征图，使得检测结果更加准确，尤其是对一部分小logo图像而言，可以在小logo检测的基线上获得显著的性能提升。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开方法的流程图；

图2为本公开实施例1公开方法中网络爬虫的具体流程图；

图3为本公开实施例1公开的Logo数据样本示例图；

图4为本公开实施例1公开的Logo检测的框架图；

图5为本公开实施例1公开的特征的提取、融合及增强流程图；

图6为本公开实施例1公开的高斯非局部注意力机制示意图；

图7为本公开实施例1构建模型的测试结果示例图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

为了实现对Logo图像的准确识别，在该实施例中，公开了一种基于深度学习的两阶段Logo图像检测方法，包括：

获取待识别的Logo图像；

进一步的，特征提取网络通过骨干网络进行特征提取，采用特征金字塔网络对提取的特征进行融合，输出特征图，将特征图使用平衡的特征金字塔进行特征增强，获得增强特征图，将增强特征图输入区域生成网络中，输出增强特征图的感兴趣区域。

进一步的，在平衡的特征金字塔中引入高斯非局部注意力机制。

进一步的，选用残差网络作为特征提取网络的骨干网络。

进一步的，通过全连接网络来检测图像的种类；通过卷积网络对图像进行位置定位。

进一步的，获取Logo图片，对Logo图片中的Logo进行标注，构建数据集；

对数据集进行训练集、验证集和测试集的划分；

通过划分后的数据集对图像检测模型进行训练，获得训练好的图像检测模型。

进一步的，通过网络爬虫技术获取Logo图片；

对获取的Logo图片进行清理；

对清理后的Logo图片进行Logo标注。

结合图1-7对本实施例公开的一种基于深度学习的两阶段Logo图像检测方法进行详细说明。

如图1所示，包括：

S1：获取待识别的Logo图像。

S2：将待识别的Logo图像输入训练好的图像检测模型中，获取图像识别结果。

在具体实施时，通过以下步骤获取训练好的图像检测模型。

S21：获取Logo图像，构建数据集，具体为：

在***上查找比较贴近生活的Logo品牌列表，然后通过网络爬虫技术从Baidu，Bing，Google三大网站上进行图片爬取，为了更加贴近生活，使用类别+关键词的方式进行爬取，如食品+可口可乐，如图2为网络爬虫技术的具体流程。

对爬取到的图片进行清理，清理与当前类别完全无关的图片。

然后使用LabelImg图像标注软件对清理完成的图片进行Logo标注工作，生成符合pascal VOC格式的xml文件，如图3所示用外接矩形贴近Logo目标的边缘进行标注，按照VOC的数据集的格式生成标注文件，方便后续生成模型的训练目标。

按照训练集:验证集:测试集＝7:2:1的比例来对数据集进行划分。

S22：构建图像检测模型，图像检测模型的结构如图4所示，包括特征提取网络、全连接网络和卷积网络，其中，通过特征提取网络输出感兴趣区域，将感兴趣区域分别输入全连接网络和卷积网络中，通过全连接网络来检测图像的种类，通过卷积网络对图像进行位置定位。

其中，特征提取网络通过残差网络(ResNet-101)作为骨干网络进行特征提取，并采用特征金字塔网络(Feature Pyramid Networks，FPN)以自上而下和横向连接的方式对提取到的特征进行融合，获得特征图，随后在FPN网络的输出特征图的基础上使用平衡的特征金字塔(Balanced Feature Pyramid，BFP)对特征进行增强，增强原特征，得到增强特征图。

将增强特征图输入到区域生成网络(Region Proposal Network，RPN)，然后通过soft max函数来判定预先在输入图片上定义的锚框是正样本还是负样本，经过筛选得到正样本候选框。再进一步通过边界框回归对正样本候选框进行修正，在增强特征图上生成感兴趣区域(Region of Interest，ROI)，并通过ROI Align方法使得不同的区域采样至相同的尺寸大小。

对构建的图像检测模型进行详细说明，其中，特征的提取、融合及增强流程如图5所示。

(1)ResNet-101特征提取

通过残差网络(ResNet-101)作为骨干网络进行特征提取，残差网络在一定程度上可以缓解梯度弥散问题，使得信息前后向传播更加顺畅，通过卷积、池化、残差连接等操作丰富图像的语义信息，得到的特征图表示为{F₂,F₃,F₄,F₅}。

(2)FPN特征融合

因为ResNet是经过不断地下采样操作以得到多样的特征图，所以对于小目标来说，经过不断的下采样操作以后，信息就会逐渐的减少甚至消失。即F5虽然包含了丰富的语义信息，但是并不适合用来对小目标做检测。因此将特征图{F₂,F₃,F₄,F₅}通过FPN网络即自上而下和横向连接的方式进行融合，从而得到特征金字塔，将特征金字塔的各层特征图表示为{B₂,B₃,B₄,B₅}。这样特征金字塔的每一层都包含了丰富的语义信息和位置信息。

(3)BFP特征增强

为了更进一步的对各层特征图进行信息融合，使用BFP网络来对特征金字塔的每一层特征图进行增强操作。

将特征图{B₂,B₃,B₄,B₅}通过插值或池化的方式，将各层特征图统一调整为B4大小及维度进行融合，得到融合后的特征图为B，其中B_l表示第l层特征，L表示参与计算的特征的个数。如公式(1)所示：

得到B后，将其输送到高斯非局部注意力机制中，对于最终输出的增强特征图Y，其在每一个空间位置Yi均可表示为：

B_i代表输入图像的各个像素点位置，f用来计算B_i与B_j像素点之间的相关性，在此处使用嵌入式高斯的方式进行计算。如图6所示，FPN网络融合得到的特征图B依次经过三个1×1的卷积，其中θ(B_i)＝W_θB_i与φ(B_j)＝W_φB_j是两个嵌入层，g(B_j)＝W_gB_j为一个线性转化，最终均通过C(x)归一化操作来实现。

相应操作如图6所示，经过3个1×1的卷积分别得到了3个不同的特征{R,S,T}，再将S的转置与R相乘，得到一个自相关特征f，f的作用为计算出特征中的自相关性，即得到每个像素对其他所有像素的关系。然后对自相关特征进行Soft max操作，得到一个0～1的权重。紧接着将该权重与特征T相乘，最后与原输入特征图B做残差计算，获得输出增强特征图Y。

由上述可以得出，增强特征图Y融合了全图的特征信息，接着对Y重新采样并分别与{B₂,B₃,B₄,B₅}融合，得到最后的特征金字塔{P₂,P₃,P₄,P₅}。

(4)生成感兴趣区域

使用RPN网络来生成感兴趣区域，把经过融合和精炼的特征图{P₂,P₃,P₄,P₅}作为RPN网络的输入，然后经过滑动窗口(即3×3的卷积层)，在滑动窗口的每个像素点对应的原图上设置9个锚框，并将其输入到两个1×1的卷积中进行分类和回归，最后通过Soft NMS剔除掉无用信息得到最优的候选框，再通过一定的比例投影到特征图中，其最终结果就是在特征图上产生多个候选框，即感兴趣区域，再输入到ROI Align中进行裁剪到相同的尺寸。

(5)分类和回归分支

图像中一些突出区域的特征可能具有丰富的分类信息，而边界周围的特征可能擅长边界回归，因此如图4所示，分类和回归可以看作是两个不同的任务，可以使用不同的方法来进行预测。分为两个分支，两个分值的输入均为增强特征图的感兴趣区域，其中一支用FC(全连接层)用来预测logo的类别置信度，另一支用CONV(卷积层)用来预测边框的偏移量，目的是获得更准确的矩形框。

S23：通过获取的数据集对构建的图像检测模型进行训练，获得训练好的图像检测模型。

使用迁移学习的方法，ResNet-101在ImageNet训练得到的模型作为本方法的预训练模型。使用的数据集为LogoDet-1000，其中包括53049张训练集图片，22736张验证集图片，9559张测试集图片。调整初始学习率为0.0025，使用训练集进行训练，不断计算模型预测值与训练目标之间的损失，使之达到最优的网络模型，应用测试集对上述最优网络模型进行测试，测试结果为矩形框标出每个logo所在的位置以及判定是否为当前类别的得分。

整个模型的损失函数由两部分组成，分别由RPN与结果预测阶段产生，如公式(4)所示：

L＝L_rpn+L_fc+L_conv (4)

其中L_rpn是由RPN阶段产生的，L_fc和L_conv则是由模型的两个头部分支包括卷积层的头部和全连接层的头部产生的。

训练完成以后，得到最优的网络模型，开始进行测试，测试结果如图7所示，为矩形框标出每个logo所在的位置以及判定是否为当前类别的得分。

S24：将待识别的Logo图像输入训练好的图像检测模型中，获取图像识别结果。

本发明充分考虑了logo图像的种类多、数量多的特点，重新考虑了图像定位与图像分类的不同，采用卷积头部来预测logo图像的定位，采用全连接头部来预测logo图像的类别。并且采用改进的BFP(平衡的特征特征金字塔)模块来加强传统的FPN(特征金字塔模块)，更加有效地整合利用多尺度特征。综合起来，本发明可以比较精准的实现对Logo图像的检测，从而获得比较高的识别结果。

实施例2

在该实施例中，公开了一种基于深度学习的两阶段Logo图像检测***，包括：

图像获取模块，用于获取待识别的Logo图像；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于深度学习的两阶段Logo图像检测方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于深度学习的两阶段Logo图像检测方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的两阶段Logo图像检测方法，其特征在于，包括：

获取待识别的Logo图像；

2.如权利要求1所述的基于深度学***衡的特征金字塔进行特征增强，获得增强特征图，将增强特征图输入区域生成网络中，输出增强特征图的感兴趣区域。

3.如权利要求2所述的基于深度学***衡的特征金字塔中引入高斯非局部注意力机制。

4.如权利要求2所述的基于深度学习的两阶段Logo图像检测方法，其特征在于，选用残差网络作为特征提取网络的骨干网络。

5.如权利要求1所述的基于深度学习的两阶段Logo图像检测方法，其特征在于，通过全连接网络来检测图像的种类；通过卷积网络对图像进行位置定位。

6.如权利要求1所述的基于深度学习的两阶段Logo图像检测方法，其特征在于，获取Logo图片，对Logo图片中的Logo进行标注，构建数据集；

对数据集进行训练集、验证集和测试集的划分；

7.如权利要求6所述的基于深度学习的两阶段Logo图像检测方法，其特征在于，通过网络爬虫技术获取Logo图片；

对获取的Logo图片进行清理；

对清理后的Logo图片进行Logo标注。

8.一种基于深度学习的两阶段Logo图像检测***，其特征在于，包括：

图像获取模块，用于获取待识别的Logo图像；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于深度学习的两阶段Logo图像检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于深度学习的两阶段Logo图像检测方法的步骤。