CN113591850A

CN113591850A - 基于计算机视觉鲁棒性目标检测的两阶段商标检测法

Info

Publication number: CN113591850A
Application number: CN202110895858.9A
Authority: CN
Inventors: 钟必能; 孙岩坤; 梁启花; 李先贤
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02

Abstract

本发明公开了一种基于计算机视觉鲁棒性目标检测的两阶段商标检测法，其特征在于，包括训练流程和测试流程。这种方法在数据增强和在线困难样本挖掘的作用下，能有效地处理数据各类干扰以及数据样本分布不均匀的情况，从而使该方法能提高实际商标识别的鲁棒性和精度。

Description

基于计算机视觉鲁棒性目标检测的两阶段商标检测法

技术领域

本发明涉及信息技术领域中的计算机视觉和模式识别技术，具体是一种基于计算机视觉鲁棒性目标检测的两阶段商标检测法。

背景技术

电商领域已经涉及到人们生活的方方面面，为了方便用户的购物时对某产品下的商品进行正确的选择，避免假冒伪劣品牌。需要在不同产品的情况下识别商品的商标品牌，但是人工肉眼的筛查和选择非常费时费力。除此之外，需要对多个商标品牌有认知且不能出错，这样的工作交由人工处理不太现实。同时随着应用需求增长，互联网行业下“网红”品牌和新商业品牌的扩增。用户需要在第一时间知道购买商品的所属信息。因此，将商品商标识别带入智能化是一个高频需求，基于平台自身来调用摄像头扫描接口来对不同的商品商标图片进行有效的识别是非常方便可靠的途径。尽管不少专家学者在目标检测算法方面做出了很多研究和贡献，相关领域也取得了长足的进步。但是在实际应用实现的工业化的道路上还存在很多的因素挑战；如现实中存在干扰物，光照以及遮挡问题。同时，数据分布不均与，得到的图片数据收到拉升收缩以及RGB干扰等因素。目前的视觉目标检测在工业化实现过程中仍是任重而道远。

发明内容

本发明的目的是针对是针对现有技术的不足，而提供一种基于计算机视觉鲁棒性目标检测的两阶段商标检测法。在数据增强和在线困难样本挖掘的作用下，能有效地处理数据各类干扰以及数据样本分布不均匀的情况，从而使该方法能提高实际商标识别的鲁棒性和精度。

实现本发明目的的技术方案是：

一种基于计算机视觉鲁棒性目标检测的两阶段商标检测法，包括训练流程和测试流程，其中训练流程包括如下步骤：

1-1)建立真实的商标数据集：商标种类多达500多类，每一类商标都会在不同的商品中出现，对每张商标图片采用不同角度进行采集，同时，训练数据是被标注的，标注主要包括目标序号、目标的矩形框和目标的类别，对不同的图片和不同的商标类别有着不同的序号，同时给定商标的具***置，训练的数据分为训练集和测试集，其中，测试集的类别与训练集中的相同，测试的中的部分商标实例数据进行高斯模糊、图片拉伸缩放和RGB色域变化干扰；

1-2)训练商标识别器：首先在多数的实际商品中定位并识别商标，同时对实例图片进行旋转、裁剪、高斯变换处理，两阶段检测器采用RPN结构(region of proposalNetwork，简称RPN)会根据前景背景分数预先生成12000个候选框，经过NMS(非极大值抑制算法)来选出2000个框，这2000个候选区域框是由RoI Pooling层(region of interestpooling选择区域池化层)得到的特征图，再通过候选框的回归来来预测目标的位置和类别，鲁棒性检测模型以Faster-rcnn为基准模型进行训练，鲁棒性训练样本从步骤1-1)中会根据一个相对路径来得到数据集图片和标注的存放位置，同时；训练过程中目标选择框的长宽以图片自身的长宽为参考系，训练时，目标长宽和目标类别都会用来拟合检测对象，训练时每次输入8个批次的图片，每训练一轮即一个epoch约75000张图片，将图片的长边缩放为1333个像素、短边缩放为800个像素，将处理好的图片输送到主干网的卷积网络中提取特征，再通过RPN网络来区分正复样本，由ROI池化层从给出的选择区域中找到选择区域对应的局部特征。最后输出目标的预测框和目标类别，其中目标边界框包括目标的坐标位置(x,y)、边界框的宽w和高h，同过这四个参数确定一个完整的边界框，再由预测值和真实值进行损失函数的计算，分类的损失函数为交叉熵，回归损失函数Lreg的计算公式如公式(1)所下所示：

其中公式1表示Lreg的数学计算方法。整体的损失函数计算如下：

公式(2)中i是每个批次读入数据的索引，pi是模型分类是预测的概率框，

在数据真实标签为正样本时是1，负样本时是0，ti表示回归分支的预测框，

表示和正样本相关的真实标签边界框；

1-3)商标检测模型的全方位训练：对于每张检测图片做数据增强的同时将每张检测图片调整成800*1333个像素相同尺寸，并且采用高亮和像素干扰方式训练原图片来应对测试集中出现的像素干扰以及图片模糊情况，将处理好的图片送入主干卷积的分类网络和多尺度特征提取网络，其中，网络结构定义为：

首先采用的是深度为101的主干网卷积部分，第一部分主干网的卷积模块是大小为7*7且通道数为64，输出的特征图的大小为112*112，第二部分卷积网络为多尺度特征模块，经过下采样；通过3*3的最大池化层将特征变为54*54的大小，最后从主干网络中拿到四个不同尺度的输出C2—C5，以resnet101作为主干网，分别得到通道数为256、512、1024、2048，这里先用一个1*1的卷积将输出的特征通道数压缩到256，得到P2—P5再采用上采样，保证特征图的大小维度相同时，将深层特征和浅层特征相加，

所述的多尺度特征网络结构，包括顺序输入的3*3和通道为256的特征卷积层。这一步骤使相加的特征进一步融合，在P5中做最大池化的下采样得到P6。如图4所示。通过多尺度特征融合卷积层后会得到五个尺度的特征，即P2—P6且每个特征的通道数都为256，因此这里采用相同的头部进行预测。所有的上述分类和检测网络包括顺序的连接的最大池化层、随机失活层、全连接层256*1024，其中256是输入通道数，1024是全连接的输出通道数，全连接层之后是分类分支和回归分支。分类分支采用softmax激活函数对正负样本区分，

所述的分类网络中，商标检测中的分类头预定义515种类别进行分类，模型训练时会将数据集的真实标注以字典的形式读入；其中分类分支输出的是一个1*n的分量，n是类别数，这个向量表示的含义是对应每个类别分类模型给出的预测分数值，预测分数最高的那个类别为分类模型预测的分类结果，将分类模型的输出和真实形状值进行比较，并采用交叉熵损失函数来进行优化预测，直到交叉熵损失函数收敛，

1-4)训练区域提案网络：区域提案网络为RPN结构，训练区域提案网络分为两个流程：计算损失和候选区域，RPN需要训练候选、最正负样本计算损失，同时还需要进行区域推荐，训练类别损失时需要进行反向传播，生成候选区域和推荐区域时则不需要，从数据角度来看，处理过后的图片会生成每个框的置信度和偏置量，采用锚框编码和真实标签编码计算损失，另一流程是采用锚框解码得到候选框，将候选框传递给区域推荐模块头部；

1-5)训练过程中在线困难样本挖掘：在实际场景中，数据的类别和每个类别的数量并不是均匀分布的，如果多数的训练样本会被某几类的商标图案所囊括，则模型训练时会更多关注数量较多的类别，因此，把卷积网络得到的特征图和区域提案部分输入到区域提案ROI网络中并计算损失，然后选择b/n个区域提案框，再采用非极大值抑制算法把损失按高到低排序，然后选择最高的损失，并计算其他区域提案框当前这个区域提案框的交并比IoU，移除IoU大于一定阈值的区域提案ROI，然后反复上述流程直到选择了b/n个ROIs，其中IoU的计算公式如公式(3)所示：

其中，A为数据集中的真实标注区域，B是算法模型预测区域；

测试流程包括如下步骤：

2-1)将所有种类的商标数据进行一次注册，得到一个列表。测试时会根据列表中的每个商标名对应一个商标id，测试时会将商标的数据部分图形逐步进行上采样，得到商标的形状与颜色特征，来判断商标所属的类别id，两阶段的区域提案结构在做种测试时可以从等多个候选框中排除一些不必要干扰因素(如在测试商品图片中出现其他的广告或者其他一些未注册的商标数据，这些情况为测试中的“干扰物”情况)。对不同候选框会有不同的置信度分数，选取最高的分数作为样本分类；

2-2)商标定位与数据收集：所有训练数据有准确标注，即目标的真实边界框和类别I，I∈(0，I_N)，I_N表示类别总数，并且数据源于淘宝电商平台的真实店铺数据，所有的原始训练数据图片均为800*800个像素，采用平视正向前的角度采样得到图片，商标和商标旗下的产品同时出现，且相同的商标会出现在不同产品的图形中，输入进模型后对图片进行裁剪和光照变化处理后来进行下面的测试流程；

2-3)预测商标类别：在商标图形中，将处理后的图片送入模型分类分支得到类别的序号进而得到具体类别；

2-4)预测商标位置：训练时，将训练数据的图片大小以及角点的坐标来转换为检测目标的长宽，在最终测试时，先生成2000个预测锚框，检测后进行非极大值抑制即去除分数预测框重合度超出阈值的预测框，再根据步骤2-3)得到最总检测结果，最后生成的结果文件保存格式为[x,y,w,h,category_id]。

本技术方案利用检测加重在线困难样本挖掘的策略来进行鲁棒性的商标检测的问题；结合数据增强处理以及困难样本多次识别中来提高识别精度和鲁棒性；建立商标识别的数据集用以支持商标检测和商标商品识别。

本技术方案利用检测加重在线困难样本挖掘的策略来进行商标商品识别，实现了一种能在数据分布均匀和各类相似物以及光照影响下的鲁棒性两阶段检测。

这种方法可以提高实际商标的鲁棒性和精度，该方法是基于两阶段算法检测的基础上扩展了数据增强和在线困难样本挖掘的方法。

附图说明

图1为实施例中结合困难样本挖掘的网络结构示意图；

图2为实施例中建立的数据集的标注样本图；

图3为实施例中发明的训练和测试流程图；

图4为实施例中多尺度特征结构具体流程图；

图5为实施例中分类和回归预测结构具体流程图；

图6为实施例中复杂场景下检测出结果示意图；

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1、图3、图5，一种基于视觉检测的多源两阶段商标识别方法，包括训练流程和测试流程，其中训练流程包括如下步骤：

1-1)建立真实的商标数据集：商标种类多达500多类，每一类商标都会在不同的商品中出现，对每张商标图片采用不同角度进行采集，练数据是被标注的，标注包括目标序号、目标的矩形框和目标的类别，对不同的图片和不同的商标类别有着不同的序号，同时给定商标的具***置，训练的数据分为训练集和测试集，其中，测试集的类别与训练集中的相同，测试的中的部分商标实例数据进行高斯模糊、图片拉伸缩放和RGB色域变化干扰，数据集的具体标注如图2所示；

1-2)训练商标识别器：首先在多数的实际商品中定位并识别商标，同时对实例图片进行旋转、裁剪、高斯变换处理，两阶段检测器采用RPN结构会根据前景背景分数预先生成12000个候选框，经过非极大值抑制算法NMS来选出2000个框，这2000个候选区域框是由选择区域池化层RoI Pooling层即region of interest pooling层得到的特征图，再通过候选框的回归来来预测目标的位置和类别，鲁棒性检测模型以Faster-rcnn为基准模型进行训练，鲁棒性训练样本从步骤1-1)中会根据一个相对路径来得到数据集图片和标注的存放位置，同时，训练过程中目标选择框的长宽以图片自身的长宽为参考系，训练时，目标长宽和目标类别都会用来拟合检测对象，训练时每次输入8个批次的图片，每训练一轮即一个epoch约75000张图片，将图片的长边缩放为1333个像素、短边缩放为800个像素，将处理好的图片输送到主干网的卷积网络中提取特征，再通过RPN网络来区分正复样本，由ROI池化层从给出的选择区域中找到选择区域对应的局部特征，最后输出目标的预测框和目标类别，其中目标边界框包括目标的坐标位置(x,y)、边界框的宽w和高h，同过这四个参数确定一个完整的边界框，再由预测值和真实值进行损失函数的计算，分类的损失函数为交叉熵，回归损失函数L_reg的计算公式如公式(1)所下所示：

其中公式(1)表示L_reg的数学计算方法，计算整体回归框的损失函数计算如公式(2)所示：

其中i是每个批次读入数据的索引，p_i是模型分类是预测的概率框，

在数据真实标签为正样本时是1，负样本时是0，t_i表示回归分支的预测框，

表示和正样本相关的真实标签边界框；

1-3)商标检测模型的全方位训练：对于每张检测图片做数据增强的同时将每张检测图片调整成800*1333个像素相同尺寸，并且采用高亮和像素干扰方式训练原图片来应对测试集中出现的像素干扰以及图片模糊情况，将处理好的图片送入主干卷积的分类网络和多尺度特征提取网络，其中，网络结构的分类与回归图如图5所示，网络结构定义为：

首先采用的是深度为101的主干网卷积部分，第一部分主干网的卷积模块是大小为7*7且通道数为64，输出的特征图的大小为112*112，然后经过下采样，通过3*3的最大池化层将特征图变为54*54的大小，最后从主干网络中拿到四个不同尺度的输出C2—C5，以resnet101作为主干网，分别得到通道数为256、512、1024、2048，先用一个1*1的卷积将输出的特征通道数压缩到256，得到P2—P5再采用上采样，特征图的大小维度相同时，将深层特征和浅层特征相加；

第二部分卷积网络是多尺度特征网络结构，包括顺序输入的3*3和通道为256的特征卷积层，使相加的特征进一步融合，在P5中做最大池化的下采样得到P6，如图4所示，通过多尺度特征融合卷积层后得到五个尺度的特征，即P2—P6且每个特征的通道数都为256，采用相同的头部进行预测，所有的主干卷积网络和多尺度特征检测网络包括顺序的连接的最大池化层、随机失活层、全连接层256*1024，其中256是输入通道数，1024是全连接的输出通道数，全连接层之后是分类分支和回归分支，分类分支采用softmax激活函数对正负样本区分；

分类任务中，商标检测中的分类头预定义515种类别进行分类，模型训练时将数据集的真实标注以字典的形式读入，其中分类分支输出的是一个1*n的分量，n是类别数，这个向量表示的含义是对应每个类别分类模型给出的预测分数值，预测分数最高的那个类别为分类模型预测的分类结果，将分类模型的输出和真实形状值进行比较，并采用交叉熵损失函数来进行优化预测，直到交叉熵损失函数收敛；

1-4)训练区域提案网络：区域提案网络为RPN结构，训练区域提案网络分为两个流程：计算损失和候选区域，RPN需要训练候选、最正负样本计算损失，同时还需要进行区域推荐，训练类别损失时需要进行反向传播，生成候选区域和推荐区域时则不需要，从数据角度来看，处理过后的图片会生成每个框的置信度和偏置量，采用锚框编码和真实标签编码计算损失，采用锚框解码得到候选框，将候选框传递给区域推荐模块头部；

其中，A为数据集中的真实标注区域，B是算法模型预测区域，本例阈值为0.7.

测试流程包括如下步骤：

2-1)商标数据注册：将所有种类的商标数据进行一次注册，首先根据全放方位的检测器检出一个大致的商标位置，将商标的数据部分图形逐步进行上采样，得到商标的形状与颜色特征，两阶段的区域提案结构可以从等多个候选框中排除一些不必要干扰因素(如在商品图片中出现其他的广告或者其他一些未注册的商标数据)，对不同候选框会有不同的置信度分数，选取最高的分数作为样本分类；

2-2)商标定位与数据收集：所有训练数据有准确标注，即目标的真实边界框和类别I，I∈(0，I_N)，I_N表示类别总数，并且数据源于淘宝电商平台的真实店铺数据，所有的原始训练数据图片均为800*800个像素，采用平视正向前的角度采样得到图片，商标都会和商标旗下的产品同时出现，且相同的商标会出现在不同产品的图形中，输入进模型后对图片进行裁剪和光照变化处理；

2-4)预测商标位置：训练时，将训练数据的图片大小以及角点的坐标来转换为检测目标的长宽，在最终测试时，先生成2000个预测锚框，检测后进行非极大值抑制即去除分数预测框重合度超出阈值0.7的预测框，再根据步骤2-3)得到最总检测结果，最后生成的结果文件保存格式为[x,y,w,h,category_id]。

本例可视化结果如图6所示，其中，图6中第一幅图表示在其它商标干扰的情况下做出的检测、第二幅图表示采用本例方法的对目标场景检测结果。

Claims

1.一种基于计算机视觉鲁棒性目标检测的两阶段商标检测法，其特征在于，包括训练流程和测试流程，其中训练流程包括如下步骤：

1-1)建立真实的商标数据集：对每张商标图片采用不同角度进行采集，练数据是被标注的，标注包括目标序号、目标的矩形框和目标的类别，对不同的图片和不同的商标类别有着不同的序号，同时给定商标的具***置，练的数据分为训练集和测试集，其中，测试集的类别与训练集中的相同，测试的中的部分商标实例数据进行高斯模糊、图片拉伸缩放和RGB色域变化干扰；

1-2)训练商标识别器：首先在多数的实际商品中定位并识别商标，同时对实例图片进行旋转、裁剪、高斯变换处理，两阶段检测器采用RPN结构根据前景背景分数预先生成12000个候选框，经过非极大值抑制算法NMS来选出2000个框，这2000个候选区域框是由选择区域池化层RoI Pooling层即region of interest pooling层得到的特征图，再通过候选框的回归来来预测目标的位置和类别，鲁棒性检测模型以Faster-rcnn为基准模型进行训练，鲁棒性训练样本从步骤1-1)中会根据一个相对路径来得到数据集图片和标注的存放位置，同时，训练过程中目标选择框的长宽以图片自身的长宽为参考系，训练时，训练时每次输入8个批次的图片，每训练一轮即一个epoch约75000张图片，将图片的长边缩放为1333个像素、短边缩放为800个像素，将处理好的图片输送到主干网的卷积网络中提取特征，再通过RPN网络来区分正复样本，由ROI池化层从给出的选择区域中找到选择区域对应的局部特征，最后输出目标的预测框和目标类别，其中目标边界框包括目标的坐标位置(x,y)、边界框的宽w和高h，同过这四个参数确定一个完整的边界框，再由预测值和真实值进行损失函数的计算，分类的损失函数为交叉熵，回归损失函数L_reg的计算公式如公式(1)所下所示：

表示和正样本相关的真实标签边界框；

第二部分卷积网络是多尺度特征网络结构，包括顺序输入的3*3和通道为256的特征卷积层，在P5中做最大池化的下采样得到P6，通过多尺度特征融合卷积层后得到五个尺度的特征，即P2—P6且每个特征的通道数都为256，采用相同的头部进行预测，所有的主干卷积网络和多尺度特征检测网络包括顺序的连接的最大池化层、随机失活层、全连接层256*1024，其中256是输入通道数，1024是全连接的输出通道数，全连接层之后是分类分支和回归分支，分类分支采用softmax激活函数对正负样本区分；

1-5)训练过程中在线困难样本挖掘：把卷积网络得到的特征图和区域提案部分输入到区域提案ROI网络中并计算损失，然后选择b/n个区域提案框，再采用非极大值抑制算法把损失按高到低排序，然后选择最高的损失，并计算其他区域提案框当前这个区域提案框的交并比IoU，移除IoU大于一定阈值的区域提案ROI，然后反复上述流程直到选择了b/n个ROIs，其中IoU的计算公式如公式(3)所示：

测试流程包括如下步骤：

2-1)商标数据注册：将所有种类的商标数据进行一次注册，首先根据全放方位的检测器检出一个大致的商标位置，将商标的数据部分图形逐步进行上采样，得到商标的形状与颜色特征，对不同候选框会有不同的置信度分数，选取最高的分数作为样本分类；

2-2)商标定位与数据收集：所有训练数据有准确标注，即目标的真实边界框和类别I，I∈(0，I_N)，I_N表示类别总数，并且数据源于淘宝电商平台的真实店铺数据，所有的原始训练数据图片均为800*800个像素，采用平视正向前的角度采样得到图片，商标和商标旗下的产品同时出现，且相同的商标会出现在不同产品的图形中，输入进模型后对图片进行裁剪和光照变化处理；

2-3)预测商标类别：在商标图形中，将处理后的图片送入模型的分类分支得到类别的序号进而得到具体类别；