CN112528928B

CN112528928B - 一种基于自注意力深度网络的商品识别方法

Info

Publication number: CN112528928B
Application number: CN202011524704.0A
Authority: CN
Inventors: 李国强; 王天雷; 王俊妍; 常轩; 付乐
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-06-11
Anticipated expiration: 2040-12-22
Also published as: CN112528928A

Abstract

本发明公开了一种基于自注意力深度网络的商品识别方法，其包括如下内容：对商品数据集进行分析，选择部分数据并将其划分训练集，验证集和测试集，同时进行小样本处理，将数据分为多个任务，每一个任务都可以再分为支持集和查询集，同时进行数据增强处理；随后提取支持集特征，并计算提取好的支持集特征中每一类的类原型，再提取查询集特征，将支持集类原型和查询集特征送入到以加权马氏距离作为相似性度量的度量分类器中，利用softmax函数计算最终分类结果；再利用反向传播算法更新模型参数，保存在验证集中表现最好的模型，最后将商品测试集送入到模型中进行识别分类。本发明可以减少外部依赖性、识别更加高效，并且应用范围广。

Description

一种基于自注意力深度网络的商品识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于自注意力深度网络的商品识别方法。

背景技术

在超市，电商等应用领域中，随着人力成本的增加及科学技术的发展，越来越多的商家选择使用人工智能技术对商品进行识别和分类，这一技术在发展中也更加具有研究意义。近年来，随着深度学习技术的不断发展，图像识别领域也得到了极大的进步，甚至在某些数据集上的图像分类，图像分割的准确率已经超过了人类。当前主流的基于深度学习的图像识别有赖于大数据的发展，在数据量足够大的情况下，基于深度学习的图像识别技术可以很好的完成任务。然而，在商品识别中经常会出现商品数量不足这一情况，此时利用传统深度学习模型极易出现过拟合等问题导致商品识别效果不理想的问题。

最初有学者提出孪生网络来识别有判别性的特征，再推广到未知类别；而后有人提出以每个类的均值作为对应的原型表示来学习一个度量空间，再利用固定距离度量如余弦距离或者非固定距离度量如神经网络等来进行分类。但是这些方法都有一定的缺陷，首先他们对特征的表征能力并不强；其次，他们在面对新任务时泛化能力依然较差。

在学习新事物时，人类往往更加关注这一事物区别于其他事物的最主要特征，有学者利用人类的这一学习能力，提出了注意力机制。注意力机制开始应用于图像处理和自然语言处理中，当前大部分应用于图像识别中的注意力机制为通道注意力机制和空间注意力机制。但是这两种注意力机制对外部依赖较大，而同时忽略了内部的关联及位置等信息。

发明内容

本发明需要解决的技术问题是提供可以减少外部依赖性、识别更加高效的一种基于自注意力深度网络的商品识别方法。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于自注意力深度网络的商品识别方法，其包括如下步骤：

步骤1、取商品数据作为数据集，将数据集分为训练集、测试集和验证集，利用元学习思想以及小样本学习方法对商品数据集处理，将训练集、测试集和验证集分别分为不同的多个任务，每一个任务再分为支持集和查询集，同时进行数据增强；

步骤2、利用自注意力机制增强卷积神经网络，对步骤1中增强后的数据提取特征，首先提取支持集的特征，并计算提取好的支持集特征中每一类的类原型，然后提取查询集的特征；

步骤3、将步骤2中计算好的类原型和提取的查询集的特征输入到元学习度量分类器中；

步骤4、采用元学习的算法训练特征提取器和分类器，并利用反向传播算法迭代更新参数，最终利用验证集验证模型，选取最佳模型；

步骤5、将最佳模型用于测试集中进行识别。

本发明技术方案的进一步改进在于：通过元学习思想以及小样本学习方法，取步骤1中的数据集中部分单品图和部分结算图作为小样本数据集，并将小样本数据集中的单品图作为训练集和验证集，将部分结算图作为测试集。

本发明技术方案的进一步改进在于：对小样本数据集中的数据做mixup处理。

本发明技术方案的进一步改进在于：步骤2的具体过程为：利用自注意力机制增强卷积神经网络，形成注意力增强深度卷积网络，将此网络作为特征提取结构，并将步骤1中处理好的数据送入到此结构中进行特征提取，首先提取支持集的特征，并计算提取好的支持集特征中每一类的类原型，然后提取查询集的特征。

本发明技术方案的进一步改进在于：步骤3中的度量分类器采用加权马氏距离作为度量特征间相似程度的距离度量公式，将马氏距离公式中协方差分为类内和类间协方差，并进行加权求和，得到最终距离。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明采用自注意力增强深度网络，自注意力能够快速提取稀疏数据重要特征，同时减少外部依赖，捕捉内部相关信息。

本发明采用加权马氏距离作为度量分类器，能有效防止过拟合的同时，增加模型的泛化能力。

本发明建立的小样本商品识别模型具有较强的迁移能力，通过修改模型参数，能够应用在各个不同的小样本场景中。

附图说明

图1是本发明的商品识别总体方案图；

图2是本发明的自注意力机制计算流程图；

图3是本发明利用自注意力增强卷积的流程图；

图4是本发明的自注意力深度网络结构图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

实施例一

本发明提出了一种基于自注意力深度网络的商品识别方法。本发明的商品识别总体方案如图1所示，具体步骤为下：

步骤1、首先，取商品数据作为数据集，利用元学习思想以及小样本学习方法对商品数据集处理。选取数据集中的部分单品图作为训练集和验证集，选取数据集中的部分结算图作为测试集；再分别将训练集，验证集和测试集分别分为不同的n个task，本发明中的“task”均为“任务”的意思，每一个task再分为支持集和查询集，支持集可以看作是task中的训练集，查询集可以看作是task中的测试集。

每一个task的支持集中包含c类，每一类有k的样本，此时，设置c＝5,k＝1,5。由于小样本数据集样本数量较少，固相较于其他的图像分类任务更容易发生过拟合的现象，所以为了解决过拟合的问题，优选的，本发明中利用mixup方法进行数据增强。mixup是以线性插值的方式来构建新的训练样本和标签，具体思想是随机给两个样本，然后利用式(1)生成新的样本。

其中λ∈[0，1]是一个符合beta分布的随机数。

步骤2、利用自注意力机制增强卷积神经网络，对步骤1中增强后的数据提取特征，首先提取支持集的特征，并计算提取好的支持集特征中每一类的类原型，然后提取查询集的特征。具体过程为：

利用自注意力机制增强卷积神经网络，形成注意力增强深度卷积网络，将此网络作为特征提取结构，并将步骤1中处理好的数据送入到此结构中进行特征提取，提取图像的特征，并利用提取好的特征计算每一类的类原型。

具体的，自注意力机制的计算流程图如图2所示。计算自注意力首先需要计算三个矩阵：Query、Key和Value矩阵。给定一个形状为(H,W,C)的输入张量，设为X，则X∈R^HW*C，Query、Key和Value的计算方法如(2)所示：

其中Wq,Wk和Wv是权重矩阵，且其初始值是随机生成的。

然后计算自注意力得分，自注意力打分模型s(x_i,q)包括加性模型、点积模型、缩放点积模型和双线性模型等，依据图像信息的性质，选择缩放点积模型计算自注意力得分。缩放点积模型的计算公式如(3)所示：

d_k称为缩放因子。

令Query＝Q，Key＝K，Value＝V，计算得到注意力得分Oh如(4)所示：

将计算得到的多个自注意力连接形成多头自注意力MHA，如(5)所示：

MHA＝Concat[O₁,...,O_Nh] (5)

将计算得到的多头自注意力用于增强卷积神经网络。首先将输入的图像分为两部分，一部分输入到卷积神经网络，提取特征得到特征图，另一部分输入到自注意力结构，计算多头自注意力图，而后将二者进行连接，得到自注意力增强卷积的结构。自注意力增强卷积结构图如图3所示。再将此结构用于深度神经网络中，取代部分的卷积层，形成自注意力深度网络，其结构图如图4所示。

同时，在自注意力卷积模块后需要做批归一化处理，批归一化是解决梯度消失问题的常用方法之一，通过一定的规范化手段，把每层神经网络任意神经元经过这个输入值的分布强行拉回到均值为0方差为1的标准正态分布；将批归一化的特征送入到激活函数中，本发明中采用的激活函数为Gelu激活函数，Gelu激活函数是在原有Relu激活函数的基础上，加入了随即正则的思想，能够增加模型的泛化能力。其表达式如式(6)所示。

将步骤1处理后商品数据集中每一个task的支持集经过结构3提取特征后，得到不同类别商品的特征，利用不同的特征计算出小样本商品中每一类的类原型，类原型定义为该类在特征空间的平均值，故类k的原型利用式(7)求得：

其中|S_k|表示类K中样本的数量，(x_i,y_i)为样本的特征向量和标签。

步骤3、将步骤2中计算好的类原型和提取的查询集的特征输入到元学习度量分类器中。

传统的图像识别通常在大样本的条件下，其分类器也多为神经网络的全连接层后接softmax。softmax是多分类过程中常用的函数，它将多个神经元的输出，映射到(0，1)区间中，从而来进行多分类。标准的softmax函数表达式如式(8)所示：

本商品数据集数据集为小样本数据集，在小样本数据的情况下，利用全连接层会增加模型的复杂度，故而选择度量学习中的度量方法作为分类器，度量学习分类器是将图像映射到一个度量空间并使用某种度量方法度量不同样本间的差异。多数基于元学习的度量分类器选择简单的欧氏距离或是余弦距离作为度量方式。本发明中利用加权马氏距离作为度量分类器。马氏距离是欧氏距离的一种推广，它通过协方差来计算两点之间的距离，并考虑各种特性之间的相关性。数据点x,y之间的马氏距离如式(9)所示：

其中∑为协方差矩阵，本发明中我们将协方差矩阵分为类内协方差矩阵和类间协方差矩阵∑Γ，∑的计算公式如式(10)所示：

其中λ为(0，1)的比例系数，计算方式如式(11)所示：

其中表示支持集中的每一类中的样本数量。

本发明中需要将查询集中的每张图片经过步骤2的自注意力深度网络提取特征后与支持集中每一类的类原型进行距离度量。将利用加权马氏距离计算得到的距离d_k送入softmax函数中进行分类，得到每张图片x_i属于某一类y_i分类的概率计算公式如式(12)所示：

步骤4、采用元学习的算法训练特征提取器和分类器，利用反向传播算法迭代更新参数，最终利用验证集验证模型，选取最佳模型。

步骤5、将最佳模型用于测试集中进行分类识别。

取验证集中效果最好的模型，并用于测试集中完成商品的识别任务。

实施例二

步骤1、首先，取商品数据作为数据集，利用元学习思想以及小样本学习方法对商品数据集处理，将数据集分为训练集、测试集和验证集。由于小样本数据集样本数量较少，固相较于其他的图像分类任务更容易发生过拟合的现象，所以为了解决过拟合的问题，本发明对数据集中的数据进行数据增强。

其中Wq,Wk和Wv是权重矩阵，且其初始值是随机生成的。

d_k称为缩放因子。

MHA＝Concat[O₁,...,O_Nh] (5)

其中∑为协方差矩阵，本发明中我们将协方差矩阵分为类内协方差矩阵和类间协方差矩阵∑^Γ，∑的计算公式如式(10)所示：

其中λ为(0，1)的比例系数，计算方式如式(11)所示：

其中表示支持集中的每一类中的样本数量。

步骤5、将最佳模型用于测试集中进行分类识别。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于自注意力深度网络的商品识别方法，其特征在于包括如下步骤：

步骤2、利用自注意力机制增强卷积神经网络，对步骤1中增强后的数据提取特征，首先提取支持集的特征，并计算提取好的支持集特征中每一类的类原型，然后提取查询集的特征；利用自注意力机制增强卷积神经网络，形成注意力增强深度卷积网络，将此网络作为特征提取结构，并将步骤1中处理好的数据送入到此结构中进行特征提取，首先提取支持集的特征，并计算提取好的支持集特征中每一类的类原型，然后提取查询集的特征；具体步骤如下：

利用自注意力机制增强卷积神经网络，形成注意力增强深度卷积网络，将此网络作为特征提取结构，并将步骤1中处理好的数据送入到此结构中进行特征提取，提取图像的特征，并利用提取好的特征计算每一类的类原型，计算自注意力首先需要计算三个矩阵：Query、Key和Value矩阵，给定一个形状为(H,W,C)的输入张量，设为X，则X∈R^HW*C，Query、Key和Value的计算方法如(2)所示：

其中Wq,Wk和Wv是权重矩阵，且其初始值是随机生成的，然后计算自注意力得分，自注意力打分模型s(x_i,q)包括加性模型、点积模型、缩放点积模型和双线性模型，依据图像信息的性质，选择缩放点积模型计算自注意力得分，缩放点积模型的计算公式如(3)所示：

d_k称为缩放因子，

MHA＝Concat[O₁,...,O_Nh] (5)

将计算得到的多头自注意力用于增强卷积神经网络，首先将输入的图像分为两部分，一部分输入到卷积神经网络，提取特征得到特征图，另一部分输入到自注意力结构，计算多头自注意力图，而后将二者进行连接，得到自注意力增强卷积的结构，再将此结构用于深度神经网络中，取代部分的卷积层，形成自注意力深度网络，在自注意力卷积模块后需要做批归一化处理，把每层神经网络任意神经元经过这个输入值的分布强行拉回到均值为0方差为1的标准正态分布；将批归一化的特征送入到激活函数中，采用的激活函数为Gelu激活函数，Gelu激活函数是在原有Relu激活函数的基础上，加入了随即正则的思想，能够增加模型的泛化能力，其表达式如式(6)所示，

将步骤1处理后商品数据集中每一个task的支持集经过结构提取特征后，得到不同类别商品的特征，利用不同的特征计算出小样本商品中每一类的类原型c，类原型定义为该类在特征空间的平均值，故类k的原型利用式(7)求得：

其中|S_k|表示类k中样本的数量，(m_i,n_i)为样本的特征向量和标签；

步骤3、将步骤2中计算好的类原型和提取的查询集的特征输入到元学习度量分类器中；步骤3中的度量分类器采用加权马氏距离作为度量特征间相似程度的距离度量公式，将马氏距离公式中协方差分为类内和类间协方差，并进行加权求和，得到最终距离；具体步骤如下：商品数据集数据集为小样本数据集，选择度量学习中的度量方法作为分类器，度量学习分类器是将图像映射到一个度量空间并使用某种度量方法度量不同样本间的差异，数据点x,y之间的马氏距离如式(9)所示：

其中∑为协方差矩阵，将协方差矩阵分为类内协方差矩阵和类间协方差矩阵∑^Γ，∑的计算公式如式(10)所示：

其中λ为(0，1)的比例系数，计算方式如式(11)所示：

其中|S_Γ ^k|表示支持集中的每一类中的样本数量；将查询集中的每张图片经过步骤2的自注意力深度网络提取特征后与支持集中每一类的类原型进行距离度量，将利用加权马氏距离计算得到的距离D_Y送入softmax函数中进行分类，得到每张图片X'属于某一类Y分类的概率计算公式如式(12)所示：

步骤5、将最佳模型用于测试集中进行识别。

2.根据权利要求1所述的一种基于自注意力深度网络的商品识别方法，其特征在于：通过元学习思想以及小样本学习方法，取步骤1中的数据集中部分单品图和部分结算图作为小样本数据集，并将小样本数据集中的单品图作为训练集和验证集，将部分结算图作为测试集。

3.根据权利要求2所述的一种基于自注意力深度网络的商品识别方法，其特征在于：对小样本数据集中的数据做mixup处理。