CN111414962A

CN111414962A - 一种引入物体关系的图像分类方法

Info

Publication number: CN111414962A
Application number: CN202010195840.3A
Authority: CN
Inventors: 秦永强; 张祥伟; 宋亮; 刘金露
Original assignee: Ainnovation Chongqing Technology Co ltd
Current assignee: Ainnovation Chongqing Technology Co ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-14
Anticipated expiration: 2040-03-19
Also published as: CN111414962B

Abstract

本发明公开了一种引入物体关系的图像分类方法，包括：步骤S1，通过注意力机制构建输入图像上的各个物体间的关系；步骤S2，基于所构建的各物体间的关系在输入图像上对各物体进行分类标注和位置标注；步骤S3，对所标注的分类特征图和位置特征图进行采样，并将采样得到的特征图作为注意力模型训练样本，训练得到注意力模型；步骤S4，通过注意力模型对输入图像进行目标分类识别。本发明利用注意力机制，构建场景图像中各物体间的物体关系，然后基于所构建的物体关系对物体特征进行图像标注，最后提取所标注的特征图像作为模型训练样本，训练得到注意力模型，并通过注意力模型对场景图像进行图像分类识别，提高了对目标分类识别检测的准确率。

Description

一种引入物体关系的图像分类方法

技术领域

本发明涉及目标分类检测技术领域，具体涉及一种引入物体关系的图像分类方法。

背景技术

目前应用在商品分类识别技术领域的深度学习算法主要通过特征提取器提取单个物体的图像特征，然后对获得的特征进行分类，在分类检测过程中没有考虑待识别物体间的关系。根据日常经验，相邻摆放的商品比如货架上相邻摆放的商品通常属于相似品类，而且通过比较不同大小的两件商品更容易分辨出商品的规格，所以同一张图片中物体间的相互关系对于商品分类能起到很大的帮助作用。现有的商品分类算法将图片中每个物体的识别看做是相互独立的检测任务，而物体间的关系并未得到有效利用，导致现有的分类检测算法分类准确率较低。

发明内容

本发明的目的在于提供一种引入物体关系的图像分类方法，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种引入物体关系的图像分类方法，包括如下步骤：

步骤S1，通过注意力机制构建输入图像上的各个物体间的关系；

步骤S2，基于所构建的各所述物体间的所述关系在所述输入图像上对各所述物体进行分类标注和位置标注；

步骤S3，对所标注的分类特征图和位置特征图进行采样，并将采样得到的特征图作为注意力模型训练样本，训练得到所述注意力模型；

步骤S4，通过所述注意力模型对所述输入图像进行目标分类识别。

作为本发明的一种优选方案，所述步骤S1中，所述注意力机制构建的各所述物体间的所述关系通过以下公式(1)表达：

公式(1)中，

用于表示第n个待分类的所述物体在所述输入图像上的视觉特征；

W_v表示一第一线性变换矩阵；

m用于表示所述输入图像上第m个待分类的所述物体；

n用于表示所述输入图像上第n个待分类的所述物体。

作为本发明的一种优选方案，公式(1)中的w^mn通过以下公式(2)表达：

公式(2)中，

通过以下公式(3)表达：

公式(3)中，W_K和W_Q分别表示第二线性变换矩阵和第三线性变换矩阵；

用于表示第m个待分类的所述物体在所述输入图像上的所述视觉特征；

用于表示对

作W_K线性变换；

用于表示对

作W_Q线性变换；

用于表示对

和

作内积运算；

d_k用于表示各所述矩阵的维度；

公式(2)中，

通过以下公式(4)表达：

公式(4)中，W_G表示第四线性变换矩阵；

用于表示第m个待分类的所述物体在所述输入图像上的位置特征；

用于表示第n个待分类的所述物体在所述输入图像上的所述位置特征；

ε_G为通过所述注意力机制将所述输入图像上的两个所述物体相对的四维坐标变换到高维空间后得到的一坐标特征；

用于表示对ε_G作W_G线性变换；

公式(2)中，

公式(2)中，

用于表示第k个待分类的所述物体在所述输入图像上的所述视觉特征；

用于表示对

作W_K线性变换；

用于表示对

作W_Q线性变换；

用于表示对

和

作内积运算；

k用于表示所述输入图像上的第k个待分类的所述物体。

作为本发明的一种优选方案，所述四维坐标表达如下：

x_m和x_n分别表示第m个待分类的所述物体的图像中心点和第n个待分类的所述物体的图像中心点在所述输入图像上的横坐标；

y_m和y_n分别表示第m个待分类的所述物体的图像中心点和第n个待分类的所述物体的图像中心点在所述输入图像上的纵坐标；

w_m表示第m个待分类的所述物体的特征图像的图宽；

h_m表示第m个待分类的所述物体的所述特征图像的图高。

本发明利用注意力机制，构建场景图像中各物体间的物体关系，然后基于所构建的物体关系对物体特征进行图像标注，最后提取所标注的特征图像作为模型训练样本，训练得到注意力模型，并通过注意力模型对场景图像进行图像分类识别，提高了对目标分类识别检测的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的引入物体关系的图像分类方法的步骤图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明一实施例提供的引入物体关系的图像分类方法，请参照图1，包括如下步骤：

步骤S1，通过注意力机制构建输入图像上的各物体间的关系(包括物体间的视觉特征关系和位置特征关系)；

步骤S2，基于所构建的各物体间的关系在输入图像上对各物体进行分类标注和位置标注；

步骤S3，对所标注的分类特征图和位置特征图进行采样，并将采样得到的特征图作为注意力模型训练样本，训练得到注意力模型；

步骤S4，通过该注意力模型对输入图像进行目标分类识别。

首先对注意力机制的一般形式表达如下：

注意力机制是输入q(query)到一系列键值对(key，value)上的函数映射关系。

Keys和values分别构成矩阵K和矩阵V，矩阵的维度是d_k。

步骤S1中，注意力机制构建的各物体间的关系通过以下公式(1)表达：

公式(1)中，

用于表示第n个待分类的物体在输入图像上的视觉特征；视觉特征

由训练获得的特征提取器提取而得。这里的特征提取器可以是现有的一些常用的特征提取器。

W_v表示一第一线性变换矩阵；

m用于表示所述输入图像上第m个待分类的所述物体；

n用于表示所述输入图像上第n个待分类的所述物体。

是输入图像中所有物体的物体特征(包括视觉特征

和位置特征

)经W_v线性变换后的加权平均。

公式(1)中的w^mn通过以下公式(2)表达：

公式(2)中，

通过以下公式(3)表达：

用于表示第m个待分类的物体在输入图像上的视觉特征；

用于表示对

作W_K线性变换；

用于表示对

作W_Q线性变换；

用于表示对

和

作内积运算；

d_k用于表示各矩阵的维度；

公式(2)中，

通过以下公式(4)表达：

公式(4)中，W_G表示第四线性变换矩阵；

用于表示第m个待分类的物体在输入图像上的位置特征；

用于表示第n个待分类的物体在输入图像上的位置特征；物体在输入图像上的位置特征由现有的特征提取器提取而得；

ε_G为通过注意力机制将输入图像上的两个物体相对的四维坐标变换到高维空间后得到的一坐标特征；ε_G的计算过程为现有方法，由于ε_G的计算过程并非本发明要求权利保护的范围，所以关于ε_G的具体计算过程在此不作阐述。

用于表示对ε_G作W_G线性变换；

公式(2)中，

公式(2)中，

用于表示第k个待分类的物体在输入图像上的视觉特征；

用于表示对

作W_K线性变换；

用于表示对

作W_Q线性变换；

用于表示对

和

作内积运算；

k用于表示输入图像上的第k个待分类的物体；

这里需要说明的是，上述的线性变换矩阵W_v、W_K、W_Q、W_G都是同时在注意力模型训练过程中训练得到的。由于线性变换矩阵的形成过程并非本发明要求权利保护的范围，所以关于线性变换矩阵的形成过程在此不作阐述。

作为一种优选情况，输入图像上的两个物体间相对的四维坐标表达如下：

x_m和x_n分别表示第m个待分类的物体的图像中心点和第n个待分类的物体的图像中心点在输入图像上的横坐标；

y_m和y_n分别表示第m个待分类的物体的图像中心点和第n个待分类的物体的图像中心点在输入图像上的纵坐标；

w_m表示第m个待分类的物体的特征图像的图宽；

h_m表示第m个待分类的物体的特征图像的图高。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。