WO2021143267A1

WO2021143267A1 - 基于图像检测的细粒度分类模型处理方法、及其相关设备

Info

Publication number: WO2021143267A1
Application number: PCT/CN2020/124434
Authority: WO
Inventors: 林春伟; 刘莉红; 刘玉宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-07
Filing date: 2020-10-28
Publication date: 2021-07-22
Also published as: CN112101437A; CN112101437B

Abstract

一种基于图像检测的细粒度分类模型处理方法，属于人工智能领域；包括接收关键词，通过搜索引擎构建图像数据集；将图像数据集随机分组为若干组训练集；将若干组训练集输入细粒度分类初始模型，得到若干组训练集中各图像的注意力加权向量；对注意力加权向量进行池化，分别生成若干组训练集所对应的训练实例；将训练实例输入细粒度分类初始模型的分类器，以计算模型损失；根据模型损失调整模型参数，得到细粒度分类模型。还提供一种基于图像检测的细粒度分类模型处理装置、计算机设备及存储介质。此外，还涉及区块链技术，训练完毕的模型参数可存储于区块链中。可以快速而准确地实现细粒度图像分类的处理。

Description

基于图像检测的细粒度分类模型处理方法、及其相关设备

本申请要求于2020年09月07日提交中国专利局、申请号为202010930234.1，发明名称为“基于图像检测的细粒度分类模型处理方法、及其相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于图像检测的细粒度分类模型处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，计算机视觉的研究与应用也越来越广泛，其中，细粒度图像分类就是计算机视觉中的热门话题。细粒度图像分类的目标是检索和识别出一个大类下不同子类的图像，涉及人工智能中的图像检测。

发明人意识到，传统的细粒度图像分类技术中，为了提升分类的准确度，通常需要准备大规模的图像数据集，由人工对图像数据集中的图像进行标注后才能进行训练与应用，费时费力，导致细粒度图像分类的处理效率较低。

发明内容

本申请实施例的目的在于提出一种基于图像检测的细粒度分类模型处理方法、装置、计算机设备及存储介质，以解决细粒度图像分类处理效率较低的问题。

为了解决上述技术问题，本申请实施例提供一种基于图像检测的细粒度分类模型处理方法，采用了如下所述的技术方案：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。

为了解决上述技术问题，本申请实施例还提供一种基于图像检测的细粒度分类模型处理装置，采用了如下所述的技术方案：

数据集构建模块，用于基于接收到的关键词，通过搜索引擎构建图像数据集；

数据集分组模块，用于将所述图像数据集随机分组为若干组训练集；

数据集输入模块，用于将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

实例生成模块，用于对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

损失计算模块，用于将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

参数调整模块，用于根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

与现有技术相比，本申请实施例主要有以下有益效果：根据关键词直接通过搜索引擎构建图像数据集，可以通过互联网快速地扩充图像数据集，提高了建立图像数据集的速度；因图像互相独立，将图像数据集中随机进行分组为若干组训练集，降低了不符合标签的图像的负面影响；将若干组训练集输入细粒度分类初始模型，细粒度分类初始模型融合注意力机制计算输入图像的注意力加权向量，以增强图像中与关键词相关的图像区域，使模型专注于对分类有关的图像区域；依据注意力加权向量生成训练实例，训练实例包含了对应训练集中各图像的特征；将训练实例输入分类器得到模型损失后，根据模型损失调整模型参数，得到可以准确分类的细粒度分类模型，快速而准确地实现了细粒度图像分类的处理。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的基于图像检测的细粒度分类模型处理方法的一个实施例的流程图；

图3是根据本申请的基于图像检测的细粒度分类模型处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于图像检测的细粒度分类模型处理方法一般由服务器执行，相应地，基于图像检测的细粒度分类模型处理装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于图像检测的细粒度分类模型处理方法的一个实施例的流程图。所述的基于图像检测的细粒度分类模型处理方法，包括以下步骤：

步骤S201，基于接收到的关键词，通过搜索引擎构建图像数据集。

在本实施例中，基于图像检测的细粒度分类模型处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，关键词可以是指示服务器搜索图像的字、词或者短语；关键词可以是细粒度图像分类中子类的名称。图像数据集可以是基于关键词获取到的图像的集合。

具体地，细粒度图像分类需要主题即关键词，细粒度图像分类任务中子类的名称可以作为关键词，关键词可以由人工输入并发送至服务器。服务器接收到关键词后，在搜索引擎中根据关键词进行图片搜索，并根据搜索结果构建图像数据集。

在一个实施例中，图像数据集可以包括正样本以及负样本，其中，正样本与关键词相关，负样本与关键词无关。

在一个实施例中，基于接收到的关键词，通过搜索引擎构建图像数据集包括：接收终端发送的关键词；将关键词发送至搜索引擎，以指示搜索引擎从互联网中根据关键词进行图像搜索；基于搜索到的图像构建图像数据集。

具体地，用户可以在终端控制细粒度分类初始模型的处理。用户在终端输入关键词，由终端将关键词发送给服务器。服务器调用搜索引擎的接口，将关键词发送至搜索引擎，从而通过搜索引擎从互联网中进行图像搜索。

服务器可以直接在搜索引擎中搜索关键词，将搜索到的图像作为正样本，基于正样本构建图像数据集。此外，服务器还可以在搜索引擎中随机搜索图像，得到负样本，将正样本和负样本进行合并，得到图像数据集，此时，负样本将作为训练中的噪声干扰，防止模型过拟合。在此声明，本申请解释时以正样本为例，负样本输入模型后具有与正样本相同的数据处理过程，并与正样本同步处理。

举例说明，假定天鹅由黑天鹅与白天鹅组成，黑天鹅是天鹅中的子类，“黑天鹅”可以作为关键词，由服务器在搜索引擎中搜索黑天鹅相关的图像作为正样本。需要指出的是，正样本不一定全部是黑天鹅的图像，还可以存在白天鹅的图像，天鹅画等，但是正样本均来自关键词的搜索结果。负样本则与细粒度图像分类无关，例如，负样本可以是汽车的图像、风景画等。

本实施例中，接收到关键词后，通过搜索引擎从互联网中进行搜索，可以快速得到大量图像，大大提高了图像数据集的构建速度。

步骤S202，将图像数据集随机分组为若干组训练集。

具体地，若直接从图像数据集中取出一张图像，该图像有一定的概率与关键词不匹配；当从图像数据集中取出多张图像时，多张图像与关键词均不匹配的概率极小，只要多张图像中有一张图像与关键词相匹配，多张图像组成的整体就可以认为与关键词相匹配，关键词可以视作该整体的标签。

因此，服务器对图像数据集进行随机分组，得到若干组训练集。假设图像数据集中的图像与关键词不匹配的概率为ζ，因为各图像互相具备独立性，则训练集标签正确的概率p为：

p＝1-ζ ^K (1)

其中，K为训练集中图像的数量，K为正整数。易知，随着K的增大，训练集标签正确的概率将快速增大。

步骤S203，将若干组训练集输入细粒度分类初始模型，得到若干组训练集中各图像的注意力加权向量。

其中，细粒度分类初始模型可以是尚未完成训练的细粒度分类模型。注意力加权向量可以是对各图像进行处理后输出的向量表示，经过了注意力机制的加权处理。

具体地，服务器将若干组训练集输入到细粒度分类初始模型的卷积层，卷积层对各组训练集中的各图像进行卷积处理，并结合注意力机制，对卷积层中的向量进行注意力加权，得到各图像的注意力加权向量。

其中，卷积层中的向量用于细粒度图像分类，注意力机制旨在将卷积层中的向量进行两极分化，与关键词相关的向量被注意力机制进行强化，与关键词无关的向量被注意力机制进行弱化，以使细粒度图像分类初始模型根据被强化的向量更好地进行学习，从而提高分类的准确率。细粒度图像分类初始模型中可以设置注意力检测器，由注意力检测器实现注意力机制。

步骤S204，对注意力加权向量进行池化，分别生成若干组训练集所对应的训练实例。

其中，训练实例是对训练集中各图像的融合，合并了训练集中各图像的注意力加权向量。

具体地，细粒度图像分类初始模型中可以设置池化层，由池化层对注意力加权向量进行全局平均池化，从而分别生成训练集的训练实例。训练实例融合了训练集中各图像的图像特征，用于进一步的细粒度图像分类。

在一个实施例中，全局平均池化的公式为：

其中，h _n为训练实例，d为模型中feature map的尺度，k为训练集中第k张图片，

表示第n个训练集中第k张图片(i,j)图像区域的注意力加权向量。

步骤S205，将得到的训练实例输入细粒度分类初始模型的分类器，以计算模型损失。

具体地，服务器将训练实例输入到细粒度分类初始模型的分类器中，分类器依据训练实例进行分类，输出分类结果。服务器可以将关键词作为标签，以分类结果和标签为基础，计算模型损失。

步骤S206，根据模型损失调整细粒度分类初始模型的模型参数，得到细粒度分类模型。

具体地，服务器以减小模型损失为目标调整细粒度分类初始模型的模型参数，每次调整完模型参数后继续进行训练，当模型损失满足训练停止条件时，停止训练，得到细粒度分类模型。其中，训练停止条件可以是模型损失小于预设的损失阈值。

调整的模型参数包括卷积层、注意力检测器以及分类器中的参数。训练完毕后，注意力检测器可以有效地识别图像中与关键词无关的图像区域，并可以将这些图像区域的注意力加权向量进行抑制或弱化，同时强化与关键词相关的图像区域的注意力加权向量。

需要强调的是，为进一步保证上述模型参数的私密和安全性，训练完毕后的模型参数还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本实施例中，根据关键词直接通过搜索引擎构建图像数据集，可以通过互联网快速地扩充图像数据集，提高了建立图像数据集的速度；因图像互相独立，将图像数据集中随机进行分组为若干组训练集，降低了不符合标签的图像的负面影响；将若干组训练集输入细粒度分类初始模型，细粒度分类初始模型融合注意力机制计算输入图像的注意力加权向量，以增强图像中与关键词相关的图像区域，使模型专注于对分类有关的图像区域；依据注意力加权向量生成训练实例，训练实例包含了对应训练集中各图像的特征；将训练实例输入分类器得到模型损失后，根据模型损失调整模型参数，得到可以准确分类的细粒度分类模型，快速而准确地实现了细粒度图像分类的处理。

进一步的，上述步骤S203可以包括：分别将若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到各图像中各图像区域的卷积特征向量；通过注意力检测器计算卷积特征向量的正则化注意力分数；其中，正则化注意力分数用于表征图像区域与关键词的关联程度；将正则化注意力分数与卷积特征向量对应相乘，得到各图像的注意力加权向量。

其中，卷积特征向量可以是卷积层对各图像中的图像区域进行卷积处理后输出的向量表示。

具体地，服务器将若干组训练集中的各图像输入细粒度图像分类初始模型的卷积层，卷积层经过卷积处理后输出各图像中各图像区域的卷积特征向量。其中，图像区域可以是以像素点为单位，还可以是以多个像素点为单位，例如以2*2个像素点、3*3个像素点为单位。

对于每一个训练集，服务器汇总卷积特征向量后输入注意力检测器，由注意力检测器依据权重和偏置计算卷积特征向量的正则化注意力分数。

正则化注意力分数可以表征卷积特征向量所对应的图像区域与关键词的关联程度，关联程度越高，正则化注意力分数可以越大。对于每张图像，服务器分别将卷积特征向量与对应的正则化注意力分数相乘，得到注意力加权向量。

在一个实施例中，上述分别将若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到各图像中各图像区域的卷积特征向量的步骤包括：将若干组训练集输入细粒度分类初始模型的卷积层；获取卷积层的末层卷积层输出的卷积特征图；将卷积特征图中各图像区域所对应的向量设置为卷积特征向量。

其中，卷积特征图可以是一个向量矩阵，卷积特征图的各子矩阵对应于图像中的各图像区域。

具体地，卷积层可以由多个子层构成，对输入的训练集进行多层卷积处理。末层卷积层是卷积层中的最后一层卷积层，服务器获取末层卷积层输出的卷积特征图，卷积特征图中各位置的子矩阵与图像中的各图像区域相对应，将卷积特征图中各图像区域所对应的向量作为卷积特征向量。

本实施例中，将训练集输入卷积层，获取末层卷积层输出的卷积特征图，卷积特征图中的向量与图像中的各图像区域分别对应，依据对应关系可以准确地提取到卷积特征向量。

在一个实施例中，令

表示第n个训练集中第k张图片上(i,j)图像区域所对应的卷积特征向量，注意力检测器根据卷积特征向量计算注意力分数

其中：

f(x)＝ln(1+exp(x)) (4)

其中，w∈R ^c、b∈R分别表示注意力检测器的权重和偏置，是注意力检测器对图像区域进行强化或减弱的关键因子，可以通过模型参数的调整得到。

注意力检测器得到注意力分数后，可以对注意力分数进行正则化运算，将注意力分数压缩到[0,1]区间，得到正则化注意力分数

其中，ε为常数，可以是经验值，用于使正则化注意力分数

分布更加合理，若没有ε且

很小，可能会导致很小的

对应于很大的

若ε设置合理，则一个很小的

会使得

其中d为模型中feature map的尺度。

在得到正则化注意力分数后，对卷积特征向量以及与卷积特征向量对应的正则化注意力分数进行逐元素相乘，即可得到被正则化注意力分数加权后的向量表示

即注意力加权向量

其中⊙表示逐元素相乘。

本实施例中，将训练集中的图像输入卷积层得到图像中各图像区域的卷积特征向量，通过注意力检测器引入注意力机制，对卷积特征向量进行计算得到正则化注意力分数，正则化注意力分数可以作为卷积特征向量的权重，对应相乘后得到注意力加权向量，注意力加权向量已经完成对图像区域的加强或抑制，使得细粒度分类初始模型可以进行针对性学习。

进一步的，上述步骤S205可以包括：将得到的训练实例输入分类器以计算分类器损失；根据卷积特征向量计算正则化因子；对分类器损失和正则化因子进行线性运算，得到模型损失。

其中，分类器损失可以是分类器计算得到的损失；模型损失可以是细粒度分类初始模型计算得到的总损失；正则化因子可以是对分类器损失进行正则化的因子。

具体地，服务器将训练实例输入到细粒度分类初始模型的分类器中，分类器依据训练实例进行分类，输出分类结果，并根据分类结果计算分类器损失。

本申请中的注意力机制旨在使训练集中与关键词匹配的图像中，一个或若干个图像区域的正则化注意力分数具有较高的值；对于与关键词不匹配或者与细粒度图像分类无关的图像，各图像区域的正则化注意力分数应该接近且较低。为了在训练中实现上述目标，本申请除了分类器损失，还单独设置了正则化因子。本申请中的负样本作为噪声干扰，还可以实现注意力计算的正则化。

具体地，正则化因子依据卷积特征向量计算。服务器得到正则化因子后，将分类器损失与正则化因子进行线性相加，得到模型层面的模型损失。

本实施例中，将训练实例输入分类器以计算分类器损失，再根据卷积特征向量计算正则化因子以进一步对图像进行强化或抑制，基于对分类器损失和正则化因子进行线性运算，得到模型损失，使得细粒度分类初始模型可以根据模型损失更合理地调整模型参数。

进一步的，上述将得到的训练实例输入分类器以计算分类器损失的步骤包括：将得到的训练实例输入分类器，得到训练实例中各图像的细粒度类别；将关键词设置为实例标签；根据实例标签和训练实例中各图像的细粒度类别，计算训练实例的分类器损失。

其中，细粒度类别可以是分类器输出的分类结果。

具体地，服务器将训练实例输入到细粒度分类初始模型的分类器中，分类器依据训练实例进行分类，输出多个细粒度类别，细粒度类别的个数等于训练集中图像的数量。

关键词可以作为实例标签，服务器根据输出的细粒度类别和实例标签，将训练实例作为一个整体计算分类器损失。

在一个实施例中，分类器损失为交叉熵损失，计算公式如下：

其中，F _n为训练实例中输出的细粒度类别，y _n为实例标签，L _class为分类器损失。

根据卷积特征向量计算正则化因子时，定义了第二种注意力分数

第二种注意力分数

不同于正则化注意力分数计算中涉及的

其中：

其中，

来自训练集中的正样本，也可以来自于训练集中的负样本；b为注意力检测器的偏置。当

来自训练集中的负样本，注意力机制旨在实现

当

来自训练集中的正样本，注意力机制旨在实现至少有一个图像区域，使得

将两种情况进行合并，则有正则化因子如下：

其中，δ _n＝{1，-1}，当图像为正样本时，则取1，否则取0。

将正则化因子和分类器损失h _n进行线性运算，则有模型损失：

L＝L _class+λR (9)

其中λ为权重，用于调整分类器损失和正则化因子的相对重要性；R为公式(8)中的正则化因子。

注意力机制的具体效果如下：若两张图像均来自训练集，一张与细粒度图像分类相关且与关键词相关，则正则化注意力分数在与关键词相关的图像区域被推高；对于与细粒度图像分类无关或者与关键词不相关的图像，正则化注意力分数在各图像区域均平均地趋于零，分类器不会在这些区域上过多关注，即学习或者分类时较少考虑这些区域的特征。因此，本申请中的注意力机制可以过滤掉训练集的图像中与细粒度图像分类任务无关或者与关键词不相关的图像区域，还可以检测图像中有助于细粒度图像分类的图像区域。

本实施例中，将训练实例输入分类器后得到细粒度类别，再以关键词作为实例标签，将训练实例作为整体计算分类器损失，保证了分类器损失可以考虑了训练实例中所融合的信息。

进一步的，上述步骤S206之后，还可以包括：获取待分类图像；将待分类图像输入细粒度分类模型，得到待分类图像的注意力加权向量；基于注意力加权向量生成待分类图像的测试实例；将测试实例输入细粒度分类模型的分类器，得到待分类图像的细粒度类别。

具体地，服务器完成训练后得到细粒度分类模型。在应用时，获取待分类图像，待分类图像可以由终端发送。服务器将待分类图像输入细粒度分类模型的卷积层，卷积层的末层卷积层的输出被输入至注意力检测器，得到待分类图像中各图像区域的注意力加权向量。

不同于训练时一次输入多张图像，测试应用时一次可以输入一张图像，因此应用测试时无需池化层，根据注意力加权向量即可得到待分类图像的测试实例。测试实例中，与细粒度图像分类相关的图像区域得到了加强，与细粒度图像分类无关的图像区域被抑制，测试实例被输入分类器，分类器根据测试实例进行处理，输出待分类图像的细粒度类别。

本实施例中，在应用测试时将待分类图像输入细粒度分类模型，得到测试实例，测试实例加强了与细粒度图像分类相关的图像区域，抑制了与细粒度图像分类任务无关的图像区域，使得分类器能够准确地输出细粒度类别。

现通过一个具体的应用场景来对细粒度分类模型的处理进行说明，以天鹅种类的识别为例，天鹅为大类，天鹅中的黑天鹅和白天鹅则是子类，识别黑天鹅和白天鹅的模型即为细粒度分类模型。

在训练阶段，依据“黑天鹅”从互联网获取大量图像，得到图像数据集。将图像数据集随机分组为若干组训练集，“黑天鹅”为每组训练集标签。训练集中的各图像输入细粒度分类初始模型的卷积层得到卷积特征向量，卷积特征向量输入注意力检测器得到注意力加权向量，对注意力加权向量进行池化得到训练实例。训练实例融合了训练集中各图像的特征，图像中与黑天鹅相关的图像被注意力检测器进行了加强，不符合黑天鹅的图像(例如白天鹅的图像)被注意力检测器进行了抑制，即注意力检测器对图像中的信息进行了过滤，使得模型可以专注学习。分类器根据训练实例进行分类并计算模型损失，细粒度分类模型依据模型损失调整模型参数以强化注意力检测器和分类器，训练完成后即可得到细粒度分类模型。

细粒度分类初始模型在训练中可以学习到黑天鹅和白天鹅两种天鹅的特征。当细粒度图像分类任务的子类较多时，还可以再采集其他子类的图像进行补充训练。例如，可以再采集白天鹅的图像进行补充训练。

细粒度分类模型在使用时，向模型输入一张待分类图像，细粒度分类模型计算待分类图像的注意力加权向量并生成测试实例，测试实例对待分类图像进行了加权，待分类图像中对细粒度分类有用的区域被加强。测试实例输入分类器后，分类器可以依据测试实例准确识别出图像是黑天鹅还是白天鹅，实现细粒度图像分类。

本申请中基于图像检测的细粒度分类模型处理方法涉及人工智能领域中的神经网络、机器学习和计算机视觉。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于图像检测的细粒度分类模型处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于图像检测的细粒度分类模型处理装置300包括：数据集构建模块301、数据集分组模块302、数据集输入模块303、实例生成模块304、损失计算模块305以及参数调整模块306，其中：

数据集构建模块301，用于基于接收到的关键词，通过搜索引擎构建图像数据集。

数据集分组模块302，用于将图像数据集随机分组为若干组训练集。

数据集输入模块303，用于将若干组训练集输入细粒度分类初始模型，得到若干组训练集中各图像的注意力加权向量。

实例生成模块304，用于对注意力加权向量进行池化，分别生成若干组训练集所对应的训练实例。

损失计算模块305，用于将得到的训练实例输入细粒度分类初始模型的分类器，以计算模型损失。

参数调整模块306，用于根据模型损失调整细粒度分类初始模型的模型参数，得到细粒度分类模型。

在本实施例的一些可选的实现方式中，上述数据集构建模块301包括：接收子模块、搜索子模块以及构建子模块，其中：

接收子模块，用于接收终端发送的关键词。

搜索子模块，用于将关键词发送至搜索引擎，以指示搜索引擎从互联网中根据关键词进行图像搜索。

构建子模块，用于基于搜索到的图像构建图像数据集。

在本实施例的一些可选的实现方式中，上述数据集输入模块303包括：数据集输入子模块、分数计算子模块以及相乘子模块，其中：

数据集输入子模块，用于分别将若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到各图像中各图像区域的卷积特征向量。

分数计算子模块，用于通过注意力检测器计算卷积特征向量的正则化注意力分数；其中，正则化注意力分数用于表征图像区域与关键词的关联程度。

相乘子模块，用于将正则化注意力分数与卷积特征向量对应相乘，得到各图像的注意力加权向量。

在本实施例的一些可选的实现方式中，上述数据集输入子模块包括：

训练集输入单元，用于将若干组训练集输入细粒度分类初始模型的卷积层。

输出获取单元，用于获取卷积层的末层卷积层输出的卷积特征图。

向量设置单元，用于将卷积特征图中各图像区域所对应的向量设置为卷积特征向量。

在本实施例的一些可选的实现方式中，上述损失计算模块包括：损失计算子模块、因子计算子模块以及线性运算子模块，其中：

损失计算子模块，用于将得到的训练实例输入分类器以计算分类器损失。

因子计算子模块，用于根据卷积特征向量计算正则化因子。

线性运算子模块，用于对分类器损失和正则化因子进行线性运算，得到模型损失。

在本实施例的一些可选的实现方式中，上述损失计算子模块包括：实例输入单元、标签设置单元以及损失计算单元，其中：

实例输入单元，用于将得到的训练实例输入分类器，得到训练实例中各图像的细粒度类别。

标签设置单元，用于将关键词设置为实例标签。

损失计算单元，用于根据实例标签和训练实例中各图像的细粒度类别，计算训练实例的分类器损失。

在本实施例的一些可选的实现方式中，上述基于图像检测的细粒度分类模型处理装置300还包括：待分类获取模块、待分类输入模块、测试生成模块以及测试输入模块，其中：

待分类获取模块，用于获取待分类图像。

待分类输入模块，用于将待分类图像输入细粒度分类模型，得到待分类图像的注意力加权向量。

测试生成模块，用于基于注意力加权向量生成待分类图像的测试实例。

测试输入模块，用于将测试实例输入细粒度分类模型的分类器，得到待分类图像的细粒度类别。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如基于图像检测的细粒度分类模型处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述基于图像检测的细粒度分类模型处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于图像检测的细粒度分类模型处理方法的步骤。此处基于图像检测的细粒度分类模型处理方法的步骤可以是上述各个实施例的基于图像检测的细粒度分类模型处理方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于图像检测的细粒度分类模型处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种基于图像检测的细粒度分类模型处理方法，其中，包括下述步骤：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。
根据权利要求1所述的基于图像检测的细粒度分类模型处理方法，其中，所述基于接收到的关键词，通过搜索引擎构建图像数据集的步骤包括：

接收终端发送的关键词；

将所述关键词发送至搜索引擎，以指示所述搜索引擎从互联网中根据所述关键词进行图像搜索；

基于搜索到的图像构建图像数据集。
根据权利要求1所述的基于图像检测的细粒度分类模型处理方法，其中，所述将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量的步骤包括：

分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量；

通过注意力检测器计算所述卷积特征向量的正则化注意力分数；其中，所述正则化注意力分数用于表征图像区域与所述关键词的关联程度；

将所述正则化注意力分数与所述卷积特征向量对应相乘，得到所述各图像的注意力加权向量。
根据权利要求3所述的基于图像检测的细粒度分类模型处理方法，其中，所述分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量的步骤包括：

将所述若干组训练集输入细粒度分类初始模型的卷积层；

获取所述卷积层的末层卷积层输出的卷积特征图；

将所述卷积特征图中各图像区域所对应的向量设置为卷积特征向量。
根据权利要求3所述的基于图像检测的细粒度分类模型处理方法，其中，所述将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失的步骤包括：

将得到的训练实例输入分类器以计算分类器损失；

根据所述卷积特征向量计算正则化因子；

对所述分类器损失和所述正则化因子进行线性运算，得到模型损失。
根据权利要求5所述的基于图像检测的细粒度分类模型处理方法，其中，所述将得到的训练实例输入分类器以计算分类器损失的步骤包括：

将得到的训练实例输入分类器，得到所述训练实例中各图像的细粒度类别；

将所述关键词设置为实例标签；

根据所述实例标签和所述训练实例中各图像的细粒度类别，计算所述训练实例的分类器损失。
根据权利要求1-6中任一项所述的基于图像检测的细粒度分类模型处理方法，其中，在所述根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型的步骤之后还包括：

获取待分类图像；

将所述待分类图像输入所述细粒度分类模型，得到所述待分类图像的注意力加权向量；

基于所述注意力加权向量生成所述待分类图像的测试实例；

将所述测试实例输入所述细粒度分类模型的分类器，得到所述待分类图像的细粒度类别。
一种基于图像检测的细粒度分类模型处理装置，其中，包括：

数据集构建模块，用于基于接收到的关键词，通过搜索引擎构建图像数据集；

数据集分组模块，用于将所述图像数据集随机分组为若干组训练集；

数据集输入模块，用于将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

实例生成模块，用于对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

损失计算模块，用于将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

参数调整模块，用于根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。
根据权利要求9所述的计算机设备，其中，所述将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量的步骤包括：

分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量；

通过注意力检测器计算所述卷积特征向量的正则化注意力分数；其中，所述正则化注意力分数用于表征图像区域与所述关键词的关联程度；

将所述正则化注意力分数与所述卷积特征向量对应相乘，得到所述各图像的注意力加权向量。
根据权利要求10所述的计算机设备，其中，所述分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量的步骤包括：

将所述若干组训练集输入细粒度分类初始模型的卷积层；

获取所述卷积层的末层卷积层输出的卷积特征图；

将所述卷积特征图中各图像区域所对应的向量设置为卷积特征向量。
根据权利要求10所述的计算机设备，其中，所述将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失的步骤包括：

将得到的训练实例输入分类器以计算分类器损失；

根据所述卷积特征向量计算正则化因子；

对所述分类器损失和所述正则化因子进行线性运算，得到模型损失。
根据权利要求12所述的计算机设备，其中，所述将得到的训练实例输入分类器以计算分类器损失的步骤包括：

将得到的训练实例输入分类器，得到所述训练实例中各图像的细粒度类别；

将所述关键词设置为实例标签；

根据所述实例标签和所述训练实例中各图像的细粒度类别，计算所述训练实例的分类器损失。
根据权利要求9-13任一项所述的计算机设备，其中，在所述根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型的步骤之后还包括：

获取待分类图像；

将所述待分类图像输入所述细粒度分类模型，得到所述待分类图像的注意力加权向量；

基于所述注意力加权向量生成所述待分类图像的测试实例；

将所述测试实例输入所述细粒度分类模型的分类器，得到所述待分类图像的细粒度类别。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令；其中，所述计算机可读指令被处理器执行时实现如下步骤：

基于接收到的关键词，通过搜索引擎构建图像数据集；

将所述图像数据集随机分组为若干组训练集；

将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量；

对所述注意力加权向量进行池化，分别生成所述若干组训练集所对应的训练实例；

将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失；

根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型。
根据权利要求15所述的计算机可读存储介质，其中，所述将所述若干组训练集输入细粒度分类初始模型，得到所述若干组训练集中各图像的注意力加权向量的步骤包括：

分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量；

通过注意力检测器计算所述卷积特征向量的正则化注意力分数；其中，所述正则化注意力分数用于表征图像区域与所述关键词的关联程度；

将所述正则化注意力分数与所述卷积特征向量对应相乘，得到所述各图像的注意力加权向量。
根据权利要求16所述的一种计算机可读存储介质，其中，所述分别将所述若干组训练集中的各图像输入细粒度分类初始模型的卷积层，得到所述各图像中各图像区域的卷积特征向量的步骤包括：

将所述若干组训练集输入细粒度分类初始模型的卷积层；

获取所述卷积层的末层卷积层输出的卷积特征图；

将所述卷积特征图中各图像区域所对应的向量设置为卷积特征向量。
根据权利要求16所述的一种计算机可读存储介质，其中，所述将得到的训练实例输入所述细粒度分类初始模型的分类器，以计算模型损失的步骤包括：

将得到的训练实例输入分类器以计算分类器损失；

根据所述卷积特征向量计算正则化因子；

对所述分类器损失和所述正则化因子进行线性运算，得到模型损失。
根据权利要求18所述的一种计算机可读存储介质，其中，所述将得到的训练实例输入分类器以计算分类器损失的步骤包括：

将得到的训练实例输入分类器，得到所述训练实例中各图像的细粒度类别；

将所述关键词设置为实例标签；

根据所述实例标签和所述训练实例中各图像的细粒度类别，计算所述训练实例的分类器损失。
根据权利要求15-19任一项所述的计算机可读存储介质，其中，在所述根据所述模型损失调整所述细粒度分类初始模型的模型参数，得到细粒度分类模型的步骤之后还包括：

获取待分类图像；

将所述待分类图像输入所述细粒度分类模型，得到所述待分类图像的注意力加权向量；

基于所述注意力加权向量生成所述待分类图像的测试实例；

将所述测试实例输入所述细粒度分类模型的分类器，得到所述待分类图像的细粒度类别。