CN113449821B

CN113449821B - 融合语义和图像特征的智能训练方法、装置、设备及介质

Info

Publication number: CN113449821B
Application number: CN202111008010.6A
Authority: CN
Inventors: 周迪; 曹广; 徐爱华; 徐伟强; 王勋; 章坚武; 张健; 贺建飙; 王建新; 郭春生; 吴震东; 林江; 陈玲江; 陈芳妮
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-31
Anticipated expiration: 2041-08-31
Also published as: CN113449821A

Abstract

本发明实施例公开了一种融合语义和图像特征的智能训练方法、装置、设备及介质。所述方法包括：对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息，以及将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率，进而依据训练样本对应的类别软标签信息与对应的各类别预测概率，对卷积神经网络层与全连接层的参数进行调整更新。采用本申请方案，能够在图像分类任务中使用类别中的自然语言信息自适应地生成更为平滑的标签，将融入了语义的软标签与预测概率结合进行参数更新，同时使用融合自然语言信息和图像信息的新模式进行模型更新，能够较好地提升模型的鲁棒性。

Description

融合语义和图像特征的智能训练方法、装置、设备及介质

技术领域

本发明实施例涉及深度学习技术领域，尤其涉及一种融合语义和图像特征的智能训练方法、装置、设备及介质。

背景技术

深度学习在目标物体识别、目标检测、实例分割等任务上均能够获得良好效果。然而，在样本量稀少的时候，基于常规深度学习算法的模型训练容易过拟合，这不利于模型发挥出应有的性能。

相关方案中，在模型训练时，通过引入数据增强和标签平滑的方式加以改进，增加模型鲁棒性。但是，数据增强需手工设计选择不同数据增强方式，并且导致训练时间增加；常用标签平滑对其他类别一视同仁，没有考虑不同类别间的差异性，甚至有些需要给定物体标定框，对数据集要求较高。因此，在数据量有限情况下如何提升模型的鲁棒性变得尤为重要。

发明内容

本发明实施例中提供了一种融合语义和图像特征的智能训练方法、装置、设备及介质，以实现将语义信息整合进标签使标签平滑化来进行模型训练。

第一方面，本发明实施例中提供了一种融合语义和图像特征的智能训练方法，所述方法包括：

对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息；

将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率；

依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络层与全连接层的参数进行调整更新，得到新的图像分类模型。

第二方面，本发明实施例中还提供了一种融合语义和图像特征的智能训练装置，所述装置包括：

软标签生成模块，用于对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息；

分类预测模块，用于将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率；

模型参数更新模块，用于依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络层与全连接层的参数进行调整更新，得到新的图像分类模型。

第三方面，本发明实施例中还提供了一种电子设备，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现如本发明任意实施例中提供的所述融合语义和图像特征的智能训练方法。

第四方面，本发明实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现如本发明任意实施例中提供的所述融合语义和图像特征的智能训练方法。

本发明实施例中提供了一种融合语义和图像特征的智能训练方法，对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息，以及将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率，进而依据训练样本对应的类别软标签信息与对应的各类别预测概率，对卷积神经网络层与全连接层的参数进行调整更新。采用本申请方案，类别硬标签不直接与类别预测概率进行结合，而是先将硬标签作为索引经过查询得到对应的类别软标签信息，能够在图像分类任务训练过程中，使用类别中的自然语言信息自适应地生成更为平滑的标签，将融入了语义的软标签与预测概率结合进行参数更新，同时使用融合自然语言信息和图像信息的新模式进行模型更新，能够较好地提升模型的鲁棒性。

上述发明内容仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中提供的一种融合语义和图像特征的智能训练方法的流程图；

图2是本发明实施例中提供的一种对图像分类模型进行训练的设计图；

图3是本发明实施例中提供的另一种融合语义和图像特征的智能训练方法的流程图；

图4是本发明实施例中提供的一种对图像分类模型训练使用的软标签进行生成的算法示意图；

图5是本发明实施例中提供的一种对图像分类模型训练使用的软标签进行更新的算法示意图；

图6是本发明实施例中提供的一种融合语义和图像特征的智能训练装置的结构框图；

图7是本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作（或步骤）可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

下面通过以下各个实施例及其可选方案对本申请中提供的融合语义和图像特征的智能训练方法、装置、电子设备及存储介质进行详细阐述。

图1是本发明实施例中提供的一种融合语义和图像特征的智能训练方法的流程图。本发明实施例可适用于利用小样本学习对图像分类模型进行训练的情况。该方法可由融合语义和图像特征的智能训练装置来执行，该装置可以采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。

如图1所示，本申请实施例中提供的融合语义和图像特征的智能训练方法，可包括以下步骤：

S110、对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息。

图像分类任务中的类别通常会具有一定语义信息；例如，在ImageNet数据集中，猫和狗的类别显然相比于猫和花瓶的类别更为接近，然而通常的深度学***滑的标签，即自适应地将不同类别标签中所蕴含的自然语言信息转化为对应的类别软标签。

在一种可选方案中，类别硬标签信息可包括类别名称信息、类别描述文本信息和/或类别属性信息等。例如，训练集中的类别具有真实的单词标签，并且这些单词标签能够提供额外的分类信息。对于很细粒度的分类来说，鸟类数据集CUB ，所有类别均是鸟类，其标签名称可能无法像ImageNet数据集那样具有明显的语义区分效果。此时，可将鸟类数据集中的类别描述文本以及类别属性标签(例如头的颜色，翅膀颜色等等)纳入到类别硬标签信息，进一步使用相关的语义模型将这些描述文本/属性标签生成为对应的类别软标签进行使用。

S120、将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率。

参见图2，同正常深度学习分类模型类似，本申请的图像分类模型可包括卷积神经网络层CNN与全连接层FC，其中，卷积神经网络层CNN的输出与全连接层FC的输入连接。在当前批次的模型训练过程中，采样P张图像样本组成训练样本，并训练样本依次经过卷积神经网络层CNN与全连接层FC进行处理，充分挖掘训练样本中包含的图像特征来参与分类预测，经过激励函数Softmax函数激活后获得训练样本的各类别预测概率S；例如，

表示第i个训练样本的第j个类别的预测概率。

S130、依据训练样本对应的类别软标签信息与对应的各类别预测概率，对图像分类模型中卷积神经网络层与全连接层的参数进行调整更新，得到新的图像分类模型。

在图像分类任务中，硬标签不直接与预测概率进行结合，而是将融入了语义信息的类别软标签与训练样本的各类别预测概率结合来对图像分类模型中卷积神经网络层与全连接层的参数调整更新，在模型训练时充分考虑到不同类别间的差异性，通过使用融合自然语言信息和图像信息的新模式进行图像分类模型更新，能够较好地提升模型的鲁棒性。

在本实施例的一种可选方案中，依据训练样本对应的类别软标签信息与对应的各类别预测概率，对图像分类模型中卷积神经网络层与全连接层的参数进行调整更新，可包括以下步骤A1-A2：

步骤A1、依据训练样本对应的类别软标签与对应的各类别预测概率，通过进行交叉熵计算得到图像分类模型的损失函数值。

步骤A2、依据图像分类模型的损失函数值，利用梯度下降法对卷积神经网络层与全连接层的参数进行调整更新。

参见图2，将训练样本的类别硬标签作为索引经过查询返回得到对应的类别软标签；其中，类别软标签可采用矩阵的形式表示，记为K矩阵，

，q为训练样本集图片的类别数目。此时，类别硬标签不再直接与类别预测概率进行交叉熵操作，而是将得到的训练样本对应的类别软标签信息与训练样本对应的各类别预测概率求平均交叉熵得到图像分类模型的损失函数值Loss。

可选地，图像分类模型的损失函数值计算公式包括以下：

其中，

表示第i个训练样本的第j个类别的预测概率，

表示第i个训练样本的第 j个类别的类别软标签取值，p表示训练样本的个数，T表示训练样本的类别数。

在求平均交叉熵得到图像分类模型的损失函数值Loss后，利用梯度下降法逐步优化获得全局最小值，从而优化图像分类模型中涉及的训练参数，并检测模型是否符合测试需求。如果对卷积神经网络层与全连接层的参数进行优化调整后的图像分类模型不符合测试需求，重新确定新的训练样本，循环上述步骤若干次数，直至预定次数或对对卷积神经网络层与全连接层的参数进行优化调整后的图像分类模型符合测试需求。

可选地，在测试集内，按照随机批采样方式得到当前批次的测试样本

；将

送入经训练后的图像分类模型的卷积神经网络层和全连接层处理，并经过Softmax函数激活后获得各类别预测概率；根据各类别预测概率取最大概率的类别作为预测类别，然后与类别标签比对确定是否一致，如果一致表明预测准确，否则预测不准确；循环上述步骤，直至所有测试样本测试完成，确定图像分类模型是否符合测试需求。

根据本发明实施例中提供的融合语义和图像特征的智能训练方法，类别硬标签不直接与类别预测概率进行结合，而是先将硬标签作为索引经过查询得到对应类别软标签信息，能够在图像分类任务训练过程中，使用类别中的自然语言信息自适应地生成更为平滑的标签，将融入了语义的软标签与预测概率结合进行参数更新，同时使用融合自然语言信息和图像信息的新模式进行模型更新，能够较好地提升模型的鲁棒性。

图3是本发明实施例中提供的另一种融合语义和图像特征的智能训练方法的流程图，本发明实施例在上述实施例的基础上对前述实施例进行进一步优化，本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。

如图3所示，本申请实施例中提供的融合语义和图像特征的智能训练方法，可包括以下步骤：

S310、确定当前训练使用的软标签适配信息。

其中，软标签适配信息预先记录有类别硬标签信息所对应的融合有相应类别语义的类别软标签信息。在进行模型训练时，可以确定当前训练使用的一个软标签适配信息，将类别硬标签信息作为索引关键词，而通过软标签适配信息查询类别硬标签信息对应的类别软标签，这样就可自适应地将不同类别标签中所蕴含的自然语言信息融入到对应的类别软标签中，以便后续在使用类别标签进行训练时可以充分利用其中语义区分效果，增加模型鲁棒性。

在本实施例的一种可选方案中，确定当前训练使用的软标签适配信息，可以包括以下步骤B1-B3：

步骤B1、将训练集内出现的单词构成的类别硬标签信息作为输入，通过至少一种自然语言词向量模型查找类别硬标签在对应自然语言词向量模型下的词向量矩阵。

参见图4，对于训练集内出现的所有类别硬标签（比如类别标签名称等标签信息），按一定顺序对所有类别硬标签进行排列。将训练集内出现的单词构成的类别硬标签作为输入，输入到自然语言词向量模型查找各个类别硬标签在对应自然语言词向量模型下的词向量，并按行拼接成词向量矩阵G。可选地，若类别标签名称出现多个单词，将多个单词输入到词向量模型分别查出各个单词对应的词向量并取平均，即可得到该类别标签名称对应的在对应自然语言词向量模型下的词向量。

由于自然语言词向量模型Glove是根据训练语料库和向量长度的不同具有多个版本，例如glove.6B.50d表示使用约60亿单词量的训练语料库训练得到的向量维度为50的词向量模型，因此采用不同自然语言词向量模型对相同类别硬标签进行查询可以查找对不同的词向量矩阵；比如，词向量矩阵G的下标表示不同的词向量矩阵，共N个。

步骤B2、对类别硬标签信息在至少一种自然语言词向量模型下的词向量矩阵分别进行转换，得到类别硬标签信息在至少一种自然语言词向量模型下的第一临时软标签矩阵。

参见图4，针对不同自然语言词向量模型得到的不同词向量矩阵，分别计算G₁、 G₂、…、G_N等不同词向量矩阵的邻接矩阵A。例如，求解词向量矩阵对应的邻接矩阵的计算公式可以为：

；其中，sigmoid函数表示对传入的词向量矩阵中的每个元素均使用sigmoid函数进行激活，其含义为将词向量矩阵G各行向量两两点积后再将数值激活为正数，从而得到邻接矩阵。

参见图4，在得到各个词向量矩阵G的邻接矩阵A之后，可以对邻接矩阵A进行正则化处理得到归一化矩阵L。例如，归一化矩阵L为：

,

；其中，D矩阵为A 的度矩阵，它是对角矩阵，且对角线上元素为A矩阵相应行的和。

参见图4，可以采用标签传播公式将归一化矩阵L矩阵转化为对应的传播矩阵P。例如，标签传播所需的传播矩阵计算公式为：

；其中，I为单位矩阵，α是控制缩放的超参数，其范围为

。单位矩阵I基于词向量矩阵G的行数进行确定。这样，可以将 G₁、G₂、…、G_N等不同词向量矩阵进行处理，获得不同传播矩阵P₁、P₂、…、P_N。在获得N个传播矩阵后，每个传播矩阵P中的每行可视为相应类别对各类别的相似度向量，按下式标签传播计算得到N个第一临时软标签K矩阵，比如，

，

为单位矩阵。

步骤B3、将在至少一种自然语言词向量模型下的第一临时软标签矩阵与类别硬标签信息对应的独热编码标签矩阵进行融合，得到当前训练使用的软标签适配信息。

参见图4，在获得不同自然语言词向量模型下第一临时软标签矩阵后，将N个第一临时软标签矩阵K矩阵和独热标签矩阵I进行融合可生成初始软标签矩阵

，其中初始软标签矩阵

中每一行对应一个类别的类别软标签，这样就可得到当前训练使用的软标签适配信息。例如，临时软标签K矩阵和独热标签矩阵I的融合公式可为：

；其中，β为控制软标签在

中所占信息比例的超参数，取值范围

，I为单位矩阵。

在本实施例的另一种可选方案中，确定当前训练使用的软标签适配信息，可以包括以下步骤C1-C4：

步骤C1、提取图像分类模型中全连接层的权值参数，得到权值矩阵。

步骤C2、将图像分类模型中全连接层中偏置项在行数维持不变的情况下沿矩阵列方向拼接至权值矩阵末尾，得到权值与偏置项对应的拼接矩阵。

参见图5，随着训练过程中模型掌握的图像类别特征越来越充分，能够对初始软标签矩阵进行软标签矩阵的不断更新优化。比如，若当前批次训练样本已经达到训练集的最后一批样本（即当前epoch结束），执行一次软标签更新操作，学习图像分类模型中全连接层的参数更新当前的软标签矩阵。

参见图5，在软标签矩阵更新时，将图像分类模型的全连接层FC中权值参数取出得到权值矩阵（其中矩阵行数为类别数）。通常图像分类模型中全连接层有偏置项，可将偏置项在行数维持不变的情况下沿着矩阵的列方向拼接至权值矩阵末尾，得到权值与偏置项对应的拼接矩阵。权值与偏置项对应的拼接矩阵记为矩阵

，其中，c为最后一层卷积神经网络层得到的图像特征向量的通道数。

步骤C3、对得到的权值与偏置项对应的拼接矩阵进行转换，得到第二临时软标签矩阵。

参见图5，根据权值与偏置项对应的拼接矩阵的矩阵行数得到一个行数相同的单位矩阵

，此矩阵与生成初始软标签矩阵时的单位矩阵相同。与生成初始矩阵标签矩阵过程中传播矩阵的方式类似，针对权值与偏置项对应的拼接矩阵，计算权值与偏置项对应的拼接矩阵的邻接矩阵A。例如

；其中，sigmoid函数表示对传入的矩阵中的每个元素均使用sigmoid函数进行激活，从而得到邻接矩阵。在得到权值与偏置项对应的拼接矩阵的临界矩阵A之后，可以对临界矩阵A进行正则化处理得到归一化矩阵 L。例如，归一化矩阵L为：

,

；其中，D矩阵为A的度矩阵，它是对角矩阵，且对角线上元素为A矩阵相应行的和。

参见图5，可以采用标签传播公式将归一化矩阵L矩阵转化为对应的传播矩阵

。例如，标签传播的传播矩阵计算公式为：

；其中，α是控制缩放的超参数，其范围为

。在获得权值与偏置项对应拼接矩阵的传播矩阵后，每个传播矩阵

中每行可视为相应类别对各类别的相似度向量，按标签传播公式计算得到第二临时软标签

矩阵，比如

。

步骤C4、将第二临时软标签矩阵与初始化生成的软标签适配信息或者上一次迭代更新生成的软标签适配信息进行融合，得到当前训练使用的软标签适配信息。

参见图5，获得学习到模型中图像特征以及参数的第二临时软标签

矩阵后，有两种备选方案对软标签进行更新。在一种可选方案中，将第二临时软标签

矩阵按照预设权重比例融合至初始软标签矩阵K_ori中得到当前第n次迭代产生的最新标签矩阵

。即，

；其中γ为控制图像特征软标签矩阵在更新过程所占程度的超参数，取值范围

。

在另一种可选方案中，可将更新过程视为一个迭代的过程，将得到的第二临时软标签

矩阵与上一次更新得到的软标签矩阵按照预设权重比例进行融合，比如按下式得到最新标签矩阵

：

,

，即第一次迭代与第一种方案完全一致，但从第二次迭代开始，将第二临时软标签

矩阵与上一次迭代更新的软标签矩阵

进行融合，而不是与初始软标签矩阵K_ori进行融合。

S320、将训练样本的类别硬标签信息作为索引，通过查询软标签适配信息确定训练样本的类别硬标签信息对应的类别软标签信息。

软标签适配信息可以矩阵的形式表示，也可采用查询表的形式，只要能保证软标签适配信息中有融合语义内容的类别软标签信息，且类别软标签信息通过学习图像分类模型中部分参数（本文中为全连接层中的参数）进行更新。

S330、将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率。

S340、依据训练样本对应的类别软标签信息与对应的各类别预测概率，对图像分类模型中卷积神经网络层与全连接层的参数进行调整更新，得到新的图像分类模型。

根据本发明实施例中提供的融合语义和图像特征的智能训练方法，类别硬标签不直接与类别预测概率进行结合，而是先将硬标签作为索引经过查询得到对应类别软标签信息，能够在图像分类任务中，使用类别中的自然语言信息自适应地生成更为平滑的标签，将融入了语义的软标签与预测概率结合进行参数更新，同时使用融合自然语言信息和图像信息的新模式进行模型更新，能够较好地提升模型的鲁棒性。同时，通过软标签更新能够使用模型中学习到的部分参数对软标签作进一步更新，进一步提高模型的鲁棒性。

图6是本发明实施例中提供的一种融合语义和图像特征的智能训练装置的结构框图。本发明实施例可适用于利用小样本学习对图像分类模型进行训练的情况。该装置可以采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。如图6所示，本申请实施例中提供的融合语义和图像特征的智能训练装置，可以包括：软标签生成模块610、分类预测模块620和模型参数更新模块630。其中：

软标签生成模块610，用于对训练样本的类别硬标签信息自然语言处理，生成对应的类别软标签信息；

分类预测模块620，用于将训练样本送入图像分类模型中卷积神经网络层与全连接层处理，经过激励函数激活得到训练样本对应的各类别预测概率；

模型参数更新模块630，用于依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络层与全连接层的参数进行调整更新，得到新的图像分类模型。

在上述实施例的基础上，可选地，所述类别硬标签信息包括类别名称信息、类别描述文本信息和/或类别属性信息。

在上述实施例的基础上，可选地，软标签生成模块610包括：

确定当前训练使用的软标签适配信息；所述软标签适配信息预先记录有类别硬标签信息所对应的融合有类别硬标签信息语义内容的类别软标签信息；

将训练样本的类别硬标签信息作为索引，通过查询软标签适配信息确定训练样本的类别硬标签信息对应的类别软标签信息。

在上述实施例的基础上，可选地，确定当前训练使用的软标签适配信息可以包括：

将训练集内出现的单词构成的类别硬标签信息作为输入，通过至少一种自然语言词向量模型查找类别硬标签在对应自然语言词向量模型下的词向量矩阵；

对所述类别硬标签信息在至少一种自然语言词向量模型下的词向量矩阵分别进行转换，得到在至少一种自然语言词向量模型下的第一临时软标签矩阵；

将在至少一种自然语言词向量模型下的第一临时软标签矩阵与类别硬标签信息对应的独热编码标签矩阵进行融合，得到当前训练使用的软标签适配信息。

提取所述图像分类模型中全连接层的权值参数，得到权值矩阵；

将所述全连接层中偏置项在行数维持不变的情况下沿矩阵列方向拼接至权值矩阵末尾，得到权值与偏置项对应的拼接矩阵；

对所述权值与偏置项对应的拼接矩阵进行转换，得到第二临时软标签矩阵；

将第二临时软标签矩阵与初始化生成的软标签适配信息或者上一次迭代更新生成的软标签适配信息进行融合，得到当前训练使用的软标签适配信息。

在上述实施例的基础上，可选地，模型参数更新模块630包括：

依据训练样本对应的类别软标签与对应的各类别预测概率，通过进行交叉熵计算得到所述图像分类模型的损失函数值；

依据所述图像分类模型的损失函数值，利用梯度下降法对所述卷积神经网络层与全连接层的参数进行调整更新。

在上述实施例的基础上，可选地，所述图像分类模型的损失函数值计算公式包括以下：

其中，

表示第i个训练样本的第j个类别的预测概率，

本发明实施例中所提供的融合语义和图像特征的智能训练装置可执行上述本发明任意实施例中所提供的融合语义和图像特征的智能训练方法，具备执行该融合语义和图像特征的智能训练方法相应的功能和有益效果，详细过程参见前述实施例中融合语义和图像特征的智能训练方法的相关操作。

图7是本发明实施例中提供的一种电子设备的结构示意图。如图7所示结构，本发明实施例中提供的电子设备包括：一个或多个处理器710和存储装置720；该电子设备中的处理器710可以是一个或多个，图7中以一个处理器710为例；存储装置720用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器710执行，使得所述一个或多个处理器710实现如本发明实施例中任一项所述的融合语义和图像特征的智能训练方法。

该电子设备还可以包括：输入装置730和输出装置740。

该电子设备中的处理器710、存储装置720、输入装置730和输出装置740可以通过总线或其他方式连接，图7中以通过总线连接为例。

该电子设备中的存储装置720作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中所提供的融合语义和图像特征的智能训练方法对应的程序指令/模块。处理器710通过运行存储在存储装置720中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中融合语义和图像特征的智能训练方法。

存储装置720可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储装置720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

并且，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器710执行时，程序进行如下操作：

当然，本领域技术人员可以理解，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器710执行时，程序还可以进行本发明任意实施例中所提供的融合语义和图像特征的智能训练方法中的相关操作。

本发明实施例中提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时用于执行融合语义和图像特征的智能训练方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（Random AccessMemory，RAM）、只读存储器（Read Only Memory，ROM）、可擦式可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率（RadioFrequency，RF）等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种融合语义和图像特征的智能训练方法，其特征在于，包括：

确定当前训练使用的软标签适配信息；所述软标签适配信息预先记录有类别硬标签信息所对应的融合有该类别硬标签所蕴含的语义内容信息以及类别硬标签信息对应的独热编码标签矩阵信息的类别软标签信息；

将训练样本的类别硬标签信息作为索引，通过查询软标签适配信息确定训练样本的类别硬标签信息对应的类别软标签信息；

将训练样本送入图像分类模型中卷积神经网络处理，得到训练样本对应的各类别预测概率；

依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络的参数进行调整更新，得到新的图像分类模型；

其中，确定当前训练使用的软标签适配信息，包括：提取所述图像分类模型中卷积神经网络的全连接层的权值参数，得到权值矩阵；将所述全连接层中偏置项在行数维持不变的情况下沿矩阵列方向拼接至权值矩阵末尾，得到权值与偏置项对应的拼接矩阵；对所述权值与偏置项对应的拼接矩阵进行转换，得到第二临时软标签矩阵；将第二临时软标签矩阵与初始化生成的软标签适配信息或者上一次迭代更新生成的软标签适配信息进行融合，得到当前训练使用的软标签适配信息。

2.根据权利要求1所述的方法，其特征在于，所述类别硬标签信息包括类别名称信息、类别描述文本信息和/或类别属性信息。

3.根据权利要求1所述的方法，其特征在于，确定当前训练使用的软标签适配信息，包括：

4.根据权利要求1所述的方法，其特征在于，依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络的参数进行调整更新，包括：

依据所述图像分类模型的损失函数值，利用梯度下降法对所述卷积神经网络的卷积层与全连接层的参数进行调整更新。

5.根据权利要求4所述的方法，其特征在于，所述图像分类模型的损失函数值计算公式包括以下：

其中，

表示第i个训练样本的第j个类别的预测概率，

表示第i个训练样本的第j个类别的类别软标签取值，p表示训练样本的个数，T表示训练样本的类别数。

6.一种融合语义和图像特征的智能训练装置，其特征在于，包括：

软标签生成模块，用于确定当前训练使用的软标签适配信息；其中所述软标签适配信息预先记录有类别硬标签信息所对应的融合有该类别硬标签所蕴含的语义内容信息以及类别硬标签信息对应的独热编码标签矩阵信息的类别软标签信息；以及，将训练样本的类别硬标签信息作为索引，通过查询软标签适配信息确定训练样本的类别硬标签信息对应的类别软标签信息；

分类预测模块，用于将训练样本送入图像分类模型中卷积神经网络处理，得到训练样本对应的各类别预测概率；

模型参数更新模块，用于依据训练样本对应的类别软标签信息与对应的各类别预测概率，对所述卷积神经网络的参数进行调整更新，得到新的图像分类模型；

7.一种电子设备，其特征在于，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现权利要求1-5中任一所述的融合语义和图像特征的智能训练方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-5中任一所述的融合语义和图像特征的智能训练方法。