CN112990296A

CN112990296A - 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***

Info

Publication number: CN112990296A
Application number: CN202110261563.6A
Authority: CN
Inventors: 王亮; 黄岩; 王聿铭; 袁辉; 纪文峰; 李凯
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18
Anticipated expiration: 2041-03-10
Also published as: CN112990296B

Abstract

本发明提供了一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***，该方法包括：S1：获取图文匹配数据集，并构建学生网络模型和老师网络模型；S2：对所述图文匹配数据集进行预处理和数据加载；S3：基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵，计算差分相似度矩阵；基于差分相似度矩阵，计算奇异值；基于奇异值，构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数；计算联合损失函数；基于联合损失函数对学生网络模型进行训练；S4：对训练完成后的学生网络模型进行性能测试，得到图文匹配数据集的性能评测结果和训练好的学生网络模型；S5：将待测图像或文本输入训练好的学生网络模型，输出文本或图像。

Description

基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图文匹配技术在很多领域都有广泛的应用需求，如：安防监控场景下的基于自然语言的行人/身份/行为/事件/属性/目标检索、人机交互背景下的语音-图像跨模态检索、互联网电商平台中商品的文字描述与图像照片的跨模态匹配及相关产品推荐等。此外，图文匹配技术的进步也可以推动指代性表达、视觉问答、图像描述、交互式三维视觉场景多轮对话、视觉辅助的跨语种翻译、视觉-语言导航、基于语言的图像合成等众多视觉-语言多模态任务的共同进步。

图文匹配任务始终面临着来自视觉-语言之间“语义理解鸿沟”的巨大挑战，它来源于图像与文本间存在的巨大数据结构差异。虽然图文匹配在近几年出现了自底向上注意力机制、预训练语言模型、图像-文本融合式建模等重要研究进展，发表的很多相关工作都取得了越来越好的效果，将图文匹配的性能提高到了前所未有的新高度，但是伴随而来的模型参数量大、匹配时间长，为图文匹配在普通家用电脑等纯CPU平台以及智能手机等低功耗移动嵌入式平台的应用落地带来了巨大的挑战，限制了视觉-语言跨模态分析理解能力的大范围应用部署。

而且，传统的针对CV或NLP单一领域任务的模型压缩与计算加速方法，已不能很好地解决图文匹配这种同时涉及CV与NLP两个领域的视觉-语言多模态任务的模型压缩与计算加速问题。虽然这些传统的单模态模型压缩与加速方法可以分别使得图文匹配模型中的视觉编码器、文本编码器的参数量、计算量得到一定程度的降低，但是图文匹配模型整体的跨模态检索性能也会遭受比较严重的损失，导致推断效率与检索性能无法很好兼顾。针对图文匹配的模型压缩与加速问题，国内外学术界产业界目前也没有提供比较行之有效的解决策略。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***，其基本原理是运用提出的正交相似度蒸馏训练的核心技术，以性能较强的老师网络模型作为高性能知识的来源，将老师网络的高性能知识“蒸馏”传授给模型较小、效率较高的学生网络模型，使学生网络模型兼具高效率与高性能。在国内外率先解决了图文匹配任务高效率与高精度难以兼顾的问题，并取得了国际领先水平。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法。

一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法，包括：

S1：获取图文匹配数据集，并构建学生网络模型和老师网络模型；

S2：对所述图文匹配数据集进行预处理和数据加载；

S3：基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵，计算差分相似度矩阵；基于差分相似度矩阵，计算奇异值；基于奇异值，构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数；基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数，计算联合损失函数；基于联合损失函数对学生网络模型进行训练；

S4：对训练完成后的学生网络模型进行性能测试，得到图文匹配数据集的性能评测结果和训练好的学生网络模型；

S5：将待测图像或文本输入训练好的学生网络模型，输出图像对应的文本或文本对应的图像。

本发明的第二个方面提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速***。

一种基于正交相似度蒸馏的图文匹配模型压缩与加速***，包括：

模型构建模块，其被配置为：获取图文匹配数据集，并构建学生网络模型和老师网络模型；

预处理和数据加载模块，其被配置为：对所述图文匹配数据集进行预处理和数据加载；

训练模块，其被配置为：基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵，计算差分相似度矩阵；基于差分相似度矩阵，计算奇异值；基于奇异值，构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数；基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数，计算联合损失函数；基于联合损失函数对学生网络模型进行训练；

结果诊断模块，其被配置为：对训练完成后的学生网络模型进行性能测试，得到图文匹配数据集的性能评测结果和训练好的学生网络模型；

输出模块，其被配置为：将待测图像或文本输入训练好的学生网络模型，输出图像对应的文本或文本对应的图像。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明将模型压缩与加速技术运用于图文匹配任务中，实现较小模型参数量和计算代价下图文匹配性能的进一步提升，最终实现图文匹配模型的小型化与高效推断以及CPU平台部署，在参数压缩、推断加速、匹配性能三个方面均取得了国际领先水平，具有“小、快、准”的特点。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于正交相似度蒸馏的图文匹配模型压缩与加速方法流程图；

图2是本发明的核心技术流程图；

图3是本发明的实施框架示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

图文匹配(Image-Text Matching，ITM，又名图文检索或图文对齐Image-SentenceRetrieval/Alignment)是计算机视觉(Computer Vision，CV)与自然语言处理(NaturalLanguage Processing，NLP)的跨学科交叉领域——视觉-语言多模态(Vision-LanguageMulti-Modal)中的一个经典任务，是人工智能***具有跨模态分析理解能力的标志之一，也是同属视觉-语言多模态领域的其它任务，如：指代性表达(Refering Expression)、视觉问答(Visual Question Answering，VQA)、图像描述(Image Captioning)的共同模型基础，是沟通CV与NLP两个领域的重要桥梁，也是类脑智能研究在多模态领域的代表性任务，其意义不言而喻。

图文匹配任务的含义是：如果在一个同时具有图像和对应文本描述的视觉-语言多模态数据库中，通过输入一幅图像(或一段文本)作为查询内容，能够输出一段文本(或一幅图像)作为检索结果，且输入和输出的图像和文本在语义上是有联系的，那么这样一种能够在图像-文本之间进行跨模态语义检索与匹配的任务，就是图文匹配。

针对背景技术中提出的问题，本发明将模型压缩与加速技术运用于图文匹配任务中，以性能较强的老师网络模型作为高性能知识的来源，将老师网络模型的高性能知识“蒸馏”传授给模型较小、效率较高的学生网络模型，使学生网络模型兼具高效率与高性能。

具体来讲，本发明主要包括1项核心技术、3项配套技术以及1套实施框架。其中，1项核心技术是：正交相似度蒸馏训练技术，它是本发明的核心部分，也是本发明有别于其它模型压缩与加速方法的关键，同时也是确保图文匹配模型“小、快、准”的关键。

这项核心技术中的关键环节就是正交相似度蒸馏损失函数的计算，它的基本原理是以相似度矩阵作为“知识”载体，以SVD正交分解作为“知识”分析的工具，以类白化变换作为减少差分相似度矩阵相关性和方差的手段，以奇异值衰减后的F范数平方作为知识“蒸馏”传授效果的度量。

3项配套技术分别是：(1)学生网络和老师网络的准备；(2)联合损失函数的计算；(3)学生网络模型的两阶段训练。1套实施框架是：囊括了从数据和模型准备，到训练-验证-测试各阶段，再到CPU平台推断加速的完整实施流程框架。这3项配套技术和1套实施框架是与本核心技术相适配的，是最大发挥本核心技术的知识蒸馏训练效果和CPU部署推断效率的保障，缺一不可。

实施例一

本实施例提供了一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法。

根据本发明内容的概述，本发明主要包括的1项核心技术、3项配套技术以及1套实施框架与上述方法的具体步骤的对应关系如下。S3对应于前述的1项核心技术(正交相似度蒸馏训练技术)，如图2所示。S1.4、S3.4、S3.5分别对应于前述的3项配套技术(学生网络模型和老师网络模型的准备、联合损失函数的计算、学生网络模型的两阶段训练)。S1至S5对应于前述的1套实施框架，如图3所示。在后面的具体实施方案部分，还会进一步介绍上述方法的具体步骤的详细含义。

如图1所示，一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法，包括：

数据和模型的准备工作的目的是选择/构建符合任务要求的图文匹配数据集，挑选/训练适合进行正交相似度蒸馏训练的学生、老师网络模型，具体包括以下4个子步骤：

S1.1：获取图文匹配数据集；

图文匹配数据集(dataset)是模型训练与测试的样本来源，里面的图像与相应的文字描述在语义内容上应已正确配对，比如公开数据集Flickr30k或MSCOCO，里面每幅图像都配有5句人为标注的英文描述。也可以根据任务的具体需求，自行收集图像并给出人工的文本标注，或者选择其它图文多模态公开数据集。

S1.2：采用切词器对图文匹配数据集中的文本进行切词处理，并按词的出现顺序配以相应的整数编号，构建双向词典集合；

词典(vocabulary)是对于文本进行建模的基础，其总词条数代表着文本编码器所能识别的词汇量，其中的单词应该至少从S1数据集的训练集中提取。准备词典需要利用切词器(tokenizer)对数据集中的文本(一般是短语/句子)进行切词，并按词的出现顺序配以相应的整数编号，构建双向的词典集合。其中，正向词典以词为键(key)，以编号为值(value)，用于将字符串句子翻译成编号序列；反向词典以编号为键，以词为值，用于将编号序列翻译成字符串句子。如果词典的总词条数过大，且具有长尾分布，也可以选择词频超过一定阈值的词构建成小一些的词典，去掉稀有词汇，保留高频词汇。

S1.3：采用图像编码器和文本编码器分别提取图文匹配数据集的图像特征和文本特征；

图像编码器(image encoder)和文本编码器(text encoder)都是图文匹配模型中的必要组件之一，其作用分别是对图像和文本进行特征提取。

图像编码器选择在ImageNet等图像分类数据集上经过预训练的卷积神经网络CNN(如：ResNet152，参数量60M)；或在Visual Genome等视觉-语言多模态数据集上经过预训练的区域卷积神经网络RCNN(如：Faster-RCNN)；或者进一步经过轻量化组件等模型压缩技术得到的小型CNN模型(如：ResNeXt50，参数量25M)。然后去掉这些CNN/RCNN模型的最后一个全连接层(FC层)作为最终的图像编码器。

文本编码器选择循环神经网络RNN(如：GRU、LSTM；还分成单向和双向类型)配以词嵌入(Word Embedding)(如：word2vec、glove)；或者在WMT 2014English-German dataset(4.5M句子对)、WMT 2014English-French dataset(36M句子对)或者BOOKCORPUS(800M单词)、English Wikipedia(2.5B单词)等语料库上经过预训练的语言模型(如：Transformer、BERT)；或者进一步经过参数共享、知识蒸馏等模型压缩技术得到的轻量化预训练语言模型(如：ALBERT、TinyBERT)。

S1.4：构建学生网络模型和老师网络模型，将老师网络模型的知识传授给学生网络模型，所述学生网络模型和老师网络模型包括图像编码器和文本编码器。

由于本方法需要进行正交相似度蒸馏训练，因此需要构建学生网络模型和老师网络模型，将老师网络模型的知识传授给学生网络模型。而学生网络模型和老师网络模型的重要组成部分就是S1.3的图像、文本编码器。

首先，为学生网络模型和老师网络模型各选择一组图像、文本编码器，并对学生网络模型和老师网络模型各自的图像、文本编码器分别加载各自预先准备好的预训练模型参数文件。其中，学生网络模型的图像、文本编码器选择参数量/计算量较小、性能较弱的中小型CNN、RNN(如：ResNeXt50、ALBERT)；老师网络模型的图像、文本编码器选择参数量/计算量较大、性能较强的大中型CNN、RNN(如：Faster-RCNN、BERT)。

然后，对老师网络模型的图像、文本编码器进行联合训练。这里的训练集与学生网络模型即将进行正交相似度蒸馏训练的训练集要完全相同，以确保老师网络模型要传授的知识和学生网络模型要学习的知识来自同一个图文匹配数据集。经过图像、文本编码器的联合训练得到最终可以对学生网络模型进行正交相似度蒸馏训练的老师网络模型(如：VSRN、SAEM)。

最后，需要将老师网络模型的可学习参数的梯度都关闭，以确保老师网络模型在训练过程中不会进行反向传播和梯度更新，确保老师网络模型的高性能知识得到保护。而学生网络模型的可学习参数的梯度，可以根据调参的具体需求进行设定，一般都是打开的；不过，本专利对学生网络模型采取两阶段训练方式，详见S3.5，所以梯度开关情况与一般情况有所不同。

S2：对所述图文匹配数据集进行预处理和数据加载；

数据集的预处理和数据加载的目的是得到符合正交相似度蒸馏训练要求的图文匹配训练集、验证集、测试集，具体包括以下三个子步骤。

S2.1：根据任务需要，对所述图文匹配数据集中的图像进行预处理，图像预处理至少包括：归一化、缩放、随机剪裁以及随机翻转处理中的一种；

S2.2：根据任务需要，对所述图文匹配数据集中的文本进行预处理，文本预处理至少包括：采用切词器将句子切分成单个单词，采用S1.2所述的双向词典集合将每个单词从字符串映射成整数编号，进而将整数编号映射成一位有效编码，或，对长度不够的句子补零填充，或，对句长降序排列处理中的一种；

文本(短语/句子)需要用切词器将句子切分成各个单词，并用S1.2的词典将每个单词从字符串映射成整数编号，再进一步将整数编号映射成一位有效(one-hot)编码，对长度不够的句子补零填充，对句长降序排列等预处理。

S2.3：对图文匹配数据集进行分割、乱序和批次整理，完成图文匹配训练集、图文匹配验证集以及图文匹配测试集的加载。

正交相似度蒸馏训练技术是本发明所提出方法的核心技术，也是本方法有别于其它模型压缩与加速方法的关键，同时也是确保图文匹配模型“小、快、准”的关键。

其中S3包括：

S3.1：获取一批次的图文匹配训练集；

从S2.3的训练集(train_set)中取一个批次(batch)的图像和文本数据。如果训练集全部样本都取完了，则重新加载训练集。如果训练集剩余样本不足一个批次大小(batchsize)，则将剩余样本都取走，或者选择忽略，继续下一轮数据集加载。

公式(1)表示一批次数据的加载。其中，I_i、C_i分别是加载出的一批次中的第i个图像和第i个句子，N是批次大小(batch size)，实验中选择N＝128。

{I_i,C_i}_i＝1,...,N (1)

S3.2：采用前向传播对所述学生网络模型和老师网络模型进行处理，得到相似度打分矩阵；

学生和老师网络模型的前向传播(forward-propagation)需要经过特征提取、联合语义嵌入、相似度匹配三个阶段，目的是得到相似度打分矩阵，作为正交相似度蒸馏损失函数的分析依据。

S3.2.1：对一批次的图像、文本分别采用图像编码器和文本编码器提取每幅图像、每个句子的特征向量编码；

对S3.1的一批次图像、文本分别使用S1.4的学生网络模型和老师网络模型各自的图像、文本编码器提取每幅图像、每个句子的特征(feature)向量编码。

图像特征向量的编码过程：对于CNN类型(分类任务)的图像编码器，需要从当前批次中的图像直接提取整幅图像的特征向量；对于RCNN类型(目标检测任务)的图像编码器，需要从当前批次中的图像进行目标检测，并对检测出的多个目标分别提取区域级特征向量，最终通过平均池化(Average Pooling)等方式将区域级特征向量综合成整幅图像的特征向量。

文本特征向量的编码过程：需要首先用S1.3的词嵌入将当前批次中每句话的每个单词的one-hot编码映射成一维连续的词嵌入向量表示，然后将这些词嵌入向量按照在句子中的先后顺序依次送入文本编码器进行上下文语境(context)编码，得到单词级特征向量，最终通过平均池化等方式将单词级特征向量综合成整个句子的特征向量。

公式(2)(3)分别表示学生网络模型的图像、文本编码器的特征向量提取过程。其中，图像编码器是ResNeXt50的32x4d版本，文本编码器是ALBERT，I_i、C_j分别是第i个图像和第j个句子，v_i、c_j分别是第i个图像和第j个句子的特征向量，F、E分别表示图像、文本特征向量的维数。实验中选择F＝2048，E＝1024。

v_i＝ResNeXt(I_i)∈R^F (2)

c_j＝ALBERT(C_j)∈R^E (3)

S3.2.2：对学生网络和老师网络分别使用各自的全连接层将图像、文本特征向量分别嵌入到各自的联合语义空间，并进行归一化，得到联合语义嵌入向量；

对学生网络模型和老师网络模型分别使用各自的全连接层将图像、文本特征向量分别嵌入到各自的联合语义空间，并进行归一化，得到联合语义嵌入(embedding)向量，使得学生网络模型和老师网络模型各自的图像、文本的嵌入向量的维数相同且向量模长都是1。

公式(4)中的Wv_i表示图像编码器对于图像特征向量进行联合语义嵌入的过程。其中，W∈R^E×F表示图像编码器使用的全连接层可学习参数。

S3.2.3：使用余弦相似度对当前批次内的学生网络模型和老师网络模型各自的图像和文本嵌入向量进行相似度匹配，得到学生网络模型和老师网络模型各自的余弦相似度打分矩阵。

使用余弦相似度(cosine similarity)对当前批次内的学生网络模型和老师网络模型各自的图像和文本嵌入向量进行相似度匹配(matching)，得到学生网络和老师网络各自的N×N大小的余弦相似度打分矩阵，其中，N是批次大小。

公式(4)表示一幅图像与一句文本进行余弦相似度匹配时的计算过程。其中，s_ij表示第i个图像与第j个句子之间的余弦相似度值，cos(·，·)表示余弦相似度，隐含了对于输入向量的归一化处理，以及点积计算方式，取值范围是[-1，1]。公式(5)(6)中的S和T分别表示老师网络模型的相似度打分矩阵。其中，公式(5)中的相似度矩阵元素s_ij来自公式(4)的余弦相似度计算结果，公式(6)中老师网络模型的相似度打分矩阵T的获取方式与学生网络模型类似，都是通过步骤S3.1公式(1)的一批次数据加载，步骤S3.2公式(2)(3)的图像、文本编码器特征提取，公式(4)的余弦相似度计算得来的。

s_ij＝cos(Wv_i，c_j)∈[-1，1] (4)

S＝[s_ij]∈[-1，1]^N×N (5)

T＝[t_ij]∈[-1，1]^N×N (6)

S3.3：基于学生网络的相似度矩阵和老师网络的相似度矩阵，计算正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数；

正交相似度蒸馏技术中的关键环节就是正交相似度蒸馏损失函数的计算，具体包括以下五个子步骤，目的是得到正交相似度蒸馏损失。它的基本原理是以相似度矩阵作为“知识”载体，以SVD正交分解作为“知识”分析的工具，以类白化变换作为减少差分相似度矩阵相关性和方差的手段，以奇异值衰减后的F范数平方作为知识“蒸馏”传授效果的度量。

S3.3.1：采用学生网络模型的相似度矩阵逐元素减去老师网络模型的相似度矩阵，得到差分相似度矩阵；

用学生网络的相似度矩阵逐元素减去老师网络的相似度矩阵，得到差分相似度矩阵。

公式(7)表示差分相似度矩阵D的计算过程。

D＝S-T (7)

S3.3.2：将差分相似度矩阵的转置乘以差分相似度矩阵，得到半正定相似度矩阵；

用差分相似度矩阵的转置(transpose)乘以差分相似度矩阵，得到半正定(semi-positive definite，SPD)相似度矩阵。

此时，半正定相似度矩阵D^TD的迹(trace)就是F范数平方意义下的差分相似度矩阵的蒸馏损失值。而且，这个值还等于差分相似度矩阵经过奇异值分解(Singular ValueDecomposition，SVD)之后各个奇异值的平方和。为了后续介绍方便，对奇异值按其平方大小降序排列。对于SVD正交分解而言，标准正交基的选取不唯一，可以任意选择，并不影响本专利正交相似度蒸馏的效果。

公式(8)表示了上述半正定相似度矩阵的迹、F范数平方蒸馏损失、奇异值的平方和三者之间的等量关系。其中，

表示矩阵的F范数平方，Tr(·)表示矩阵的迹，

是差分相似度矩阵经过SVD分解得到的第i个奇异值的平方。

公式(9)表示F范数平方蒸馏损失的定义。

而且，这个值也约等于对差分相似度矩阵的F范数平方蒸馏损失经过偏差-方差分解(Bias-Variance Decomposition)之后得到的方差部分的值(实验表明，偏差Bias≈0)。

公式(10)表示偏差-方差分解。其中，E[·]、Var(·)、Cov(·，·)分别表示均值、方差、协方差。

公式(11)表示偏差Bias约等于0产生的新的等量关系。

S3.3.3：对差分相似度矩阵进行SVD分解，得到奇异值，所述奇异值等于半正定相似度矩阵经过SVD分解得到的奇异值的开方；

对差分相似度矩阵进行SVD分解，得到奇异值(S3.3.2已按奇异值平方大小降序排列)。

公式(12)表示差分相似度矩阵D的奇异值分解，其中Σ＝diag([σ₁，...，σ_N])是一个对角矩阵，其中的奇异值按其平方大小降序排列，即：

1≤i<j≤N，U和V是分解得到的左奇异矩阵和右奇异矩阵，里面包括了所有对应于差分相似度矩阵D的行/列维度的正交向量，T是矩阵转置。

D＝UΣV^T (12)

对于S3.3.2的半正定相似度矩阵D^TD而言，它经过SVD分解得到的奇异值Σ^TΣ等于本步骤(S3.3.3)中公式(12)差分相似度矩阵经过SVD分解出的奇异值Σ的平方。

公式(13)表示了半正定相似度矩阵D^TD的奇异值与差分相似度矩阵D奇异值之间的平方关系。其中，公式(14)是推导过程，它表示了Σ^TΣ是半正定相似度矩阵D^TD的经过SVD分解的奇异值结果。

D^TD＝(VΣ^TU^T)(UΣV^T)＝V(Σ^TΣ)V^T (14)

S3.3.4：对差分相似度矩阵经过SVD分解得到的奇异值进行平方意义下的均衡化处理和类白化变换，所述类白化变换包括：软类白化变换和硬类白化变换；

类白化变换(Whitening-like Transformation)具体包括软变换和硬变换两种变换方式。它们共同的思想都是对于差分相似度矩阵经过SVD分解得到的奇异值(S3.3.2已按奇异值平方大小降序排列)进行平方意义下的均衡化处理的类白化变换，目的是大幅减少奇异值所在差分相似度矩阵行/列之间的相关性，缩小奇异值之间的绝对值大小差异。实际上，类白化变换的核心思想与ZCA白化(Zero-phase Component Analysis Whitening，ZCAWhitening)一致，但也有本方法特有的改进之处，故称其为类白化变换。

软类白化变换方式指的是：使用

函数(其中，b是log函数的底数，

是奇异值的平方；实验中选择b＝1)对百分比在前k的大奇异值平方进行衰减(对应于公式(15)中的

)，其余奇异值保持不变(对应于公式(15)中的

)，相当于平衡了全部的奇异值大小。

硬类白化变换方式指的是：使用对百分比在前k的大奇异值直接置0进行衰减(对应于公式(16)中的

)，其余奇异值保持不变(对应于公式(16)中的

)，相当于平衡了百分比在后1-k的奇异值大小。

S3.3.5：对软类白化变换得到的奇异值平方求和，得到正交相似度软蒸馏损失；对硬类白化变换得到的奇异值平方求和，得到正交相似度硬蒸馏损失。

对软类白化变换得到的奇异值平方求和，得到正交相似度软蒸馏损失；对硬类白化变换得到的奇异值平方求和，得到正交相似度硬蒸馏损失。

公式(15)(16)分别表示正交相似度软蒸馏损失L_soft和正交相似度硬蒸馏损失L_hard的计算过程。其中，D^*、D^-分别是软变换差分相似度矩阵和硬变换差分相似度矩阵。实验中，k＝5％～15％是最佳百分比范围。

S3.4：基于正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数，计算联合损失函数；

尽管S3.3得到的正交相似度蒸馏损失比图文匹配常用的排名损失能够得到更好的训练效果，但是，如果这两个损失函数能够联合起来指导训练，那么将会取得更好的训练效果。

S3.4.1：使用S3.2得到的学生网络模型相似度打分矩阵计算学生网络模型的排名损失函数；

使用S3.2得到的学生网络相似度打分矩阵去计算学生网络的排名损失(RankingLoss，也叫做Triplet Loss或者Max Loss，属于对比度损失)，作用是充分挖掘难分负样本(hard-negative samples)的指导潜力，将难分负样本对与正样本对之间的距离拉开至少m的间隔(margin)，而且最终只对不符合最少间隔要求的最难分负样本(hardest-negativesamples)进行损失计算，以确保区分度(discriminative)和泛化性(generalization)。

公式(17)表示排名损失函数的计算过程。其中，m∈[0，1]代表间隔，s_ii代表正样本对之间的距离，s_ik和s_ki代表难分负样本对，ReLU(·)＝max{0，·}代表从难分负样本中筛选最难分负样本的最大值函数。实验中，m＝0.2。

S3.4.2：使用一个平衡系数对排名损失进行缩放，并与正交相似度软蒸馏损失函数或正交相似度软蒸馏损失函数求和作为联合损失函数。

使用一个平衡系数θ>0对排名损失进行缩放，并与正交相似度蒸馏损失(软/硬)求和作为联合损失，这样就能使得学生网络模型同时得到来自于数据集的图文对比度标注信息和来自老师网络的无监督知识蒸馏信息的双重指导，可以最大化提升学生网络模型的性能。

公式(18)表示联合损失函数的计算过程。实验中，θ＝1。

L＝L_soft|hard+θL_rank (18)

S3.5：基于联合损失函数对学生网络模型进行两阶段训练；

学生网络模型的两阶段训练分为普通训练(training)和精调训练(finetuning)。

在普通训练阶段，训练30个epoch，使用2e-4的学习率(learning rate)。其中，学生网络的图像编码器的可学习参数始终固定(不调参)，而学生网络的文本编码器的可学习参数在前15个epoch是固定的(不调参)，在后15个epoch是打开梯度的(调参)，这样做是为了在避免文本编码器训练崩溃的情况下，尽可能多地提高学生网络模型的性能。如果能够确保文本编码器训练不会崩溃，也可以在更早的epoch时期打开梯度(调参)。

在精调训练阶段，再训练15个epoch，使用2e-5的学***。

两个训练阶段均使用反向传播(backward-propagation，简称backward或BP)算法计算模型梯度(gradient，简称grad)，均使用自适应矩估计(ADAptive Momentestimation，ADAM)优化器执行梯度下降的参数更新(update)优化。

S3.6：采用图文匹配验证集对锻炼好的学生网络模型进行性能测评，若测评结果取得了新的最优精度，则保持当前学生网络模型的参数文件；否则，不保存；若训练次数达到最大时，没有在验证时取得新的最优精度，则退出训练。

每训练一定的iteration次数(1次forward和1次backward即1次iteration或1个pass)后，需要使用验证集数据对学生网络模型进行性能评测，目的有三个：检验模型的验证集性能(并记录到日志)，决定模型可学习参数文件是否保存(或更新)，决定训练是否早期停止(early stopping)。

学生网络在验证时的前向传播方式与S3.2相同，得到相似度打分矩阵。不过，有2处区别，一个是需要关闭学生网络所有可学习参数的梯度，以减少GPU显存的不必要消耗；一个是将模型的运行模式从训练模式切换成验证模式，以消除训练模式下某些特殊神经网络层(如：BatchNormalization和Dropout)的不确定前向传播行为。

然后用相似度打分矩阵计算出性能评测指标，包括图像到文本(image-to-text，i2t)和文本到图像(text-to-image，t2i)两个检索方向各自的排名前1/5/10召回率(recall@1/5/10)指标，以及平均排名(mean recall，meanr)，中位数排名(median recall，medr)，总召回率(recall sum，rsum)指标，并记录到日志文件中。

接下来，根据验证集评测结果的优劣，决定是否保存当前学生网络的模型参数文件，以及是否继续训练。如果取得了新的最优精度(rsum最优)，则保持当前模型参数文件；否则不保存。如果连续达到一定次数没有在验证时取得新的最优精度，则进行早期停止，退出训练，执行S4；如果超过训练的最大epoch次数，则退出训练，执行S4；否则继续训练，重复S3。

学生网络模型的性能测试包括单模型测试和集成模型测试两种。

单模型测试：学生网络模型训练完成后，需要加载测试集数据进行评测。学生网络在测试时的前向传播方式和评测指标与S3.6相同，区别只有数据集发生了更换。最终得到测试集的性能评测结果。

集成模型测试：需要训练2个不同的学生网络模型(如：设置不同的随机数种子)，然后对2个学生网络前向传播得到的相似度打分矩阵取平均值，用测试集进行性能评测。测试时的前向传播方式和评测指标与单模型测试时相同。

实施例二

一种基于正交相似度蒸馏的图文匹配模型压缩与加速***，其特征在于，包括：

此处需要说明的是，上述模型构建模块、预处理和数据加载模块、训练模块、结果诊断模块和输出模块对应于实施例一中的步骤S1至S5，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。

为了进一步提高本方法的得到的图文匹配模型的推断效率，以便在CPU平台也可以高效部署，可以对于图文匹配数据集的图像和文本进行预计算(pre-computing)嵌入向量的提取。

预计算嵌入向量的提取方法是：使用经过步骤S3正交相似度蒸馏训练的图文匹配学生网络模型，对需要进行图文匹配跨模态检索的给定数据集通过前向传播提取图像、文本各自的联合语义嵌入特征向量，并保存成预计算嵌入向量文件(如：.npy格式)。

这样的话，以后再次进行嵌入向量的余弦相似度比对时，就可以直接加载预计算嵌入向量文件，而无需进行模型的前向传播计算，减少了检索时间和存储代价，提高了CPU平台的部署和推断效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，包括：

S2：对所述图文匹配数据集进行预处理和数据加载；

2.根据权利要求1所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S1包括：

S1.1：获取图文匹配数据集；

3.根据权利要求2所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S2包括：

4.根据权利要求3所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S3包括：

S3.1：获取一批次的图文匹配训练集；

S3.5：基于联合损失函数对学生网络模型进行两阶段训练；

5.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S3.2包括：

6.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S3.3包括：

7.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法，其特征在于，所述S3.4包括：

8.一种基于正交相似度蒸馏的图文匹配模型压缩与加速***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。