CN112990296A - 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及*** - Google Patents

基于正交相似度蒸馏的图文匹配模型压缩与加速方法及*** Download PDF

Info

Publication number
CN112990296A
CN112990296A CN202110261563.6A CN202110261563A CN112990296A CN 112990296 A CN112990296 A CN 112990296A CN 202110261563 A CN202110261563 A CN 202110261563A CN 112990296 A CN112990296 A CN 112990296A
Authority
CN
China
Prior art keywords
image
similarity
network model
text
distillation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110261563.6A
Other languages
English (en)
Other versions
CN112990296B (zh
Inventor
王亮
黄岩
王聿铭
袁辉
纪文峰
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cas Artificial Intelligence Research Qingdao Co ltd
Original Assignee
Cas Artificial Intelligence Research Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cas Artificial Intelligence Research Qingdao Co ltd filed Critical Cas Artificial Intelligence Research Qingdao Co ltd
Priority to CN202110261563.6A priority Critical patent/CN112990296B/zh
Publication of CN112990296A publication Critical patent/CN112990296A/zh
Application granted granted Critical
Publication of CN112990296B publication Critical patent/CN112990296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***,该方法包括:S1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;S2:对所述图文匹配数据集进行预处理和数据加载;S3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;计算联合损失函数;基于联合损失函数对学生网络模型进行训练;S4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;S5:将待测图像或文本输入训练好的学生网络模型,输出文本或图像。

Description

基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
图文匹配技术在很多领域都有广泛的应用需求,如:安防监控场景下的基于自然语言的行人/身份/行为/事件/属性/目标检索、人机交互背景下的语音-图像跨模态检索、互联网电商平台中商品的文字描述与图像照片的跨模态匹配及相关产品推荐等。此外,图文匹配技术的进步也可以推动指代性表达、视觉问答、图像描述、交互式三维视觉场景多轮对话、视觉辅助的跨语种翻译、视觉-语言导航、基于语言的图像合成等众多视觉-语言多模态任务的共同进步。
图文匹配任务始终面临着来自视觉-语言之间“语义理解鸿沟”的巨大挑战,它来源于图像与文本间存在的巨大数据结构差异。虽然图文匹配在近几年出现了自底向上注意力机制、预训练语言模型、图像-文本融合式建模等重要研究进展,发表的很多相关工作都取得了越来越好的效果,将图文匹配的性能提高到了前所未有的新高度,但是伴随而来的模型参数量大、匹配时间长,为图文匹配在普通家用电脑等纯CPU平台以及智能手机等低功耗移动嵌入式平台的应用落地带来了巨大的挑战,限制了视觉-语言跨模态分析理解能力的大范围应用部署。
而且,传统的针对CV或NLP单一领域任务的模型压缩与计算加速方法,已不能很好地解决图文匹配这种同时涉及CV与NLP两个领域的视觉-语言多模态任务的模型压缩与计算加速问题。虽然这些传统的单模态模型压缩与加速方法可以分别使得图文匹配模型中的视觉编码器、文本编码器的参数量、计算量得到一定程度的降低,但是图文匹配模型整体的跨模态检索性能也会遭受比较严重的损失,导致推断效率与检索性能无法很好兼顾。针对图文匹配的模型压缩与加速问题,国内外学术界产业界目前也没有提供比较行之有效的解决策略。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***,其基本原理是运用提出的正交相似度蒸馏训练的核心技术,以性能较强的老师网络模型作为高性能知识的来源,将老师网络的高性能知识“蒸馏”传授给模型较小、效率较高的学生网络模型,使学生网络模型兼具高效率与高性能。在国内外率先解决了图文匹配任务高效率与高精度难以兼顾的问题,并取得了国际领先水平。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法。
一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法,包括:
S1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
S2:对所述图文匹配数据集进行预处理和数据加载;
S3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
S4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
S5:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
本发明的第二个方面提供一种基于正交相似度蒸馏的图文匹配模型压缩与加速***。
一种基于正交相似度蒸馏的图文匹配模型压缩与加速***,包括:
模型构建模块,其被配置为:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
预处理和数据加载模块,其被配置为:对所述图文匹配数据集进行预处理和数据加载;
训练模块,其被配置为:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
结果诊断模块,其被配置为:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
输出模块,其被配置为:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明将模型压缩与加速技术运用于图文匹配任务中,实现较小模型参数量和计算代价下图文匹配性能的进一步提升,最终实现图文匹配模型的小型化与高效推断以及CPU平台部署,在参数压缩、推断加速、匹配性能三个方面均取得了国际领先水平,具有“小、快、准”的特点。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明基于正交相似度蒸馏的图文匹配模型压缩与加速方法流程图;
图2是本发明的核心技术流程图;
图3是本发明的实施框架示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
图文匹配(Image-Text Matching,ITM,又名图文检索或图文对齐Image-SentenceRetrieval/Alignment)是计算机视觉(Computer Vision,CV)与自然语言处理(NaturalLanguage Processing,NLP)的跨学科交叉领域——视觉-语言多模态(Vision-LanguageMulti-Modal)中的一个经典任务,是人工智能***具有跨模态分析理解能力的标志之一,也是同属视觉-语言多模态领域的其它任务,如:指代性表达(Refering Expression)、视觉问答(Visual Question Answering,VQA)、图像描述(Image Captioning)的共同模型基础,是沟通CV与NLP两个领域的重要桥梁,也是类脑智能研究在多模态领域的代表性任务,其意义不言而喻。
图文匹配任务的含义是:如果在一个同时具有图像和对应文本描述的视觉-语言多模态数据库中,通过输入一幅图像(或一段文本)作为查询内容,能够输出一段文本(或一幅图像)作为检索结果,且输入和输出的图像和文本在语义上是有联系的,那么这样一种能够在图像-文本之间进行跨模态语义检索与匹配的任务,就是图文匹配。
针对背景技术中提出的问题,本发明将模型压缩与加速技术运用于图文匹配任务中,以性能较强的老师网络模型作为高性能知识的来源,将老师网络模型的高性能知识“蒸馏”传授给模型较小、效率较高的学生网络模型,使学生网络模型兼具高效率与高性能。
具体来讲,本发明主要包括1项核心技术、3项配套技术以及1套实施框架。其中,1项核心技术是:正交相似度蒸馏训练技术,它是本发明的核心部分,也是本发明有别于其它模型压缩与加速方法的关键,同时也是确保图文匹配模型“小、快、准”的关键。
这项核心技术中的关键环节就是正交相似度蒸馏损失函数的计算,它的基本原理是以相似度矩阵作为“知识”载体,以SVD正交分解作为“知识”分析的工具,以类白化变换作为减少差分相似度矩阵相关性和方差的手段,以奇异值衰减后的F范数平方作为知识“蒸馏”传授效果的度量。
3项配套技术分别是:(1)学生网络和老师网络的准备;(2)联合损失函数的计算;(3)学生网络模型的两阶段训练。1套实施框架是:囊括了从数据和模型准备,到训练-验证-测试各阶段,再到CPU平台推断加速的完整实施流程框架。这3项配套技术和1套实施框架是与本核心技术相适配的,是最大发挥本核心技术的知识蒸馏训练效果和CPU部署推断效率的保障,缺一不可。
实施例一
本实施例提供了一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法。
根据本发明内容的概述,本发明主要包括的1项核心技术、3项配套技术以及1套实施框架与上述方法的具体步骤的对应关系如下。S3对应于前述的1项核心技术(正交相似度蒸馏训练技术),如图2所示。S1.4、S3.4、S3.5分别对应于前述的3项配套技术(学生网络模型和老师网络模型的准备、联合损失函数的计算、学生网络模型的两阶段训练)。S1至S5对应于前述的1套实施框架,如图3所示。在后面的具体实施方案部分,还会进一步介绍上述方法的具体步骤的详细含义。
如图1所示,一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法,包括:
S1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
数据和模型的准备工作的目的是选择/构建符合任务要求的图文匹配数据集,挑选/训练适合进行正交相似度蒸馏训练的学生、老师网络模型,具体包括以下4个子步骤:
S1.1:获取图文匹配数据集;
图文匹配数据集(dataset)是模型训练与测试的样本来源,里面的图像与相应的文字描述在语义内容上应已正确配对,比如公开数据集Flickr30k或MSCOCO,里面每幅图像都配有5句人为标注的英文描述。也可以根据任务的具体需求,自行收集图像并给出人工的文本标注,或者选择其它图文多模态公开数据集。
S1.2:采用切词器对图文匹配数据集中的文本进行切词处理,并按词的出现顺序配以相应的整数编号,构建双向词典集合;
词典(vocabulary)是对于文本进行建模的基础,其总词条数代表着文本编码器所能识别的词汇量,其中的单词应该至少从S1数据集的训练集中提取。准备词典需要利用切词器(tokenizer)对数据集中的文本(一般是短语/句子)进行切词,并按词的出现顺序配以相应的整数编号,构建双向的词典集合。其中,正向词典以词为键(key),以编号为值(value),用于将字符串句子翻译成编号序列;反向词典以编号为键,以词为值,用于将编号序列翻译成字符串句子。如果词典的总词条数过大,且具有长尾分布,也可以选择词频超过一定阈值的词构建成小一些的词典,去掉稀有词汇,保留高频词汇。
S1.3:采用图像编码器和文本编码器分别提取图文匹配数据集的图像特征和文本特征;
图像编码器(image encoder)和文本编码器(text encoder)都是图文匹配模型中的必要组件之一,其作用分别是对图像和文本进行特征提取。
图像编码器选择在ImageNet等图像分类数据集上经过预训练的卷积神经网络CNN(如:ResNet152,参数量60M);或在Visual Genome等视觉-语言多模态数据集上经过预训练的区域卷积神经网络RCNN(如:Faster-RCNN);或者进一步经过轻量化组件等模型压缩技术得到的小型CNN模型(如:ResNeXt50,参数量25M)。然后去掉这些CNN/RCNN模型的最后一个全连接层(FC层)作为最终的图像编码器。
文本编码器选择循环神经网络RNN(如:GRU、LSTM;还分成单向和双向类型)配以词嵌入(Word Embedding)(如:word2vec、glove);或者在WMT 2014English-German dataset(4.5M句子对)、WMT 2014English-French dataset(36M句子对)或者BOOKCORPUS(800M单词)、English Wikipedia(2.5B单词)等语料库上经过预训练的语言模型(如:Transformer、BERT);或者进一步经过参数共享、知识蒸馏等模型压缩技术得到的轻量化预训练语言模型(如:ALBERT、TinyBERT)。
S1.4:构建学生网络模型和老师网络模型,将老师网络模型的知识传授给学生网络模型,所述学生网络模型和老师网络模型包括图像编码器和文本编码器。
由于本方法需要进行正交相似度蒸馏训练,因此需要构建学生网络模型和老师网络模型,将老师网络模型的知识传授给学生网络模型。而学生网络模型和老师网络模型的重要组成部分就是S1.3的图像、文本编码器。
首先,为学生网络模型和老师网络模型各选择一组图像、文本编码器,并对学生网络模型和老师网络模型各自的图像、文本编码器分别加载各自预先准备好的预训练模型参数文件。其中,学生网络模型的图像、文本编码器选择参数量/计算量较小、性能较弱的中小型CNN、RNN(如:ResNeXt50、ALBERT);老师网络模型的图像、文本编码器选择参数量/计算量较大、性能较强的大中型CNN、RNN(如:Faster-RCNN、BERT)。
然后,对老师网络模型的图像、文本编码器进行联合训练。这里的训练集与学生网络模型即将进行正交相似度蒸馏训练的训练集要完全相同,以确保老师网络模型要传授的知识和学生网络模型要学习的知识来自同一个图文匹配数据集。经过图像、文本编码器的联合训练得到最终可以对学生网络模型进行正交相似度蒸馏训练的老师网络模型(如:VSRN、SAEM)。
最后,需要将老师网络模型的可学习参数的梯度都关闭,以确保老师网络模型在训练过程中不会进行反向传播和梯度更新,确保老师网络模型的高性能知识得到保护。而学生网络模型的可学习参数的梯度,可以根据调参的具体需求进行设定,一般都是打开的;不过,本专利对学生网络模型采取两阶段训练方式,详见S3.5,所以梯度开关情况与一般情况有所不同。
S2:对所述图文匹配数据集进行预处理和数据加载;
数据集的预处理和数据加载的目的是得到符合正交相似度蒸馏训练要求的图文匹配训练集、验证集、测试集,具体包括以下三个子步骤。
S2.1:根据任务需要,对所述图文匹配数据集中的图像进行预处理,图像预处理至少包括:归一化、缩放、随机剪裁以及随机翻转处理中的一种;
S2.2:根据任务需要,对所述图文匹配数据集中的文本进行预处理,文本预处理至少包括:采用切词器将句子切分成单个单词,采用S1.2所述的双向词典集合将每个单词从字符串映射成整数编号,进而将整数编号映射成一位有效编码,或,对长度不够的句子补零填充,或,对句长降序排列处理中的一种;
文本(短语/句子)需要用切词器将句子切分成各个单词,并用S1.2的词典将每个单词从字符串映射成整数编号,再进一步将整数编号映射成一位有效(one-hot)编码,对长度不够的句子补零填充,对句长降序排列等预处理。
S2.3:对图文匹配数据集进行分割、乱序和批次整理,完成图文匹配训练集、图文匹配验证集以及图文匹配测试集的加载。
S3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
正交相似度蒸馏训练技术是本发明所提出方法的核心技术,也是本方法有别于其它模型压缩与加速方法的关键,同时也是确保图文匹配模型“小、快、准”的关键。
其中S3包括:
S3.1:获取一批次的图文匹配训练集;
从S2.3的训练集(train_set)中取一个批次(batch)的图像和文本数据。如果训练集全部样本都取完了,则重新加载训练集。如果训练集剩余样本不足一个批次大小(batchsize),则将剩余样本都取走,或者选择忽略,继续下一轮数据集加载。
公式(1)表示一批次数据的加载。其中,Ii、Ci分别是加载出的一批次中的第i个图像和第i个句子,N是批次大小(batch size),实验中选择N=128。
{Ii,Ci}i=1,...,N (1)
S3.2:采用前向传播对所述学生网络模型和老师网络模型进行处理,得到相似度打分矩阵;
学生和老师网络模型的前向传播(forward-propagation)需要经过特征提取、联合语义嵌入、相似度匹配三个阶段,目的是得到相似度打分矩阵,作为正交相似度蒸馏损失函数的分析依据。
S3.2.1:对一批次的图像、文本分别采用图像编码器和文本编码器提取每幅图像、每个句子的特征向量编码;
对S3.1的一批次图像、文本分别使用S1.4的学生网络模型和老师网络模型各自的图像、文本编码器提取每幅图像、每个句子的特征(feature)向量编码。
图像特征向量的编码过程:对于CNN类型(分类任务)的图像编码器,需要从当前批次中的图像直接提取整幅图像的特征向量;对于RCNN类型(目标检测任务)的图像编码器,需要从当前批次中的图像进行目标检测,并对检测出的多个目标分别提取区域级特征向量,最终通过平均池化(Average Pooling)等方式将区域级特征向量综合成整幅图像的特征向量。
文本特征向量的编码过程:需要首先用S1.3的词嵌入将当前批次中每句话的每个单词的one-hot编码映射成一维连续的词嵌入向量表示,然后将这些词嵌入向量按照在句子中的先后顺序依次送入文本编码器进行上下文语境(context)编码,得到单词级特征向量,最终通过平均池化等方式将单词级特征向量综合成整个句子的特征向量。
公式(2)(3)分别表示学生网络模型的图像、文本编码器的特征向量提取过程。其中,图像编码器是ResNeXt50的32x4d版本,文本编码器是ALBERT,Ii、Cj分别是第i个图像和第j个句子,vi、cj分别是第i个图像和第j个句子的特征向量,F、E分别表示图像、文本特征向量的维数。实验中选择F=2048,E=1024。
vi=ResNeXt(Ii)∈RF (2)
cj=ALBERT(Cj)∈RE (3)
S3.2.2:对学生网络和老师网络分别使用各自的全连接层将图像、文本特征向量分别嵌入到各自的联合语义空间,并进行归一化,得到联合语义嵌入向量;
对学生网络模型和老师网络模型分别使用各自的全连接层将图像、文本特征向量分别嵌入到各自的联合语义空间,并进行归一化,得到联合语义嵌入(embedding)向量,使得学生网络模型和老师网络模型各自的图像、文本的嵌入向量的维数相同且向量模长都是1。
公式(4)中的Wvi表示图像编码器对于图像特征向量进行联合语义嵌入的过程。其中,W∈RE×F表示图像编码器使用的全连接层可学习参数。
S3.2.3:使用余弦相似度对当前批次内的学生网络模型和老师网络模型各自的图像和文本嵌入向量进行相似度匹配,得到学生网络模型和老师网络模型各自的余弦相似度打分矩阵。
使用余弦相似度(cosine similarity)对当前批次内的学生网络模型和老师网络模型各自的图像和文本嵌入向量进行相似度匹配(matching),得到学生网络和老师网络各自的N×N大小的余弦相似度打分矩阵,其中,N是批次大小。
公式(4)表示一幅图像与一句文本进行余弦相似度匹配时的计算过程。其中,sij表示第i个图像与第j个句子之间的余弦相似度值,cos(·,·)表示余弦相似度,隐含了对于输入向量的归一化处理,以及点积计算方式,取值范围是[-1,1]。公式(5)(6)中的S和T分别表示老师网络模型的相似度打分矩阵。其中,公式(5)中的相似度矩阵元素sij来自公式(4)的余弦相似度计算结果,公式(6)中老师网络模型的相似度打分矩阵T的获取方式与学生网络模型类似,都是通过步骤S3.1公式(1)的一批次数据加载,步骤S3.2公式(2)(3)的图像、文本编码器特征提取,公式(4)的余弦相似度计算得来的。
sij=cos(Wvi,cj)∈[-1,1] (4)
S=[sij]∈[-1,1]N×N (5)
T=[tij]∈[-1,1]N×N (6)
S3.3:基于学生网络的相似度矩阵和老师网络的相似度矩阵,计算正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;
正交相似度蒸馏技术中的关键环节就是正交相似度蒸馏损失函数的计算,具体包括以下五个子步骤,目的是得到正交相似度蒸馏损失。它的基本原理是以相似度矩阵作为“知识”载体,以SVD正交分解作为“知识”分析的工具,以类白化变换作为减少差分相似度矩阵相关性和方差的手段,以奇异值衰减后的F范数平方作为知识“蒸馏”传授效果的度量。
S3.3.1:采用学生网络模型的相似度矩阵逐元素减去老师网络模型的相似度矩阵,得到差分相似度矩阵;
用学生网络的相似度矩阵逐元素减去老师网络的相似度矩阵,得到差分相似度矩阵。
公式(7)表示差分相似度矩阵D的计算过程。
D=S-T (7)
S3.3.2:将差分相似度矩阵的转置乘以差分相似度矩阵,得到半正定相似度矩阵;
用差分相似度矩阵的转置(transpose)乘以差分相似度矩阵,得到半正定(semi-positive definite,SPD)相似度矩阵。
此时,半正定相似度矩阵DTD的迹(trace)就是F范数平方意义下的差分相似度矩阵的蒸馏损失值。而且,这个值还等于差分相似度矩阵经过奇异值分解(Singular ValueDecomposition,SVD)之后各个奇异值的平方和。为了后续介绍方便,对奇异值按其平方大小降序排列。对于SVD正交分解而言,标准正交基的选取不唯一,可以任意选择,并不影响本专利正交相似度蒸馏的效果。
公式(8)表示了上述半正定相似度矩阵的迹、F范数平方蒸馏损失、奇异值的平方和三者之间的等量关系。其中,
Figure BDA0002970252890000101
表示矩阵的F范数平方,Tr(·)表示矩阵的迹,
Figure BDA0002970252890000102
是差分相似度矩阵经过SVD分解得到的第i个奇异值的平方。
Figure BDA0002970252890000103
公式(9)表示F范数平方蒸馏损失的定义。
Figure BDA0002970252890000104
而且,这个值也约等于对差分相似度矩阵的F范数平方蒸馏损失经过偏差-方差分解(Bias-Variance Decomposition)之后得到的方差部分的值(实验表明,偏差Bias≈0)。
公式(10)表示偏差-方差分解。其中,E[·]、Var(·)、Cov(·,·)分别表示均值、方差、协方差。
公式(11)表示偏差Bias约等于0产生的新的等量关系。
Figure BDA0002970252890000105
Figure BDA0002970252890000106
S3.3.3:对差分相似度矩阵进行SVD分解,得到奇异值,所述奇异值等于半正定相似度矩阵经过SVD分解得到的奇异值的开方;
对差分相似度矩阵进行SVD分解,得到奇异值(S3.3.2已按奇异值平方大小降序排列)。
公式(12)表示差分相似度矩阵D的奇异值分解,其中Σ=diag([σ1,...,σN])是一个对角矩阵,其中的奇异值按其平方大小降序排列,即:
Figure BDA0002970252890000111
1≤i<j≤N,U和V是分解得到的左奇异矩阵和右奇异矩阵,里面包括了所有对应于差分相似度矩阵D的行/列维度的正交向量,T是矩阵转置。
D=UΣVT (12)
对于S3.3.2的半正定相似度矩阵DTD而言,它经过SVD分解得到的奇异值ΣTΣ等于本步骤(S3.3.3)中公式(12)差分相似度矩阵经过SVD分解出的奇异值Σ的平方。
公式(13)表示了半正定相似度矩阵DTD的奇异值与差分相似度矩阵D奇异值之间的平方关系。其中,公式(14)是推导过程,它表示了ΣTΣ是半正定相似度矩阵DTD的经过SVD分解的奇异值结果。
Figure BDA0002970252890000112
DTD=(VΣTUT)(UΣVT)=V(ΣTΣ)VT (14)
S3.3.4:对差分相似度矩阵经过SVD分解得到的奇异值进行平方意义下的均衡化处理和类白化变换,所述类白化变换包括:软类白化变换和硬类白化变换;
类白化变换(Whitening-like Transformation)具体包括软变换和硬变换两种变换方式。它们共同的思想都是对于差分相似度矩阵经过SVD分解得到的奇异值(S3.3.2已按奇异值平方大小降序排列)进行平方意义下的均衡化处理的类白化变换,目的是大幅减少奇异值所在差分相似度矩阵行/列之间的相关性,缩小奇异值之间的绝对值大小差异。实际上,类白化变换的核心思想与ZCA白化(Zero-phase Component Analysis Whitening,ZCAWhitening)一致,但也有本方法特有的改进之处,故称其为类白化变换。
软类白化变换方式指的是:使用
Figure BDA0002970252890000113
函数(其中,b是log函数的底数,
Figure BDA0002970252890000114
是奇异值的平方;实验中选择b=1)对百分比在前k的大奇异值平方进行衰减(对应于公式(15)中的
Figure BDA0002970252890000115
),其余奇异值保持不变(对应于公式(15)中的
Figure BDA0002970252890000116
),相当于平衡了全部的奇异值大小。
硬类白化变换方式指的是:使用对百分比在前k的大奇异值直接置0进行衰减(对应于公式(16)中的
Figure BDA0002970252890000117
),其余奇异值保持不变(对应于公式(16)中的
Figure BDA0002970252890000118
),相当于平衡了百分比在后1-k的奇异值大小。
S3.3.5:对软类白化变换得到的奇异值平方求和,得到正交相似度软蒸馏损失;对硬类白化变换得到的奇异值平方求和,得到正交相似度硬蒸馏损失。
对软类白化变换得到的奇异值平方求和,得到正交相似度软蒸馏损失;对硬类白化变换得到的奇异值平方求和,得到正交相似度硬蒸馏损失。
公式(15)(16)分别表示正交相似度软蒸馏损失Lsoft和正交相似度硬蒸馏损失Lhard的计算过程。其中,D*、D-分别是软变换差分相似度矩阵和硬变换差分相似度矩阵。实验中,k=5%~15%是最佳百分比范围。
Figure BDA0002970252890000121
Figure BDA0002970252890000122
S3.4:基于正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数,计算联合损失函数;
尽管S3.3得到的正交相似度蒸馏损失比图文匹配常用的排名损失能够得到更好的训练效果,但是,如果这两个损失函数能够联合起来指导训练,那么将会取得更好的训练效果。
S3.4.1:使用S3.2得到的学生网络模型相似度打分矩阵计算学生网络模型的排名损失函数;
使用S3.2得到的学生网络相似度打分矩阵去计算学生网络的排名损失(RankingLoss,也叫做Triplet Loss或者Max Loss,属于对比度损失),作用是充分挖掘难分负样本(hard-negative samples)的指导潜力,将难分负样本对与正样本对之间的距离拉开至少m的间隔(margin),而且最终只对不符合最少间隔要求的最难分负样本(hardest-negativesamples)进行损失计算,以确保区分度(discriminative)和泛化性(generalization)。
公式(17)表示排名损失函数的计算过程。其中,m∈[0,1]代表间隔,sii代表正样本对之间的距离,sik和ski代表难分负样本对,ReLU(·)=max{0,·}代表从难分负样本中筛选最难分负样本的最大值函数。实验中,m=0.2。
Figure BDA0002970252890000123
S3.4.2:使用一个平衡系数对排名损失进行缩放,并与正交相似度软蒸馏损失函数或正交相似度软蒸馏损失函数求和作为联合损失函数。
使用一个平衡系数θ>0对排名损失进行缩放,并与正交相似度蒸馏损失(软/硬)求和作为联合损失,这样就能使得学生网络模型同时得到来自于数据集的图文对比度标注信息和来自老师网络的无监督知识蒸馏信息的双重指导,可以最大化提升学生网络模型的性能。
公式(18)表示联合损失函数的计算过程。实验中,θ=1。
L=Lsoft|hard+θLrank (18)
S3.5:基于联合损失函数对学生网络模型进行两阶段训练;
学生网络模型的两阶段训练分为普通训练(training)和精调训练(finetuning)。
在普通训练阶段,训练30个epoch,使用2e-4的学习率(learning rate)。其中,学生网络的图像编码器的可学习参数始终固定(不调参),而学生网络的文本编码器的可学习参数在前15个epoch是固定的(不调参),在后15个epoch是打开梯度的(调参),这样做是为了在避免文本编码器训练崩溃的情况下,尽可能多地提高学生网络模型的性能。如果能够确保文本编码器训练不会崩溃,也可以在更早的epoch时期打开梯度(调参)。
在精调训练阶段,再训练15个epoch,使用2e-5的学***。
两个训练阶段均使用反向传播(backward-propagation,简称backward或BP)算法计算模型梯度(gradient,简称grad),均使用自适应矩估计(ADAptive Momentestimation,ADAM)优化器执行梯度下降的参数更新(update)优化。
S3.6:采用图文匹配验证集对锻炼好的学生网络模型进行性能测评,若测评结果取得了新的最优精度,则保持当前学生网络模型的参数文件;否则,不保存;若训练次数达到最大时,没有在验证时取得新的最优精度,则退出训练。
每训练一定的iteration次数(1次forward和1次backward即1次iteration或1个pass)后,需要使用验证集数据对学生网络模型进行性能评测,目的有三个:检验模型的验证集性能(并记录到日志),决定模型可学习参数文件是否保存(或更新),决定训练是否早期停止(early stopping)。
学生网络在验证时的前向传播方式与S3.2相同,得到相似度打分矩阵。不过,有2处区别,一个是需要关闭学生网络所有可学习参数的梯度,以减少GPU显存的不必要消耗;一个是将模型的运行模式从训练模式切换成验证模式,以消除训练模式下某些特殊神经网络层(如:BatchNormalization和Dropout)的不确定前向传播行为。
然后用相似度打分矩阵计算出性能评测指标,包括图像到文本(image-to-text,i2t)和文本到图像(text-to-image,t2i)两个检索方向各自的排名前1/5/10召回率(recall@1/5/10)指标,以及平均排名(mean recall,meanr),中位数排名(median recall,medr),总召回率(recall sum,rsum)指标,并记录到日志文件中。
接下来,根据验证集评测结果的优劣,决定是否保存当前学生网络的模型参数文件,以及是否继续训练。如果取得了新的最优精度(rsum最优),则保持当前模型参数文件;否则不保存。如果连续达到一定次数没有在验证时取得新的最优精度,则进行早期停止,退出训练,执行S4;如果超过训练的最大epoch次数,则退出训练,执行S4;否则继续训练,重复S3。
S4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
学生网络模型的性能测试包括单模型测试和集成模型测试两种。
单模型测试:学生网络模型训练完成后,需要加载测试集数据进行评测。学生网络在测试时的前向传播方式和评测指标与S3.6相同,区别只有数据集发生了更换。最终得到测试集的性能评测结果。
集成模型测试:需要训练2个不同的学生网络模型(如:设置不同的随机数种子),然后对2个学生网络前向传播得到的相似度打分矩阵取平均值,用测试集进行性能评测。测试时的前向传播方式和评测指标与单模型测试时相同。
S5:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
实施例二
一种基于正交相似度蒸馏的图文匹配模型压缩与加速***,其特征在于,包括:
模型构建模块,其被配置为:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
预处理和数据加载模块,其被配置为:对所述图文匹配数据集进行预处理和数据加载;
训练模块,其被配置为:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
结果诊断模块,其被配置为:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
输出模块,其被配置为:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
此处需要说明的是,上述模型构建模块、预处理和数据加载模块、训练模块、结果诊断模块和输出模块对应于实施例一中的步骤S1至S5,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
为了进一步提高本方法的得到的图文匹配模型的推断效率,以便在CPU平台也可以高效部署,可以对于图文匹配数据集的图像和文本进行预计算(pre-computing)嵌入向量的提取。
预计算嵌入向量的提取方法是:使用经过步骤S3正交相似度蒸馏训练的图文匹配学生网络模型,对需要进行图文匹配跨模态检索的给定数据集通过前向传播提取图像、文本各自的联合语义嵌入特征向量,并保存成预计算嵌入向量文件(如:.npy格式)。
这样的话,以后再次进行嵌入向量的余弦相似度比对时,就可以直接加载预计算嵌入向量文件,而无需进行模型的前向传播计算,减少了检索时间和存储代价,提高了CPU平台的部署和推断效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,包括:
S1:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
S2:对所述图文匹配数据集进行预处理和数据加载;
S3:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
S4:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
S5:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
2.根据权利要求1所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S1包括:
S1.1:获取图文匹配数据集;
S1.2:采用切词器对图文匹配数据集中的文本进行切词处理,并按词的出现顺序配以相应的整数编号,构建双向词典集合;
S1.3:采用图像编码器和文本编码器分别提取图文匹配数据集的图像特征和文本特征;
S1.4:构建学生网络模型和老师网络模型,将老师网络模型的知识传授给学生网络模型,所述学生网络模型和老师网络模型包括图像编码器和文本编码器。
3.根据权利要求2所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S2包括:
S2.1:根据任务需要,对所述图文匹配数据集中的图像进行预处理,图像预处理至少包括:归一化、缩放、随机剪裁以及随机翻转处理中的一种;
S2.2:根据任务需要,对所述图文匹配数据集中的文本进行预处理,文本预处理至少包括:采用切词器将句子切分成单个单词,采用S1.2所述的双向词典集合将每个单词从字符串映射成整数编号,进而将整数编号映射成一位有效编码,或,对长度不够的句子补零填充,或,对句长降序排列处理中的一种;
S2.3:对图文匹配数据集进行分割、乱序和批次整理,完成图文匹配训练集、图文匹配验证集以及图文匹配测试集的加载。
4.根据权利要求3所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3包括:
S3.1:获取一批次的图文匹配训练集;
S3.2:采用前向传播对所述学生网络模型和老师网络模型进行处理,得到相似度打分矩阵;
S3.3:基于学生网络的相似度矩阵和老师网络的相似度矩阵,计算正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;
S3.4:基于正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数,计算联合损失函数;
S3.5:基于联合损失函数对学生网络模型进行两阶段训练;
S3.6:采用图文匹配验证集对锻炼好的学生网络模型进行性能测评,若测评结果取得了新的最优精度,则保持当前学生网络模型的参数文件;否则,不保存;若训练次数达到最大时,没有在验证时取得新的最优精度,则退出训练。
5.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3.2包括:
S3.2.1:对一批次的图像、文本分别采用图像编码器和文本编码器提取每幅图像、每个句子的特征向量编码;
S3.2.2:对学生网络和老师网络分别使用各自的全连接层将图像、文本特征向量分别嵌入到各自的联合语义空间,并进行归一化,得到联合语义嵌入向量;
S3.2.3:使用余弦相似度对当前批次内的学生网络模型和老师网络模型各自的图像和文本嵌入向量进行相似度匹配,得到学生网络模型和老师网络模型各自的余弦相似度打分矩阵。
6.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3.3包括:
S3.3.1:采用学生网络模型的相似度矩阵逐元素减去老师网络模型的相似度矩阵,得到差分相似度矩阵;
S3.3.2:将差分相似度矩阵的转置乘以差分相似度矩阵,得到半正定相似度矩阵;
S3.3.3:对差分相似度矩阵进行SVD分解,得到奇异值,所述奇异值等于半正定相似度矩阵经过SVD分解得到的奇异值的开方;
S3.3.4:对差分相似度矩阵经过SVD分解得到的奇异值进行平方意义下的均衡化处理和类白化变换,所述类白化变换包括:软类白化变换和硬类白化变换;
S3.3.5:对软类白化变换得到的奇异值平方求和,得到正交相似度软蒸馏损失;对硬类白化变换得到的奇异值平方求和,得到正交相似度硬蒸馏损失。
7.根据权利要求4所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法,其特征在于,所述S3.4包括:
S3.4.1:使用S3.2得到的学生网络模型相似度打分矩阵计算学生网络模型的排名损失函数;
S3.4.2:使用一个平衡系数对排名损失进行缩放,并与正交相似度软蒸馏损失函数或正交相似度软蒸馏损失函数求和作为联合损失函数。
8.一种基于正交相似度蒸馏的图文匹配模型压缩与加速***,其特征在于,包括:
模型构建模块,其被配置为:获取图文匹配数据集,并构建学生网络模型和老师网络模型;
预处理和数据加载模块,其被配置为:对所述图文匹配数据集进行预处理和数据加载;
训练模块,其被配置为:基于学生网络模型的相似度矩阵和老师网络模型的相似度矩阵,计算差分相似度矩阵;基于差分相似度矩阵,计算奇异值;基于奇异值,构建正交相似度软蒸馏损失函数和正交相似度硬蒸馏损失函数;基于正交相似度软蒸馏损失函数或正交相似度硬蒸馏损失函数,计算联合损失函数;基于联合损失函数对学生网络模型进行训练;
结果诊断模块,其被配置为:对训练完成后的学生网络模型进行性能测试,得到图文匹配数据集的性能评测结果和训练好的学生网络模型;
输出模块,其被配置为:将待测图像或文本输入训练好的学生网络模型,输出图像对应的文本或文本对应的图像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于正交相似度蒸馏的图文匹配模型压缩与加速方法中的步骤。
CN202110261563.6A 2021-03-10 2021-03-10 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及*** Active CN112990296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110261563.6A CN112990296B (zh) 2021-03-10 2021-03-10 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110261563.6A CN112990296B (zh) 2021-03-10 2021-03-10 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***

Publications (2)

Publication Number Publication Date
CN112990296A true CN112990296A (zh) 2021-06-18
CN112990296B CN112990296B (zh) 2022-10-11

Family

ID=76334867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110261563.6A Active CN112990296B (zh) 2021-03-10 2021-03-10 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***

Country Status (1)

Country Link
CN (1) CN112990296B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN115115879A (zh) * 2022-06-29 2022-09-27 合肥工业大学 可切换在线知识蒸馏的图像分类方法、装置及可存储介质
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及***
CN116431788A (zh) * 2023-04-14 2023-07-14 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN116664576A (zh) * 2023-07-31 2023-08-29 厦门微图软件科技有限公司 一种电池外壳焊道的异常检测方法、装置以及设备
WO2023214932A3 (en) * 2022-05-04 2023-12-14 Grabtaxi Holdings Pte. Ltd. Method and system for identifying a match with a product
CN117764069A (zh) * 2024-02-22 2024-03-26 深圳华强电子网集团股份有限公司 一种基于元器件行业的中英文混编文本的切词方法
WO2024107035A1 (ko) * 2022-11-18 2024-05-23 주식회사 엘지 경영개발원 지식 증류를 통한 비전 트랜스포머 사전 훈련 방법 및 시스템, 이를 통해 사전 훈련된 비전 트랜스포머

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111178036A (zh) * 2019-12-06 2020-05-19 云知声智能科技股份有限公司 一种知识蒸馏的文本相似度匹配模型压缩方法及***
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
US20200293876A1 (en) * 2019-03-13 2020-09-17 International Business Machines Corporation Compression of deep neural networks
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112132278A (zh) * 2020-09-23 2020-12-25 平安科技(深圳)有限公司 模型压缩方法、装置、计算机设备及存储介质
CN112446476A (zh) * 2019-09-04 2021-03-05 华为技术有限公司 神经网络模型压缩的方法、装置、存储介质和芯片
CN112465138A (zh) * 2020-11-20 2021-03-09 平安科技(深圳)有限公司 模型蒸馏方法、装置、存储介质及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992686A (zh) * 2019-02-24 2019-07-09 复旦大学 基于多角度自注意力机制的图像-文本检索***及方法
US20200293876A1 (en) * 2019-03-13 2020-09-17 International Business Machines Corporation Compression of deep neural networks
CN112446476A (zh) * 2019-09-04 2021-03-05 华为技术有限公司 神经网络模型压缩的方法、装置、存储介质和芯片
CN111178036A (zh) * 2019-12-06 2020-05-19 云知声智能科技股份有限公司 一种知识蒸馏的文本相似度匹配模型压缩方法及***
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112132278A (zh) * 2020-09-23 2020-12-25 平安科技(深圳)有限公司 模型压缩方法、装置、计算机设备及存储介质
CN112465138A (zh) * 2020-11-20 2021-03-09 平安科技(深圳)有限公司 模型蒸馏方法、装置、存储介质及设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673254B (zh) * 2021-08-23 2022-06-07 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113673254A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于相似度保持的知识蒸馏的立场检测方法
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN113887610B (zh) * 2021-09-29 2024-02-02 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
WO2023214932A3 (en) * 2022-05-04 2023-12-14 Grabtaxi Holdings Pte. Ltd. Method and system for identifying a match with a product
CN115115879A (zh) * 2022-06-29 2022-09-27 合肥工业大学 可切换在线知识蒸馏的图像分类方法、装置及可存储介质
CN115115879B (zh) * 2022-06-29 2024-03-19 合肥工业大学 可切换在线知识蒸馏的图像分类方法、装置及可存储介质
WO2024107035A1 (ko) * 2022-11-18 2024-05-23 주식회사 엘지 경영개발원 지식 증류를 통한 비전 트랜스포머 사전 훈련 방법 및 시스템, 이를 통해 사전 훈련된 비전 트랜스포머
CN116431788B (zh) * 2023-04-14 2024-03-29 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN116431788A (zh) * 2023-04-14 2023-07-14 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及***
CN116186317B (zh) * 2023-04-23 2023-06-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及***
CN116664576B (zh) * 2023-07-31 2023-11-03 厦门微图软件科技有限公司 一种电池外壳焊道的异常检测方法、装置以及设备
CN116664576A (zh) * 2023-07-31 2023-08-29 厦门微图软件科技有限公司 一种电池外壳焊道的异常检测方法、装置以及设备
CN117764069A (zh) * 2024-02-22 2024-03-26 深圳华强电子网集团股份有限公司 一种基于元器件行业的中英文混编文本的切词方法
CN117764069B (zh) * 2024-02-22 2024-05-07 深圳华强电子网集团股份有限公司 一种基于元器件行业的中英文混编文本的切词方法

Also Published As

Publication number Publication date
CN112990296B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN107818164A (zh) 一种智能问答方法及其***
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答***模型
CN109492223A (zh) 一种基于神经网络推理的中文缺失代词补全方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110969023B (zh) 文本相似度的确定方法及装置
CN107293290A (zh) 建立语音声学模型的方法和装置
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114254645A (zh) 一种人工智能辅助写作***
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
CN114627282A (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN113011196A (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant