CN109783655A - 一种跨模态检索方法、装置、计算机设备和存储介质 - Google Patents
一种跨模态检索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109783655A CN109783655A CN201811490973.2A CN201811490973A CN109783655A CN 109783655 A CN109783655 A CN 109783655A CN 201811490973 A CN201811490973 A CN 201811490973A CN 109783655 A CN109783655 A CN 109783655A
- Authority
- CN
- China
- Prior art keywords
- data
- matched
- mode
- cross
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及多模态数据检索技术领域,特别是涉及一种跨模态检索方法、装置、计算机设备和存储介质。所述方法包括:获取第一模态待匹配数据,所述第一模态待匹配数据包括图像数据、文本数据;当所述第一模态待匹配数据为图像数据时,利用深度残差网络ResNet模型进行特征向量提取,当所述第一模态待匹配数据为文本数据时,利用变分自编码器模型进行特征向量提取;利用预设的映射函数将所述特征向量映射到公共表示空间;在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据,完成跨模态检索。本发明对数据的特征提取更加充分,提高了检索准确率。
Description
技术领域
本发明涉及多模态数据检索技术领域,特别是涉及一种跨模态检索方法、 装置、计算机设备和存储介质。
背景技术
近年来随着深度学习技术的快速发展与多模态数据的迅猛增长,人们开始 尝试将计算机视觉和自然语言处理两个相对独立的领域联合起来进行研究,实 现视觉语义联合嵌入。该任务需要将图像以及文本数据表示成一个固定长度的 向量,进而嵌入到同一个矢量空间中。跨模态检索就是视觉语义联合嵌入的一 个典型应用。现在文字、图片和音频等数据正在呈现指数式增长,信息的载体 变得越来越多元化,人们希望能够在不同的信息载体之间进行信息检索。现有 的信息检索***多只局限于单一模态数据之间的检索,只能实现类似于以图搜 图、文本搜索文本的功能。或者用关键词作为检索条件,利用搜索引擎在网络 上的众多对象中查询请求最相匹配的内容。而随着需求的不同,人们希望信息 检索***可实现跨模态数据之间的信息检索,更加关注内容本身,而不是凭借 一两个词来进行检索。多数模态间的数据通常都是非结构化的,同时由于特征 提取方式的不同使得不同模态特征间的维度往往不同,这将导致特征中所蕴含 的信息无法直观的进行比较。从而加大了高层语义与底层特征间的语义鸿沟。
浙江大学在其申请的专利文献“一种基于主题模型的跨模态检索方法”(专 利申请号:201410532057.6)中提出了一种基于主题模型的跨模态检索方法。该 方法对数据库中的多种模态数据首先进行特征提取和标签记录,然后建立基于 主题的跨模态检索图模型进行检索。
桂林电子科技大学在其申请的专利文献“基于深度关联网络的跨模态检索 方法”(专利申请号:201710989497.8)中提出了一种新型跨模态检索方法。该 方法分为三大模块:首先利用词的金字塔直方图(PHOW)、全局特征信息(Gist)、 等方法对图像模态数据进行原始特征提取,利用词袋模型对文本模态数据进行 原始特征提取;然后利用受限玻尔兹曼机模型和自动编码器模型进行高级表示 向量学习;最后进行相似度匹配,按照计算结果给出检索列表。
可见,现有技术中图像、文本数据的特征提取方法基于传统算法,特征提 取过于浅显,导致部分特征信息流失,跨模态检索准确性不高的问题。
发明内容
基于此,有必要针对上述的问题,提供一种跨模态检索方法、装置、计算 机设备和存储介质。
本发明是这样实现的,一种跨模态检索方法,包括以下步骤:
获取第一模态待匹配数据,所述第一模态待匹配数据包括图像数据、文本 数据;
当所述第一模态待匹配数据为图像数据时,利用深度残差网络ResNet模型 对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时,利用变分 自编码器模型对所述待匹配数据进行特征向量提取;
利用预设的映射函数将所述特征向量映射到公共表示空间;
在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据 的相似度,并根据所述相似度输出对应的所述第二模态配对数据,完成跨模态 检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
在本发明一个实施例中,还提供了一种跨模态检索装置,包括:
数据获取模块,用于获取第一模态待匹配数据,所述第一模态待匹配数据 包括图像数据、文本数据;
特征向量提取模块,用于当所述第一模态待匹配数据为图像数据时,利用 深度残差网络ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据 为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取;
映射模块,用于利用预设的映射函数将所述特征向量映射到公共表示空间;
匹配模块,用于在所述公共表示空间内计算所述第一模态待匹配数据与第 二模态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数 据,完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
此外,本发明实施例还提供了一种计算机设备,包括存储器和处理器,所 述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所 述处理器执行上述跨模态检索方法的步骤。
此外,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所 述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时, 使得所述处理器执行上述跨模态检索方法的步骤。
本发明实施例提供了一种跨模态检索方法、装置、计算机设备和存储介质, 所述方法通过深度残差网络ResNet模型对图像数据进行特征向量提取,利用变 分自编码器模型对文本数据进行特征向量提取,克服了传统算法中图像、文本 数据的特征提取方法存在部分特征信息流失,影响检索准确率的问题,且本发 明关联网络结构简单,易于训练。
附图说明
图1为一个实施例中提供的一种跨模态检索方法的应用环境图;
图2为一个实施例中提供的一种跨模态检索方法的流程示意图;
图3为一个实施例中提供的变分自编码器模型结构图;
图4为一个实施例中文字检索图像实验效果图;
图5为一个实施例中图像检索文字实验效果图;
图6为一个实施例中一种跨模态检索装置的结构框图;
图7为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述 各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将 第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下, 可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx 脚本。
图1为一个实施例中提供的一种跨模态检索方法的应用环境图,如图1所 示,在该应用环境中,包括终端110以及计算机设备120。
在本发明中,终端110可以是智能手机、平板电脑、笔记本电脑、台式计 算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120 可以通过网络进行连接,本发明在此不做限制。
在本发明中,计算机设备120可以是独立的物理服务器或终端,也可以是 多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储 和CDN等基础云计算服务的云服务器。
如图2所示,在一个实施例中,提出了一种跨模态检索方法,本实施例主 要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。具体可 以包括以下步骤:
步骤S201,获取第一模态待匹配数据,所述第一模态待匹配数据包括图像 数据、文本数据;
步骤S202,当所述第一模态待匹配数据为图像数据时,利用深度残差网络 ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时, 利用变分自编码器模型对所述待匹配数据进行特征向量提取;
步骤S203,利用预设的映射函数将所述特征向量映射到公共表示空间;
步骤S204,在所述公共表示空间内计算所述第一模态待匹配数据与第二模 态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据, 完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
在本发明中,步骤S201,第一模态待匹配数据可以是图像数据,也可以是 文本数据,本发明所述跨模态检索指在图像数据与文本数据之间实现跨模态检 索。可以理解,所述第一模态待匹配数据与第二模态配对数据为不同类型的数 据,在一轮检索中,当第一模态等匹配数据为图像数据时,第二模态配对数据 对应为文本数据;当第一模态等匹配数据为文本数据时,第二模态配对数据对 应为图像数据。在本发明中所述第一模态待匹配数据为数据请求端提交的数据 (例如终端110或者计算机设备120),所述第二模态配对数据为响应端通过检 索数据库返回的数据,所述数据库可以设置于本地设备,也可设置于云端服务 器等,本发明对此不作限制。
在本发明中,步骤S202,构建含有50层的深度卷积神经网络ResNet (ResidualNeural Network)作为图像特征提取模型,深度卷积神经网络的设置 分为五部分,从前往后依次为conv1,conv2_x,conv3_x,conv4_x,conv5_x,通 过输入层获取图片数据,逐层对图像数据进行特征提取,保证图像信息完整提 取的同时兼顾了模型训练难度。
在本发明中,步骤S202,通过变分自编码器模型(Variational Auto-Encoder) 对文体信息进行提取,相对于传统统计词频等方法,以及现阶段较为流行的递 归神经网络等方法,本发明克服的方法克服了文本数据本身存在的语义信息被 严重忽略的问题,且本发明使用的变分自编码器模型在保留特征信息方面表现 更优越。
在本发明中,步骤S204,根据所述相似度输出对应的所述第二模态配对数 据,应当理解,输出的数据可以不唯一,例如相似度相同或者相近时多个数据 均输出,又或者,默认输出相似度最高的前若干个配对数据等,本发明对此不 作过多限制。
本发明实施例提供了一种跨模态检索方法,通过提取待匹配数据的特征向 量并映射到公共空间,在公共空间内计算相似度,输出检索结果,相对于现有 技术,本发明使用的是深度残差网络ResNet模型以及变分自编码器模型提取图 像数据与文本数据的特征,相比于使用金字塔直方图(PHOW)、全局特征信息 (Gist)等方法处理图像数据,使用词袋模型等方法处理文本数据,本发明得到 的特征向量表示要更加丰富准确;尤其是在文本数据处理方面,以往统计词频 等方法严重忽视了文本数据本身存在的语义信息,并且相比较于现阶段较为流 行的递归神经网络等,本发明使用的变分自编码器在保留特征信息方面表现更 优越。
在一个实施例中,步骤S202中所述当所述第一模态待匹配数据为图像数据 时,利用深度残差网络ResNet模型对其进行特征向量提取,具体可以包括以下 步骤:
步骤S301,将所述第一模态待匹配数据调整为第一像素大小,并在所述第 一像素大小范围内剪切出第二像素大小的部分区域,所述第二像素大小不大于 所述第一像素大小;
步骤S302,利用深度残差网络ResNet模型提取所述第一模态待匹配数据的 特征向量并存储。
在本发明实施例中,步骤S301,将图像数据裁剪为第一像素大小,目的在 于统一图像的大小,以便于输入模型;将图像数据裁剪为第二像素大小,可以 达到数据增强的目的。需要理解的是,第一尺寸大小是对图像的大小进行调整, 不等于“裁剪”;第二像素大小则为在第一像素大小的范围内进行裁剪,例如第 一像素大小可以是256*256,与之对应的第二像素大小可以是224*224,本发明 对其具体组合不作限制。
在本发明中,步骤S302,构建50层的深度残差网络ResNet模型,下载在 ImageNet(用于视觉对象识别软件研究的大型可视化数据库)上预训练好的深 度残差网络ResNet参数权重,将其加载到构建好的卷积神经网络ResNet模型中。 将步骤S301处理后的图片从输入层输入,依次进行批标准化、卷积操作和非线 性Relu(Rectified Linear Unit,线性整流函数)变换,经过卷积层与全连接层后, 提取出图像的特征向量,向量表示维度为2048维;将提取的每幅图像的2048 维向量进行存储,方便后续网络架构直接使用。
本发明通过深度残差网络ResNet模型对图像数据进行特征向量提取,相对 于现有技术,提取出的特征向量表示更为丰富,信息损失少,减少了特征信息 的流失,提高检索准确率。
在一个实施例中,如图3所示,步骤S202中所述当所述第一模态待匹配数 据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取, 具体可以包括以下步骤:
步骤S401,将所述待匹配数据截断为预设长度;
步骤S402,利用词向量模型对所述待匹配数据的每个单词进行编码表示, 并将所述编码进行级联;
步骤S403,利用变分自编码器模型对级联后的数据进行处理,得到所述第 一模态待匹配数据的特征向量并存储。
在本发明中,步骤S401,目的在于统一每个文本数据的长度,尽量保留多 的信息,同时不会造成数据冗余。例如将每个文本截断为25个词,当文本短于 25个词时使用编码0进行补足。
在本发明中,步骤S402,作用在于对长度经过调整的文本数据进行编码表 示,每个单词的编码设置为300维,之后将每个句子中的单词进行级联,得到 对应句子的向量,该向量维度为7500维。
在本发明中,步骤S403,将上述描述句子的7500维向量,送入变分自编码 器的输入层,然后前向传输到全连接层,然后得到均值与标准差向量空间层, 得到两个维度为n(n为隐含向量空间的向量维度)的向量:一个是均值向量,一 个是标准差向量,从而由均值向量与标准差向量得到隐含向量空间层的向量表 示,最后输入到解码器进行解码重构。
在模型构建过程中,此过程还包括变分自编码器的训练过程,训练时的目 标函数为:
其中:φ,θ分别表示变分自编码器的编码、解码网络层参数;logpθ(X|Z)是重 构样本的对数似然估计;qφ(Z|X)是包含编码网络参数φ的后验概率分布函数 pθ(Z|X)的变分近似分布;p(Z)是先验正态分布;KL代表KL散度,用来衡 量两个分布函数的相似度,当两个分布函数相同的时候,KL距离取得最小值0, 因此在神经网络中,加入约束项,使得某些变量服从于设定的概率分布。
该损失函数实际上包括前后两项,前项代表重构损失,与变分自编码器模 型相似,仅增加了期望值运算符,原因在于要从分布当中采样。损失函数的后 项为相对熵,目标在于让训练出的分布接近于正态分布,即平均值接近0,标准 差接近1。前项对应解码过程,是对数似然估计,用于重构原始样本数据,后项 对应编码过程,用于衡量近似后验概率分布函数与先验分布的相似度。
所述变分自编码器的训练步骤如下:
第1步,向前传播阶段,将样本输入变分自编码器计算相应的实际输出, 在此阶段,信息从变分自编码器输入层经过编码与解码逐级变换,传送到变分 自编码器输出层。
第2步,向后传播阶段,根据上述描述的损失目标函数,按极小化误差的 方法,反向传播调整变分自编码器的模型参数。
第3步,重复第1步和第2步的操作,直到变分自编码器目标目标函数降 到一定阈值为止,得到训练好的变分自编码器模型。
在本发明中,步骤S403,采用上述训练好的变分自编码器模型对文本数据 进行特征提取,取出隐含向量空间层中的特征向量,作为文本描述的提取特征。
本发明实施例提供了一种跨模态检索方法,通过变分自编码器模型对文本 信息进行提取,特征向量保留了更为丰富准确的信息,提高了检索的准确性。
在一个实施例中,步骤S204中所述相似度通过所述第一模态待匹配数据与 第二模态配对数据特征向量的内积进行衡量,所述内积通过评分函数计算,具 体如下:
s(i,c)=f(i;Wf,θφ)·g(c;Wg,θψ)
其中:s(i,c)表示评分函数,(i,c)表示配对的图像文本数据,f(i;Wf,θφ)与 g(c;Wg,θψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示空 间内的向量表示。
在本发明中,通过映射函数将提取出的图像、文本特征向量映射到公共向 量表示空间,映射后两种模态数据的向量维度均一致,本本发设定为1024维。
本发明实施例给出了映射函数的具体形式,通过建立公共表示空间,将图 像、文本数据的视觉、语义信息联合嵌入到此空间,有效克服了不同模态数据 存在的语义鸿沟问题,且在公共表示空间中不同模态数据维度一致,方便进行 相似度度量。
作为上述实施例的一个优化方案,所述映射函数通过排序损失函数进行优 化,用于将所述图像、文体数据的特征向量映射到所述公共表示空间,所述映 射函数的具体形式为:
其中:i代表图像数据,c代表文本数据;θφ与θψ分别为图像、文本数 据特征向量提取模型参数;φ(i;θφ)与ψ(c;θψ)分别为提取到的图像、文本特 征向量;Wf与Wg分别为图像、文本数据的映射权重矩阵,经所述排序损失函数 优化后得到。
作为上述优化方案的进一步优化,所述排序损失函数根据所述评分函数进 行设计,用于优化所述映射函数的映射权重矩阵,具体为:
其中:i′=argmaxj≠is(j,c),为数据库中不配对的数据中和文本c具有最 高相似度的图像数据;c′=argmaxd≠cs(i,d),为数据库中不配对的数据中和图 像i具有最高相似度的文本数据。
在本发明中,现有技术损失函数的形式为:
其中:[x]+=max(x,0),s(i,c)表示成对的图像文本数据得分,与表示不 成对的图像文本数据得分。损失函数第一项求和是给定一个图像查询i,求和所 有不匹配的文本数据第二项求和是给定一个文本查询c,求和所有不匹配的 图像数据现有损失函数的整体目的是让成对匹配的图像文本数据在公共表示 空间中的距离比任意一对不匹配的图像文本数据距离都近。
本发明采用hard negative(难负样本),即给定一个查询模态,从所有的不 匹配的图像/文本数据对中找出得分最高的一对:i′=argmaxj≠is(j,c)和 c′=argmaxd≠cs(i,d),(其中,(j,c)和(i,d)表示不配对的图像文本数据)从 而得到本发明给出的形式。
本发明提供了一种跨模态检索方法,相对于现有技术,本发明采用修改后 的排序损失函数作为目标损失函数,对不同模态数据间的相关性挖掘更为充分 准确,且修改后的损失函数相对于现有的排序损失函数,计算量更少,速度更 快,且准确率得到提升。
以下结合一个具体实施例,对本发明的达到的技术效果进行进一步说明。
本实施例的仿真硬件环境为:Intel Core(TM)[email protected]×8,GPU NVIDIAGeForce GTX 1070,8GB内存;软件环境:ubuntu 16.04,python3.6。
本实施例所做仿真试验基于Flickr30K数据集。首先分别用深度残差网络 ResNet模型和变分自编码器模型分别对图像、文本数据进行特征提取,然后通 过映射函数将图像数据特征向量、文本数据特征向量映射到公共表示空间,在 公共表示空间计算相似度。跨模态检索的一般常用标准为R@N:指检索出的 前N个结果中,有正确结果的比例,该值越大越好。表1是现有方法与本发明 所用方法的结果对比。
表1跨模态检索方法效果对比表
对照表1及附图4、5,可以发现,与其他方法相比,本发明不论是在文本 检索图像还是图像检索文本中,都取得了更高的准确率与更好的效果。
如图6所示,在一个实施例中,提供了一种跨模态检索装置,具体可以包 括:
数据获取模块601,用于获取第一模态待匹配数据,所述第一模态待匹配数 据包括图像数据、文本数据;
特征向量提取模块602,用于当所述第一模态待匹配数据为图像数据时,利 用深度残差网络ResNet模型对其进行特征向量提取,当所述第一模态待匹配数 据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取;
映射模块603,用于利用预设的映射函数将所述特征向量映射到公共表示空 间;
匹配模块604,用于在所述公共表示空间内计算所述第一模态待匹配数据与 第二模态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对 数据,完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
在本发明中,数据获取模块601,第一模态待匹配数据可以是图像数据,也 可以是文本数据,本发明所述跨模态检索指在图像数据与文本数据之间实现跨 模态检索。可以理解,所述第一模态待匹配数据与第二模态配对数据为不同类 型的数据,在一轮检索中,当第一模态等匹配数据为图像数据时,第二模态配 对数据对应为文本数据;当第一模态等匹配数据为文本数据时,第二模态配对 数据对应为图像数据。在本发明中所述第一模态待匹配数据为数据请求端提交 的数据(例如终端110或者计算机设备120),所述第二模态配对数据为响应端 通过检索数据库返回的数据,所述数据库可以设置于本地设备,也可设置于云 端服务器等,本发明对此不作限制。
在本发明中,特征向量提取模块602,构建含有50层的深度卷积神经网络 ResNet(Residual Neural Network)作为图像特征提取模型,深度卷积神经网络 的设置分为五部分,从前往后依次为conv1,conv2_x,conv3_x,conv4_x, conv5_x,通过输入层获取图片数据,逐层对图像数据进行特征提取,保证图像 信息完整提取的同时兼顾了模型训练难度。
在本发明中,特征向量提取模块602,通过变分自编码器模型(Variational Auto-Encoder)对文体信息进行提取,相对于传统统计词频等方法,以及现阶段 较为流行的递归神经网络等方法,本发明克服的方法克服了文本数据本身存在 的语义信息被严重忽略的问题,且本发明使用的变分自编码器模型在保留特征 信息方面表现更优越。
在本发明中,匹配模块604,根据所述相似度输出对应的所述第二模态配对 数据,应当理解,输出的数据可以不唯一,例如相似度相同或者相近时多个数 据均输出,又或者,默认输出相似度最高的前若干个配对数据等,本发明对此 不作过多限制。
本发明实施例提供了一种跨模态检索装置,通过提取待匹配数据的特征向 量并映射到公共空间,在公共空间内计算相似度,输出检索结果,相对于现有 技术,本发明使用的是深度残差网络ResNet模型以及变分自编码器模型提取图 像数据与文本数据的特征,相比于使用金字塔直方图(PHOW)、全局特征信息 (Gist)等方法处理图像数据,使用词袋模型等方法处理文本数据,本发明得到 的特征向量表示要更加丰富准确;尤其是在文本数据处理方面,以往统计词频 等方法严重忽视了文本数据本身存在的语义信息,并且相比较于现阶段较为流 行的递归神经网络等,本发明使用的变分自编码器在保留特征信息方面表现更 优越。
在一个实施例中,特征向量提取模块602用于当所述第一模态待匹配数据 为图像数据时,利用深度残差网络ResNet模型对其进行特征向量提取,具体为:
将所述第一模态待匹配数据调整为第一像素大小,并在所述第一像素大小 范围内剪切出第二像素大小的部分区域,所述第二像素大小不大于所述第一像 素大小;
利用深度残差网络ResNet模型提取所述第一模态待匹配数据的特征向量并 存储。
在本发明实施例中,将图像数据裁剪为第一像素大小,目的在于统一图像 的大小,以便于输入模型;将图像数据裁剪为第二像素大小,可以达到数据增 强的目的。需要理解的是,第一尺寸大小是对图像的大小进行调整,不等于“裁 剪”;第二像素大小则为在第一像素大小的范围内进行裁剪,例如第一像素大小 可以是256*256,与之对应的第二像素大小可以是224*224,本发明对其具体组 合不作限制。
在本发明中,构建50层的深度残差网络ResNet模型,下载在ImageNet(用 于视觉对象识别软件研究的大型可视化数据库)上预训练好的深度残差网络 ResNet参数权重,将其加载到构建好的卷积神经网络ResNet模型中。将上一步 处理后的图片从输入层输入,依次进行批标准化、卷积操作和非线性Relu (Rectified Linear Unit,线性整流函数)变换,经过卷积层与全连接层后,提取 出图像的特征向量,向量表示维度为2048维;将提取的每幅图像的2048维向 量进行存储,方便后续网络架构直接使用。
本发明通过深度残差网络ResNet模型对图像数据进行特征向量提取,相对 于现有技术,提取出的特征向量表示更为丰富,信息损失少,减少了特征信息 的流失,提高检索准确率。
在一个实施例中,如图3所示,特征向量提取模块602用于当所述第一模 态待匹配数据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特 征向量提取,具体用于为:
将所述待匹配数据截断为预设长度;
利用词向量模型对所述待匹配数据的每个单词进行编码表示,并将所述编 码进行级联;
利用变分自编码器模型对级联后的数据进行处理,得到所述第一模态待匹 配数据的特征向量并存储。
在本发明中,将所述待匹配数据截断为预设长度,目的在于统一每个文本 数据的长度,尽量保留多的信息,同时不会造成数据冗余。例如将每个文本截 断为25个词,当文本短于25个词时使用编码0进行补足。
在本发明中,利用词向量模型对所述待匹配数据的每个单词进行编码表示, 并将所述编码进行级联,作用在于对长度经过调整的文本数据进行编码表示, 每个单词的编码设置为300维,之后将每个句子中的单词进行级联,得到对应 句子的向量,该向量维度为7500维。
在本发明中,利用变分自编码器模型对级联后的数据进行处理,得到所述 第一模态待匹配数据的特征向量并存储,将上述描述句子的7500维向量,送入 变分自编码器的输入层,然后前向传输到全连接层,然后得到均值与标准差向 量空间层,得到两个维度为n(n为隐含向量空间的向量维度)的向量:一个是均 值向量,一个是标准差向量,从而由均值向量与标准差向量得到隐含向量空间 层的向量表示,最后输入到解码器进行解码重构。
在模型构建过程中,此过程还包括变分自编码器的训练过程,训练时的目 标函数为:
其中,φ,θ分别表示变分自编码器的编码、解码网络层参数;logpθ(X|Z) 是重构样本的对数似然估计;qφ(Z|X)是包含编码网络参数φ的后验概率分布函 数pθ(Z|X)的变分近似分布;p(Z)是先验正态分布;KL代表KL散度,用来 衡量两个分布函数的相似度,当两个分布函数相同的时候,KL距离取得最小值 0,因此在神经网络中,加入约束项,使得某些变量服从于设定的概率分布。
该损失函数实际上包括前后两项,前项代表重构损失,与变分自编码器模 型相似,仅增加了期望值运算符,原因在于要从分布当中采样。损失函数的后 项为相对熵,目标在于让训练出的分布接近于正态分布,即平均值接近0,标准 差接近1。前项对应解码过程,是对数似然估计,用于重构原始样本数据,后项 对应编码过程,用于衡量近似后验概率分布函数与先验分布的相似度。
所述变分自编码器的训练步骤如下:
第1步,向前传播阶段,将样本输入变分自编码器计算相应的实际输出, 在此阶段,信息从变分自编码器输入层经过编码与解码逐级变换,传送到变分 自编码器输出层。
第2步,向后传播阶段,根据上述描述的损失目标函数,按极小化误差的 方法,反向传播调整变分自编码器的模型参数。
第3步,重复第1步和第2步的操作,直到变分自编码器目标目标函数降 到一定阈值为止,得到训练好的变分自编码器模型。
在本发明中,采用上述训练好的变分自编码器模型对文本数据进行特征提 取,取出隐含向量空间层中的特征向量,作为文本描述的提取特征。
本发明实施例提供了一种跨模态检索装置,通过变分自编码器模型对文本 信息进行提取,特征向量保留了更为丰富准确的信息,提高了检索的准确性。
在一个实施例中,匹配模块604,所述相似度通过所述第一模态待匹配数据 与第二模态配对数据特征向量的内积进行衡量,所述内积通过评分函数计算, 具体如下:
s(i,c)=f(i;Wf,θφ)·g(c;Wg,θψ)
其中:s(i,c)表示评分函数,(i,c)表示配对的图像文本数据,f(i;Wf,θφ) 与g(c;Wg,θψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示 空间内的向量表示。
在本发明中,通过映射函数将提取出的图像、文本特征向量映射到公共向 量表示空间,映射后两种模态数据的向量维度均一致,本本发设定为1024维。
本发明实施例给出了映射函数的具体形式,通过建立公共表示空间,将图 像、文本数据的视觉、语义信息联合嵌入到此空间,有效克服了不同模态数据 存在的语义鸿沟问题,且在公共表示空间中不同模态数据维度一致,方便进行 相似度度量。
作为上述实施例的一个优化方案,所述映射函数通过排序损失函数进行优 化,用于将所述图像、文体数据的特征向量映射到所述公共表示空间,所述映 射函数的具体形式为:
其中:i代表图像数据,c代表文本数据;θφ与θψ分别为图像、文本数 据特征向量提取模型参数;φ(i;θφ)与ψ(c;θψ)分别为提取到的图像、文本特 征向量;Wf与Wg分别为图像、文本数据的映射权重矩阵,经所述排序损失函数 优化后得到。
作为上述优化方案的进一步优化,所述排序损失函数根据所述评分函数进 行设计,用于优化所述映射函数的映射权重矩阵,具体为:
其中:i′=argmaxj≠is(j,c),为数据库中不配对的数据中和文本c具有最 高相似度的图像数据;c′=argmaxd≠cs(i,d),为数据库中不配对的数据中和图 像i具有最高相似度的文本数据。
在本发明中,现有技术损失函数的形式为:
其中,[x]+=max(x,0),s(i,c)表示成对的图像文本数据得分,与表示不成对的图像文本数据得分。损失函数第一项求和是给定一个图像查询i, 求和所有不匹配的文本数据第二项求和是给定一个文本查询c,求和所有不 匹配的图像数据现有损失函数的整体目的是让成对匹配的图像文本数据在公 共表示空间中的距离比任意一对不匹配的图像文本数据距离都近。
本发明采用hard negative(难负样本),即给定一个查询模态,从所有的不 匹配的图像/文本数据对中找出得分最高的一对:i′=argmax j≠is(j,c)和 c′=argmaxd≠cs(i,d),(其中,(j,c)和(i,d)表示不配对的图像文本数据)从 而得到本发明给出的形式。
本发明提供了一种跨模态检索装置,相对于现有技术,本发明采用修改后 的排序损失函数作为目标损失函数,对不同模态数据间的相关性挖掘更为充分 准确,且修改后的损失函数相对于现有的排序损失函数,计算量更少,速度更 快,且准确率得到提升。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可 以是图1中的终端110(或服务器120)。如图7所示,该计算机设备包括该计 算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显 示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易 失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理 器执行时,可使得处理器实现跨模态检索方法。该内存储器中也可储存有计算 机程序,该计算机程序被处理器执行时,可使得处理器执行跨模态检索方法。 计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输 入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、 轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,本申请提供的跨模态检索装置可以实现为一种计算机程 序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存 储器中可存储组成该跨模态检索装置的各个程序模块,比如,图6所示的数据 获取模块601、特征向量提取模块602、映射模块603和匹配模块604。各个程 序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例 的跨模态检索方法中的步骤。
例如,图7所示的计算机设备可以通过如图6所示的跨模态检索装置中的 数据获取模块601执行步骤S201;计算机设备可通过特征向量提取模块602执 行步骤S202;计算机设备可通过映射模块603执行步骤S203;计算机设备可通 过匹配模块604执行步骤S204。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现以下步骤:
步骤S201,获取第一模态待匹配数据,所述第一模态待匹配数据包括图像 数据、文本数据;
步骤S202,当所述第一模态待匹配数据为图像数据时,利用深度残差网络 ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时, 利用变分自编码器模型对所述待匹配数据进行特征向量提取;
步骤S203,利用预设的映射函数将所述特征向量映射到公共表示空间;
步骤S204,在所述公共表示空间内计算所述第一模态待匹配数据与第二模 态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据, 完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上 存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:。
步骤S201,获取第一模态待匹配数据,所述第一模态待匹配数据包括图像 数据、文本数据;
步骤S202,当所述第一模态待匹配数据为图像数据时,利用深度残差网络 ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时, 利用变分自编码器模型对所述待匹配数据进行特征向量提取;
步骤S203,利用预设的映射函数将所述特征向量映射到公共表示空间;
步骤S204,在所述公共表示空间内计算所述第一模态待匹配数据与第二模 态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据, 完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中, 所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指 示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以 其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或 者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以 在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而 是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据 库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存 储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括 随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、 同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
Claims (9)
1.一种跨模态检索方法,其特征在于,所述方法包括:
获取第一模态待匹配数据,所述第一模态待匹配数据包括图像数据、文本数据;
当所述第一模态待匹配数据为图像数据时,利用深度残差网络ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取;
利用预设的映射函数将所述特征向量映射到公共表示空间;
在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据,完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中,所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
2.如权利要求1所述的一种跨模态检索方法,其特征在于,所述当所述第一模态待匹配数据为图像数据时,利用深度残差网络ResNet模型对其进行特征向量提取,包括以下步骤:
将所述第一模态待匹配数据调整为第一像素大小,并在所述第一像素大小范围内剪切出第二像素大小的部分区域,所述第二像素大小不大于所述第一像素大小;
利用深度残差网络ResNet模型提取所述第一模态待匹配数据的特征向量并存储。
3.如权利要求1所述的一种跨模态检索方法,其特征在于,所述当所述第一模态待匹配数据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取,包括以下步骤:
将所述待匹配数据截断为预设长度;
利用词向量模型对所述待匹配数据的每个单词进行编码表示,并将所述编码进行级联;
利用变分自编码器模型对级联后的数据进行处理,得到所述第一模态待匹配数据的特征向量并存储。
4.如权利要求1所述的一种跨模态检索方法,其特征在于,所述相似度通过所述第一模态待匹配数据与第二模态配对数据特征向量的内积进行衡量,所述内积通过评分函数计算,具体如下:
s(i,c)=f(i;Wf,θφ)·g(c;Wg,θψ)
其中:s(i,c)表示评分函数,f(i;Wf,θφ)与g(c;Wg,θψ)分别表示所述图像数据和文本数据的特征向量在所述公共表示空间内的向量表示。
5.如权利要求4所述的一种跨模态检索方法,其特征在于,所述映射函数通过排序损失函数进行优化,用于将所述图像、文体数据的特征向量映射到所述公共表示空间,所述映射函数的具体形式为:
其中:i代表图像数据,c代表文本数据;θφ与θψ分别为图像、文本数据特征向量提取模型参数;φ(i;θφ)与ψ(c;θψ)分别为提取到的图像、文本特征向量;Wf与Wg分别为图像、文本数据的映射权重矩阵,经所述排序损失函数优化后得到。
6.如权利要求5所述的一种跨模态检索方法,其特征在于,所述排序损失函数根据所述评分函数进行设计,用于优化所述映射函数的映射权重矩阵,具体为:
其中:i′=argmaxj≠is(j,c),为数据库中具有最高相似度配对数据的图像数据;c′=argmaxd≠cs(i,d),为数据库中具有最高相似度配对数据的文本数据。
7.一种跨模态检索装置,其特征在于,所述装置包括:
数据获取模块,用于获取第一模态待匹配数据,所述第一模态待匹配数据包括图像数据、文本数据;
特征向量提取模块,用于当所述第一模态待匹配数据为图像数据时,利用深度残差网络ResNet模型对其进行特征向量提取,当所述第一模态待匹配数据为文本数据时,利用变分自编码器模型对所述待匹配数据进行特征向量提取;
映射模块,用于利用预设的映射函数将所述特征向量映射到公共表示空间;
匹配模块,用于在所述公共表示空间内计算所述第一模态待匹配数据与第二模态配对数据的相似度,并根据所述相似度输出对应的所述第二模态配对数据,完成跨模态检索;
其中,所述第二模态配对数据包括图像数据、文本数据,且在一轮检索中,所述第一模态待匹配数据和所述第二模态配对数据为不同类型数据。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述跨模态检索方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述跨模态检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811490973.2A CN109783655B (zh) | 2018-12-07 | 2018-12-07 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811490973.2A CN109783655B (zh) | 2018-12-07 | 2018-12-07 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783655A true CN109783655A (zh) | 2019-05-21 |
CN109783655B CN109783655B (zh) | 2022-12-30 |
Family
ID=66496838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811490973.2A Active CN109783655B (zh) | 2018-12-07 | 2018-12-07 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783655B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN110517203A (zh) * | 2019-08-30 | 2019-11-29 | 山东工商学院 | 一种基于参考图像重建的去雾方法 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110659392A (zh) * | 2019-09-29 | 2020-01-07 | 北京市商汤科技开发有限公司 | 检索方法及装置、存储介质 |
CN110674294A (zh) * | 2019-08-29 | 2020-01-10 | 维沃移动通信有限公司 | 一种相似度确定方法及电子设备 |
CN110807122A (zh) * | 2019-10-18 | 2020-02-18 | 浙江大学 | 一种基于深度互信息约束的图文跨模态特征解纠缠方法 |
CN110826627A (zh) * | 2019-11-06 | 2020-02-21 | 广东三维家信息科技有限公司 | 图像相似度测量方法、装置及电子设备 |
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
CN111415009A (zh) * | 2020-03-19 | 2020-07-14 | 四川大学 | 基于遗传算法的卷积变积分自编码器网络结构搜索方法 |
CN112182281A (zh) * | 2019-07-05 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种音频推荐方法、装置及存储介质 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112287159A (zh) * | 2020-12-18 | 2021-01-29 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112420202A (zh) * | 2019-08-23 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN112464087A (zh) * | 2020-11-23 | 2021-03-09 | 北京明略软件***有限公司 | 推荐概率的输出方法及装置、存储介质、电子设备 |
CN112528062A (zh) * | 2020-12-03 | 2021-03-19 | 成都航天科工大数据研究院有限公司 | 一种跨模态武器检索方法及*** |
CN112883218A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种图文联合表征的搜索方法、***、服务器和存储介质 |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及*** |
WO2021155682A1 (zh) * | 2020-09-04 | 2021-08-12 | 平安科技(深圳)有限公司 | 一种多模态数据检索方法、***、终端及存储介质 |
WO2021180109A1 (zh) * | 2020-03-10 | 2021-09-16 | 华为技术有限公司 | 电子设备以及电子设备的搜索方法、介质 |
CN113627151A (zh) * | 2021-10-14 | 2021-11-09 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN113656660A (zh) * | 2021-10-14 | 2021-11-16 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN113656668A (zh) * | 2021-08-19 | 2021-11-16 | 北京百度网讯科技有限公司 | 多模态信息库的检索方法、管理方法、装置、设备和介质 |
CN114092704A (zh) * | 2021-10-22 | 2022-02-25 | 北京大数据先进技术研究院 | 基于近邻传播的实例匹配方法、装置、设备及存储介质 |
WO2022041940A1 (en) * | 2020-08-31 | 2022-03-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Cross-modal retrieval method, training method for cross-modal retrieval model, and related device |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230019211A1 (en) * | 2021-06-30 | 2023-01-19 | Nvidia Corporation | Pretraining framework for neural networks |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210949A1 (zh) * | 2016-06-06 | 2017-12-14 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
-
2018
- 2018-12-07 CN CN201811490973.2A patent/CN109783655B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210949A1 (zh) * | 2016-06-06 | 2017-12-14 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182281A (zh) * | 2019-07-05 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种音频推荐方法、装置及存储介质 |
CN112182281B (zh) * | 2019-07-05 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种音频推荐方法、装置及存储介质 |
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN112420202A (zh) * | 2019-08-23 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN110674294A (zh) * | 2019-08-29 | 2020-01-10 | 维沃移动通信有限公司 | 一种相似度确定方法及电子设备 |
CN110517203A (zh) * | 2019-08-30 | 2019-11-29 | 山东工商学院 | 一种基于参考图像重建的去雾方法 |
CN110517203B (zh) * | 2019-08-30 | 2023-06-23 | 山东工商学院 | 一种基于参考图像重建的去雾方法 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110597878B (zh) * | 2019-09-16 | 2023-09-15 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110659392A (zh) * | 2019-09-29 | 2020-01-07 | 北京市商汤科技开发有限公司 | 检索方法及装置、存储介质 |
CN110659392B (zh) * | 2019-09-29 | 2022-05-06 | 北京市商汤科技开发有限公司 | 检索方法及装置、存储介质 |
CN110807122B (zh) * | 2019-10-18 | 2022-07-08 | 浙江大学 | 一种基于深度互信息约束的图文跨模态特征解纠缠方法 |
CN110807122A (zh) * | 2019-10-18 | 2020-02-18 | 浙江大学 | 一种基于深度互信息约束的图文跨模态特征解纠缠方法 |
CN110826627A (zh) * | 2019-11-06 | 2020-02-21 | 广东三维家信息科技有限公司 | 图像相似度测量方法、装置及电子设备 |
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
WO2021098534A1 (zh) * | 2019-11-22 | 2021-05-27 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置、电子装置和存储介质 |
CN112883218A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种图文联合表征的搜索方法、***、服务器和存储介质 |
WO2021180109A1 (zh) * | 2020-03-10 | 2021-09-16 | 华为技术有限公司 | 电子设备以及电子设备的搜索方法、介质 |
CN111415009A (zh) * | 2020-03-19 | 2020-07-14 | 四川大学 | 基于遗传算法的卷积变积分自编码器网络结构搜索方法 |
WO2022041940A1 (en) * | 2020-08-31 | 2022-03-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Cross-modal retrieval method, training method for cross-modal retrieval model, and related device |
WO2021155682A1 (zh) * | 2020-09-04 | 2021-08-12 | 平安科技(深圳)有限公司 | 一种多模态数据检索方法、***、终端及存储介质 |
CN112256899B (zh) * | 2020-09-23 | 2022-05-10 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112464087A (zh) * | 2020-11-23 | 2021-03-09 | 北京明略软件***有限公司 | 推荐概率的输出方法及装置、存储介质、电子设备 |
CN112464087B (zh) * | 2020-11-23 | 2024-03-01 | 北京明略软件***有限公司 | 推荐概率的输出方法及装置、存储介质、电子设备 |
CN112528062A (zh) * | 2020-12-03 | 2021-03-19 | 成都航天科工大数据研究院有限公司 | 一种跨模态武器检索方法及*** |
CN112528062B (zh) * | 2020-12-03 | 2024-03-22 | 成都航天科工大数据研究院有限公司 | 一种跨模态武器检索方法及*** |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及*** |
CN113157959B (zh) * | 2020-12-17 | 2024-05-31 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及*** |
CN112287159B (zh) * | 2020-12-18 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112287159A (zh) * | 2020-12-18 | 2021-01-29 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
WO2023019948A1 (zh) * | 2021-08-19 | 2023-02-23 | 北京百度网讯科技有限公司 | 多模态信息库的检索方法、管理方法、装置、设备和介质 |
CN113656668A (zh) * | 2021-08-19 | 2021-11-16 | 北京百度网讯科技有限公司 | 多模态信息库的检索方法、管理方法、装置、设备和介质 |
CN113656660B (zh) * | 2021-10-14 | 2022-06-28 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN113656660A (zh) * | 2021-10-14 | 2021-11-16 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN113627151A (zh) * | 2021-10-14 | 2021-11-09 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN114092704A (zh) * | 2021-10-22 | 2022-02-25 | 北京大数据先进技术研究院 | 基于近邻传播的实例匹配方法、装置、设备及存储介质 |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109783655B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783655A (zh) | 一种跨模态检索方法、装置、计算机设备和存储介质 | |
US11379736B2 (en) | Machine comprehension of unstructured text | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
WO2018175972A1 (en) | Device placement optimization with reinforcement learning | |
WO2022007438A1 (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
US20170116521A1 (en) | Tag processing method and device | |
CN110162766B (zh) | 词向量更新方法和装置 | |
WO2023138188A1 (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
EP3732592A1 (en) | Intelligent routing services and systems | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN111444335B (zh) | 中心词的提取方法及装置 | |
CN112883229B (zh) | 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置 | |
CN111078849A (zh) | 用于输出信息的方法和装置 | |
WO2022073341A1 (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN113486659A (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
US20230215203A1 (en) | Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium | |
CN116361511A (zh) | 一种复合语义的视频检索方法、装置、设备及存储介质 | |
CN115203378A (zh) | 基于预训练语言模型的检索增强方法、***及存储介质 | |
CN114398883A (zh) | 演示文稿生成方法、装置、计算机可读存储介质及服务器 | |
CN113987154A (zh) | 基于UniLM与对比学习的相似句生成模型训练方法及相关设备 | |
CN112966150A (zh) | 一种视频内容抽取的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |