CN111651660B - 一种跨媒体检索困难样本的方法 - Google Patents

一种跨媒体检索困难样本的方法 Download PDF

Info

Publication number
CN111651660B
CN111651660B CN202010468272.XA CN202010468272A CN111651660B CN 111651660 B CN111651660 B CN 111651660B CN 202010468272 A CN202010468272 A CN 202010468272A CN 111651660 B CN111651660 B CN 111651660B
Authority
CN
China
Prior art keywords
text
sample data
image
similarity
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010468272.XA
Other languages
English (en)
Other versions
CN111651660A (zh
Inventor
王春辉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polar Intelligence Technology Co ltd
Original Assignee
Polar Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polar Intelligence Technology Co ltd filed Critical Polar Intelligence Technology Co ltd
Priority to CN202010468272.XA priority Critical patent/CN111651660B/zh
Publication of CN111651660A publication Critical patent/CN111651660A/zh
Application granted granted Critical
Publication of CN111651660B publication Critical patent/CN111651660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言理解技术领域,公开了一种跨媒体检索困难样本的方法。所述方法包括:计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签,基于细粒度度标签计算文本图像对的相似度,实现了困难样本的跨媒体检索。本发明充分利用文本信息与图像信息相比包含更丰富信息的特点,通过充分挖掘训练数据中的困难样本,并根据困难程度为它们分配细粒度标签,基于细粒度度标签计算文本图像对的相似度,提高了跨媒体检索困难样本的准确率。

Description

一种跨媒体检索困难样本的方法
技术领域
本发明属于自然语言理解技术领域,具体涉及一种跨媒体检索困难样本的方法。
背景技术
随着互联网技术和社交媒体的飞速发展,各种媒体形式的数据出现***性增长。互联网用户对信息检索的要求逐渐提高。传统的基于单一媒体的信息检索方法已经无法满足互联网用户的需求,用户更希望通过检索一种模态的媒体信息就可以查询到其它多种媒体类型的结果。为了满足这一需求,跨媒体信息检索技术越来越受到关注。
2004年,Hardoon等人首次将典型相关分析CCA(Canonical CorrelationAnalysis)应用于跨媒体信息检索任务。CCA是一种线性数学模型,主要目的是学习子空间用于最大化两组异构数据的成对相关性。输入图像/文本对之后,CCA通过将图像和文本特征映射到最大相关子空间来度量文本和图像之间的相似性。
近年来,随着深度学习的迅猛发展,越来越多的基于深度神经网络的跨媒体信息检索模型被提出。原始数据集是成对的正例,即表示相同语义概念的文本/图像对。为了提供模型训练所需的负例,通常的做法是随机组合不同语义概念的图像和文本,构成负的图像/文本对。基于深度神经网络的模型通常使用神经网络对跨媒体数据进行特征提取,由于其非线性映射的特点,深度学习模型对各种复杂的媒体数据具有良好的表达能力。DCCA(Deep CCA)就是CCA模型的非线性扩展,用于学习两种类型媒体数据之间的复杂非线性变换。它为不同的媒体类型的数据构建了一个具有共享层的网络,其中包含两个子网,通过学习使输出层最大相关。这种构建数据集的方法为模型的训练带来了不可避免的问题:随机组合的负样本中存在大量很容易被模型准确检测出的简单样本,这类样本对模型的训练贡献甚微。然而数据集中总是存在一些容易被错误分类的正样本和负样本,这类样本被称为困难样本。在模型训练过程中,常常因为受到大量简单样本的影响而忽略少量容易被错误分类的困难样本的影响,导致模型不能收敛到更好的结果,陷入局部最优。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种跨媒体检索困难样本的方法。
为实现上述目的,本发明采用如下技术方案:
一种跨媒体检索困难样本的方法,包括以下步骤:
步骤1,计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;
步骤1.1,从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集
Figure BDA0002513369810000021
从D中随机选取属于不同语义类别的文本和图像构成负样本数据集
Figure BDA0002513369810000022
其中,
Figure BDA0002513369810000023
D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;
步骤1.2,从D中提取与P中
Figure BDA0002513369810000024
对应的文本
Figure BDA0002513369810000025
构成正文本对
Figure BDA0002513369810000026
从D中提取与E中
Figure BDA0002513369810000027
对应的文本
Figure BDA0002513369810000028
构成负文本对
Figure BDA0002513369810000029
计算
Figure BDA00025133698100000210
Figure BDA00025133698100000211
的相似度
Figure BDA00025133698100000212
Figure BDA00025133698100000213
Figure BDA00025133698100000214
的相似度
Figure BDA00025133698100000215
步骤1.3,计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:
Figure BDA0002513369810000031
Figure BDA0002513369810000032
步骤2,基于细粒度度标签计算文本图像对的相似度;
步骤2.1,利用图卷积模型GCN(GraphConvolutionalNetwork)提取输入文本T的文本特征vT
步骤2.2,利用卷积神经网络模型CCN(Convolutional Neural Networks)提取输入图像I的图像特征vI
步骤2.3,基于vT、vI构建正样本数据集
Figure BDA0002513369810000033
和负样本数据集
Figure BDA0002513369810000034
Q1、Q2分别为正样本数据集、负样本数据集的样本对的数量;分别计算正样本数据集、负样本数据集中文本图像对的相似度
Figure BDA0002513369810000035
并利用细粒度标签进行修正:
Figure BDA0002513369810000036
Figure BDA0002513369810000037
式中,
Figure BDA0002513369810000038
为修正后的相似度,β为设定的细粒度标签对相似度的影响系数,
Figure BDA0002513369810000039
按(1)式计算,
Figure BDA00025133698100000310
按(2)式计算。
与现有技术相比,本发明具有以下有益效果:
本发明通过计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签,基于细粒度度标签计算文本图像对的相似度,实现了困难样本的跨媒体检索。本发明充分利用文本信息与图像信息相比包含更丰富信息的特点,通过充分挖掘训练数据中的困难样本,并根据困难程度为它们分配细粒度标签,基于细粒度度标签计算文本图像对的相似度,提高了跨媒体检索困难样本的准确率。
附图说明
图1为文本图像对相似度分布曲线示意图,横轴为相似度,纵轴为样本对数。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种跨媒体检索困难样本的方法,所述方法包括以下步骤:
S101、计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;
S1011、从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集
Figure BDA0002513369810000041
从D中随机选取属于不同语义类别的文本和图像构成负样本数据集
Figure BDA0002513369810000042
其中,
Figure BDA0002513369810000043
D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;
S1012、从D中提取与P中
Figure BDA0002513369810000044
对应的文本
Figure BDA0002513369810000045
构成正文本对
Figure BDA0002513369810000046
从D中提取与E中
Figure BDA0002513369810000047
对应的文本
Figure BDA0002513369810000048
构成负文本对
Figure BDA0002513369810000049
计算
Figure BDA00025133698100000410
Figure BDA00025133698100000411
的相似度
Figure BDA00025133698100000412
Figure BDA00025133698100000413
Figure BDA00025133698100000414
的相似度
Figure BDA00025133698100000415
S1013、计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:
Figure BDA00025133698100000416
Figure BDA00025133698100000417
S102、基于细粒度度标签计算文本图像对的相似度;
S1021、利用图卷积模型GCN提取输入文本T的文本特征vT
S1022、利用卷积神经网络模型CCN提取输入图像I的图像特征vI
S1023、基于vT、vI构建正样本数据集
Figure BDA0002513369810000051
和负样本数据集
Figure BDA0002513369810000052
Q1、Q2分别为正样本数据集、负样本数据集的样本对的数量;分别计算正样本数据集、负样本数据集中每个文本图像对的相似度
Figure BDA0002513369810000053
并利用细粒度标签进行修正:
Figure BDA0002513369810000054
Figure BDA0002513369810000055
式中,
Figure BDA0002513369810000056
为修正后的相似度,β为设定的细粒度标签对相似度的影响系数,
Figure BDA0002513369810000057
按(1)式计算,
Figure BDA0002513369810000058
按(2)式计算。
本实施例的实现分为两个阶段。第一阶段是计算文本相似度的细粒度标签,由步骤S101实现;第二阶段是基于细粒度标签实现跨模态信息检索,由步骤S102实现。第一阶段的主要目标是测量文本图像对中的文本与图像的原始文本描述之间的相关性。与图像相比,文本描述通常包含更丰富和更具体的信息。因此,本实施例采用图像的原始文本描述表示图像语义,通过计算原始文本与文本图像对中的文本之间的相似度判断样本的困难程度。对于正样本,相似度越小,样本难度越大;对于负样本,相似度越大,样本难度越大。
步骤S101具体包括S1011~S1013。
步骤S1011基于原始数据集D构建正样本数据集P和负样本数据集E。
步骤S1012基于D、P、E提取正文本对和负文本对,并分别计算每个正文本对和负文本对的相似度。相似度采用余弦相似度。
步骤S1013根据每个正文本对和负文本对的相似度,根据公式(1)、(2)计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签。根据公式(1)、(2)可知,细粒度标签的最大值为1,最小值为0。
步骤S102具体包括S1021~S1023。
步骤S1021利用图卷积模型GCN提取输入文本T的文本特征。GCN将卷积操作扩展到了图结构的数据中,因此具有很强的学习图的局部特征和固定特征的能力,并被广泛应用于文本分类任务。在近期的研究中,GCN表现出了强大的文本语义建模及文本分类能力。在本实施例中,GCN包含两个卷积层,每一层卷积之后进行一次ReLU;然后,通过一个全连接层将文本特征映射到潜在的共享语义空间。
步骤S1022利用卷积神经网络模型CCN提取输入图像I的图像特征。CCN是提取图像特征的常用模型。也可以采用预训练的VGG-19提取图像特征。对于给定的一个224×224的图像,选择VGG-19中倒数第二层,即FC7层输出的4096维的向量;之后通过一层全连接层将其映射到潜在的共享语义空间。
步骤S1023基于上一步提取的文本特征和图像特征构建正样本数据集和负样本数据集,分别计算正、负样本数据集中每个文本图像对的相似度,并利用细粒度标签进行修正。
作为一种可选实施例,模型学习的损失函数Loss为:
Loss=(σ2+2-)+λmax(0,m-(μ+-)) (5)
Figure BDA0002513369810000061
Figure BDA0002513369810000062
Figure BDA0002513369810000063
Figure BDA0002513369810000064
式中,μ+、σ2+
Figure BDA0002513369810000065
的均值和方差,μ-、σ2-
Figure BDA0002513369810000066
的均值和方差,λ为设定的用于调整均值与方差的比例系数,m为设定的(μ+-)的上限值。
在本实施例中,为了减少模型对困难样本识别错误的比例,使神经网络模型收敛到更好的结果,对损失函数进行了改进,如公式(5)~(9),改进后的相似度是经细粒度标签修正后的值。图1中的左曲线表示不同语义类别的文本图像对的相似度分布,右曲线表示相同语义类别的文本图像对的相似度分布,阴影部分面积大小反映了误报比例的大小。根据公式(5),使损失函数最小的结果是使μ+最大,使μ-、σ2-、σ2+最小。根据图1,很显然,μ-、σ2-、σ2+越小、μ+越大,阴影部分面积越小。因此,损失函数最小时阴影部分面积达到最小,使误报比例降低。根据(4)式,经细粒度标签修正后,负样本对的相似度增大,负简单样本增加的少,负困难样本增加的多,学习过程中对负困难样本的惩罚增加,相当于图1中的左曲线右移。同理,根据(3)式,正样本对的相似度减小,正简单样本减少的少,正困难样本减少的多,学习过程中对正困难样本的惩罚增加,相当于图1中的右曲线左移。左曲线右移、右曲线左移的结果是阴影部分面积增大,学习过程使阴影部分面积最小,加大了对困难样本的关注,使模型收敛到更好的结果。
为了验证本发明的有效性,下面给出一组实验数据。实验采用三个数据集,分别是English-Wiki、TVGraz和Chinese-Wiki,分别包含2866、2360和3103个文本图像对。利用本发明方法和现有的GIN模型在三个数据集上进行跨媒体检索。本发明与GIN最大的区别在于加入了对困难样本的挖掘以及对不同困难程度的样本的细粒度标签分配,在损失函数的计算过程中加入了细粒度标签,加强了困难样本对模型学习的影响。实验结果如表1所示。
表1实验结果
Figure BDA0002513369810000071
由表1可知,本发明方法的准确率明显优于其它模型,与GIN相比,在English-Wiki,TVGraz和Chinese-Wiki上分别增加了约4%、3%和10%。这表明通过细粒度标签标记的样本困难程度的信息有助于提升现有模型在跨媒体信息检索任务中的性能。同时证明了本发明在分配细粒度标签任务中的有效性,这些细粒度标签的引入使得模型的学习更加关注困难样本,进一步提升了模型检索性能。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (2)

1.一种跨媒体检索困难样本的方法,其特征在于,包括以下步骤:
步骤1,计算表征文本图像对中的文本与图像的文本描述之间的相关性大小的细粒度标签;
步骤1.1,从文本图像对的原始数据集D中随机选取属于同一语义类别的文本和图像构成正样本数据集
Figure FDA0004040493170000011
从D中随机选取属于不同语义类别的文本和图像构成负样本数据集
Figure FDA0004040493170000012
其中,
Figure FDA0004040493170000013
D中每个文本图像对都具有相同的语义类别;N、J、K分别为D、P、E的样本对的数量,K=J;
Figure FDA0004040493170000014
为第j个正样本数据中的文本,
Figure FDA0004040493170000015
为第j个正样本数据中的图像,
Figure FDA0004040493170000016
为第k个负样本数据中的文本,
Figure FDA0004040493170000017
为第k个负样本数据中的图像,Ti D为第i个原始数据中的文本,
Figure FDA0004040493170000018
为第i个原始数据中的图像;
步骤1.2,从D中提取与P中
Figure FDA0004040493170000019
对应的文本
Figure FDA00040404931700000110
构成正文本对
Figure FDA00040404931700000111
从D中提取与E中
Figure FDA00040404931700000112
对应的文本
Figure FDA00040404931700000113
构成负文本对
Figure FDA00040404931700000114
计算
Figure FDA00040404931700000115
Figure FDA00040404931700000116
的相似度
Figure FDA00040404931700000117
Figure FDA00040404931700000118
Figure FDA00040404931700000119
的相似度
Figure FDA00040404931700000120
步骤1.3,计算正样本数据集P和负样本数据集E中任意一个文本图像对的细粒度标签:
Figure FDA00040404931700000121
Figure FDA00040404931700000122
步骤2,基于细粒度度标签计算文本图像对的相似度;
步骤2.1,利用图卷积模型GCN提取输入文本T的文本特征vT
步骤2.2,利用卷积神经网络模型CCN提取输入图像I的图像特征vI
步骤2.3,基于vT、vI构建正样本数据集
Figure FDA0004040493170000021
和负样本数据集
Figure FDA0004040493170000022
Q1、Q2分别为正样本数据集、负样本数据集的样本对的数量;分别计算正样本数据集、负样本数据集中文本图像对的相似度
Figure FDA0004040493170000023
并利用细粒度标签进行修正:
Figure FDA0004040493170000024
Figure FDA0004040493170000025
式中,
Figure FDA0004040493170000026
为修正后的相似度,β为设定的细粒度标签对相似度的影响系数,
Figure FDA0004040493170000027
按(1)式计算,
Figure FDA0004040493170000028
按(2)式计算,
Figure FDA0004040493170000029
为第n个正样本数据中的文本,
Figure FDA00040404931700000210
为第n个正样本数据中的图像,
Figure FDA00040404931700000211
为第n个负样本数据中的文本,
Figure FDA00040404931700000212
为第n个负样本数据中的图像。
2.根据权利要求1所述的跨媒体检索困难样本的方法,其特征在于,基于深度神经网络的跨媒体信息检索模型的模型学习的损失函数Loss为:
Loss=(σ2+2-)+λmax(0,m-(μ+-))(5)
Figure FDA00040404931700000213
Figure FDA00040404931700000214
Figure FDA00040404931700000215
Figure FDA00040404931700000216
式中,μ+、σ2+
Figure FDA00040404931700000217
的均值和方差,μ-、σ2-
Figure FDA00040404931700000218
的均值和方差,λ为设定的用于调整均值与方差的比例系数,m为设定的(μ+-)的上限值。
CN202010468272.XA 2020-05-28 2020-05-28 一种跨媒体检索困难样本的方法 Active CN111651660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010468272.XA CN111651660B (zh) 2020-05-28 2020-05-28 一种跨媒体检索困难样本的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010468272.XA CN111651660B (zh) 2020-05-28 2020-05-28 一种跨媒体检索困难样本的方法

Publications (2)

Publication Number Publication Date
CN111651660A CN111651660A (zh) 2020-09-11
CN111651660B true CN111651660B (zh) 2023-05-02

Family

ID=72347038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010468272.XA Active CN111651660B (zh) 2020-05-28 2020-05-28 一种跨媒体检索困难样本的方法

Country Status (1)

Country Link
CN (1) CN111651660B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688915B (zh) * 2021-08-24 2023-07-25 北京玖安天下科技有限公司 一种面向内容安全的困难样本挖掘方法及装置
CN115630178A (zh) * 2022-11-14 2023-01-20 南京码极客科技有限公司 一种基于通道细粒度语义特征的跨媒体检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018025949A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
CN105701227B (zh) * 2016-01-15 2019-02-01 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CN108399414B (zh) * 2017-02-08 2021-06-01 南京航空航天大学 应用于跨模态数据检索领域的样本选择方法及装置
JP2019178949A (ja) * 2018-03-30 2019-10-17 株式会社 Ngr 画像生成方法
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018025949A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Ge Song 等.Learning Multilevel Semantic Similarity for Large-Scale Multi-Label Image Retrieval.ACM.2018,第64-72页. *
卓昀侃 ; 綦金玮 ; 彭宇新 ; .跨媒体深层细粒度关联学习方法.软件学报.2019,(04),第884-895页. *
张超 ; 陈莹 ; .残差网络下基于困难样本挖掘的目标检测.激光与光电子学进展.2018,(10),第111-117页. *
舒忠 ; .基于深度学习的图像样本标签赋值校正算法实现.数字印刷.2019,(Z1),第38-45、73页. *
裔阳 ; 周绍光 ; 赵鹏飞 ; 胡屹群 ; .基于正样本和未标记样本的遥感图像分类方法.计算机工程与应用.2017,(04),第160-166、230页. *

Also Published As

Publication number Publication date
CN111651660A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109086303B (zh) 基于机器阅读理解的智能对话方法、装置、终端
CN109685056B (zh) 获取文档信息的方法及装置
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN105139237A (zh) 信息推送的方法和装置
CN109857871B (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN110826337A (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN108228569B (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
CN110222560B (zh) 一种嵌入相似性损失函数的文本人员搜索方法
CN105786793A (zh) 解析口语文本信息的语义的方法和装置
CN111651660B (zh) 一种跨媒体检索困难样本的方法
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN110532378B (zh) 一种基于主题模型的短文本方面提取方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN115934951A (zh) 一种网络热点话题用户情绪预测方法
CN115935998A (zh) 多特征金融领域命名实体识别方法
CN111079011A (zh) 一种基于深度学习的信息推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant