CN106202413B - 一种跨媒体检索方法 - Google Patents

一种跨媒体检索方法 Download PDF

Info

Publication number
CN106202413B
CN106202413B CN201610544156.5A CN201610544156A CN106202413B CN 106202413 B CN106202413 B CN 106202413B CN 201610544156 A CN201610544156 A CN 201610544156A CN 106202413 B CN106202413 B CN 106202413B
Authority
CN
China
Prior art keywords
text
image
vector
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610544156.5A
Other languages
English (en)
Other versions
CN106202413A (zh
Inventor
王文敏
韩梁
范梦迪
王荣刚
李革
董胜富
王振宇
李英
赵辉
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201610544156.5A priority Critical patent/CN106202413B/zh
Priority to US16/314,673 priority patent/US10719664B2/en
Priority to PCT/CN2016/108196 priority patent/WO2018010365A1/zh
Publication of CN106202413A publication Critical patent/CN106202413A/zh
Application granted granted Critical
Publication of CN106202413B publication Critical patent/CN106202413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种新的跨媒体检索方法,利用VGG提出的卷积神经网络VGG net提取图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征作为图像特征;利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联,从而实现跨媒体检索;本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。

Description

一种跨媒体检索方法
技术领域
本发明属于深度学习和多媒体检索技术领域,涉及跨媒体检索方法,尤其涉及一种利用卷积神经网络提取图像特征和Fisher Vector提取文本特征的跨媒体检索方法。
背景技术
随着互联网的高速发展,图像、文本、视频、音频等不同类型的多媒体数据呈现出***性的增长。这些多媒体数据经常会同时出现,用来描述一个相同的事物。不同模态的信息反映了事物的不同属性,人们需要获取不同模态的信息来满足对事物不同形式的描述的需求。比如,对于一副图像,我们想要找到与其相关的文字描述;或者对于一段文本,找到符合这段文本语义的图像或是视频。要满足上述需求,就需要实现跨媒体检索的相关技术。
现有检索***大都是建立在单一模态文本信息的基础上,例如谷歌、百度等搜索引擎。通过查询请求检索图像、音频、视频的功能本质上是对一个由文字信息组成的元数据库上的内容匹配,这种检索仍然属于传统的基于关键字的检索技术。虽然关键字能够准确地描述概念的细节信息,但是它很难完整、生动地呈现一幅图片或一段视频的内容,并可能带有标注人的主观意愿。其固有缺陷使得大批学者开始转向研究基于内容的检索技术,通过充分挖掘多媒体数据的语义关联,使计算机能够更准确地理解多媒体信息表达的内容。然而,基于内容的检索一般只关注媒体底层特征,且通常针对单一模态媒体对象,使得查询和检索结果必须为相同的模态,无法实现跨越各种媒体类型的综合检索。因此,跨媒体检索的概念被提出。跨媒体检索是不依托于某个单一模态的媒体,可以实现任意模态媒体之间的相互检索。输入任意类型媒体的信息,通过跨媒体检索即可得到相关的其他媒体信息在多模态的巨量数据中,更快地检索出符合要求的结果。
现有的跨媒体检索方法主要涉及三个关键问题:跨媒体度量、跨媒体索引、跨媒体排序。针对这三个关键问题的典型方法分别是基于匹配模型的跨媒体度量方法、基于哈希学习的跨媒体索引方法和基于排序学习的跨媒体排序方法,具体如下:
第一,基于匹配模型的跨媒体度量方法,通过已知类别的训练数据对匹配模型进行训练,来挖掘不同类型数据之间的内在联系,进而对跨媒体数据之间的相似度进行计算,返回相关性最高的检索结果。匹配模型有两种匹配方法,一种是基于相关性的匹配,如利用典型相关性分析(Canonical Correlation Analysis,CCA)的方法;另一种是基于语义的匹配(SemanticMatching,SM),如利用多类逻辑回归的方法进行语义分类。
第二,基于哈希学习的跨媒体索引方法。由于互联网中海量大数据的出现,使得人们对检索速度提出了更高的要求。哈希索引是加快近似近邻检索的一种有效方法。该方法通过学习到的哈希模型将原始特征数据转化为二进制哈希码,同时尽可能地保持原空间中的近邻关系,即保持相关性。
第三,基于排序学习的跨媒体排序方法。跨媒体排序的目的是学习不同模态之间的基于语义相似度的排序模型。具体做法是在检索出语义相关的跨媒体数据之后,对检索结果做一个更优的排序,使得相关性更高的数据更加靠前,不断迭代优化过程,直到收敛得到最优检索。
上述这些方法中,所用的图像和文本特征几乎都是使用人工定义的传统特征,如SIFT特征。随着计算机处理性能和计算能力的不断提高,传统的人工特征极大地阻碍了跨媒体检索性能的提升,近一年,人们开始关注深度学习相关技术与跨媒体检索的结合。事实证明,深度学习的有效应用往往能对检索效果带来突破性的进展。
发明内容
为了克服上述现有技术的不足,本发明提供一种新的跨媒体检索方法,利用Visual Geometry Group团队(简称VGG)提出的卷积神经网络(称作VGG net)提取图像特征,利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;现有跨媒体检索方法普遍都是基于传统的人工提取的特征,与人工定义的传统特征相比,本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。
本发明的原理是:将文献[1](Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014)记载的VGG卷积神经网络用来提取图像特征,使用基于Word2vec的Fisher Vector(简称,FV)特征作为文本特征,再通过基于逻辑回归的语义匹配(Semantic Matching,SM)方法找到图像、文本这两种异构特征之间的关联,由此达到跨媒体检索的目的。本发明所提出的特征能更好的对图像和文本进行表达,可提高跨媒体检索的准确度。
本发明提供的技术方案是:
一种跨媒体检索方法,利用VGG提出的卷积神经网络(称作VGG net)提取图像特征,利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;包括如下步骤:
1)收集含有类别标签的跨媒体检索数据集,设为D={D1,D2,...,Dn},n表示数据集的大小;所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型,表示为图像-文本对Di(Di∈D),其中表示图像的原始数据,表示文本的原始数据;类别标签设为L,L=[l1,l2,...,ln],其中li∈[1,2,...,C],C为类别的数目,li表示第i对图像和文本所属的类别;将所述跨媒体检索数据集划分为训练数据和测试数据;
2)对于数据集D中的所有图像数据DI,其中使用VGG卷积神经网络方法提取得到图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征,记作I={I1,I2,...,In},其中Ij∈R4096,j∈[1,n],作为图像特征;
3)对于数据集中的文本特征数据DT,其中使用基于Word2vec的Fisher Vector方法提取文本特征;具体将DT转换成词向量集合W={W1,W2,...,Wn},W为DT包含的单词的词向量集合;将W={W1,W2,...,Wn}中的每个文本词向量集合Wi代入式1中的X,求得每个文本的Fisher Vector,记作T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的Fisher Vector;由此提取得到文本特征;
4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,将文本特征T转换成了文本语义特征ΠTc是类别的个数,也是文本语义特征的维数;将图像特征Ii转换成后验概率组成的语义特征,后验概率为表示图像Ii属于类别k的概率;
5)利用步骤4)训练好的语义匹配模型,使用步骤2和步骤3得到的测试数据的图像特征和文本特征,针对一幅图片或文本进行测试,得到相关的文本或图片,即为跨媒体检索结果。
针对上述跨媒体检索方法,进一步地,步骤3)使用基于Word2vec的Fisher Vector方法提取文本特征,具体包括如下过程:
31)将原始文本数据DT,其中转换成词向量集合W={W1,W2,...,Wn},W为DT包含的单词的词向量集合;
32)将单词记作w,单词w所对应的词向量为fword2vec(w);对于有fword2vec(w)∈Wi,i∈[1,n],即其中wi,j∈Rdw,j∈[1,bi],wi,j包含单词所对应的词向量,dw为词向量的维度,bi中包含的单词个数;
33)用X={x1,x2,...,xnw}表示一个文本的词向量集合,nw为词向量个数;令混合高斯模型GMM的参数为λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示模型中高斯函数的个数;
GMM函数定义为式1:
其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值p(xt|λ),表示为式2:
对权重ωi设置总和为1约束,表示为式3:
其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:
其中,dw是向量的维度,|∑i|表示求∑i的行列式;
用γt(i)来表示向量xt由第i个高斯函数产生的概率,表示为式5:
34)对高斯模型的参数求偏导即得到Fisher Vector;所述Fisher Vector是将所有参数的求导结果连接组成的向量;所述高斯混合模型中高斯函数个数为G,向量维度为dw,所述FisherVector的维度为(2×dw+1)×G-1;权重ω的自由度为N-1;
35)将W={W1,W2,...,Wn}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X,求得每个文本的Fisher Vector,记作T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的Fisher Vector。
更进一步地,步骤34)所述对高斯模型的参数求偏导,具体地,对各个参数的求导公式如式6~式8:
其中,上标d表示向量的第d个维度。
针对上述跨媒体检索方法,进一步地,步骤4)所述使用训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,所述图像特征为I={I1,I2,...,In},Ij∈R4096;所述文本特征为T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1;相应的图像特征和文本特征具有共同的标签为L=[l1,l2,...,ln],其中li∈[1,2,...,C];所述训练具体包括:
41)将文本特征Ti转换成由后验概率组成的语义特征ΠT c是类别的个数,也是文本语义特征的维数;表示为式10:
其中,上标d表示向量中的第d个维度;后验概率为k∈[1,C],表示文本Ti属于类别k的概率,通过式9计算得到
其中,是多类别逻辑回归线性分类器的参数,,表示的转置,对应类别k,其中DT=(2×dw+1)×G-1,DT为文本特征的维度;
42)将图像特征T转换成图像语义特征ΠI c是类别的个数,也就是图像语义特征的维数;表示为式12:
其中,上标d表示向量中的第d个维度;后验概率为表示图像Ii属于类别k的概率,其中的计算公式如下:
其中,是多类别逻辑回归线性分类器的参数,对应类别k,是一个DI维的向量,DI为图像特征的维度。
针对上述跨媒体检索方法,进一步地,步骤5)所述针对一幅图片或文本进行测试,得到相关的文本或图片;所述相关性的度量方法包括Kullback-Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一种或多种。
与现有技术相比,本发明的有益效果是:
本发明使用VGG卷积神经网络提取图像特征,使用基于Word2vec的Fisher Vector(FV)特征作为文本特征,图像和文本都使用了神经网络提取特征的方法。与传统的人工特征相比,神经网络特征更加复杂,更能表现出图像和文本的内容。所以,使用神经网络特征来进行跨媒体检索,在检索效果上会有较大提升。
具体地,本发明具有如下优点:第一,本发明采用神经网络模拟生物视觉神经网络***,将像素级别的特征表示成高层的更加抽象的特征,用来解释图像数据。第二,本发明技术方案得益于计算机计算性能的提升,神经网络特征经过更加复杂的计算得到,能够在通过大规模数据的训练后取得很好的效果。
附图说明
图1是本发明提供的跨媒体检索方法的流程框图。
图2是本发明实施例采用wikipedia数据集中的图像和文本实例;
其中,(a)是wikipedia数据集中的一副图像;(b)是该图像所对应的文本,文本呈现形式为长段落。
图3是本发明实施例采用pascal sentence数据集的图像和文本实例;
其中,(a)是pascal sentence数据集中的一副图像;(b)是该图像所对应的文本,文本为五个句子。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种新的跨媒体检索方法,利用Visual Geometry Group团队(简称VGG)提出的卷积神经网络(称作VGG net)提取图像特征,利用基于Word2vec的FisherVector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;现有跨媒体检索方法普遍都是基于传统的人工提取的特征,与人工定义的传统特征相比,本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。
图1是本发明提供的跨媒体检索方法的流程框图,包括如下步骤:
步骤1,收集含有类别标签的针对图像和文本两种媒体类型的跨媒体检索数据集,分别将图像和文本划分为训练数据和测试数据;
步骤2,对于数据集中的所有图像数据,使用VGG卷积神经网络的方法提取图像特征。
步骤3,对于数据集中的文本特征,使用基于Word2vec的Fisher Vector方法提取文本特征。
步骤4,使用步骤2,3后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。
步骤5,利用训练好的语义匹配模型,使用步骤2,3得到的测试数据的图像和文本特征进行测试,检验本发明的效果。
各步骤具体包括如下过程:
步骤1,收集含有类别标签(如在pascal sentence数据集中,分为20类,有飞机,汽车,鸟等类别)的针对图像和文本两种媒体类型的跨媒体检索数据集,将数据集划分为训练数据和测试数据。
将数据集定义为D={D1,D2,...,Dn},其中n表示数据集的大小,对数据集中的任一图像-文本对Di(Di∈D),可表示为其中表示图像的原始数据,表示文本的原始数据。L=[l1,l2,...,ln],其中li∈[1,2,...,C],C为类别的数目,li表示第i对图像和文本所属的类别。
步骤2,对于数据集中的所有图像数据,使用VGG卷积神经网络的方法提取图像特征。
VGG卷积神经网络有A~E五种配置,卷积层数从8到16递增。本发明实施例中,优选地,使用的卷积层数为16层,再加上3个全连接层,一共是19层的VGG网络。
每幅图像输入VGG网络后,在第七层全连接层(fc7)得到一个4096维的向量,通过ReLU(Rectified LinearUnits)激活函数后,用这个向量作为图像特征。具体地,将原始图像数据DI,其中输入VGG网络中并提取图像特征。图像特征是第七层全连接层(fc7)通过ReLU(Rectified Linear Units)激活函数之后的4096维特征,记作I={I1,I2,...,In},其中Ij∈R4096,j∈[1,n]。
步骤3,对于数据集中的文本特征,使用基于Word2vec的Fisher Vector方法提取文本特征。
将原始文本数据DT,其中转换成词向量集合W={W1,W2,...,Wn},W为DT包含的单词的词向量集合。
进一步地,将单词记作w,单词w所对应的词向量为fword2vec(w),则对于 有fword2vec(w)∈Wi,i∈[1,n]。即其中wi,i∈Rdw,j∈[1,bi],wi,j包含单词所对应的词向量,dw为词向量的维度,bi中包含的单词个数。
这里先假设用X={x1,x2,...,xnw}表示一个文本的词向量集合,nw为词向量个数。令混合高斯模型(Gaussion Mixture Model,GMM)参数为λ,则λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示模型中高斯函数的个数。
对GMM函数定义如下:
其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值p(xt|λ),表示为式2:
对权重ωi有如下约束,总和为1,表示为式3:
其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:
其中,dw是向量的维度,|∑i|表示求∑i的行列式
用γt(i)来表示向量xt由第i个高斯函数产生的概率,表示为式5:
对高斯模型的参数求偏导即得到Fisher Vector,对各个参数的求导公式如式6~式8,其中,上标d表示向量的第d个维度:
Fisher Vector就是将上述所有参数的求导结果连接组成的向量。因为高斯混合模型中高斯函数个数为G,向量维度为dw,所以,Fisher Vector的维度为(2×dw+1)×G-1;对于权重ω,含有总和为1的约束条件,其自由度为G-1;G为高斯模型中高斯函数的个数。
最后,将W={W1,W2,...,Wn}中的每个文本词向量集合Wi代入式1中的X,求得每个文本的Fisher Vector,记作T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的Fisher Vector。
步骤4,使用执行步骤2、3之后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。
得到的图像特征为I={I1,I2,...,In},Ij∈R4096
得到的文本特征为T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1
对于相应的图像和文本特征,有着共同的标签,L=[l1,l2,...,ln],其中li∈[1,2,...,C]。
我们将文本特征Ti转换成由后验概率组成的语义特征,后验概率为k∈[1,C],表示文本Ti属于类别k的概率,其中,通过式9计算得到
其中,是多类别逻辑回归线性分类器(multi-classlogistic regression)的参数,,表示的转置,对应类别k,其中DT=(2×dw+1)×G-1,DT为文本特征的维度。
这样,我们将文本特征T转换成了文本语义特征ΠT c是类别的个数,也是文本语义特征的维数。上标d表示向量中的第d个维度,则表示为式10:
同理,我们将图像特征Ii也转换成后验概率组成的语义特征,后验概率为 表示图像Ii属于类别k的概率,其中的计算公式如下:
其中,是多类别逻辑回归线性分类器(multi-classlogistic regression)的参数,对应类别k,是一个DI维的向量,DI为图像特征的维度。
这样,我们将图像特征T转换成了图像语义特征ΠI c是类别的个数,也就是图像语义特征的维数。用上标d来表示,向量中的第d个维度,则表示为式12:
以上对图像和文本语义特征进行计算,训练得到语义匹配模型。
步骤5,利用步骤4训练好的语义匹配模型,使用步骤2和步骤3得到的测试数据的图像和文本特征,针对一幅图片(或文本)进行测试,得到相关的文本(或图片);并检验本发明的效果。
对于图像检索文本(Img2Text),计算图像语义特征ΠI和文本语义特征ΠT的相关性,将文本语义特征ΠT按相关性从大到小排序,则和图像ΠI越相关的文本越靠前。
同理,对于文本检索图像(Text2Img)计算文本语义特征ΠT和图像语义特征ΠI的相关性,将图像语义特征ΠI按相关性从大到小排序,则和文本ΠT越相关的图像越靠前。
其中相关性的度量方法包括Kullback-Leibler divergence(KL)、NormalizedCorrelation(NC)、Centered Correlation(CC)以及L2范式(L2)。
对于图像检索文本(Img2Text)和文本检索图像(Text2Img)的结果,计算其MAP值(Mean Average Precision),衡量检索结果。
在具体实施实验中,实施例一使用wikipedia的数据集,共包括2866对图像及其文本,有10个类别,分别为:Art&architecture(艺术&建筑)、Biology(生物)、Geography&places(地理&地点)、History(历史)、Literature&theatre(文学&戏剧)、Media(媒体)、Music(音乐)、Royalty&nobility(皇室&贵族)、Sport&recreation(运动&娱乐)、Warfare(战争)。划分其中的2173个数据为训练数据,693个数据为测试数据。数据集的图像和文本实例如图2所示,每个图像对应一段长文本。通过步骤2和步骤3得到图像特征和文本特征。其中,文本数据先用textteaser(一种开源文本自动摘要工具)提取出每个文本的前两个主题句,对于每个主题句提取Fisher Vector特征,然后将这两句的Fisher Vector特征连接在一起形成更高维度的特征,作为最终的特征。如一句话的Fisher vector特征是d维,两句话连接后的最终特征是2d维。之后,按照步骤4训练得到语义匹配模型,按照步骤5对待测试样本得到检索结果。
实验结果表明,与现有方法相比,本发明方法在Img2Text和Text2Img两个任务中,都取得了较优的结果。用于对比的提取传统人工特征进行跨媒体检索的方法包括CCA[2],LCFS[3],CDLFA[4],HSNN[5]。他们使用的文本特征为10维的隐狄利克雷分布(LatentDirichlet Allocation,LDA)特征,图像特征为128维的SIFT特征。
同时本发明与最新的利用深度学习进行跨媒体检索的论文CVF[6]中的结果进行比较。CVF[6]中文本特征使用100维的LDA特征,图像特征使用4096维的DeCAF深度网络的CNN特征.
下表给出了实验结果,Proposed表示的是本发明的结果,通过对比可知,本发明较CCA[2],LCFS[3],CDLFA[4],HSNN[5]中的方法效果有很大提升,和最新的CVF[6]中的方法效果相近,使用CC相关性度量的方法较CVF[6]效果有一定的提升。
表1 Wikipedia数据集实验结果
第二个实施例使用Pascal Sentence数据集,该数据集包含1000对图像-文本数据,分为20类(对应类别标签),包括飞机、汽车、鸟等类别,如表2所示;每类包含50对图像和文本。
表2 Pascal Sentence数据集的20个类别
aeroplane 飞机 diningtable 饭桌
bicycle 自行车 dog
boat house 房子
bird motorbike 摩托车
bottle 瓶子 person
bus 公交车 pottedplant 盆栽
car 汽车 sheep
cat sofa 沙发
chair 椅子 train 火车
cow tvmonitor 电视
图像和文本数据实例如图3所示,每个图像对应5个句子。从每类中随机抽取30对图像和文本,共600对作为训练数据,其余的400对作为测试数据。通过步骤2和步骤3提取出相应的图像特征和文本特征,其中,由于Pascal Sentence中的文本数据已经是句子,不需要做文本摘要处理,可直接提取Fisher Vector特征,一句话的Fisher vector特征是d维,然后,按照步骤4训练得到语义匹配模型,按照步骤5对待测试样本得到检索结果。
由于文献[2]~[5]中记载的方法没有使用本数据集做评测,我们直接与CVF[6]的结果进行比较,结果如表3:
表3 PascalSentence数据集实验结果
从实验结果可以看出,我们的方法对于Pascal Sentence数据集的检索正确率有较大提升。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (4)

1.一种跨媒体检索方法,利用VGG提出的卷积神经网络提取图像特征,利用基于Word2vec的Fisher Vector提取文本特征,通过逻辑回归的方法对异构图像特征和文本特征进行语义匹配,从而实现跨媒体检索;包括如下步骤:
1)收集含有类别标签的跨媒体检索数据集,设为D={D1,D2,...,Dn},n表示数据集的大小;所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型,表示为图像-文本对Di,Di∈D,其中表示图像的原始数据,表示文本的原始数据;类别标签设为L,L=[l1,l2,...,ln],其中li∈[1,2,..,C],C为类别的数目,li表示第i对图像和文本所属的类别;将所述跨媒体检索数据集划分为训练数据和测试数据;
2)对于数据集D中的所有图像数据DI,其中使用VGG卷积神经网络方法提取得到图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征,记作I={I1,I2,...,In},其中Ij∈R4096,j∈[1,n],作为图像特征;
3)对于数据集中的文本特征数据DT,其中使用基于Word2vec的Fisher Vector方法提取文本特征;具体包括如下过程:
31)将原始文本数据DT,其中转换成词向量集合W={W1,W2,...,Wn},W为DT包含的单词的词向量集合;
32)将单词记作w,单词w所对应的词向量为fword2vec(w);对于有fword2vec(w)∈Wi,i∈[1,n],即其中wi,j∈Rdw,j∈[1,bi],wi,j包含单词所对应的词向量,dw为词向量的维度,bi中包含的单词个数;
33)用X={x1,x2,...,xnw}表示一个文本的词向量集合,nw为词向量个数;令混合高斯模型GMM的参数为λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示混合高斯模型GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示混合高斯模型GMM中高斯函数的个数;
GMM函数定义为式1:
其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值,表示为式2:
对权重ωi设置总和为1约束,表示为式3:
其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:
其中,dw是向量的维度,|∑i|表示求∑i的行列式;
用γt(i)来表示向量xt由第i个高斯函数产生的概率,表示为式5:
34)对混合高斯模型GMM的参数求偏导即得到Fisher Vector;所述Fisher Vector是将所有参数的求导结果连接组成的向量;所述混合高斯模型GMM中高斯函数个数为G,向量维度为dw,所述Fisher Vector的维度为(2×dw+1)×G-1;权重ω的自由度为G-1;
35)将W={W1,W2,...,Wn}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X,求得每个文本的FisherVector,记作T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的Fisher Vector;4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,将文本特征T转换成了文本语义特征ΠT i∈[1,n],c是类别的个数,也是文本语义特征的维数;将图像特征Ii转换成后验概率组成的语义特征,后验概率为k∈[1,C],表示图像Ii属于类别k的概率;
5)利用步骤4)训练好的语义匹配模型,使用步骤2)和步骤3)得到的测试数据的图像特征和文本特征,针对一幅图片或文本进行测试,得到相关的文本或图片,即为跨媒体检索结果。
2.如权利要求1所述跨媒体检索方法,其特征是,步骤34)所述对混合高斯模型GMM的参数求偏导,具体地,对各个参数的求导公式如式6~式8:
其中,上标d表示向量的第d个维度。
3.如权利要求1所述跨媒体检索方法,其特征是,步骤4)所述使用训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,所述图像特征为I={I1,I2,...,In},Ij∈R4096;所述文本特征为T={T1,T2,...,Tn},Ti∈R(2×dw+1)×G-1;相应的图像特征和文本特征具有共同的标签为L=[l1,l2,...,ln],其中li∈[1,2,...,C];所述训练具体包括:
41)将文本特征Ti转换成由后验概率组成的语义特征ΠT i∈[1,n],c是类别的个数,也是文本语义特征的维数;表示为式10:
其中,上标d表示向量中的第d个维度;后验概率为k∈[1,C],表示文本Ti属于类别k的概率,通过式9计算得到
其中,是多类别逻辑回归线性分类器的参数,表示的转置,对应类别k,其中DT=(2×dw+1)×G-1,DT为文本特征的维度;
42)将图像特征T转换成图像语义特征ΠIi∈[1,n],c是类别的个数,也就是图像语义特征的维数;表示为式12:
其中,上标d表示向量中的第d个维度;后验概率为k∈[1,C],表示图像Ii属于类别k的概率,其中的计算公式如下:
其中,是多类别逻辑回归线性分类器的参数,对应类别k,是一个DI维的向量,DI为图像特征的维度。
4.如权利要求1所述跨媒体检索方法,其特征是,步骤5)所述针对一幅图片或文本进行测试,得到相关的文本或图片;相关性的度量方法包括Kullback-Leibler divergence方法、Normalized Correlation方法、Centered Correlation方法和L2范式方法中的一种或多种。
CN201610544156.5A 2016-07-11 2016-07-11 一种跨媒体检索方法 Active CN106202413B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610544156.5A CN106202413B (zh) 2016-07-11 2016-07-11 一种跨媒体检索方法
US16/314,673 US10719664B2 (en) 2016-07-11 2016-12-01 Cross-media search method
PCT/CN2016/108196 WO2018010365A1 (zh) 2016-07-11 2016-12-01 一种跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610544156.5A CN106202413B (zh) 2016-07-11 2016-07-11 一种跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN106202413A CN106202413A (zh) 2016-12-07
CN106202413B true CN106202413B (zh) 2018-11-20

Family

ID=57476922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610544156.5A Active CN106202413B (zh) 2016-07-11 2016-07-11 一种跨媒体检索方法

Country Status (3)

Country Link
US (1) US10719664B2 (zh)
CN (1) CN106202413B (zh)
WO (1) WO2018010365A1 (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777040A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于情感极性感知算法的跨媒体微博舆情分析方法
CN106649715B (zh) * 2016-12-21 2019-08-09 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN107256221B (zh) * 2017-04-26 2020-11-03 苏州大学 基于多特征融合的视频描述方法
CN107016439A (zh) * 2017-05-09 2017-08-04 重庆大学 基于cr2神经网络的图像‑文本双编码机理实现模型
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107256271B (zh) * 2017-06-27 2020-04-03 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN110020078B (zh) * 2017-12-01 2021-08-20 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN108319686B (zh) * 2018-02-01 2021-07-30 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
JP6765392B2 (ja) * 2018-02-05 2020-10-07 株式会社デンソーテン 電源制御装置および電源制御方法
CN108647245B (zh) * 2018-04-13 2023-04-18 腾讯科技(深圳)有限公司 多媒体资源的匹配方法、装置、存储介质及电子装置
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
TWI695277B (zh) * 2018-06-29 2020-06-01 國立臺灣師範大學 自動化網站資料蒐集方法
CN108920648B (zh) * 2018-07-03 2021-06-22 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN109145974B (zh) * 2018-08-13 2022-06-24 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109344279B (zh) * 2018-12-12 2021-08-10 山东山大鸥玛软件股份有限公司 基于哈希检索的手写英文单词智能识别方法
US11704487B2 (en) * 2019-04-04 2023-07-18 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for fashion attributes extraction
CN110059201A (zh) * 2019-04-19 2019-07-26 杭州联汇科技股份有限公司 一种基于深度学习的跨媒体节目特征提取方法
US11403700B2 (en) * 2019-04-23 2022-08-02 Target Brands, Inc. Link prediction using Hebbian graph embeddings
CN112182281B (zh) * 2019-07-05 2023-09-19 腾讯科技(深圳)有限公司 一种音频推荐方法、装置及存储介质
CN110472079B (zh) * 2019-07-08 2022-04-05 杭州未名信科科技有限公司 目标图像的检索方法、装置、设备及存储介质
CN110516026A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 基于图正则化非负矩阵分解的在线单模态哈希检索方法
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis
US11520993B2 (en) * 2019-07-24 2022-12-06 Nec Corporation Word-overlap-based clustering cross-modal retrieval
CN110647632B (zh) * 2019-08-06 2020-09-04 上海孚典智能科技有限公司 基于机器学习的图像与文本映射技术
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及***、客户端、服务器、机器、介质
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN110705283A (zh) * 2019-09-06 2020-01-17 上海交通大学 基于文本法律法规与司法解释匹配的深度学习方法和***
CN110580281A (zh) * 2019-09-11 2019-12-17 江苏鸿信***集成有限公司 一种基于语义相似度的相似案件匹配方法
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111753190A (zh) * 2020-05-29 2020-10-09 中山大学 一种基于元学习的无监督跨模态哈希检索方法
CN111782853B (zh) * 2020-06-23 2022-12-02 西安电子科技大学 基于注意力机制的语义图像检索方法
CN115885274A (zh) * 2020-08-31 2023-03-31 Oppo广东移动通信有限公司 跨模态检索方法、跨模态检索模型的训练方法及相关设备
CN112037215B (zh) * 2020-09-09 2024-05-28 华北电力大学(保定) 一种基于零样本学习的绝缘子缺陷检测方法及***
CN112364192A (zh) * 2020-10-13 2021-02-12 中山大学 一种基于集成学习的零样本哈希检索方法
CN112559820B (zh) * 2020-12-17 2022-08-30 中国科学院空天信息创新研究院 基于深度学习的样本数据集智能出题方法、装置及设备
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN114328506A (zh) * 2021-11-19 2022-04-12 集美大学 一种智能船舶自动控制***
CN116775980B (zh) * 2022-03-07 2024-06-07 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN115062208B (zh) * 2022-05-30 2024-01-23 苏州浪潮智能科技有限公司 数据处理方法、***及计算机设备
CN116881482A (zh) * 2023-06-27 2023-10-13 四川九洲视讯科技有限责任公司 一种公共安全数据的跨媒体智能感知与分析处理方法
CN117812381B (zh) * 2023-12-05 2024-06-04 世优(北京)科技有限公司 基于人工智能的视频内容制作方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848378A (en) * 1996-02-07 1998-12-08 The International Weather Network System for collecting and presenting real-time weather information on multiple media
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104346440B (zh) * 2014-10-10 2017-06-23 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN104317834B (zh) * 2014-10-10 2017-09-29 浙江大学 一种基于深度神经网络的跨媒体排序方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848378A (en) * 1996-02-07 1998-12-08 The International Weather Network System for collecting and presenting real-time weather information on multiple media
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Very Deep Convolutional Networks for Large-Scale Image Recognition;Karen Simonyan et al.;《Computer Science》;20150410;1-14 *
基于卷积神经网络和哈希编码的图像检索方法;龚震霆等;《智能***学报》;20160630;第11卷(第3期);391-400 *

Also Published As

Publication number Publication date
WO2018010365A1 (zh) 2018-01-18
CN106202413A (zh) 2016-12-07
US20190205393A1 (en) 2019-07-04
US10719664B2 (en) 2020-07-21

Similar Documents

Publication Publication Date Title
CN106202413B (zh) 一种跨媒体检索方法
Suhr et al. A corpus for reasoning about natural language grounded in photographs
US10430689B2 (en) Training a classifier algorithm used for automatically generating tags to be applied to images
He et al. A new benchmark and approach for fine-grained cross-media retrieval
Pang et al. Text matching as image recognition
Villegas et al. General overview of ImageCLEF at the CLEF 2015 labs
Silberer et al. Visually grounded meaning representations
CN105608070B (zh) 一种面向新闻标题的人物关系抽取方法
Yao et al. A new web-supervised method for image dataset constructions
Cheng et al. Semantically-driven automatic creation of training sets for object recognition
Li et al. Event specific multimodal pattern mining for knowledge base construction
Kalibhat et al. Identifying interpretable subspaces in image representations
Lu et al. Result diversification in image retrieval based on semantic distance
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
Inoue et al. Adaptation of word vectors using tree structure for visual semantics
Cucurull et al. Deep inference of personality traits by integrating image and word use in social networks
Henri et al. A deep transfer learning model for the identification of bird songs: A case study for Mauritius
Plecháč et al. Metre and Semantics in the Poetry of Czech Post-Symbolists Accessed via LDA Topic Modelling
Böttcher et al. BTU DBIS'Plant Identification Runs at ImageCLEF 2012.
Suzuki et al. Towards automatic cataloging of image and textual collections with Wikipedia
Sattigeri et al. Sparsifying word representations for deep unordered sentence modeling
Zhang et al. Vireo@ trecvid 2012: Searching with topology, recounting will small concepts, learning with free examples
Zhang et al. Finding meaningful distributions of ML black-boxes under forensic investigation
McParlane et al. Collections for automatic image annotation and photo tag recommendation
Alm et al. Challenges for annotating images for sense disambiguation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant