CN111782853B - 基于注意力机制的语义图像检索方法 - Google Patents

基于注意力机制的语义图像检索方法 Download PDF

Info

Publication number
CN111782853B
CN111782853B CN202010582273.7A CN202010582273A CN111782853B CN 111782853 B CN111782853 B CN 111782853B CN 202010582273 A CN202010582273 A CN 202010582273A CN 111782853 B CN111782853 B CN 111782853B
Authority
CN
China
Prior art keywords
vector
pictures
semantic feature
semantic
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010582273.7A
Other languages
English (en)
Other versions
CN111782853A (zh
Inventor
韩红
杨慎全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010582273.7A priority Critical patent/CN111782853B/zh
Publication of CN111782853A publication Critical patent/CN111782853A/zh
Application granted granted Critical
Publication of CN111782853B publication Critical patent/CN111782853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的语义图像检索方法,主要解决图片检索过程中语义鸿沟影响检索准确率的问题。其实现步骤为:1)构建包含注意力机制的CNN‑RNN网络模型并进行训练;2)使用训练后的网络模型提取图像库中图片的文本特征;3)使用文本向量doc2vec模型提取文本特征的语义特征向量并存储;4)使用训练后的网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;5)使用余弦法将查询图片的特征向量和图像库中特征向量进行计算比较,并输出结果。本发明能够有效降低语义鸿沟造成的影响,使得***可从图片表现出来的语义信息进行相似性检索,能够用于互联网中对海量数据的快速检索和日常生活中手机照片的搜索。

Description

基于注意力机制的语义图像检索方法
技术领域
本发明属于图像处理技术领域,进一步涉及基于图像的模式识别技术,具体为一种基于注意力机制的语义图像检索方法。可在图像检索过程中,对于查询图片(queryimage),搜索得到图像库里与查询图片相似的图像并将其输出。
背景技术
图像检索是指给定一包含特定内容的图像,然后在图像数据库中找到包含相似内容的图像,但是由于不同的图像在拍摄角度、遮挡、光照等因素的影响下差别较大,如何在上述不可控因素的影响下快速找到想要的图像是一个具有挑战性的题目。在现今网络时代,网路上每时每刻都会有巨量的图像上传到服务器中,尤其随着社交网络的兴起,例如腾讯的服务器中存储着近60亿张图片,图片包含着非常丰富的信息,所以如何在处理巨量的图像数据中发挥计算机的优势,并且快速、准确的找到用户所感兴趣的图片检索出来,具有很大的价值和现实意义,所以越来越多的科研人员投入到了这一领域中。
传统的图像检索的方法,大多采用方向梯度直方图HOG(Histogram of OrientedGradient)、尺度不变特征变换SIFT(Scale-invariant feature transform)等模型提取图片的特征向量,然后通过计算特征向量的距离来输出相似的图片,但是以上模型容易受到噪声的影响,且计算速度慢、检索精度不高,所以亟待新的研究方法问世。
近几年来,随着深度学习的研究大热,卷积神经网络CNN已成为当前语音分析和图像识别领域的研究热点,它的权值共享、感受野等结构使之在图像领域占据统治地位并且使图像可以直接作为网络的输入,避免了传统图像检索算法计算量大、速度慢的缺点。
因为CNN等的快速发展,大量基于卷积神经网络的图像检索算法被提出,其中最经典的算法当属基于CNN和哈希算法的图像检索方法Deep Supervised Hashing for FastImage Retrieval(Haomiao Liu,Ruiping Wang,Shiguang Shan,Xilin Chen;The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2016,pp.2064-2072),它有效的提取了图像的特征向量,并且使用二进制码降低了特征向量的维度,有很好的速度和精度。因此,随后在CNN+哈希编码的基础上出现了许多改进的算法,但是,该方法也存在缺点,就是图像检索中的“语义鸿沟”问题一直没有得到彻底的解决,即不能实现从图片语义的角度去检索相似的图片。
中国科学技术大学申请的专利“一种基于CNN的快速图像检索方法”(专利申请号:CN201610211503.2,公开号:CN105912611A)中提出一种图像检索的方法,包括第一阶段是利用Google预训练的CNN网络进行提取得到矢量特征,第二阶段是在特征数据库中对此矢量特征进行K近邻检索。该专利基于PQ的快速检索的思想,并加入文本检索中的倒排策略,在应用中考虑自身的数据量,较为合理的安排***参数,并在检索结果重排序方面进行改进。然而该方案由于采用了CNN提取特征的方式,特征向量维数高,从而使得检索效率较低。
中国科学院自动化研究所申请的专利“基于语义分析的网络图像检索方法”(专利申请号:CN200910089536.4,公开号:CN101751447A)中提出了一种本发明涉及基于语义分析的网络图像检索方法,对用户输入的查询图像提取底层特征。对每种特征进行基于内容的图像检索找到视觉上相似的网络图像集。用网络图像集中各图像所对应的相关文本信息进行语义学习得到查询图像的语义表示。判断各种特征所对应检索图像集在文本信息上的语义一致性,以语义一致性衡量各种特征的描述能力,并赋予不同的置信度。用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索得到图像库中每幅图像与查询图像的语义相关性;用底层特征对图像库基于内容的图像检索,得到图像库中每幅图像与查询图像视觉上的相关性;由线性函数把语义和视觉相关性融合,返回给用户的图像在语义层面上和视觉层面上都具有相似性。该方法存在的不足之处是检索***过于复杂、特征种类过多,这将大大影响检索的速度,无法有效克服或降低检索过程中存在的“语义鸿沟”问题。
发明内容
本发明的目的是针对上述的现有的技术的不足,提出一种基于注意力机制的语义图像检索方法。使用带有注意力机制的CNN-RNN深度模型对被检索的图片提取其图像内容的文本特征,然后使用文本向量doc2vec模型提取文本特征对应的语义特征向量,将该特征向量与图像特征库中的特征向量进行对比,获取库中的相似图片。有效提高了图像检索的准确率,缩小了语义鸿沟造成的影响。
实现本发明方法的具体步骤如下:
(1)构建包含注意力机制的CNN-RNN网络模型并进行训练:
(1a)对MS COCO数据集中图片和相应的图像标题进行预处理;
(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,并在解码器中加入注意力机制,得到由编码器和解码器组成的CNN-RNN网络模型;
(1c)对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN-RNN网络模型;
(2)使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题,即图片对应的文本特征,并将提取的文本特征存储在数据库中;
(3)使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储:
(3a)使用gensim库中的文本向量doc2vec模型对步骤(2)得到的所有文本特征依次进行处理,获取每个图片对应的语义特征向量;
(3b)将得到的语义特征向量与相对应的图片存储在数据库中,并使之相互匹配;
(4)使用最终CNN-RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;
(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;
(6)输出相似语义特征向量对应的图片,即查询图片的相似图片。
本发明与现有技术先比具有以下优点:
第一、由于本发明将计算机视觉和自然语言处理中的相关技术相结合,即在CNN-RNN网络中引入注意力机制(attention mechanism),所以网络能够有效的提取关于图片的高层次概念,并可将图片表达的概念用自然语言的形式表达出来;本发明方案在基于文本的图像检索思想下结合基于内容的图像检索技术,使得两者的优势都得以体现,有效克服了人工标注文本的繁琐以及语义鸿沟造成的影响。
第二、由于本发明采用了近期发展迅速的词向量技术,且在词向量的基础上使用了文本向量doc2vec,从而能够有效地解决保留单词顺序的问题,在把自然语言描述转换到向量空间时,相比现有技术采用的词向量word2vec模型具有更好的转换效果。
附图说明
图1是本发明方法的实现流程图;
图2是本发明中带有注意力机制的CNN-RNN网络结构示意图;
图3是本发明中卷积神经网络VGG编码器的核心结构示意图。
具体实施方式
以下参照附图和实施例,对本发明作进一步详细说明:
参照图1,本发明实现的具体步骤如下:
步骤1,构建包含注意力机制的CNN-RNN网络模型并进行训练:
(1a)对MS COCO数据集中图片和相应的图像标题进行预处理操作,该操作包括分词、句法分析和词向量等;
(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,并在解码器中加入注意力机制,得到由编码器和解码器组成的CNN-RNN网络模型;
上述卷积神经网络VGG编码器的核心结构,即inception模块,如图3所示,通过该模块的堆叠形成inception v2网络;构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出,即选取最后卷积层的至少5个特征图作为特征向量进行输出。该卷积神经网络是由5层卷积层、3层全连接层、softmax输出层构成,且层与层之间使用最大池化分开,所有隐层神经元均采用ReLU激活函数。
上述循环神经网络LSTM解码器的输入包含当前步的词向量、前一时间步的输出向量以及注意力机制形成的加权向量,输出为当前时间步输出的词向量。在该解码器中加入注意力机制是指在解码器解码的每一时间步时,将循环神经网络LSTM解码器输出的特征向量进行加权平均得到上下文向量,并将该向量也作为解码器网络的一个输入,用于实现指导当前时间步的解码操作。这种结合循环神经网络LSTM解码器得到的CNN-RNN网络模型,可以更好的解决梯度消失和***的问题。
(1c)对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN-RNN网络模型。
步骤2,使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题caption,即使用预训练好的编解码网络对待检索的图像库中的图片进行处理,依次提取图片对应的文本特征(自然语言描述),并将提取的文本特征存储在数据库中。
步骤3,使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储:
(3a)使用gensim库中的文本向量doc2vec模型对步骤2得到的所有文本特征依次进行处理,即将提取到的自然语言转换到特征向量空间中,得到每个图片对应的语义特征向量;具体为使用doc2vec模型对自然语言描述的每句话进行处理,得到每一个图片的图像标题caption对应的语义特征向量,也就是图片对应的语义特征向量;
(3b)将得到的语义特征向量与相对应的图片存储在数据库中,并使之相互匹配。
步骤4,使用最终CNN-RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;即结合带有注意力机制的CNN-RNN网络和doc2vec模型对查询图片进行图像标题caption提取和特征向量转换;待检索时,把查询图片query image按照之前对图像库中其它图片的处理方式,依次使用编解码网络和doc2vec模型进行处理,得到查询图片对应的特征向量。
步骤5,使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;
上述余弦相似度比较法又称为余弦相似性计算,具体是通过计算两个语义特征向量的夹角余弦值来评估他们之间的相似度,计算公式如下:
Figure BDA0002553596820000051
其中A、B分别表示两个不同的语义特征向量。本实施例此处另A为查询图片的语义特征向量,B为图像库中其它图片的语义特征向量。
通过将查询图片的特征向量和图像库中的特征向量进行相似度计算并排序,可以得到查询图片的相似语义特征向量,进一步获取这些相似语义特征向量所对应的图片,从而得出图像库中与查询图片相似度高的图片具体是哪些。
步骤6.输出相似语义特征向量对应的图片,即查询图片的相似图片;
根据上一步的结果,按照用户的要求输出排序后的相似语义特征向量对应的图片,完成检索。
本发明的效果可以通过仿真进一步说明:
1、仿真实验条件:
本发明所用的数据集为:NUS-WIDE;该数据集是包含真实世界图片的数据库,可用于多种图像处理任务;其中包含了Flickr上269648张图片和相关的5018个标签,提取的六种低层次的特征(64维的颜色直方图、144维的颜色相关图、73维的边缘方向直方图、128维的小波纹理、225维的逐块颜色矩和基于SIFT描述的500维的词袋特征),247849个图像的用户信息。
硬件平台为:Intel Core i5-4210U CPU;
软件平台为:visual studio code。
2、实验内容与结果
本发明通过对NUS-WIDE数据集进行实验,通过提取图片的自然语言描述,进而提取包含图片语义信息的特征向量组成特征图像库,然后根据同样的方法去处理查询图片,最后通过向量间的计算,得出结果。在测试的3000张数据中,对比算法Learning to Hashwith Binary Reconstructive Embeddings(BRE)、Deep learning of binary hash codesfor fast image retrieva(DLBHC)、Deep Supervised Hashing for Fast ImageRetrieval(DSH)的仿真结果,如表1所示,可以看出本发明在图片检索时有较高的效率。
表1本发明和现有方法的mAP指标对比
Figure BDA0002553596820000061
上述仿真分析证明了本发明所提方法的正确性与有效性。
本发明未详细说明部分属于本领域技术人员公知常识。
以上描述仅是本发明的一个具体实施例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims (9)

1.一种基于注意力机制的语义图像检索方法,其特征在于,包括如下步骤:
(1)构建包含注意力机制的CNN-RNN网络模型并进行训练:
(1a)对MS COCO数据集中图片和相应的图像标题进行预处理;
(1b)构建卷积神经网络VGG编码器和循环神经网络LSTM解码器,并在解码器中加入注意力机制,得到由编码器和解码器组成的CNN-RNN网络模型;
(1c)对预处理后的数据划分训练数据集与测试数据集,采用训练数据集对网络模型进行训练,并利用测试数据集进行测试,获取最终CNN-RNN网络模型;
(2)使用最终CNN-RNN网络模型提取待检索图像库中所有图片的图像标题,即图片对应的文本特征,并将提取的文本特征存储在数据库中;
(3)使用文本向量doc2vec模型提取数据库中文本特征的语义特征向量并存储:
(3a)使用gensim库中的文本向量doc2vec模型对步骤(2)得到的所有文本特征依次进行处理,获取每个图片对应的语义特征向量;
(3b)将得到的语义特征向量与相对应的图片存储在数据库中,并使之相互匹配;
(4)使用最终CNN-RNN网络模型提取查询图片的文本特征,并提取其对应的语义特征向量;
(5)使用余弦相似度比较法将查询图片的语义特征向量和图像库中其它图片的语义特征向量进行比较,得到相似语义特征向量;
(6)输出相似语义特征向量对应的图片,即待查询图片的相似图片。
2.根据权利要求1所述的方法,其特征在于:所述文本特征是用自然语言描述图片内容的短文本。
3.根据权利要求1所述的方法,其特征在于:步骤(1a)所述预处理为分词、句法分析和词向量。
4.根据权利要求1所述的方法,其特征在于:步骤(1b)所述构建卷积神经网络VGG编码器具体是将网络最后卷积层的输出作为图片的特征进行输出,即选取最后卷积层的至少5个特征图作为特征向量进行输出。
5.根据权利要求4所述的方法,其特征在于:所述卷积神经网络VGG编码器的网络结构由5层卷积层、3层全连接层、softmax输出层构成,且层与层之间使用最大池化分开,所有隐层神经元均采用ReLU激活函数。
6.根据权利要求1所述的方法,其特征在于:步骤(1b)所述在解码器中加入注意力机制是指在解码器解码的每一时间步时,将循环神经网络LSTM解码器输出的特征向量进行加权平均得到上下文向量,并将该向量也作为解码器网络的一个输入,用于实现指导当前时间步的解码操作。
7.根据权利要求1所述的方法,其特征在于:步骤(1b)所述循环神经网络LSTM解码器的输入包含当前步的词向量、前一时间步的输出向量以及注意力机制形成的加权向量,输出为当前时间步输出的词向量。
8.根据权利要求1所述的方法,其特征在于:步骤(3)所述提取数据库中文本特征的语义特征向量是把图片内容的自然语言描述转换为语义特征向量。
9.根据权利要求1所述的方法,其特征在于:步骤(5)所述余弦相似度按照如下公式计算:
Figure FDA0002553596810000021
其中A表示查询图片的语义特征向量,B表示图像库中其它图片的语义特征向量。
CN202010582273.7A 2020-06-23 2020-06-23 基于注意力机制的语义图像检索方法 Active CN111782853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010582273.7A CN111782853B (zh) 2020-06-23 2020-06-23 基于注意力机制的语义图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010582273.7A CN111782853B (zh) 2020-06-23 2020-06-23 基于注意力机制的语义图像检索方法

Publications (2)

Publication Number Publication Date
CN111782853A CN111782853A (zh) 2020-10-16
CN111782853B true CN111782853B (zh) 2022-12-02

Family

ID=72757038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010582273.7A Active CN111782853B (zh) 2020-06-23 2020-06-23 基于注意力机制的语义图像检索方法

Country Status (1)

Country Link
CN (1) CN111782853B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256727B (zh) * 2020-10-19 2021-10-15 东北大学 基于人工智能技术的数据库查询处理及优化方法
CN112417190B (zh) * 2020-11-27 2024-06-11 暨南大学 一种密文jpeg图像的检索方法及应用
CN113868447A (zh) * 2021-09-27 2021-12-31 新智认知数据服务有限公司 图片检索方法、电子设备及计算机可读存储介质
CN113705576B (zh) * 2021-11-01 2022-03-25 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018010365A1 (zh) * 2016-07-11 2018-01-18 北京大学深圳研究生院 一种跨媒体检索方法
CN109766468A (zh) * 2019-01-04 2019-05-17 广东技术师范学院 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置
WO2019235458A1 (ja) * 2018-06-04 2019-12-12 国立大学法人大阪大学 想起画像推定装置、想起画像推定方法、制御プログラム、記録媒体
CN111222049A (zh) * 2020-01-08 2020-06-02 东北大学 语义增强的异构信息网络上Top-k相似度搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018010365A1 (zh) * 2016-07-11 2018-01-18 北京大学深圳研究生院 一种跨媒体检索方法
WO2019235458A1 (ja) * 2018-06-04 2019-12-12 国立大学法人大阪大学 想起画像推定装置、想起画像推定方法、制御プログラム、記録媒体
CN109766468A (zh) * 2019-01-04 2019-05-17 广东技术师范学院 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置
CN111222049A (zh) * 2020-01-08 2020-06-02 东北大学 语义增强的异构信息网络上Top-k相似度搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Deep Learning Based Classification Using Academic Studies in Doc2Vec Model";Yaşar Safali等;《 2019 International Artificial Intelligence and Data Processing Symposium (IDAP)》;20191021;第1-5页 *
"基于视觉注意力机制的图像检索研究";梁晔等;《北京联合大学学报(自然科学版)》;20100331;第30-35页 *

Also Published As

Publication number Publication date
CN111782853A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111782853B (zh) 基于注意力机制的语义图像检索方法
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111198959B (zh) 一种基于卷积神经网络的两阶段图像检索方法
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
Qian et al. Image location inference by multisaliency enhancement
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111782852B (zh) 基于深度学习的高层次语义图像检索方法
CN110083729B (zh) 一种图像搜索的方法及***
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
CN113672693A (zh) 基于知识图谱和标签关联的在线问答平台的标签推荐方法
Song et al. A weighted topic model learned from local semantic space for automatic image annotation
Zhao et al. An angle structure descriptor for image retrieval
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
Li et al. Structure-adaptive neighborhood preserving hashing for scalable video search
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
Song et al. Hierarchical deep hashing for image retrieval
Xue et al. Mobile image retrieval using multi-photos as query
CN111783734B (zh) 原版视频识别方法及装置
CN112883216A (zh) 基于扰动一致性自集成的半监督图像检索方法及装置
Zhang et al. Improved image retrieval algorithm of GoogLeNet neural network
Ghosh et al. Efficient indexing for query by string text retrieval
CN113190706A (zh) 一种基于二阶注意力机制的孪生网络图像检索方法
CN114882412B (zh) 基于视觉和语言的标注关联型短视频情感识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant