CN112818148B - 视觉检索的排序优化方法、装置、电子设备及存储介质 - Google Patents

视觉检索的排序优化方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112818148B
CN112818148B CN202110411184.0A CN202110411184A CN112818148B CN 112818148 B CN112818148 B CN 112818148B CN 202110411184 A CN202110411184 A CN 202110411184A CN 112818148 B CN112818148 B CN 112818148B
Authority
CN
China
Prior art keywords
visual
entity
searched
queried
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110411184.0A
Other languages
English (en)
Other versions
CN112818148A (zh
Inventor
王海
刘朝振
刘邦长
常德杰
赵洪文
谷书锋
赵进
罗晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co ltd filed Critical Beijing Miaoyijia Health Technology Group Co ltd
Priority to CN202110411184.0A priority Critical patent/CN112818148B/zh
Publication of CN112818148A publication Critical patent/CN112818148A/zh
Application granted granted Critical
Publication of CN112818148B publication Critical patent/CN112818148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种视觉检索的排序优化方法、装置、电子设备及存储介质。该方法包括:建立视觉实体数据库;获取待查询视觉实体;对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取;查询所述待搜索集合中与所述待查询视觉实体特征相似的目标检索实体;将所述目标检索实体按照与所述待查询实体的特征相似性大小降序排列并输出。本发明通过直接优化平均准确率作为损失函数的优化方法,直接优化搜索排序,而不是优化基于距离的损失函数,有效克服基于距离的损失函数仅仅关注特征之间的相似度的缺陷,而不考虑加大对排序列表前列错误的结果进行加大惩罚的缺陷;显著提高了视觉检索准确率。

Description

视觉检索的排序优化方法、装置、电子设备及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视觉检索的排序优化方法、装置、电子设备及存储介质。
背景技术
现有的视觉检索***从技术角度可以分为两大类:
(1)、基于传统计算机视觉提取的特征,可以是全局特征或者是局部特征;
全局特征如:颜色直方图、纹理特征等;局部特征如:SIFT、SURF、ORB等。
(2)、 基于深度学习的方式。本大类也包括了两种方式:
a.直接提取特定层(如卷积层,或者全连接层)作为特征向量,进行搜索;
b.结合度量函数进行端到端的训练。
视觉检索的目标是与待查询的视觉实体是同一个类别(或者是同一个实体,或者同一个语义等),应该尽可能的在排序列表的前列,尤其是要保证排在最前面的K个的准确率。通常衡量检索***的准确率采用平均准确率指标 Average Precision(AP),如公式1-1:
Figure 563411DEST_PATH_IMAGE001
1-1
以图像为例,作为视觉实体的表现形式。其中q表示待查询图像,APq表示待查询图像q的平均准确率,数据库中待搜索的数据集S={Ii,i=1,2,...,n},q根据查询和待查询图像是否属于相同的类别,被分为S+和S-,S+表示与待查询图像相同类别的图像集合,S-表示与待查询图像不同类别的图像集合,其中 S = S+ U S- ,Rank(i,S)表示图像i和图像集合S的排序顺序数。
现有的技术的缺点是:没有明确的通过优化上述的排序损失进行优化,例如在基于传统计算机视觉提取的特征时,根本就没考虑更不可能保证上述性质。在基于深度学习的方式时,其中提取特定层(如卷积层或者全连接层)作为特征向量,进行搜索,也没有显示的进行排序列表的优化;另一方面虽说基于深度学习的方式,结合度量函数进行端到端的训练的方式可以通过损失函数,隐式的控制排序列表的顺序,但是它本质是基于距离的优化,而不是明确的采用基于排序的损失进行优化,这样会导致在相同的距离损失下,排在排序列表前面和排序列表后面的两项,他们产生的损失是一样的,但是在根据图像检索的目标,我们要尽可能保证前面的K项都是正确的,而排在后边的优先级则没有那么高。
发明内容
为解决上述问题,本发明提供了一种视觉检索的排序优化方法、装置、电子设备及存储介质,采用直接优化平均准确率作为损失函数的优化方法,有效克服基于距离的损失函数仅仅关注特征之间的相似度的缺陷,而不考虑加大对排序列表前列错误的结果进行加大惩罚,显著提高了视觉检索准确率。
为了实现上述目的,本发明提供的具体技术方案如下:
第一方面,本申请提供了一种视觉检索的排序优化方法,包括:
建立视觉实体数据库;
获取待查询视觉实体;
对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合;
根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;
根据损失函数
Figure 180337DEST_PATH_IMAGE002
对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似度大小降序排列的目标检索实体列表,并输出;
其中,
Figure 706390DEST_PATH_IMAGE003
,q表示所述待查询视觉实体,APq表示所述待查询视觉实体q的平均准确率,S表示所述视觉实体数据库中所述待搜索集合的数据集,si和sj分别表示所述待搜索集合中视觉实体i、视觉实体j与所述待查询视觉实体q之间的相似度,n 表示所述待搜索集合中视觉实体的数目,S+表示与所述待查询视觉实体相同类别的视觉实体集合,S-表示与所述待查询视觉实体不同类别的视觉实体集合,
Figure 383359DEST_PATH_IMAGE004
表示Sigmoid函数中的温度参数。
结合第一方面,在一些可能的实现方式中,所述视觉实体包括图像数据或视频数据中的关键帧或图像帧。
结合第一方面,在一些可能的实现方式中,所述距离度量函数包括欧式距离、余弦相似度、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离或汉明距离。
结合第一方面,在一些可能的实现方式中,在所述对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取时,任选基于传统计算机视觉提取特征的方式或基于深度学习的方式进行特征提取。
结合第一方面,在一些可能的实现方式中,在所述对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取时,通过基于深度学习的方式进行特征提取,包括:
训练数据集的图像数据和图像的标签数据;
构建深度学习特征提取网络。
第二方面,本申请还提供了一种视觉检索的排序优化装置,包括:
存储模块,用于建立视觉实体数据库;
获取模块,用于获取待查询视觉实体;
特征提取模块,用于对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合;
识别模块,用于根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;
处理模块,用于根据损失函数
Figure 352452DEST_PATH_IMAGE005
对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似度大小降序排列的目标检索实体列表,并输出;
其中,
Figure 445173DEST_PATH_IMAGE006
,q表示所述待查询视觉实体,APq表示所述待查询视觉实体q的平均准确率,S表示所述视觉实体数据库中所述待搜索集合的数据集,si和sj分别表示所述待搜索集合中视觉实体i、视觉实体j与所述待查询视觉实体q之间的相似度,n 表示所述待搜索集合中视觉实体的数目,S+表示与所述待查询视觉实体相同类别的视觉实体集合,S-表示与所述待查询视觉实体不同类别的视觉实体集合,
Figure 652163DEST_PATH_IMAGE007
表示Sigmoid函数中的温度参数。
第三方面,本申请提供了一种电子设备,所述电子设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如第一方面所述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如第一方面所述的方法。
由此可见,本发明实施例提供了一种视觉检索的排序优化方法、装置、电子设备及存储介质,通过直接优化平均准确率作为损失函数的优化方法,直接优化搜索排序,而不是优化基于距离的损失函数,有效克服基于距离的损失函数仅仅关注特征之间的相似度,而不考虑加大对排序列表前列错误的结果进行加大惩罚的缺陷;显著提高了视觉检索准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本发明实施例的视觉检索的排序优化方法的示意性流程图;
图2为本发明实施例中Indicator函数的示意图;
图3为本发明实施例中Sigmoid函数逼近Indicator函数的示意图;
图4为本发明实施例中参数
Figure 296771DEST_PATH_IMAGE008
不同的Sigmoid函数示意图;
图5为本发明实施例的视觉检索的排序优化装置的整体框架图。
具体实施方式
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。
本发明实施例提供了一种视觉检索的排序优化方法,图1为本发明实施例的视觉检索的排序优化方法的示意性流程图。如图1所示,本发明实施例的视觉检索的排序优化方法,包括步骤S110,建立视觉实体数据库;步骤S120,获取待查询视觉实体;步骤S130,对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取;步骤S140,根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;步骤S150,根据损失函数
Figure 628527DEST_PATH_IMAGE009
对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似性大小降序排列的所述目标检索实体列表,并输出。
本发明实施例中,视觉实体包括图像数据或视频数据中的关键帧或图像帧。
在步骤S130中,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合,并任选基于传统计算机视觉提取特征的方式或基于深度学习的方式进行特征提取。其中,基于传统计算机视觉提取的特征,可以是全局特征或是局部特征; 全局特征如:颜色直方图、形状特征、纹理特征等;局部特征如:SIFT、SURF、ORB等。基于深度学习的方式,包括直接提取特定层(如卷积层,或者全连接层)作为特征向量,进行搜索,或结合度量函数进行端到端的训练。
在本发明一种优选实施例中,将图像作为视觉实体的表现形式,步骤S140采用深度学习模型,配合欧式距离、余弦相似度、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离或汉明距离等距离度量函数,进行视觉检索及排序,步骤S150具体包括:将视觉实体数据库中待搜索的图像数据集合定义为S={Ii,i=1,2,...,n},n为待搜索的图像数据集合中所有的图像数量,将待查询图像定义为q,根据查询和待查询图像是否属于相同的类别,将S分为S+和S-,S+表示与待查询图像相同类别的图像集合,S-表示与待查询图像不同类别的图像集合,其中 S = S+ U S- ,Rank(i,S)表示图像i和图像集合S的排序顺序数。
通过训练数据集的图像数据和图像的标签数据,采用基于度量学***均准确率。
训练过程中把训练的数据集中选取任意一张图片作为待查询图像q,根据待查询图像q的标签数据把训练集分为S+ 和 S-。根据公式
Figure 401945DEST_PATH_IMAGE012
定义的损失函数,进行梯度回传,进行神经网络的优化。待训练结束后可得到特征提取器,即对输入图像I进行特征提取得到图像特征fI。
在定义上述损失函数时,具体包括:采用
Figure 548892DEST_PATH_IMAGE013
作为排序函数,如图2所示,其中si和sj分别表示所述待搜索的图像数据集合中图像i、图像j与待查询图像q之间的之间的相似度。
由图2可知,Indicator函数在x=0附近不连续,导致损失函数AP也是不连续的,导致无法采用基于梯度下降等优化方法进行端到端的训练。因此,根据Indicator函数的表现形式,采用Sigmoid函数来近似表示指示函数,即
Figure 108050DEST_PATH_IMAGE014
,其中x是自变量,
Figure 194692DEST_PATH_IMAGE008
是温度(temperature)参数,控制函数值的形状。
Figure 384365DEST_PATH_IMAGE008
参数对函数值的影响如图4所示。
由图3可知,Sigmoid函数当自变量在实数域的取值都是处处连续的,并且较好的拟合了Indicator 函数,因此采用Sigmoid函数近似替代Indicator函数,由于Sigmoid连续并且存在导数,可以通过梯度下降等优化方法进行端到端的优化,直接优化排序目标函数,而不是通过优化基于距离的损失函数。优化目标和希望取得的目标一致,较好的解决了视觉检索问题中相似图像在排序列表靠前的问题。
将Indicator函数使用Sigmoid函数替换后,
Figure 80926DEST_PATH_IMAGE015
,最终
Figure 381457DEST_PATH_IMAGE016
由图4可知,当
Figure 89650DEST_PATH_IMAGE008
趋近于零时,上式的等号右侧趋近等号左侧。对于集合S中的n个 图像,每张图像作为搜索图像,将上式中的APq带入损失函数,最终按照
Figure 246962DEST_PATH_IMAGE017
作为损失函数,根据损失计算的结果,将待搜索的图像数据集 合中的图像按照与待查询图像的特征相似度大小降序排列,并输出。
另一方面,本发明实施例提供了一种视觉检索的排序优化装置,图5为本发明实施例的视觉检索的排序优化装置的整体框架图。如图5所示,本发明实施例的视觉检索的排序优化装置包括:存储模块501,用于建立视觉实体数据库;获取模块502,用于获取待查询视觉实体;特征提取模块503,用于对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合;识别模块504,用于根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;处理模块505,用于根据损失函数
Figure 368501DEST_PATH_IMAGE017
对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似度大小降序排列的所述目标检索实体列表,并输出;其中,
Figure 144828DEST_PATH_IMAGE018
,q表示所述待查询视觉实体,APq表示所述待查询视觉实体q的平均准确率,S表示所述视觉实体数据库中所述待搜索集合的数据集,si和sj分别表示所述待搜索集合中视觉实体i、视觉实体j与所述待查询视觉实体q之间的相似度,n 表示所述待搜索集合中视觉实体的数目,S+表示与所述待查询视觉实体相同类别的视觉实体集合,S-表示与所述待查询视觉实体不同类别的视觉实体集合,
Figure 35423DEST_PATH_IMAGE019
表示Sigmoid函数中的温度参数。在一个可能的设计中,视觉检索的排序优化装置的结构中包括处理器和存储器,该存储器用于存储支持视觉检索的排序优化装置执行上述视觉检索的排序优化方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
又一方面,本发明实施例提供了一种电子设备,包括存储器和处理器;存储器用于存储计算机程序;处理器,用于执行所述计算机程序并在执行所述计算机程序时实现上述视觉检索的排序优化方法中任一所述的方法。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时使所述处理器实现上述视觉检索的排序优化方法中任一所述的方法。与现有技术相比,本申请的有益效果在于:
提供了一种视觉检索的排序优化方法、装置、电子设备及存储介质,用于端到端的视觉搜索。其中采用优化的方式进行视觉搜索,并指出基于度量的损失函数导致搜索结果不准确,采用直接优化平均准确率作为损失函数的优化方法;通过指示函数的形式,明确地建立排序列表中排序位数与查询特征和带查询特征相似性之间的关系;通过分析指示函数不可导,无法采用基于梯度下降等优化方法进行优化,从而无法进行基于排序损失进行优化的方法;通过观察指数函数的形式,设计Sigmoid(x;
Figure 629216DEST_PATH_IMAGE008
)函数族对指示函数进行逼近,Sigmoid(x;
Figure 972472DEST_PATH_IMAGE008
)函数族连续并且可导,可以通过采用基于梯度下降等优化方法进行优化。
本申请通过直接优化搜索排序,而不是优化基于距离的损失函数,有效克服基于距离的损失函数仅仅关注特征之间的相似度,而不考虑加大对排序列表前列错误的结果进行加大惩罚的缺陷;显著提高视觉检索准确率。更进一步的,本申请中的技术方案易于实现,结构清晰,易于维护及升级;通过上述方法训练的神经网络作为特征提取器,可以应用到视觉聚类、视觉识别等下游任务中;且模块化的结构可以配合不同的网格结构,批次采样函数,即插即用,实用性强。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。其中装置实施方式与方法的实施方式相对应,因此装置的实施方式描述比较简略,相关描述可参照方法的实施方式的描述即可。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种视觉检索的排序优化方法,其特征在于,包括:
建立视觉实体数据库;
获取待查询视觉实体;
对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合;
根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;
根据损失函数
Figure 57606DEST_PATH_IMAGE001
对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似度大小降序排列的目标检索实体列表,并输出;
其中,
Figure 60197DEST_PATH_IMAGE002
,q表示所述待查询视觉实体,APq表示所述待查询视觉实体q的平均准确率,S表示所述视觉实体数据库中所述待搜索集合的数据集,si和sj分别表示所述待搜索集合中视觉实体i、视觉实体j与所述待查询视觉实体q之间的相似度,n 表示所述待搜索集合中视觉实体的数目,S+表示与所述待查询视觉实体相同类别的视觉实体集合,S-表示与所述待查询视觉实体不同类别的视觉实体集合,
Figure 223062DEST_PATH_IMAGE003
表示Sigmoid函数中的温度参数。
2.根据权利要求1所述的方法,其特征在于,所述视觉实体包括图像数据或视频数据中的关键帧或图像帧。
3.根据权利要求2所述的方法,其特征在于,所述距离度量函数包括欧式距离、余弦相似度、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离或汉明距离。
4.根据权利要求3所述的方法,在所述对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取时,选择基于深度学习的方式进行特征提取。
5.根据权利要求4所述的方法,其特征在于,在所述对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取时,通过基于深度学习的方式进行特征提取,包括:
训练数据集的图像数据和图像的标签数据;
构建深度学习特征提取网络。
6.一种视觉检索的排序优化装置,其特征在于,包括:
存储模块,用于建立视觉实体数据库;
获取模块,用于获取待查询视觉实体;
特征提取模块,用于对所述待查询视觉实体和待搜索集合中的视觉实体进行特征提取,所述待搜索集合为所述视觉实体数据库中所有视觉实体的集合;
识别模块,用于根据距离度量函数,计算所述待搜索集合中任一视觉实体与所述待查询视觉实体的距离,将距离小于预定阈值的视觉实体识别为相似的目标检索实体;
处理模块,用于根据损失函数
Figure 918486DEST_PATH_IMAGE004
,对所述目标检索实体进行损失计算,得到按照与所述待查询视觉实体的特征相似度大小降序排列的目标检索实体列表,并输出;
其中,
Figure 425691DEST_PATH_IMAGE005
,q表示所述待查询视觉实体,APq表示所述待查询视觉实体q的平均准确率,S表示所述视觉实体数据库中所述待搜索集合的数据集,si和sj分别表示所述待搜索集合中视觉实体i、视觉实体j与所述待查询视觉实体q之间的相似度,n 表示所述待搜索集合中视觉实体的数目,S+表示与所述待查询视觉实体相同类别的视觉实体集合,S-表示与所述待查询视觉实体不同类别的视觉实体集合,
Figure 966393DEST_PATH_IMAGE006
表示Sigmoid函数中的温度参数。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-5中任一项所述的方法。
CN202110411184.0A 2021-04-16 2021-04-16 视觉检索的排序优化方法、装置、电子设备及存储介质 Active CN112818148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110411184.0A CN112818148B (zh) 2021-04-16 2021-04-16 视觉检索的排序优化方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110411184.0A CN112818148B (zh) 2021-04-16 2021-04-16 视觉检索的排序优化方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818148A CN112818148A (zh) 2021-05-18
CN112818148B true CN112818148B (zh) 2021-11-05

Family

ID=75863630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110411184.0A Active CN112818148B (zh) 2021-04-16 2021-04-16 视觉检索的排序优化方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818148B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003630B (zh) * 2021-12-28 2022-03-18 北京文景松科技有限公司 一种数据搜索方法、装置、电子设备及存储介质
CN117168080B (zh) * 2023-10-30 2024-02-02 南通百源制冷设备有限公司 一种节能用的螺旋速冻机状态控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2530687B1 (es) * 2013-09-04 2016-08-19 Shot & Shop. S.L. Método implementado por ordenador para recuperación de imágenes por contenido y programa de ordenador del mismo
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN108415937A (zh) * 2018-01-24 2018-08-17 博云视觉(北京)科技有限公司 一种图像检索的方法和装置
CN108733801B (zh) * 2018-05-17 2020-06-09 武汉大学 一种面向数字人文的移动视觉检索方法
CN108920727A (zh) * 2018-08-03 2018-11-30 厦门大学 视觉检索中的紧凑视觉描述子深度神经网络生成模型
CN109558823B (zh) * 2018-11-22 2020-11-24 北京市首都公路发展集团有限公司 一种以图搜图的车辆识别方法及***

Also Published As

Publication number Publication date
CN112818148A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN106095893B (zh) 一种跨媒体检索方法
CN108280477B (zh) 用于聚类图像的方法和装置
CA3066029A1 (en) Image feature acquisition
CN111275060B (zh) 识别模型更新处理方法、装置、电子设备及存储介质
CN112818148B (zh) 视觉检索的排序优化方法、装置、电子设备及存储介质
CN108009560B (zh) 商品图像相似类别判定方法及装置
CN110704659B (zh) 图像列表的排序方法和装置、存储介质及电子装置
CN114238329A (zh) 向量相似度计算方法、装置、设备及存储介质
CN113129335A (zh) 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN113963303A (zh) 图像处理方法、视频识别方法、装置、设备及存储介质
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN117809124B (zh) 基于多特征融合的医学图像关联调用方法及***
Aristoteles et al. Identification of human sperm based on morphology using the you only look once version 4 algorithm
CN106599926A (zh) 一种表情图片推送方法及***
CN113553975A (zh) 基于样本对关系蒸馏的行人重识别方法、***、设备及介质
CN115292542B (zh) 基于试题配图的试题搜索方法、***、存储介质及设备
CN115270754B (zh) 跨模态匹配方法及相关装置、电子设备、存储介质
CN116229330A (zh) 一种视频有效帧的确定方法、***、电子设备及存储介质
CN115018884B (zh) 基于多策略融合树的可见光红外视觉跟踪方法
CN116958626A (zh) 一种图像分类模型训练、图像分类方法、装置及电子设备
JP2016014990A (ja) 動画像検索方法、動画像検索装置及びそのプログラム
CN114168780A (zh) 多模态数据处理方法、电子设备及存储介质
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN114048148A (zh) 一种众包测试报告推荐方法、装置及电子设备
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Hai

Inventor after: Liu Chaozhen

Inventor after: Liu Bangchang

Inventor after: Chang Dejie

Inventor after: Zhao Hongwen

Inventor after: Gu Shufeng

Inventor after: Zhao Jin

Inventor after: Luo Xiaobin

Inventor before: Wang Hai

Inventor before: Liu Chaozhen

Inventor before: Liu Bangchang

Inventor before: Chang Dejie

Inventor before: Zhao Hongwen

Inventor before: Gu Shufeng

Inventor before: Zhao Jin

Inventor before: Luo Xiaobin

CB03 Change of inventor or designer information