CN112287144B - 图片检索方法、设备及存储介质 - Google Patents
图片检索方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112287144B CN112287144B CN202011181535.5A CN202011181535A CN112287144B CN 112287144 B CN112287144 B CN 112287144B CN 202011181535 A CN202011181535 A CN 202011181535A CN 112287144 B CN112287144 B CN 112287144B
- Authority
- CN
- China
- Prior art keywords
- attribute
- retrieval
- picture
- sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图片检索方法、设备及存储介质,所述方法包括步骤:获取具有属性标签信息的待测图片;所述属性标签信息包括属性类型和与每一所述属性类型对应的属性值;将所述待测图片输入训练后的特征提取网络,获得检索特征向量;所述训练后的特征提取网络从所述待测图片中提取第一检索特征图,根据所述第一检索特征图预测每一所述属性标签信息对应的属性置信度,基于所述属性置信度与所述第一检索特征图,得到第二检索特征图;基于所述第二检索特征图得到检索特征向量;依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片;本申请提高了图片检索结果的准确性。
Description
技术领域
本发明涉及计算机应用技术领域,具体地说,涉及一种图片检索方法、设备及存储介质。
背景技术
图片检索是一种由待测图片或者视频截图中来提取特征向量,然后基于特征向量在由大量图片构成的待检索数据集中检索带查询目标的方法。图片检索方法的主要部分在于特征向量的提取。目前基于深度学习的提取方法因其快速高效适应性强,已经成为图片检索特征提取方法的主流。
但现有深度学习方法仍存在一些不足:目前方法提取的特征不够甚至难以聚焦用户需要关注的属性,而对于用户不希望关注的属性又会对检索结果造成干扰。这些问题严重影响了该技术的日常使用。比如,在进行非机动车检索时,可能出现以下两种情况:(1)关键属性没有得到特征提取模型的足够重视。例如现有模型在检索时经常出现下述情况:检索目标是绿色的电动车,检索结果中存在绿色的自行车,而可能由于光照导致颜色差异,导致绿色电动车却排在自行车的后面。但用户要检索的是电动车,所以自然希望在检索结果中所有的电动车排在自行车之前。(2)非关键属性的物体会干扰提取信息,最终导致检索错误。例如由于训练数据中部分非机动车有驾驶员,部分没有驾驶员,从而导致网络模型过度拟合认为驾驶员是检索目标之一,这对模型训练造成了干扰。以上均导致了检索结果准确性较差。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种图片检索方法、设备及存储介质,以提高图片检索结果的准确性。
为实现上述目的,本发明提供了一种图片检索方法,所述方法包括以下步骤:
获取具有属性标签信息的待测图片;所述属性标签信息包括属性类型和与每一所述属性类型对应的属性值;
将所述待测图片输入训练后的特征提取网络,获得检索特征向量;所述训练后的特征提取网络从所述待测图片中提取第一检索特征图,根据所述第一检索特征图预测每一所述属性值对应的属性置信度,基于所述属性置信度与所述第一检索特征图,得到第二检索特征图;基于所述第二检索特征图得到检索特征向量;
依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片。
优选地,在所述获取具有属性标签信息的待测图片的步骤之前,所述方法还包括步骤:
获取一由多个带所述属性标签信息的样本图像构成的训练集;
构建特征提取网络,所述特征提取网络包含主干网络、属性预测分支网络以及特征提取分支网络;
构建损失函数;
依据所述训练集和所述损失函数,训练特征提取网络,得到训练后的特征提取网络。
优选地,所述依据所述训练集和所述损失函数,训练特征提取网络,得到训练后的特征提取网络,包括:
所述主干网络从所述训练集的样本图像中提取第一样本特征图,作为所述属性预测分支网络以及特征提取分支网络的输入;
所述属性预测分支网络基于所述第一样本特征图作为输入,对所述样本图像中各个所述属性类型下每一属性值对应的属性置信度进行预测;
所述特征提取分支网络用于将预测得到的属性置信度与所述第一样本特征图相乘,得到第二样本特征图;基于所述第二样本特征图,得到第一特征向量;
将所述第一特征向量作为所述损失函数的输入,计算所有样本对的预测损失。
优选地,所述构建损失函数包括:分别构建所述属性预测分支网络以及所述特征提取分支网络各自对应的损失函数;
其中,所述构建特征提取分支网络对应的损失函数,包括:
对样本对的预测损失进行间隔加权处理;加权后的样本对间隔为(m/simij),其中,simij表示样本图像i和样本图像j的相似度,m表示样本图像i和样本图像j之间的加权前间隔。
优选地,所述构建特征提取分支网络对应的损失函数,还包括:
对样本对的预测损失进行损失值加权处理;加权后的损失值为(lossij*simij),lossij表示加权前的预测损失值。
优选地,所述将待测图片输入训练后的特征提取网络,获得检索特征向量,包括:
将预设掩膜向量和第二检索特征图相乘,得到第三检索特征图;以将所述第二检索特征图中包含的与所述预设掩膜向量中的值为1的元素位置对应的属性类型进行保留;所述预设掩膜向量中元素的值为0或1;
将待测图片与所述第三检索特征图作为训练后的特征提取网络的输入,获得经保留的属性类型对应的短特征向量;
将保留的所有属性类型对应的短特征向量进行全连接,得到检索特征向量。
优选地,所述依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片,包括:
获取待检索数据集中的图片各自对应的第二特征向量;
分别计算检索特征向量与每一图片对应的所述第二特征向量之间的相似度;
将相似度最大的第二特征向量对应的图片作为目标图片。
优选地,在所述获取一由多个带属性标签信息的样本图像构成的训练集的步骤之后,所述方法还包括:
对所有所述样本图像进行数据增强处理,且在数据增强处理过程中,每一个属性标签信息中的属性值不变。
优选地,在所述获取一由多个带属性标签信息的样本图像构成的训练集的步骤之后,所述方法还包括:
依据所述训练集中所有样本图像各自的属性标签信息,获得每两个样本图像之间在每一属性类型上的相似度;
依据每两个样本图像之间在每一属性类型上的相似度,建立每一属性类型各自对应的样本相似度矩阵。
本发明还提供了一种图片检索设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项图片检索方法的步骤。
本发明还提供了一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现上述任意一项图片检索方法的步骤。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的图片检索方法、设备及存储介质中利用特征提取网络预测得到每一个属性类型下各个属性值对应的属性置信度,利用该属性置信度对第一检索特征图进行加权干预,从而使得权重高的属性值对应的属性类型被关注到,权重低的属性值对应的属性类型不被关注;解决目前检索结果中关键属性没有得到关注的问题,有利于提高图片检索的准确性;
利用根据用户需要确定的预设掩膜向量与第二特征图相乘,得到与被保留的属性类型相关联的检索特征向量,这样可以屏蔽对未被保留的属性类型的相关检索,从而解决非关键属性对检索的干扰问题,以及省去了对检索结果进行二次逻辑判断清洗的工作量和资源消耗,有利于提高图片检索的准确性以及效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1为本发明一实施例公开的一种图片检索方法的流程示意图;
图2为图1中步骤S60的流程示意图;
图3为图1中步骤S70的流程示意图;
图4为本发明另一实施例公开的一种图片检索方法的流程示意图;
图5为图4中步骤S40的流程示意图;
图6为本发明一实施例公开的一种图片检索***的结构示意图;
图7为本发明一实施例公开的一种图片检索设备的结构示意图;
图8为本发明一实施例公开的一种计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
如图1所示,本发明一实施例公开了一种图片检索方法,该图片检索方法包括以下步骤:
S50,获取具有属性标签信息的待测图片。具体而言,上述属性标签信息可以包括属性类型以及与属性类型对应的属性值。属性类型可以包括颜色或非机动车车型等。该待测图片即为后期用于从待检索数据集中检索目标图片时作为参考的图片。本实施例中,上述待测图片先标注了属性标签信息,然后获取到该待测图片。本申请对此不作限制,也可以先获取到待测图片,然后对待测图片标注属性标签信息。
S60,将上述待测图片输入训练后的特征提取网络,获得检索特征向量。上述训练后的特征提取网络从上述待测图片中提取第一检索特征图,根据上述第一检索特征图预测待测图片中所有属性类型下每一个属性值对应的属性置信度,基于上述属性置信度与上述第一检索特征图,得到第二检索特征图;基于上述第二检索特征图得到检索特征向量。
具体而言,如图2所示,步骤S60包括:
S601,将预设掩膜向量和第二检索特征图相乘,得到第三检索特征图;以将上述第二检索特征图中包含的与上述预设掩膜向量中的值为1的元素位置对应的属性类型进行保留。其中,上述预设掩膜向量为根据用户需要保留的属性类型预设生成的。上述预设掩膜向量中元素的值为0或1。每一个元素对应一个属性类型,1表示保留该属性类型,0表示丢弃该属性类型。
这样可以实现将不需要的属性类型置为0,将与上述预设掩膜向量中的值为1的元素位置对应的上述第二检索特征图中包含的属性类型进行保留;最终可以使保留的属性对应的特征正常提取而屏蔽的属性对应的特征为0。比如,将非机动车上的驾驶员属性对应的属性类型置为0,从而使得网络模型在检索过程中屏蔽掉对驾驶员属性的关注。
S602,将待测图片与上述第三检索特征图作为训练后的特征提取网络的输入,获得经保留的属性类型对应的短特征向量。以及
S603,将保留的所有属性类型对应的短特征向量进行全连接,得到检索特征向量。
这样可以使得最终输出的检索特征向量中只包含保留属性的信息,而去除需要屏蔽属性的信息,解决了非关键属性对检索结果造成的干扰问题;从而省去了对检索结果进行二次逻辑判断清洗的工作量和资源消耗,提高了图片检索的准确性以及检索效率。
以及S70,依据上述检索特征向量,从待检索数据集中获取与上述待测图片匹配的目标图片。具体而言,如图3所示,步骤S70包括:
S701,获取待检索数据集中的图片各自对应的第二特征向量。也即利用待检索数据集中的图片替换上述待测图片,作为步骤S60中的训练后的特征提取网络的输入,得到各个图片分别对应的第二特征向量。
S702,分别计算检索特征向量与每一图片对应的上述第二特征向量之间的相似度。该步骤中相似度的计算利用现有技术即可实现,比如通过计算两个向量间的余弦距离等,本实施例不再赘述。以及
S703,将相似度最大的第二特征向量对应的图片作为目标图片。也就实现查找到与待测图片最接近也即最相似的目标图片。
本实施例中,上述特征提取分支网络模型包含n层隐含层和一层全局池化层。上述隐含层的最后一层为卷积层,上述卷积层用于输出k*s个上述第二特征图。上述全局池化层用于输出k*s个上述短特征向量;k为上述保留的属性类型的个数,s为每一个第二特征图的长度或者每一个上述短特征向量的长度。n为预设参数,且n为正整数。
如图4所示,在上述实施例的基础上,本申请的另一实施例公开了另一种图片检索方法,该图片检索方法在上述实施例的步骤S50之前,还包括以下步骤:
S10,获取一由多个带属性标签信息的样本图像构成的训练集。具体而言,上述训练集可以包括至少一组样本数据,每组样本数据包括样本图像和上述样本图像的属性标签信息。上述属性标签信息可以包括属性类型以及与属性类型对应的属性值。属性类型可以包括颜色或非机动车车型等。属性标签信息和样本图像是一一对应的。
该实施例中,在步骤S10之后步骤S20之前还可以包括以下步骤:
依据上述训练集中所有样本图像各自的属性标签信息,获得每两个样本图像之间在每一属性类型上的相似度。比如,可以将两个样本图像各自的属性标签信息中归属于同一属性类型的属性值的差值的绝对值作为两个样本图像之间在该属性类型上的相似度。绝对值越小,相似度越大,表明两个样本图像越相似。反之,绝对值越大,相似度越小,表明两个样本图像越不相似。
比如,样本图像i的属性标签信息包含有颜色的属性类型。该属性类型下,粉色对应的属性值为1,红色对应的属性值为2,蓝色对应的属性值为3。那么,粉色和红色之间的差值绝对值小于粉色和蓝色之间的差值绝对值。所以,红色相对于蓝色来说,更接近粉色。需要说明的是,上述仅是对相似度的计算方式进行示例性说明,本领域技术人员在具体实施时,可以根据需要选择合适的方法计算样本图像之间的相似度。
以及依据每两个样本图像之间在每一属性类型上的相似度,建立每一属性类型各自对应的样本相似度矩阵。具体而言,本实施例中,建立有多个样本相似度矩阵,每一个样本相似度矩阵对应一个属性类型。属性类型的个数和样本相似度矩阵的个数相等。其中,样本相似度矩阵中的第i行第j个元素表示样本图像i和样本图像j在一属性类型上的相似度。比如,样本相似度矩阵的第三行第五个元素即为样本图像三和样本图像五在该属性类型上的相似度。
S20,构建特征提取网络,上述特征提取网络包含主干网络、属性预测分支网络以及特征提取分支网络。
S30,构建损失函数。具体而言,损失函数用于计算训练结果中的数据与属性标签信息中标注的数据之间的差异。步骤S30包括:
分别构建上述属性预测分支网络以及上述特征提取分支网络各自对应的损失函数。
其中,属性预测分支网络对应的损失函数用于计算属性预测分支网络训练结果的损失。特征提取分支网络对应的损失函数用于计算特征提取分支网络训练结果的损失。构建属性预测分支网络对应的损失函数利用现有技术即可实现,比如Softmax(一种逻辑回归模型)分类损失函数等。
其中,上述构建特征提取分支网络对应的损失函数,包括:
对样本对的预测损失进行间隔加权处理;加权后的样本对间隔为(m/simij),其中,simij表示样本图像i和样本图像j的相似度,该相似度可由上述生成的样本相似度矩阵得到。m表示样本图像i和样本图像j之间的加权前间隔。具体而言,该预测损失为训练结果中特征提取分支网络对应的损失函数的初始输出结果,即加权前的输出结果。
本申请在特征提取分支网络对应的损失函数在利用现有技术中的基于样本对的图像识别损失函数构建之后,利用上述得到的两个样本图像之间的相似度进行间隔加权。这样对于相似度高的样本对,优化后的间隔要小于相似度低的样本对,可以使得网络模型在依据提取的特征向量进行图片检索时,将相似度高的样本排在相似度低的样本之前,有利于提高图片检索的准确性。
其中,对于上述基于样本对的图像识别损失函数,本领域技术人员在具体实施时,可以根据需要选择合适的损失函数。比如constructive loss(网络推定全损函数)、triplet loss(三元组损失函数)等。
以及,对样本对的预测损失进行损失值加权处理;加权后的损失值为(lossij*simij),lossij表示加权前的预测损失值。具体而言,特征提取分支网络对应的损失函数在利用现有技术中的基于样本对的图像识别损失函数构建之后,还需要利用上述得到的两个样本图像之间的相似度进行如上上述的损失值加权处理。
这样,对于相似度高的样本其损失会变大,而相似度低的样本损失变小。使得网络对相似度高的样本的关注加强,更注重相似度高的样本之间的信息差异的学习,帮助网络模型更快收敛,有利于提高网络模型检索图片的准确性以及检索效率。
S40,依据上述训练集和上述损失函数,训练特征提取网络,得到训练后的特征提取网络。具体而言,如图5所示,步骤S40包括:
S401,利用上述主干网络从上述训练集的样本图像中提取第一样本特征图,作为上述属性预测分支网络以及特征提取分支网络的输入。其中,本实施例中,上述主干网络可选用现有技术中常见的比如ResNet(一种残差网络模型)等主干网络,或使用深度学习网络结构自定义。也即主干网络利用现有技术即可实现,本申请对此不作限制。
S402,利用上述属性预测分支网络基于上述第一样本特征图作为输入,对上述样本图像中各个所述属性类型下每一属性值对应的属性置信度进行预测。本实施例中,属性预测分支网络是由现有技术中常见的深度学习网络结构组成,包含数个卷积层、激活层、BatchNorm层(批归一化层)、Scale层(缩放层)。属性预测分支网络利用主干网络输出的第一样本特征图作为输入,基于现有技术中的深度学习网络模型结构,即可得到上述各个属性值对应的属性置信度。
S403,利用上述特征提取分支网络将上述属性预测分支网络预测得到的所有属性值对应的属性置信度与上述第一样本特征图相乘,得到第二样本特征图;基于上述第二样本特征图,得到第一特征向量。具体来说,特征提取分支网络在使用现有技术中常见的深度学习网络结构的基础上,也即在使用与属性预测分支网络类似的深度学习网络结构的基础上,额外包含一个注意力机制结构。该注意力机制结构具体而言即将属性预测分支网络预测得到的属性置信度与主干网络输出的第一样本特征图相乘,即对第一样本特征图利用属性置信度进行加权,输出第二样本特征图。利用第二样本特征图得到第一特征向量的过程参考现有技术即可实现。
这样使得特征提取分支网络利用神经网络的注意力机制,使关键属性具备较大的属性置信度而在训练过程中更被关注到,解决了目前检索结果中关键属性没有得到关注的问题,有利于提高图片检索的准确性。
S404,将上述第一特征向量作为上述损失函数的输入,计算所有样本对的预测损失。该步骤利用现有技术即可实现,本申请不再赘述。
S405,利用上述预测损失不断对特征提取网络进行修正,得到训练后的特征提取网络。该步骤利用现有技术即可实现,本申请不再赘述。
在本申请的另一实施例中,在上述实施例的基础上,属性标签信息包含属性值。步骤S10和S20之间还包括步骤S70:
对所有上述样本图像进行数据增强处理,比如进行旋转或者随机裁剪处理等。且在数据增强处理过程中,每一个属性标签信息中的属性值不变,比如,颜色属性值不能发生改变,红色不能变为粉色。这样有利于提高训练集中样本数据的丰富性,提高最终网络模型检索结果的准确性。
如图6所示,本发明实施例还公开了一种图片检索***6,该***包括:
待测图片获取模块61,用于获取具有属性标签信息的待测图片;所述属性标签信息包括属性类型和与每一所述属性类型对应的属性值。
检索特征向量获取模块62,用于将所述待测图片输入训练后的特征提取网络,获得检索特征向量;所述训练后的特征提取网络从所述待测图片中提取第一检索特征图,根据所述第一检索特征图预测每一所述属性值对应的属性置信度,基于所述属性置信度与所述第一检索特征图,得到第二检索特征图;基于所述第二检索特征图得到检索特征向量。
目标图片检索模块63,用于依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片。
可以理解的是,本发明的图片检索***还包括其他支持图片检索***运行的现有功能模块。图6显示的图片检索***仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本实施例中的图片检索***用于实现上述的图片检索的方法,因此对于图片检索***的具体实施步骤可以参照上述对图片检索的方法的描述,此处不再赘述。
本发明实施例还公开了一种图片检索设备,包括处理器和存储器,其中存储器存储有所述处理器的可执行指令;处理器配置为经由执行可执行指令来执行上述图片检索方法中的步骤。图7是本发明公开的图片检索设备的结构示意图。下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述图片检索方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明还公开了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述图片检索方法中的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述图片检索方法中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,利用属性预测分支网络对每一个属性标签信息对应的属性置信度进行预测,然后基于神经网络的注意力机制,利用属性置信度加权输出第二特征图,解决目前检索结果中关键属性没有得到关注的问题;基于利用属性置信度加权后获得后的第二特征图与预设掩膜向量,获得检索特征向量,解决非关键属性对检索的干扰问题;从而省去了对检索结果进行二次逻辑判断清洗的工作量和资源消耗,提高了图片检索的准确性以及效率。
图8是本发明的计算机可读存储介质的结构示意图。参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的图片检索方法、设备及存储介质利用特征提取网络预测得到每一个属性类型下各个属性值对应的属性置信度,利用该属性置信度对第一检索特征图进行加权干预,从而使得权重高的属性值对应的属性类型被关注到,权重低的属性值对应的属性类型不被关注;解决目前检索结果中关键属性没有得到关注的问题,有利于提高图片检索的准确性;
利用根据用户需要确定的预设掩膜向量与第二特征图相乘,得到与被保留的属性类型相关联的检索特征向量,这样可以屏蔽对未被保留的属性类型的相关检索,从而解决非关键属性对检索的干扰问题,以及省去了对检索结果进行二次逻辑判断清洗的工作量和资源消耗,有利于提高图片检索的准确性以及效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (11)
1.一种图片检索方法,其特征在于,包括以下步骤:
获取具有属性标签信息的待测图片;所述属性标签信息包括属性类型和与每一所述属性类型对应的属性值;
将所述待测图片输入训练后的特征提取网络,获得检索特征向量;所述训练后的特征提取网络从所述待测图片中提取第一检索特征图,根据所述第一检索特征图预测每一所述属性值对应的属性置信度,基于所述属性置信度与所述第一检索特征图,得到第二检索特征图;基于所述第二检索特征图得到检索特征向量;
依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片。
2.如权利要求1所述的图片检索方法,其特征在于,在所述获取具有属性标签信息的待测图片的步骤之前,所述方法还包括步骤:
获取一由多个带所述属性标签信息的样本图像构成的训练集;
构建特征提取网络,所述特征提取网络包含主干网络、属性预测分支网络以及特征提取分支网络;
构建损失函数;
依据所述训练集和所述损失函数,训练特征提取网络,得到训练后的特征提取网络。
3.如权利要求2所述的图片检索方法,其特征在于,所述依据所述训练集和所述损失函数,训练特征提取网络,得到训练后的特征提取网络,包括:
所述主干网络从所述训练集的样本图像中提取第一样本特征图,作为所述属性预测分支网络以及特征提取分支网络的输入;
所述属性预测分支网络基于所述第一样本特征图作为输入,对所述样本图像中各个所述属性类型下每一属性值对应的属性置信度进行预测;
所述特征提取分支网络用于将预测得到的属性置信度与所述第一样本特征图相乘,得到第二样本特征图;基于所述第二样本特征图,得到第一特征向量;
将所述第一特征向量作为所述损失函数的输入,计算所有样本对的预测损失。
4.如权利要求2所述的图片检索方法,其特征在于,所述构建损失函数包括:分别构建所述属性预测分支网络以及所述特征提取分支网络各自对应的损失函数;
其中,所述构建特征提取分支网络对应的损失函数,包括:
对样本对的预测损失进行间隔加权处理;加权后的样本对间隔为m/simij,其中,simij表示样本图像i和样本图像j的相似度,m表示样本图像i和样本图像j之间的加权前间隔。
5.如权利要求4所述的图片检索方法,其特征在于,所述构建特征提取分支网络对应的损失函数,还包括:
对样本对的预测损失进行损失值加权处理;加权后的损失值为lossij*simij,lossij表示加权前的预测损失值。
6.如权利要求1所述的图片检索方法,其特征在于,所述将所述待测图片输入训练后的特征提取网络,获得检索特征向量,包括:
将预设掩膜向量和第二检索特征图相乘,得到第三检索特征图;以将所述第二检索特征图中包含的与所述预设掩膜向量中的值为1的元素位置对应的属性类型进行保留;所述预设掩膜向量中元素的值为0或1;
将待测图片与所述第三检索特征图作为训练后的特征提取网络的输入,获得经保留的属性类型对应的短特征向量;
将保留的所有属性类型对应的短特征向量进行全连接,得到检索特征向量。
7.如权利要求1所述的图片检索方法,其特征在于,所述依据所述检索特征向量,从待检索数据集中获取与所述待测图片匹配的目标图片,包括:
获取待检索数据集中的图片各自对应的第二特征向量;
分别计算检索特征向量与每一图片对应的所述第二特征向量之间的相似度;
将相似度最大的第二特征向量对应的图片作为目标图片。
8.如权利要求2所述的图片检索方法,其特征在于,在所述获取一由多个带属性标签信息的样本图像构成的训练集的步骤之后,所述方法还包括:
对所有所述样本图像进行数据增强处理,且在数据增强处理过程中,每一个属性标签信息中的属性值不变。
9.如权利要求2所述的图片检索方法,其特征在于,在所述获取一由多个带属性标签信息的样本图像构成的训练集的步骤之后,所述方法还包括:
依据所述训练集中所有样本图像各自的属性标签信息,获得每两个样本图像之间在每一属性类型上的相似度;
依据每两个样本图像之间在每一属性类型上的相似度,建立每一属性类型各自对应的样本相似度矩阵。
10.一种图片检索设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任意一项所述图片检索方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至9中任意一项所述图片检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181535.5A CN112287144B (zh) | 2020-10-29 | 2020-10-29 | 图片检索方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181535.5A CN112287144B (zh) | 2020-10-29 | 2020-10-29 | 图片检索方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287144A CN112287144A (zh) | 2021-01-29 |
CN112287144B true CN112287144B (zh) | 2022-07-05 |
Family
ID=74352478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011181535.5A Active CN112287144B (zh) | 2020-10-29 | 2020-10-29 | 图片检索方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287144B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590857A (zh) * | 2021-08-10 | 2021-11-02 | 北京有竹居网络技术有限公司 | 键值匹配方法、装置、可读介质及电子设备 |
CN114283474A (zh) * | 2021-12-24 | 2022-04-05 | 深圳市同为数码科技股份有限公司 | 基于目标特征的抓拍优选方法、装置、计算机设备及介质 |
CN117636026B (zh) * | 2023-11-17 | 2024-06-11 | 上海凡顺实业股份有限公司 | 一种集装箱锁销类别图片识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851644A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像检索方法及装置、计算机可读存储介质、电子设备 |
CN111753746A (zh) * | 2020-06-28 | 2020-10-09 | 苏州科达科技股份有限公司 | 属性识别模型训练方法、识别方法、电子设备、存储介质 |
-
2020
- 2020-10-29 CN CN202011181535.5A patent/CN112287144B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851644A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像检索方法及装置、计算机可读存储介质、电子设备 |
CN111753746A (zh) * | 2020-06-28 | 2020-10-09 | 苏州科达科技股份有限公司 | 属性识别模型训练方法、识别方法、电子设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
基于改进的排序学习的图片检索算法研究;谭光兴等;《计算机科学》;20151231;第42卷(第12期);全文 * |
基于文本的图片检索***研究;闫政等;《信息通信》;20130331(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287144A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858555B (zh) | 基于图像的数据处理方法、装置、设备及可读存储介质 | |
CN112287144B (zh) | 图片检索方法、设备及存储介质 | |
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
WO2022022152A1 (zh) | 视频片段定位方法、装置、计算机设备及存储介质 | |
CN109816039B (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
EP3637310A1 (en) | Method and apparatus for generating vehicle damage information | |
CN111310770B (zh) | 目标检测方法和装置 | |
CN110162657B (zh) | 一种基于高层语义特征和颜色特征的图像检索方法及*** | |
CN110083834B (zh) | 语义匹配模型训练方法、装置、电子设备及存储介质 | |
CN113449821B (zh) | 融合语义和图像特征的智能训练方法、装置、设备及介质 | |
WO2022247562A1 (zh) | 多模态数据检索方法、装置、介质及电子设备 | |
CN112508078B (zh) | 图像多任务多标签识别方法、***、设备及介质 | |
CN112883968A (zh) | 图像字符识别方法、装置、介质及电子设备 | |
CN117036843A (zh) | 目标检测模型训练方法、目标检测方法和装置 | |
CN118097157A (zh) | 基于模糊聚类算法的图像分割方法及*** | |
CN113742590A (zh) | 一种推荐方法、装置、存储介质及电子设备 | |
CN113239883A (zh) | 分类模型的训练方法、装置、电子设备以及存储介质 | |
CN112966743A (zh) | 基于多维度注意力的图片分类方法、***、设备及介质 | |
CN114741697B (zh) | 恶意代码分类方法、装置、电子设备和介质 | |
CN110704650A (zh) | Ota图片标签的识别方法、电子设备和介质 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115757844A (zh) | 一种医学图像检索网络训练方法、应用方法及电子设备 | |
CN115375657A (zh) | 息肉检测模型的训练方法、检测方法、装置、介质及设备 | |
CN113255819B (zh) | 用于识别信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |