WO2019237646A1 - 一种基于深度学习和语义分割的图像检索方法 - Google Patents

一种基于深度学习和语义分割的图像检索方法 Download PDF

Info

Publication number
WO2019237646A1
WO2019237646A1 PCT/CN2018/114826 CN2018114826W WO2019237646A1 WO 2019237646 A1 WO2019237646 A1 WO 2019237646A1 CN 2018114826 W CN2018114826 W CN 2018114826W WO 2019237646 A1 WO2019237646 A1 WO 2019237646A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
semantic segmentation
deep learning
feature
method based
Prior art date
Application number
PCT/CN2018/114826
Other languages
English (en)
French (fr)
Inventor
李秀
金坤
Original Assignee
清华大学深圳研究生院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 清华大学深圳研究生院 filed Critical 清华大学深圳研究生院
Publication of WO2019237646A1 publication Critical patent/WO2019237646A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the invention belongs to the field of image retrieval and relates to an image retrieval method based on deep learning and semantic segmentation.
  • Image retrieval is a technique for retrieving similar images by querying the input image content, and is a search technique for information retrieval of graphic images.
  • Image feature representation is related to the pixel information of the image and human perception of things, and the image feature is the retrieval condition.
  • CNN deep convolutional neural network
  • VGG-16 VGG-16
  • ResNet101 pre-trained CNN networks
  • the features extracted at the last fully connected layer are used as image feature encoding vectors, or local or global features are applied to the last convolutional layer of CNN
  • the encoding method obtains a feature encoding vector of an image, and uses the Euclidean distance or cos distance between the vectors to measure the similarity of the images, and sorts them according to the similarity, to form the final search result.
  • the purpose of the present invention is to solve the problems of precision, recall and speed in image retrieval, and propose a feature coding technology based on deep learning and semantic segmentation, which can more accurately retrieve and compare with large-scale data sets.
  • the input image is similar.
  • An image retrieval method based on deep learning and semantic segmentation includes the following steps:
  • step S2 The image processed in step S1 is sent to a deep neural network, and the image is encoded into a set of feature maps by any convolutional layer of the deep neural network through deep learning;
  • step S3 Perform semantic segmentation on the image processed in step S1 to obtain a segmented image, and simultaneously obtain a category label to which each pixel in the segmented image belongs;
  • step S5 weight the processing according to the category label of each pixel of the feature map determined in step S4 to obtain a weighted set of feature maps
  • step S6 encode the weighted set of feature maps obtained in step S5 into a fixed-length feature vector, and perform normalization processing, and use the normalized feature vector to represent the final encoded feature vector of the image;
  • S7 Perform unified processing of steps S1 to S6 on all pictures in the database and input pictures to be retrieved, and calculate the distance between the feature vectors of the pictures to be retrieved and the feature vectors of all pictures in the database to measure the similarity of the images ;
  • step S8 Sort the similarity obtained in step S7 in descending order and return the first K images, which is the search result; K is set by the searcher as needed.
  • the image pre-processing method in step S1 is: performing an average removal operation on the input color image, and subtracting the average values of the corresponding channels from the values of the three channels R, G, and B, so that the corresponding values of all input images satisfy Same distribution.
  • the deep neural network in step S2 is one of the following CNNs with different structures: VGG, ResNet, DenseNet.
  • the deep neural network uses the last convolutional layer of the CNN to encode the image into a set of feature maps.
  • the semantic segmentation in step S3 adopts a traditional N-cut method or a deep learning-based semantic segmentation method.
  • the deep learning-based semantic segmentation method uses an existing semantic segmentation network PSPNet pre-trained on a public data set ADE20K.
  • the down-sampling processing in step S4 adopts a bilinear interpolation method.
  • the weighting processing method of step S5 is: using two different category weight setting methods: one is a manual design method: setting the weight of the background target to 0 or other positive numbers less than 1 according to prior knowledge, Set the foreground target weight to 3 or other positive numbers greater than 1 and less than or equal to 10; the second is the parameter learning method: set the weights of all parameters including the foreground target and the background target in the deep neural network, and train the deep neural network Come to learn the weight of each category automatically.
  • one is a manual design method: setting the weight of the background target to 0 or other positive numbers less than 1 according to prior knowledge, Set the foreground target weight to 3 or other positive numbers greater than 1 and less than or equal to 10
  • the second is the parameter learning method: set the weights of all parameters including the foreground target and the background target in the deep neural network, and train the deep neural network Come to learn the weight of each category automatically.
  • the method of encoding a set of feature maps into a fixed-length feature vector in step S6 is a global pooling or fully connected method using an existing algorithm.
  • the invention also proposes an image retrieval system based on deep learning and semantic segmentation, comprising: an image acquisition system, a deep neural network system, and an image processing system; a computer program is stored in the image retrieval system based on deep learning and semantic segmentation, This program is used to implement the steps of the image retrieval method based on deep learning and semantic segmentation according to any one of the above.
  • the invention proposes an algorithm based on deep learning and semantic segmentation to enhance the feature coding of saliency regions, and uses two post-processing methods to modify the results of distance calculations to improve the performance of image retrieval.
  • the invention adopts a deep learning method to encode an image into a feature vector of a short length (512-dimensional or 2048-dimensional), which greatly accelerates the speed of similarity calculation and improves retrieval efficiency.
  • the present invention fully considers different weights of the foreground and background when extracting image features to improve retrieval performance.
  • the invention first introduces semantic segmentation technology to the feature coding of image retrieval. Semantic segmentation can identify the category of each pixel of the image. For example, it may be the animals, attractions, clothes, etc. that we want to retrieve.
  • the algorithm can focus on a certain part of the region, and weaken the attention to unimportant background objects, improving the effect of feature coding, thereby greatly improving Retrieval effect.
  • the weight of each category of the image is obtained by the present invention, the manual design method based on prior knowledge and the parameter learning method of the deep neural network are very effective.
  • FIG. 1 is a flowchart of an image retrieval method based on deep learning and semantic segmentation of the present invention.
  • Figure 2 shows three different buildings.
  • Figure 3 is a schematic diagram of three different buildings after filtering out the interference information of the sky using semantic segmentation technology.
  • FIG. 1 is a flowchart of an image retrieval method based on deep learning and semantic segmentation of the present invention.
  • the present invention first provides an image retrieval method based on deep learning and semantic segmentation. The steps are as follows:
  • This image is actually a numerical matrix composed of positive integers from 0 to 255 in the three RGB channels.
  • the average value is subtracted from the three channels of R, G, and B. (Ie B: 104.00698793, G: 116.66876762, R: 122.67891434), the average value is the average value of all the values on each channel corresponding to all the pictures in the ImageNet dataset in the industry, so that the values corresponding to all input images meet the same distribution.
  • step S2 The image processed in step S1 is sent to a deep neural network, and the image is encoded into a set of feature maps by any convolutional layer of the deep neural network through deep learning.
  • a deep neural network such as commonly used VGG, ResNet, and DenseNet (these are deep neural network models with different structures, trained on millions of data sets, and can well perform image processing (Feature coding), etc.
  • VGG deep neural network
  • ResNet ResNet
  • DenseNet DenseNet
  • any one of the convolutional layers of the deep neural network outputs a set of feature maps.
  • the channels of this set of feature maps are larger than the three channels of the original image described in step S1, but the length and width are smaller than the original image.
  • the invention adopts basic network frameworks such as VGG-16 and ResNet101 to extract features, and makes a new feature encoding method for the features extracted by the last convolutional layer.
  • the experiment of the present invention proves that the accuracy of the precision and recall is better with the last convolutional layer of the CNN.
  • step S3 Perform semantic segmentation on the image processed in step S1 to obtain a segmented image, and simultaneously obtain a category label to which each pixel in the segmented image belongs.
  • the pre-processed pictures are semantically segmented using either traditional N-cut methods or deep learning-based semantic segmentation methods to obtain the category labels to which each pixel in the image belongs.
  • the experiment of the invention proves that the accuracy and recall are better with the existing semantic segmentation network PSPNet pre-trained on the public data set ADE20K.
  • Existing CNNs extract image features. Sending the entire image to the CNN network can well extract the global features of the image, but ignore the local features of the image. For example, we want to retrieve a picture of a building, but the picture contains the building, but also contains some unrelated backgrounds (such as sky, grass, trees, etc.).
  • Existing CNNs send buildings and their backgrounds to the CNN network without distinction to extract features, that is, the features of the finally encoded image include irrelevant backgrounds such as the sky and grass, which creates extreme The big interference also greatly reduces the retrieval performance.
  • the present invention introduces image semantic segmentation technology, which can obtain which pixel of an image is an object in advance, and if it has an irrelevant background, it can reduce its impact in the feature extraction process, making the final feature encoding information mainly Includes or all information about buildings, greatly improving retrieval performance.
  • the current deep learning-based approach is to send three pictures to the CNN network, perform feature extraction in exactly the same process, and extract the buildings and sky in the image.
  • the area is treated equally, which results in that if the sky occupies more in a picture, it is likely to retrieve images with a larger sky occupancy, rather than pictures containing buildings.
  • the sky and the building area in the picture can be well identified, so that the interference information of the sky can be filtered out, and the building retrieval can be better performed.
  • step S4 Perform downsampling processing on the segmented image in step S3 to make the segmented image consistent with the size of the feature map in step S2, ensure that each position of the segmented image corresponds to the position of the feature map in step S2, and segment the image
  • the category label corresponding to the pixel at any position is regarded as the category label of the corresponding position on the feature map.
  • the segmented image is reduced to a size of the feature map through a downsampling method such as bilinear interpolation.
  • a downsampling method such as bilinear interpolation.
  • each position of the segmented map corresponds to the position of the feature map, and the segmented image will be at any position.
  • the category corresponding to the pixels of is regarded as the category of the corresponding position on the feature map.
  • step S5 Perform weighting processing according to the category labels of each pixel of the feature map determined in step S4 to obtain a weighted set of feature maps.
  • the method for obtaining category weights is:
  • the background weight of buildings such as sky, grass, and people can be set to 0 or other positive numbers less than 1, and the area where the category is a building is set to a larger Weight, such as 3 or other positive numbers greater than 1 and less than or equal to 10.
  • Parameter learning method Assume that the data set contains 150 types of targets, including foreground targets and background targets. 150 parameters are set in the deep neural network, corresponding to the weights of the 150 targets, and the weights of each category are automatically learned by training the deep neural network.
  • the feature map is weighted to obtain a weighted set of feature maps.
  • the first method is based on prior knowledge. For example, if we are searching for a building, then the larger the role the building plays in the feature coding process, the weaker the background interference. Therefore, you can manually design a larger weight for the area that belongs to the building, and set the weight to 0 for the area that belongs to the background.
  • Another method combined with the strong learning ability of the CNN network, allows the CNN network to automatically learn the weight of each type of object and apply it to the corresponding pixels. In this way, the effect of weakening the background is well achieved, so that when CNN encodes the image, it is possible to extract the features of the object with the retrieval to the greatest extent, thereby greatly improving the retrieval performance.
  • step S6 encode the weighted set of feature maps obtained in step S5 into a fixed-length feature vector, and perform normalization processing, and use the normalized feature vector to represent the final encoded feature vector of the image.
  • the weighted feature map can be converted into a fixed-length feature vector by using existing algorithms such as global pooling or full connection, and then normalized.
  • the normalized vector is used to characterize the final encoded feature vector of the image.
  • the final encoded feature vector is a feature vector of shorter length (512-dimensional or 2048-dimensional).
  • S7 Perform unified processing of steps S1 to S6 on all pictures in the database and input pictures to be retrieved, and calculate the distance between the feature vectors of the pictures to be retrieved and the feature vectors of all pictures in the database to measure the similarity of the images .
  • All the pictures in the database and the input pictures to be retrieved are processed uniformly according to steps S1 to S6, and the distances between the feature vectors of the pictures to be retrieved and the feature vectors of all pictures in the database are calculated to measure the similarity of the images.
  • step S8 Sort the similarity obtained in step S7 in descending order and return the first K images, which is the search result; K is set by the searcher as needed.
  • Sort according to the similarity size sort according to the similarity from large to small and return the first K images, which is the search result, and K is set by the searcher as needed.
  • the invention also proposes an image retrieval system based on deep learning and semantic segmentation, comprising: an image acquisition system, a deep neural network system, and an image processing system; a computer program is stored in the image retrieval system based on deep learning and semantic segmentation, This program is used to implement the steps of the image retrieval method based on deep learning and semantic segmentation according to any one of the above.
  • the present invention when extracting image features, it is considered that the weights of different regions and different categories in an image will be different, and different weights of the foreground and background are fully considered to improve the retrieval performance.
  • the invention applies the semantic segmentation technology to the image feature coding for the first time, which greatly improves the retrieval effect.
  • the present invention proposes a manual design method based on prior knowledge and a parameter learning method of a deep neural network, which is very effective.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习和语义分割的图像检索方法。包括如下步骤:读取图像并进行预处理;通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图;对图像进行语义分割,获得分割图像逐像素的类别标签;根据特征图上每个像素类别标签和设置的类别权重对其进行加权处理,获得加权后的一组特征图;将获得加权后的一组特征图编码为一个固定长度的特征向量,并进行归一化处理,用归一化的特征向量表征图像的最终编码特征向量;相似性计算,返回检索结果。所述方法将语义分割技术引入图像检索的特征编码,大幅提升了检索效果。在获取图像每个类别的权重时,提出的根据先验知识的手工设计法和深度神经网络的参数学习法,非常有效。

Description

一种基于深度学习和语义分割的图像检索方法 技术领域
本发明属于图像检索领域,涉及一种基于深度学习和语义分割的图像检索方法。
背景技术
随着互联网技术快速发展以及智能终端的普及,图像成为人们记录和分享信息的主要方式,由此出现了图像检索技术。图像检索是查询输入的图像内容来检索相似图像的技术,是一种关于图形图像信息检索的搜索技术。
图像特征表示是图像的像素信息和人类对事物的感知相联系,图像特征即为检索的条件。
现有的技术,一般采用sift算子、fisher vector或VLAD等机器学习的方法提取特征,提取的特征向量维度很大,导致数据存储和计算的成本很高,且准确率低下。
基于深度卷积神经网络(简称CNN)的做法,具有准确率高,编码的特征向量维度较低等优点。当前,主要采用预训练的CNN网络,比如VGG-16、ResNet101等提取特征,最后全连接层提取的特征作为图像的特征编码向量,或在CNN的最后一层卷积层应用局部或全局的特征编码方式,获取图像的特征编码向量,以此向量之间的欧式距离或cos距离衡量图像的相似性并根据相似度由大到小排序,形成最终的检索结果。已有的基于CNN的图像检索算法,在编码图像特征的时候,没有考虑到图像的显著性区域特征的加强,比如检索建筑物,建筑物所在的区域即为显著性区域,但是这一显著性区域的特征编码与其存在背景(比如天空、草地)的编码方式是一样的,这显然不够合理。
发明内容
本发明的目的是解决图像检索中的查准率、查全率和快速性问题,提出一种基于深度学习和语义分割的特征编码技术,能够在大规模的数据集上较为准 确的检索出与输入图像较为相似的图像。
本发明的技术方案如下:
一种基于深度学习和语义分割的图像检索方法,包括如下步骤:
S1:读取图像并进行预处理;
S2:将步骤S1处理后的图像送入深度神经网络,通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图;
S3:将步骤S1处理后的图像进行语义分割,获得分割图像,同时获取分割图像中每一像素所属的类别标签;
S4:对步骤S3的分割图像进行降采样处理,使分割图像变成与步骤S2的特征图的大小一致,保证分割图像的每个位置与步骤S2的特征图的位置一一对应,将分割图像任一位置的像素对应的类别标签,看作特征图上对应位置的类别标签;
S5:根据步骤S4确定的特征图的每个像素的类别标签,对其进行加权处理,获得加权后的一组特征图;
S6:将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量,并进行归一化处理,用归一化的特征向量表征图像的最终编码特征向量;
S7:对数据库中所有的图片和输入的待检索的图片进行步骤S1~S6的统一处理,并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离,来度量图像的相似性;
S8:对步骤S7得到的相似性按照由大到小排序并返回前K张图像,即为检索结果;K由检索人根据需要设定。
优选地,所述步骤S1中图像预处理方法为:对输入的彩色图像进行去均值操作,将R、G、B三通道的数值分别减去对应通道的均值,使得所有输入图像对应的数值满足同一分布。
优选地,所述步骤S2中深度神经网络为以下不同结构的CNN的一种:VGG、ResNet、DenseNet。
进一步优选地,所述深度神经网络采用CNN的最后一层卷积层将图像编 码为一组特征图。
优选地,所述步骤S3中语义分割采用传统的N-cut方法或者采用基于深度学习的语义分割方法。
进一步优选地,所述基于深度学习的语义分割方法采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet。
优选地,所述步骤S4的降采样处理采用双线性插值方法。
优选地,所述步骤S5的加权处理方法为:采用两种不同的类别权重设置方法:一是手动设计法:根据先验知识,将背景目标的权重设置为0或其它小于1的正数,将前景目标权重设置为3或其它大于1且小于等于10的正数;二是参数学习法:在深度神经网络中设置包括前景目标和背景目标在内的所有参数的权重,通过训练深度神经网络来自动的学习每个类别的权重。
优选地,所述步骤S6中将一组特征图编码为一个固定长度的特征向量的方法是采用已有算法的全局池化或全连接方法。
本发明还提出一种基于深度学习和语义分割的图像检索***,包括:图像采集***、深度神经网络***、图像处理***;所述基于深度学习和语义分割的图像检索***中存储有计算机程序,该程序用于实现上述任一项所述的基于深度学习和语义分割的图像检索方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明提出了基于深度学习和语义分割的算法来增强显著性区域的特征编码、采用两种后处理的方法修正距离计算的结果以提升图像检索的性能。本发明采用深度学习的方法,将图像编码为较短长度(512维或2048维)的特征向量,极大加速了相似性计算的速度,提升了检索效率。本发明在提取图像特征时充分考虑了前景、背景的不同加权,来提升检索性能。本发明首次将语义分割技术引入图像检索的特征编码,语义分割能够识别出图像每个像素点的类别是什么,比如它可能是我们想要检索到的动物、景点、衣服等,当我们知道图像的每一部分区域是什么的时候,相当于获取了一定的先验信息,而且可以通过算法重点关注某一部分区域,而弱化对不重要的背景物体的关注,提升了特 征编码的效果,从而大幅提升了检索效果。本发明在获取图像每个类别的权重时,提出的根据先验知识的手工设计法和深度神经网络的参数学习法,非常有效。
附图说明
图1为本发明的基于深度学习和语义分割的图像检索方法流程图。
图2为三种不同建筑物示意图。
图3为采用语义分割技术过滤掉天空这一干扰信息后的三种不同建筑物示意图。
具体实施方式
下面结合具体实施方式并对照附图对本发明作进一步详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
请参考图1。图1为本发明的基于深度学习和语义分割的图像检索方法流程图。
本发明首先提供一种基于深度学习和语义分割的图像检索方法,其步骤如下:
S1:读取图像并进行预处理。
输入一张彩色图像,该图像实际是一个RGB三通道的0-255的正整数组成的数值矩阵,首先采用去均值的操作,将R、G、B三通道的数值分别减去对应通道的均值(即B:104.00698793,G:116.66876762,R:122.67891434),其均值为业界公认的ImageNet数据集中所有图片对应的每一个通道上的全部数值的均值,使得所有输入图像对应的数值满足同一分布。
S2:将步骤S1处理后的图像送入深度神经网络,通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图。
将预处理后的图像送入深度神经网络,比如常用的VGG、ResNet、DenseNet(这些是不同结构的深度神经网络模型,在数百万的数据集上训练出来的,能够很好的对图像进行特征编码)等,深度神经网络的任意一个卷积层输出一组特征图,这组特征图的通道比步骤S1所述的原图像3通道大,但长和宽比 原图像小。本发明采用VGG-16、ResNet101等基础网络框架提取特征,并对最后一层卷积层提取的特征做新的特征编码方式。本发明实验证明,采用CNN的最后一层卷积层,查准率和查全率的效果更好。
S3:将步骤S1处理后的图像进行语义分割,获得分割图像,同时获取分割图像中每一像素所属的类别标签。
将预处理的图片进行语义分割,采用的方法可以是传统的N-cut等,也可以采用基于深度学习的语义分割方法,来获取图像中每一像素所属的类别标签。本发明实验证明,采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet,查准率和查全率的效果更好。
现有的CNN提取图像特征,将整张图送入CNN网络能很好的提取出图像的全局特征,却忽略了图像的局部特征。比如,我们要检索某一建筑物的图片,但是该图片包含了这个建筑物,但也包含一些无关的背景(如天空、草地、树木等)。现有的CNN是将建筑物及其背景,不加区分的送入CNN网络来提取特征,也就是说,最后编码的图像的特征,包含了天空、草地等无关的背景,这就造成了极大干扰,也极大的降低了检索性能。为此,本发明将图像的语义分割技术引入进来,可以事先获取图像的哪一个像素是什么物体,如果是无关的背景,就可以降低其在特征提取过程中影响,使得最终的特征编码信息主要包含或全部包含建筑物的信息,从而大幅提升检索性能。
请参考图2,如果我们要检索三种不同的建筑物,当前的基于深度学习的做法是,将三张图片送入CNN网络,进行完全相同过程的特征提取,将图像中的建筑物和天空所在区域同等看待,这导致若一张图中天空占比较多,那么很可能会检索出天空占比较大的图片,而不是包含建筑物的图片。
请参考图3,采用语义分割技术,能够很好的将图片中的天空和建筑物区域识别出来,这样就可以过滤掉天空这一干扰信息,从而更好的进行建筑物的检索。
S4:对步骤S3的分割图像进行降采样处理,使分割图像变成与步骤S2的特征图的大小一致,保证分割图像的每个位置与步骤S2的特征图的位置一一对 应,将分割图像任一位置的像素对应的类别标签,看作特征图上对应位置的类别标签。
本发明将分割出来的图像通过双线性插值等降采样方法,变成与特征图的大小一致,这样分割图的每个位置与特征图的位置是一一对应的,将分割图像任一位置的像素对应的类别,看作特征图上对应位置的类别。
S5:根据步骤S4确定的特征图的每个像素的类别标签,对其进行加权处理,获得加权后的一组特征图。
根据特征图每个像素的类别,对其进行加权。类别权重的获取方法是:
针对不同的数据集特点,我们设计了两种不同的类别权重的设置方法:
手动设计法。根据先验知识,比如对于建筑物检索的任务,可以将天空、草地、人等建筑物的背景的权重设置为0或其它小于1的正数,而将类别是建筑物的区域设置一个较大的权重,比如3或其它大于1且小于等于10的正数。
参数学习法。假定数据集中包含150类目标,包括前景目标和背景目标,在深度神经网络中设置150个参数,对应150个目标的权重,通过训练深度神经网络来自动的学习每个类别的权重。
获得每个类别的权重后,对特征图进行加权处理,从而获得加权后的一组特征图。
当我们知道图像中每一个像素是什么的时候,就可以设计一定的方法来降低属于背景的物体对图像特征编码的干扰。第一种方法是依据先验知识,比如我们要检索的是建筑物,那么建筑物在特征编码过程中的起到的作用就越大,越能弱化背景的干扰。因此,可以对属于建筑物的区域,人工设计一个较大的权重,而将属于背景区域,设定权重为0。另一种方法,结合CNN网络强大的学习能力,让CNN网络能自动学习出每一类物体的权重,并施加到对应的像素上。这样,就很好的达到弱化背景的影响,使得CNN在对图像编码的时候,最大可能的提取出带检索物体的特征,从而大幅提升检索性能。
S6:将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量,并进行归一化处理,用归一化的特征向量表征图像的最终编码特征向量。
加权后的特征图,可以采用已有的算法全局池化,或全连接等方法将其转化为一个固定长度的特征向量,并进行归一化处理。用归一化的向量表征图像的最终编码特征向量。最终编码特征向量为较短长度(512维或2048维)的特征向量。
S7:对数据库中所有的图片和输入的待检索的图片进行步骤S1~S6的统一处理,并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离,来度量图像的相似性。
对数据库中所有的图片和输入的待检索的图片按照步骤S1~S6进行统一处理,并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离,来度量图像的相似性。
S8:对步骤S7得到的相似性按照由大到小排序并返回前K张图像,即为检索结果;K由检索人根据需要设定。
根据相似性大小排序,按照相似性由大到小排序并返回前K张图像,即为检索结果,K由检索人根据需要设定。
本发明还提出一种基于深度学习和语义分割的图像检索***,包括:图像采集***、深度神经网络***、图像处理***;所述基于深度学习和语义分割的图像检索***中存储有计算机程序,该程序用于实现上述任一项所述的基于深度学习和语义分割的图像检索方法的步骤。
本发明在提取图像特征时考虑了一张图像中的不同区域和不同类别的权重会不一样,充分考虑了前景、背景的不同加权,来提升检索性能。本发明首次将语义分割技术应用到图像的特征编码上,大幅提升了检索效果。本发明在获取每个类别的权重时,提出了根据先验知识的手工设计法和深度神经网络的参数学习法,非常有效。
以上内容是结合具体的/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施例做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保 护范围。

Claims (10)

  1. 一种基于深度学习和语义分割的图像检索方法,其特征在于,包括如下步骤:
    S1:读取图像并进行预处理;
    S2:将步骤S1处理后的图像送入深度神经网络,通过深度学习由深度神经网络的任意一个卷积层将图像编码为一组特征图;
    S3:将步骤S1处理后的图像进行语义分割,获得分割图像,同时获取分割图像中每一像素所属的类别标签;
    S4:对步骤S3的分割图像进行降采样处理,使分割图像变成与步骤S2的特征图的大小一致,保证分割图像的每个位置与步骤S2的特征图的位置一一对应,将分割图像任一位置的像素对应的类别标签,看作特征图上对应位置的类别标签;
    S5:根据步骤S4确定的特征图的每个像素的类别标签,对其进行加权处理,获得加权后的一组特征图;
    S6:将步骤S5获得加权后的一组特征图编码为一个固定长度的特征向量,并进行归一化处理,用归一化的特征向量表征图像的最终编码特征向量;
    S7:对数据库中所有的图片和输入的待检索的图片进行步骤S1~S6的统一处理,并计算待检索图片特征向量与数据库中所有图片的特征向量之间的距离,来度量图像的相似性;
    S8:对步骤S7得到的相似性按照由大到小排序并返回前K张图像,即为检索结果;K由检索人根据需要设定。
  2. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S1中图像预处理方法为:对输入的彩色图像进行去均值操作,将R、G、B三通道的数值分别减去对应通道的均值,使得所有输入图像对应的数值满足同一分布。
  3. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S2中深度神经网络为以下不同结构的CNN的一种:VGG、ResNet、DenseNet。
  4. 如权利要求3所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述深度神经网络采用CNN的最后一层卷积层将图像编码为一组特征图。
  5. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S3中语义分割采用传统的N-cut方法或者采用基于深度学习的语义分割方法。
  6. 如权利要求5所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述基于深度学习的语义分割方法采用在公开数据集ADE20K预先训练的现有的语义分割网络PSPNet。
  7. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S4的降采样处理采用双线性插值方法。
  8. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S5的加权处理方法为:采用两种不同的类别权重设置方法:一是手动设计法:根据先验知识,将背景目标的权重设置为0或其它小于1的正数,将前景目标权重设置为3或其它大于1且小于等于10的正数;二是参数学习法:在深度神经网络中设置包括前景目标和背景目标在内的所有参数的权重,通过训练深度神经网络来自动的学习每个类别的权重。
  9. 如权利要求1所述的基于深度学习和语义分割的图像检索方法,其特征在于,所述步骤S6中将一组特征图编码为一个固定长度的特征向量的方法是采用已有算法的全局池化或全连接方法。
  10. 一种基于深度学习和语义分割的图像检索***,包括:图像采集***、深度神经网络***、图像处理***;所述基于深度学习和语义分割的图像检索***中存储有计算机程序,该程序用于实现权利要求1~9任一项所述的基于深度学习和语义分割的图像检索方法的步骤。
PCT/CN2018/114826 2018-06-14 2018-11-09 一种基于深度学习和语义分割的图像检索方法 WO2019237646A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810615664.7 2018-06-14
CN201810615664.7A CN108829826B (zh) 2018-06-14 2018-06-14 一种基于深度学习和语义分割的图像检索方法

Publications (1)

Publication Number Publication Date
WO2019237646A1 true WO2019237646A1 (zh) 2019-12-19

Family

ID=64142030

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/114826 WO2019237646A1 (zh) 2018-06-14 2018-11-09 一种基于深度学习和语义分割的图像检索方法

Country Status (2)

Country Link
CN (1) CN108829826B (zh)
WO (1) WO2019237646A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028249A (zh) * 2019-12-23 2020-04-17 杭州知衣科技有限公司 一种基于深度学习的服装图像分割方法
CN111310765A (zh) * 2020-02-14 2020-06-19 北京经纬恒润科技有限公司 激光点云语义分割方法和装置
CN111401421A (zh) * 2020-03-06 2020-07-10 上海眼控科技股份有限公司 基于深度学习的图像类别判定方法、电子设备以及介质
CN111428797A (zh) * 2020-03-27 2020-07-17 上海媒智科技有限公司 一种结合检索与分类的物品种类识别方法及***
CN111460200A (zh) * 2020-03-04 2020-07-28 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN111611956A (zh) * 2020-05-28 2020-09-01 中国科学院自动化研究所 面向地铁视觉图像的轨道检测方法及***
CN111860204A (zh) * 2020-06-29 2020-10-30 成都数之联科技有限公司 基于语义分割技术的多时相遥感影像变化检测方法和介质
CN112182272A (zh) * 2020-09-23 2021-01-05 创新奇智(成都)科技有限公司 图像检索方法及装置、电子设备、存储介质
CN112258580A (zh) * 2020-11-02 2021-01-22 上海应用技术大学 基于深度学习的视觉slam回环检测方法
CN112256910A (zh) * 2020-10-23 2021-01-22 蓝普金睛(北京)科技有限公司 基于内容的商铺标识图像检索方法
CN112365514A (zh) * 2020-12-09 2021-02-12 辽宁科技大学 基于改进PSPNet的语义分割方法
CN112381837A (zh) * 2020-11-12 2021-02-19 联想(北京)有限公司 一种图像处理方法及电子设备
CN112528061A (zh) * 2020-10-12 2021-03-19 西安理工大学 一种基于选择性卷积描述符聚合的多目标图像检索方法
CN112733965A (zh) * 2021-02-03 2021-04-30 西安理工大学 一种基于小样本学习的无标签图像分类方法
CN113536986A (zh) * 2021-06-29 2021-10-22 南京逸智网络空间技术创新研究院有限公司 一种基于代表特征的遥感图像中的密集目标检测方法
CN114125698A (zh) * 2021-05-07 2022-03-01 南京邮电大学 一种基于信道状态信息和深度图像的定位方法
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN114708321A (zh) * 2022-01-12 2022-07-05 北京航空航天大学 一种基于语义的相机位姿估计方法及***
CN114943988A (zh) * 2022-06-16 2022-08-26 浙大城市学院 一种基于实例分割和深度卷积神经网络的平面目标监测方法
CN116049476A (zh) * 2023-03-06 2023-05-02 福建福清核电有限公司 一种基于多层次似然扩展的遥感图像语义定位方法
CN116152497A (zh) * 2023-02-24 2023-05-23 智慧眼科技股份有限公司 一种语义分割模型优化方法及***
CN116402821A (zh) * 2023-06-08 2023-07-07 湖南大学 一种基于神经网络的飞机蒙皮涂胶质量缺陷检测方法
RU2807639C1 (ru) * 2022-07-22 2023-11-20 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система поиска графических изображений
CN117113378A (zh) * 2023-09-12 2023-11-24 腾云创威信息科技(威海)有限公司 基于权能的负载空间隔离方法及其***
WO2024019634A1 (ru) * 2022-07-22 2024-01-25 Публичное Акционерное Общество "Сбербанк России" Способ и система поиска графических изображений
CN117636026A (zh) * 2023-11-17 2024-03-01 上海凡顺实业股份有限公司 一种集装箱锁销类别图片识别方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376259B (zh) * 2018-12-10 2022-03-01 广东潮庭集团有限公司 一种基于大数据分析的标签分类方法
CN109872357A (zh) * 2019-01-16 2019-06-11 创新奇智(广州)科技有限公司 一种物品排列面占比计算方法、***及电子设备
CN109800818A (zh) * 2019-01-25 2019-05-24 宝鸡文理学院 一种图像语义自动标注及检索方法及***
CN109977253B (zh) * 2019-03-29 2022-10-28 哈尔滨工业大学 一种基于语义和内容的快速图像检索方法及装置
CN111797846B (zh) * 2019-04-08 2022-06-21 四川大学 一种基于特征金字塔网络的反馈式目标检测方法
CN110047068A (zh) * 2019-04-19 2019-07-23 山东大学 基于金字塔场景分析网络的mri脑肿瘤分割方法及***
CN110119460A (zh) * 2019-05-16 2019-08-13 广东三维家信息科技有限公司 图像检索方法、装置及电子设备
CN110222211A (zh) * 2019-05-22 2019-09-10 北京小米智能科技有限公司 手绘图像检索方法及装置
US11416998B2 (en) 2019-07-30 2022-08-16 Microsoft Technology Licensing, Llc Pixel classification to reduce depth-estimation error
CN110889388A (zh) * 2019-12-03 2020-03-17 上海眼控科技股份有限公司 违章识别方法、装置、设备及存储介质
CN111161284B (zh) * 2019-12-31 2022-02-11 东南大学 一种基于PSPNet与HED相结合的医学图像骨骼分割方法
CN111488882B (zh) * 2020-04-10 2020-12-25 视研智能科技(广州)有限公司 一种用于工业零件测量的高精度图像语义分割方法
CN111581420B (zh) * 2020-04-30 2023-07-28 徐州医科大学 一种基于Flink的医学图像实时检索方法
CN111738265B (zh) * 2020-05-20 2022-11-08 山东大学 Rgb-d图像的语义分割方法、***、介质及电子设备
CN111696112B (zh) * 2020-06-15 2023-04-07 携程计算机技术(上海)有限公司 图像自动裁剪方法、***、电子设备及存储介质
CN111797268B (zh) * 2020-07-17 2023-12-26 中国海洋大学 Rgb-d图像检索方法
CN111931689B (zh) * 2020-08-26 2021-04-23 北京建筑大学 一种在线提取视频卫星数据鉴别特征的方法
CN112203122B (zh) * 2020-10-10 2024-01-26 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112327265A (zh) * 2020-10-23 2021-02-05 北京理工大学 一种基于语义分割网络的分治检测方法
CN112703532B (zh) * 2020-12-03 2022-05-31 华为技术有限公司 图像处理方法、装置、设备及存储介质
CN113282781B (zh) * 2021-05-18 2022-06-28 稿定(厦门)科技有限公司 图像检索方法及装置
CN113515660B (zh) * 2021-07-16 2022-03-18 广西师范大学 基于三维张量对比策略的深度特征对比加权图像检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030133599A1 (en) * 2002-01-17 2003-07-17 International Business Machines Corporation System method for automatically detecting neutral expressionless faces in digital images
US20100040285A1 (en) * 2008-08-14 2010-02-18 Xerox Corporation System and method for object class localization and semantic class based image segmentation
CN106650690A (zh) * 2016-12-30 2017-05-10 东华大学 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN107092870A (zh) * 2017-04-05 2017-08-25 武汉大学 一种高分辨率影像语意信息提取方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183467B2 (en) * 2013-05-03 2015-11-10 Microsoft Technology Licensing, Llc Sketch segmentation
CN105426914B (zh) * 2015-11-19 2019-03-15 中国人民解放军信息工程大学 一种面向位置识别的图像相似度检测方法
CN107564025B (zh) * 2017-08-09 2020-05-29 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN107679250B (zh) * 2017-11-01 2020-12-01 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108052966B (zh) * 2017-12-08 2021-02-09 重庆邮电大学 基于卷积神经网络的遥感图像场景自动提取和分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030133599A1 (en) * 2002-01-17 2003-07-17 International Business Machines Corporation System method for automatically detecting neutral expressionless faces in digital images
US20100040285A1 (en) * 2008-08-14 2010-02-18 Xerox Corporation System and method for object class localization and semantic class based image segmentation
CN106650690A (zh) * 2016-12-30 2017-05-10 东华大学 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
CN106909924A (zh) * 2017-02-18 2017-06-30 北京工业大学 一种基于深度显著性的遥感影像快速检索方法
CN107092870A (zh) * 2017-04-05 2017-08-25 武汉大学 一种高分辨率影像语意信息提取方法及***

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028249A (zh) * 2019-12-23 2020-04-17 杭州知衣科技有限公司 一种基于深度学习的服装图像分割方法
CN111310765A (zh) * 2020-02-14 2020-06-19 北京经纬恒润科技有限公司 激光点云语义分割方法和装置
CN111460200A (zh) * 2020-03-04 2020-07-28 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN111401421A (zh) * 2020-03-06 2020-07-10 上海眼控科技股份有限公司 基于深度学习的图像类别判定方法、电子设备以及介质
CN111428797A (zh) * 2020-03-27 2020-07-17 上海媒智科技有限公司 一种结合检索与分类的物品种类识别方法及***
CN111428797B (zh) * 2020-03-27 2023-05-23 上海媒智科技有限公司 一种结合检索与分类的物品种类识别方法及***
CN111611956A (zh) * 2020-05-28 2020-09-01 中国科学院自动化研究所 面向地铁视觉图像的轨道检测方法及***
CN111611956B (zh) * 2020-05-28 2023-09-26 中国科学院自动化研究所 面向地铁视觉图像的轨道检测方法及***
CN111860204A (zh) * 2020-06-29 2020-10-30 成都数之联科技有限公司 基于语义分割技术的多时相遥感影像变化检测方法和介质
CN112182272B (zh) * 2020-09-23 2023-07-28 创新奇智(成都)科技有限公司 图像检索方法及装置、电子设备、存储介质
CN112182272A (zh) * 2020-09-23 2021-01-05 创新奇智(成都)科技有限公司 图像检索方法及装置、电子设备、存储介质
CN114298118B (zh) * 2020-09-28 2024-02-09 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN114298118A (zh) * 2020-09-28 2022-04-08 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN112528061A (zh) * 2020-10-12 2021-03-19 西安理工大学 一种基于选择性卷积描述符聚合的多目标图像检索方法
CN112528061B (zh) * 2020-10-12 2024-05-28 西安理工大学 一种基于选择性卷积描述符聚合的多目标图像检索方法
CN112256910A (zh) * 2020-10-23 2021-01-22 蓝普金睛(北京)科技有限公司 基于内容的商铺标识图像检索方法
CN112258580B (zh) * 2020-11-02 2024-05-17 上海应用技术大学 基于深度学习的视觉slam回环检测方法
CN112258580A (zh) * 2020-11-02 2021-01-22 上海应用技术大学 基于深度学习的视觉slam回环检测方法
CN112381837A (zh) * 2020-11-12 2021-02-19 联想(北京)有限公司 一种图像处理方法及电子设备
CN112365514A (zh) * 2020-12-09 2021-02-12 辽宁科技大学 基于改进PSPNet的语义分割方法
CN112733965A (zh) * 2021-02-03 2021-04-30 西安理工大学 一种基于小样本学习的无标签图像分类方法
CN112733965B (zh) * 2021-02-03 2023-04-07 西安理工大学 一种基于小样本学习的无标签图像分类方法
CN114125698B (zh) * 2021-05-07 2024-05-17 南京邮电大学 一种基于信道状态信息和深度图像的定位方法
CN114125698A (zh) * 2021-05-07 2022-03-01 南京邮电大学 一种基于信道状态信息和深度图像的定位方法
CN113536986A (zh) * 2021-06-29 2021-10-22 南京逸智网络空间技术创新研究院有限公司 一种基于代表特征的遥感图像中的密集目标检测方法
CN114708321A (zh) * 2022-01-12 2022-07-05 北京航空航天大学 一种基于语义的相机位姿估计方法及***
CN114943988A (zh) * 2022-06-16 2022-08-26 浙大城市学院 一种基于实例分割和深度卷积神经网络的平面目标监测方法
CN114943988B (zh) * 2022-06-16 2024-04-02 浙大城市学院 一种基于实例分割和深度卷积神经网络的平面目标监测方法
RU2807639C1 (ru) * 2022-07-22 2023-11-20 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система поиска графических изображений
WO2024019634A1 (ru) * 2022-07-22 2024-01-25 Публичное Акционерное Общество "Сбербанк России" Способ и система поиска графических изображений
CN116152497B (zh) * 2023-02-24 2024-02-27 智慧眼科技股份有限公司 一种语义分割模型优化方法及***
CN116152497A (zh) * 2023-02-24 2023-05-23 智慧眼科技股份有限公司 一种语义分割模型优化方法及***
CN116049476A (zh) * 2023-03-06 2023-05-02 福建福清核电有限公司 一种基于多层次似然扩展的遥感图像语义定位方法
CN116402821B (zh) * 2023-06-08 2023-09-22 湖南大学 一种基于神经网络的飞机蒙皮涂胶质量缺陷检测方法
CN116402821A (zh) * 2023-06-08 2023-07-07 湖南大学 一种基于神经网络的飞机蒙皮涂胶质量缺陷检测方法
CN117113378A (zh) * 2023-09-12 2023-11-24 腾云创威信息科技(威海)有限公司 基于权能的负载空间隔离方法及其***
CN117636026A (zh) * 2023-11-17 2024-03-01 上海凡顺实业股份有限公司 一种集装箱锁销类别图片识别方法
CN117636026B (zh) * 2023-11-17 2024-06-11 上海凡顺实业股份有限公司 一种集装箱锁销类别图片识别方法

Also Published As

Publication number Publication date
CN108829826A (zh) 2018-11-16
CN108829826B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
WO2019237646A1 (zh) 一种基于深度学习和语义分割的图像检索方法
Anwar et al. Image colorization: A survey and dataset
Shi et al. Key-word-aware network for referring expression image segmentation
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
WO2019075130A1 (en) IMAGE PROCESSING DEVICE AND METHOD
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN110807422A (zh) 一种基于深度学习的自然场景文本检测方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN111177446A (zh) 一种用于足迹图像检索的方法
CN111008978B (zh) 基于深度学习的视频场景分割方法
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
Kang et al. Ddcolor: Towards photo-realistic image colorization via dual decoders
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
Cai et al. Scene-adaptive vehicle detection algorithm based on a composite deep structure
CN114445651A (zh) 一种语义分割模型的训练集构建方法、装置及电子设备
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN117786058A (zh) 一种多模态大模型知识迁移框架的构建方法
CN115641445B (zh) 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法
Özyurt et al. A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function
CN116758449A (zh) 一种基于深度学习的视频显著目标检测方法及***
CN106650629A (zh) 一种基于核稀疏表示的快速遥感目标检测识别方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18922147

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18922147

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 01/04/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18922147

Country of ref document: EP

Kind code of ref document: A1