WO2017092183A1 - 一种基于可变长深度哈希学习的图像检索方法 - Google Patents

一种基于可变长深度哈希学习的图像检索方法 Download PDF

Info

Publication number
WO2017092183A1
WO2017092183A1 PCT/CN2016/074646 CN2016074646W WO2017092183A1 WO 2017092183 A1 WO2017092183 A1 WO 2017092183A1 CN 2016074646 W CN2016074646 W CN 2016074646W WO 2017092183 A1 WO2017092183 A1 WO 2017092183A1
Authority
WO
WIPO (PCT)
Prior art keywords
hash
image
learning
deep
retrieval method
Prior art date
Application number
PCT/CN2016/074646
Other languages
English (en)
French (fr)
Inventor
林倞
张瑞茂
王青
江波
Original Assignee
中山大学
林倞
张瑞茂
王青
江波
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中山大学, 林倞, 张瑞茂, 王青, 江波 filed Critical 中山大学
Publication of WO2017092183A1 publication Critical patent/WO2017092183A1/zh
Priority to US15/990,586 priority Critical patent/US10776685B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Definitions

  • the present invention relates to the field of image retrieval and deep learning, and more particularly to an image retrieval method based on variable length depth hash learning.
  • Hash technology has received extensive attention and research with its huge advantages in both storage space and computational efficiency.
  • hash learning based on image content can effectively maintain its semantic relevance to other images after converting the image into binary code.
  • a number of machine learning based hash learning algorithms have been proposed. Among them, a class of supervised image hash learning algorithms has shown better results and has greater potential.
  • image hashing under the supervised framework consists of two main components.
  • the image is expressed in the form of a feature vector by a manually designed feature descriptor.
  • the purpose of this step is to have noise or other artifacts in the image.
  • the semantic information of the image is extracted;
  • the learning process of the hash is expressed as an optimization problem of the distance between images, so as to maintain the semantic consistency of the image in the learned Hamming space.
  • most of the learning methods separate the above two processes, so that the feature representation of the image cannot be optimized during the feature learning process.
  • by manually designing the features of the image requires a large amount of domain knowledge, it is difficult to effectively adapt to different application tasks.
  • a model called a multi-layer automatic encoder has been proposed, which can directly obtain image features from the original image and further convert them into binary codes.
  • due to its complicated optimization process it is greatly limited in practical applications.
  • the hash code generated by most of the existing hash learning algorithms is of fixed length.
  • different code lengths need to be selected according to different tasks. For example, for devices with less computing resources, shorter hash codes have a more significant computational advantage.
  • the possibility of choosing a longer hash code is relatively large.
  • This type of method generates a hash code bit by bit according to the size of importance, and the bit of importance is generated first. Therefore, the user can select the desired hash code length from beginning to end as needed.
  • such methods are often closely linked to well-designed feature spaces, and their retrieval accuracy drops dramatically as the number of hash codes decreases.
  • the present invention proposes an image retrieval method based on variable length depth hash learning, which maximizes semantics by maximizing the matching of image pairs and mismatched image pairs in Hamming space. Feature consistency of similar images.
  • the end-to-end model structure is realized, so that the corresponding hash code can be directly obtained from the original input image.
  • the method introduces weights for each hash bit in the process of training, so that the length of the hash code can be intercepted by multiple weights, so that the hash code has length variability. Therefore, in the case of one training, the model can select different length hash codes for different application scenarios to reduce the retrieval.
  • An image retrieval method based on variable length depth hash learning comprising the following steps:
  • Training stage image hash code generation: input the ternary image group into the deep convolutional neural network, and directly output the hash code corresponding to the image through network transformation;
  • Test phase calculation of image similarity: according to the user's input, truncating the unimportant hash bit, and calculating the weighted Hamming distance between the query image and each image of the database;
  • the query result is returned: according to the Hamming distance with weight in step S4, the database images are sorted from large to small, and the sorting result is the returned similarity search result.
  • the invention generates a series of triples by training the image set, and uses the image triples to maximize the interval between the matched image pairs and the unmatched image pairs in the Hamming space, thereby effectively mining the uniformity in the training image class.
  • the difference between sex and class solves the problem that the similarity of pictures with the same semantic information is maintained in Hamming space.
  • the training set is divided into a batch of ternary image groups, and the specific method is: randomly extracting a plurality of images from the training data set as a central image. Based on the determination of the central image, An image with the same category label as the center image and an image with a different category label are selected to form a number of image triples.
  • the invention is characterized in that the learning part introduces a deep convolutional neural network, and the end-to-end training process is realized by the joint optimization of the image features and the hash function.
  • the hash code can be extracted directly from the original image using the convolutional neural network. Eliminates the need to manually design features in traditional methods.
  • the training process of the deep neural network is to accumulate the loss caused by each image as the total loss, and then use the back propagation algorithm to update the parameters in the network.
  • the deep convolutional neural network in step S2 comprises the following components: a plurality of convolutional layers and a pooling layer, a partially fully connected layer, a hyperbolic tangent function layer and a hash weighting layer.
  • the output of the penultimate fully connected layer represents the feature vector of the picture.
  • the parameters in the first last fully connected layer represent the parameters of the hash function.
  • the hyperbolic tangent function layer is a hyperbolic tangent function with eigenvectors as input, each dimension having a value range between [-1, 1], where the function has a harmonic parameter to control its smoothness. . The smaller the parameter, the smoother the function.
  • the hash weight layer is a deep network layer with the input of the hyperbolic tangent function layer as input, and each dimension corresponds to one weight.
  • the specific implementation manner of the deep convolutional neural network parameter learning in step S3 is: calculating the generated loss centering on the image, calculating the loss of an image in all triples, and summing them up, Get the final image loss. Specifically, for a certain image to be determined, first determine its specific existence form in the triple (as a central image, as a positive sample, as a negative sample, or not in a triple). The corresponding loss is then calculated according to the specific form of existence. If the image does not exist in a triad, the loss of the image in the triple is zero. The loss of the accumulated image in different forms of existence in all triples results in a loss of the final image.
  • a deep convolutional neural network parameter update is performed, a batch of images is loaded at a time, and a number of triples are randomly generated using these images. Count the loss of this batch of images on this triple set.
  • the deep convolutional neural network parameters are updated using a back propagation algorithm.
  • the advantage of the present invention is that for different query tasks, the user can select the length of the hash code according to actual needs.
  • the algorithm truncates the hash code according to the weight of each hash bit, and realizes the length variability of the hash code.
  • the invention effectively solves the goal that one training and multi-task are available. In the case of limited computing resources and limited storage space, the method can still maintain its discriminability in the case of short hash coding.
  • the specific implementation of the image similarity calculation in step S4 is: obtaining a hash code of a certain length, and determining a hash bit length L to be selected according to a user input.
  • the weight of each bit learned in the hash weight layer in the deep convolutional neural network the first L bits with larger weights are selected in order from large to small, thereby realizing the interception of the hash bits.
  • the weighted Hamming distance is calculated using the intercepted hash bits as a measure of the similarity of the final two images.
  • the method for calculating the weighted Hamming distance in step S4 uses a fast look-up table method, and the specific implementation manner is: constructing a query table having a size of 2 L according to the selected hash bit length L, the query table Each element in the picture corresponds to the result of an XOR operation that may exist for two hash codes of length L (a total of 2 L possibilities). Combining the weights of each hash bit, calculate the value of each XOR operation with weights and store it in the corresponding position of the lookup table. When querying, the result of the XOR operation is calculated according to the input two hash code values, and the value stored in the corresponding position in the lookup table is returned as a result, thereby obtaining two Hamming code Hamming distances with weights.
  • step S5 the weighted Hamming distance is sorted, and the sorting algorithm used is any one of a quick sort algorithm, a merge sort algorithm or a select sort algorithm.
  • the invention extracts image features with rich information and learns approximate hash functions, which are two important research directions in the field of image retrieval.
  • the current multimedia application requires that the hash code output can vary in length depending on the application scenario.
  • an image retrieval method based on variable length deep hash learning is proposed, which mainly involves the field of image retrieval and deep learning.
  • This method models the learning of hash codes into a process of similarity learning.
  • the method utilizes the training image to generate a set of ternary image groups, wherein each triplet contains two images with the same class label and one image with a different class label.
  • the purpose of model training is to maximize the spacing of matching image pairs with unmatched image pairs in Hamming space.
  • the learning part of the method model introduces a deep convolutional neural network. Through the joint optimization of image features and hash functions, the end-to-end training process is realized. On the other hand, the hash code output by the convolutional network has a different weight for each bit. For different retrieval tasks, the user can control the length of the hash code by truncating the unimportant bits. At the same time, the method can effectively maintain its discriminability in the case where the hash code is short.
  • the present invention is an image retrieval method based on variable length depth hash learning.
  • the method unifies the feature learning of the image and the learning process of the hash function into an end-to-end framework.
  • the joint optimization of the two Overcoming the existing methods in the learning of hash functions, heavily dependent The current state of the embedded image feature space.
  • the present invention is an image retrieval method based on variable length depth hash learning.
  • the method emphasizes that different retrieval tasks are dealt with by selecting weighted bits.
  • the drawbacks of most existing methods for solving different tasks by storing hash codes of different bits are overcome.
  • a look-up table method for weighted hash codes is proposed, which further ensures the retrieval efficiency of variable length hashes.
  • the present invention is an image retrieval method based on variable length depth hash learning.
  • the method introduces a relative similarity comparison based on image triplet alignment. Effectively mine consistency within classes and differences between classes. It is guaranteed that the generated hash code can effectively maintain the similarity of the instance level.
  • FIG. 1 is a frame diagram of an image retrieval method based on variable length depth hash learning.
  • FIG. 2 is a block diagram of a deep neural network of an image retrieval method based on variable length deep hash learning according to the present invention.
  • FIG. 3 is a schematic diagram of image similarity hash learning of the present invention.
  • FIG. 4 is a training flowchart of an image retrieval method based on variable length deep hash learning according to the present invention.
  • FIG. 5 is a flowchart of searching for an image retrieval method based on variable length deep hash learning according to the present invention.
  • FIG. 6 is a flow chart of an image retrieval method based on variable length depth hash learning according to the present invention.
  • an image retrieval method based on variable length deep hash learning includes the following steps:
  • Preprocessing dividing the training image set into a batch of ternary image groups
  • the generation of image hash code in the training stage input the ternary image group into the deep convolutional neural network, and directly output the hash code corresponding to the image through the transformation of the network;
  • optimization of deep neural network parameters during training calculating the loss generated by each image and training the deep convolutional neural network by backpropagation algorithm;
  • Calculation of image similarity during the test phase truncating unimportant hash bits according to user input, and calculating the weighted Hamming distance between the query image and each image of the database;
  • test result is returned in the test phase: according to the weighted Hamming distance in S4, the database images are sorted from large to small, and the sort result is the returned similarity search result.
  • Step A The training image set is divided into a batch of ternary image groups. It is assumed that the training image can be divided into K semantic classes, each of which contains P images. Therefore, a total of K*P*(P-1)*(K-1)*P triples can be generated, which is much larger than the number of pictures trained. In practice, usually the pictures in the training data set can reach millions of orders, so under certain hardware conditions (the number of images that can be loaded at one time can be determined) can not be loaded at one time. In this embodiment, the parameters of the deep neural network will be trained in a batch processing manner, and the specific implementation is as follows: First, K' semantic classes are selected, and P ′ images are randomly selected from each semantic class.
  • the algorithm For each selected image I k , the algorithm will generate a fixed number of triples. Pictures with different labels for I k in each triple are randomly selected from other semantic classes. In this way, after loading a batch of images, the semantic classes of the generated triples are relatively concentrated, so that the discrimination information of the two semantic classes can be learned more effectively during the training process.
  • the way the triples are generated is not limited to this.
  • Step B The present embodiment can finally implement the image as an input, and finally output a hash code corresponding to the image through the deep neural network.
  • the algorithm gradually obtains binarized image hash coding in the process of optimizing the parameters of the deep neural network.
  • the present embodiment adds a layer of hyperbolic tangent function layer to the deep neural network, and the layer takes the feature vector as input, and the range of each dimension of the output is between [-1, 1]. Its form is:
  • v is the characteristic expression of the first full convolutional layer output of the inverse neural network.
  • is a harmonic parameter used to control its smoothness.
  • the hyperbolic tangent function will wirelessly approach the symbol function.
  • the value of ⁇ increases from 2 to 1000 as the training progresses, so the value of its output is gradually binarized.
  • the hyperbolic tangent function will be replaced by a symbolic function that directly obtains the binarized output.
  • Step C Although the loss generated each time in the present embodiment is calculated based on the triplet, the optimization of the network parameters can still be performed by calculating the gradient generated by each image loss.
  • An image-oriented gradient calculation method is proposed to optimize the parameters of deep neural networks, but the optimization scheme of network parameters is not limited to this.
  • Step D In the test phase, in order to quickly calculate the Hamming distance with weight between the hash codes generated by the two images, the present embodiment proposes a fast look-up table method.
  • the solution form of the weighted Hamming distance is not limited to this.
  • the fast look-up table method is specifically as follows: obtaining a hash code of a certain length, and determining a hash bit length L to be selected according to a user input.
  • the weight of each bit learned in the hash weight layer in the deep convolutional neural network By using the weight of each bit learned in the hash weight layer in the deep convolutional neural network, the first L bits with larger weights are selected in order from large to small, thereby realizing the interception of the hash bits.
  • a query table of size 2 L is constructed, and each element in the lookup table corresponds to the result of an exclusive OR operation of two hash codes of length L ( There are 2 L possibilities).
  • Combining the weights of each hash bit calculate the value of each XOR operation with weights and store it in the corresponding position of the lookup table.
  • the result of the XOR operation is calculated according to the input two hash code values, and the value stored in the corresponding position in the lookup table is returned as a result, thereby obtaining two Hamming code Hamming distances with weights.
  • the present embodiment proposes a segmentation calculation scheme. Specifically, the algorithm divides the selected L bits into segments (for example, 8 bits are a segment).
  • Each segment of the hash code corresponds to a sub-table, and each position in the sub-table corresponds to an output value of the XOR-coded partial XOR operation. Therefore, the total weighted Hamming distance can be finally obtained by accumulating the return value of each segment.
  • Step E The final stage of the test is to sort the weighted Hamming distance between each image in the database and the query image to obtain a sorted list.
  • the previous description in the sorted list is similar to the query image, but the latter is not similar.
  • fast ordering is used to sort the weighted Hamming distance, but the sorting algorithm is not limited to this algorithm.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于可变长度深度哈希学习的图像检索方法,主要涉及图像检索与深度学习领域。该方法将哈希码的学习建模成相似性学习的过程。具体来说,该方法利用训练图像产生一批三元图像组,其中每个三元组包含两张具有相同类标的图像与一张具有不同类标的图像。对模型训练的目的是最大化匹配的图像对与不匹配的图像对在海明空间的间隔。本方法的学习部分引入了深度卷积神经网络,通过对图像特征与哈希函数的联合优化,实现了端到端的训练过程。另一方面,卷积网络输出的哈希码每一位都具有不同的权重。针对不同的检索任务,用户可以通过截断不重要的比特位来实现哈希码长度的调控。同时,该方法能够在哈希码较短的情况下有效地保持其判别性。

Description

一种基于可变长深度哈希学习的图像检索方法 技术领域
本发明涉及图像检索领域与深度学习领域,更具体的,涉及一种基于可变长深度哈希学习的图像检索方法。
背景技术
随着互联网飞速发展,以图像和视频为载体的多媒信息的数量也呈现***性增长。如何才能从海量的数据中获取自己想要信息,成为工业界和学术界广泛讨论的内容。哈希技术凭借在存储空间和计算效率两个方面的巨大优势,受到了广泛的关注与研究。随着研究的不断深入,基于图像内容的哈希学习侧重将图像转化成为二进制编码后仍然能够有效保持其与其他图像的语义相关性。为了解决以上问题,多篇基于机器学习的哈希学习算法被提出。其中,一类基于有监督的图像哈希学习算法表现出了更为良好的效果,有着更加巨大的潜力。
一般来说,有监督框架下的图像哈希学习有两个主要部分构成,首先,图像将被手工设计的特征描述子表达成特征向量的形式,这一步的目的是为了在图像存在噪声或者其他冗余信息的情况下提取出图像的语义信息;其次是将哈希的学习过程表达成一个图像之间距离的优化问题,以此在学习到的海明空间中保持图像的语义一致性。但是大多数的学习方法将以上两个过程拆分开进行处理,这样就使得图像的特征表达无法在特征的学习过程中进行优化。同时,通过手工设计图像的特征需要大量的领域知识,很难有效适应不同的应用任务。近几年,一种名为多层自动编码器的模型被提出,该模型可以直接从原图像中得到图像特征并进一步转化为二进制编码。但由于其复杂的优化过程使得其在实际应用中受到很大限制。
另一方面,现有大多数的哈希学习算法生成的哈希编码是固定长度的。但是在实际的应用场景中,却需要根据任务的不同选取不同的编码长度。例如,对于计算资源较少的设备,较短的哈希编码具有更为明显的计算优势。但是对于查准率较高的任务,选择较长的哈希编码的可能性相对较大。为了解决以上问题,一个较为直接的方案是存储不同比特长度的哈希编码,但是这样对学习时间和存储 空间都有较大的浪费。因此有若干长度可变的哈希学习算法被先后提出。该类方法根据重要性的大小一位一位的产生哈希码,重要性较大的比特位率先产生。因此用户可以根据需要,从头至尾选取所期望的哈希编码长度。但是这类方法通常都与精心设计的特征空间紧密相连,同时其检索准确性也会随着哈希码位数的减少出现急剧的下跌。
发明内容
为了克服现有技术的不足,本发明提出一种基于可变长深度哈希学习的图像检索方法,该方法通过最大化匹配的图像对与不匹配的图像对在海明空间的间隔,来语义相似图像的特征一致性。通过对现有深度卷积神经网络的改进,实现了端到端的模型结构,从而能够从原始的输入图像直接获得相对应的哈希编码。最后,该方法在训练的过程中对每一个哈希比特位引入了权重,进而能够通多权重对哈希码的长度进行截取,使得哈希编码具备了长度可变性。从而实现了在一次训练的情况下,模型能够针对不同应用场景选取不同长度哈希编码进行减检索的目的。
为了实现上述目的,本发明的技术方案为:
一种基于可变长深度哈希学习的图像检索方法,包括以下步骤:
S1.预处理:将训练图像集合划分成一批三元图像组;
S2.训练阶段,图像哈希码的生成:将三元图像组输入到深度卷积神经网络中,通过网络的变换直接输出与图像对应的哈希码;
S3.训练阶段,深度神经网络参数的优化:计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网络;
S4.测试阶段,图像相似性的计算:根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据库每张图像之间的带权重海明距离;
S5.测试阶段,返回查询结果:根据步骤S4中的带权重的海明距离,从大到小对数据库图像进行排序,排序结果即为返回的相似性检索结果。
本发明通过训练图像集合产生一系列的三元组,利用图像三元组来最大化匹配的图像对与不匹配的图像对在海明空间的间隔,进而有效地挖掘了训练图像类内的一致性和类间的差异性,解决了具有相同语义信息的图片在海明空间相似性保持的问题。
优选的,所述步骤S1中将训练集合划分成一批三元图像组,具体方法为:从训练数据集中随机抽取若干张图像作为中心图像。在确定中心图像的基础上, 选取一张与中心图像具有相同类别标签的图像与一张具有不同类别标签的图像,从而形成若干图像三元组。
本发明的特点在于学习部分引入了深度卷积神经网络,通过对图像特征与哈希函数的联合优化,实现了端到端的训练过程。从而可以利用卷积神经网络直接从原始图像提取哈希码。省去了传统方法中手动设计特征的环节。其中深度神经网络的训练过程则是通过累加每张图像所产生的损失作为总的损失,进而利用反向传播算法对网络中的参数进行更新。
优选的,步骤S2中的深度卷积神经网络包含以下组成部分:若干卷积层和池化层,部分全连接层,一个类双曲正切函数层以及一个哈希权重层。其中倒数第二个全连接层的输出表示了图片的特征向量。倒数第一个全连接层中的参数代表了哈希函数的参数。类双曲正切函数层是一个以特征向量为输入的,每个维度的取值范围在[-1,1]之间的类双曲正切函数,其中函数有一个调和参数用于控制其平滑性。该参数越小,函数越平滑。哈希权重层是一个以类双曲正切函数层输出为输入的,每个维度对应一个权重的深度网络层。
优选的,步骤S3中的深度卷积神经网络参数学习的具体实现方式为:以图像为中心来计算所产生损失,计算某图像在所有三元组中出现的损失,并将其累计求和,获得最终的图像损失。具体的,对于确定的某张图像,首先确定其在三元组中的具体存在形式(作为中心图像、作为正样本、作为负样本或是根本不在三元组中)。随后根据具体的存在形式计算其相应的损失,若图像不存在于某三元组中,则计图像在该三元组中产生的损失为零。累加图像在所有三元组中不同存在形式下的损失,获得最终该图像的损失。每次在进行深度卷积神经网络参数更新的时候则是将一批图像一次载入,利用这些图像随机产生若干三元组。统计这一批图像在这个三元组集合上的损失。利用反向传播算法(back propagation algorithm)对深度卷积神经网络参数进行更新。
本发明的优势在于针对不同查询任务,用户可以根据实际需要对哈希码的长度进行选择,
进而算法根据每个哈希比特位的权重对哈希码进行截断,实现了哈希编码的长度可变性。本发明有效地解决了一次训练,多任务可用的目标。在计算资源、存储空间有限的情况下,本方法依旧能够在哈希编码较短的情况下,保持其判别性。
优选的,步骤S4中的图像相似性计算的具体实现方式为:获取确定长度的哈希编码,根据用户的输入,确定要选取的哈希比特位长度L。利用深度卷积神经网络中哈希权重层学习到的每一个比特位的权重,从大到小依次选取权重较大的前L个比特位,从而实现哈希比特位的截取。利用截取的哈希比特位计算带权重的海明距离,作为最终两个图像的相似性度量。
优选的,步骤S4中计算带权重的海明距离使用了快速查表法,其具体的实现方式为:根据选取的哈希比特位长度L,构建大小为2L的查询表,该查询表的中的每一个元素对应了两个长度为L的哈希编码可能存在的一种异或操作的结果(共存在2L种可能)。结合每一个哈希比特位的权重,计算带权情况下每一种异或操作的值,并将其存储在查询表的对应位置。查询时,根据输入的两个哈希编码值,计算其异或操作的结果,并将存储在查询表中对应位置的数值作为结果返回,从而获得两个哈希编码带权重的海明距离。
优选的,步骤S5中对带权重的海明距离进行排序,其所采用的排序算法是快速排序算法、归并排序算法或选择排序算法中的任意一种。
本发明提取具有丰富信息的图像特征和学习近似哈希函数是图像检索领域两个十分重要的研究方向。同时,当前的多媒体应用要求输出的哈希码能够依据应用场景的不同而变化长度。基于以上需求,提出一种基于可变长度深度哈希学习的图像检索方法,主要涉及图像检索与深度学习领域。该方法将哈希码的学习建模成相似性学习的过程。具体来说,该方法利用训练图像产生一批三元图像组,其中每个三元组包含两张具有相同类标的图像与一张具有不同类标的图像。对模型训练的目的是最大化匹配的图像对与不匹配的图像对在海明空间的间隔。本方法模型的学习部分引入了深度卷积神经网络,通过对图像特征与哈希函数的联合优化,实现了端到端的训练过程。另一方面,卷积网络输出的哈希码每一位都具有不同的权重。针对不同的检索任务,用户可以通过截断不重要的比特位来实现哈希码长度的调控。同时,该方法能够在哈希码较短的情况下的有效地保持其判别性。
与现有技术相比,本发明的有益效果为:
1.本发明是一种基于可变长深度哈希学习的图像检索方法,通过利用深度神经网络,该方法将图像的特征学习与哈希函数的学习过程统一到一个端到端的框架中,实现了两者的联合优化。克服了已有方法在哈希函数学习方面,严重依赖 于所嵌入的图像特征空间的现状。
2.本发明是一种基于可变长深度哈希学习的图像检索方法,在进行检索的过程中,该方法强调的是通过对带权重的比特位的选取来应对不同的检索任务。因而克服了大多数现有方法通过存储不同比特位的哈希码来解决不同的任务的弊端。同时,一种针对带权重哈希码的查表方法被提出,进一步保证了可变长哈希的检索效率。
3.本发明是一种基于可变长深度哈希学习的图像检索方法,在哈希码学习的过程中本方法引入了基于图像三元组比对的相对相似性比对,这种方法能够有效挖掘类内的一致性和类间的差异性。保证了所产生的哈希码能够有效保持实例级别的相似性。
附图说明
图1为基于可变长深度哈希学习的图像检索方法的框架图。
图2为本发明的基于可变长深度哈希学习的图像检索方法的深度神经网络的架构图。
图3为本发明的图像相似性哈希学习的原理图。
图4为本发明的基于可变长深度哈希学习的图像检索方法的训练流程图。
图5为本发明的基于可变长深度哈希学习的图像检索方法的检索流程图。
图6为本发明的基于可变长深度哈希学习的图像检索方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图2所示,一种基于可变长度深度哈希学习的图像检索方法,其包括以下步骤:
预处理:将训练图像集合划分成一批三元图像组;
训练阶段图像哈希码的生成:将三元图像组输入到深度卷积神经网络中,通过网络的变换直接输出与图像对应的哈希码;
训练阶段深度神经网络参数的优化:计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网络;
测试阶段图像相似性的计算:根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据库每张图像之间的带权重海明距离;
测试阶段返回查询结果:根据S4中的带权重的海明距离,从大到小对数据库图像进行排序,排序结果即为返回的相似性检索结果。
上述步骤具体为:
步骤A:将训练图像集合划分成一批三元图像组。假设训练图像可以划分为K个语义类,其中每个与一类包含了P张图像。因此总共可以产生K*P*(P-1)*(K-1)*P个三元组,这个数量远远超过训练的图片数量。实际的情况下,通常训练数据集中的图片可以达到百万量级,因此在确定的硬件条件下(显存一次可以载入图像数是确定的)无法一次载入。在本实施例中,将使用分批处理的方式对深度神经网络的参数进行训练,具体实现如下:首先选择K’个语义类,从每一个语义类中在随机的选出P张图像。对于每一张被选取的图像Ik,算法会生更固定个数的三元组。在每个三元组中同Ik有不同标签的图片是从其他语义类中进行随机选择的。利用这样的方式,在载入一批图像后,生成的三元组的语义类相对比较集中,因此训练的过程中也能够更为有效的学习到两个语义类的判别信息。但三元组的生成方式并不局限于此。
步骤B:本实施方案能够最终实现将图像作为输入,通过深度神经网络最终输出与图像对应的哈希编码。但在实施的过程中,算法是在优化深度神经网络参数的过程中逐渐获得二值化的图像哈希编码的。具体的,本实施方案在深度神经网络中加入一层类双曲正切函数层,该层以特征向量为输入的,输出的每个维度的取值范围在[-1,1]之间。其形式为:
Figure PCTCN2016074646-appb-000001
其中v是深度神经网络倒数第一个全卷积层输出的特征表达。β为一个调和参数用于控制其平滑性,当β变得无限大的时候,类双曲正切函数将无线接近符号函数。在本实施方案中,β的值随着训练的过程从2增长到1000,因此其输出的值逐渐实现了二值化。在测试阶段,类双曲正切函数将被替换为符号函数,直接获得二值化的输出。
步骤C:虽然本实施方案中每次产生的损失都是基于三元组计算的,但是依旧可以通过计算每张图像损失产生的梯度来进行网络参数的优化。本实施方案中 提出一种面向图像的梯度计算方法,用以优化深度神经网络的参数,但网络参数的优化方案并不局限于此。
具体实施如下:首先明确一张需要计算损失的图像Ij,初始化该图像的梯度为pd=0,对于一批载入的任意一个三元组
Figure PCTCN2016074646-appb-000002
如果Ij=Ii,则
Figure PCTCN2016074646-appb-000003
如果
Figure PCTCN2016074646-appb-000004
Figure PCTCN2016074646-appb-000005
如果
Figure PCTCN2016074646-appb-000006
Figure PCTCN2016074646-appb-000007
其中
Figure PCTCN2016074646-appb-000008
是图像
Figure PCTCN2016074646-appb-000009
对应的哈希编码,w对应深度卷积神经网络中哈希权重层的权重。则pd最终的输出就为图像Ij的梯度。
步骤D:在测试阶段,为了快速计算两张图像所产生的哈希码之间带权重的海明距离,本实施方案提出一种快速的查表法。但是,带权重的海明距离的求解形式不局限于此。
快速的查表法具体如下:获取确定长度的哈希编码,根据用户的输入,确定要选取的哈希比特位长度L。利用深度卷积神经网络中哈希权重层学习到的每一个比特位的权重,从大到小依次选取权重较大的前L个比特位,从而实现哈希比特位的截取。根据选取的哈希比特位长度L,构建大小为2L的查询表,该查询表的中的每一个元素对应了两个长度为L的哈希编码可能存在的一种异或操作的结果(共存在2L种可能)。结合每一个哈希比特位的权重,计算带权情况下每一种异或操作的值,并将其存储在查询表的对应位置。查询时,根据输入的两个哈希编码值,计算其异或操作的结果,并将存储在查询表中对应位置的数值作为结果返回,从而获得两个哈希编码带权重的海明距离。在上述情况下,如果选取的哈希编码长度过长,查询表的长度将变得过大,利用查询变穷举所有可能的异或操作变得不现实。鉴于此,本实施方案提出一种分段计算方案。具体的,算法将选取的L个比特位分成若干段(例如8比特位为一段)。每一段哈希编码对应一个子表,子表中的每个位置对应了两个哈希编码对应部分异或操作的输出值。因此,总的带权重的海明距离可以通过累加每一段的返回值最终获得。
步骤E:测试的最后阶段是将数据库中每张图像与查询图像之间的带权海明距离进行大到小的排序,最终获得排序列表。在排序列表中靠前的说明和查询图像相似,靠后则说明不相似。本实施例中,使用了快速排序对带权的海明距离进行排序,但排序算法并不局限于此算法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

  1. 一种基于可变长深度哈希学习的图像检索方法,其特征在于,包括:
    S1.将训练图像集合划分成一批三元图像组;
    S2.将三元图像组输入到深度卷积神经网络中;
    S3.计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网络;
    S4.根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据库每张图像之间的带权重海明距离;
    S5.根据步骤S4中的带权重的海明距离,从小到大对数据库图像进行排序,排序结果即为返回的相似性检索结果。
  2. 根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S1中所述的三元图像组具体包括两张具有相同类别标签的图像与一张具有不同类别标签的图像。
  3. 根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S2中的深度卷积神经网络包含若干卷积层和池化层,部分全连接层,一个类双曲正切函数层以及一个哈希权重层;
    所述的类双曲正切函数层是一个以特征向量为输入的,每个维度的取值范围在[-1,1]之间的类双曲正切函数,其中函数有一个调和参数用于控制其平滑性;该参数越小,函数越平滑;
    所述的哈希权重层是以类双曲正切函数层的输出作为输入,每个维度对应一个权重的深度网络层。
  4. 根据权利要求3所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S3中的深度卷积神经网络的训练过程是一个端到端的过程,实现了图像特征与哈希函数的联合优化;
    所述的图像特征是深度卷积网络倒数第二个全连接层输入的特征向量;
    所述的哈希函数,其参数直接对应了最后一个全连接层所包含的所有参数。
  5. 根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S3中计算每张图像的损失,是通过最大化匹配的图像对与不匹配的图像对在海明空间的间隔实现的,满足:
    Figure PCTCN2016074646-appb-100001
    其中W是深度卷积神经网络的参数,H(·,·)表示两个哈希码在海明空间的距离,C是一个常数用于减小噪声对模型的影响。
  6. 根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S4中不重要的哈希比特是通过哈希比特的权重确定的,其中权重越小表明哈希比特位的重要性越小。
  7. 根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特征在于,所述步骤S4中计算带权重的海明距离,包含以下步骤:
    S-a.获取重要的哈希比特位的权重;
    S-b.构建一个长度为2l的查询表,其中l是重要哈希比特位的长度,数值2l等于两个哈希码所产生的所有可能的异或结果;
    S-c.计算每种异或结果下的带权海明仿射距离并将结果储存在查询表的对应位置上。
    S-d.计算两个哈希码的异或值并将其在查询表中对应的值返回。
  8. 根据权利要求7所述的计算带权重的海明距离,其特征在于,所述长度为2l的查询表在l较大的情况下,可以将查询表拆分成等长的几个子表,每一个子表对应了固定长度的一段哈希码。子表中的每个值代表了对应子哈希码的带权相似性。最终两个哈希码的带权仿射距离可以通过累加每段的带权仿射获得。
PCT/CN2016/074646 2015-12-03 2016-02-26 一种基于可变长深度哈希学习的图像检索方法 WO2017092183A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/990,586 US10776685B2 (en) 2015-12-03 2018-05-25 Image retrieval method based on variable-length deep hash learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510883581.2A CN105512273A (zh) 2015-12-03 2015-12-03 一种基于可变长深度哈希学习的图像检索方法
CN201510883581.2 2015-12-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/990,586 Continuation US10776685B2 (en) 2015-12-03 2018-05-25 Image retrieval method based on variable-length deep hash learning

Publications (1)

Publication Number Publication Date
WO2017092183A1 true WO2017092183A1 (zh) 2017-06-08

Family

ID=55720255

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/074646 WO2017092183A1 (zh) 2015-12-03 2016-02-26 一种基于可变长深度哈希学习的图像检索方法

Country Status (3)

Country Link
US (1) US10776685B2 (zh)
CN (1) CN105512273A (zh)
WO (1) WO2017092183A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685121A (zh) * 2018-12-11 2019-04-26 中国科学院苏州纳米技术与纳米仿生研究所 图像检索模型的训练方法、图像检索方法、计算机设备
CN109919108A (zh) * 2019-03-11 2019-06-21 西安电子科技大学 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109949323A (zh) * 2019-03-19 2019-06-28 广东省农业科学院农业生物基因研究中心 一种基于深度学习卷积神经网络的作物种子净度判断方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN110032650A (zh) * 2019-04-18 2019-07-19 腾讯科技(深圳)有限公司 一种训练样本数据的生成方法、装置及电子设备
CN110347853A (zh) * 2019-07-09 2019-10-18 成都澳海川科技有限公司 一种基于循环神经网络的图像哈希码生成方法
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法
CN111832706A (zh) * 2020-07-08 2020-10-27 西安电子科技大学 基于哈希中心的连续学习方法
CN112861976A (zh) * 2021-02-11 2021-05-28 温州大学 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN113270199A (zh) * 2021-04-30 2021-08-17 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113326393A (zh) * 2021-05-31 2021-08-31 西安理工大学 一种基于深度哈希特征和异构并行处理的图像检索方法
CN113468386A (zh) * 2021-07-01 2021-10-01 南京邮电大学 一种基于哈希学习的跨模态材料表面检索方法及装置
CN113836341A (zh) * 2021-09-13 2021-12-24 武汉理工大学 基于无监督转换器平衡哈希的遥感图像检索方法
CN114154037A (zh) * 2021-12-07 2022-03-08 广东技术师范大学 一种基于聚合相似度的深度哈希的不平衡商标检索方法
CN114168782A (zh) * 2021-11-30 2022-03-11 西安理工大学 一种基于三元组网络的深度哈希图像检索方法
CN114547354A (zh) * 2022-02-15 2022-05-27 华南师范大学 一种基于函数自适应映射的深度哈希方法
CN114913358A (zh) * 2022-05-07 2022-08-16 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN117390515A (zh) * 2023-11-01 2024-01-12 江苏君立华域信息安全技术股份有限公司 基于深度学习和SimHash的数据分类方法及***

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423306B (zh) * 2016-05-24 2021-01-29 华为技术有限公司 一种图像检索方法及装置
CN105975959B (zh) * 2016-06-14 2019-09-03 广州视源电子科技股份有限公司 基于神经网络的人脸特征提取建模、人脸识别方法及装置
CN106250423B (zh) * 2016-07-25 2019-08-06 上海媒智科技有限公司 基于部分参数共享的深度卷积神经网络跨域服装检索方法
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN107786867A (zh) * 2016-08-26 2018-03-09 原相科技股份有限公司 基于深度学习架构的图像辨识方法及***
CN106529571B (zh) * 2016-10-14 2018-04-20 广州视源电子科技股份有限公司 基于神经网络的多层图像特征提取建模、图像识别方法及装置
CN106503106B (zh) * 2016-10-17 2019-10-18 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN106845330A (zh) * 2016-11-17 2017-06-13 北京品恩科技股份有限公司 一种基于深度卷积神经网络的二维人脸识别模型的训练方法
CN106557332A (zh) * 2016-11-30 2017-04-05 上海寒武纪信息科技有限公司 一种指令生成过程的复用方法及装置
CN110235083B (zh) * 2017-01-02 2023-06-30 广州异构智能科技有限公司 对象识别方法和***的无监督学习
CN107402947B (zh) * 2017-03-29 2020-12-08 北京猿力教育科技有限公司 图片检索模型建立方法和装置、图片检索方法和装置
TWI753034B (zh) * 2017-03-31 2022-01-21 香港商阿里巴巴集團服務有限公司 特徵向量的產生、搜索方法、裝置及電子設備
CN107169413B (zh) * 2017-04-12 2021-01-12 上海大学 一种基于特征块权重化的面部表情识别方法
CN107330074B (zh) * 2017-06-30 2020-05-26 中国科学院计算技术研究所 基于深度学习和哈希编码的图像检索方法
CN107423376B (zh) * 2017-07-10 2019-12-27 上海媒智科技有限公司 一种有监督深度哈希快速图片检索方法及***
US10452954B2 (en) * 2017-09-14 2019-10-22 Google Llc Object detection and representation in images
CN109711422B (zh) * 2017-10-26 2023-06-30 北京邮电大学 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN107944549A (zh) * 2017-12-08 2018-04-20 成都谷问信息技术有限公司 基于人工智能的数据分析方法
CN107944180A (zh) * 2017-12-08 2018-04-20 成都谷问信息技术有限公司 适用于大数据分析的***
CN108009557A (zh) * 2017-12-25 2018-05-08 浙江工业大学 一种基于共享权重卷积网络的三维模型局部特征描述方法
CN109919317B (zh) * 2018-01-11 2024-06-04 华为技术有限公司 一种机器学习模型训练方法和装置
CN108427729A (zh) * 2018-02-23 2018-08-21 浙江工业大学 一种基于深度残差网络与哈希编码的大规模图片检索方法
CN108595474B (zh) * 2018-03-09 2022-04-12 中山大学 一种带有物***置感知的多标签图片哈希方法
US11429820B2 (en) * 2018-03-13 2022-08-30 Recogni Inc. Methods for inter-camera recognition of individuals and their properties
WO2019203851A1 (en) * 2018-04-20 2019-10-24 Hewlett-Packard Development Company, L.P. Three-dimensional shape classification and retrieval using convolutional neural networks and majority vote
CN110674331A (zh) 2018-06-15 2020-01-10 华为技术有限公司 信息处理方法、相关设备及计算机存储介质
CN109271546A (zh) * 2018-07-25 2019-01-25 西北大学 图像检索特征提取模型建立、数据库建立及检索方法
CN109241322B (zh) * 2018-08-28 2020-09-11 北京地平线机器人技术研发有限公司 代码生成方法、代码生成装置和电子设备
CN109241317B (zh) * 2018-09-13 2022-01-11 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN109710607B (zh) * 2018-11-07 2021-09-17 宁波大学 一种面向高维大数据的基于权重求解的哈希查询方法
CN109766469B (zh) * 2018-12-14 2020-12-01 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109670057B (zh) * 2019-01-03 2021-06-29 电子科技大学 一种渐进式的端到端深度特征量化***及方法
CN109840290B (zh) * 2019-01-23 2020-09-22 北京航空航天大学 一种基于端到端深度哈希的皮肤镜图像检索方法
CN109885716B (zh) * 2019-02-18 2022-10-14 成都快眼科技有限公司 基于异质多任务学习深度监督离散哈希的图像检索方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN110134803B (zh) * 2019-05-17 2020-12-11 哈尔滨工程大学 基于哈希学习的图像数据快速检索方法
CN110196918B (zh) * 2019-05-28 2021-05-04 北京理工大学 一种基于目标检测的无监督深度哈希方法
CN110309333B (zh) * 2019-05-28 2021-09-17 北京工业大学 一种基于余弦度量的深度哈希图像检索方法
US11580392B2 (en) * 2019-05-30 2023-02-14 Samsung Electronics Co., Ltd. Apparatus for deep representation learning and method thereof
CN110209867B (zh) * 2019-06-05 2023-05-16 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
CN110263252B (zh) * 2019-06-19 2023-02-03 华东师范大学 一种基于深度学习的服装检索方法
CN110390352A (zh) * 2019-06-26 2019-10-29 华中科技大学 一种基于相似性哈希的图像暗数据价值评估方法
CN110296705B (zh) * 2019-06-28 2022-01-25 苏州瑞久智能科技有限公司 一种基于距离度量学习的视觉slam回环检测方法
CN110309343B (zh) * 2019-06-28 2023-08-08 南京大学 一种基于深度哈希的声纹检索方法
CN110532880B (zh) * 2019-07-29 2022-11-22 深圳大学 样本筛选及表情识别方法、神经网络、设备及存储介质
CN110555121B (zh) * 2019-08-27 2022-04-15 清华大学 基于图神经网络的图像哈希生成方法及装置
CN110516100A (zh) * 2019-08-29 2019-11-29 武汉纺织大学 一种图像相似度的计算方法、***、存储介质及电子设备
CN110738100A (zh) * 2019-09-04 2020-01-31 沈阳工业大学 一种基于深度学习的伪装军事目标识别方法及***
CN110795591B (zh) * 2019-10-14 2022-07-22 中山大学 一种基于离散梯度反向传播的图像检索方法
CN110866134B (zh) * 2019-11-08 2022-08-05 吉林大学 一种面向图像检索的分布一致性保持度量学习方法
CN110851645B (zh) * 2019-11-08 2022-09-13 吉林大学 一种基于深度度量学习下相似性保持的图像检索方法
CN112887256A (zh) * 2019-11-29 2021-06-01 华为技术有限公司 对象跟踪的方法、装置和计算机可读存储介质
CN111222003B (zh) * 2020-01-09 2022-10-25 山东建筑大学 基于空间重要性的深度加权哈希学习方法
CN111209879B (zh) * 2020-01-12 2023-09-19 杭州电子科技大学 基于深度圈视图的无监督3d物体识别与检索方法
CN111241327B (zh) * 2020-01-17 2022-05-13 北京航空航天大学 一种基于深度哈希的病理全切片检索方法
CN111563180A (zh) * 2020-04-08 2020-08-21 西北工业大学 一种基于深度哈希方法的商标图像检索方法
CN111597367B (zh) * 2020-05-18 2023-11-24 河北工业大学 基于视图和哈希算法的三维模型检索方法
CN111611427B (zh) * 2020-05-21 2023-06-30 湖北工业大学 基于线性鉴别分析深度哈希算法的图像检索方法及***
CN111625258B (zh) * 2020-05-22 2021-08-27 深圳前海微众银行股份有限公司 默克尔树更新方法、装置、设备及可读存储介质
CN111612077A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性可视化方法、设备及可读存储介质
CN111626408B (zh) * 2020-05-22 2021-08-06 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111611413B (zh) * 2020-05-26 2023-04-18 北京邮电大学 基于度量学习的深度哈希方法
CN111753190B (zh) * 2020-05-29 2024-07-05 中山大学 一种基于元学习的无监督跨模态哈希检索方法
CN111984807B (zh) * 2020-08-14 2024-03-19 华中科技大学 一种内容筛选存储方法及***
CN111930980B (zh) * 2020-08-21 2023-07-07 深圳市升幂科技有限公司 图像检索模型的训练方法及图像检索方法、装置、及介质
CN112035728B (zh) * 2020-08-21 2023-07-25 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质
US11586380B2 (en) * 2020-09-09 2023-02-21 Micron Technology, Inc. Memory systems including examples of calculating hamming distances for neural network and data center applications
US11636285B2 (en) 2020-09-09 2023-04-25 Micron Technology, Inc. Memory including examples of calculating hamming distances for neural network and data center applications
US11609853B2 (en) 2020-09-09 2023-03-21 Micron Technology, Inc. Memory controllers including examples of calculating hamming distances for neural network and data center applications
CN112347855A (zh) * 2020-10-12 2021-02-09 西安电子科技大学青岛计算技术研究院 一种基于深度学习的生物特征模板保护方法及装置
CN112364192A (zh) * 2020-10-13 2021-02-12 中山大学 一种基于集成学习的零样本哈希检索方法
CN112215302A (zh) * 2020-10-30 2021-01-12 Oppo广东移动通信有限公司 图像的标识方法、标识装置及终端设备
CN112307225A (zh) * 2020-11-02 2021-02-02 中国海洋大学 基于改进哈希学习算法的大规模数据检索方法
CN112750109B (zh) * 2021-01-14 2023-06-30 金陵科技学院 一种基于形态学和深度学习的制药设备安全监测方法
CN112800292B (zh) * 2021-01-15 2022-10-11 南京邮电大学 一种基于模态特定和共享特征学习的跨模态检索方法
CN112883216B (zh) * 2021-03-01 2022-09-16 中国科学院信息工程研究所 基于扰动一致性自集成的半监督图像检索方法及装置
CN112905599B (zh) * 2021-03-18 2022-10-14 南京邮电大学 基于端到端的分布式深度哈希检索方法
CN113297899B (zh) * 2021-03-23 2023-02-03 上海理工大学 一种基于深度学习的视频哈希算法
CN112818148B (zh) * 2021-04-16 2021-11-05 北京妙医佳健康科技集团有限公司 视觉检索的排序优化方法、装置、电子设备及存储介质
CN113377981B (zh) * 2021-06-29 2022-05-27 山东建筑大学 基于多任务深度哈希学习的大规模物流商品图像检索方法
CN113326926B (zh) * 2021-06-30 2023-05-09 上海理工大学 一种面向遥感图像检索的全连接哈希神经网络
CN113794812B (zh) * 2021-08-13 2024-06-04 山东师范大学 基于图像信道选择和特征一致性的隐蔽通信方法
CN113626629B (zh) * 2021-08-17 2023-09-29 北京计算机技术及应用研究所 一种利用尺度不变特征计算图像哈希值的方法
CN113722529B (zh) * 2021-08-20 2024-05-31 中国人民解放军陆军工程大学 一种无监督图像深度哈希检索方法及***
CN113449135B (zh) * 2021-08-31 2021-11-19 阿里巴巴达摩院(杭州)科技有限公司 图像生成***与方法
CN115292535B (zh) * 2022-08-24 2023-07-25 合肥市正茂科技有限公司 一种基于深度极化哈希的分层车辆图像检索方法
CN115761263B (zh) * 2022-12-09 2023-07-25 中南大学 深度哈希方法
CN115878832B (zh) * 2023-02-15 2023-05-16 武汉理工大学三亚科教创新园 基于精细对齐判别哈希的海洋遥感图像音频检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352494B1 (en) * 2009-12-07 2013-01-08 Google Inc. Distributed image search
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN105095435A (zh) * 2015-07-23 2015-11-25 北京京东尚科信息技术有限公司 一种图像高维特征的相似比较方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077604A (en) * 1989-10-30 1991-12-31 Asdg Incorporated Color printing, correction, and conversion apparatus and method
US20140310314A1 (en) * 2013-04-16 2014-10-16 Samsung Electronics Co., Ltd. Matching performance and compression efficiency with descriptor code segment collision probability optimization
JP6379107B2 (ja) * 2013-05-21 2018-08-22 株式会社スクウェア・エニックス・ホールディングス 情報処理装置並びにその制御方法、及びプログラム
WO2016100717A1 (en) * 2014-12-17 2016-06-23 Google Inc. Generating numeric embeddings of images
CN104933154B (zh) * 2015-06-25 2017-12-29 北京邮电大学 一种基于分布式网络实现图像按内容快速检索的方法
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
WO2017095413A1 (en) * 2015-12-03 2017-06-08 Hewlett Packard Enterprise Development Lp Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352494B1 (en) * 2009-12-07 2013-01-08 Google Inc. Distributed image search
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105095435A (zh) * 2015-07-23 2015-11-25 北京京东尚科信息技术有限公司 一种图像高维特征的相似比较方法及装置
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, RUIMAO: "Bit-Scalable Deep Hashing With Regularized Similarity Learning for Image Retrieval and Person Re-Identification", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 24, 31 December 2015 (2015-12-31), pages 12, XP011669609 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685121A (zh) * 2018-12-11 2019-04-26 中国科学院苏州纳米技术与纳米仿生研究所 图像检索模型的训练方法、图像检索方法、计算机设备
CN109685121B (zh) * 2018-12-11 2023-07-18 中国科学院苏州纳米技术与纳米仿生研究所 图像检索模型的训练方法、图像检索方法、计算机设备
CN109919108A (zh) * 2019-03-11 2019-06-21 西安电子科技大学 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109919108B (zh) * 2019-03-11 2022-12-06 西安电子科技大学 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109949323A (zh) * 2019-03-19 2019-06-28 广东省农业科学院农业生物基因研究中心 一种基于深度学习卷积神经网络的作物种子净度判断方法
CN109949323B (zh) * 2019-03-19 2022-12-20 广东省农业科学院农业生物基因研究中心 一种基于深度学习卷积神经网络的作物种子净度判断方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN109960732B (zh) * 2019-03-29 2023-04-18 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及***
CN110032650A (zh) * 2019-04-18 2019-07-19 腾讯科技(深圳)有限公司 一种训练样本数据的生成方法、装置及电子设备
CN110347853A (zh) * 2019-07-09 2019-10-18 成都澳海川科技有限公司 一种基于循环神经网络的图像哈希码生成方法
CN110347853B (zh) * 2019-07-09 2022-12-27 成都澳海川科技有限公司 一种基于循环神经网络的图像哈希码生成方法
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法
CN111198959B (zh) * 2019-12-30 2023-03-28 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法
CN111832706A (zh) * 2020-07-08 2020-10-27 西安电子科技大学 基于哈希中心的连续学习方法
CN112861976B (zh) * 2021-02-11 2024-01-12 温州大学 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN112861976A (zh) * 2021-02-11 2021-05-28 温州大学 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN113270199B (zh) * 2021-04-30 2024-04-26 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113270199A (zh) * 2021-04-30 2021-08-17 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113326393A (zh) * 2021-05-31 2021-08-31 西安理工大学 一种基于深度哈希特征和异构并行处理的图像检索方法
CN113468386A (zh) * 2021-07-01 2021-10-01 南京邮电大学 一种基于哈希学习的跨模态材料表面检索方法及装置
CN113468386B (zh) * 2021-07-01 2023-10-20 南京邮电大学 一种基于哈希学习的跨模态材料表面检索方法及装置
CN113836341B (zh) * 2021-09-13 2023-08-18 武汉理工大学 基于无监督转换器平衡哈希的遥感图像检索方法
CN113836341A (zh) * 2021-09-13 2021-12-24 武汉理工大学 基于无监督转换器平衡哈希的遥感图像检索方法
CN114168782A (zh) * 2021-11-30 2022-03-11 西安理工大学 一种基于三元组网络的深度哈希图像检索方法
CN114168782B (zh) * 2021-11-30 2024-03-15 西安理工大学 一种基于三元组网络的深度哈希图像检索方法
CN114154037A (zh) * 2021-12-07 2022-03-08 广东技术师范大学 一种基于聚合相似度的深度哈希的不平衡商标检索方法
CN114547354A (zh) * 2022-02-15 2022-05-27 华南师范大学 一种基于函数自适应映射的深度哈希方法
CN114913358A (zh) * 2022-05-07 2022-08-16 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN114913358B (zh) * 2022-05-07 2024-05-10 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN115017366A (zh) * 2022-07-11 2022-09-06 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN115017366B (zh) * 2022-07-11 2024-04-02 中国科学技术大学 基于多粒度语境化和多结构保存的无监督视频哈希检索方法
CN117390515A (zh) * 2023-11-01 2024-01-12 江苏君立华域信息安全技术股份有限公司 基于深度学习和SimHash的数据分类方法及***
CN117390515B (zh) * 2023-11-01 2024-04-12 江苏君立华域信息安全技术股份有限公司 基于深度学习和SimHash的数据分类方法及***

Also Published As

Publication number Publication date
US20180276528A1 (en) 2018-09-27
CN105512273A (zh) 2016-04-20
US10776685B2 (en) 2020-09-15

Similar Documents

Publication Publication Date Title
WO2017092183A1 (zh) 一种基于可变长深度哈希学习的图像检索方法
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
Zhu et al. High-order proximity preserved embedding for dynamic networks
Ding et al. Research on data stream clustering algorithms
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
Wang et al. Online collective matrix factorization hashing for large-scale cross-media retrieval
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
US20220414144A1 (en) Multi-task deep hash learning-based retrieval method for massive logistics product images
CN110334290B (zh) 一种基于MF-Octree的时空数据快速检索方法
EP3278238A1 (en) Fast orthogonal projection
WO2017053779A1 (en) Data storage and retrieval system using online supervised hashing
EP3115908A1 (en) Method and apparatus for multimedia content indexing and retrieval based on product quantization
CN114329109A (zh) 基于弱监督哈希学习的多模态检索方法及***
CN105183792A (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
WO2023155304A1 (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN104933143A (zh) 获取推荐对象的方法及装置
Liang et al. Cross-media semantic correlation learning based on deep hash network and semantic expansion for social network cross-media search
EP3115909A1 (en) Method and apparatus for multimedia content indexing and retrieval based on product quantization
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN110209895B (zh) 向量检索方法、装置和设备
Yu et al. Scalable forest hashing for fast similarity search
CN107944045B (zh) 基于t分布哈希的图像检索方法及***
CN104751459B (zh) 多维特征的相似性度量优化方法及图像匹配方法
Chen et al. Topological transduction for hybrid few-shot learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16869497

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16869497

Country of ref document: EP

Kind code of ref document: A1