WO2022111069A1 - 图像处理方法、装置、电子设备以及存储介质 - Google Patents

图像处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
WO2022111069A1
WO2022111069A1 PCT/CN2021/122899 CN2021122899W WO2022111069A1 WO 2022111069 A1 WO2022111069 A1 WO 2022111069A1 CN 2021122899 W CN2021122899 W CN 2021122899W WO 2022111069 A1 WO2022111069 A1 WO 2022111069A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature
target
key point
dense
Prior art date
Application number
PCT/CN2021/122899
Other languages
English (en)
French (fr)
Inventor
吴佳涛
郭彦东
李亚乾
杨林
Original Assignee
Oppo广东移动通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo广东移动通信有限公司 filed Critical Oppo广东移动通信有限公司
Publication of WO2022111069A1 publication Critical patent/WO2022111069A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the present application relates to the technical field of image processing, and more particularly, to an image processing method, apparatus, electronic device, and storage medium.
  • Similarity image search refers to the automatic identification of similar or identical images from a large number of images.
  • similar image search technology has been widely used in pedestrian re-identification, vehicle recognition, and website images. Search and e-commerce commodity retrieval and other fields.
  • the present application proposes an image processing method, apparatus, electronic device and storage medium to improve the above problems.
  • an embodiment of the present application provides an image processing method, the method includes: acquiring a target image; inputting the target image into a target image processing model, and characterizing the target image based on the target image processing model Extraction to obtain the extracted features; perform key point prediction processing on the extracted features to obtain target key points, and perform feature fusion processing on the extracted features to obtain dense image features;
  • the descriptor vector corresponding to the target key point, the descriptor vector includes the global feature information and local feature information of the target image; and a reference image matching the target image is obtained based on the descriptor vector.
  • an embodiment of the present application provides an image processing method, the method includes: acquiring a first image and a second image; acquiring a first image corresponding to the first image based on the method described in the first aspect above a descriptor vector, and acquiring a second descriptor vector corresponding to the second image; acquiring a match between the first image and the second image based on the first descriptor vector and the second descriptor vector score; if the matching score is greater than a matching score threshold, it is determined that the first image matches the second image.
  • an embodiment of the present application provides an image processing apparatus, the apparatus includes: an image acquisition module, configured to acquire a target image; a feature extraction module, configured to input the target image into a target image processing model, based on the The target image processing model performs feature extraction on the target image to obtain the extracted features; the feature processing module is used to perform key point prediction processing on the extracted features, obtain target key points, and perform feature extraction on the extracted features. Fusion processing to obtain dense image features; a parameter acquisition module for obtaining descriptor vectors corresponding to the target key points from the dense image features, and the descriptor vectors include global feature information of the target image and local feature information; a processing module, configured to obtain a reference image matching the target image based on the descriptor vector.
  • an embodiment of the present application provides an image processing device, the device includes: an image acquisition unit, configured to acquire a first image and a second image; and a first parameter acquisition unit, configured based on the above-mentioned first aspect.
  • the method described above obtains a first descriptor vector corresponding to the first image, and obtains a second descriptor vector corresponding to the second image;
  • a second parameter obtaining unit is used to obtain a second descriptor vector based on the first descriptor vector and the second descriptor vector to obtain the matching score of the first image and the second image;
  • a processing unit configured to determine the first image and the second image if the matching score is greater than a matching score threshold Image matching.
  • the present application provides an electronic device comprising one or more processors and a memory; one or more programs are stored in the memory and configured to be executed by the one or more processors, The one or more programs are configured to perform the method of the first or second aspect above.
  • the present application provides a computer-readable storage medium, where program codes are stored in the computer-readable storage medium, wherein the method of the first aspect or the second aspect is executed when the program code is executed.
  • FIG. 2 shows a schematic diagram of the structure and working principle of the target image processing model provided by the embodiment of the present application.
  • FIG. 3 shows a schematic diagram of the working principle of the multi-scale key point prediction module provided by the embodiment of the present application.
  • FIG. 4 shows a flowchart of the method of step S130 in FIG. 1 .
  • FIG. 5 shows a flowchart of the method of step S130 in FIG. 1 .
  • FIG. 6 shows a schematic diagram of a working principle of a feature fusion processing module provided by an embodiment of the present application.
  • FIG. 7 shows a method flowchart of an image processing method proposed by another embodiment of the present application.
  • FIG. 8 shows a structural block diagram of an image processing apparatus proposed by an embodiment of the present application.
  • FIG. 10 shows a structural block diagram of an electronic device of the present application for executing an image processing method according to an embodiment of the present application.
  • FIG. 11 is a storage unit for storing or carrying a program code for implementing an image processing method according to an embodiment of the present application according to an embodiment of the present application.
  • the inventor proposes a descriptor vector provided by the present application, which can obtain a descriptor vector including both the global feature and local feature of the image based on the target key point obtained by the prediction process, and then obtain the target key point based on the descriptor vector.
  • the reference image for image matching realizes the acquisition of the reference image matching the target image based on the descriptor vector corresponding to the target key points and including the global feature information and local feature information of the target image, so that the semantic information of the image is fully utilized. and detailed information, thereby improving the image processing method, device, electronic device and storage medium for image search accuracy.
  • Each keypoint usually corresponds to a descriptor, usually a 1*d vector, which encodes the image characteristics of the corresponding keypoint position.
  • an embodiment of the present application provides an image processing method, which is applied to an electronic device or server.
  • the electronic device or server is configured with an application program that can perform similar image search by applying the method of the embodiment of the present application.
  • the embodiment introduces the principle of performing similarity graph search on target images, and the method includes:
  • the source of the target image may include a picture input by the user, a picture taken in real time, a screenshot (including a screenshot of a video screen or a screenshot of a text content, etc.), a picture downloaded from the network, a picture cached in a historical search record, or a locally stored picture. pictures, etc.
  • an image search function button can be set on the window interface of the search application program, and when it is detected that the user touches the image search function button, the characteristics of the picture selected by the user can be recognized, for example, the characteristics of the picture can be recognized. sharpness, and set the sharpness threshold.
  • the picture may be identified as the target image.
  • Step S120 Input the target image into a target image processing model, and perform feature extraction on the target image based on the target image processing model to obtain the extracted features.
  • the target image processing model in this embodiment is a model for performing feature analysis and feature processing on the target image.
  • the target image processing model may be a CNN model.
  • FIG. 2 shows a schematic diagram of the structure and working principle of the target image processing model provided by the embodiment of the present application.
  • the target image processing model may include an image feature extraction module, a multi-scale keypoint prediction module, and a feature fusion module.
  • the image feature extraction module is used to extract the features of the target image
  • the image feature extraction module includes a pyramid structure and a Decoder (decoding) structure.
  • the multi-scale keypoint prediction module is used to perform keypoint prediction on the image feature maps of multiple scales encoded by the pyramid structure, thereby outputting a multi-scale keypoint probability map.
  • the feature fusion module is used to perform weighted fusion processing on the features output by the image feature extraction module to obtain weighted dense image features.
  • the target image can be encoded based on the above-mentioned pyramid structure.
  • the input image can be convolutional and pooled by using the pyramid structure, and the image features of the target image can be extracted layer by layer.
  • the scale of the image feature map output by the pyramid structure decreases layer by layer from shallow to deep, that is, multiple image feature maps of different scales are obtained.
  • the feature map with the smallest scale in the image feature maps of multiple scales can be used as a small-scale dense image feature map (as shown in FIG. 2 , feature map 23 can be used as a small-scale dense image feature map).
  • the small-scale dense image feature map finally output by the pyramid structure can be input into the Decoder structure, so that the encoded image features are decoded by the Decoder structure.
  • the Decoder structure can decode image features layer by layer, and output multiple image feature maps with gradually increasing scales.
  • image feature maps of multiple scales can be obtained. In this way, the shallower the dimension of the image feature map, the larger the scale.
  • the feature map with the largest scale in the image feature maps of multiple scales obtained after decoding can be used as the large-scale dense image feature map (as shown in Figure 2, the feature map 24 can be used as the large-scale dense image feature map. ).
  • the image feature map of the same scale and size obtained after encoding by the pyramid structure can be received as the input of the skip connection, so that the semantics and the image features can be enriched. detailed information to improve the accuracy of feature extraction.
  • Step S130 Perform key point prediction processing on the extracted features to obtain target key points, and perform feature fusion processing on the extracted features to obtain dense image features.
  • the multi-scale keypoint prediction module in this embodiment can take image feature maps of different levels as input, wherein each level represents a scale (for the convenience of description, FIG. 2 and FIG. 3 in this embodiment only show 4-scale feature maps), in the multi-scale key point probability map finally output by the multi-scale key point prediction module, each position can represent the probability that the point is a key point.
  • FIG. 3 shows a schematic diagram of the working principle of the multi-scale keypoint prediction module provided by the embodiment of the present application.
  • the multi-scale key point prediction module can perform up-sampling processing on the image feature maps of multiple scales encoded by the pyramid structure to obtain multiple key point probability maps, and then calculate the maximum value of the multiple key point probability maps to obtain a
  • the keypoint probability map representing multi-scale is described as follows.
  • step S130 may include:
  • Step S131 Perform upsampling processing on the image feature maps of multiple scales obtained after the encoding process with corresponding scales, to obtain a plurality of upsampling feature maps corresponding to the image feature maps of multiple scales.
  • the multi-scale key point prediction module can be used to upsample the image feature maps of multiple scales obtained after encoding processing at the corresponding scales, and obtain the same scale.
  • Each of the image feature maps of multiple scales corresponds to multiple up-sampling feature maps.
  • the upsampling times of the image feature maps of the four scales are 8 times, 4 times, 2 times, and 1 times in turn.
  • Step S132 Obtain the probability scores of key points corresponding to each position in the plurality of up-sampling feature maps, respectively, to obtain a plurality of probability maps of key points.
  • the final upsampling feature map can keep the same size (ie scale), for example, as shown in Figure 3, the scale of the four upsampling feature maps can be obtained. It is adjusted to the same scale as the feature map 24 in Figure 2. It should be noted that although the scales of the up-sampled feature maps of different scales are adjusted to be the same, the number of pixels of the up-sampled feature maps of different scales is still different.
  • the keypoint probability map prediction can be performed on multiple upsampling feature maps with the same scale, that is, the keypoint probability scores corresponding to each position in the multiple upsampling feature maps can be obtained separately, and then multiple Keypoint probability map.
  • the probability score threshold can be preset, and the position where the probability score of the key point is greater than the probability score threshold in the up-sampling feature map is selected to form a set of key points, so as to obtain the key points including the respective key points.
  • the key point probability map of the point set that is, to obtain multiple key point probability maps.
  • the up-sampling feature maps of the four scales shown in FIG. 3 can be respectively predicted as key point probability maps, thereby obtaining four key point probability maps.
  • Step S133 Aggregate the multiple key point probability maps to obtain a multi-scale key point probability map.
  • the obtained multiple key point probability maps can be aggregated. Specifically, the maximum value of each position in the key point probability map can be obtained, and the maximum value can be used as the key point probability score of the position. In this way, the key point probability scores corresponding to the maximum values obtained in each key point probability map can be aggregated into a multi-scale key point probability map.
  • Step S134 Obtain target key points from the multi-scale key point probability map.
  • the target key point can be obtained from the obtained multi-scale key point probability map corresponding to the target image. It can be understood that the key point probability score corresponding to the target key point is greater than the specified threshold.
  • the specified threshold may be the same as the above probability score threshold, or may be other values set according to actual needs.
  • the feature fusion module in this embodiment can take the large-scale dense image feature map 24 output by the Decoder structure and the small-scale dense image feature map 23 output by the pyramid structure as input, and then the large-scale dense image feature map. Fusion processing with the small-scale dense image feature map to obtain the dense image feature map, the specific description is as follows:
  • step S130 may further include:
  • Step S135 Perform global pooling on the small-scale dense image feature map to obtain a global feature description vector corresponding to the small-scale dense image feature map.
  • FIG. 6 a schematic diagram of the working principle of the feature fusion processing module provided by the embodiment of the present application is shown.
  • a global pooling process can be performed on the small-scale dense image feature map first to obtain a global feature description vector corresponding to the small-scale dense image feature map, and the global feature description vector is a one-dimensional vector.
  • the dimension of the dense image feature map can be expressed as w*h*d, where w and h represent the length and width of the dense image feature map, respectively, and d represents the dimension of the dense image feature map, that is, the depth .
  • w and h represent the length and width of the dense image feature map, respectively
  • d represents the dimension of the dense image feature map, that is, the depth .
  • G represents the global feature description vector
  • w1 represents the length of the small-scale dense image feature map
  • h1 represents the width of the small-scale dense image feature map
  • (i, j) represents the position coordinates (two-dimensional coordinates of the small-scale dense image feature map)
  • S represents the small-scale dense image feature map
  • S(i, j,:) represents the addition of the position coordinates of the small-scale dense image feature map in the same dimension.
  • Step S136 Obtain the feature weight corresponding to the global feature description vector.
  • a feature weight W can be assigned to the global feature description vector. Different target images may have different feature weights of the corresponding global feature vector.
  • Step S137 fuse the global feature description vector with the dense image features of the large-scale dense image feature map according to the feature weight to obtain dense image features.
  • the target calculation rule may include:
  • LW(i,j,:) represents the weighted dense image feature
  • L (i,j,:) represents the dense image feature of the large-scale dense image feature map
  • W represents the feature weight
  • G represents the global feature description vector
  • the global feature description vector G can be added item by item to the large-scale dense image feature map L in dimension d according to the feature weight W to obtain the weighted dense image feature L W (i,j,:).
  • Step S140 Obtain a descriptor vector corresponding to the target key point from the dense image feature, where the descriptor vector includes global feature information and local feature information of the target image.
  • the dense image features include the global features and local features of the target image, and the positions in the dense image features correspond one-to-one with the positions in the aforementioned multi-scale key point probability map, that is, each position in the multi-scale key point probability map is in There is a d-dimensional descriptor vector in the dense image features, and the descriptor vector represents the feature information of the position point.
  • a descriptor vector corresponding to the target key point can be obtained from the dense image features, so that the descriptor vector includes both global feature information and local feature information of the target image.
  • Step S150 Obtain a reference image matching the target image based on the descriptor vector.
  • the descriptor vector of any image to be matched with the target image (such as similarity comparison) can be obtained, and then a descriptor matching algorithm (such as KNN) can be used.
  • KNN K-Nearest Neighbor, K-Nearest Neighbor Search Algorithm
  • the reference image may be the same or similar image as the target image.
  • An image processing method provided by the present application by acquiring a target image, then inputting the target image into a target image processing model, and then performing feature extraction on the target image based on the target image processing model to obtain the extracted features, and then extracting the features.
  • the global feature information and local feature information of the image make it possible to obtain the descriptor vector including the global feature and local feature of the image based on the target key point, which improves the accuracy of image processing, and then obtains the target image based on the descriptor vector.
  • the matched reference image realizes the acquisition of the reference image matching the target image based on the descriptor vector corresponding to the target key points and including the global feature information and local feature information of the target image, making full use of the semantic information and detailed information, thereby improving the image search accuracy.
  • another embodiment of the present application provides an image processing method, which is applied to an electronic device or server.
  • the electronic device or server is configured with an application program that can perform similar image search by applying the method of the embodiment of the present application.
  • the method includes:
  • Step S210 Acquire the first image and the second image.
  • the first image and the second image are images to be subjected to similarity matching.
  • the first image and the second image may be pictures with the same or similar foreground, and in this manner, the background of the first image and the background of the second image may be the same or different.
  • the first image and the second image may be pictures with the same or similar backgrounds, and in this manner, the foreground of the first image and the foreground of the second image may be the same or different.
  • the first image and the second image may be pictures with the same or similar foreground and background.
  • a database corresponding to various types of photos can be constructed, and when image search (retrieval) is required, the target image used for the search is used as the first image, and the image to be subjected to similarity matching is used as the second image.
  • the second image may be any image in the database, and the number of second images may be one or more.
  • Step S220 Obtain a first descriptor vector corresponding to the first image and obtain a second descriptor vector corresponding to the second image based on the method according to any one of claims 1-5.
  • the descriptor vector constitutes the descriptor set D 1 .
  • the position points whose probability score is greater than the probability score threshold T1 in the multi-scale key point probability map M 2 can be selected to form a key point set K 2 , and the descriptor vector of each key point in K 2 in L w2 is taken to form a key point set K 2 .
  • Descriptor set D 2 Descriptor set D 2 .
  • Step S230 Obtain a matching score between the first image and the second image based on the first descriptor vector and the second descriptor vector.
  • the matching score between the first image and the second image may be obtained by using the descriptor matching algorithm to match the descriptor set D 1 and the descriptor set D 2 .
  • Step S240 If the matching score is greater than a matching score threshold, determine that the first image matches the second image.
  • the matching score between the first image and the second image is greater than or equal to the matching score threshold (the specific value is not limited), then it can be determined that the first image and the second image match, that is, it can be determined that the first image is the same. If the matching score between the two is less than the matching score threshold, it can be determined that the first image and the second image do not match. In this manner, the second image needs to be obtained from the database again, and the above matching process is performed again until the second image matching the first image is queried.
  • the matching score threshold the specific value is not limited
  • multiple threads can be started at the same time to perform image similarity matching, that is, the above matching process can be performed on the first image and multiple different second images at the same time.
  • the second image with the highest matching score is regarded as the image matching the first image.
  • the descriptor vectors including the global features and local features of the image are used to match the similarity of different images, so that the image matching the image to be searched can be searched more accurately.
  • an image processing apparatus 300 provided by an embodiment of the present application runs on an electronic device or a server, and an application program capable of performing similar image search by applying the method of the embodiment of the present application is configured on the electronic device or server.
  • the apparatus 300 includes:
  • the image acquisition module 310 is used for acquiring a target image.
  • the feature extraction module 320 is configured to input the target image into a target image processing model, and perform feature extraction on the target image based on the target image processing model to obtain the extracted features.
  • the feature extraction module 320 is specifically configured to perform encoding processing on the target image based on the target image processing model to obtain image feature maps of multiple scales;
  • the smallest feature map is used as a small-scale dense image feature map;
  • the small-scale dense image feature map is decoded to obtain image feature maps of multiple scales;
  • the image feature maps of multiple scales obtained after decoding are processed with the largest scale.
  • the feature maps of are used as large-scale dense image feature maps.
  • the feature processing module 330 is configured to perform key point prediction processing on the extracted features to obtain target key points, and perform feature fusion processing on the extracted features to obtain dense image features.
  • the feature processing module 330 may be configured to perform up-sampling processing on the image feature maps of multiple scales obtained after the encoding process with corresponding scales, to obtain multiple image feature maps corresponding to the image feature maps of multiple scales.
  • up-sampling feature maps obtain the probability scores of key points corresponding to each position in the multiple up-sampling feature maps, respectively, to obtain multiple key point probability maps; perform aggregation processing on the multiple key point probability maps to obtain A multi-scale key point probability map; obtain a target key point from the multi-scale key point probability map, and the key point probability score corresponding to the target key point is greater than a specified threshold.
  • the feature processing module 330 can be configured to perform global pooling processing on the small-scale dense image feature map to obtain a global feature description vector corresponding to the small-scale dense image feature map;
  • the global feature description vector is fused with the dense image feature of the large-scale dense image feature map according to the feature weight to obtain the dense image feature.
  • the global feature description vector may be added item by item in the same dimension according to the feature weight and the dense image feature of the large-scale dense image feature map based on the target calculation rule, get weighted dense image features;
  • the target calculation rules include:
  • the L W (i,j,:) represents the weighted dense image feature
  • the L(i,j,:) represents the dense image feature of the large-scale dense image feature map
  • the W represents The feature weight
  • the G characterizes the global feature description vector.
  • the parameter obtaining module 340 is configured to obtain a descriptor vector corresponding to the target key point from the dense image feature, where the descriptor vector includes global feature information and local feature information of the target image.
  • the processing module 350 is configured to obtain a reference image matching the target image based on the descriptor vector.
  • an image processing apparatus 400 provided by an embodiment of the present application runs on an electronic device or a server, and the electronic device or server is configured with an application program that can perform similar image search by applying the method of the embodiment of the present application.
  • the apparatus 400 includes:
  • the image acquisition unit 410 is used to acquire the first image and the second image.
  • the first parameter obtaining unit 420 is configured to obtain a first descriptor vector corresponding to the first image based on the method according to any one of claims 1-5, and obtain a second descriptor corresponding to the second image. descriptor vector.
  • the second parameter obtaining unit 430 is configured to obtain a matching score between the first image and the second image based on the first descriptor vector and the second descriptor vector.
  • the processing unit 440 is configured to determine that the first image matches the second image if the matching score is greater than a matching score threshold.
  • the coupling or direct coupling or communication connection between the modules shown or discussed may be through some interfaces, and the indirect coupling or communication connection of devices or modules may be electrical, mechanical or otherwise.
  • each functional module in each embodiment of the present application may be integrated into one processing module, or each module may exist physically alone, or two or more modules may be integrated into one module.
  • the above-mentioned integrated modules can be implemented in the form of hardware, and can also be implemented in the form of software function modules.
  • an embodiment of the present application further provides an electronic device 100 that can execute the above-mentioned image processing method.
  • the electronic device 100 includes a memory 102 and one or more (only one shown in the figure) processors 104 coupled with each other, and a communication line between the memory 102 and the processors 104 is connected.
  • the memory 102 stores programs that can execute the contents of the foregoing embodiments, and the processor 104 can execute the programs stored in the memory 102 .
  • the processor 104 may include one or more processing cores.
  • the processor 104 uses various interfaces and lines to connect various parts of the entire electronic device 100, and executes by running or executing the instructions, programs, code sets or instruction sets stored in the memory 102, and calling the data stored in the memory 102.
  • the processor 104 may adopt at least one of a digital signal processing (Digital Signal Processing, DSP), a Field-Programmable Gate Array (Field-Programmable Gate Array, FPGA), and a Programmable Logic Array (Programmable Logic Array, PLA).
  • DSP Digital Signal Processing
  • FPGA Field-Programmable Gate Array
  • PLA Programmable Logic Array
  • the processor 104 may integrate one or a combination of a central processing unit (Central Processing Unit, CPU), a graphics processing unit (Graphics Processing Unit, GPU), a modem, and the like.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the CPU mainly handles the operating system, user interface and application programs, etc.
  • the GPU is used for rendering and drawing of the display content
  • the modem is used to handle wireless communication. It can be understood that, the above-mentioned modem may not be integrated into the processor 104, and is implemented by a communication chip alone.
  • the memory 102 may include random access memory (Random Access Memory, RAM), or may include read-only memory (Read-Only Memory, ROM). Memory 102 may be used to store instructions, programs, codes, sets of codes, or sets of instructions.
  • the memory 102 may include a stored program area and a stored data area, wherein the stored program area may store instructions for implementing an operating system, instructions for implementing at least one function (such as a touch function, a sound playback function, an image playback function, etc.) , instructions for implementing the foregoing embodiments, and the like.
  • the image processing apparatus may be stored in the memory 102 .
  • the apparatus for image processing may be the aforementioned apparatus 300 or the aforementioned apparatus 400 .
  • the storage data area may also store data (such as phone book, audio and video data, chat record data) created by the electronic device 100 during use.
  • FIG. 11 shows a structural block diagram of a computer-readable storage medium provided by an embodiment of the present application.
  • the computer-readable storage medium 500 stores program codes, and the program codes can be invoked by the processor to execute the methods described in the above method embodiments.
  • the computer-readable storage medium 500 may be an electronic memory such as flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk, or ROM.
  • the computer-readable storage medium 500 includes a non-transitory computer-readable storage medium.
  • Computer readable storage medium 500 has storage space for program code 510 to perform any of the method steps in the above-described methods.
  • the program codes can be read from or written to one or more computer program products.
  • Program code 510 may be compressed, for example, in a suitable form.
  • an image processing method, device, electronic device and storage medium acquire a target image, then input the target image into a target image processing model, and then perform feature extraction on the target image based on the target image processing model. , obtain the extracted features, and then perform key point prediction processing on the extracted features to obtain target key points, and perform feature fusion processing on the extracted features to obtain dense image features;
  • the descriptor vector corresponding to the point, the descriptor vector includes the global feature information and local feature information of the target image, so that the descriptor vector including the global feature and local feature of the image can be obtained based on the target key point, which improves image processing.
  • the reference image matching the target image is obtained based on the descriptor vector, which realizes the matching of the target image based on the descriptor vector corresponding to the target key point and including the global feature information and local feature information of the target image.
  • the reference image of the image makes full use of the semantic information and detail information of the image, thereby improving the image search accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种图像处理方法、装置、电子设备以及存储介质。所述方法包括:获取目标图像;将目标图像输入目标图像处理模型,基于目标图像处理模型对目标图像进行特征提取,得到提取到的特征;对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;从密集图像特征中获取与目标关键点对应的描述子向量;基于描述子向量获取与目标图像匹配的参考图像。通过该方法实现了基于与目标关键点对应的、并且包括有目标图像的全局特征信息以及局部特征信息的描述子向量获取与目标图像匹配的参考图像,使得充分利用了图像的语义信息和细节信息,进而提升了图像搜索精度。

Description

图像处理方法、装置、电子设备以及存储介质
相关申请的交叉引用
本申请要求于2020年11月26日提交的申请号为202011356017.2的中国申请的优先权,其在此出于所有目的通过引用将其全部内容并入本文。
技术领域
本申请涉及图像处理技术领域,更具体地,涉及一种图像处理方法、装置、电子设备以及存储介质。
背景技术
相似图搜索指的是从海量的图像中自动识别出相似或相同的图像,近年来,随着图像处理技术的发展,相似图搜索技术已被广泛应用于行人重识别、车辆识别、网站的图像搜索以及电子商务的商品检索等领域。
发明内容
鉴于上述问题,本申请提出了一种图像处理方法、装置、电子设备以及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种图像处理方法,所述方法包括:获取目标图像;将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征;对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及 局部特征信息;基于所述描述子向量获取与所述目标图像匹配的参考图像。
第二方面,本申请实施例提供了一种图像处理方法,所述方法包括:获取第一图像以及第二图像;基于上述第一方面所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量;基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数;若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
第三方面,本申请实施例提供了一种图像处理装置,所述装置包括:图像获取模块,用于获取目标图像;特征提取模块,用于将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征;特征处理模块,用于对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;参数获取模块,用于从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及局部特征信息;处理模块,用于基于所述描述子向量获取与所述目标图像匹配的参考图像。
第四方面,本申请实施例提供了一种图像处理装置,所述装置包括:图像获取单元,用于获取第一图像以及第二图像;第一参数获取单元,用于基于上述第一方面所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量;第二参数获取单元,用于基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数;处理单元,用于若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
第五方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面或第二方面的方法。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述第一方面或第二方面的方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提出的一种图像处理方法的方法流程图。
图2示出了本申请实施例提供的目标图像处理模型的结构以及工作原理示意图。
图3示出了本申请实施例提供的多尺度关键点预测模块的工作原理示意图。
图4示出了图1中的步骤S130的方法流程图。
图5示出了图1中的步骤S130的方法流程图。
图6示出了本申请实施例提供的特征融合处理模块的工作原理示意图。
图7示出了本申请另一实施例提出的一种图像处理方法的方法流程图。
图8示出了本申请一实施例提出的一种图像处理装置的结构框图。
图9示出了本申请另一实施例提出的一种图像处理装置的结构框图。
图10示出了本申请的用于执行根据本申请实施例的一种图像处理方法的电子设备的结构框图。
图11是本申请实施例的用于保存或者携带实现根据本申请实施例的一种图像处理方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着图像处理的软件性能的提升,图像检索(搜索)技术已被广泛应用于行人重识别、车辆识别、网站的图像搜索以及电子商务的商品检索等领域。在相关的图像检索方式中,可以利用CNN(Convolutional Neural Network,卷积神经网络)网络提取的图像全局特征来进行图像的匹配检索,或者可以通过侦测与描述图像中的局部性特征(例如SIFT(Scale-invariant feature transform,尺度不变特征变换)特征)来进行图像的检索匹配。
然而发明人在研究中发现,在进行相似图像的搜索过程中,如果仅考虑图像全局特征而忽略图像局部特征,会容易导致搜索结果陷入全局相似,如都是户外建筑的图像,全局相似无法区分出建筑外观之间的具体差别。而如果仅考虑图像局部特征而忽略图像全局特征,会容易导致搜索结果陷入局部相似,如树叶在局部特征上都较为相似,但局部相似却无法区分出树和森林之间的差别。并且,无论是局部特征还是全局特征,当图像或者图像中的主要关注目标处于不同尺度大小时,现有的图像搜索方法的搜索结果的准确性都有待提升。
因此,为了改善上述问题,发明人提出了本申请提供的可以使得基于预测处理得到的目标关键点,获取同时包括了图像的全局特征以及局部特征的描述子向量,然后基于描述子向量获取与目标图像匹配的参考图像,实现了基于与目标关键点对应的、并且包括有目标图像的全局特征信息以及局部特征信息的描述子向量获取与目标图像匹配的参考图像,使得充分利用了图像的语义信息和细节信息,进而提升了图像搜索精度的图像处理方法、装置、电子设备及存储介质。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
将图像中满足如下条件的点称之为关键点:可以代表图像中的某些显著特性,如边缘点、交点、角点等。每个关键点通常对应有一个描述子,通常为一个1*d的向量,编码了对应关键点位置的图像特性。
下面将结合附图具体描述本申请的各实施例。
请参阅图1,本申请一实施例提供一种图像处理方法,应用于电子设备或服务器,所述电子设备或服务器上配置有可应用本申请实施例的方法进行相似图搜索的应用程序,本实施例对目标图像进行相似图搜索的原理进行介绍,所述方法包括:
步骤S110:获取目标图像。
可选的,该目标图像表征待进行相似或相同图像搜索的图像。目标图像的类型可以为多种,例如,可以为人物图像、风景图片或者是美食图片等。可选的,在一些可能的实施方式中,目标图像也可以为视频,且视频的题材类型可以不做限定,目标图像为视频的处理过程与目标图像为图片的处理过程相似,本实施例以目标图像为图片作为示例进行说明。可选的,目标图像的来源可以包括用户输入的图片、(实时)拍摄的图片、截图(包括视频画面截图或文本内容截图等)、网络下载图片、历史搜索记录中缓存的图片或者是本地存储的图片等。
作为一种方式,可以在接收到搜索指令时,响应搜索指令而获取目标图像。例如,当服务器接收到用户通过终端设备发送的搜索指令时,可以响应搜索指令开始获取目标图像。
作为另一种方式,可以在检测到搜索类应用程序处于开启状态时,获取目标图像。其中,可以监听搜索类应用程序的运行状态,并以特殊标识记录其运行状态。例如,可以将搜索类应用程序处于开启状态标识为“1”,而将搜索类应用程序处于关闭状态标识为“0”。在这种方式下,若识别到搜索类应用程序的运行状态标识为“1”时,可以开始获取目标图像。
在一种实施方式中,可以在搜索类应用程序的窗口界面设置图像搜索功能按钮,当检测到用户触控该图像搜索功能按钮时,可以开始识别用户选择的图片的特征,例如可以识别图片的清晰度,并设定清晰度阈值。可选的,为了确保搜索的有效性与准确性,可以在图片的清晰度大于清晰度阈值时,将该图片识别为目标图像。
在另一种实施方式中,本实施例中的目标图像可以包括多张(例如两张、三张、五张或八张等,具体数值可以不受限定)图片。若用户选择的图片为多张时,可以将多张图片按照选择顺序依次排序,得到目标图像集合。在该种方式下,在后续的搜索过程中,将按照多张图片之间的排列顺序依次进行如本实施例中的方法所提供的搜索过程,从而可以根据用户的搜索需求顺次进行搜索。可选的,也可以将多张图片按照像素的大小进行由小到大的排序,得到目标图像集合,通过将多张图片按照其各自的像素大小进行由小到大的顺序排序,可以加快前期的搜索速度,从而快速的完成对目标图像集合中的多张图片的搜索。
步骤S120:将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征。
本实施例中的目标图像处理模型为对目标图像进行特征分析以及特征处理的模型,可选的,目标图像处理模型可以为CNN模型。请参阅图2,示出了本申请实施例提供的 目标图像处理模型的结构以及工作原理示意图。如图2所示,目标图像处理模型可以包括图像特征提取模块,多尺度关键点预测模块以及特征融合模块。其中,图像特征提取模块用于提取目标图像的特征,图像特征提取模块包括金字塔结构以及Decoder(解码)结构。多尺度关键点预测模块用于对由金字塔结构编码得到的多个尺度的图像特征图进行关键点预测,从而输出多尺度关键点概率图。特征融合模块用于对图像特征提取模块输出的特征进行加权融合处理,得到加权密集图像特征。
作为一种方式,可以基于上述金字塔结构对目标图像进行编码处理,具体的,可以采用金字塔结构对输入的图像进行卷积处理以及池化处理,逐层提取目标图像的图像特征。金字塔结构输出的图像特征图的尺度由浅至深逐层递减,即得到多个不同尺度的图像特征图。在这种方式下,图像特征图的维度越浅尺度越大,所对应特征图的感受野越小,维度越深尺度越小,所对应特征图的感受野越大。可选的,可以将多个尺度的图像特征图中尺度最小的特征图作为小尺度密集图像特征图(如图2所示,可以将特征图23作为小尺度密集图像特征图)。
可以将金字塔结构最终输出的小尺度密集图像特征图输入Decoder结构,使得采用Decoder结构对编码后的图像特征进行解码。Decoder结构可以逐层解码图像特征,输出尺度逐渐增大的多个图像特征图。通过采用Decoder结构对小尺度密集图像特征图进行逐层解码处理,可以得到多个尺度的图像特征图,在这种方式下,图像特征图的维度越浅尺度越大。可选的,可以将解码处理后得到的多个尺度的图像特征图中尺度最大的特征图作为大尺度密集图像特征图(如图2所示,可以将特征图24作为大尺度密集图像特征图)。
可选的,在通过Decoder结构对小尺度密集图像特征图进行解码处理时,可以接收由金字塔结构编码后得到的同样尺度大小的图像特征图作为跳跃连接的输入,使得可以丰富图像特征的语义和细节信息,从而提升特征提取的精度。
步骤S130:对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征。
本实施例中的多尺度关键点预测模块可以以不同层级的图像特征图作为输入,其中,每一个层级表征一个尺度(为了便于说明,本实施例中的图2、以及图3仅画出了4个尺度的特征图进行说明),在多尺度关键点预测模块最终输出的多尺度关键点概率图中,每个位置可以表示该点为关键点的概率。
请参阅图3,示出了本申请实施例提供的多尺度关键点预测模块的工作原理示意图。多尺度关键点预测模块可以对由金字塔结构编码得到的多个尺度的图像特征图进行上采样 处理,得到多个关键点概率图,再分别对多个关键点概率图求最大值,从而得到一个表征多尺度的关键点概率图,具体处理过程描述如下。
请参阅图4,作为一种方式,步骤S130可以包括:
步骤S131:分别对所述编码处理后得到的多个尺度的图像特征图以对应的尺度进行上采样处理,得到与多个尺度的图像特征图各自对应的多个上采样特征图。
以图3所示的4个尺度不同的图像特征图为例,可以采用多尺度关键点预测模块分别对编码处理后得到的多个尺度的图像特征图以对应的尺度进行上采样处理,得到与多个尺度的图像特征图各自对应的多个上采样特征图。其中,尺度越大对应的上采样倍数越小,尺度越小对应的上采样倍数越大,如图3所示,随着维度的由深至浅(如图3中箭头所示的方向),4个尺度的图像特征图的上采样倍数依次为8倍、4倍、2倍、1倍。
步骤S132:分别获取所述多个上采样特征图中的每个位置对应的关键点概率分数,得到多个关键点概率图。
可选的,为了便于准确预测关键点的位置,最终得到的上采样特征图可以保持相同的大小(即尺度),例如,如图3所示,可以将得到的4个上采样特征图的尺度调整为与图2中的特征图24相同的尺度,需要说明的是,虽然将不同尺度的上采样特征图的尺度调整为相同,但不同尺度的上采样特征图的像素数量依然是不同的。
在这种方式下,可以对尺度相同的多个上采样特征图分别进行关键点概率图预测,即分别获取多个上采样特征图中的每个位置对应的关键点概率分数,继而得到多个关键点概率图。其中,在获取关键点概率分数的过程中,可以预先设定概率分数阈值,选取上采样特征图中关键点概率分数大于概率分数阈值的的位置,构成关键点集合,从而得到分别包括各自的关键点集合的关键点概率图,即得到多个关键点概率图。例如,可以将图3中所示的4种尺度的上采样特征图分别进行关键点概率图预测,从而得到4张关键点概率图。
步骤S133:对所述多个关键点概率图进行聚合处理,得到多尺度关键点概率图。
作为一种方式,可以对得到的多个关键点概率图进行聚合处理,具体的,可以求关键点概率图中的每个位置的最大值,将该最大值作为该位置的关键点概率得分,在这种方式下,可以将各个关键点概率图中所求得的最大值所对应的关键点概率得分聚合为一张多尺度关键点概率图。
步骤S134:从所述多尺度关键点概率图中获取目标关键点。
可选的,在对目标图像的特征进行提取后,可以从获得的与目标图像对应的多尺度关键点概率图中获取目标关键点,可以理解的是,该目标关键点对应的关键点概率分数大于指定 阈值。在一些实施方式中,指定阈值可以与上述的概率分数阈值相同,或者也可以为其他根据实际需要设定的数值。通过对不同尺度的图像特征图进行关键点预测,可以实现自适应搜索图像中不同尺度的搜索目标,提升搜索精度。
如图2所示,本实施例中的特征融合模块可以以Decoder结构输出的大尺度密集图像特征图24和金字塔结构输出的小尺度密集图像特征图23作为输入,进而对大尺度密集图像特征图与小尺度密集图像特征图进行融合处理,得到密集图像特征图,具体描述如下:
请参阅图5,步骤S130还可以包括:
步骤S135:对所述小尺度密集图像特征图进行全局池化处理,得到与所述小尺度密集图像特征图对应的全局特征描述向量。
请参阅图6,示出了本申请实施例提供的特征融合处理模块的工作原理示意图。如图6所示,可以先对小尺度密集图像特征图进行全局池化处理,得到与小尺度密集图像特征图对应的全局特征描述向量,该全局特征描述向量为一维向量。
在一种实施方式中,密集图像特征图的维度可以表示为w*h*d,其中,w和h分别表示密集图像特征图的长度和宽度,d表示密集图像特征图的维度,也即深度。假设小尺度密集图像特征图(用S表示)的维度为w1*h1*d1,大尺度密集图像特征图(用L表示)的维度为w2*h2*d2,通过对小尺度密集图像特征图S进行全局池化处理,可以得到一个深度(即维度)为d的全局特征描述向量G,其中,全局池化处理的公式可以表示如下:
Figure PCTCN2021122899-appb-000001
其中,G表征全局特征描述向量,w1表征小尺度密集图像特征图的长度,h1表征小尺度密集图像特征图的宽度,(i,j)表征小尺度密集图像特征图的位置坐标(二维坐标),,S表征小尺度密集图像特征图,S(i,j,:)表征对小尺度密集图像特征图的位置坐标在同一维度上相加。
步骤S136:获取与所述全局特征描述向量对应的特征权重。
作为一种方式,可以赋予全局特征描述向量特征权重W,目标图像不同,所对应的全局特征向量的特征权重可以不同。
步骤S137:将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征进行融合处理,得到密集图像特征。
作为一种方式,可以基于目标计算规则,将如图6所示的全局特征描述向量按照特征权重与大尺度密集图像特征图的密集图像特征在同一维度上逐项相加,得到加权的密集 图像特征。该目标计算规则可以包括:
L W(i,j,:)=L(i,j,:)+W*G;
其中,L W(i,j,:)表征加权的密集图像特征,L(i,j,:)表征大尺度密集图像特征图的密集图像特征,W表征特征权重,G表征全局特征描述向量。
在一种具体的实施方式中,以上述示例为例,可以将全局特征描述向量G按照特征权重W与大尺度密集图像特征图L在维度d上逐项相加,得到加权的密集图像特征L W(i,j,:)。
步骤S140:从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及局部特征信息。
其中,密集图像特征包括目标图像的全局特征与局部特征,密集图像特征中的位置与前述的多尺度关键点概率图中的位置一一对应,即多尺度关键点概率图中的每个位置在密集图像特征中均有一个d维度的描述子向量,该描述子向量表征该位置点的特征信息。作为一种方式,可以从密集图像特征中获取与目标关键点对应的描述子向量,使得该描述子向量同时包括有目标图像的全局特征信息以及局部特征信息。
步骤S150:基于所述描述子向量获取与所述目标图像匹配的参考图像。
可选的,在获取了与目标图像对应的描述子向量后,可以获取任意待与目标图像进行匹配(例如相似度比对)的图像的描述子向量,继而可以采用描述子匹配算法(例如KNN(K-Nearest Neighbor,K近邻搜索算法))匹配目标图像与待匹配图像各自对应的描述子向量,从而计算不同图像之间的相似度,进而可以实现基于描述子向量获取与目标图像匹配的参考图像。可选的,参考图像可以是与目标图像相同或者相似的图像。
本申请提供的一种图像处理方法,通过获取目标图像,继而将目标图像输入目标图像处理模型,再基于目标图像处理模型对目标图像进行特征提取,得到提取到的特征,再对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;再从密集图像特征中获取与目标关键点对应的描述子向量,描述子向量包括有目标图像的全局特征信息以及局部特征信息,使得可以基于该目标关键点获取同时包括了图像的全局特征以及局部特征的描述子向量,提升了图像处理的准确度,然后基于描述子向量获取与目标图像匹配的参考图像,实现了基于与目标关键点对应的、并且包括有目标图像的全局特征信息以及局部特征信息的描述子向量获取与目标图像匹配的参考图像,使得充分利用了图像的语义信息和细节信息,进而提升了图像搜索精度。
请参阅图7,本申请另一实施例提供一种图像处理方法,应用于电子设备或服务器,所 述电子设备或服务器上配置有可应用本申请实施例的方法进行相似图搜索的应用程序,所述方法包括:
步骤S210:获取第一图像以及第二图像。
其中,第一图像与第二图像为待进行相似度匹配的图像。第一图像与第二图像可以为前景相同或类似的图片,在这种方式下,第一图像的背景与第二图像的背景可以相同或者不同。类似的,第一图像与第二图像可以为背景相同或相似的图片,在这种方式下,第一图像的前景与第二图像的前景可以相同或者不同。或者第一图像与第二图像可以为前景与背景均相同或者相似的图片。
可选的,可以构建与各种类型的照片对应的数据库,在需要进行图像搜索(检索)时,将用于搜索的目标图像作为第一图像,将待进行相似度匹配的图像作为第二图像,第二图像可以是数据库中的任意图像,第二图像的数量可以为一张或者多张。关于在什么时机下获取第一图像以及第二图像可以参照前述实施例中步骤S110的描述,在此不再赘述。
步骤S220:基于如权利要求1-5任一项所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量。
在一种具体的实施方式中,假设第一图像表示为I1,第二图像表示为I2,通过分别将第一图像I1以及第二图像I2输入前述的目标图像处理模型,可以得到与第一图像对应的多尺度关键点概率图M 1和加权密集图像特征L w1,以及与第二图像对应的多尺度关键点概率图M 2和加权密集图像特征L w2。可以设定概率分数阈值为T1,选取多尺度关键点概率图M 1中概率分数大于概率分数阈值T1的位置点,构成关键点集合K 1,取K 1中每个关键点在L w1中的描述子向量,构成描述子集合D 1。类似的,可以选取多尺度关键点概率图M 2中概率分数大于概率分数阈值T1的位置点,构成关键点集合K 2,取K 2中每个关键点在L w2中的描述子向量,构成描述子集合D 2
步骤S230:基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数。
在上述示例中,可以采用描述子匹配算法将描述子集合D 1与描述子集合D 2进行匹配的方式,获取第一图像与第二图像的匹配分数。
步骤S240:若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
可选的,若第一图像与第二图像之间的匹配分数大于或者等于匹配分数阈值(具体数值 不作限定),那么可以判定第一图像与第二图像匹配,即可以判定第一图像为相同的图像或者相似的图像;而若二者之间的匹配分数小于匹配分数阈值,那么可以判定第一图像与第二图像不匹配。在这种方式下,需要重新从数据库中获取第二图像,再进行上述匹配过程,直至查询到与第一图像匹配的第二图像。
可选的,为了便于加快搜索速度,可以同时开启多个线程进行图像相似度匹配,即可以同时将第一图像与多张不同的第二图像执行上述匹配过程,在这种方式下,可以将查询到的多个搜索结果图像中,匹配分数最高的第二图像作为与第一图像匹配的图像。
本申请实施例提供的一种图像处理方法,通过基于前述实施例中的方法分别获取与第一图像对应的第一描述子向量,以及与第二图像对应的第二描述子向量,可以使得通过包括了图像的全局特征以及局部特征的描述子向量对不同图像的相似性进行匹配,从而可以更加精准的搜索与待搜索图像匹配的图像。
请参阅图8,本申请实施例提供的一种图像处理装置300,运行于电子设备或服务器,所述电子设备或服务器上配置有可应用本申请实施例的方法进行相似图搜索的应用程序,所述装置300包括:
图像获取模块310,用于获取目标图像。
特征提取模块320,用于将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征。
作为一种方式,特征提取模块320,具体用于基于所述目标图像处理模型对所述目标图像进行编码处理,得到多个尺度的图像特征图;将所述多个尺度的图像特征图中尺度最小的特征图作为小尺度密集图像特征图;对所述小尺度密集图像特征图进行解码处理,得到多个尺度的图像特征图;将解码处理后得到的多个尺度的图像特征图中尺度最大的特征图作为大尺度密集图像特征图。
特征处理模块330,用于对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征。
可选的,特征处理模块330,可以用于分别对所述编码处理后得到的多个尺度的图像特征图以对应的尺度进行上采样处理,得到与多个尺度的图像特征图各自对应的多个上采样特征图;分别获取所述多个上采样特征图中的每个位置对应的关键点概率分数,得到多个关键点概率图;对所述多个关键点概率图进行聚合处理,得到多尺度关键点概率图;从所述多尺度关键点概率图中获取目标关键点,所述目标关键点对应的关键点概率分数大于指定阈值。
可选的,特征处理模块330,可以用于对所述小尺度密集图像特征图进行全局池化处理,得到与所述小尺度密集图像特征图对应的全局特征描述向量;获取与所述全局特征描述向量 对应的特征权重;将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征进行融合处理,得到密集图像特征。其中,在一种具体的实施方式中,可以基于目标计算规则将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征在同一维度上逐项相加,得到加权的密集图像特征;
所述目标计算规则包括:
L W(i,j,:)=L(i,j,:)+W*G;
其中,所述L W(i,j,:)表征所述加权的密集图像特征,所述L(i,j,:)表征所述大尺度密集图像特征图的密集图像特征,所述W表征所述特征权重,所述G表征所述全局特征描述向量。
参数获取模块340,用于从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及局部特征信息。
处理模块350,用于基于所述描述子向量获取与所述目标图像匹配的参考图像。
请参阅图9,本申请实施例提供的一种图像处理装置400,运行于电子设备或服务器,所述电子设备或服务器上配置有可应用本申请实施例的方法进行相似图搜索的应用程序,所述装置400包括:
图像获取单元410,用于获取第一图像以及第二图像。
第一参数获取单元420,用于基于如权利要求1-5任一项所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量。
第二参数获取单元430,用于基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数。
处理单元440,用于若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图10,基于上述的图像处理方法及装置,本申请实施例还提供了一种可以执行前述图像处理方法的电子设备100。电子设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104,存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序,而处理器104可以执行存储器102中存储的程序。
其中,处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器102内的指令、程序、代码集或指令集,以及调用存储在存储器102内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器104可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器104中,单独通过一块通信芯片进行实现。
存储器102可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。例如,存储器102中可以存储有图像处理的装置。其中,该图像处理的装置可以为前述的装置300或前述的装置400。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图11,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质500包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。
综上所述,本申请提供的一种图像处理方法、装置、电子设备以及存储介质,通过获取 目标图像,继而将目标图像输入目标图像处理模型,再基于目标图像处理模型对目标图像进行特征提取,得到提取到的特征,再对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;再从密集图像特征中获取与目标关键点对应的描述子向量,描述子向量包括有目标图像的全局特征信息以及局部特征信息,使得可以基于该目标关键点获取同时包括了图像的全局特征以及局部特征的描述子向量,提升了图像处理的准确度,然后基于描述子向量获取与目标图像匹配的参考图像,实现了基于与目标关键点对应的、并且包括有目标图像的全局特征信息以及局部特征信息的描述子向量获取与目标图像匹配的参考图像,使得充分利用了图像的语义信息和细节信息,进而提升了图像搜索精度。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种图像处理方法,其特征在于,所述方法包括:
    获取目标图像;
    将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征;
    对所提取的特征进行关键点预测处理,得到目标关键点,以及对所提取的特征进行特征融合处理,得到密集图像特征;
    从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及局部特征信息;
    基于所述描述子向量获取与所述目标图像匹配的参考图像。
  2. 根据权利要求1所述的方法,其特征在于,所述基于所述目标图像处理模型对所述目标图像进行特征提取,包括:
    基于所述目标图像处理模型对所述目标图像进行编码处理,得到多个尺度的图像特征图;
    将所述多个尺度的图像特征图中尺度最小的特征图作为小尺度密集图像特征图;
    对所述小尺度密集图像特征图进行解码处理,得到多个尺度的图像特征图;
    将解码处理后得到的多个尺度的图像特征图中尺度最大的特征图作为大尺度密集图像特征图。
  3. 根据权利要求2所述的方法,其特征在于,所述目标图像处理模型包括图像特征提取模块,所述图像特征提取模块包括金字塔结构;所述基于所述目标图像处理模型对所述目标图像进行编码处理,得到多个尺度的图像特征图,包括:
    通过所述金字塔结构对输入的目标图像进行编码处理,得到多个尺度的图像特征图,其中,图像特征图的维度越浅尺度越大,所对应特征图的感受野越小,维度越深尺度越小,所对应特征图的感受野越大。
  4. 根据权利要求2或3所述的方法,其特征在于,所述图像特征提取模块还包括解码结构;所述对所述小尺度密集图像特征图进行解码处理,得到多个尺度的图像特征图,包括:
    通过所述解码结构对所述小尺度密集图像特征图进行解码处理,得到多个尺度的图像特征图,其中,图像特征图的维度越浅尺度越大。
  5. 根据权利要求2所述的方法,其特征在于,所述对所提取的特征进行关键点预测 处理,得到目标关键点,包括:
    分别对所述编码处理后得到的多个尺度的图像特征图以对应的尺度进行上采样处理,得到与多个尺度的图像特征图各自对应的多个上采样特征图;
    分别获取所述多个上采样特征图中的每个位置对应的关键点概率分数,得到多个关键点概率图;
    对所述多个关键点概率图进行聚合处理,得到多尺度关键点概率图;
    从所述多尺度关键点概率图中获取目标关键点,所述目标关键点对应的关键点概率分数大于指定阈值。
  6. 根据权利要求5所述的方法,其特征在于,所述分别获取所述多个上采样特征图中的每个位置对应的关键点概率分数,得到多个关键点概率图,包括:
    分别获取所述多个上采样特征图中的每个位置的关键点概率分数;
    选取每个上采样特征图中关键点概率分数大于概率分数阈值的位置,构成每个上采样特征图对应的关键点集合,以得到多个分别包括各自的关键点集合的关键点概率图。
  7. 根据权利要求5所述的方法,其特征在于,所述对所述多个关键点概率图进行聚合处理,得到多尺度关键点概率图,包括:
    对所述多个关键点概率图中每个关键点概率图中所求的最大值所对应的关键点概率得分进行聚合处理,得到多尺度关键点概率图。
  8. 根据权利要求2所述的方法,其特征在于,所述对所提取的特征进行特征融合处理,得到密集图像特征,包括:
    对所述小尺度密集图像特征图进行全局池化处理,得到与所述小尺度密集图像特征图对应的全局特征描述向量;
    获取与所述全局特征描述向量对应的特征权重;
    将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征进行融合处理,得到密集图像特征。
  9. 根据权利要求8所述的方法,其特征在于,所述将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征进行融合处理,得到密集图像特征,包括:
    基于目标计算规则将所述全局特征描述向量按照所述特征权重与所述大尺度密集图像特征图的密集图像特征在同一维度上逐项相加,得到加权的密集图像特征;
    所述目标计算规则包括:
    L W(i,j,:)=L(i,j,:)+W*G;
    其中,所述L W(i,j,:)表征所述加权的密集图像特征,所述L(i,j,:)表征所述大尺度密集图像特征图的密集图像特征,所述W表征所述特征权重,所述G表征所述全局特征描述向量。
  10. 根据权利要求1-9任一所述的方法,其特征在于,所述获取目标图像,包括:
    接收搜索指令,响应于所述搜索指令获取目标图像。
  11. 根据权利要求1-9任一所述的方法,其特征在于,所述获取目标图像,包括:
    当检测到搜索类应用程序处于开启状态时,获取目标图像。
  12. 一种图像处理方法,其特征在于,所述方法包括:
    获取第一图像以及第二图像;
    基于如权利要求1-11任一项所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量;
    基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数;
    若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
  13. 根据权利要求12所述的方法,其特征在于,基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数之后还包括:
    若所述匹配分数小于所述匹配分数阈值,判定所述第一图像与所述第二图像不匹配,重新获取新的第二图像,执行所述获取与所述第二图像对应的第二描述子向量。
  14. 根据权利要求12或13所述的方法,其特征在于,所述第一图像与所述第二图像为前景相同或类似的图片。
  15. 根据权利要求12或13所述的方法,其特征在于,所述第一图像与所述第二图像为背景相同或类似的图片。
  16. 根据权利要求12或13所述的方法,其特征在于,所述第一图像与所述第二图像为背景与背景均相同或类似的图片。
  17. 一种图像处理装置,其特征在于,所述装置包括:
    图像获取模块,用于获取目标图像;
    特征提取模块,用于将所述目标图像输入目标图像处理模型,基于所述目标图像处理模型对所述目标图像进行特征提取,得到提取到的特征;
    特征处理模块,用于对所提取的特征进行关键点预测处理,得到目标关键点,以及 对所提取的特征进行特征融合处理,得到密集图像特征;
    参数获取模块,用于从所述密集图像特征中获取与所述目标关键点对应的描述子向量,所述描述子向量包括有所述目标图像的全局特征信息以及局部特征信息;
    处理模块,用于基于所述描述子向量获取与所述目标图像匹配的参考图像。
  18. 一种图像处理装置,其特征在于,所述装置包括:
    图像获取单元,用于获取第一图像以及第二图像;
    第一参数获取单元,用于基于如权利要求1-5任一项所述的方法获取与所述第一图像对应的第一描述子向量,以及获取与所述第二图像对应的第二描述子向量;
    第二参数获取单元,用于基于所述第一描述子向量以及所述第二描述子向量获取所述第一图像与所述第二图像的匹配分数;
    处理单元,用于若所述匹配分数大于匹配分数阈值,判定所述第一图像与所述第二图像匹配。
  19. 一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
    一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-11或12-16任一所述的方法。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-11或12-16任一所述的方法。
PCT/CN2021/122899 2020-11-26 2021-10-09 图像处理方法、装置、电子设备以及存储介质 WO2022111069A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011356017.2A CN112329888B (zh) 2020-11-26 2020-11-26 图像处理方法、装置、电子设备以及存储介质
CN202011356017.2 2020-11-26

Publications (1)

Publication Number Publication Date
WO2022111069A1 true WO2022111069A1 (zh) 2022-06-02

Family

ID=74308076

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/122899 WO2022111069A1 (zh) 2020-11-26 2021-10-09 图像处理方法、装置、电子设备以及存储介质

Country Status (2)

Country Link
CN (1) CN112329888B (zh)
WO (1) WO2022111069A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631330A (zh) * 2022-12-20 2023-01-20 浙江太美医疗科技股份有限公司 特征提取方法、模型训练方法、图像识别方法及应用
CN116150417A (zh) * 2023-04-19 2023-05-23 上海维智卓新信息科技有限公司 一种多尺度多融合的图像检索方法及装置
CN116796021A (zh) * 2023-08-28 2023-09-22 上海任意门科技有限公司 图像检索方法、***、电子设备和介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329888B (zh) * 2020-11-26 2023-11-14 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质
CN112990228B (zh) * 2021-03-05 2024-03-29 浙江商汤科技开发有限公司 图像特征匹配方法和相关装置、设备及存储介质
CN113537350B (zh) * 2021-07-16 2023-12-22 商汤集团有限公司 图像处理方法及装置、电子设备和存储介质
CN113554615B (zh) * 2021-07-21 2023-08-22 网易(杭州)网络有限公司 一种图像精细化处理方法、装置、电子设备及存储介质
CN113778591B (zh) * 2021-08-23 2023-09-19 ***股份有限公司 获取展示卡面的方法、装置、服务器及存储介质
CN115455227B (zh) * 2022-09-20 2023-07-18 上海弘玑信息技术有限公司 图形界面的元素搜索方法及电子设备、存储介质
CN115375976B (zh) * 2022-10-25 2023-02-10 杭州华橙软件技术有限公司 图像处理模型训练方法、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN110781911A (zh) * 2019-08-15 2020-02-11 腾讯科技(深圳)有限公司 一种图像匹配方法、装置、设备及存储介质
US20200242153A1 (en) * 2019-01-29 2020-07-30 Samsung Electronics Co., Ltd. Method, apparatus, electronic device and computer readable storage medium for image searching
US20200250462A1 (en) * 2018-11-16 2020-08-06 Beijing Sensetime Technology Development Co., Ltd. Key point detection method and apparatus, and storage medium
CN111930983A (zh) * 2020-08-18 2020-11-13 创新奇智(成都)科技有限公司 一种图像检索方法、装置、电子设备及存储介质
CN112329888A (zh) * 2020-11-26 2021-02-05 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250462A1 (en) * 2018-11-16 2020-08-06 Beijing Sensetime Technology Development Co., Ltd. Key point detection method and apparatus, and storage medium
US20200242153A1 (en) * 2019-01-29 2020-07-30 Samsung Electronics Co., Ltd. Method, apparatus, electronic device and computer readable storage medium for image searching
CN110781911A (zh) * 2019-08-15 2020-02-11 腾讯科技(深圳)有限公司 一种图像匹配方法、装置、设备及存储介质
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN111930983A (zh) * 2020-08-18 2020-11-13 创新奇智(成都)科技有限公司 一种图像检索方法、装置、电子设备及存储介质
CN112329888A (zh) * 2020-11-26 2021-02-05 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631330A (zh) * 2022-12-20 2023-01-20 浙江太美医疗科技股份有限公司 特征提取方法、模型训练方法、图像识别方法及应用
CN116150417A (zh) * 2023-04-19 2023-05-23 上海维智卓新信息科技有限公司 一种多尺度多融合的图像检索方法及装置
CN116150417B (zh) * 2023-04-19 2023-08-04 上海维智卓新信息科技有限公司 一种多尺度多融合的图像检索方法及装置
CN116796021A (zh) * 2023-08-28 2023-09-22 上海任意门科技有限公司 图像检索方法、***、电子设备和介质
CN116796021B (zh) * 2023-08-28 2023-12-05 上海任意门科技有限公司 图像检索方法、***、电子设备和介质

Also Published As

Publication number Publication date
CN112329888B (zh) 2023-11-14
CN112329888A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
WO2022111069A1 (zh) 图像处理方法、装置、电子设备以及存储介质
US10885100B2 (en) Thumbnail-based image sharing method and terminal
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
US11586664B2 (en) Image retrieval method and apparatus, and electronic device
US10949702B2 (en) System and a method for semantic level image retrieval
US8594385B2 (en) Predicting the aesthetic value of an image
CN107209860B (zh) 用于处理弱监督图像的方法、***和计算机存储介质
US8775401B2 (en) Shape based picture search
US8805116B2 (en) Methods and apparatus for visual search
US20150039583A1 (en) Method and system for searching images
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
US20120287304A1 (en) Image recognition system
KR101912748B1 (ko) 확장성을 고려한 특징 기술자 생성 및 특징 기술자를 이용한 정합 장치 및 방법
KR20120109591A (ko) 콘텐츠 기반 이미지 검색을 가능하게 하는 방법 및 장치
WO2013160192A1 (en) Method for binary classification of a query image
CN110532413B (zh) 基于图片匹配的信息检索方法、装置、计算机设备
CN110147460B (zh) 基于卷积神经网络与多视角图的三维模型检索方法及装置
CN114898266B (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN109697240A (zh) 一种基于特征的图像检索方法及装置
CN110765291A (zh) 检索方法、装置及电子设备
WO2019100348A1 (zh) 图像检索方法和装置以及图像库的生成方法和装置
WO2023246912A1 (zh) 图像文字结构化输出方法、装置、电子设备和存储介质
CN113591865B (zh) 一种回环检测方法、装置以及电子设备
KR101758869B1 (ko) 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법
Du et al. Mvss: Mobile visual search based on saliency

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21896571

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21896571

Country of ref document: EP

Kind code of ref document: A1