WO2023231173A1 - 双目立体匹配方法、设备及存储介质 - Google Patents

双目立体匹配方法、设备及存储介质 Download PDF

Info

Publication number
WO2023231173A1
WO2023231173A1 PCT/CN2022/110041 CN2022110041W WO2023231173A1 WO 2023231173 A1 WO2023231173 A1 WO 2023231173A1 CN 2022110041 W CN2022110041 W CN 2022110041W WO 2023231173 A1 WO2023231173 A1 WO 2023231173A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale
feature map
map
feature
small
Prior art date
Application number
PCT/CN2022/110041
Other languages
English (en)
French (fr)
Inventor
崔岩
常青玲
戴成林
徐世廷
李敏华
Original Assignee
五邑大学
广东四维看看智能设备有限公司
中德(珠海)人工智能研究院有限公司
珠海市四维时代网络科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202210647689.1A external-priority patent/CN115222795A/zh
Application filed by 五邑大学, 广东四维看看智能设备有限公司, 中德(珠海)人工智能研究院有限公司, 珠海市四维时代网络科技有限公司 filed Critical 五邑大学
Publication of WO2023231173A1 publication Critical patent/WO2023231173A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the invention relates to the field of image data processing, and in particular to a binocular stereo matching method, equipment and storage medium.
  • Binocular stereo matching is a computer vision task. Binocular stereo matching is also called binocular disparity estimation or binocular depth estimation.
  • the cost volume constructed from the left and right feature maps is usually used to obtain the disparity map or depth map, and then estimate the disparity and depth. , is widely used in fields such as 3D reconstruction, autonomous driving and robot navigation.
  • binocular stereo matching is performed by extracting corresponding feature maps from the left and right images respectively, and constructing a cost volume based on the left and right feature maps.
  • a problem of mismatch in some areas between the two views. easily affects the accuracy of the constructed cost volume, resulting in insufficient accuracy of the obtained disparity map.
  • the present invention aims to solve at least one of the technical problems existing in the prior art.
  • the present invention provides a binocular stereo matching method, equipment and storage medium, which can improve the accuracy of the obtained cost volume and improve the accuracy of the obtained disparity map.
  • a first embodiment of the present invention provides a binocular stereo matching method, which includes the following steps:
  • the content weight of the second feature map is redistributed according to the first feature map, so that the useful information of the second feature map is emphasized and useless information is suppressed.
  • the second large-scale reorganized map can focus on displaying the image information corresponding to each area of the first feature map, thereby improving the matching between the two.
  • the hybrid cost volume constructed based on the first feature map and the second large-scale reorganization map has high accuracy, which can improve the accuracy of the obtained disparity map.
  • the first view and the second view are respectively input to two feature extraction modules to obtain the first feature map and the second feature map, including:
  • Each first initial feature map is sampled to the same scale and then fused to obtain the first feature map
  • Each second initial feature map is sampled to the same scale and then fused to obtain a second feature map.
  • each first initial feature map is sampled to the same scale and then fused to obtain a first feature map, including:
  • Each first initial feature map is sampled to two different scales respectively to obtain two sets of first sampling map groups of different scales, wherein the scale of each first sampling map in the first sampling map group is the same;
  • the two first sampling map groups are fused respectively to obtain the first large-scale feature map and the first small-scale feature map, in which the first large-scale feature map and the first small-scale feature map are both the first feature map, and the first The scale of the large-scale feature map is larger than the scale of the first small-scale feature map.
  • each second initial feature map is sampled to the same scale and then fused to obtain a second feature map, including:
  • Each second initial feature map is sampled to two different scales respectively to obtain two sets of second sampling map groups of different scales, wherein the scale of each second sampling map in the second sampling map group is the same;
  • the two sets of second sampling map groups are fused respectively to obtain the second large-scale feature map and the second small-scale feature map.
  • the second large-scale feature map and the second small-scale feature map are both second feature maps.
  • the scale of the second large-scale feature map is larger than the scale of the second small-scale feature map.
  • the scale of the first large-scale feature map is the same as the scale of the second large-scale feature map
  • the scale of the first small-scale feature map is the same as the scale of the second small-scale feature map
  • the first small-scale feature map and the second small-scale reorganization map are fused and input into the refinement module for feature refinement to obtain a feature refinement map;
  • the first large-scale feature map and distorted feature map are input to the second effective attention module to obtain the second large-scale reorganized map.
  • inputting the first small-scale feature map and the second small-scale feature map into the first effective attention module to obtain the second small-scale reorganized map includes: converting the first small-scale feature map into The feature map and the second small-scale feature map are input to the first effective attention module.
  • the first small-scale feature map is sequentially subjected to maximum pooling, two-dimensional convolution and activation, and then combined with the second small-scale feature map. Multiply the feature maps to obtain the second small-scale reorganization map;
  • Input the first large-scale feature map and distorted feature map into the second effective attention module to obtain the second large-scale reorganized map including: inputting the first large-scale feature map and distorted feature map into the second effective attention module , through the second effective attention module, the first large-scale feature map is sequentially subjected to maximum pooling, two-dimensional convolution and activation, and then multiplied with the second small-scale feature map to obtain the second large-scale reorganized map.
  • a hybrid cost volume is constructed based on the first feature map and the second large-scale reorganization map, including:
  • a subtraction cost volume Based on the first feature map and the second large-scale reorganization map, a subtraction cost volume, a group correlation cost volume and a connection merging cost volume are constructed respectively;
  • the subtractive cost volume, group correlation cost volume and connection merging cost volume are fused to obtain a hybrid cost volume.
  • the hybrid cost volume is input into the disparity regression module to obtain a disparity map, including:
  • a second embodiment of the present invention provides an electronic device, including:
  • a memory a processor and a computer program stored in the memory and executable on the processor.
  • the processor executes the computer program, the binocular stereo matching method of any one of the first aspects is implemented.
  • the electronic device of the embodiment of the second aspect applies any one of the binocular stereo matching methods of the first aspect, it has all the beneficial effects of the first aspect of the present invention.
  • computer executable instructions are stored, and the computer executable instructions are used to execute any one of the binocular stereo matching methods of the first aspect.
  • the computer storage medium of the embodiment of the third aspect can perform any one of the binocular stereo matching methods of the first aspect, it has all the beneficial effects of the first aspect of the present invention.
  • Figure 1 is a main step diagram of the binocular stereo matching method according to the embodiment of the present invention.
  • Figure 2 is a schematic diagram of the working principle of the binocular stereo matching method according to the embodiment of the present invention.
  • Figure 3 is a schematic diagram of the working principle of the multi-scale feature extraction and fusion module in Figure 2;
  • Figure 4 is a schematic diagram of the working principle of the effective attention module in Figure 2;
  • Figure 5 is a schematic diagram of the working principle of the construction process of the hybrid cost body in Figure 2.
  • PSMNet is a major breakthrough. It integrates global context information into the construction of the cost body to solve the ill-posed area problem.
  • FADNet is implemented through a correlation layer based on two-dimensional convolution, and To maintain faster computation speed with the help of a multi-scale weight training strategy, StereoNet uses low-resolution cost volumes to speed up running time, while using an upsampling function with edge-sensing capabilities to preserve edge details.
  • Some learning-based vision tasks such as instance segmentation, scene segmentation and image super-resolution, also perform well using attention algorithms commonly used in natural language processing to focus on regions of interest.
  • Binocular stereo matching is no exception. For example, MCANet uses it to refine disparity, and NLCANet uses it to utilize global context information.
  • binocular stereo matching extracts corresponding feature maps from the left and right images respectively, and constructs a cost volume based on the left and right feature maps.
  • the construction process due to the problem of uncomfortable areas between the two views, the impact The accuracy of the resulting cost volume is constructed, resulting in insufficient accuracy of the obtained disparity.
  • a binocular stereo matching method at least includes the following steps:
  • S500 Input the hybrid cost volume into the disparity regression module to obtain a disparity map.
  • the useful information of the second feature map can be emphasized and the useless information in it can be suppressed, which can improve the obtained second largest scale reorganization.
  • the similarity between the image and the first feature map means that the second large-scale reorganized image can focus on displaying the image information corresponding to each area of the first feature map, thereby improving the relationship between the second large-scale reorganized image and the first feature map.
  • Matching performance, the hybrid cost volume constructed based on the first feature map and the second large-scale reorganization map has high accuracy, which can improve the accuracy of the obtained disparity map.
  • step S200 the first view and the second view are respectively input into two feature extraction modules to obtain the first feature map and the second feature map, including:
  • first feature extraction module and the second feature extraction module are both MobileNetV2 feature extraction modules, which have lightweight characteristics.
  • the corresponding fusion module is constructed through upsampling and downsampling of the U-Net network for Implement the fusion operation of step S230 and step S240.
  • step S230 specifically includes: sampling each first initial feature map to the same scale, fusion, and convolution to obtain the first feature map.
  • step S240 specifically includes: sampling each second initial feature map to the same scale, fusion, and convolution to obtain a second feature map. The performance of the obtained first feature map and the second feature map can be effectively improved through the convolution operation, thereby improving the reliability of subsequent steps.
  • each first initial feature map is sampled to the same scale and then fused to obtain the first feature map, including:
  • each second initial feature map is sampled to the same scale and then fused to obtain a second feature map, including:
  • S242. Fuse the two second sampling map groups respectively to obtain the second large-scale feature map and the second small-scale feature map.
  • the second large-scale feature map and the second small-scale feature map are both second feature maps.
  • the scale of the second large-scale feature map is larger than the scale of the second small-scale feature map.
  • all second sampling maps in the same second sampling map group are fused.
  • the scale of the first large-scale feature map is the same as the scale of the second large-scale feature map
  • the scale of the first small-scale feature map is the same as the scale of the second small-scale feature map
  • Step S300 input the first feature map and the second feature map into the effective attention module to obtain the second large-scale reorganization map, including:
  • the first small-scale feature map and the second small-scale reorganization map are fused and then input into the refinement module for feature refinement to obtain a feature refinement map, where feature refinement refers to a convolution refinement operation of features.
  • the scale of the feature refinement map obtained after feature refinement is the same as the scale of the second largest scale feature map;
  • the second small-scale reorganization graph and the second largest-scale reorganization graph satisfy: in, Represents the second smallest scale reorganized image or the second largest scale reorganized image, Represents the first small-scale feature map or the first large-scale feature map, It is the second small-scale reorganization map or the second largest-scale reorganization map, and i represents the i-th scale.
  • step S310 the first small-scale feature map and the second small-scale feature map are input into the first effective attention module to obtain the second small-scale reorganized map, including: combining the first small-scale feature map and The second small-scale feature map is input to the first effective attention module.
  • the first small-scale feature map is sequentially subjected to maximum pooling, two-dimensional convolution and Sigmoid function activation, and then combined with the second small-scale feature The graphs are multiplied to obtain the second small-scale recombined graph;
  • Step S340 Input the first large-scale feature map and the distorted feature map into the second effective attention module to obtain the second large-scale reorganized image, including: inputting the first large-scale feature map and the distorted feature map into the second effective attention module.
  • the attention module uses the second effective attention module to sequentially perform maximum pooling, two-dimensional convolution and Sigmoid function activation on the first large-scale feature map, and then multiplies it with the second small-scale feature map to obtain the second large-scale reorganization. picture.
  • a single cost body cannot provide sufficient feature information for the model.
  • the subtractive cost body can use the useful information difference between input pairs of images to allow the model to obtain results faster;
  • the group correlation cost body can store the average information of the input pair image channels in groups and stabilize the results. Within a certain range; connect the merged cost body to provide more comprehensive image information for the training model.
  • step S400 constructs a hybrid cost volume based on the first feature map and the second large-scale reorganization map, including:
  • Step S410 According to the first feature map and the second large-scale reorganization map, construct a subtraction cost volume, a grouping correlation cost volume and a connection merging cost volume respectively;
  • Step S420 Fusion of the subtractive cost volume, the grouping correlation cost volume and the connection merging cost volume to obtain a hybrid cost volume.
  • C mix C sub
  • C con C sub
  • N c represents the number of channels of the extracted feature map
  • N g represents the number of groups
  • ⁇ *,*> is the inner product operation
  • represents the connection and merging operation.
  • the specific cost volume is an important link.
  • a new aggregation module is set up to play the role of the hybrid cost volume. It can be understood that the hybrid cost volume is input into the disparity regression module to obtain the disparity map. ,include:
  • C mix′ NCAM(C mix )
  • C mix′ represents the cost aggregation result
  • C mix represents the mixed cost body.
  • first view and the second view where the first view and the second view are the left image and the right image respectively.
  • An initial feature map is sampled to two different scales respectively, and two sets of first sampling images of different scales are obtained, in which the scale of each first sampling image in the same first sampling image group is the same; the two sets of first sampling images are The groups are fused separately to obtain the first large-scale feature map and the first small-scale feature map respectively.
  • the first large-scale feature map and the first small-scale feature map are both the first feature map.
  • the first large-scale feature map is The scale is 1/4, and the scale of the first small-scale characteristic degree is 1/8.
  • each scale is 1/2, 1/4, 1/8, 1/16 and 1/32, where the second feature The extraction module shares the weight with the first feature extraction module; each second initial feature map is sampled to two different scales to obtain two sets of second sampling map groups of different scales, where each second sampling map group in the same
  • the scales of the second sampling images are the same; the two groups of second sampling images are fused respectively to obtain the second large-scale feature map and the second small-scale feature map respectively.
  • the second large-scale feature map and the second small-scale feature The pictures are all second feature maps.
  • the scale of the second largest scale feature map is 1/4, and the scale of the second small scale feature map is 1/8.
  • the first small-scale feature map and the second small-scale feature map are input to the first effective attention module, and the first small-scale feature map is sequentially subjected to maximum pooling, two-dimensional convolution and Sigmoid function activation, and then combined with the second small-scale feature map.
  • the feature maps are multiplied to obtain the second small-scale recombinant map.
  • the above execution process is carried out in the effective attention module on the left side of Figure 2.
  • the execution process of the corresponding effective attention module is shown in Figure 4.
  • the left feature map shown in Figure 4 is the first small-scale feature map.
  • the (distorted) right feature map shown in Figure 4 is the second small-scale feature map, and the new (distorted) right feature map is the second small-scale reorganization map.
  • the first small-scale feature map and the second small-scale reorganization map are fused and then input into the refinement module for feature refinement to obtain the feature refinement map.
  • feature refinement refers to the convolution refinement operation of features.
  • the scale of the feature refinement map obtained by thinning is the same as that of the second largest scale feature map, and the scale is 1/4.
  • the above execution process is carried out in the refinement module in Figure 2.
  • the first large-scale feature map and distorted feature map are input to the second effective attention module.
  • the first large-scale feature map is sequentially subjected to maximum pooling, two-dimensional convolution and Sigmoid function activation, and then combined with the second small-scale feature map. Multiply to obtain the second largest scale reorganization map.
  • the above execution process is carried out in the effective attention module on the right side of Figure 2.
  • the execution process of the corresponding effective attention module is shown in Figure 4.
  • the left feature map shown in Figure 4 is the first large-scale feature map.
  • the (distorted) right feature map shown in Figure 4 is a distorted feature map, and the new (distorted) right feature map is the second largest scale reorganization map.
  • the subtractive cost volume, the grouping correlation cost volume and the connection merging cost volume are constructed respectively; the subtraction type cost volume, the grouping correlation type cost volume and the connection type cost volume are The merged cost bodies are fused to obtain a hybrid cost body.
  • the above execution process is performed on the hybrid cost body in Figure 2, where the construction process of the hybrid cost body is shown in Figure 5.
  • Each of the above processing modules can be obtained through neural network training.
  • the second embodiment of the present invention also provides an electronic device.
  • the electronic device includes: a memory, a processor, and a computer program stored in the memory and executable on the processor.
  • the processor and memory may be connected via a bus or other means.
  • memory can be used to store non-transitory software programs and non-transitory computer executable programs.
  • the memory may include high-speed random access memory and may also include non-transitory memory, such as at least one magnetic disk storage device, flash memory device, or other non-transitory solid-state storage device.
  • the memory may optionally include memory located remotely from the processor, and the remote memory may be connected to the processor via a network. Examples of the above-mentioned networks include but are not limited to the Internet, intranets, local area networks, mobile communication networks and combinations thereof.
  • the non-transient software programs and instructions required to implement the binocular stereo matching method of the above-described first embodiment are stored in the memory.
  • the binocular stereo matching method in the above-described embodiment is executed. For example, execute The above-described method steps S100 to S500, method steps S210 to S240, method steps S231 and S232, method steps S241 and S242, method steps S310 to S340, method steps S410 to S420, and method steps S510 to S520.
  • the device embodiments described above are only illustrative, and the units described as separate components may or may not be physically separate, that is, they may be located in one place, or they may be distributed to multiple network units. Some or all of the modules can be selected according to actual needs to achieve the purpose of this embodiment.
  • a third embodiment of the present invention provides a computer-readable storage medium that stores computer-executable instructions, and the computer-executable instructions are executed by a processor or a controller, for example, by the above-mentioned Execution by a processor in the device embodiment can cause the above-mentioned processor to perform the binocular stereo matching method in the above embodiment, for example, perform the above-described method steps S100 to S500, method steps S210 to S240, and method steps S231 and S232. , method steps S241 and S242, method steps S310 to S340, method steps S410 to S420, and method steps S510 to S520.
  • Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, Digital Versatile Disk (DVD) or other optical disk storage, magnetic cassettes, tapes, disk storage or other magnetic storage devices, or may Any other medium used to store the desired information and that can be accessed by a computer.
  • communication media typically embodies computer readable instructions, data structures, program modules or other data in a modulated data signal such as a carrier wave or other transport mechanism, and may include any information delivery media .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种双目立体匹配方法、设备及存储介质,所述方法包括获取第一视图和第二视图;将第一视图和第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图;将第一特征图和第二特征图输入到有效注意力模块,得到第二大尺度重组图,有效注意力模块用于根据第一特征图重新分配第二特征图的内容权重;根据第一特征图和第二大尺度重组图,构建混合型代价体;将混合型代价体输入视差回归模块,得到视差图。本申请通过设置有效注意力模块,根据第一特征图重新分配第二特征图的内容权重,根据第一特征图和第二大尺度重组图构建得到的混合型代价体的准确性高,能够提高视差图的准确性。

Description

双目立体匹配方法、设备及存储介质 技术领域
本发明涉及图像数据处理领域,特别涉及一种双目立体匹配方法、设备及存储介质。
背景技术
双目立体匹配是一项计算机视觉任务,双目立体匹配也称作双目视差估计或双目深度估计,通常使用左右特征图构造的代价体来获得视差图或深度图,进而估计视差和深度,被广泛应用于三维重建、自动驾驶和机器人导航等领域。
相关技术中,双目立体匹配是通过对左图和右图分别提取对应的特征图,并根据左右特征图来构建代价体,构建过程中,由于两个视图之间存在部分区域不匹配的问题,容易影响构建得到的代价体的准确性,从而导致所获视差图的准确性不足。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供了一种双目立体匹配方法、设备及存储介质,能够提高所获代价体的准确性,并且提高所获视差图的准确性。
本发明第一方面实施例提供一种双目立体匹配方法,包括如下步骤:
获取第一视图和第二视图;
将第一视图和第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图;
将第一特征图和第二特征图输入到有效注意力模块,得到第二大尺度重组图,其中,有效注意力模块用于根据第一特征图重新分配第二特征图的内容权重;
根据第一特征图和第二大尺度重组图,构建混合型代价体;
将混合型代价体输入视差回归模块,得到视差图。
根据本发明的上述实施例,至少具有如下有益效果:通过设置有效注意力模块,根据第一特征图重新分配第二特征图的内容权重,令第二特征图的有用信息得到强调并且抑制无用信息,能够提高得到的第二大尺度重组图与第一特征图的相似性,即令第二大尺度重组图能够重点展示与第一特征图各区域对应的图像信息,从而提高两者的匹配性能,根据第一特征图和第二大尺度重组图构建得到的混合型代价体的准确性高,进而能够提高所获视差图的准确性。
根据本发明第一方面的一些实施例,将第一视图和第二视图分别输入到两个特征提取模 块,得到第一特征图和第二特征图,包括:
将第一视图输入第一特征提取模块,得到多个尺度的第一初始特征图;
将第二视图输入第二特征提取模块,得到多个尺度的第二初始特征图;
将每一第一初始特征图采样到同一尺度后进行融合,得到第一特征图;
将每一第二初始特征图采样到同一尺度后进行融合,得到第二特征图。
根据本发明第一方面的一些实施例,将每一第一初始特征图采样到同一尺度后进行融合,得到第一特征图,包括:
将每一第一初始特征图分别采样到两个不同尺度,得到两组不同尺度的第一采样图组,其中,第一采样图组中每一第一采样图的尺度相同;
将两组第一采样图组分别进行融合,得到第一大尺度特征图和第一小尺度特征图,其中第一大尺度特征图和第一小尺度特征图均为第一特征图,第一大尺度特征图的尺度大于第一小尺度特征图的尺度。
根据本发明第一方面的一些实施例,将每一第二初始特征图采样到同一尺度后进行融合,得到第二特征图,包括:
将每一第二初始特征图分别采样到两个不同尺度,得到两组不同尺度的第二采样图组,其中,第二采样图组中每一第二采样图的尺度相同;
将两组第二采样图组分别进行融合,得到第二大尺度特征图和第二小尺度特征图,其中,第二大尺度特征图和第二小尺度特征图均为第二特征图,第二大尺度特征图的尺度大于第二小尺度特征图的尺度。
根据本发明第一方面的一些实施例,第一大尺度特征图的尺度与第二大尺度特征图的尺度相同,第一小尺度特征图的尺度与第二小尺度特征图的尺度相同;
将第一特征图和第二特征图输入到有效注意力模块,得到第二大尺度重组图,包括:
将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图;
将第一小尺度特征图和第二小尺度重组图融合后输入到细化模块进行特征细化,得到特征细化图;
将特征细化图和第二大尺度特征图输入到扭曲模块,得到扭曲特征图;
将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图。
根据本发明第一方面的一些实施例,将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图,包括:将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,通过第一有效注意力模块将第一小尺度特征图依次进行最大 池化、二维卷积和激活之后与第二小尺度特征图相乘,得到第二小尺度重组图;
将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图,包括:将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,通过第二有效注意力模块将第一大尺度特征图依次进行最大池化、二维卷积和激活之后与第二小尺度特征图相乘,得到第二大尺度重组图。
根据本发明第一方面的一些实施例,根据第一特征图和第二大尺度重组图,构建混合型代价体,包括:
根据第一特征图和第二大尺度重组图,分别构建相减型代价体、分组相关型代价体和连接合并型代价体;
将相减型代价体、分组相关型代价体和连接合并型代价体进行融合,得到混合型代价体。
根据本发明第一方面的一些实施例,将混合型代价体输入视差回归模块,得到视差图,包括:
将混合型代价体输入聚合模块,得到代价聚合结果;
将代价聚合结果输入视差回归模块,得到视差图。
本发明第二方面实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面任意一项的双目立体匹配方法。
由于第二方面实施例的电子设备应用第一方面任意一项的双目立体匹配方法,因此具有本发明第一方面的所有有益效果。
根据本发明第三方面实施例提供的一种计算机存储介质,存储有计算机可执行指令,计算机可执行指令用于执行第一方面任意一项的双目立体匹配方法。
由于第三方面实施例的计算机存储介质可执行第一方面任意一项的双目立体匹配方法,因此具有本发明第一方面的所有有益效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的双目立体匹配方法的主要步骤图;
图2是本发明实施例的双目立体匹配方法的工作原理示意图;
图3是图2中多尺度特征提取和融合模块的工作原理示意图;
图4是图2中有效注意力模块的工作原理示意图;
图5是图2中混合型代价体的构建过程的工作原理示意图。
具体实施方式
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。此外,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
双目立体匹配本质上就是深度估计方法,属于计算机视觉任务,立体匹配也称作视差估计或双目深度估计,通常使用左右特征图构造的代价体来估计视差和深度,被广泛应用于三维重建、自动驾驶和机器人导航等领域。它通常是利用从输入的左右图像中计算出的总代价来获得视差,然后根据公式D=B×f/d计算深度D,即深度D便可以由基线B、焦距f和估计出的视差d计算得到,其中基线B是指输入的左右图像之间的距离。
一方面,自从深度学习被引入机器视觉领域,许多视觉任务都取得了很好的效果。图像分类、目标检测、目标识别等视觉任务都取得了很大的进步。仅以PSMNet、FADNet和StereoNet为例,PSMNet是一个重大的突破,它将全局上下文信息整合到代价体的构造中,以解决不适定区域问题,FADNet通过基于二维卷积的相关层实现,并借助多尺度权重训练策略保持更快的计算速度,StereoNet使用低分辨率代价体来加快运行时间,同时使用具有边缘感应功能的上采样函数来保留边缘的细节。而另一方面,一些基于学习的视觉任务,如实例分割、场景分割和图像超分,利用自然语言处理中通常用于关注感兴趣区域的注意力算法,也表现不错。双目立体匹配也不例外。例如MCANet利用它来细化视差,NLCANet通过它来利用全局上下文信息。
相关技术中,双目立体匹配是通过对左图和右图分别提取对应的特征图,并根据左右特征图来构建代价体,构建过程中,由于两个视图之间存在不适区域的问题,影响构建得到的代价体的准确性,从而导致所获视差的准确性不足。
当引入卷积神经网络和注意力算法到双目立体匹配时取得的视差图仍存在准确性不足的问题。
下面参照图1至图5描述本发明的双目立体匹配方法、设备及存储介质,通过提高用于构建代价体的两个特征图的匹配性,能够提高所获代价体的准确性,并且提高所获视差图的准确性。
参考图1所示,根据本发明第一方面实施例的一种双目立体匹配方法,至少包括如下步骤:
S100、获取第一视图和第二视图,其中,第一视图和第二视图分别为左图和右图、或右图和左图;
S200、将第一视图和第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图;
S300、将第一特征图和第二特征图输入到有效注意力模块,得到第二大尺度重组图,其中,有效注意力模块用于根据第一特征图重新分配第二特征图的内容权重,从而得到第二大尺度重组图;
S400、根据第一特征图和第二大尺度重组图,构建混合型代价体;
S500、将混合型代价体输入视差回归模块,得到视差图。
通过设置有效注意力模块,根据第一特征图重新分配第二特征图的内容权重,令第二特征图的有用信息得到强调并且能够抑制其中的无用信息,能够提高得到的第二大尺度重组图与第一特征图的相似性,即令第二大尺度重组图能够重点展示与第一特征图各区域对应的图像信息,从而提高得到的第二大尺度重组图与第一特征图的匹配性能,根据第一特征图和第二大尺度重组图构建得到的混合型代价体的准确性高,进而能够提高所获视差图的准确性。
相关技术中,引入卷积神经网络和注意力算法到双目立体匹配,尽管这些方式在精度或效率方面取得能够令人信服的性能,但仍存在一些不适区域的问题,例如表面反射、结构稀薄、图案重复、纹理缺失和区域遮挡,现有的双目立体匹配方法的信息获取不够完整,使得它们难以满足高精度应用的要求。
为了减少上述问题带来的影响,可以理解的是,步骤S200,将第一视图和第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图,包括:
S210、将第一视图输入第一特征提取模块,得到多个尺度的第一初始特征图;
S220、将第二视图输入第二特征提取模块,得到多个尺度的第二初始特征图;
S230、将每一第一初始特征图采样到同一尺度后进行融合,得到第一特征图;
S240、将每一第二初始特征图采样到同一尺度后进行融合,得到第二特征图。
可以理解的是,第一特征提取模块和第二特征提取模块均为MobileNetV2特征提取模块,它具有轻量级的特性,通过U-Net网络的上采样和下采样构建对应的融合模块,用于实现步骤S230和步骤S240的融合操作。
可以理解的是,步骤S230具体为:将每一第一初始特征图采样到同一尺度后进行融合,并且卷积后得到第一特征图。步骤S240具体为:将每一第二初始特征图采样到同一尺度后进 行融合,并且卷积后得到第二特征图。通过卷积操作能够有效提高所获第一特征图和第二特征图的性能,从而提高后续步骤进行的可靠性。
可以理解的是,S230、将每一第一初始特征图采样到同一尺度后进行融合,得到第一特征图,包括:
S231、将每一第一初始特征图分别采样到两个不同尺度,得到两组不同尺度的第一采样图组,其中,同一第一采样图组中每一第一采样图的尺度相同;
S232、将两组第一采样图组分别进行融合,得到第一大尺度特征图和第一小尺度特征图,其中,第一大尺度特征图和第一小尺度特征图均为第一特征图,第一大尺度特征图的尺度大于第一小尺度特征图的尺度,融合时,同一组第一采样图组中的所有第一采样图进行融合。
可以理解的是,将每一第二初始特征图采样到同一尺度后进行融合,得到第二特征图,包括:
S241、将每一第二初始特征图分别采样到两个不同尺度,得到两组不同尺度的第二采样图组,其中,同一第二采样图组中每一第二采样图的尺度相同;
S242、将两组第二采样图组分别进行融合,得到第二大尺度特征图和第二小尺度特征图,其中,第二大尺度特征图和第二小尺度特征图均为第二特征图,第二大尺度特征图的尺度大于第二小尺度特征图的尺度,融合时,同一组第二采样图组中的所有第二采样图进行融合。
可以理解的是,第一大尺度特征图的尺度与第二大尺度特征图的尺度相同,第一小尺度特征图的尺度与第二小尺度特征图的尺度相同;
步骤S300,将第一特征图和第二特征图输入到有效注意力模块,得到第二大尺度重组图,包括:
S310、将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图;
S320、将第一小尺度特征图和第二小尺度重组图融合后输入到细化模块进行特征细化,得到特征细化图,其中,特征细化是指特征的卷积细化操作,经过特征细化得到的特征细化图的尺度与第二大尺度特征图的尺度相同;
S330、将特征细化图和第二大尺度特征图输入到扭曲模块进行仿射扭曲,得到扭曲特征图,其中,扭曲特征图是通过将特征细化图向第二大尺度特征图的视角方向进行扭曲;
S340、将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图。
第二小尺度重组图和第二大尺度重组图满足:
Figure PCTCN2022110041-appb-000001
其中,
Figure PCTCN2022110041-appb-000002
表示经过第二小尺度重组图或第二大尺度重组图,
Figure PCTCN2022110041-appb-000003
表示第一小尺度特征图或第一大尺度特征图,
Figure PCTCN2022110041-appb-000004
是 第二小尺度重组图或第二大尺度重组图,i表示第i个尺度。
可以理解的是,步骤S310,将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图,包括:将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,通过第一有效注意力模块将第一小尺度特征图依次进行最大池化、二维卷积和Sigmoid函数激活之后与第二小尺度特征图相乘,得到第二小尺度重组图;
步骤S340、将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图,包括:将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,通过第二有效注意力模块将第一大尺度特征图依次进行最大池化、二维卷积和Sigmoid函数激活之后与第二小尺度特征图相乘,得到第二大尺度重组图。
单一的代价体难以为模型提供足够的特征信息。例如,相减型代价体利用输入成对图像之间有用的信息差异,可以使模型更快地获得结果;分组相关型代价体能够分组储存输入成对图像信道的平均信息,并使结果稳定在一定范围内;连接合并型代价体,为训练模型提供更全面的图像信息。
为了更充分地利用特征信息,综合各种代价体的特性,可以理解的是,步骤S400,根据第一特征图和第二大尺度重组图,构建混合型代价体,包括:
步骤S410、根据第一特征图和第二大尺度重组图,分别构建相减型代价体、分组相关型代价体和连接合并型代价体;
步骤S420、将相减型代价体、分组相关型代价体和连接合并型代价体进行融合,得到混合型代价体。
混合型代价体的融合过程满足:C mix=C sub||C gwc||C con,其中,C sub为相减型代价体,C gwc为分组相关型代价体,C con为连接合并型代价体,||为连接合并操作。
相减型代价体、分组相关型代价体和连接合并型代价体的构建通过以下方式获得:
Figure PCTCN2022110041-appb-000005
Figure PCTCN2022110041-appb-000006
Figure PCTCN2022110041-appb-000007
其中,
Figure PCTCN2022110041-appb-000008
Figure PCTCN2022110041-appb-000009
表示提取的第一特征图,
Figure PCTCN2022110041-appb-000010
Figure PCTCN2022110041-appb-000011
表示第二大尺度重组图,N c表示指提取的特征图的通道数,N g表示分组数,<*,*>是内积操作,||表示连接合并操作。
在立体匹配中,代价体的具体是一个重要的环节,设置一种崭新的聚合模块用于发挥混合型代价体的作用,可以理解的是,将混合型代价体输入视差回归模块,得到视差图,包括:
S510、将混合型代价体输入聚合模块,得到代价聚合结果;
S520、将代价聚合结果输入视差回归模块,得到视差图。
其中,聚合模块的运行过程满足:C mix′=NCAM(C mix),C mix′表示代价聚合结果,C mix表示混合型代价体。
下面以一个具体的实施例来详细描述本发明第一方面的双目立体匹配方法。值得理解的是,下述描述仅是示例性说明,而不是对发明的具体限制。
获取第一视图和第二视图,其中,第一视图和第二视图分别为左图和右图。
将第一视图输入第一特征提取模块,得到多个尺度的第一初始特征图,各个尺度分别为1/2、1/4、1/8、1/16和1/32;将每一第一初始特征图分别采样到两个不同尺度,得到两组不同尺度的第一采样图组,其中,同一第一采样图组中每一第一采样图的尺度相同;将两组第一采样图组分别进行融合,分别得到第一大尺度特征图和第一小尺度特征图,其中,第一大尺度特征图和第一小尺度特征图均为第一特征图,第一大尺度特征图的尺度为1/4,第一小尺度特征度的尺度为1/8,融合时,同一组第一采样图组中的所有第一采样图进行融合。上述的执行过程在图2中第一视图后的多尺度特征提取和融合模块进行,其中,左图的多尺度特征提取和融合模块的执行过程参考图3中上半部分所示。
将第二视图输入第二特征提取模块,得到多个尺度的第二初始特征图,各个尺度分别为1/2、1/4、1/8、1/16和1/32,其中第二特征提取模块与第一特征提取模块共享权重;将每一第二初始特征图分别采样到两个不同尺度,得到两组不同尺度的第二采样图组,其中,同一第二采样图组中每一第二采样图的尺度相同;将两组第二采样图组分别进行融合,分别得到第二大尺度特征图和第二小尺度特征图,其中,第二大尺度特征图和第二小尺度特征图均为第二特征图,第二大尺度特征图的尺度为1/4,第二小尺度特征度的尺度为1/8,融合时,同一组第二采样图组中的所有第二采样图进行融合。上述的执行过程在图2中第二视图后的多尺度特征提取和融合模块进行,其中,多尺度特征提取和融合模块的执行过程参考图3中下半部分所示。
将第一小尺度特征图和第二小尺度特征图输入到第一有效注意力模块,将第一小尺度特征图依次进行最大池化、二维卷积和Sigmoid函数激活之后与第二小尺度特征图相乘,得到第二小尺度重组图。上述的执行过程在图2中左侧的有效注意力模块进行,对应的有效力注意力模块的执行过程参考图4所示,图4中所示为左特征图为第一小尺度特征图,图4中所示的(扭曲)右特征图为第二小尺度特征图,新(扭曲)右特征图为第二小尺度重组图。
将第一小尺度特征图和第二小尺度重组图融合后输入到细化模块进行特征细化,得到特征细化图,其中,特征细化是指特征的卷积细化操作,经过特征细化得到的特征细化图的尺度与第二大尺度特征图的尺度相同,尺度都为1/4。上述的执行过程在图2中细化模块中进行。
将特征细化图和第二大尺度特征图输入到扭曲模块进行仿射扭曲,得到扭曲特征图,其中,扭曲特征图是通过将特征细化图向第二大尺度特征图的视角方向进行扭曲。上述的执行过程在图2中扭曲模块中进行。
将第一大尺度特征图和扭曲特征图输入到第二有效注意力模块,将第一大尺度特征图依次进行最大池化、二维卷积和Sigmoid函数激活之后与第二小尺度特征图相乘,得到第二大尺度重组图。上述的执行过程在图2中右侧的有效注意力模块进行,其中,对应有效注意力模块的执行过程参考图4所示,图4中所示为左特征图为第一大尺度特征图,图4中所示的(扭曲)右特征图为扭曲特征图,新(扭曲)右特征图为第二大尺度重组图。
根据第一大尺度特征图和第二大尺度重组图,分别构建相减型代价体、分组相关型代价体和连接合并型代价体;将相减型代价体、分组相关型代价体和连接合并型代价体进行融合,得到混合型代价体。上述的执行过程在图2中混合型代价体进行,其中,混合型代价体的构建过程参考图5所示。
将混合型代价体输入聚合模块进行,得到代价聚合结果。上述执行过程在图2中崭新代价体聚合模块进行。
将代价聚合结果输入视差回归模块,得到视差图。上述执行过程在图2中视差回归模块进行。
上述的各个处理模块都可以通过神经网络训练获得。
另外,本发明第二方面实施例还提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述第一方面实施例的双目立体匹配方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的双目立体匹配方法,例如,执行以上描述的方法步骤S100至S500、方法步骤S210至S240、方法步骤S231和S232、方法步骤S241和S242、方法步骤S310至S340、方法步骤S410至S420、方法步骤S510至S520。
以上所描述的设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明第三方面实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的双目立体匹配方法,例如,执行以上描述的方法步骤S100至S500、方法步骤S210至S240、方法步骤S231和S232、方法步骤S241和S242、方法步骤S310至S340、方法步骤S410至S420、方法步骤S510至S520。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

  1. 一种双目立体匹配方法,其特征在于,包括如下步骤:
    获取第一视图和第二视图;
    将所述第一视图和所述第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图;
    将所述第一特征图和所述第二特征图输入到有效注意力模块,得到第二大尺度重组图,其中,所述有效注意力模块用于根据所述第一特征图重新分配所述第二特征图的内容权重;
    根据所述第一特征图和所述第二大尺度重组图,构建混合型代价体;
    将所述混合型代价体输入视差回归模块,得到视差图。
  2. 根据权利要求1所述的一种双目立体匹配方法,其特征在于,所述将所述第一视图和所述第二视图分别输入到两个特征提取模块,得到第一特征图和第二特征图,包括:
    将所述第一视图输入第一特征提取模块,得到多个尺度的第一初始特征图;
    将所述第二视图输入第二特征提取模块,得到多个尺度的第二初始特征图;
    将每一所述第一初始特征图采样到同一尺度后进行融合,得到第一特征图;
    将每一所述第二初始特征图采样到同一尺度后进行融合,得到第二特征图。
  3. 根据权利要求2所述的一种双目立体匹配方法,其特征在于,所述将每一所述第一初始特征图采样到同一尺度后进行融合,得到第一特征图,包括:
    将每一所述第一初始特征图分别采样到两个不同尺度,得到两组不同尺度的第一采样图组,其中,所述第一采样图组中每一第一采样图的尺度相同;
    将两组所述第一采样图组分别进行融合,得到第一大尺度特征图和第一小尺度特征图,其中所述第一大尺度特征图和所述第一小尺度特征图均为第一特征图,所述第一大尺度特征图的尺度大于所述第一小尺度特征图的尺度。
  4. 根据权利要求3所述的一种双目立体匹配方法,其特征在于,所述将每一所述第二初始特征图采样到同一尺度后进行融合,得到第二特征图,包括:
    将每一所述第二初始特征图分别采样到两个不同尺度,得到两组不同尺度的第二采样图组,其中,所述第二采样图组中每一第二采样图的尺度相同;
    将两组所述第二采样图组分别进行融合,得到第二大尺度特征图和第二小尺度特征图,其中,所述第二大尺度特征图和所述第二小尺度特征图均为第二特征图,所述第二大尺度特征图的尺度大于所述第二小尺度特征图的尺度。
  5. 根据权利要求4所述的一种双目立体匹配方法,其特征在于,所述第一大尺度特征图 的尺度与所述第二大尺度特征图的尺度相同,所述第一小尺度特征图的尺度与所述第二小尺度特征图的尺度相同;
    所述将所述第一特征图和所述第二特征图输入到有效注意力模块,得到第二大尺度重组图,包括:
    将所述第一小尺度特征图和所述第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图;
    将所述第一小尺度特征图和所述第二小尺度重组图融合后输入到细化模块进行特征细化,得到特征细化图;
    将所述特征细化图和所述第二大尺度特征图输入到扭曲模块,得到扭曲特征图;
    将所述第一大尺度特征图和所述扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图。
  6. 根据权利要求5所述的一种双目立体匹配方法,其特征在于,所述将所述第一小尺度特征图和所述第二小尺度特征图输入到第一有效注意力模块,得到第二小尺度重组图,包括:将所述第一小尺度特征图和所述第二小尺度特征图输入到第一有效注意力模块,通过所述第一有效注意力模块将所述第一小尺度特征图依次进行最大池化、二维卷积和激活之后与所述第二小尺度特征图相乘,得到第二小尺度重组图;
    所述将所述第一大尺度特征图和所述扭曲特征图输入到第二有效注意力模块,得到第二大尺度重组图,包括:将所述第一大尺度特征图和所述扭曲特征图输入到第二有效注意力模块,通过所述第二有效注意力模块将所述第一大尺度特征图依次进行最大池化、二维卷积和激活之后与所述第二小尺度特征图相乘,得到第二大尺度重组图。
  7. 根据权利要求1至6任一项所述的一种双目立体匹配方法,其特征在于,所述根据所述第一特征图和所述第二大尺度重组图,构建混合型代价体,包括:
    根据所述第一特征图和所述第二大尺度重组图,分别构建相减型代价体、分组相关型代价体和连接合并型代价体;
    将所述相减型代价体、所述分组相关型代价体和所述连接合并型代价体进行融合,得到混合型代价体。
  8. 根据权利要求7所述的一种双目立体匹配方法,其特征在于,所述将所述混合型代价体输入视差回归模块,得到视差图,包括:
    将所述混合型代价体输入聚合模块,得到代价聚合结果;
    将所述代价聚合结果输入视差回归模块,得到所述视差图。
  9. 一种电子设备,其特征在于,包括:
    存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的一种双目立体匹配方法。
  10. 一种计算机存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至8中任意一项所述的一种双目立体匹配方法。
PCT/CN2022/110041 2022-06-01 2022-08-03 双目立体匹配方法、设备及存储介质 WO2023231173A1 (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN202210616415.6 2022-06-01
CN202210616415 2022-06-01
CN202210647689.1A CN115222795A (zh) 2022-06-09 2022-06-09 双目立体匹配方法、设备及存储介质
CN202210647689.1 2022-06-09

Publications (1)

Publication Number Publication Date
WO2023231173A1 true WO2023231173A1 (zh) 2023-12-07

Family

ID=89026776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/110041 WO2023231173A1 (zh) 2022-06-01 2022-08-03 双目立体匹配方法、设备及存储介质

Country Status (1)

Country Link
WO (1) WO2023231173A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN112581517A (zh) * 2020-12-16 2021-03-30 电子科技大学中山学院 双目立体匹配装置及方法
CN114387197A (zh) * 2022-01-04 2022-04-22 京东鲲鹏(江苏)科技有限公司 一种双目图像处理方法、装置、设备和存储介质
CN114445480A (zh) * 2022-01-26 2022-05-06 安徽大学 基于Transformer的热红外图像立体匹配方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111340077A (zh) * 2020-02-18 2020-06-26 平安科技(深圳)有限公司 基于注意力机制的视差图获取方法和装置
CN112581517A (zh) * 2020-12-16 2021-03-30 电子科技大学中山学院 双目立体匹配装置及方法
CN114387197A (zh) * 2022-01-04 2022-04-22 京东鲲鹏(江苏)科技有限公司 一种双目图像处理方法、装置、设备和存储介质
CN114445480A (zh) * 2022-01-26 2022-05-06 安徽大学 基于Transformer的热红外图像立体匹配方法及装置

Similar Documents

Publication Publication Date Title
Yi et al. Pyramid multi-view stereo net with self-adaptive view aggregation
Jiang et al. Cotr: Correspondence transformer for matching across images
Qi et al. Geonet: Geometric neural network for joint depth and surface normal estimation
Wang et al. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries
Du et al. Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework
WO2022100379A1 (zh) 基于图像和三维模型的物体姿态估计方法、***及介质
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN115205489A (zh) 一种大场景下的三维重建方法、***及装置
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN112862949A (zh) 基于多视图的物体3d形状重建方法
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
El Hazzat et al. Fast 3D reconstruction and modeling method based on the good choice of image pairs for modified match propagation
Abdulwahab et al. Monocular depth map estimation based on a multi-scale deep architecture and curvilinear saliency feature boosting
Cao et al. Fast incremental structure from motion based on parallel bundle adjustment
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
Xiao et al. Level-S $^ 2$ fM: Structure From Motion on Neural Level Set of Implicit Surfaces
WO2023231173A1 (zh) 双目立体匹配方法、设备及存储介质
CN117351078A (zh) 基于形状先验的目标尺寸与6d姿态估计方法
Katragadda et al. Nerf-vins: A real-time neural radiance field map-based visual-inertial navigation system
CN116778091A (zh) 基于路径聚合的深度学习多视角立体三维重建算法
WO2023240764A1 (zh) 混合代价体的双目立体匹配方法、设备及存储介质
CN116468979A (zh) 一种双向特征融合网络、回归预测网络、训练方法及装置
Zhao et al. Distance transform pooling neural network for lidar depth completion
CN115375746A (zh) 基于双重空间池化金字塔的立体匹配方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22944486

Country of ref document: EP

Kind code of ref document: A1