CN112633324A - 一种基于神经网络的环视立体视觉匹配***、方法及介质 - Google Patents

一种基于神经网络的环视立体视觉匹配***、方法及介质 Download PDF

Info

Publication number
CN112633324A
CN112633324A CN202011352855.2A CN202011352855A CN112633324A CN 112633324 A CN112633324 A CN 112633324A CN 202011352855 A CN202011352855 A CN 202011352855A CN 112633324 A CN112633324 A CN 112633324A
Authority
CN
China
Prior art keywords
formula
images
matching
neural network
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011352855.2A
Other languages
English (en)
Inventor
陈刚
何涛
张余
凌晔华
黄凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011352855.2A priority Critical patent/CN112633324A/zh
Publication of CN112633324A publication Critical patent/CN112633324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于神经网络的环视立体视觉匹配***、方法及存储介质,该***包括特征提取模块、立体匹配模块、处理模块和拼接模块;本发明通过多个方向的环视深度信息,可以很好的用于无人***自动避障、自主导航决策,提升了无人机、无人车等无人***的自由度,拓展了无人***的应用场景,同时,整个***采用硬件友好设计,可以轻松的部署在硬件***中,提升了***的处理速度。此外,使用神经网络进行特征提取,具有高精度的优点,所述***可以应用于高实时性和高精度要求的应用场景中。另一方面,本发明实施例所述***相比于激光雷达、结构光、TOF等技术而言,成本低廉,易于大规模推广。本发明可广泛应用于图像处理技术领域。

Description

一种基于神经网络的环视立体视觉匹配***、方法及介质
技术领域
本发明涉及图像处理技术领域,尤其是一种基于神经网络的环视立体视觉匹配***、方 法及存储介质。
背景技术
深度信息是计算机视觉领域最终要的信息之一,目前用于获取深度信息的技术主要有激 光雷达、结构光、TOF和立体视觉。这几种技术中激光雷达获得的深度信息准确度最高,但 是激光雷达价格非常昂贵,深度稀疏,没有视觉信息,并且体积大,重量重,功耗高,因此 无法部署到无人机、机器人等无人***上;结构光和TOF技术在室内使用时易受到外界光线 的影响,而在室外使用时,精度很低,同时距离短,成本也比较高。
虽然立体视觉***能够提供一个比较折中的方案,尤其是基于在深度学习的立体估计提 出后,立体视觉***获得的深度信息精度获得了大幅提升。但传统的立体视觉***是基于双 目视觉的,而双目视觉只能获取单一方向的深度信息,由于无人车、无人机和智能机器人等 智能实体的运动自由度比较大,单一方向深度信息无法很好的进行自主避障、自主导航等决 策,单一深度信息已无法满足无人***的应用场景需求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于神经 网络的环视立体视觉匹配***、方法及存储介质。
本发明所采取的技术方案是:
一方面,本发明实施例包括一种基于神经网络的环视立体视觉匹配***,包括:
特征提取模块,用于利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图 像;
立体匹配模块,用于对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
处理模块,用于对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度 图;
拼接模块,用于对多幅所述深度图进行拼接,得到环视深度图。
进一步地,所述特征提取模块包括:
转换单元,用于将深度学习的神经网络二值化,转换得到二值神经网络;
提取单元,用于通过所述二值神经网络对多幅原始图像进行特征提取。
进一步地,所述立体匹配模块包括:
第一计算单元,用于根据第一公式计算得出匹配代价,所述第一公式为:
Figure BDA0002801831560000021
Figure BDA0002801831560000022
式中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左 边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure BDA0002801831560000024
表示权重,其中,所述左 边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅 图像;
第二计算单元,用于根据第二公式计算得出聚合代价,所述第二公式为:Cagg(p,d)= ∑q∈SR(p)CBNN(q,d),式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差, SR(p)表示聚合区域;
第三计算单元,用于根据第三公式计算得到匹配成本,所述第三公式为:
Figure BDA0002801831560000025
Figure BDA0002801831560000026
Figure BDA0002801831560000027
式中,Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最 小代价处的视差值,P1和P2表示惩罚值。
第四计算单元,用于根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)= ∑rCr(p,d),式中,Cf(p,d)表示总代价成本;
第五计算单元,用于根据第五公式计算得到视差值,所述第五公式为:
Figure BDA0002801831560000028
Figure BDA0002801831560000029
式中,D(p)表示视差值;
匹配单元,用于根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配。
进一步地,所述处理模块包括:
第一处理单元,用于对多幅所述第二图像进行一致性检测处理;
第二处理单元,用于使用视差图对多幅所述第二图像进行中值滤波处理。
进一步地,所述拼接模块包括:
转换单元,用于通过第六公式,将所述视差值转换成深度值,所述第六公式为:
Figure BDA00028018315600000210
式中,D表示深度值,B表示相机两个镜头之间的距离,f表示相机焦距,d表示视差值;
拼接单元,用于根据所述深度值,对多幅所述深度图进行拼接得到环视深度图。
另一方面,本发明实施例还包括一种基于神经网络的环视立体视觉匹配方法,包括:
利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像;
对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度图;
对多幅所述深度图进行拼接,得到环视深度图。
进一步地,所述利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像这 一步骤,具体包括:
将深度学习的神经网络二值化,转换得到二值神经网络;
通过所述二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像。
进一步地,所述对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像这一步 骤,具体包括:
根据第一公式计算得出匹配代价,所述第一公式为:
Figure BDA0002801831560000031
式中, p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure BDA0002801831560000034
表示权重,其中,所述左边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅图像;
根据第二公式计算得出聚合代价,所述第二公式为:Cagg(p,d)=∑q∈SR(p)CBNN(q,d), 式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差,SR(p)表示聚合区域;
根据第三公式计算得到匹配成本,所述第三公式为:
Figure RE-GDA0002948853370000033
Figure RE-GDA0002948853370000034
式中,Cr(p,d)表示匹配 成本,p表示像素点,d表示搜索视差,r表示方向,k表示最小代价处的视差值,P1和P2表示惩罚值。
根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)=∑rCr(p,d),式中, Cf(p,d)表示总代价成本;
根据第五公式计算得到视差值,所述第五公式为:
Figure BDA0002801831560000035
式 中,D(p)表示视差值;
根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配,得到多幅第二图 像。
进一步地,所述对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度 图这一步骤,具体包括:
对多幅所述第二图像进行一致性检测处理;
使用视差图对多幅所述第二图像进行中值滤波处理。
另一方面,本发明实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序, 所述处理器可执行的程序在被处理器执行时用于实现所述基于神经网络的环视立体视觉匹配 的方法。
本发明的有益效果是:
本发明提出一种基于FPGA的实时环视立体视觉***,解决单一方向深度信息应用场景 有限的问题;通过获取多个方向的环视深度信息,可以很好地用于无人***自动避障、自主 导航决策,提升了无人机、无人车等无人***的自由度,拓展了无人***的应用场景,同时, 使用神经网络进行特征提取,具有高精度的优点,可以应用于高实时性和高精度要求的应用 场景中;此外,相比于激光雷达、结构光、TOF等技术而言,本发明成本低廉,易于大规模 推广。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和 容易理解,其中:
图1为本发明实施例所述基于神经网络的环视立体视觉匹配***的框架示意图;
图2为本发明实施例所述环视立体框架的设计图;
图3为本发明实施例所述基于神经网络的环视立体视觉匹配***的流程图;
图4为本发明实施例所述基于神经网络的环视立体视觉匹配方法的步骤流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或 类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的 实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化 描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作, 因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、 超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二 只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的 技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属 技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面结合附图,对本申请实施例作进一步阐述。
首先,参照图1,对本发明实施例的基于神经网络的环视立体视觉匹配***结构进行说 明,所述***结构主要包括专用的环视立体框架、十个相机、XILINX ZYNQ-7100核心板、 核心板底板以及PC端五个部分;十个相机构成五个双目***,分别采集五个方向的视觉信 息,采集的图片存在FPGA的PS端,然后PL端从PS端读入图片进行处理,整个***的处理模块都使用Verilog HDL编写,并部署在PL端,PS端主要用于实现一些标准的网络接口,与其他设备进行通信,PC端主要用于深度信息的展示;PC端一般为电脑端,而PS端指的是Processing System,可以是一个基于双ARM Cortex A9内核的处理***,其中集成了内存存 储器和外部存储器接口,大量的外设:GPIO、UART、SD/SDIO、IIC、SPI、以太网、CAN 等等接口;PL端指的是Programmable Logic,可以是基于Xilinx 7系列架构的可编程逻辑单元,通过PL端可以为ARM定制很多外设。
其次,参考图2,对本发明实施例的环视立体视觉框架的设计进行说明,本发明实施例 中,可使用SolidWorks设计由图2所示的设计图,设计的框架主要是核心板以及十目相机的 载体,同时,设计可利用3D打印机打印成型,该环视立体视觉框架具有三大特点,首先, 我们采用正五边形设计,以此确保五个方向的双目相机具有相同的视角;其次,为每个镜头 都设计了专门的支架,从而确保镜头保持稳固,防止变形和损坏,使***一直有稳定的输出; 最后为底座预留了底板固定位置,可以随时移植到其他***,避免多次打孔,造成***的不 稳定。
参照图3,本发明实施例提出一种基于神经网络的环视立体视觉匹配***,包括:
特征提取模块,用于利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图 像;
立体匹配模块,用于对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
处理模块,用于对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度 图;
拼接模块,用于对多幅所述深度图进行拼接,得到环视深度图。
本实施例中,五路深度信息都是从一块FPGA开发板上得到,整个***采用分时复用的 方法,极大的节省了***资源。
具体地,所述特征提取模块包括:
转换单元,用于将深度学习的神经网络二值化,转换得到二值神经网络;
提取单元,用于通过所述二值神经网络对多幅原始图像进行特征提取。
本实施例中,利用二值神经网络(BNN)对图片进行特征提取,基于深度学习的特征提 取方法可以大幅提高立体匹配的精度,但是深度学习中的浮点计算对于硬件处理很不友好, 因此本发明实施例将深度学习的神经网络二值化得到二值神经网络(BNN),计算过程可以 很好的放到硬件上,从而能够实现实时性的同时,提高深度信息的精度。
具体地,所述立体匹配模块包括:
第一计算单元,用于根据第一公式计算得出匹配代价,所述第一公式为:
Figure BDA0002801831560000061
Figure BDA0002801831560000062
式中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左 边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure BDA0002801831560000065
表示权重,其中,所述左 边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅 互为匹配的图像;
第二计算单元,用于根据第二公式计算得出聚合代价,所述第二公式为:Cagg(p,d)= ∑q∈sR(p)CBNN(q,d),式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差, SR(p)表示聚合区域;
第三计算单元,用于根据第三公式计算得到匹配成本,所述第三公式为:
Figure BDA0002801831560000066
Figure BDA0002801831560000067
Figure BDA0002801831560000068
式中,Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最 小代价处的视差值,P1和P2表示惩罚值。
第四计算单元,用于根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)= ∑rCr(p,d),式中,Cf(p,d)表示总代价成本;
第五计算单元,用于根据第五公式计算得到视差值,所述第五公式为:
Figure BDA0002801831560000069
Figure BDA00028018315600000610
式中,D(p)表示视差值;
匹配单元,用于根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配。
本实施例中,在特征提取模块提取左右图像的特征后,对左右图像的像素点进行匹配, 左图中的像素点p1(x,y)将在右图像素点pr(x,y-d)到pr(x,y)范围中进行匹配,其中d∈{0,1,…,dmax},dmax为预设的最大搜索视差,CBNN(p,d)表示匹配的代价,根据
Figure BDA0002801831560000071
Figure BDA0002801831560000072
公式(1)计算得到,其中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配 代价,fi l表示左边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure BDA0002801831560000075
表示权 重,其中,所述左边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一 图像中的任意两幅互为匹配的图像。
之后,根据Cagg(p,d)=∑q∈SR(p)CBNN(q,d)公式(2)计算聚合区域的聚合代价,式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差,SR(p)表示聚合区域;
为了优化匹配代价,本发明实施例使用半全局立体匹配算法(SGM)分别对局部聚合匹配 代价沿不同方向进行平滑约束,对于r方向,根据
Figure BDA0002801831560000076
Figure BDA0002801831560000077
公式(3)计算细化后的匹配成本, 式中,Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最小代 价处的视差值,P1和P2表示惩罚值。
最终的总代价成本是各个方向的代价成本之和,可根据Cf(p,d)=∑rCr(p,d)公式(4)计 算得到,式中,Cf(p,d)表示总代价成本。
最后根据
Figure BDA0002801831560000078
公式(5)选择代价最小的位置作为视差值,式中, D(p)表示视差值。
具体地,所述处理模块包括:
第一处理单元,用于对多幅所述第二图像进行一致性检测处理;
第二处理单元,用于使用视差图对多幅所述第二图像进行中值滤波处理。
本实施例中,处理模块通过左右一致性检测,可剔除视差值中的一些无效点,如遮挡点 和误匹配点,提升视差值的精度,同时使用5x5的窗对视差图进行中值滤波处理。
具体地,所述拼接模块包括:
转换单元,用于通过第六公式,将所述视差值转换成深度值,所述第六公式为:
Figure BDA0002801831560000081
式中,D表示深度值,B表示相机两个镜头之间的距离,f表示相机焦距,d表示视差值;
拼接单元,用于根据所述深度值,对多幅所述深度图进行拼接得到环视深度图。
本实施例中,根据
Figure BDA0002801831560000082
公式(5)得到视差值之后,利用
Figure BDA0002801831560000083
公式(6),将视差值转换成深度值,其中,D表示深度值,B表示相机两个镜头之 间的距离,f表示相机焦距,d表示视差值;最后对五个方向的深度值进行拼接,得到环视 深度信息。
综上所述,本实施例中所述的基于神经网络的环视立体视觉匹配***具有以下优点:
本发明实施例通过五个方向的环视深度信息,可以很好的用于无人***自动避障、自主 导航决策,提升了无人机、无人车等无人***的自由度,拓展了无人***的应用场景,同时, 整个***采用硬件友好设计,可以轻松的部署在硬件***中,提升了***的处理速度。此外, 使用神经网络进行特征提取,具有高精度的优点,所述***可以应用于高实时性和高精度要 求的应用场景中。另一方面,本发明实施例所述***相比于激光雷达、结构光、TOF等技术 而言,成本低廉,易于大规模推广。
参照图4,本发明实施例还提供一种基于神经网络的环视立体视觉匹配方法,包括但不 限于以下步骤:
S1.利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像;
S2.对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
S3.对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度图;
S4.对多幅所述深度图进行拼接,得到环视深度图。
关于步骤S1,也就是所述利用二值神经网络对多幅原始图像进行特征提取,得到多幅第 一图像这一步骤,具体包括:
S101.将深度学习的神经网络二值化,转换得到二值神经网络;
S102.通过所述二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像。
关于步骤S2,也就是所述对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图 像这一步骤,具体包括:
S201.根据第一公式计算得出匹配代价,所述第一公式为:
Figure BDA0002801831560000084
式中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左边图像的二进 制特征向量,fi r表示右边图像的二进制特征向量,
Figure BDA0002801831560000091
表示权重,其中,所述左边图像和右边 图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅图像;
S202.根据第二公式计算得出聚合代价,所述第二公式为:
Figure BDA0002801831560000092
式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表 示搜索视差,SR(p)表示聚合区域;
S203.根据第三公式计算得到匹配成本,所述第三公式为:
Figure BDA0002801831560000093
Figure BDA0002801831560000094
式中, Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最小代价处的 视差值,P1和P2表示惩罚值。
S204.根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)=∑rCr(p,d),式 中,Cf(p,d)表示总代价成本;
S205.根据第五公式计算得到视差值,所述第五公式为:
Figure BDA0002801831560000095
式中,D(p)表示视差值;
S206.根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配,得到多幅第 二图像。
关于步骤S3,也就是所述对多幅所述第二图像进行一致性检测处理和中值滤波处理得到 多幅深度图这一步骤,具体包括:
S301.对多幅所述第二图像进行一致性检测处理;
S302.使用视差图对多幅所述第二图像进行中值滤波处理。
关于步骤S4,也就是所述对多幅所述深度图进行拼接,得到环视深度图这一步骤,具体 包括:
S401.通过第六公式,将所述视差值转换成深度值,所述第六公式为:
Figure BDA0002801831560000096
式中, D表示深度值,B表示相机两个镜头之间的距离,f表示相机焦距,d表示视差值;
S402.拼接单元,用于根据所述深度值,对多幅所述深度图进行拼接得到环视深度图。
综上所述,本实施例中所述的基于神经网络的环视立体视觉匹配方法具有以下优点:
本发明实施例通过五个方向的环视深度信息,可以很好的用于无人***自动避障、自主 导航决策,提升了无人机、无人车等无人***的自由度,拓展了无人***的应用场景,同时, 整个***采用硬件友好设计,可以轻松的部署在硬件***中,提升了***的处理速度。此外, 使用神经网络进行特征提取,具有高精度的优点,所述***可以应用于高实时性和高精度要 求的应用场景中。另一方面,本发明实施例所述***相比于激光雷达、结构光、TOF等技术 而言,成本低廉,易于大规模推广。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器 可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如图4所示的方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机 程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以 从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执 行图4所示的方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、 硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、 数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专 用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存 储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语 计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据) 的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包 括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其 他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且 可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常 包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信 号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领 域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于神经网络的环视立体视觉匹配***,其特征在于,包括:
特征提取模块,用于利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像;
立体匹配模块,用于对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
处理模块,用于对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度图;
拼接模块,用于对多幅所述深度图进行拼接,得到环视深度图。
2.根据权利要求1所述的一种基于神经网络的环视立体视觉匹配***,其特征在于,所述特征提取模块包括:
转换单元,用于将深度学习的神经网络二值化,转换得到二值神经网络;
提取单元,用于通过所述二值神经网络对多幅原始图像进行特征提取。
3.根据权利要求1所述的一种基于神经网络的环视立体视觉匹配***,其特征在于,所述立体匹配模块包括:
第一计算单元,用于根据第一公式计算得出匹配代价,所述第一公式为:
Figure FDA0002801831550000011
Figure FDA0002801831550000016
式中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure FDA0002801831550000012
表示权重,其中,所述左边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅图像;
第二计算单元,用于根据第二公式计算得出聚合代价,所述第二公式为:Cagg(p,d)=∑q∈SR(p)CBNN(q,d),式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差,SR(p)表示聚合区域;
第三计算单元,用于根据第三公式计算得到匹配成本,所述第三公式为:
Figure FDA0002801831550000013
Figure FDA0002801831550000014
Figure FDA0002801831550000015
式中,Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最小代价处的视差值,P1和P2表示惩罚值。
第四计算单元,用于根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)=∑rCr(p,d),式中,Cf(p,d)表示总代价成本;
第五计算单元,用于根据第五公式计算得到视差值,所述第五公式为:
Figure FDA0002801831550000021
Figure FDA0002801831550000022
式中,D(p)表示视差值;
匹配单元,用于根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配。
4.根据权利要求1所述的一种基于神经网络的环视立体视觉匹配***,其特征在于,所述处理模块包括:
第一处理单元,用于对多幅所述第二图像进行一致性检测处理;
第二处理单元,用于使用视差图对多幅所述第二图像进行中值滤波处理。
5.根据权利要求3所述的一种基于神经网络的环视立体视觉匹配***,其特征在于,所述拼接模块包括:
转换单元,用于通过第六公式,将所述视差值转换成深度值,所述第六公式为:
Figure FDA0002801831550000023
式中,D表示深度值,B表示相机两个镜头之间的距离,f表示相机焦距,d表示视差值;
拼接单元,用于根据所述深度值,对多幅所述深度图进行拼接得到环视深度图。
6.一种基于神经网络的环视立体视觉匹配方法,其特征在于,包括:
利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像;
对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像;
对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度图;
对多幅所述深度图进行拼接,得到环视深度图。
7.根据权利要求6所述的一种基于神经网络的环视立体视觉匹配方法,其特征在于,所述利用二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像这一步骤,具体包括:
将深度学习的神经网络二值化,转换得到二值神经网络;
通过所述二值神经网络对多幅原始图像进行特征提取,得到多幅第一图像。
8.根据权利要求6所述的一种基于神经网络的环视立体视觉匹配方法,其特征在于,所述对多幅所述第一图像的像素点进行立体匹配,得到多幅第二图像这一步骤,具体包括:
根据第一公式计算得出匹配代价,所述第一公式为:
Figure RE-FDA0002948853360000023
式中,p表示像素点,d表示搜索视差,CBNN(p,d)表示匹配代价,fi l表示左边图像的二进制特征向量,fi r表示右边图像的二进制特征向量,
Figure RE-FDA0002948853360000024
表示权重,其中,所述左边图像和右边图像互为匹配的图像,所述左边图像和右边图像为多幅第一图像中的任意两幅图像;
根据第二公式计算得出聚合代价,所述第二公式为:Cagg(p,d)=∑q∈SR(p)CBNN(q,d),式中,Cagg(p,d)表示聚合代价,p和q表示像素点,d表示搜索视差,SR(p)表示聚合区域;
根据第三公式计算得到匹配成本,所述第三公式为:
Figure RE-FDA0002948853360000031
Figure RE-FDA0002948853360000032
式中,Cr(p,d)表示匹配成本,p表示像素点,d表示搜索视差,r表示方向,k表示最小代价处的视差值,P1和P2表示惩罚值。
根据第四公式计算得到总代价成本,所述第四公式为:Cf(p,d)=∑rCr(p,d),式中,Cf(p,d)表示总代价成本;
根据第五公式计算得到视差值,所述第五公式为:
Figure RE-FDA0002948853360000033
式中,D(p)表示视差值;
根据所述视差值,对左边图像的像素点和右边图像的像素点进行匹配,得到多幅第二图像。
9.根据权利要求6所述的一种基于神经网络的环视立体视觉匹配方法,其特征在于,所述对多幅所述第二图像进行一致性检测处理和中值滤波处理得到多幅深度图这一步骤,具体包括:
对多幅所述第二图像进行一致性检测处理;
使用视差图对多幅所述第二图像进行中值滤波处理。
10.计算机可读存储介质,其特征在于,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如权利要求6-9任一项所述的方法。
CN202011352855.2A 2020-11-27 2020-11-27 一种基于神经网络的环视立体视觉匹配***、方法及介质 Pending CN112633324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352855.2A CN112633324A (zh) 2020-11-27 2020-11-27 一种基于神经网络的环视立体视觉匹配***、方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352855.2A CN112633324A (zh) 2020-11-27 2020-11-27 一种基于神经网络的环视立体视觉匹配***、方法及介质

Publications (1)

Publication Number Publication Date
CN112633324A true CN112633324A (zh) 2021-04-09

Family

ID=75304176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352855.2A Pending CN112633324A (zh) 2020-11-27 2020-11-27 一种基于神经网络的环视立体视觉匹配***、方法及介质

Country Status (1)

Country Link
CN (1) CN112633324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113281779A (zh) * 2021-05-20 2021-08-20 中山大学 一种3d物体快速检测方法、装置、设备及介质
CN113436258A (zh) * 2021-06-17 2021-09-24 中国船舶重工集团公司第七0七研究所九江分部 基于视觉与激光雷达融合的海上浮码头检测方法及***
CN115619740A (zh) * 2022-10-19 2023-01-17 广西交科集团有限公司 一种高精度视频测速方法、***、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309411A (zh) * 2008-07-07 2008-11-19 浙江大学 一种利用深度信息的多通道视频流编码方法
CN102568026A (zh) * 2011-12-12 2012-07-11 浙江大学 一种多视点自由立体显示的三维增强现实方法
CN102622769A (zh) * 2012-03-19 2012-08-01 厦门大学 一种在动态场景下以深度为主导线索的多目标跟踪方法
CN102663712A (zh) * 2012-04-16 2012-09-12 天津大学 基于飞行时间tof相机的深度计算成像方法
CN108648161A (zh) * 2018-05-16 2018-10-12 江苏科技大学 非对称核卷积神经网络的双目视觉障碍物检测***及方法
CN110738241A (zh) * 2019-09-24 2020-01-31 中山大学 一种基于神经网络的双目立体视觉匹配方法及其运算框架
CN111553296A (zh) * 2020-04-30 2020-08-18 中山大学 一种基于fpga实现的二值神经网络立体视觉匹配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309411A (zh) * 2008-07-07 2008-11-19 浙江大学 一种利用深度信息的多通道视频流编码方法
CN102568026A (zh) * 2011-12-12 2012-07-11 浙江大学 一种多视点自由立体显示的三维增强现实方法
CN102622769A (zh) * 2012-03-19 2012-08-01 厦门大学 一种在动态场景下以深度为主导线索的多目标跟踪方法
CN102663712A (zh) * 2012-04-16 2012-09-12 天津大学 基于飞行时间tof相机的深度计算成像方法
CN108648161A (zh) * 2018-05-16 2018-10-12 江苏科技大学 非对称核卷积神经网络的双目视觉障碍物检测***及方法
CN110738241A (zh) * 2019-09-24 2020-01-31 中山大学 一种基于神经网络的双目立体视觉匹配方法及其运算框架
CN111553296A (zh) * 2020-04-30 2020-08-18 中山大学 一种基于fpga实现的二值神经网络立体视觉匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANG CHEN ET.AL: "StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality StereoEstimation With Binary Neural Network", 《IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS》, pages 1 - 18 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113281779A (zh) * 2021-05-20 2021-08-20 中山大学 一种3d物体快速检测方法、装置、设备及介质
CN113436258A (zh) * 2021-06-17 2021-09-24 中国船舶重工集团公司第七0七研究所九江分部 基于视觉与激光雷达融合的海上浮码头检测方法及***
CN113436258B (zh) * 2021-06-17 2023-09-12 中国船舶重工集团公司第七0七研究所九江分部 基于视觉与激光雷达融合的海上浮码头检测方法及***
CN115619740A (zh) * 2022-10-19 2023-01-17 广西交科集团有限公司 一种高精度视频测速方法、***、电子设备及存储介质
CN115619740B (zh) * 2022-10-19 2023-08-08 广西交科集团有限公司 一种高精度视频测速方法、***、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111340864B (zh) 基于单目估计的三维场景融合方法及装置
CN112633324A (zh) 一种基于神经网络的环视立体视觉匹配***、方法及介质
CN111091592B (zh) 图像处理方法、图像处理装置、电子设备及可读存储介质
CN111563923A (zh) 获得稠密深度图的方法及相关装置
CN110728717A (zh) 定位方法及装置、设备、存储介质
KR20220053513A (ko) 이미지 데이터 자동 라벨링 방법 및 장치
CN105069804B (zh) 基于智能手机的三维模型扫描重建方法
US10529081B2 (en) Depth image processing method and depth image processing system
CN110458952B (zh) 一种基于三目视觉的三维重建方法和装置
CN115035235A (zh) 三维重建方法及装置
Goga et al. Fusing semantic labeled camera images and 3D LiDAR data for the detection of urban curbs
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN110688500B (zh) 一种数据库构建方法、一种定位方法及其相关设备
KR102249381B1 (ko) 3차원 영상 정보를 이용한 모바일 디바이스의 공간 정보 생성 시스템 및 방법
CN115880555B (zh) 目标检测方法、模型训练方法、装置、设备及介质
CN114359891B (zh) 一种三维车辆检测方法、***、装置及介质
CN111656404A (zh) 图像处理方法、***及可移动平台
US20230252661A1 (en) Depth map generation method, and device and storage medium
EP4198897A1 (en) Vehicle motion state evaluation method and apparatus, device, and medium
KR20220169472A (ko) 센서 캘리브레이트 방법 및 장치, 전자 기기와 저장 매체
CN114612875A (zh) 目标检测方法、装置、存储介质及电子设备
CN115836322A (zh) 图像裁剪方法与装置、电子设备及存储介质
Ikehata et al. Confidence-based refinement of corrupted depth maps
WO2022188077A1 (zh) 测距方法及装置
CN111724431B (zh) 视差图的获得方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination