CN110334237B - 一种基于多模态数据的立体对象检索方法与*** - Google Patents

一种基于多模态数据的立体对象检索方法与*** Download PDF

Info

Publication number
CN110334237B
CN110334237B CN201910636624.5A CN201910636624A CN110334237B CN 110334237 B CN110334237 B CN 110334237B CN 201910636624 A CN201910636624 A CN 201910636624A CN 110334237 B CN110334237 B CN 110334237B
Authority
CN
China
Prior art keywords
feature
feature vector
neural network
point cloud
mutual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910636624.5A
Other languages
English (en)
Other versions
CN110334237A (zh
Inventor
高跃
蒋建文
赵曦滨
万海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910636624.5A priority Critical patent/CN110334237B/zh
Publication of CN110334237A publication Critical patent/CN110334237A/zh
Application granted granted Critical
Publication of CN110334237B publication Critical patent/CN110334237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于多模态数据的立体对象检索方法与***,其中,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案,优化了对立体对象的检索性能和检索过程中的鲁棒性。

Description

一种基于多模态数据的立体对象检索方法与***
技术领域
本申请涉及立体视觉检索的技术领域,具体而言,涉及一种基于多模态数据的立体对象检索方法以及一种基于多模态数据的立体对象检索***。
背景技术
立体视觉对象检索在近年来已经能到了极大的关注,在计算机视觉领域中已经成为了热门话题,立体视觉对象检索的目的是为了可以在给定数据库中寻找到被查询的、与立体视觉对象最类似的物体。立体视觉对象有很多种视觉表示模态,如视图投影模态、网格模态、点云模态等,其中,视图投影模态和点云模态较为常用,并且基于RGB-D相机可以直接同时得到这两种模态数据。通常而言,立体视觉对象有着复杂多变的几何形状,因此,融合不同模态,如将点云模态和视图投影模态融合,得到一个立体视觉对象的表示特征,有利于完整的表示一个立体视觉对象。
而现有技术中,通常是单纯地拼接不同模态之间的特征,得到多模态融合特征。这种拼接方法,在做特征融合的时候,没有考虑不同模态特征间的相互关系,缺乏多模态数据的局部对应关系,无法利用模态间关系,对立体视觉对象进行模态增强,导致对立体视觉检索的检索性能和鲁棒性偏低。
发明内容
本申请的目的在于:对多模态数据进行特征融合,提高立体视觉对象的检索性能和鲁棒性,避免检索过程中相似立体视觉对象之间的混淆。
本申请第一方面的技术方案是:提供了一种基于多模态数据的立体对象检索方法,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
上述任一项技术方案中,进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,步骤2中,利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法,具体包括:步骤21,根据预设步长,确定滑窗大小,其中,滑窗在环路视图中根据预设规则进行滑动;步骤22,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
步骤23,滑动滑窗,重新执行步骤22,直到滑窗滑至对象视图的末端,拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
上述任一项技术方案中,进一步地,步骤2中,利用特征提取模型中的点云卷积神经网络模型,提取点云数据的第二特征向量的方法,具体包括:将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
上述任一项技术方案中,进一步地,该步骤3中,具体包括:步骤31,根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
步骤32,根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
上述任一项技术方案中,进一步地,点云数据中至少包含1024个数据点。
上述任一项技术方案中,进一步地,将样本按照欧氏距离排序后,根据预设检索阈值,选取欧氏距离小于或等于检索阈值的样本,记作检索结果,并将检索结果标记为输出样本。
本申请第二方面的技术方案是:提供了一种基于多模态数据的立体对象检索***,该***包括:数据获取模块,向量提取模块,特征生成模块,结果生成模块;数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;向量提取模块用于利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;特征生成模块用于利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;结果生成模块用于计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
上述任一项技术方案中,进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,向量提取模块具体包括:滑窗确定单元,卷积计算单元,特征拼接单元;滑窗确定单元用于根据预设步长,确定滑窗大小,并滑动滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
卷积计算单元用于在每次滑动滑窗时,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
特征拼接单元用于拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
上述任一项技术方案中,进一步地,向量提取模块还包括:特征计算单元;特征计算单元用于将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
上述任一项技术方案中,进一步地,特征生成模块具体包括:特征抽取单元,特征融合单元;特征抽取单元用于根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;特征融合单元用于根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
上述任一项技术方案中,进一步地,点云数据中至少包含1024个数据点。
本申请的有益效果是:
对一个待检索立体视觉对象,分别通过残差神经网络模型提取的视图投影特征向量、通过点云卷积神经网络模型提取的点云特征向量,然后依据多模态特征融合算法,将不同特征向量进行融合特征提取,建立检索特征,实现了从不同模态、不同层次获取立体视觉对象的特征,提高了立体视觉对象之间的可区分性,优化了对立体对象的检索性能和检索过程中的鲁棒性,有效避免了相似立体视觉对象之间发生混淆。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于多模态数据的立体对象检索方法的示意流程图;
图2是根据本申请的一个实施例的基于多模态数据的立体对象检索***的示意框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
如图1所示,本实施例提供了一种基于多模态数据的立体对象检索方法,包括:
步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图。
优选地,点云数据中至少包含1024个数据点。
具体地,以待检索立体视觉对象的中心为原点,建立空间直角坐标系,任意选取过原点的一个平面作为视图环路平面,在本实施例中,选取xy轴所在的平面作为视图环路平面。
在获取环路视图时,根据实际需求设置一定数量的相机,在本实施例中设置八台相机,所有相机朝向原点,同时对待检索立体视觉对象进行拍照,获取对象视图,这八张对象视图即构成待检索立体视觉对象的环路视图。
在获取点云数据时,使用激光点云扫描仪,对空间直角坐标系中的待检索立体视觉对象进行360度点云扫描,根据预设精度,对扫面得到的数据进行随机采样,选取数据点组成点云数据,在本实施例中,选取1024个数据点组成点云数据。
步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量。
进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法,具体包括:
步骤21,根据预设步长,确定滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
步骤22,在每次滑动滑窗过程中,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算第一次级特征向量,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,卷积神经网络的计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数,在本实施例中,可以选取特征激活函数ReLU(θ)作为阈值激活函数;
步骤23,滑动滑窗,重新执行步骤22,直到滑窗滑至对象视图的末端,拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量f1
具体地,对于第一张对象视图而言,每一次滑动滑窗,得到一个3x3的矩阵,将这个矩阵输入卷积神经网络,经过多层卷积运算,得到这个滑窗对应的结果A1,再滑动滑窗至下一个位置,同样得到结果A2,直到最后,共有An个结果(n的取值由对象视图的大小、滑窗大小、预设步长共同决定),将这n个结果进行拼接,得到第一张对象视图对应卷积神经网络的输出B1。八张对象视图对应8个卷积神经网络的输出Bm(m=1,2,…,8),再将这8个输出Bm进行平均化,得到环路视图对应的第一特征向量f1
进一步地,利用特征提取模型中的点云卷积神经网络模型,提取点云数据的第二特征向量的方法,具体包括:
步骤24,将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,全连接层的计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数,在本实施例中,可以选取特征激活函数ReLU(θ)作为阈值激活函数,并将最后一层全连接层的输出记作第二特征向量f2
步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征,其中,融合运算包括特征抽取和拼接处理。
进一步地,该步骤3中,具体包括:
步骤31,根据第一特征向量f1和第二特征向量f2进行特征抽取,即对特征向量f1和f2重新进行特征变换,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵ft3和第二相互权重矩阵ft4
具体地,特征抽取的计算公式为:
ft1=σ(Wt1*[f1]+bt1)
ft2=σ(Wt2*[f2]+bt2)
式中,Wt1和Wt2为权重矩阵,*为矩阵乘法,bt1和bt2为偏移向量,σ(θ)为阈值激活函数,ft1为特征抽取后的第一特征向量,ft2为特征抽取后的第二特征向量。在本实施例中,设定第一特征向量f1和第二特征向量f2为512维特征向量,则Wt1和Wt2为512×512维度的权重矩阵,bt1和bt2为512维的偏移向量,可以选取特征激活函数ReLU(θ)作为阈值激活函数。
可以采用两个不同维度的SoftMax(·)函数进行归一化计算,对给定范围内的数据做数学函数softmax变换,所以直接标明作用范围(维度),代表作用于不同维度。归一化的计算公式为:
ft3=SoftMax_1(ft1*ft2)
ft4=SoftMax_2(ft1*ft2)
SoftMax_1(ft1*ft2)表示函数SoftMax_1作用于ft1数据的ft2维度,即函数SoftMax_1作用于特征抽取后的第一特征向量ft1的521维度,也就是说,用特征抽取后的第二特征向量ft2的维度,限定函数SoftMax_1的作用范围,SoftMax_2(ft1*ft2)表示函数SoftMax_2作用于ft2数据的ft1维度。
步骤32,根据第一相互权重矩阵ft3和第二相互权重矩阵ft4,利用相互注意力机制和残差机制,计算第一相互增强特征ft5和第二相互增强特征ft6,将第一相互增强特征ft5和第二相互增强特征ft6进行拼接处理,生成融合特征ft7,其中,融合特征ft7的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
具体地,考虑到数据在神经网络传导过程中,由于经过太多次运算会导致回传的梯度弥散,以及不能保证变换后的特征就一定好,所以引入残差机制,加上变换前的输入(特征),可以保证梯度在回传后被保留更多,也可以加强多模态特征融合算法的鲁棒性。
相互注意力机制是一种加权索引方法,以第一相互增强特征ft5为例,ft3是一个索引器,其代表了当前特征,即特征抽取后的第一特征向量ft1,对特征抽取后的第二特征向量ft2中的获取要求,ft3中的每一位代表了ft1对ft2中每一位特征的权重,通过“*”操作,对ft3中的特征进行加权索引,获取想要的信息,生成第一相互增强特征ft5。ft1、ft2是两个特征向量,ft3是ft1到ft2的关系矩阵(相互权重矩阵),ft4是ft2到ft1的关系矩阵,通过关系矩阵相互索引,ft5是ft1通过ft3从ft2索引特征后新的增强的特征,ft6是ft2通过ft4从ft1索引特征后新的增强的特征。
步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果。
优选地,根据预设检索阈值,选取欧氏距离小于或等于检索阈值的样本,记作检索结果,并将检索结果标记为输出样本。
实施例二:
如图2所示,本实施例提供了一种基于多模态数据的立体对象检索***100,包括:数据获取模块10,向量提取模块20,特征生成模块30,结果生成模块40;
数据获取模块10用于获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;
优选地,点云数据中至少包含1024个数据点。
具体地,以待检索立体视觉对象的中心为原点,建立空间直角坐标系,任意选取过原点的一个平面作为视图环路平面,在本实施例中,选取xy轴所在的平面作为视图环路平面。
在获取环路视图时,根据实际需求设置一定数量的相机,在本实施例中设置八台相机,所有相机朝向原点,同时对待检索立体视觉对象进行拍照,获取对象视图,这八张对象视图即构成待检索立体视觉对象的环路视图。
在获取点云数据时,使用激光点云扫描仪,对空间直角坐标系中的待检索立体视觉对象进行360度点云扫描,根据预设精度,对扫面得到的数据进行随机采样,选取数据点组成点云数据,在本实施例中,选取1024个数据点组成点云数据。
向量提取模块20用于利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;
进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,向量提取模块20具体包括:滑窗确定单元21,卷积计算单元22,特征拼接单元23;
滑窗确定单元21用于根据预设步长,确定滑窗大小,并滑动滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
卷积计算单元22用于在每次滑动滑窗时,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
特征拼接单元23用于拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
进一步地,向量提取模块20还包括:特征计算单元24;特征计算单元24用于将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
特征生成模块30用于利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征,其中,融合运算包括特征抽取和拼接处理;
进一步地,特征生成模块30具体包括:特征抽取单元31,特征融合单元32;
特征抽取单元31用于根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
具体地,特征抽取的计算公式为:
ft1=σ(Wt1*[f1]+bt1)
ft2=σ(Wt2*[f2]+bt2)
式中,Wt1和Wt2为权重矩阵,*为矩阵乘法,bt1和bt2为偏移向量,σ(θ)为阈值激活函数,ft1为特征抽取后的第一特征向量,ft2为特征抽取后的第二特征向量。在本实施例中,设定第一特征向量f1和第二特征向量f2为512维特征向量,则Wt1和Wt2为512×512维度的权重矩阵,bt1和bt2为512维的偏移向量,可以选取特征激活函数ReLU(θ)作为阈值激活函数。
可以采用两个不同维度的SoftMax(·)函数进行归一化计算,对给定范围内的数据做数学函数softmax变换,所以直接标明作用范围(维度),代表作用于不同维度。归一化的计算公式为:
ft3=SoftMax_1(ft1*ft2)
ft4=SoftMax_2(ft1*ft2)
SoftMax_1(ft1*ft2)表示函数SoftMax_1作用于ft1数据的ft2维度,即函数SoftMax_1作用于特征抽取后的第一特征向量ft1的521维度,也就是说,用特征抽取后的第二特征向量ft2的维度,限定函数SoftMax_1的作用范围,SoftMax_2(ft1*ft2)表示函数SoftMax_2作用于ft2数据的ft1维度。
特征融合单元32用于根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
具体地,考虑到数据在神经网络传导过程中,由于经过太多次运算会导致回传的梯度弥散,以及不能保证变换后的特征就一定好,所以引入残差机制,加上变换前的输入(特征),可以保证梯度在回传后被保留更多,也可以加强多模态特征融合算法的鲁棒性。
相互注意力机制是一种加权索引方法,以第一相互增强特征ft5为例,ft3是一个索引器,其代表了当前特征,即特征抽取后的第一特征向量ft1,对特征抽取后的第二特征向量ft2中的获取要求,ft3中的每一位代表了ft1对ft2中每一位特征的权重,通过“*”操作,对ft3中的特征进行加权索引,获取想要的信息,生成第一相互增强特征ft5。ft1、ft2是两个特征向量,ft3是ft1到ft2的关系矩阵(相互权重矩阵),ft4是ft2到ft1的关系矩阵,通过关系矩阵相互索引,ft5是ft1通过ft3从ft2索引特征后新的增强的特征,ft6是ft2通过ft4从ft1索引特征后新的增强的特征。
结果生成模块40用于计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种基于多模态数据的立体对象检索方法与***,其中,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案,优化了对立体对象的检索性能和检索过程中的鲁棒性。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (8)

1.一种基于多模态数据的立体对象检索方法,其特征在于,该方法包括:
步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,所述环路视图至少包含三张对象视图;
步骤2,利用特征提取模型分别提取所述环路视图和所述点云数据的特征,将提取到的所述特征分别记作第一特征向量和第二特征向量;
步骤3,利用多模态特征融合算法,对所述第一特征向量和所述第二特征向量进行融合运算,生成所述待检索立体视觉对象的融合特征,将所述融合特征记作检索特征,其中,所述步骤3具体包括:
步骤31,根据所述第一特征向量和所述第二特征向量进行特征抽取,将所述特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
步骤32,根据所述第一相互权重矩阵和所述第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理,生成所述融合特征,其中,所述融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为所述第一特征向量,ft2为所述第二特征向量,ft3为所述第一相互权重矩阵,ft4为所述第二相互权重矩阵,ft5为所述第一相互增强特征,ft6为所述第二相互增强特征,ft7为所述融合特征;
步骤4,计算检索样本空间中每个样本与所述检索特征之间的欧式距离,并将所述样本按照所述欧氏距离由小到大的顺序进行排序,将排序后的所述样本记作所述待检索立体视觉对象的检索结果。
2.如权利要求1所述的基于多模态数据的立体对象检索方法,所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型,其特征在于,步骤2中,利用所述特征提取模型中的所述残差神经网络模型提取所述环路视图的所述第一特征向量的方法,具体包括:
步骤21,根据预设步长,确定滑窗大小,其中,所述滑窗在所述环路视图中根据预设规则进行滑动;
步骤22,按照像素点,提取所述滑窗中像素点数据,将提取出的所述像素点数据记作当前输入量,将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络,计算所述当前输入量对应的第一次级特征向量,并将所述第一次级特征向量记作所述当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将所述最后一层卷积神经网络的输出记作部分特征向量,其中,每一层所述卷积神经网络的计算公式相同,所述计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的所述当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
步骤23,滑动所述滑窗,重新执行步骤22,直到所述滑窗滑至所述对象视图的末端,拼接所述部分特征向量,得到所述对象视图的待定特征,对所述对象视图的所述待定特征进行平均化,得到所述第一特征向量。
3.如权利要求2所述的基于多模态数据的立体对象检索方法,其特征在于,步骤2中,利用所述特征提取模型中的所述点云卷积神经网络模型,提取所述点云数据的所述第二特征向量的方法,具体包括:
将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层,计算所述点云数据的第二次级特征向量,并将所述第二次级特征向量输入至下一层全连接层,重新计算所述第二次级特征向量,直到最后一层全连接层,并将所述最后一层全连接层的输出记作所述第二特征向量,其中,每一层所述全连接层的计算公式相同,所述计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层所述全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
4.如权利要求1所述的基于多模态数据的立体对象检索方法,其特征在于,所述点云数据中至少包含1024个数据点。
5.一种基于多模态数据的立体对象检索***,其特征在于,该***包括:数据获取模块,向量提取模块,特征生成模块,结果生成模块;
所述数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据,其中,所述环路视图至少包含三张对象视图;
所述向量提取模块用于利用特征提取模型分别提取所述环路视图和所述点云数据的特征,将提取到的所述特征分别记作第一特征向量和第二特征向量;
所述特征生成模块用于利用多模态特征融合算法,对所述第一特征向量和所述第二特征向量进行融合运算,生成所述待检索立体视觉对象的融合特征,将所述融合特征记作检索特征,其中,所述特征生成模块具体包括:特征抽取单元,特征融合单元;
所述特征抽取单元用于根据所述第一特征向量和所述第二特征向量进行特征抽取,将所述特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
所述特征融合单元用于根据所述第一相互权重矩阵和所述第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理,生成所述融合特征,其中,所述融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为所述第一特征向量,ft2为所述第二特征向量,ft3为所述第一相互权重矩阵,ft4为所述第二相互权重矩阵,ft5为所述第一相互增强特征,ft6为所述第二相互增强特征,ft7为所述融合特征;
所述结果生成模块用于计算检索样本空间中每个样本与所述检索特征之间的欧式距离,并将所述样本按照所述欧氏距离由小到大的顺序进行排序,将排序后的所述样本记作所述待检索立体视觉对象的检索结果。
6.如权利要求5所述的基于多模态数据的立体对象检索***,所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型,其特征在于,所述向量提取模块具体包括:滑窗确定单元,卷积计算单元,特征拼接单元;
所述滑窗确定单元用于根据预设步长,确定滑窗大小,并滑动所述滑窗,其中,所述滑窗在所述环路视图中根据预设规则进行滑动;
所述卷积计算单元用于在每次滑动所述滑窗时,按照像素点,提取所述滑窗中像素点数据,将提取出的所述像素点数据记作当前输入量,将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络,计算所述当前输入量对应的第一次级特征向量,并将所述第一次级特征向量记作所述当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将所述最后一层卷积神经网络的输出记作部分特征向量,其中,每一层所述卷积神经网络的计算公式相同,所述计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的所述当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
所述特征拼接单元用于拼接所述部分特征向量,得到所述对象视图的待定特征,对所述对象视图的所述待定特征进行平均化,得到所述第一特征向量。
7.如权利要求6所述的基于多模态数据的立体对象检索***,其特征在于,所述向量提取模块还包括:特征计算单元;
所述特征计算单元用于将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层,计算所述点云数据的第二次级特征向量,并将所述第二次级特征向量输入至下一层全连接层,重新计算所述第二次级特征向量,直到最后一层全连接层,并将所述最后一层全连接层的输出记作所述第二特征向量,其中,每一层所述全连接层的计算公式相同,所述计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层所述全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
8.如权利要求5所述的基于多模态数据的立体对象检索***,其特征在于,所述点云数据中至少包含1024个数据点。
CN201910636624.5A 2019-07-15 2019-07-15 一种基于多模态数据的立体对象检索方法与*** Active CN110334237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910636624.5A CN110334237B (zh) 2019-07-15 2019-07-15 一种基于多模态数据的立体对象检索方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636624.5A CN110334237B (zh) 2019-07-15 2019-07-15 一种基于多模态数据的立体对象检索方法与***

Publications (2)

Publication Number Publication Date
CN110334237A CN110334237A (zh) 2019-10-15
CN110334237B true CN110334237B (zh) 2022-03-01

Family

ID=68145001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636624.5A Active CN110334237B (zh) 2019-07-15 2019-07-15 一种基于多模态数据的立体对象检索方法与***

Country Status (1)

Country Link
CN (1) CN110334237B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539347B (zh) * 2020-04-27 2023-08-08 北京百度网讯科技有限公司 用于检测目标的方法和装置
CN113838113B (zh) * 2021-09-22 2024-02-13 京东鲲鹏(江苏)科技有限公司 三维物体识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389671A (zh) * 2018-09-25 2019-02-26 南京大学 一种基于多阶段神经网络的单图像三维重建方法
CN109684499A (zh) * 2018-12-26 2019-04-26 清华大学 一种自由视角的立体对象检索方法与***
CN109754006A (zh) * 2018-12-26 2019-05-14 清华大学 一种视图及点云融合的立体视觉内容分类方法与***
CN109857895A (zh) * 2019-01-25 2019-06-07 清华大学 基于多环路视图卷积神经网络的立体视觉检索方法与***
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619691B2 (en) * 2014-03-07 2017-04-11 University Of Southern California Multi-view 3D object recognition from a point cloud and change detection
US11556777B2 (en) * 2017-11-15 2023-01-17 Uatc, Llc Continuous convolution and fusion in neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389671A (zh) * 2018-09-25 2019-02-26 南京大学 一种基于多阶段神经网络的单图像三维重建方法
CN109684499A (zh) * 2018-12-26 2019-04-26 清华大学 一种自由视角的立体对象检索方法与***
CN109754006A (zh) * 2018-12-26 2019-05-14 清华大学 一种视图及点云融合的立体视觉内容分类方法与***
CN109857895A (zh) * 2019-01-25 2019-06-07 清华大学 基于多环路视图卷积神经网络的立体视觉检索方法与***
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN110334237A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
Snavely et al. Skeletal graphs for efficient structure from motion
CN106951484B (zh) 图片检索方法及装置、计算机设备及计算机可读介质
CN111858869B (zh) 一种数据匹配方法、装置、电子设备和存储介质
CN108229588B (zh) 一种基于深度学习的机器学习识别方法
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN110555428B (zh) 行人重识别方法、装置、服务器以及存储介质
CN110334237B (zh) 一种基于多模态数据的立体对象检索方法与***
CN112150548B (zh) 定位方法及装置、终端、存储介质
CN110544268B (zh) 一种基于结构光及SiamMask网络的多目标跟踪方法
CN114565916B (zh) 目标检测模型训练方法、目标检测方法以及电子设备
CN113327319A (zh) 一种复杂场景建模方法、装置、服务器及可读存储介质
CN109857895B (zh) 基于多环路视图卷积神经网络的立体视觉检索方法与***
CN110135428B (zh) 图像分割处理方法和装置
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN112270748B (zh) 基于图像的三维重建方法及装置
CN116468947A (zh) 刀具图像识别方法、装置、计算机设备及存储介质
WO2022252519A1 (zh) 图像处理方法、装置、终端、介质和程序
CN116071491A (zh) 一种多视角三维点云重建方法及装置
CN114913330A (zh) 点云部件分割方法、装置、电子设备与存储介质
CN113191401A (zh) 基于视觉显著性共享的用于三维模型识别的方法及装置
CN113869366A (zh) 模型训练方法、亲属关系分类方法、检索方法及相关装置
CN112825143A (zh) 深度卷积神经网络压缩方法、装置、存储介质及设备
CN113076755B (zh) 关键词提取方法、装置、设备和存储介质
CN115049731B (zh) 一种基于双目摄像头的视觉建图和定位方法
CN112927291B (zh) 三维物体的位姿确定方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant