CN114494156A - 一种物***姿估计和物理属性协同估计方法 - Google Patents

一种物***姿估计和物理属性协同估计方法 Download PDF

Info

Publication number
CN114494156A
CN114494156A CN202210000263.7A CN202210000263A CN114494156A CN 114494156 A CN114494156 A CN 114494156A CN 202210000263 A CN202210000263 A CN 202210000263A CN 114494156 A CN114494156 A CN 114494156A
Authority
CN
China
Prior art keywords
image
estimated
multispectral
material type
wavelength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210000263.7A
Other languages
English (en)
Other versions
CN114494156B (zh
Inventor
戴玉超
沈守刚
邓辉
刘奇
何人杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210000263.7A priority Critical patent/CN114494156B/zh
Publication of CN114494156A publication Critical patent/CN114494156A/zh
Application granted granted Critical
Publication of CN114494156B publication Critical patent/CN114494156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物***姿估计和物理属性协同估计方法,通过在物***姿估计的同时,获得物体的物理属性,以获得更多的交互先验信息,提高交互的准确性和稳定性。在进行机器人交互时,使用普通相机和多光谱相机同时拍摄待估计物体,对于物***姿估计,从单张视觉图像中估计物体六自由度位姿,对于物体的物理属性估计,融合视觉信息和多光谱信息以获得待估计物体的物理属性。本发明可以在物***姿估计的同时,可以同时获得物体的物理属性,以获得更多的交互先验信息,提高交互的准确性和稳定性。

Description

一种物***姿估计和物理属性协同估计方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种物***姿估计和物理属性协同估计方法。
背景技术
基于视觉的物***姿估计与物理属性协同估计在机器人抓取应用中扮演着非常重要的角色。基于视觉的方法进行物***姿估计是指从图像中获得目标物体相对于相机的位置和姿态,通常是平移距离和旋转角度。物体的物理属性估计是指估计目标物体的材料或者材质属性,比如塑料、金属、木头、玻璃等。材料的属性会有不同的视觉属性,比如光泽度或者透明度以及物体可能的触觉属性,比如硬度或者粗糙度。物体的物理属性估计在生活中具有广泛的应用前景,可以为人机交互***提供详细的材质信息,这些在日常生活中的出现的物体的制作材料决定了我们与这些物体进行交互时应注意的问题,比如在清理一个玻璃或者陶瓷水杯时,注意不能掉在地上,否则杯子将会被打碎,玻璃通常时光滑的,当我们操作时,我们应该用合适的方式操作它。
面向机器人交互应用中,比如机器人抓取操作中,首先需要估计待抓取物体的六自由度位姿,然后规划机器臂以及末端执行器进行抓取操作。因此在抓取之前提前知道物体的物理属性非常重要,比如提供先验的抓取力度,提供比较好的先验知识来更加准确和稳定的与物体进行交互。
在抓取物体的同时使用触觉传感器,在抓取的过程中实时采集触觉传感器压力信息,建立起压力和电压的关系,由采集到的电压信号可转换得到物体的抓取力信息,保证抓取的稳定性。对于物体的属性识别,通常可以使用X射线对物体进行照射获得X射线图像,然后使用图像处理方法来判断X射线图像中物体的具体材质。另外可以使用多传感器信息融合的方法进行物体的材质识别,比如红外传感器、雷达传感器、激光传感器等像物体主动发射信号,然后接收反射信号,通过对接收的反射信号进行处理,最终获得物体物理属性。
面向机器人抓取交互的场景中,需要估计待抓取物体的六自由度位姿以及抓取的力度,这样才能保证抓取的准确和稳定。
通常可以用图像传感器获得视觉图像进行物体属性分类,但是对于外观非常相似的物体,有时单纯用视觉图像时无法区分的,比如透明的塑杯和透明的玻璃杯。
现有的获得物体属性的方法通常采用主动传感器,比如雷达、激光、X光等方法来获得物体的信息,然后通过后对返回的信号处理来获得物体的物理属性,这些设备通常是庞大而昂贵的,因此不适合在机器人交互时使用。在获取待抓取物体的抓取力的时候,现有方法使用触觉传感器,在交互的时候获取抓取力,以便稳定的抓取物体,但是这种方法需要在抓取的时候同时获得抓取物体的力度,提前未知抓取力的时候,需要不断的调整,不利于寻找到最合适的抓取力度,降低了抓取时的稳定性。
发明内容
为了克服现有技术的不足,本发明提供了一种物***姿估计和物理属性协同估计方法,通过在物***姿估计的同时,获得物体的物理属性,以获得更多的交互先验信息,提高交互的准确性和稳定性。在进行机器人交互时,使用普通相机和多光谱相机同时拍摄待估计物体,对于物***姿估计,从单张视觉图像中估计物体六自由度位姿,对于物体的物理属性估计,融合视觉信息和多光谱信息以获得待估计物体的物理属性。本发明可以在物***姿估计的同时,可以同时获得物体的物理属性,以获得更多的交互先验信息,提高交互的准确性和稳定性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:设定物体的材质种类数量为N;
步骤2:建立多光谱图像特征数据库;
步骤2-1:使用多光谱相机采集所有材质种类的标准多光谱图像,每一种物体材质种类采集t个多光谱图像;多光谱相机采集图像的光谱波长数量为B;
步骤2-2:使用深度学习神经网络对采集到的多光谱图像按照不同的光谱波长分别进行特征提取,获得第i种材质种类的第b个波长光谱图像特征
Figure BDA0003453929900000023
Figure BDA0003453929900000021
其中
Figure BDA0003453929900000022
表示第i种材质种类的第b个波长第t个光谱图像的特征,b=1,2,…,B,i=1,2,…,N;
步骤2-3:将物体的材质种类和步骤2-2获取的所有光谱图像特征组成多光谱图像特征数据库,数据库中每一个光谱图像特征对应一个材质种类;
步骤3:使用普通视觉相机和多光谱相机对待估计物体进行拍摄,分别得到待估计物体的RGB图像和多光谱图像;
步骤4:计算待估计物体的多光谱图像材质种类识别概率;
步骤4-1:使用步骤2-2的深度学习神经网络对待估计物体的多光谱图像进行特征提取,获得待估计物体的多光谱图像特征;
步骤4-2:计算待估计物体的第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类第b个波长的t个光谱图像特征间的距离,能够得到t个距离值,取t个距离值的均值表示待估计物体的多光谱图像中第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第b个波长的光谱图像特征的平均距离值sb
步骤4-3:重复步骤4-2,计算待估计物体的第1个到第B个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第1个到第B个波长的光谱图像特征的平均距离值s1到sB
步骤4-4:计算待估计物体与第i种材质种类的相似度:
Figure BDA0003453929900000031
其中wb表示不同波长的光谱图像特征的平均距离值权重;
步骤4-5:重复步骤4-2到步骤4-4,计算待估计物体与所有材质种类的相似度S1,S2,…,SN
步骤4-6:采用softmax操作将相似度分数转换为概率值
Figure BDA0003453929900000032
pi表示待估计物体属于第i种材质种类的多光谱图像材质种类识别概率;
步骤5:使用神经网络分类器对待估计物体的RGB图像进行分类,得到待估计物体属于第i种材质种类的视觉图像材质种类识别概率p′i
步骤6:采用加权方式获得待估计物体的属于第i种材质种类的概率值:
Pi=W1pi+W2p′i
其中W1和W2分别表示多光谱图像材质种类识别概率的权重和视觉图像材质种类识别概率的权重;i从1取到N,计算P1到PN,选择P1到PN中的最大值对应的材质种类作为待估计物体的材质种类;
步骤7:获取待估计物体的位姿;
步骤7-1:使用目标检测方法从待估计物体的RGB图像中定位待估计物体;
步骤7-2:采用从图像中预测稠密三维坐标的方法,构建出RGB图像像素与三维坐标之间的对应关系;
步骤7-3:采用Z-buffer算法通过渲染CAD模型获得RGB图像像素点对应的三维坐标真值;使用鲁棒距离函数衡量预测三维坐标和三维坐标真值之间的误差;
步骤7-4:在预测物体三维坐标的同时预测一个掩模表示待估计物体所在像素位置;在建立RGB图像像素与三维坐标之间的关系时,只构建在掩模内部的RGB图像像素与三维坐标之间的关系,然后采用PnP+RANSAC算法计算出待估计物体的六自由度位姿。
优选地,所述步骤4-2中计算距离的方法为欧式距离或者余弦距离。
优选地,所述步骤7-1中的目标检测方法如下:
采用基于深度学习的实例分割或者语义分割模型来获得待估计物体在图像中的位置,获得物体的分割掩模,从而直接得到物体在图像中的具***置。
优选地,所述实例分割或者语义分割模型为Mask-RCNN。
优选地,所述步骤7-1中的目标检测方法如下:
采用基于深度学习的方法进行目标检测,目标检测以检测框的形式给出目标检测结果。
优选地,所述基于深度学习的方法为Faster-RCNN或YOLO。
本发明的有益效果如下:
1、本发明提出一种物***姿估计和物理属性同时估计的方法,在物***姿估计的同时,可以同时获得物体的物理属性,以获得更多的交互先验信息,提高交互的准确性和稳定性。
2、本发明由普通光学相机获得物体六自由度位姿,保证物***姿估计的实时性和准确性。
3、本发明在不增加方法复杂性的前提下,使用普通光学相机和多光谱相机的多源信息融合的方式以同时获得物体的物理属性,提高物体物理属性估计的稳定性。
附图说明
图1为本发明方法的总框架图。
图2为本发明多光谱相机拍摄物体获得数据库图像过程示意图。
图3为本发明待估计物体的多光谱图像与某一材质属性的相似度计算过程示意图。
图4为本发明待估计物体的多光谱图像计算材质种类过程示意图。
图5为本发明通过深度学习神经网络直接从多光谱图像获得物体材质种类过程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明为了解决机器人抓取过程中,交互信息不足以及抓取准确性和稳定性较低的问题,提出一种同时估计待抓取物***姿与物理属性的方法,在获得物体六自由度位姿后,提供待抓取物体物理属性的先验信息,提高抓取力度的快速获取以及抓取的稳定性。
一种物***姿估计和物理属性协同估计方法,包括如下步骤:
步骤1:设定物体的材质种类数量为N;
步骤2:建立多光谱图像特征数据库;
步骤2-1:使用多光谱相机采集所有材质种类的标准多光谱图像,每一种物体材质种类采集t个多光谱图像;多光谱相机采集图像的光谱波长数量为B;
步骤2-2:使用深度学习神经网络对采集到的多光谱图像按照不同的光谱波长分别进行特征提取,获得第i种材质种类的第b个波长光谱图像特征
Figure BDA0003453929900000053
Figure BDA0003453929900000051
其中
Figure BDA0003453929900000052
表示第i种材质种类的第b个波长第t个光谱图像的特征,b=1,2,…,B,i=1,2,…,N;
步骤2-3:将物体的材质种类和步骤2-2获取的所有光谱图像特征组成多光谱图像特征数据库,数据库中每一个光谱图像特征对应一个材质种类;
步骤3:使用普通视觉相机和多光谱相机对待估计物体进行拍摄,分别得到待估计物体的RGB图像和多光谱图像;
步骤4:计算待估计物体的多光谱图像材质种类识别概率;
步骤4-1:对拍摄的多光谱图像进行处理,使其和数据库中的多光谱图像尺寸一致,使用步骤2-2的深度学习神经网络对待估计物体的多光谱图像进行特征提取,获得待估计物体的多光谱图像特征;
步骤4-2:计算待估计物体的第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类第b个波长的t个光谱图像特征间的距离,能够得到t个距离值,取t个距离值的均值表示待估计物体的多光谱图像中第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第b个波长的光谱图像特征的平均距离值sb;根据距离来判断特征之间的相似程度,距离越大表示相似度越低,可以采用欧式距离或者余弦距离进行特征距离计算;
步骤4-3:重复步骤4-2,计算待估计物体的第1个到第B个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第1个到第B个波长的光谱图像特征的平均距离值s1到sB
步骤4-4:计算待估计物体与第i种材质种类的相似度:
Figure BDA0003453929900000061
其中wb表示不同波长的光谱图像特征的平均距离值权重;
步骤4-5:重复步骤4-2到步骤4-4,计算待估计物体与所有材质种类的相似度S1,S2,…,SN
步骤4-6:采用softmax操作将相似度分数转换为概率值
Figure BDA0003453929900000062
pi表示待估计物体属于第i种材质种类的多光谱图像材质种类识别概率;
步骤5:使用神经网络分类器对待估计物体的RGB图像进行分类,得到待估计物体属于第i种材质种类的视觉图像材质种类识别概率p′i
步骤6:采用加权方式获得待估计物体的属于第i种材质种类的概率值:
Pi=W1pi+W2p′i
其中W1和W2分别表示多光谱图像材质种类识别概率的权重和视觉图像材质种类识别概率的权重;i从1取到N,计算P1到PN,选择P1到PN中的最大值对应的材质种类作为待估计物体的材质种类;
步骤7:获取待估计物体的位姿;
步骤7-1:使用目标检测方法从待估计物体的RGB图像中定位待估计物体;
步骤7-2:采用从图像中预测稠密三维坐标的方法,构建出RGB图像像素与三维坐标之间的对应关系;使用以ResNet结构为基础编解码结构的网络来提取图像的特征,假设网络输入维度为(3×H×W)网络输出可以和输入具有相同的维度(3×H×W),包括三通道的坐标(x,y,z),也可以使用网络对图像下采样n倍,输出维度为(3×H/n×W/n)。
步骤7-3:采用Z-buffer算法通过渲染CAD模型获得RGB图像像素点对应的三维坐标真值;使用鲁棒距离函数衡量预测三维坐标和三维坐标真值之间的误差;
步骤7-4:在预测物体三维坐标的同时预测一个掩模表示待估计物体所在像素位置;在建立RGB图像像素与三维坐标之间的关系时,只构建在掩模内部的RGB图像像素与三维坐标之间的关系,然后采用PnP+RANSAC算法计算出待估计物体的六自由度位姿。
具体实施例:
物***姿估计与属性估计过程如图1所示,从RGB图像中获得物***姿,以及属于某一类别的概率,可以直接从多光谱图像中获得物体属性概率,然后最终的物体属性是由两种方式获得的属性的加权得到。
对于物***姿估计,首先在图像中定位待位姿估计物体在图像中的位置,然后进一步确定物体的位姿,使用实例分割的方法对待位姿估计和属性估计的物体进行识别与定位。
采用基于深度学习的实例分割或者语义分割模型来获得物体在图像中的位置,例如可以使用Mask-RCNN,可以获得物体的分割掩模,并且得到物体像素级的分割结果,由此可以直接得到物体在图像中的具***置。
另外也可以使用目标检测的方法对待估计的物体进行识别与定位,采用基于深度学习的方法进行目标检测,使用Faster-RCNN、YOLO的目标检测方法来检测待估计的物体在图像中的位置,目标检测会以检测框的形式给出目标检测结果,然后对检测处理出来的物体进行位姿估计。
通常图像中的物体是非常小的,有必要对包含物体的图像区域进行放大,使网络能够提取到物体上更加细节的特征,得到更好的位姿估计性能。给定一个实例分割结果,从实例分割中获得物体的包围框,或者从目标检测器直接输出目标包围框。该包围框包含位置为Cx,y的目标对象,包围框的高和宽分别为h和w像素。为了保证图像尺寸的一致性,以高和宽中的最大值来确定最终的包围框,即包围框为正方形并且尺寸为S=max(h,w),为了防止包围框未能包含物体所有区域,因此将包围框以包围框中心为参考,放大包围框至
Figure BDA0003453929900000071
然后依据此包围框将物体区域裁剪出来,然后可以将裁剪后的图像缩放至一个固定的尺寸。
采用从图像中预测稠密三维坐标的方法,构建出图像像素—三维坐标之间的对应关系,然后根据PnP算法求解出物体的位姿。使用以ResNet结构为基础编解码结构的网络来提取图像的特征,假设网络输入维度为(3×256×256)网络输出可以和输入具有相同的维度(3×256×256),包括三通道的坐标(x,y,z),也可以使用网络对图像下采样4倍,输出维度为(3×64×64)。优化预测的坐标和真实坐标之间的距离,通过渲染CAD模型来获得像素点对应的坐标真值,可以采用Z-buffer算法实现,由于真实的三维坐标可能包含外点,因此使用以下距离函数来提高模型的性能。
Figure BDA0003453929900000081
其中y,y*分别表示预测出来的三维坐标和真实的三维坐标。当距离小于阈值λ时采用欧式距离衡量两个坐标之间的误差,当距离大于阈值时采用欧式距离的平方根。因为待估计物体只存在与图像中的一部分,因此当使用目标检测来确定物体在图像中的位置时,需要在预测物体三维坐标的同时预测一个掩模来表示物体所在像素位置。在建立图像像素—三维坐标之间的关系时,只构建在掩模内部的图像像素—三维坐标之间的关系。然后根据建立起的2D-3D关系,采用PnP+RANSAC算法计算出物***姿。
在输出物体三维坐标和物体掩模的同时,使用神经网络分类器输出物体的纹理特征,用于后续的物体物理属性识别。
进行物体物理属性识别具体过程,包括使用多光谱相机进行标准多光谱图像采集,标准多光谱图像特征提取,标准多光谱图像建库。假设多光谱相机可以采集的波段数量为10,假设物体材质种类为5。分别采集所有物体类别的多光谱图像,每一个物体类别采集多份多光谱图像数据,可以围绕物体拍摄多份数据,一类物体类别共拍摄t=200份多光谱数据,如图2所示。
然后对采集到的多光谱图像数据进行特征提取,可以使用深度学习方法提取特征,根据光谱波长的不同,将提取的特征按照不同波长分开存储。获得每一类物体的光谱图像特征Fb=[f1,b,f2,b,…,ft,b],其中ft,b表示第b个波长第t张光谱图像的特征,每一个特征都有对应的材质类别标签;F10=[f1,10,f2,10,…,f200,10],表示第10个波长的200个光谱图像的特征。根据此方法建立多光谱图像特征数据库,也即每一种材质都有对应的光谱图像特征,依据光谱图像特征可以获得该光谱图像对应的材质类别。
在进行物体属性识别时,使用普通视觉相机和多光谱相机对物体进行拍摄,对拍摄的多光谱图像进行处理,使其和数据库中的多光谱图像尺寸一致,使用与建立数据库提取特征所用的深度模型进行多光谱图像特征提取,获得多光谱图像特征,每个波长的光谱图像都得到一个特征,然后根据波长计算与数据库中对应的各个波长特征间的距离,来判断特征之间的相似程度,距离越大表示相似度越低,比如采用欧式距离
Figure BDA0003453929900000091
或者余弦距离进行特征距离1-cos<fi,fi *>计算,待估计物体的某一个波长和某一个类别属性的比较可以得到t=200个距离值,取这200个个距离值的均值d表示待估计光谱图像中该波长图像与数据库中某一类别属性的该波长光谱图像特征的距离值。
为了方便表示,使用余弦相似性cos<fi,fi *>来表示特征向量之间的相似度,对于某一个物体T的多光谱图像,可以得到其与数据库中材质A不同波长的光谱图像特征的相似度:S=[s1,s2,…s10],具体过程如图3所示。通过将待估计的多光谱图像的每一个波段和材质A对应的每一个波段分别计算相似度,比如对于波长为x1 nm波段,使用与建库时相同的深度神经网络模型,提取此波段对应的光谱图以获得光谱图特征。然后与材质A对应波段x1nm的t=200个特征计算相似度,得到200个相似度,然后将其平均,得到对应于波长为x nm的平均相似度s1。同样的方法得到物体T与属性A其他波段的相似度。
因为不同波段在识别物体属性的时候具有不同的能力,因此对于不同的波长,采用不同的权重来表示不同波长特征的重要性。最终可以根据每个波段的权重进行相似度加权求和,得到总相似度。
类似的方法,可以计算当前所拍摄的物体和每一种材质多光谱图像之间的相似性来确定当前物体的材质属性。比如,当前物体T多光谱图像和材质A多光谱图像的相似度可以表示为:
Figure BDA0003453929900000092
其中wb表示不同波长光谱图像对应的权重。
然后计算当前物体T和所有材质类别的多光谱图像相似度S=[S1,S2,…,S5]。采用softmax操作将相似度分数转换为概率值
Figure BDA0003453929900000093
可以使用得分最高的属性类别作为最终的结果。如图4所示。
另外一种方式,可以直接采集物体属性的多光谱图像数据库并且进行属性类别标记,直接设计一种深度神经网络在这些采集的多光谱图像数据上进行训练,对于待估计的多光谱图像,将其看成一个分类问题,深度神经网络可直接输出对应的属性概率,能够比较大的降低建立特征数据库的成本,如图5所示。但是可能会导致训练的复杂度增大,因为当有新的物体属性加加入到数据库中时,可能需要重新对深度神经网络进行训练。
为了增加属性识别的准确性,充分利用视觉图像信息,因此使用从图像中提取的纹理特征来预测该物体物理属性的类别。具体的说,使用深度神经网络从物体纹理特征中直接预测物体物理属性的概率值p′n
联合从视觉图像和从多光谱图像的预测结果,可以得到物体最终的物理属性。采用加权的方式获得物体材质属于某一类别的概率值,如Pn=W1pn+W2p′n,其中Pn表示物体属性为n的概率值,W1和W2表示光谱信息的权重和视觉图像信息的权重,pn根据光谱信息将物体属性识别为n的概率,p′n表示根据视觉图像信息将物体属性识别为n的概率,如图1所示。计算出所有材质的概率值,选择最大的概率值对应的材质种类作为当前物体最终的材质种类。

Claims (6)

1.一种物***姿估计和物理属性协同估计方法,其特征在于,包括如下步骤:
步骤1:设定物体的材质种类数量为N;
步骤2:建立多光谱图像特征数据库;
步骤2-1:使用多光谱相机采集所有材质种类的标准多光谱图像,每一种物体材质种类采集t个多光谱图像;多光谱相机采集图像的光谱波长数量为B;
步骤2-2:使用深度学习神经网络对采集到的多光谱图像按照不同的光谱波长分别进行特征提取,获得第i种材质种类的第b个波长光谱图像特征
Figure FDA0003453929890000012
Figure FDA0003453929890000013
其中
Figure FDA0003453929890000014
表示第i种材质种类的第b个波长第t个光谱图像的特征,b=1,2,…,B,i=1,2,…,N;
步骤2-3:将物体的材质种类和步骤2-2获取的所有光谱图像特征组成多光谱图像特征数据库,数据库中每一个光谱图像特征对应一个材质种类;
步骤3:使用普通视觉相机和多光谱相机对待估计物体进行拍摄,分别得到待估计物体的RGB图像和多光谱图像;
步骤4:计算待估计物体的多光谱图像材质种类识别概率;
步骤4-1:使用步骤2-2的深度学习神经网络对待估计物体的多光谱图像进行特征提取,获得待估计物体的多光谱图像特征;
步骤4-2:计算待估计物体的第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类第b个波长的t个光谱图像特征间的距离,能够得到t个距离值,取t个距离值的均值表示待估计物体的多光谱图像中第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第b个波长的光谱图像特征的平均距离值sb
步骤4-3:重复步骤4-2,计算待估计物体的第1个到第B个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第1个到第B个波长的光谱图像特征的平均距离值s1到sB
步骤4-4:计算待估计物体与第i种材质种类的相似度:
Figure FDA0003453929890000011
其中wb表示不同波长的光谱图像特征的平均距离值权重;
步骤4-5:重复步骤4-2到步骤4-4,计算待估计物体与所有材质种类的相似度S1,S2,…,SN
步骤4-6:采用softmax操作将相似度分数转换为概率值
Figure FDA0003453929890000021
pi表示待估计物体属于第i种材质种类的多光谱图像材质种类识别概率;
步骤5:使用神经网络分类器对待估计物体的RGB图像进行分类,得到待估计物体属于第i种材质种类的视觉图像材质种类识别概率p′i
步骤6:采用加权方式获得待估计物体的属于第i种材质种类的概率值:
Pi=W1pi+W2p′i
其中W1和W2分别表示多光谱图像材质种类识别概率的权重和视觉图像材质种类识别概率的权重;i从1取到N,计算P1到PN,选择P1到PN中的最大值对应的材质种类作为待估计物体的材质种类;
步骤7:获取待估计物体的位姿;
步骤7-1:使用目标检测方法从待估计物体的RGB图像中定位待估计物体;
步骤7-2:采用从图像中预测稠密三维坐标的方法,构建出RGB图像像素与三维坐标之间的对应关系;
步骤7-3:采用Z-buffer算法通过渲染CAD模型获得RGB图像像素点对应的三维坐标真值;使用鲁棒距离函数衡量预测三维坐标和三维坐标真值之间的误差;
步骤7-4:在预测物体三维坐标的同时预测一个掩模表示待估计物体所在像素位置;在建立RGB图像像素与三维坐标之间的关系时,只构建在掩模内部的RGB图像像素与三维坐标之间的关系,然后采用PnP+RANSAC算法计算出待估计物体的六自由度位姿。
2.根据权利要求1所述的一种物***姿估计和物理属性协同估计方法,其特征在于,所述步骤4-2中计算距离的方法为欧式距离或者余弦距离。
3.根据权利要求1所述的一种物***姿估计和物理属性协同估计方法,其特征在于,所述步骤7-1中的目标检测方法如下:
采用基于深度学习的实例分割或者语义分割模型来获得待估计物体在图像中的位置,获得物体的分割掩模,从而直接得到物体在图像中的具***置。
4.根据权利要求3所述的一种物***姿估计和物理属性协同估计方法,其特征在于,所述实例分割或者语义分割模型为Mask-RCNN。
5.根据权利要求1所述的一种物***姿估计和物理属性协同估计方法,其特征在于,所述步骤7-1中的目标检测方法如下:
采用基于深度学习的方法进行目标检测,目标检测以检测框的形式给出目标检测结果。
6.根据权利要求5所述的一种物***姿估计和物理属性协同估计方法,其特征在于,所述基于深度学习的方法为Faster-RCNN或YOLO。
CN202210000263.7A 2022-01-03 2022-01-03 一种物***姿估计和物理属性协同估计方法 Active CN114494156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210000263.7A CN114494156B (zh) 2022-01-03 2022-01-03 一种物***姿估计和物理属性协同估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210000263.7A CN114494156B (zh) 2022-01-03 2022-01-03 一种物***姿估计和物理属性协同估计方法

Publications (2)

Publication Number Publication Date
CN114494156A true CN114494156A (zh) 2022-05-13
CN114494156B CN114494156B (zh) 2024-03-08

Family

ID=81510077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210000263.7A Active CN114494156B (zh) 2022-01-03 2022-01-03 一种物***姿估计和物理属性协同估计方法

Country Status (1)

Country Link
CN (1) CN114494156B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280591A (ja) * 2003-03-17 2004-10-07 Ntt Data Corp マルチスペクトル画像処理装置、マルチスペクトル画像処理方法、およびコンピュータが実行するためのプログラム
CN110322485A (zh) * 2019-06-25 2019-10-11 南京大学 一种异构多相机成像***的快速图像配准方法
CA3145736A1 (en) * 2019-07-01 2021-01-07 Geomagical Labs, Inc. Method and system for image generation
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113674400A (zh) * 2021-08-18 2021-11-19 公安部物证鉴定中心 基于重定位技术的光谱三维重建方法、***及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280591A (ja) * 2003-03-17 2004-10-07 Ntt Data Corp マルチスペクトル画像処理装置、マルチスペクトル画像処理方法、およびコンピュータが実行するためのプログラム
CN110322485A (zh) * 2019-06-25 2019-10-11 南京大学 一种异构多相机成像***的快速图像配准方法
CA3145736A1 (en) * 2019-07-01 2021-01-07 Geomagical Labs, Inc. Method and system for image generation
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113674400A (zh) * 2021-08-18 2021-11-19 公安部物证鉴定中心 基于重定位技术的光谱三维重建方法、***及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈廷炯;秦威;邹德伟;: "基于语义分割和点云配准的物体检测与位姿估计", 电子技术, no. 01, 20 January 2020 (2020-01-20) *

Also Published As

Publication number Publication date
CN114494156B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Nadeem et al. Human actions tracking and recognition based on body parts detection via Artificial neural network
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
US20230418389A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
US9639748B2 (en) Method for detecting persons using 1D depths and 2D texture
CN103390164B (zh) 基于深度图像的对象检测方法及其实现装置
CN104036546B (zh) 一种基于自适应形变模型的任意视角人脸三维重构方法
CN106156778B (zh) 用于识别机器视觉***的视野中的已知对象的方法
Singha et al. Hand gesture recognition based on Karhunen-Loeve transform
CN110751097B (zh) 一种半监督的三维点云手势关键点检测方法
CN114693661A (zh) 一种基于深度学习的快速分拣方法
Zu Borgsen et al. Automated door detection with a 3D-sensor
CN112949380B (zh) 一种基于激光雷达点云数据的智能水下目标识别***
CN115816460A (zh) 一种基于深度学习目标检测与图像分割的机械手抓取方法
CN116229189B (zh) 基于荧光内窥镜的图像处理方法、装置、设备及存储介质
CN110826575A (zh) 一种基于机器学习的水下目标识别方法
CN113034575A (zh) 一种模型构建方法、位姿估计方法及物体拣取装置
CN114548253A (zh) 一种基于图像识别及动态匹配的数字孪生模型构建***
CN116486287A (zh) 基于环境自适应机器人视觉***的目标检测方法及***
CN110895683A (zh) 一种基于Kinect的单视点手势姿势识别方法
CN115861999A (zh) 一种基于多模态视觉信息融合的机器人抓取检测方法
Kanaujia et al. Part segmentation of visual hull for 3d human pose estimation
CN116703895B (zh) 基于生成对抗网络的小样本3d视觉检测方法及其***
Holte et al. View invariant gesture recognition using the CSEM SwissRanger SR-2 camera
CN114494156B (zh) 一种物***姿估计和物理属性协同估计方法
CN117011380A (zh) 一种目标物体的6d位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant