CN115471561A - 对象关键点定位方法、清洁机器人控制方法及相关设备 - Google Patents
对象关键点定位方法、清洁机器人控制方法及相关设备 Download PDFInfo
- Publication number
- CN115471561A CN115471561A CN202211419681.6A CN202211419681A CN115471561A CN 115471561 A CN115471561 A CN 115471561A CN 202211419681 A CN202211419681 A CN 202211419681A CN 115471561 A CN115471561 A CN 115471561A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- image
- points
- point
- plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004140 cleaning Methods 0.000 title claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 113
- 238000012549 training Methods 0.000 claims description 70
- 230000008569 process Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000036544 posture Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 241001417527 Pempheridae Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种对象关键点定位方法、清洁机器人控制方法及相关设备,本申请获取到对目标对象拍摄的平面图像及3D点云图像后,将3D点云图像中的点映射到平面图像上,并获取映射点对应的像素值,利用所述点在3D点云图像中的点云坐标及对应的映射点的平面像素值,构建点云像素图,利用预训练的关键点定位模型处理点云像素图,得到点云像素图中属于目标对象关键点的点云坐标。本申请综合利用了3D点云坐标的深度信息和平面像素值的二维平面信息,借助神经网络的学习能力和鲁棒性,来弥补单纯3D点云坐标信息容易出现偏差的问题,从而提升了对象关键点的定位准确度。
Description
技术领域
本申请涉及图形、图像处理技术领域,更具体的说,是涉及一种对象关键点检测方法、清洁机器人控制方法及相关设备。
背景技术
随着AI技术的不断发展和应用不断增加,对象检测在各种交互场景、监控场景、驾驶场景上均扮演不可或缺的角色,而对象关键点检测能够更进一步获取对象的姿态,示例如对人体进行关键点检测可以获取人体的眼睛、鼻子、下巴、手肘等点位,进一步可以确定人体的姿态等,在更多的AI任务中发挥重要作用。
参照图1所示,传统的对象关键点定位方案,一般是利用RGB相机和深度相机分别采集对象的RGB图像和3D点云图像,进而将RGB图像输入卷积神经网络,预测RGB图像中每个关键点在2D图像中的位置,再通过RGB相机和深度相机间的坐标系变换关系,将关键点在2D图像中的位置变换到实际的3D空间物理坐标系下,得到关键点在3D空间物理坐标系下的坐标位置。但是,实际应用场景下,受限于深度相机的精度,其采集的3D点云图像经常会出现偏差,这种偏差会导致现有技术在进行关键点向3D空间物理坐标系映射时,映射后的点与实际关键点的位置有极大的偏差,也即,最终定位得到的对象关键点不准确。
发明内容
鉴于上述问题,提出了本申请以便提供一种对象关键点检测方法、清洁机器人控制方法及相关设备,以实现提升对象关键点定位精度的目的。具体方案如下:
第一方面,提供了一种对象关键点定位方法,包括:
获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
优选地,所述平面图像采用相机拍摄得到,所述3D点云图像采用3D点云采集设备采集得到;
将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点的过程,包括:
根据标定获得的相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量,将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
优选地,所述平面图像为RGB图像,所述利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图,包括:
将所述点在3D点云图像中的点云坐标(x,y,z),与对应的映射点的平面像素值(r,g,b)进行组合,得到所述点对应的6维点云像素数据(x,y,z,r,g,b);
利用所述3D点云图像中各个所述点的6维点云像素数据(x,y,z,r,g,b),构建点云像素图。
优选地,利用预训练的关键点定位模型处理所述点云像素图的过程,包括:
将所述点云像素图表示为w*h*6维度的张量形式,输入至预训练的关键点定位模型;
其中,w表示所述3D点云图像的画幅宽度,h表示所述3D点云图像的画幅高度,w*h表示3D点云图像中包含的点的数量。
优选地,所述关键点定位模型采用pointNet网络模型结构,或pointNet++网络模型结构。
优选地,标注有各点是否属于对象关键点标签的训练点云像素图的获取过程,包括:
获取对同一对象拍摄的训练平面图像和采集的训练3D点云图像;
在训练3D点云图像上进行对象关键点标签的标注,所述对象关键点标签包括预先设定的若干个具有物理意义的实际点;
将训练3D点云图像中的点映射到所述训练平面图像上,得到训练平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在训练3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建训练点云像素图。
第二方面,提供了一种对象关键点定位装置,包括:
数据获取单元,用于获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
映射单元,用于将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点,并获取映射点对应的平面像素值;
点云像素图构建单元,用于利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
关键点定位单元,用于利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
优选地,所述平面图像采用相机拍摄得到,所述3D点云图像采用3D点云采集设备采集得到;
所述映射单元将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点的过程,包括:
根据标定获得的相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量,将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
第三方面,提供了一种清洁机器人控制方法,所述清洁机器人上设置有相机和雷达,控制方法包括:
获取所述相机对目标对象拍摄的平面图像,以及获取所述雷达采集的所述目标对象的3D点云图像;
采用上述对象关键点定位方法,处理所述平面图像及所述3D点云图像,以得到所述目标对象的关键点的点云坐标;所述关键点至少包括手部和/或头部的关键点;
根据所述目标对象的关键点的点云坐标,确定所述目标对象的手势和/或姿势;
按照所述目标对象的手势和/或姿势,控制所述清洁机器人的行进或工作方式。
第四方面,提供了一种对象关键点定位设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的对象关键点定位方法的各个步骤。
第五方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的对象关键点定位方法的各个步骤。
借由上述技术方案,本申请获取到对目标对象拍摄的平面图像及3D点云图像后,首先将3D点云图像中的点映射到平面图像上,并获取映射点对应的平面像素值,进而利用所述点在3D点云图像中的点云坐标及对应的映射点的平面像素值,构建点云像素图,然后利用预训练的关键点定位模型处理点云像素图,得到点云像素图中属于对象关键点的点云坐标。对比现有技术可知,本申请利用了点云坐标和平面图像中对应映射点的平面像素值来构建点云像素图,进而利用神经网络模型处理点云像素图,识别对象关键点的点云坐标,也即综合利用了3D点云坐标的深度信息和平面像素值的二维平面信息,借助神经网络的学习能力和鲁棒性,来弥补单纯3D点云坐标信息容易出现偏差的问题,从而提升了对象关键点的定位准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为现有的对象关键点定位方案流程示意图;
图2为本申请实施例提供的对象关键点定位方法的一流程示意图;
图3示例了一种人体关键点定位方法流程示意图;
图4为本申请实施例提供的一种清洁机器人控制方法流程示意图;
图5为本申请实施例提供的一种对象关键点定位装置结构示意图;
图6为本申请实施例提供的对象关键点定位设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种对象关键点定位方案,可以适用于需要对对象进行关键点定位的任务场景,其中对象可以是人体、动物、物品等,通过定位出对象上的关键点,可以进一步供后续任务场景处理,如智能家居、安防监控、智能驾驶场景等。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图2所述,本申请的对象关键点定位方法可以包括如下步骤:
步骤S100、获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像。
具体地,本申请可以通过相机对需要定位关键点的目标对象进行拍摄,得到平面图像。示例如,可以通过RGB相机对目标对象进行拍摄,得到RGB图像,或者是,可以通过普通相机对目标对象拍摄,得到灰度图像,等。此外,还可以通过3D点云采集设备采集目标对象的3D点云图像。其中,3D点云采集设备可以是iTOF相机、激光雷达、深度相机等具备采集3D点云数据的设备。
目标对象可以是人体,则对应的关键点可以是人体的各个具备实际物理意义的点位,如口、鼻、眼睛、耳朵、手肘等。
除此之外,目标对象还可以是动物、物品等,具体对象可以根据实际应用场景的需要而设定。
步骤S110、将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点,并获取映射点对应的平面像素值。
具体地,由于3D点云图像和平面图像都是对同一目标对象采集的,因此可以根据两种图像间的坐标系转换关系,将3D点云图像中的点映射到平面图像上,得到所述点在平面图像上的映射点,并确定映射点在平面图像上对应的平面像素值。
在将3D点云图像中的点映射到平面图像时,可以是确定3D点云图像中至少部分点在平面图像上的映射点,或者是,分别确定3D点云图像中每个点在平面图像上的映射点。
步骤S120、利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图。
具体地,3D点云图像中的点存在对应的点云坐标(x,y,z),该点云坐标代表在真实的3D空间物理坐标系下的位置,包含了点的深度信息。3D点云图像中的点在平面图像中的映射点的平面像素值,表征了二维平面的信息。本步骤中,将点在3D点云图像中的点云坐标和对应映射点的平面像素值相结合,构建了点云像素图,该点云像素图中每个点的数据中包含了点云坐标的深度信息和平面像素值信息。
步骤S130、利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于目标对象关键点的点云坐标。
其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
与普通图像不同的是,点云像素图是稀疏的实际点组成,而普通图像可以认为是像素值组成的一个连续的map,因此区别于采用卷积神经网络对普通图像进行处理的方式,本实施例中处理点云像素图的关键点定位模型,可以采用点云分割模型,如pointNet网络模型结构,或pointNet++网络模型结构。
以pointNet网络模型为例,其对于输入的点云像素图中每个点进行输入变换(input transform)和特征变换(feature transform),随后通过最大池化将特征整合在一起。然后通过softmax对每个点进行标签分类,也即确定每个点所属的类别标签。对于本案中,类别标签可以包括设定的各种对象关键点类别及非对象关键点类别。
本申请实施例提供的对象关键点定位方法,获取到对目标对象拍摄的平面图像及3D点云图像后,首先将3D点云图像中的点映射到平面图像上,并获取映射点对应的平面像素值,进而利用所述点在3D点云图像中的点云坐标及对应的映射点的平面像素值,构建点云像素图,然后利用预训练的关键点定位模型处理点云像素图,得到点云像素图中属于对象关键点的点云坐标。对比现有技术可知,本申请利用了点云坐标和平面图像中对应映射点的平面像素值来构建点云像素图,进而利用神经网络模型处理点云像素图,识别对象关键点的点云坐标,也即综合利用了3D点云坐标的深度信息和平面像素值的二维平面信息,借助神经网络的学习能力和鲁棒性,来弥补单纯3D点云坐标信息容易出现偏差的问题,从而提升了对象关键点的定位准确度。
接下来,结合图3所示,以目标对象为人体为例,介绍对人体关键点定位的流程:
S1,获取到对人体拍摄的平面图像,以及人体的3D点云图像。
S2,将3D点云图像中的点映射到平面图像上,得到平面图像上的映射点及映射点的平面像素值,利用所述点的点云坐标及对应映射点的平面像素值,构建得到点云像素图。
S3、将点云像素图输入预训练的关键点定位模型(图3中以pointNet网络模型为例),得到输出的3D人体关键点。
在本申请的一些实施例中,对上述步骤S110,将所述3D点云图像中的点映射到平面图像上的过程进行介绍。
本实施例中,以平面图像为通过相机拍摄得到,3D点云图像通过3D点云采集设备采集得到为例进行说明。
则本申请可以预先标定获得相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量。
在此基础上,可以确定相机坐标系与3D点云采集设备坐标系间的转换关系,进而可以按照该转换关系,将3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
示例性的,可以采用张正友标定法标定得到相机内参矩阵M,相机与3D点云采集设备间的旋转矩阵R和平移向量T。
定义3D点云采集设备所采集3D点云图像画幅宽度为w,高度为h,则3D点云图像中共存在w*h个点坐标。将其中每一个点I(x,y,z)通过下述公式映射到平面图像上,得到平面图像上的映射点:
其中,u,v分别表示平面图像的横纵轴坐标。
进一步地,上述步骤S120,利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图的过程,可以包括:
1)将所述点在3D点云图像中的点云坐标(x,y,z),与对应的映射点的平面像素值进行组合,得到所述点对应的N维点云像素数据。
具体地,每个点云坐标(x,y,z)按照上述公式可以转换得到在平面图像上的映射点的二维坐标(u,v),则可以在平面图像上确定坐标(u,v)处的平面像素值,作为映射点的平面像素值。进一步,将点云坐标和映射点的平面像素值进行组合,得到每个点对应的N维点云像素数据。
根据平面图像的不同类型,点云坐标在平面图像上的映射点的平面像素值的维度可能不同。
示例如,当平面图像为通过RGB相机拍摄得到的RGB图像时,则点云坐标在平面图像上的映射点的平面像素值可以表示为(r,g,b),则将点云坐标(x,y,z)和映射点的平面像素值(r,g,b)进行组合,得到每个点对应的6维点云像素数据(x,y,z,r,g,b)。
再比如,当平面图像为灰度图像时,则点云坐标在平面图像上的映射点的平面像素值可以表示为gray(gray表示灰度值,取值范围为0-255),也即,平面像素值仅是一维数据。则将点云坐标(x,y,z)和映射点的平面像素值(gray)进行组合,得到每个点对应的4维点云像素数据(x,y,z,gray)。
根据上述介绍可知,3D点云图像中共有w*h个点坐标,则一共可以得到w*h个N维点云像素数据。
2)、利用所述3D点云图像中的点的N维点云像素数据,构建点云像素图。
具体地,构建后的点云像素图中共包含w*h个点坐标,每个点坐标均包含N维点云像素数据。以平面图像为RGB图像为例,则N维点云像素数据可以表示为(x,y,z,r,g,b)。
进一步地,为了便于利用关键点定位模型处理点云像素图,本实施例中可以将上述得到的点云像素图表示为w*h*N维度的张量形式,进而将上述张量形式的点云像素图输入至预训练的关键点定位模型进行处理,得到模型的输出结果。
在本申请的一些实施例中,进一步对关键点定位模型的训练过程进行说明。
为了训练关键点定位模型,首先要获取相应的训练数据,也即获取标注有各点是否属于对象关键点标签的训练点云像素图。
该过程可以包括:
S1、获取对同一对象拍摄的训练平面图像和采集的训练3D点云图像。
S2、在训练3D点云图像上进行对象关键点标签的标注。
其中,对象关键点标签包括预先设定的若干个具有物理意义的实际点,以对象为人体为例,关键点可以是口、鼻、眼睛、耳朵、手肘等。
可选的,为了提高在3D点云图像上标注关键点标签的准确性,本申请可以将平面图像上的像素点变换到3D点云图像的坐标系下,并通过相应的软件工具显示出来,以作为辅助信息供标注人员参考,实现更精准的标注关键点标签的目的。
S3、将训练3D点云图像中的点映射到训练平面图像上,得到训练平面图像上的映射点,并获取映射点对应的平面像素值。
其中,训练3D点云图像中每个点向平面图像映射的过程,可以参照前文相关介绍,此处不再赘述。
S4、利用所述点在训练3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建训练点云像素图。
其中,训练点云像素图中每个点包含N维的点云像素数据。并且,该训练点云像素图中每个点还标记有类别标签,也即是否属于对象关键点,以及在属于时所对应的对象关键点类型。
采用上述得到的训练点云像素图作为训练数据,训练关键点标注模型,直至满足设定训练结束条件时,得到训练后的关键点标注模型。
本申请上述实施例介绍的对象关键点定位方法可以适用于需要对对象进行关键点定位的任务场景,其中对象可以是人体、动物、物品等,通过定位出对象上的关键点,可以进一步供后续任务场景处理,如智能家居、安防监控、智能驾驶场景等。为了便于理解,本实施例中以对象关键点定位方法应用于清洁机器人的控制过程场景为例进行说明。
清洁机器人可以是家庭用扫地机或公共场所、工厂用的扫地机等。清洁机器人上设置有相机和雷达,相机可以是RGB相机、双目相机等,用于拍摄平面图像。雷达可以是激光雷达,用于采集环境的3D点云图像。
则结合图4所示,本实施例提供的一种清洁机器人控制方法可以包括如下步骤:
步骤S200、获取相机对目标对象拍摄的平面图像,以及获取雷达采集的所述目标对象的3D点云图像。
步骤S210、采用对象关键点定位方法,处理所述平面图像及所述3D点云图像,以得到所述目标对象的关键点的点云坐标。
具体地,本步骤中所采用的对象关键点定位方法可以参考前述实施例,也即采用前述实施例介绍的对象关键点定位方法,处理步骤S200获取到的平面图像和3D点云图像,得到目标对象的关键点的点云坐标。
其中,目标对象为清洁机器人相机和雷达所探测到的对象,目标对象的关键点可以包括手部和/或头部的关键点,示例如手掌、手臂、手肘、眼睛、耳朵、鼻子等关键点。
步骤S220、根据所述目标对象的关键点的点云坐标,确定所述目标对象的手势和/或姿势。
具体地,为了实现能够按照用户的手势或姿势,自动控制清洁机器人,本步骤中可以根据获取的目标对象的关键点的点云坐标,来确定目标对象的手势、姿势。示例如,确定目标对象手部指向的地面区域,作为待清扫区域,确定目标对象的姿势为平躺,则可以认定目标对象当前处于免打扰状态,进而可以控制清洁机器人调整清洁路径,以避开目标用户所在区域,避免对目标用户产生干扰等。
步骤S230、按照所述目标对象的手势和/或姿势,控制所述清洁机器人的行进或工作方式。
具体地,本申请可以预先设置不同的手势、姿势所对应的控制指令,进而在上述步骤中确定了目标对象当前的手势、姿势之后,按照对应关系确定匹配的控制指令,进而按照匹配的控制指令控制清洁机器人的行进或工作方式。
通过本实施例提供的清洁机器人控制方法,可以基于前文介绍的目标对象的关键点定位方法实现对清洁机器人探测到的目标对象进行关键点定位,进而确定目标对象的手势、姿势,按照目标对象的手势、姿势,实现对清洁机器人的行进或工作方式的智能控制,极大提升了清洁机器人的工作智能化,更加便于用户的使用。
下面对本申请实施例提供的对象关键点定位装置进行描述,下文描述的对象关键点定位装置与上文描述的对象关键点定位方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种对象关键点定位装置结构示意图。
如图5所示,该装置可以包括:
数据获取单元11,用于获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
映射单元12,用于将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
点云像素图构建单元13,用于利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
关键点定位单元14,用于利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
可选的,上述平面图像可以是采用相机拍摄得到,3D点云图像可以采用3D点云采集设备采集得到。基于此,上述映射单元将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点的过程,可以包括:
根据标定获得的相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量,将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
其中,相机可以是RGB相机,拍摄的平面图像可以是RGB图像,也可以是灰度图像。
当平面图像为RGB图像时,上述点云像素图构建单元利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图的过程,可以包括:
将所述点在3D点云图像中的点云坐标(x,y,z),与对应的映射点的平面像素值(r,g,b)进行组合,得到所述点对应的6维点云像素数据(x,y,z,r,g,b);
利用所述3D点云图像中各个所述点的6维点云像素数据(x,y,z,r,g,b),构建点云像素图。
当平面图像为灰度图像时,上述点云像素图构建单元利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图的过程,可以包括:
将所述点在3D点云图像中的点云坐标(x,y,z),与对应的映射点的平面像素值(gray)进行组合,得到所述点对应的4维点云像素数据(x,y,z,gray);
利用所述3D点云图像中各个所述点的4维点云像素数据(x,y,z,gray),构建点云像素图。
可选的,上述关键点定位单元利用预训练的关键点定位模型处理所述点云像素图的过程,可以包括:
将所述点云像素图表示为w*h*N维度的张量形式,输入至预训练的关键点定位模型;
其中,w表示所述3D点云图像的画幅宽度,h表示所述3D点云图像的画幅高度,w*h表示3D点云图像中包含的点的数量,N为点云像素数据的维度,当平面图像为RGB图像时,N取值为6,当平面图像为灰度图像时,N取值为4。
可选的,上述关键点定位模型可以采用pointNet网络模型结构,或pointNet++网络模型结构。
可选的,本申请的装置还可以包括模型训练数据获取单元,用于获取标注有各点是否属于对象关键点标签的训练点云像素图,该获取过程可以包括:
获取对同一对象拍摄的训练平面图像和采集的训练3D点云图像;
在训练3D点云图像上进行对象关键点标签的标注,所述对象关键点标签包括预先设定的若干个具有物理意义的实际点;
将训练3D点云图像中的点映射到所述训练平面图像上,得到训练平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在训练3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建训练点云像素图。
本申请实施例提供的对象关键点定位装置可应用于对象关键点定位设备,如终端:手机、电脑等。可选的,图6示出了对象关键点定位设备的硬件结构框图,参照图6,对象关键点定位设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种对象关键点定位方法,其特征在于,包括:
获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
2.根据权利要求1所述的方法,其特征在于,所述平面图像采用相机拍摄得到,所述3D点云图像采用3D点云采集设备采集得到;
将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点的过程,包括:
根据标定获得的相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量,将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
3.根据权利要求2所述的方法,其特征在于,所述平面图像为RGB图像,所述利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图,包括:
将所述点在3D点云图像中的点云坐标(x,y,z),与对应的映射点的平面像素值(r,g,b)进行组合,得到所述点对应的6维点云像素数据(x,y,z,r,g,b);
利用所述3D点云图像中各个所述点的6维点云像素数据(x,y,z,r,g,b),构建点云像素图。
4.根据权利要求3所述的方法,其特征在于,利用预训练的关键点定位模型处理所述点云像素图的过程,包括:
将所述点云像素图表示为w*h*6维度的张量形式,输入至预训练的关键点定位模型;
其中,w表示所述3D点云图像的画幅宽度,h表示所述3D点云图像的画幅高度,w*h表示3D点云图像中包含的点的数量。
5.根据权利要求1所述的方法,其特征在于,所述关键点定位模型采用pointNet网络模型结构,或pointNet++网络模型结构。
6.根据权利要求1-5任一项所述的方法,其特征在于,标注有各点是否属于对象关键点标签的训练点云像素图的获取过程,包括:
获取对同一对象拍摄的训练平面图像和采集的训练3D点云图像;
在训练3D点云图像上进行对象关键点标签的标注,所述对象关键点标签包括预先设定的若干个具有物理意义的实际点;
将训练3D点云图像中的点映射到所述训练平面图像上,得到训练平面图像上的映射点,并获取映射点对应的平面像素值;
利用所述点在训练3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建训练点云像素图。
7.一种对象关键点定位装置,其特征在于,包括:
数据获取单元,用于获取对目标对象拍摄的平面图像,及采集的所述目标对象的3D点云图像;
映射单元,用于将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点,并获取映射点对应的平面像素值;
点云像素图构建单元,用于利用所述点在3D点云图像中的点云坐标,及对应的映射点的平面像素值,构建点云像素图;
关键点定位单元,用于利用预训练的关键点定位模型处理所述点云像素图,得到模型输出的所述点云像素图中属于所述目标对象关键点的点云坐标,其中,所述关键点定位模型以标注有各点是否属于对象关键点标签的训练点云像素图作为训练数据训练得到。
8.根据权利要求7所述的装置,其特征在于,所述平面图像采用相机拍摄得到,所述3D点云图像采用3D点云采集设备采集得到;
所述映射单元将所述3D点云图像中的点映射到所述平面图像上,得到所述平面图像上的映射点的过程,包括:
根据标定获得的相机内参矩阵、相机与3D点云采集设备间的旋转矩阵和平移向量,将所述3D点云图像中的点映射到平面图像上,得到平面图像上的映射点。
9.一种清洁机器人控制方法,其特征在于,所述清洁机器人上设置有相机和雷达,控制方法包括:
获取所述相机对目标对象拍摄的平面图像,以及获取所述雷达采集的所述目标对象的3D点云图像;
采用权利要求1-6任一项的对象关键点定位方法,处理所述平面图像及所述3D点云图像,以得到所述目标对象的关键点的点云坐标;所述关键点至少包括手部和/或头部的关键点;
根据所述目标对象的关键点的点云坐标,确定所述目标对象的手势和/或姿势;
按照所述目标对象的手势和/或姿势,控制所述清洁机器人的行进或工作方式。
10.一种对象关键点定位设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~6中任一项所述的对象关键点定位方法的各个步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~6中任一项所述的对象关键点定位方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419681.6A CN115471561A (zh) | 2022-11-14 | 2022-11-14 | 对象关键点定位方法、清洁机器人控制方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419681.6A CN115471561A (zh) | 2022-11-14 | 2022-11-14 | 对象关键点定位方法、清洁机器人控制方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115471561A true CN115471561A (zh) | 2022-12-13 |
Family
ID=84338209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211419681.6A Pending CN115471561A (zh) | 2022-11-14 | 2022-11-14 | 对象关键点定位方法、清洁机器人控制方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471561A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862074A (zh) * | 2023-02-28 | 2023-03-28 | 科大讯飞股份有限公司 | 人体指向确定、屏幕控制方法、装置及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555412A (zh) * | 2019-09-05 | 2019-12-10 | 深圳龙岗智能视听研究院 | 基于rgb和点云相结合的端到端人体姿态识别方法 |
CN110728172A (zh) * | 2019-08-23 | 2020-01-24 | 北京迈格威科技有限公司 | 基于点云的人脸关键点检测方法、装置、***及存储介质 |
CN110751097A (zh) * | 2019-10-22 | 2020-02-04 | 中山大学 | 一种半监督的三维点云手势关键点检测方法 |
US20200184718A1 (en) * | 2018-12-05 | 2020-06-11 | Sri International | Multi-modal data fusion for enhanced 3d perception for platforms |
US20210122045A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | In-hand object pose tracking |
CN112917470A (zh) * | 2019-12-06 | 2021-06-08 | 鲁班嫡系机器人(深圳)有限公司 | 一种机械手的示教方法、装置、***、存储介质及设备 |
WO2021134325A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳元戎启行科技有限公司 | 基于无人驾驶技术的障碍物检测方法、装置和计算机设备 |
CN113111974A (zh) * | 2021-05-10 | 2021-07-13 | 清华大学 | 基于深度典型相关分析的视觉-激光雷达融合方法及*** |
CN114332796A (zh) * | 2021-12-24 | 2022-04-12 | 燕山大学 | 一种多传感器融合体素特征图生成方法及*** |
-
2022
- 2022-11-14 CN CN202211419681.6A patent/CN115471561A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184718A1 (en) * | 2018-12-05 | 2020-06-11 | Sri International | Multi-modal data fusion for enhanced 3d perception for platforms |
CN110728172A (zh) * | 2019-08-23 | 2020-01-24 | 北京迈格威科技有限公司 | 基于点云的人脸关键点检测方法、装置、***及存储介质 |
CN110555412A (zh) * | 2019-09-05 | 2019-12-10 | 深圳龙岗智能视听研究院 | 基于rgb和点云相结合的端到端人体姿态识别方法 |
CN110751097A (zh) * | 2019-10-22 | 2020-02-04 | 中山大学 | 一种半监督的三维点云手势关键点检测方法 |
US20210122045A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | In-hand object pose tracking |
CN112917470A (zh) * | 2019-12-06 | 2021-06-08 | 鲁班嫡系机器人(深圳)有限公司 | 一种机械手的示教方法、装置、***、存储介质及设备 |
WO2021134325A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳元戎启行科技有限公司 | 基于无人驾驶技术的障碍物检测方法、装置和计算机设备 |
CN113111974A (zh) * | 2021-05-10 | 2021-07-13 | 清华大学 | 基于深度典型相关分析的视觉-激光雷达融合方法及*** |
CN114332796A (zh) * | 2021-12-24 | 2022-04-12 | 燕山大学 | 一种多传感器融合体素特征图生成方法及*** |
Non-Patent Citations (2)
Title |
---|
RADU MIRSU等: "A PointNet-Based Solution for 3D Hand Gesture Recognition", 《SENSORS》 * |
马超: "基于深度神经网络的三维目标检测与识别技术研究", 《万方数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862074A (zh) * | 2023-02-28 | 2023-03-28 | 科大讯飞股份有限公司 | 人体指向确定、屏幕控制方法、装置及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110026987B (zh) | 一种机械臂抓取轨迹的生成方法、装置、设备及存储介质 | |
US11940774B2 (en) | Action imitation method and robot and computer readable storage medium using the same | |
CN110443205B (zh) | 一种手部图像分割方法及装置 | |
CN112506340B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
CN110084243B (zh) | 一种基于二维码和单目相机的档案识别与定位方法 | |
CN114097004A (zh) | 基于视觉嵌入的自主任务性能 | |
CN102999152A (zh) | 一种手势动作识别方法和*** | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
WO2024138851A1 (zh) | 基于深度学习感知的多层级语义地图构建方法和装置 | |
WO2019001237A1 (zh) | 一种移动电子设备以及该移动电子设备中的方法 | |
CN111383263A (zh) | 机器人抓取物体***、方法及装置 | |
WO2019113859A1 (zh) | 基于机器视觉的虚拟墙构建方法及装置、地图构建方法、可移动电子设备 | |
CN109460044A (zh) | 一种基于二维码的机器人归位方法、装置及机器人 | |
CN115471561A (zh) | 对象关键点定位方法、清洁机器人控制方法及相关设备 | |
CN111964680A (zh) | 一种巡检机器人的实时定位方法 | |
CN113052907A (zh) | 一种动态环境移动机器人的定位方法 | |
CN110348359B (zh) | 手部姿态追踪的方法、装置及*** | |
CN106096565B (zh) | 基于传感网络的移动机器人与静态传感器的任务协作方法 | |
CN115862074B (zh) | 人体指向确定、屏幕控制方法、装置及相关设备 | |
CN117128965A (zh) | 充电装置定位方法、电子设备、介质及移动机器人 | |
Kiyokawa et al. | Efficient collection and automatic annotation of real-world object images by taking advantage of post-diminished multiple visual markers | |
CN113920191B (zh) | 一种基于深度相机的6d数据集构建方法 | |
CN112184766B (zh) | 一种对象的跟踪方法、装置、计算机设备和存储介质 | |
Liang et al. | Visual reconstruction and localization-based robust robotic 6-DoF grasping in the wild | |
Strobl et al. | Portable 3-D modeling using visual pose tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221213 |