CN114998277B

CN114998277B - 抓取点识别方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114998277B
Application number: CN202210679169.9A
Authority: CN
Inventors: 怯金阁; 高一星; 封润洋; 王鑫; 杨杰龙; 常毅
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2024-05-17
Anticipated expiration: 2042-06-16
Also published as: CN114998277A

Abstract

本申请公开了一种抓取点识别方法、装置、电子设备及计算机存储介质。其中，上述方法包括：获取目标状态下的目标物体对应的目标真实图像；提取目标真实图像对应的目标真实领域特征以及目标合成领域特征；将目标真实领域特征和目标合成领域特征按照目标权重比例进行融合，得到目标物体对应的目标跨域特征；基于目标跨域特征确定目标物体对应的抓取点。本方案通过将真实领域特征和合成领域特征进行跨域特征融合，增强抓取点识别过程的跨域表达能力，并基于跨域特征确定物体的抓取点，实现即使是面对例如变形空间更大、抓取困难度更高的衣物等结构复杂的物体，也能够识别到精准的抓取点，提升抓取点识别的鲁棒性以及识别精度。

Description

抓取点识别方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种抓取点识别方法、装置、电子设备及计算机存储介质。

背景技术

随着人工智能、机器视觉等技术的不断提高，在装配、搬运、展开衣物、辅助穿衣等场景中，自动化设备越来越多，机器人代替人工已是大势所趋。在机器人的操作中，对物体的抓取是其中的关键步骤，其能极大拓展机器人的应用场景。同时，在物体的抓取过程中，抓取点的选取对抓取结果影响较大，合适抓取点的选取是后续抓取操作的前提。

目前，在数据驱动的监督深度学习范式中，主要通过3D物理引擎生成的合成数据作为训练数据扩充，结合真实数据共同进行抓取点识别模型的训练，并使用特征转换或风格迁移技术去弥补合成数据与真实数据之间的外观差异。但由于外部特征对模型泛化能力的影响较为微小，在面对结构复杂的物体，例如变形空间更大、抓取困难度更高的衣物时，上述方案并不能够识别到精准的抓取点，进而无法高效地对结构复杂的物体进行抓取。

发明内容

本申请实施例提供了一种抓取点识别方法、装置、电子设备及计算机存储介质，通过将真实领域特征和合成领域特征进行跨域特征融合，增强抓取点识别过程的跨域表达能力，并基于跨域特征确定物体的抓取点，提升抓取点识别的鲁棒性以及识别精度。上述技术方案如下：

第一方面，本申请实施例提供了一种抓取点识别方法，上述方法包括：

获取目标状态下的目标物体对应的目标真实图像；

提取上述目标真实图像对应的目标真实领域特征以及目标合成领域特征；

将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征；

基于上述目标跨域特征确定上述目标物体对应的抓取点。

在一种可能的实现方式中，上述将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征之前，上述方法还包括：

获取深度图像集合；上述深度图像集合包括上述目标状态下已知目标抓取点的物体对应的真实图像以及合成图像；

提取上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征；

将上述真实领域特征和上述合成领域特征按照初始权重比例进行融合，得到上述物体对应的跨域特征；

基于上述跨域特征确定上述物体对应的预测抓取点；

基于上述预测抓取点以及上述目标抓取点更新上述初始权重比例，得到上述真实领域特征和上述合成领域特征各自对应的目标权重比例。

在一种可能的实现方式中，上述提取上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征，包括：

提取上述真实图像以及上述合成图像各自对应的基础特征；

将上述真实图像以及上述合成图像各自对应的基础特征分别输入各自对应的可变形卷积网络中，分别输出上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征。

在一种可能的实现方式中，上述提取上述目标真实图像对应的目标真实领域特征以及目标合成领域特征，包括：

利用预训练的ResNet101模型提取上述目标真实图像对应的基础特征；

将上述目标真实图像对应的基础特征分别输入真实领域可变形卷积网络和合成领域可变形卷积网络中，分别输出上述目标真实图像对应的目标真实领域特征以及目标合成领域特征。

在一种可能的实现方式中，上述将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征，包括：

将上述目标真实领域特征和上述目标合成领域特征进行张量拼接，得到拼接特征；

利用多层卷积网络按照目标权重比例对上述拼接特征进行融合，得到上述目标物体对应的目标跨域特征。

在一种可能的实现方式中，上述基于上述目标跨域特征确定上述目标物体对应的抓取点，包括：

利用全连接网络将上述目标跨域特征映射至预设数量的神经元，输出上述目标物体对应的抓取点；上述抓取点表征三维空间下上述目标物体对应的可抓取的位置坐标。

在一种可能的实现方式中，上述目标物体为处于悬置状态下的衣物；上述基于上述目标跨域特征确定上述目标物体对应的抓取点之后，上述方法还包括：

基于上述目标真实图像确定上述衣物的类型；

根据上述抓取点以及上述衣物的类型进行动作规划；

根据上述动作规划以及上述抓取点将上述衣物展开至可穿状态。

第二方面，本申请实施例提供了一种抓取点识别装置，上述抓取点识别装置包括：

第一获取模块，用于获取目标状态下的目标物体对应的目标真实图像；

第一提取模块，用于提取上述目标真实图像对应的目标真实领域特征以及目标合成领域特征；

第一融合模块，用于将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征；

第一确定模块，用于基于上述目标跨域特征确定上述目标物体对应的抓取点。

在一种可能的实现方式中，上述抓取点识别装置还包括：

第二获取模块，用于获取深度图像集合；上述深度图像集合包括上述目标状态下已知目标抓取点的物体对应的真实图像以及合成图像；

第二提取模块，用于提取上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征；

第二融合模块，用于将上述真实领域特征和上述合成领域特征按照初始权重比例进行融合，得到上述物体对应的跨域特征；

第二确定模块，用于基于上述跨域特征确定上述物体对应的预测抓取点；

更新模块，用于基于上述预测抓取点以及上述目标抓取点更新上述初始权重比例，得到上述真实领域特征和上述合成领域特征各自对应的目标权重比例。

在一种可能的实现方式中，上述第二提取模块包括：

第一提取单元，用于提取上述真实图像以及上述合成图像各自对应的基础特征；

第一可变形卷积单元，用于将上述真实图像以及上述合成图像各自对应的基础特征分别输入各自对应的可变形卷积网络中，分别输出上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征。

在一种可能的实现方式中，上述第一提取模块包括：

第二提取单元，用于利用预训练的ResNet101模型提取上述目标真实图像对应的基础特征；

第二可变形卷积单元，用于将上述目标真实图像对应的基础特征分别输入真实领域可变形卷积网络和合成领域可变形卷积网络中，分别输出上述目标真实图像对应的目标真实领域特征以及目标合成领域特征。

在一种可能的实现方式中，上述第一融合模块包括：

张量拼接单元，用于将上述目标真实领域特征和上述目标合成领域特征进行张量拼接，得到拼接特征；

融合单元，用于利用多层卷积网络按照目标权重比例对上述拼接特征进行融合，得到上述目标物体对应的目标跨域特征。

在一种可能的实现方式中，上述第一确定模块具体用于：

在一种可能的实现方式中，上述抓取点识别装置还包括：

第三确定模块，用于基于上述目标真实图像确定上述衣物的类型；

动作规划模块，用于根据上述抓取点以及上述衣物的类型进行动作规划；

展开模块，用于根据上述动作规划以及上述抓取点将上述衣物展开至可穿状态。

第三方面，本申请实施例提供了一种电子设备，包括：处理器以及存储器；

上述处理器与上述存储器相连；

上述存储器，用于存储可执行程序代码；

上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序，以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本说明书实施例提供了一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请一个或多个实施例中，通过获取目标状态下的目标物体对应的目标真实图像，并提取目标真实图像对应的目标真实领域特征以及目标合成领域特征，以及将目标真实领域特征和目标合成领域特征按照目标权重比例进行融合，得到目标物体对应的目标跨域特征，从而基于目标跨域特征确定目标物体对应的抓取点，通过将真实领域特征和合成领域特征进行跨域特征融合，增强抓取点识别过程的跨域表达能力，并基于跨域特征确定物体的抓取点，实现即使是面对例如变形空间更大、抓取困难度更高的衣物等结构复杂的物体，也能够识别到精准的抓取点，提升抓取点识别的鲁棒性以及识别精度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一示例性实施例提供的一种抓取点识别***的结构示意图；

图2为本申请一示例性实施例提供的一种抓取点识别方法的架构示意图；

图3为本申请一示例性实施例提供的一种抓取点识别方法的流程示意图；

图4为本申请一示例性实施例提供的一种机器人辅助穿衣场景中衣物抓取点识别过程示意图；

图5为本申请一示例性实施例提供的一种抓取点识别方法的训练架构示意图；

图6为本申请一示例性实施例提供的一种抓取点识别方法中目标权重比例的训练方法的流程示意图；

图7为本申请一示例性实施例提供的一种基于抓取点识别方法进行机器人辅助穿衣的流程示意图；

图8为本申请一示例性实施例提供的一种医疗衣物辅助穿衣场景下机器人辅助穿衣的过程示意图。

图9为本申请实施例提供的一种抓取点识别装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的特征和优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

请参考图1，图1为本说明书一示例性实施例提供的一种抓取点识别***的结构示意图。如图1所示，该抓取点识别***可以包括：深度图像采集设备110、服务器120。其中：

深度图像采集设备110可以为专业的深度成像摄像头，例如但不限于微软Kinectv2等。当用户想要通过机器人抓取目标状态下的目标物体时，可以先通过图1所示的抓取点识别***中的深度图像采集设备110对上述目标物体对应的目标真实图像进行采集，然后再通过网络将上述目标真实图像发送至服务器120，由服务器120进行对应的抓取点识别。为了更加精确地实现机器人对目标物体的抓取点识别以及更高效地实现机器人对目标物体的抓取，上述深度图像采集设备110可以但不限于直接安装在机器人上。

服务器120可以是能提供多种抓取点识别的服务器，可以通过网络接收深度图像采集设备110发送的目标真实图像等数据，并提取目标真实图像对应的目标真实领域特征以及目标合成领域特征，以及将目标真实领域特征和目标合成领域特征按照目标权重比例进行融合，得到目标物体对应的目标跨域特征，从而基于目标跨域特征确定目标物体对应的抓取点。服务器120还可以通过网络给机器人发送上述目标物体对应的抓取点等，以使机器人能够根据上述抓取点实现对目标物体的抓取。服务器120可以但不限于是硬件服务器、虚拟服务器、云服务器等。

网络可以是在服务器120和深度图像采集设备110之间或服务器120与机器人之间提供通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。传输介质可以是有线链路(例如但不限于，同轴电缆、光纤和数字用户线路(digital subscriberline，DSL)等)或无线链路(例如但不限于，无线上网(wireless fidelity，WIFI)、蓝牙和移动设备网络等)。

可以理解地，图1所示的抓取点识别***中的深度图像采集设备110和服务器120的数目仅作为示例，在具体实现中，该抓取点识别***中可以包含任意数目的深度图像采集设备和服务器。本说明书实施例对此不作具体限定。例如但不限于，服务器120可以是多个服务器组成的服务器集群，深度图像采集设备110可以是多个深度图像采集设备组成的深度图像采集设备集群。

进一步地，上述抓取点识别***可以应用于诸多应用场景中，例如但不限于家居场景、吃饭场景、医院场景和户外场景等，即可以通过该抓取点识别***精准地识别出家具、碗筷、以及衣物等多种物体各自对应的抓取点，以使机器人能够根据识别出的抓取点进行家具搬运、喂小孩或不能自理的老人吃饭、以及辅助老年人或医护人员等特殊人群进行穿衣、脱衣等，从而在全球人口老龄化问题的不断加剧，劳动力日益紧缺的社会现状下，尽可能减轻人们的生活负担，提高人们的生活质量和做事效率。

目前，由于物体对应的真实领域数据(真实图像)难以得到，通常引入3D物理引擎生成的合成领域数据(合成图像)作为训练数据扩充，再结合真实数据共同进行抓取点识别模型的训练。但是，合成领域数据与真实领域数据之间存在天然的领域差异，这使得抓取点识别模型在协同数据训练上的性能提升不明显，从而导致对物体的抓取点识别不够精准。相关的技术中，主要通过使用特征转换或风格迁移技术去弥补合成领域数据与真实领域数据之间的差异。但由于外部特征对模型泛化能力的影响较为微小，在面对结构复杂的物体，例如变形空间更大、抓取困难度更高的衣物时，上述方案并不能够识别到精准的抓取点，进而无法让机器人高效地实现对结构复杂的物体进行抓取。

为解决上述问题，本申请实施例提出了一种抓取点识别方法，通过自适应地提取合成领域数据与真实领域数据的特定特征，即真实领域特征和合成领域特征，并将上述真实领域特征和合成领域特征融合为鲁棒的跨域表征，从而增强抓取点识别过程的跨域表达能力，并基于跨域特征确定物体的抓取点，实现即使是面对例如变形空间更大、抓取困难度更高的衣物等结构复杂的物体，也能够识别到精准的抓取点，提升抓取点识别的鲁棒性以及识别精度。

示例性地，图2为本说明书一示例性实施例提供的一种抓取点识别方法的架构示意图。如图2所示，该抓取点识别方法的架构可以称之为跨域表征学习框架，包括：目标真实图像、基础特征提取模块、领域特征提取模块、特征融合模块以及跨域表征模块。其中：

上述目标真实图像为由深度图像采集设备对目标状态下的目标物体进行采集得到的深度图像。

上述基础特征提取模块可以由预训练的ResNet101模型组成，用于提取目标真实图像对应的与具体数据领域无关的基础特征

上述领域特征提取模块由真实领域可变形卷积分支和合成领域可变形卷积分支组成。上述真实领域可变形卷积分支用于在上述基础特征(作为真实领域数据对应的基础特征/>)上，根据真实领域对应的偏移位置权重/>通过偏移量生成器学习真实领域特定的采样偏移Δp^r，以及通过权重生成器学习真实领域特定的采样权重Δm^r，从而调制上述真实领域可变形卷积得到目标真实图像对应的目标真实领域特征F^r。上述合成领域可变形卷积分支用于在上述基础特征/>(作为合成领域数据对应的基础特征/>)上，根据合成领域对应的偏移位置权重/>通过偏移量生成器学习合成领域特定的采样偏移Δp^s，以及通过权重生成器学习合成领域特定的采样权重Δm^s，从而调制上述合成领域可变形卷积得到目标真实图像对应的目标合成领域特征F^s。上述调制合成领域可变形卷积以及真实领域可变形卷积的过程如下所示：

其中，假定可变形卷积的卷积核共包含K个采样位置，w_k和p_k分别表示第k个采样位置的权重和偏移量。x(p)为输入特征图x在p位置的特征，y(p)为输出特征图y在p位置的特征。Δm_k为与卷积核中第k个采样位置的权重对应位置采样点在卷积采样时的偏移权重。

示例性地，当K＝9时，p_k∈{(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}定义了一个3×3，膨胀率为1的卷积核。上述K的取值可依据实际运用情况进行设定，本申请实施例对此不作限定。

上述特征融合模块用于将上述领域特征提取模块得到的目标真实图像对应的目标真实领域特征F^r以及目标合成领域特征F^s进行融合，从而得到上述目标物体对应的目标跨域特征。

上述跨域表征模块由具有预设数量的神经元的全连接网络(Fully-Connected，FC)组成，用于将上述目标跨域特征映射至预设数量的神经元，从而输出目标物体对应的抓取点。上述抓取点表征三维空间下目标物体对应的可抓取的位置坐标。

示例性地，如图2所示，上述预设数量可以为6个，其中前三个神经元对应第一个抓取点的3D坐标(x₁,y₁,z₁)，后三个神经元对应第二个抓取点的3D坐标(x₂,y₂,z₂)。

可以理解地，上述预设数量可以为3、6、9等任意3的倍数，即对应识别出的抓取点的个数可以为1个、2个、3个等任意数量，本申请实施例对此不作限定。

接下来结合图1-图2，介绍本说明书实施例提供的抓取点识别方法。具体请参考图3，其示例性示出了本申请实施例提供的一种抓取点识别方法的流程图。如图3所示，该抓取点识别方法包括以下几个步骤：

S301，获取目标状态下的目标物体对应的目标真实图像。

具体地，当用户想要通过机器人抓取目标状态下的目标物体时，可以先通过图1所示的抓取点识别***中的深度图像采集设备110对上述目标物体对应的目标真实图像进行采集，然后再通过网络将上述目标真实图像发送至服务器120。服务器120可以通过网络获取到深度图像采集设备110发送的目标状态下的目标物体对应的目标真实图像。上述目标真实图像为由深度图像采集设备对目标状态下的目标物体进行采集得到的深度图像。上述目标状态可以为目标物体处于目标位置时，在重力作用下呈现出的状态，上述目标位置可以是特定的位置，也可以是任意位置等，本申请实施例对此不作限定。

S302，提取目标真实图像对应的目标真实领域特征以及目标合成领域特征。

具体地，服务器120在获取到目标物体对应的目标真实图像之后，可以先利用预训练的ResNet101模型提取上述目标真实图像对应的基础特征，然后再将上述目标真实图像对应的基础特征分别输入真实领域可变形卷积网络和合成领域可变形卷积网络中，分别输出上述目标真实图像对应的目标真实领域特征以及目标合成领域特征。上述基础特征为与领域无关的特征。上述预训练的ResNet101模型是计算机视觉领域性能较为优良的图像处理架构，对目标真实图像进行真实领域特征提取，以及将目标真实图像看作目标合成图像并对其进行合成领域特征提取时，需要将ResNet101模型的输入尺寸与上述目标真实图像的尺寸对应，通道数对应，并指定目标真实图像地址和目标合成图像地址，即可利用GPU进行领域特征提取。

本申请实施例通过分别对目标真实领域特征和目标合成领域特征进行提取，从而使得在进行实际抓取点识别时能够更充分地利用各自领域的特征，更好地利用训练时的合成数据(合成图像)，提升抓取点识别的识别精度。

S303，将目标真实领域特征和目标合成领域特征按照目标权重比例进行融合，得到目标物体对应的目标跨域特征。

具体地，服务器120在提取完目标真实图像对应的目标真实领域特征以及目标合成领域特征之后，可以先将上述目标真实领域特征和上述目标合成领域特征进行张量拼接，得到拼接特征，然后再利用多层卷积网络按照目标权重比例对拼接特征进行融合，得到目标物体对应的目标跨域特征。上述目标权重比例基于上述目标状态下已知目标抓取点的物体对应的真实图像以及合成图像进行训练得到。上述目标权重比例可以为目标真实领域特征：目标合成领域特征＝9：1、8：2等，本申请实施例对此不作限定。

本申请实施例通过将目标真实领域特征和目标合成领域特征进行跨域表征融合，得到鲁棒的目标跨域特征，从而进一步提升抓取点的识别精度。

S304，基于目标跨域特征确定目标物体对应的抓取点。

具体地，在得到目标物体对应的目标跨域特征之后，服务器120还可以利用全连接网络将目标跨域特征映射至预设数量的神经元中，从而输出上述目标物体对应的抓取点。上述抓取点表征三维空间下目标物体对应的可抓取的位置坐标。上述预设数量可以为3、6、9等任意3的倍数，即对应输出的抓取点的个数可以为1个、2个、3个等任意数量，本申请实施例对此不作限定。

示例性地，在机器人进行辅助穿衣的场景中，上述目标物体为衣物，上述目标状态为悬置状态，如图4所示，当服务器120获取到处于悬置状态下的衣物对应的目标真实图像410之后，可以将其输入如图2所示的抓取点识别方法的架构中，即输入跨域表征学习框架420中，从而通过抓取点识别方法输出上述目标真实图像410中的衣物对应的抓取点A(x_a,y_a,z_a)和B(x_b,y_b,z_b)。上述悬置状态表征衣物位于衣架上时，在重力作用下所呈现出的状态。

本申请实施例中，通过提取处于目标状态下的目标物体对应的目标真实图像的真实领域特征和合成领域特征，并将真实领域特征和合成领域特征进行跨域特征融合，极大地减小了不同领域之间的差异性，增强了抓取点识别过程的跨域表达能力，并基于跨域特征确定物体的抓取点，实现即使是面对例如变形空间更大、抓取困难度更高的衣物等结构复杂的物体，也能够识别到精准的抓取点，提升抓取点识别的鲁棒性以及识别精度。

示例性地，图5为本说明书一示例性实施例提供的一种抓取点识别方法的训练架构示意图。如图5所示，该抓取点识别方法的训练架构可以称之为跨域表征学习框架，包括：真实图像、合成图像、基础特征提取模块、领域特征提取模块、特征融合模块以及跨域表征模块。其中：

上述真实图像为由深度图像采集设备对目标状态下的物体进行采集得到的深度图像；上述物体为与需要进行抓取点识别的目标物体相同类型的物体。

上述合成图像为3D物理引擎生成的与目标物体相同类型的物体在目标状态下对应的深度图像。

上述基础特征提取模块、领域特征提取模块、特征融合模块以及跨域表征模块的结构以及作用与图2中对应模块的结构和作用一致，此处不再赘述。

接下来结合图5，介绍本说明书实施例提供的抓取点识别方法中目标权重比例的训练方法。具体请参考图6，其示例性示出了本申请实施例提供的一种抓取点识别方法中目标权重比例的训练方法的流程图。如图6所示，该抓取点识别方法中目标权重比例的训练方法即抓取点识别模型(跨域表征学习框架)的训练方法包括以下几个步骤：

S601，获取深度图像集合。

具体地，由于在进行抓取点识别模型训练时需要大量的训练数据以确定抓取点识别的精度，因此，为了避免采集大量真实图像耗时长以及真实图像难以大量采集的问题，可以通过将3D物理引擎生成的与目标物体相同类型的物体在目标状态下对应的合成图像作为训练数据扩充，并通过专业的深度成像摄像头采集少量的与上述目标物体相同类型的物体在目标状态下对应的真实图像，实现利用合成领域的合成图像以及真实领域的真实图像共同提升抓取点识别的准确率。即上述深度图像集合包括目标状态下已知目标抓取点的物体对应的真实图像以及合成图像，上述物体的类型为与目标物体的类型相同。

S602，提取真实图像对应的真实领域特征以及合成图像对应的合成领域特征。

具体地，可以先利用预训练的ResNet101模型分别提取上述真实图像对应的基础特征，以及上述合成图像对应的合成领域特征，然后再将上述真实图像对应的基础特征输入真实领域可变形卷积网络中，输出上述真实图像对应的真实领域特征，以及将上述合成图像对应的合成领域特征输入合成领域可变形卷积网络中，输出上述合成图像对应的合成领域特征。即S602的实现过程与S302类似，此处不再赘述。

S603，将真实领域特征和合成领域特征按照初始权重比例进行融合，得到物体对应的跨域特征。

具体地，抓取点识别模型(跨域表征学习框架)中存在真实领域特征和合成领域特征对应的初始权重比例等初始参数，在得到训练数据(深度图像集合)中真实图像对应的真实领域特征以及合成图像对应的合成领域特征之后，可以将上述真实领域特征和合成领域特征进行张量拼接，得到跨域拼接特征，然后再利用多层卷积网络按照初始权重比例对跨域拼接特征进行融合，从而得到物体对应的跨域特征。

S604，基于跨域特征确定物体对应的预测抓取点。

具体地，在得到物体对应的跨域特征之后，可以利用全连接网络将跨域特征映射至预设数量的神经元中，从而输出上述物体对应的预测抓取点。上述预测抓取点表征三维空间下目标物体对应的可抓取的位置坐标。上述预设数量可以为3、6、9等任意3的倍数，即对应输出的预测抓取点的个数可以为1个、2个、3个等任意数量，本申请实施例对此不作限定。

S605，基于预测抓取点以及目标抓取点更新初始权重比例，得到真实领域特征和合成领域特征各自对应的目标权重比例。

具体地，在得到上述物体对应的预测抓取点之后，可以基于上述目标状态下的物体对应的预测抓取点以及目标抓取点之间的差异对上述抓取点识别模型(跨域表征学习框架)中存在真实领域特征和合成领域特征对应的初始权重比例以及全连接网络中的参数等进行更新，直至上述差异在预设范围内，从而得到真实领域特征和合成领域特征各自对应的目标权重比例，以及训练好的抓取点识别模型(跨域表征学习框架)。

图7示例性示出了本申请实施例提供的一种基于抓取点识别方法进行机器人辅助穿衣的流程图。如图7所示，该基于抓取点识别方法进行机器人辅助穿衣的过程包括以下几个步骤：

S701，获取目标状态下的目标物体对应的目标真实图像。

具体地，上述目标物体为衣物，上述目标状态为悬置状态，上述悬置状态表征衣物位于衣架上时，在重力作用下所呈现出的状态。S701与S301一致，此处不再赘述。

可选地，上述目标状态也可以为堆叠状态等其它状态，本申请实施例对此不作限定。以下实施例均以目标状态为悬置状态进行举例说明。

S702，提取目标真实图像对应的目标真实领域特征以及目标合成领域特征。

具体地，S702与S302一致，此处不再赘述。

S703，将目标真实领域特征和目标合成领域特征按照目标权重比例进行融合，得到目标物体对应的目标跨域特征。

具体地，S703与S303一致，此处不再赘述。

S704，基于目标跨域特征确定目标物体对应的抓取点。

具体地，S704与S304一致，此处不再赘述。

S705，基于目标真实图像确定衣物的类型。

具体地，可以将上述目标真实图像输入衣物分类模型中，从而输出上述目标真实图像中衣物对应的类型。上述衣物分类模型基于多张已知衣物类型的真实衣物图像进行训练得到。在家庭衣物辅助穿衣场景中，上述衣物类型可以包括但不限于外套、衬衫、连衣裙等；在医疗衣物辅助穿衣场景中，上述衣物类型可以包括但不限于白大褂、手术服、防护服等。上述S705可以在S704之后进行，为了能够更加精准地识别出衣物对应的抓取点，上述S705也可以在识别抓取点之前进行，即可以结合衣物的类型对衣物的抓取点进行识别，本申请实施例对此不作限定。

S706，根据抓取点以及衣物的类型进行动作规划。

具体地，当机器人确定上述衣物的类型以及对应的抓取点之后，可以根据上述抓取点以及衣物的类型进行动作规划。上述动作规划与上述衣物的类型对应。上述动作规划包括但不限于抓取点对应的位置坐标、先后顺序、抓取路径等。

S707，根据动作规划以及抓取点将衣物展开至可穿状态。

具体地，为了方便进行下一步的穿衣动作，机器人已对处于悬置状态下的衣物完成动作规划之后，可以根据上述动作规则以及抓取点将上述处于悬置状态下的衣物展开至可穿状态。上述可穿状态表征衣物袖口呈现出打开的状态。

示例性地，图8所示，对于复杂程度较高的医疗衣物辅助穿衣场景，当上述衣物为处于悬置状态下的医疗衣物对应的目标真实图像810时，可以通过如图2所示的抓取点识别方法的架构，即跨域表征学习框架820识别出上述目标真实图像810中医疗衣物对应的抓取点A(x_a,y_a,z_a)和B(x_b,y_b,z_b)，以及通过衣物分类模型830识别出上述目标真实图像810中医疗衣物的类型为白大褂，从而根据上述医疗衣物的类型“白大褂”以及上述抓取点A(x_a,y_a,z_a)和B(x_b,y_b,z_b)进行动作规划840，最后根据上述动作规划840将上述真实图像810对应真实世界中的医疗衣物展开至可穿状态850，以加快医护人员的穿衣速度，高效且精准地实现辅助医护人员穿衣。

本申请实施例中，利用上述跨域表征学习框架对衣物抓取点进行识别，并结合衣物的类型使机器人能够成功地将悬置状态下的衣物展开至可穿状态，从而在家庭衣物、医疗衣物等多种场景中精准地实现辅助用户穿上衣物，减小用户的穿衣负担以及用户处于疲惫状态下时的穿衣压力，提高用户的穿衣效率。

请参考图9，其为本申请实施例提供的一种抓取点识别装置的结构示意图。如图9所示，该抓取点识别装置900包括：

第一获取模块910，用于获取目标状态下的目标物体对应的目标真实图像；

第一提取模块920，用于提取所述目标真实图像对应的目标真实领域特征以及目标合成领域特征；

第一融合模块930，用于将所述目标真实领域特征和所述目标合成领域特征按照目标权重比例进行融合，得到所述目标物体对应的目标跨域特征；

第一确定模块940，用于基于所述目标跨域特征确定所述目标物体对应的抓取点。

在一种可能的实现方式中，上述抓取点识别装置900还包括：

在一种可能的实现方式中，上述第二提取模块包括：

在一种可能的实现方式中，上述第一提取模块920包括：

在一种可能的实现方式中，上述第一融合模块930包括：

在一种可能的实现方式中，上述第一确定模块940具体用于：

在一种可能的实现方式中，上述抓取点识别装置900还包括：

上述抓取点识别装置中各模块的划分仅用于举例说明，在其他实施例中，可将抓取点识别装置按照需要划分为不同的模块，以完成上述抓取点识别装置的全部或部分功能。本说明书实施例中提供的抓取点识别装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的抓取点识别方法的全部或部分步骤。

请参阅图10，图10为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图10所示，该电子设备1000可以包括：至少一个处理器1010、至少一个通信总线1020、用户接口1030、至少一个网络接口1040、存储器1050。

其中，通信总线1020可用于实现上述各个组件的连接通信。

其中，用户接口1030可以包括显示屏(Display)和摄像头(Camera)，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口1040可选的可以包括蓝牙模块、近场通信(Near FieldCommunication，NFC)模块、无线保真(Wireless Fidelity，Wi-Fi)模块等。

其中，处理器1010可以包括一个或者多个处理核心。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1050内的指令、程序、代码集或指令集，以及调用存储在存储器1050内的数据，执行路由电子设备1000的各种功能和处理数据。可选的，处理器1010可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块芯片进行实现。

其中，存储器1050可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器1050包括非瞬时性计算机可读介质。存储器1050可用于存储指令、程序、代码、代码集或指令集。存储器1050可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如获取功能、融合功能、提取功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1050可选的还可以是至少一个位于远离前述处理器1010的存储装置。如图10所示，作为一种计算机存储介质的存储器1050中可以包括操作***、网络通信模块、用户接口模块以及程序指令。

具体地，处理器1010可以用于调用存储器1050中存储的程序指令，并具体执行以下操作：

获取目标状态下的目标物体对应的目标真实图像。

提取上述目标真实图像对应的目标真实领域特征以及目标合成领域特征。

将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征。

基于上述目标跨域特征确定上述目标物体对应的抓取点。

在一些可能的实施例中，上述处理器1010将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征之前，还用于执行：

获取深度图像集合；上述深度图像集合包括上述目标状态下已知目标抓取点的物体对应的真实图像以及合成图像。

提取上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征。

将上述真实领域特征和上述合成领域特征按照初始权重比例进行融合，得到上述物体对应的跨域特征。

基于上述跨域特征确定上述物体对应的预测抓取点。

在一些可能的实施例中，上述处理器1010提取上述真实图像对应的真实领域特征以及上述合成图像对应的合成领域特征时，具体用于执行：

提取上述真实图像以及上述合成图像各自对应的基础特征。

在一些可能的实施例中，上述处理器1010提取上述目标真实图像对应的目标真实领域特征以及目标合成领域特征时，具体用于执行：

利用预训练的ResNet101模型提取上述目标真实图像对应的基础特征。

在一些可能的实施例中，上述处理器1010将上述目标真实领域特征和上述目标合成领域特征按照目标权重比例进行融合，得到上述目标物体对应的目标跨域特征时，具体用于执行：

将上述目标真实领域特征和上述目标合成领域特征进行张量拼接，得到拼接特征。

在一些可能的实施例中，上述处理器1010基于上述目标跨域特征确定上述目标物体对应的抓取点时，具体用于执行：

在一些可能的实施例中，上述处理器1010目标物体为处于悬置状态下的衣物；上述基于上述目标跨域特征确定上述目标物体对应的抓取点之后，还用于执行：

基于上述目标真实图像确定上述衣物的类型。

根据上述抓取点以及上述衣物的类型进行动作规划。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述抓取点识别装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本申请实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上上述的实施例仅仅是本申请的优选实施例方式进行描述，并非对本申请的范围进行限定，在不脱离本申请的设计精神的前提下，本领域普通技术人员对本申请的技术方案作出的各种变形及改进，均应落入本申请的权利要求书确定的保护范围内。

Claims

1.一种抓取点识别方法，其特征在于，所述方法包括：

获取目标状态下的目标物体对应的目标真实图像；

提取所述目标真实图像对应的目标真实领域特征以及目标合成领域特征；

将所述目标真实领域特征和所述目标合成领域特征按照目标权重比例进行融合，得到所述目标物体对应的目标跨域特征；

基于所述目标跨域特征确定所述目标物体对应的抓取点；

其中，所述提取所述目标真实图像对应的目标真实领域特征以及目标合成领域特征，包括：

利用预训练的ResNet101模型提取所述目标真实图像对应的基础特征；

将所述目标真实图像对应的基础特征分别输入真实领域可变形卷积网络和合成领域可变形卷积网络中，分别输出所述目标真实图像对应的目标真实领域特征以及目标合成领域特征。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标真实领域特征和所述目标合成领域特征按照目标权重比例进行融合，得到所述目标物体对应的目标跨域特征之前，所述方法还包括：

获取深度图像集合；所述深度图像集合包括所述目标状态下已知目标抓取点的物体对应的真实图像以及合成图像；

提取所述真实图像对应的真实领域特征以及所述合成图像对应的合成领域特征；所述真实领域特征用于表征所述真实图像对应真实领域的特定特征；所述合成领域特征用于表征所述合成图像对应合成领域的特定特征；

将所述真实领域特征和所述合成领域特征按照初始权重比例进行融合，得到所述物体对应的跨域特征；

基于所述跨域特征确定所述物体对应的预测抓取点；

基于所述预测抓取点以及所述目标抓取点更新所述初始权重比例，得到所述真实领域特征和所述合成领域特征各自对应的目标权重比例。

3.根据权利要求2所述的方法，其特征在于，所述提取所述真实图像对应的真实领域特征以及所述合成图像对应的合成领域特征，包括：

提取所述真实图像以及所述合成图像各自对应的基础特征；

将所述真实图像以及所述合成图像各自对应的基础特征分别输入各自对应的可变形卷积网络中，分别输出所述真实图像对应的真实领域特征以及所述合成图像对应的合成领域特征。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标真实领域特征和所述目标合成领域特征按照目标权重比例进行融合，得到所述目标物体对应的目标跨域特征，包括：

将所述目标真实领域特征和所述目标合成领域特征进行张量拼接，得到拼接特征；

利用多层卷积网络按照目标权重比例对所述拼接特征进行融合，得到所述目标物体对应的目标跨域特征。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标跨域特征确定所述目标物体对应的抓取点，包括：

利用全连接网络将所述目标跨域特征映射至预设数量的神经元，输出所述目标物体对应的抓取点；所述抓取点表征三维空间下所述目标物体对应的可抓取的位置坐标。

6.根据权利要求1所述的方法，其特征在于，所述目标物体为处于悬置状态下的衣物；所述基于所述目标跨域特征确定所述目标物体对应的抓取点之后，所述方法还包括：

基于所述目标真实图像确定所述衣物的类型；

根据所述抓取点以及所述衣物的类型进行动作规划；

根据所述动作规划以及所述抓取点将所述衣物展开至可穿状态。

7.一种抓取点识别装置，其特征在于，所述装置包括：

第一提取模块，用于提取所述目标真实图像对应的目标真实领域特征以及目标合成领域特征；

第一融合模块，用于将所述目标真实领域特征和所述目标合成领域特征按照目标权重比例进行融合，得到所述目标物体对应的目标跨域特征；

第一确定模块，用于基于所述目标跨域特征确定所述目标物体对应的抓取点；

所述第一提取模块具体用于：利用预训练的ResNet101模型提取所述目标真实图像对应的基础特征；将所述目标真实图像对应的基础特征分别输入真实领域可变形卷积网络和合成领域可变形卷积网络中，分别输出所述目标真实图像对应的目标真实领域特征以及目标合成领域特征。

8.一种电子设备，其特征在于，包括：处理器和存储器；其中，

所述处理器与所述存储器相连；所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-6任一项的方法步骤。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-6任一项的方法步骤。