CN111880657A

CN111880657A - 一种虚拟对象的控制方法、装置、电子设备及存储介质

Info

Publication number: CN111880657A
Application number: CN202010753268.8A
Authority: CN
Inventors: 李国雄
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-03
Anticipated expiration: 2040-07-30
Also published as: WO2022021980A1; CN111880657B; TW202205059A

Abstract

本公开提供了一种虚拟对象的控制方法、装置、电子设备及存储介质，其中，该控制方法包括：采集现实场景图像，并在终端设备上展示所述现实场景图像与虚拟对象相叠加的增强现实图像；识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别所述现实场景图像中的手臂的长度信息；基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息；基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置。

Description

一种虚拟对象的控制方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种虚拟对象的控制方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，增强现实技术(Augmented Reality，AR)技术的应用目标场景逐渐广泛，在AR场景中，可以增加用户与虚拟对象的交互场景，通过手部移动可以达到控制虚拟对象的移动，因此手部移动可以作为AR场景中进行人机交互的重要动作，其追踪准确度和效率直接影响对虚拟对象的控制效果。

发明内容

本公开实施例至少提供一种虚拟对象的控制方案。

第一方面，本公开实施一种虚拟对象的控制方法，包括：

采集现实场景图像，并在终端设备上展示所述现实场景图像与虚拟对象相叠加的增强现实图像；

识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别所述现实场景图像中的手臂的长度信息；

基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息；

基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置。

本公开实施例中，可以基于手部的目标关键点在设备坐标系下的第一显示位置信息、手臂的长度信息，来确定手部的目标关键点在世界坐标系下的第二显示位置信息，通过借助手臂的长度信息，快速确定出手部的目标关键点在世界坐标系下的第二显示位置信息，无需对大量手部骨骼点进行识别，从而可以提高手部的目标关键点的识别效率，进一步在基于手部的目标关键点对虚拟对象的展示位置进行控制时，可以提升控制虚拟对象过程中的处理效率，优化控制效果。

在一种可能的实施方式中，所述识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，包括：

对所述现实场景图像进行手部检测，确定所述现实场景图像中包含手部的检测区域；

获取所述检测区域的目标关键点在所述现实场景图像中的位置坐标，将该位置坐标作为所述第一显示位置信息。

在一种可能的实施方式中，所述识别所述现实场景图像中的手臂的长度信息，包括：

对所述现实场景图像进行检测，确定所述现实场景图像中的手臂姿态类型；

基于所述手臂姿态类型，以及预先建立的手臂姿态类型和手臂的长度信息之间的映射关系，确定所述现实场景图像中的手臂的长度信息。

本公开实施例中，通过图像检测确定现实场景图像中包含的手臂姿态类型，进而可以根据预先建立的映射关系快速确定出现实场景图像中的手臂的长度信息。

在一种可能的实施方式中，所述基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息，包括：

基于所述终端设备的屏幕尺寸信息对所述第一显示位置信息进行归一化处理，得到所述手部的目标关键点在标准化设备坐标系下的第三显示位置信息；

基于所述第三显示位置信息、所述终端设备的图像采集单元的相机投影矩阵和所述手臂的长度信息，确定所述第二显示位置信息。

本公开实施例中，可以针对手部的目标关键在不同类型的终端设备对应的设备坐标系下的第一显示位置信息进行归一化处理，从而使得在不同类型的终端设备中展示的增强现实图像，均能够按照统一方式快速确定该增强现实图像的手部的目标关键点在世界坐标系下的第二显示位置信息。

在一种可能的实施方式中，所述基于所述第三显示位置信息、所述终端设备的图像采集单元的相机投影矩阵和所述手臂的长度信息，确定所述第二显示位置信息，包括：

基于所述第三显示位置信息、所述相机投影矩阵和所述手臂的长度信息，确定所述手部的目标关键点在相机坐标系下的第四显示位置信息；

基于所述第四显示位置信息和所述图像采集单元拍摄所述现实场景图像时使用的相机外参矩阵，确定所述第二显示位置信息；

其中，所述相机投影矩阵为标准化设备坐标系和相机坐标系的转换矩阵，所述相机外参矩阵为世界坐标系和相机坐标系的转换矩阵。

本公开实施例中，通过引入手臂的长度信息来近似表示手部的目标关键点在相机坐标系下的深度信息，从而可以快速确定手部的目标关键点在相机坐标系下的第四显示位置信息，进而可以快速确定出手部的目标关键点在世界坐标系下的第二显示位置信息。

在一种可能的实施方式中，所述基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置，包括：

基于在不同帧现实场景图像中的所述手部的目标关键点对应的第二显示位置信息，确定所述手部的目标关键点在目标场景中的位置变化数据；

基于所述位置变化数据，控制所述增强现实图像中所述虚拟对象的展示位置进行移动。

本公开实施例中，可以基于手部的目标关键点在现实场景中的位置变化数据对虚拟对象的展示位置进行调整，从而达到通过手部来控制虚拟对象的展示位置的目的。

基于所述手部的目标关键点对应的第二显示位置信息，以及所述手部的目标关键点和所述虚拟对象之间的预设相对位置关系，确定所述虚拟对象的目标展示位置；

基于确定的所述虚拟对象的目标展示位置，控制所述增强现实图像中所述虚拟对象移动至所述目标展示位置。

本公开实施例中，可以基于手部的目标关键点在世界坐标系下的第二显示位置信息以及预设相对位置关系，对虚拟对象的展示位置进行调整，从而达到通过手部来控制虚拟对象的展示位置的目的。

第二方面，本公开实施例提供了一种虚拟对象的控制装置，包括：

展示模块，用于采集现实场景图像，并在终端设备上展示所述现实场景图像与虚拟对象相叠加的增强现实图像；

识别模块，用于识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别所述现实场景图像中的手臂的长度信息；

调整模块，用于基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息；

控制模块，用于基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置。

在一种可能的实施方式中，所述识别模块在用于识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息时，包括：

获取所述检测区域的目标位置点在所述现实场景图像中的位置坐标，并将该位置坐标作为所述第一显示位置信息。

在一种可能的实施方式中，所述识别模块在识别所述现实场景图像中的手臂的长度信息时，包括：

在一种可能的实施方式中，所述调整模块在用于基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息时，包括：

在一种可能的实施方式中，所述调整模块在用于基于所述第三显示位置信息、所述终端设备的图像采集单元的相机投影矩阵和所述手臂的长度信息，确定所述第二显示位置信息时，包括：

在一种可能的实施方式中，所述控制模块在用于基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置时，包括：

基于在不同帧现实场景图像中的所述手部的目标关键点对应的第二显示位置信息，确定所述手部的目标关键点在现实场景中的位置变化数据；

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的控制方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的控制方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种虚拟对象的控制方法的流程图；

图2示出了本公开实施例所提供的一种确定手部的目标关键点的第一显示位置信息的方法流程图；

图3示出了本公开实施例所提供的一种包含手部的现实场景图像的示意图；

图4示出了本公开实施例所提供的一种确定手臂的长度信息的方法流程图；

图5示出了本公开实施例所提供的一种确定手部的目标关键点的第二显示位置信息的方法流程图；

图6示出了本公开实施例所提供的一种确定手部的目标关键点的第二显示位置信息的具体方法流程图；

图7示出了本公开实施例所提供的一种相机坐标系向标准化设备坐标系的转化示意图；

图8示出了本公开实施例所提供的一种控制虚拟对象移动的方法流程图；

图9示出了本公开实施例所提供的另一种控制虚拟对象的移动的方法流程图；

图10示出了本公开实施例所提供的一种虚拟对象的控制装置的结构示意图；

图11示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

增强现实(Augmented Reality，AR)技术可以应用于AR设备中，AR设备可以为任何能够支持AR功能的电子设备，包括但不限于AR眼镜、平板电脑、智能手机等。当AR设备在现实场景中***作时，通过该AR设备可以观看到由虚拟对象和现实场景叠加的AR场景，在AR场景中，基于手部控制虚拟对象的应用非常广泛，比如可以通过手部的移动来更改虚拟对象在AR场景的展示位置。

在对手部的位置进行识别时，可以采用基于检测手部各个骨骼点的坐标来求手部的质心位置，通过质心位置的移动来控制虚拟对象的展示位置，该方式需要检测出手部各个骨骼点的坐标，再依据多个坐标来求质心位置，过程较为繁琐，在基于确定的手部的质心位置对虚拟对象进行控制时，存在效率较低的问题。

基于上述研究，本公开提供了一种虚拟对象的控制方法，可以基于手部的目标关键点在设备坐标系下的第一显示位置信息、手臂的长度信息，来确定手部的目标关键点在世界坐标系下的第二显示位置信息，通过借助手臂的长度信息，快速确定出手部的目标关键点在世界坐标系下的第二显示位置信息，无需对大量手部骨骼点进行识别，从而可以提高手部的目标关键点的识别效率，进一步在基于手部的目标关键点对虚拟对象的展示位置进行控制时，可以提升控制虚拟对象过程中的处理效率，优化控制结果。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种虚拟对象的控制方法进行详细介绍，本公开实施例所提供的虚拟对象的控制方法的执行主体一般为具有一定计算能力的计算机设备，具体可以为终端设备或服务器或其它处理设备，示例性地，终端设备可以包括手机、平板、AR眼镜等AR设备，在此不进行限定。AR设备可以通过应用程序连接服务器。在一些可能的实现方式中，该虚拟对象的控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的虚拟对象的控制方法的流程图，该控制方法包括以下S101～S104：

S101，采集现实场景图像，并在终端设备上展示现实场景图像与虚拟对象相叠加的增强现实图像。

示例性地，现实场景图像可以通过终端设备的图像采集单元进行采集，图像采集单元可以包括终端设备上设置的摄像头，比如智能手机、平板上的摄像头，也可以包括外接摄像头，比如AR眼镜外接的摄像头。

终端设备的图像采集单元在采集到现实场景图像后，可以将该现实场景图像与预先借助计算机图形技术和可视化技术产生的虚拟对象进行叠加，得到在终端设备的屏幕上展示的增强现实图像，示例性地，现实场景图像为公园，虚拟对象为叠加在公园上的虚拟熊猫，或者现实场景图像为操场跑道，虚拟对象为叠加在操场跑道上的虚拟赛车。

S102，识别现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别现实场景图像中的手臂的长度信息。

示例性的，可以识别图像采集单元拍摄的现实场景图像中手部区域的关键点，手部区域的关键点有至少一个，可以从至少一个关键点中选择目标关键点。示例性地，为了便于识别，可以选择手部的中心点作为目标关键点，也可以选择手部中指上的关键点作为目标关键点等。

在得到包含手部的现实场景图像后，可以基于预先训练的用于目标检测的神经网络对该现实场景图像中包含的手部进行检测，确定现实场景图像中包含手部的检测区域，比如包含手部的检测框，可以基于该检测框的位置确定手部的目标关键点在设备坐标系下的第一显示位置信息。

示例性地，设备坐标系可以为终端设备中用于显示增强现实图像的显示屏幕对应的坐标系，具体可以以显示屏幕的一角点为设备坐标系的原点，以显示屏幕两条垂直且相交的边为设备坐标系的坐标轴，比如，以手机为例，可以将手机屏幕一角点作为设备坐标系的原点，将通过该角点的长边作为设备坐标系的横轴(x轴)，将通过该角点的短边作为设备坐标系的纵轴(y轴)。

若终端设备为AR眼镜，现实场景图像显示在AR眼镜的镜片上时，这里的设备坐标系可以以投影在的镜片屏幕的一角点为原点，以镜片屏幕中通过原点的两条相互垂直且相交的线为坐标轴建立的坐标系。

此外，在用户手持终端设备时，图像采集单元拍摄到的现实场景图像中还包含手臂，现实场景图像中手臂的长度信息与该手臂的姿态相关，比如处于伸张状态的手臂长度要长于处于收起状态的手臂长度，因此可以通过对现实场景图像中的手臂的姿态进行识别，确定现实场景图像中包含的手臂的长度信息。

S103，基于第一显示位置信息以及手臂的长度信息，将第一显示位置信息变换为世界坐标系下的第二显示位置信息。

手部的目标关键点对应的第一显示位置信息包括手部的目标关键点在设备坐标系下分别沿x轴和y轴的坐标值，因为现实场景图像是通过图像采集单元拍摄得到的，因此可以根据图像采集单元的相机投影矩阵来确定手部的目标关键点在世界坐标系下的第二显示位置信息。

示例性地，可以针对现实场景预先构建世界坐标系，比如现实场景为展览馆的一展览厅，可以以该展览厅的设定位置点为世界坐标系的原点，以相互垂直的三条直线作为世界坐标系的三个坐标轴，在确定出每个坐标轴的正方向后得到该展览厅对应的世界坐标系。

示例性地，在确定手部的目标关键点在世界坐标系下的世界位置坐标时，考虑到用户的手臂与手部在一条直线上，且手臂近似平行于终端设备的图像采集单元的光轴，因此可以用手臂的长度信息来表示手部的目标关键点在相机坐标系下的深度信息，然后结合手部的目标关键点对应的第一显示位置信息，确定出手部的目标关键点在世界坐标系下的第二显示位置信息。

S104，基于第二显示位置信息，控制增强现实图像中的虚拟对象的展示位置。

示例性地，虚拟对象在增强现实场景中的初始展示位置可以通过在预先构建的表示现实场景的三维场景模型中确定，三维场景模型和现实场景处于同一坐标系中时是按照1:1比例呈现的，可以重合，比如将三维场景模型放置在世界坐标系下时，可以得到虚拟对象在世界坐标系下的初始展示位置，在确定出手部的目标关键点的第二显示位置信息后，可以基于确定的第二显示位置信息，来调整虚拟对象在增强现实图像中的展示位置。

示例性地，可以通过手部的目标关键点的移动，来控制虚拟对象在增强现实图像中的移动，或者通过手部的目标关键点触发虚拟对象，控制虚拟对象的呈现特效变化，比如虚拟对象在增强现实图像中处于静止状态，在检测到手部的目标关键点的第二显示位置信息和虚拟对象在世界坐标系下的位置信息重合时，可以达到手部触发虚拟对象的特效，此时虚拟对象可以开始随着手部的目标关键点的移动而移动，达到通过手部控制虚拟对象的目的。

下面将结合具体实施例对上述S101～S104进行详细阐述。

针对上述S102，在识别现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息时，如图2所示，可以包括：

S1021，对现实场景图像进行手部检测，确定现实场景图像中包含手部的检测区域；

S1022，获取检测区域的目标位置点在现实场景图像中的位置坐标，并将该位置坐标作为第一显示位置信息。

示例性地，可以基于预先训练的进行目标检测的神经网络来对现实场景图像进行手部检测，得到现实场景图像中包含手部的检测区域，即得到针对现实场景图像中的手部位置进行标注的检测框，如图3所示，为检测出的包含手部的检测框的示意图。

进一步地，神经网络在输出包含手部的检测框时，可以同时输出该检测框的四个角点对应的位置坐标，比如，如图3所示，以现实场景图像建立设备坐标系，该检测框的四个角点包含左上角点k1、右上角点k2、左下角点k3和右下角点k4，可以基于四个角点在现实场景图像中对应的位置坐标来确定检测框的目标位置点，比如检测框中的中心点在现实场景图像中的位置坐标。

示例性地，比如可以基于左上角点k1和右下角点k4确定第一对角线对应的直线方程，然后基于右上角点k2和左下角点k3确定第二对角线对应的直线方程，然后基于第一对角线对应的直线方程和第二对角线对应的直线方程来确定出该检测框的中心点在现实场景图像中的位置坐标，比如可以将第一对角线对应的直线方程和第二对角线对应的直线方程的交点作为检测框的中心点在现实场景图像中的位置坐标。

针对上述S102，在识别现实场景图像中的手臂的长度信息时，如图4所示，可以包括以下步骤S1023～S1024：

S1023，对现实场景图像进行检测，确定现实场景图像中的手臂姿态类型；

S1024，基于手臂姿态类型，以及预先建立的手臂姿态类型和手臂的长度信息之间的映射关系，确定现实场景图像中的手臂的长度信息。

同样，通过预先训练的进行姿态检测的神经网络来对现实场景图像进行检测，可以确定出现实场景图像中包含的手臂对应的手臂姿态类别，示例性地，手臂姿态类型可以包含三种类型，比如包含手臂伸张状态、手臂半伸张状态和手臂收起状态，进一步基于预先建立的手臂姿态类型和手臂的长度信息之间的映射关系，可以确定出该现实场景图像中手臂的长度信息。

示例性地，预先建立的手臂姿态类型和手臂的长度信息之间的映射关系可以包括：手臂伸张状态时，对应的手臂的长度信息为0.65m，手臂半伸张状态时，对应的手臂的长度信息为0.45m，手臂收起状态时，对应的手臂的长度信息为0.2m，若对现实场景图像进行检测，确定现实场景图像中的手臂姿态类型为手臂伸张状态时，可以快速确定手臂的长度信息为0.65m。

针对上述S103，在基于第一显示位置信息以及手臂的长度信息，将第一显示位置信息变换为世界坐标系下的第二显示位置信息时，如图5所示，可以包括以下S1031～S1032：

S1031，基于终端设备的屏幕尺寸信息对第一显示位置信息进行归一化处理，得到手部的目标关键点在标准化设备坐标系下的第三显示位置信息；

S1032，基于第三显示位置信息、终端设备的图像采集单元的相机投影矩阵和手臂的长度信息，确定第二显示位置信息。

考虑到不同的终端设备对应的设备坐标系不统一，这里可以引入标准化设备坐标系，标准化设备坐标系的x轴和y轴上的取值范围为0到1，这样在将第一显示位置信息在设备坐标系上沿x轴和y轴上的坐标值映射至标准化设备坐标系时，需要对第一显示位置信息进行归一化处理，具体可以将第一显示位置信息在设备坐标系上沿x轴的坐标值归一化处理为0到1的值，同时将第一显示位置信息在设备坐标系上沿y轴的坐标值归一化处理为0到1的值。

考虑到设备坐标系是以终端设备的屏幕构建的坐标系，因此在对第一显示位置信息进行归一化处理时，可以通过终端设备的屏幕尺寸信息进行归一化处理，在进行归一化处理后，可以得到手部的目标关键点在标准化设备坐标系下的第三显示位置信息，按照这样的方式可以按照统一方式确定手部的目标关键点在具有不同屏幕尺寸的标准化设备坐标系下的第三显示位置信息。

具体地，记手部的目标关键点在设备坐标系中的第一显示位置信息为p_screen＝(x_screen,y_screen)，可以通过以下公式(1)和公式(2)来确定手部的目标关键点在标准化设备坐标系下的第三显示位置信息P_ndc＝(x_ndc,y_ndc)：

x_ndc＝x_screen/W (1)；

y_ndc＝y_screen/L (2)；

其中，x_ndc表示手部的目标关键点在标准化设备坐标系下沿x轴方向的坐标值；y_ndc表示手部的目标关键点在标准化设备坐标系下沿y轴方向的坐标值；x_screen表示手部的目标关键点在设备坐标系下沿x轴方向的坐标值；y_screen表示手部的目标关键点在设备坐标系下沿y轴方向的坐标值；W表示终端设备的屏幕在设备坐标系下沿x轴方向上的长度；L表示终端设备的屏幕在设备坐标系下沿y轴方向上的长度。

在得到手部的目标关键点对应的第三显示位置信息后，可以基于该第三显示位置信息和终端设备的图像采集单元的相机投影矩阵来确定手部的目标关键点在相机坐标系下的第四显示位置信息，其中，手部的目标关键点在相机坐标系下沿z轴的坐标可以通过手臂的长度信息确定，进一步可以基于手部的目标关键点在相机坐标系下的第四显示位置信息来确定手部的目标关键点在世界坐标系下的第二显示位置信息。

具体地，在基于第三显示位置信息、终端设备的图像采集单元的相机投影矩阵和手臂的长度信息，确定第二显示位置信息时，如图6所示，可以包括以下S10321～S10322：

S10321，基于第三显示位置信息、相机投影矩阵和手臂的长度信息，确定手部的目标关键点在相机坐标系下的第四显示位置信息；

S10322，基于第四显示位置信息和图像采集单元拍摄现实场景图像时使用的相机外参矩阵，确定第二显示位置信息。

其中，相机投影矩阵为标准化设备坐标系和相机坐标系的转换矩阵，相机外参矩阵为世界坐标系和相机坐标系的转换矩阵。

其中，相机投影矩阵M_proj可以通过以下公式(3)来表示：

为了对相机投影矩阵中包含的参数n、r、l、t和b进行解释，下面引入图7，为图像采集单元对应的相机坐标系向标准化设备坐标系进行转换的示意图，图7中(a)为相机坐标系下的视锥体，图7中(b)为相机坐标系下的视锥体经过相机投影矩阵处理后，在标准化设备坐标系下的单位立方体，即相机投影矩阵可以对视锥体进行归一化处理。视锥体内的景物可见，视锥体之外的景物不可见，视锥体包括垂直于相机坐标系中z轴方向上的远剪裁平面ABCD，和近剪裁平面EFGH，其中(r，t，n)表示近剪裁平面中点F的坐标值，其中，r表示点F在相机坐标系下沿x轴方向的坐标值，t表示点F在相机坐标系下沿y轴方向的坐标值，n表示点F在相机坐标系下沿z轴方向的坐标值；(l，b，n)表示近剪裁平面中点H的坐标，其中，l表示点H在相机坐标系下沿x轴方向的坐标值，b表示点H在相机坐标系下沿y轴方向的坐标值，n表示点H在相机坐标系下沿z轴方向的坐标值；f表示图像采集单元对应的相机焦距。

其中，相机的常用参数相机视场角fov和相机宽高比aspect，可以根据以下公式(4)和公式(5)来确定：

因此相机投影矩阵也可以通过相机视场角、相机宽高比、近剪裁平面、远剪裁平面和相机焦距的一些固有参数来确定。

下面引入投影公式(6)，通过公式(6)来确定手部的目标关键点在相机坐标系下的第四显示位置信息。

P_ndc＝M_proj*P_cam (6)；

其中，P_cam＝(x_cam,y_cam,z_cam)表示手部的目标关键点在相机坐标系下的第四显示位置信息，其中，x_cam表示手部的目标关键点在相机坐标系下沿x轴方向的坐标值，y_cam表示手部的目标关键点在相机坐标系下沿y轴方向的坐标值，z_cam表示手部的目标关键点在相机坐标系下沿z轴方向的坐标值，z_cam可以通过手臂在相机坐标系下的手臂的长度信息来确定，x_cam和y_cam可以通过公式(6)来确定。

在得到手部的目标关键点在相机坐标系下的第四显示位置信息后，可以通过以下公式(7)来确定手部的目标关键点的第二显示位置信息：

P_world＝P_cam*M_cam (7)；

其中，P_world表示手部的目标关键点在世界坐标系下的第二显示位置信息；M_cam表示图像采集单元拍摄现实场景图像时使用的相机外参矩阵的逆矩阵，具体表示由相机坐标系向世界坐标系进行转换的转换矩阵。

具体地，终端设备的图像采集单元拍摄现实场景图像时使用的相机外参矩阵可以包括世界坐标系向相机坐标系转换时的平移向量和旋转矩阵，分别可以通过世界坐标系原点在图像采集单元拍摄现实场景图像时在相机坐标系下对应的位置信息，以及世界坐标系的坐标轴在图像采集单元拍摄现实场景图像时在相机坐标系中的旋转角度来表示，或者可以通过图像采集单元拍摄现实场景图像时在世界坐标系下的位姿数据来表示，具体在确定图像采集单元拍摄现实场景图像时的位姿数据时，可以通过即时定位与地图构建(simultaneous localization and mapping，SLAM)算法来确定，在本公开中不进行赘述，在得到相机外参矩阵后，可以进一步根据上述公式(7)来确定手部的目标关键点的第二显示位置信息。

针对上述S104，在一种实施方式中，如图8所示，可以包括以下步骤S1041～S1042：

S1041，基于在不同帧现实场景图像中的手部的目标关键点对应的第二显示位置信息，确定手部的目标关键点在目标场景中的位置变化数据；

S1042，基于位置变化数据，控制增强现实图像中虚拟对象的展示位置进行移动。

示例性地，终端设备的图像采集单元可以按照设定时间间隔获取现实场景图像，并按照上述方式确定每帧现实场景图像中的手部的目标关键点对应的第二显示位置信息，这样可以确定出手部的目标关键点在设定时长内在现实场景中的位置变化数据，然后基于该位置变化数据来控制虚拟对象的展示位置。

示例性地，以现实场景为一室内展览厅为例，该展览厅包括三个实体桌子，分别记为桌子A、桌子B和桌子C，虚拟对象为虚拟花瓶，该虚拟花瓶在展览厅对应的世界坐标系中的初始位置为位于桌子A上，因此可以在增强现实图像中看到位于桌子A上的虚拟花瓶，可以通过手部的目标关键点来触发位于桌子A上的虚拟花瓶，进而开始对虚拟花瓶的展示位置进行移动，比如检测到连续两帧现实场景图像中的手部的目标关键点对应的第二显示位置信息由桌子A移动至桌子C，则可以控制虚拟花瓶从桌子A移动至桌子C，从而呈现出位置桌子C上的虚拟花瓶的增强现实图像。

示例性地，可以在检测到手部的目标关键点和虚拟对象在世界坐标系中重合设定时长时，触发针对虚拟对象的展示位置的调整过程，比如检测到手部的目标关键点对应的第二显示位置信息和虚拟对象在世界坐标系下的位置信息重合达到设定时长时，开始针对虚拟对象在增强现实图像中的展示位置进行调整。

在另一种应用场景中，比如在AR游戏场景中，还可以通过不同帧现实场景图像中的手部的目标关键点对应的第二显示位置信息完成对动态的虚拟对象的控制，比如虚拟对象为虚拟赛车，通过不同帧现实场景图像中手部的目标关键点在现实场景中的位置变化数据，不断地对增强现实图像中虚拟赛车的行驶轨迹进行调整。

针对上述S104，在另一种实施方式中，如图9所示，可以包括以下步骤S1043～S1044：

S1043，基于手部的目标关键点对应的第二显示位置信息，以及手部的目标关键点和虚拟对象之间的预设相对位置关系，确定虚拟对象的目标展示位置；

S1044，基于确定的虚拟对象的目标展示位置，控制增强现实图像中虚拟对象移动至目标展示位置。

示例性地，手部的目标关键点和虚拟对象之间的预设相对位置关系可以是预先设置好的，也可以是首次在增强现实图像中获取到的手部的目标关键点和虚拟对象时，手部的目标关键点和虚拟对象之间的初始相对位置关系。

基于手部的目标关键点和虚拟对象之间的预设相对位置关系，可以基于实时获取的手部的目标关键点当前时刻在世界坐标系下的第二显示位置信息，确定虚拟对象的目标展示位置，然后控制增强现实图像中的虚拟对象移动至目标展示位置处。

示例性地，比如虚拟对象为虚拟彩色画笔，当虚拟彩色画笔在增强现实图像中移动时，增强现实图像中可以呈现以移动轨迹对应的彩色线条，比如虚拟彩色画笔可以按照移动轨迹画出粉色的线条，当采集多帧现实场景图像时，可以随着手部的目标关键点的不断移动，基于该第二显示位置信息和预设相对位置关系，确定出虚拟彩色画笔不断移动的目标展示位置，这样可以在增强现实图像中按照目标展示位置的移动形成移动轨迹，对应地可以在增强现实图像中呈现出与移动轨迹对应的彩色线条，比如用户的手部的目标关键点的移动轨迹为圆形，则增强现实图像中可以呈现出由虚拟彩色画笔画出圆形的彩色线条的特效。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与虚拟对象的控制方法对应的虚拟对象的控制装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图10所示，为本公开实施例提供的一种虚拟对象的控制装置1000的结构示意图，该虚拟对象的控制装置1000包括：

展示模块1001，用于采集现实场景图像，并在终端设备上展示现实场景图像与虚拟对象相叠加的增强现实图像；

识别模块1002，用于识别现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别现实场景图像中的手臂的长度信息；

调整模块1003，用于基于第一显示位置信息以及手臂的长度信息，将第一显示位置信息变换为世界坐标系下的第二显示位置信息；

控制模块1004，用于基于第二显示位置信息，控制增强现实图像中虚拟对象的展示位置。

在一种可能的实施方式中，识别模块1002在用于识别现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息时，包括：

对现实场景图像进行手部检测，确定现实场景图像中包含手部的检测区域；

获取检测区域的目标位置点在现实场景图像中的位置坐标，并将该位置坐标作为第一显示位置信息。

在一种可能的实施方式中，识别模块1002在识别现实场景图像中的手臂的长度信息时，包括：

对现实场景图像进行检测，确定现实场景图像中的手臂姿态类型；

基于手臂姿态类型，以及预先建立的手臂姿态类型和手臂的长度信息之间的映射关系，确定现实场景图像中的手臂的长度信息。

在一种可能的实施方式中，调整模块1003在用于基于第一显示位置信息以及手臂的长度信息，将第一显示位置信息变换为世界坐标系下的第二显示位置信息时，包括：

基于终端设备的屏幕尺寸信息对第一显示位置信息进行归一化处理，得到手部的目标关键点在标准化设备坐标系下的第三显示位置信息；

基于第三显示位置信息、终端设备的图像采集单元的相机投影矩阵和手臂的长度信息，确定第二显示位置信息。

在一种可能的实施方式中，调整模块1003在用于基于第三显示位置信息、终端设备的图像采集单元的相机投影矩阵和手臂的长度信息，确定第二显示位置信息时，包括：

基于第三显示位置信息、相机投影矩阵和手臂的长度信息，确定手部的目标关键点在相机坐标系下的第四显示位置信息；

基于第四显示位置信息和图像采集单元拍摄现实场景图像时使用的相机外参矩阵，确定第二显示位置信息；

在一种可能的实施方式中，控制模块1004在用于基于第二显示位置信息，控制增强现实图像中虚拟对象的展示位置时，包括：

基于在不同帧现实场景图像中的手部的目标关键点对应的第二显示位置信息，确定手部的目标关键点在现实场景中的位置变化数据；

基于位置变化数据，控制增强现实图像中虚拟对象的展示位置进行移动。

基于手部的目标关键点对应的第二显示位置信息，以及手部的目标关键点和虚拟对象之间的预设相对位置关系，确定虚拟对象的目标展示位置；

基于确定的虚拟对象的目标展示位置，控制增强现实图像中虚拟对象移动至目标展示位置。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的虚拟对象的控制方法，本公开实施例还提供了一种电子设备1100，如图11所示，为本公开实施例提供的电子设备1100结构示意图，包括：

处理器111、存储器112、和总线113；存储器112用于存储执行指令，包括内存1121和外部存储器1122；这里的内存1121也称内存储器，用于暂时存放处理器111中的运算数据，以及与硬盘等外部存储器1122交换的数据，处理器111通过内存1121与外部存储器1122进行数据交换，当所述电子设备1100运行时，所述处理器111与所述存储器112之间通过总线113通信，使得所述处理器111执行以下指令：采集现实场景图像，并在终端设备上展示现实场景图像与虚拟对象相叠加的增强现实图像；识别现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，以及，识别现实场景图像中的手臂的长度信息；基于第一显示位置信息以及手臂的长度信息，将第一显示位置信息变换为世界坐标系下的第二显示位置信息；基于第二显示位置信息，控制增强现实图像中虚拟对象的展示位置。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的虚拟对象的控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的虚拟对象的控制方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的虚拟对象的控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种虚拟对象的控制方法，其特征在于，包括：

2.根据权利要求1所述的控制方法，其特征在于，所述识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息，包括：

3.根据权利要求1所述的控制方法，其特征在于，所述识别所述现实场景图像中的手臂的长度信息，包括：

4.根据权利要求1至3任一所述的控制方法，其特征在于，所述基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息，包括：

5.根据权利要求4所述的控制方法，其特征在于，所述基于所述第三显示位置信息、所述终端设备的图像采集单元的相机投影矩阵和所述手臂的长度信息，确定所述第二显示位置信息，包括：

6.根据权利要求1至5任一所述的控制方法，其特征在于，所述基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置，包括：

7.根据权利要求1至5任一所述的控制方法，其特征在于，所述基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置，包括：

8.一种虚拟对象的控制装置，其特征在于，包括：

9.根据权利要求8所述的控制装置，其特征在于，所述识别模块在用于识别所述现实场景图像中手部的目标关键点在设备坐标系下的第一显示位置信息时，包括：

10.根据权利要求8所述的控制装置，其特征在于，所述识别模块在识别所述现实场景图像中的手臂的长度信息时，包括：

11.根据权利要求8至10任一所述的控制装置，其特征在于，所述调整模块在用于基于所述第一显示位置信息以及所述手臂的长度信息，将所述第一显示位置信息变换为世界坐标系下的第二显示位置信息时，包括：

12.根据权利要求11所述的控制装置，其特征在于，所述调整模块在用于基于所述第三显示位置信息、所述终端设备的图像采集单元的相机投影矩阵和所述手臂的长度信息，确定所述第二显示位置信息时，包括：

13.根据权利要求8至12任一所述的控制装置，其特征在于，所述控制模块在用于基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置时，包括：

14.根据权利要求8至12任一所述的控制装置，其特征在于，所述控制模块在用于基于所述第二显示位置信息，控制所述增强现实图像中所述虚拟对象的展示位置时，包括：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的控制方法的步骤。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的控制方法的步骤。