CN114863072A

CN114863072A - 一种交互***中虚拟人物的定位方法及设备

Info

Publication number: CN114863072A
Application number: CN202210527116.5A
Authority: CN
Inventors: 刘帅; 吴连朋
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-05

Abstract

本申请涉及AR技术领域，提供一种交互***中虚拟人物的定位方法及设备，从采集的真实场景的环境图像中提取真实物体的语义信息和其与渲染终端的距离，并发送给采集终端，采集终端根据接收的真实物体的语义信息和其与渲染终端的距离，调整虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系，通过渲染终端和采集终端的双向反馈机制，使得渲染终端在显示虚拟物体时，能够准确的将虚拟物体放置在真实场景中，在一定程度上减弱了虚拟人物与真实场景融合的违和感，提高了虚实融合的真实性。

Description

一种交互***中虚拟人物的定位方法及设备

技术领域

本申请涉及增强现实(Augmented Reality，AR)技术领域，尤其涉及一种交互***中虚拟人物的定位方法及设备。

背景技术

AR技术是一种将模拟仿真的虚拟信息与真实世界巧妙融合的技术，随着AR技术和计算机视觉与计算机图形学技术的发展，将虚拟人物应用在三维通信场景中，从而实现对真实世界的″增强″以提高交互体验逐渐成为新的社交方式。

目前，在实际的AR交互场景中，虚拟人物的定位方式主要包括以下几种：1)根据虚拟空间的设计将虚拟人物放在三维空间中的一个固定位置；2)预先严格设置虚拟人物与周围真实物体的关系，根据设置的关系放置虚拟人物；3)检测虚拟空间中的平面，将虚拟人物放置在检测到的平面上。

交互***中，渲染终端渲染显示采集终端重建的虚拟人物时，可按照上述任一种方法实时定位虚拟人物的位置。但由于采集终端重建的虚拟人物与渲染终端脱节，可能导致当前位置下的虚拟人物，与渲染终端显示的真实场景以及真实场景中的物体无法准确的融合，降低了虚实融合的真实性，进行影响了用户的AR体验。

发明内容

本申请实施例提供了一种交互***中虚拟人物的定位方法及设备，用于提高虚拟人物定位的准确性，进而提高虚实融合的真实性。

一方面，本申请实施例提供一种交互***中虚拟人物的定位方法，包括：

采集真实场景的环境图像，并建立渲染坐标系；

当根据所述环境图像确定所述真实场景中存在真实物体时，提取所述真实物体的属性信息集；

将所述属性信息集发送给所述交互***中的采集终端，以使所述采集终端根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到所述渲染坐标系；

将接收的所述虚拟人物的三维重建数据，在所述渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中。

另一方面，本申请实施例提供一种虚拟人物的定位方法，应用于交互***中的采集终端，包括：

接收交互***中的渲染终端发送的真实物体的属性信息集，所述属性信息集是所述渲染终端在根据采集的真实场景的环境图像中确定所述真实场景中存在真实物体后提取的；

根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系，所述渲染坐标系是所述渲染终端根据所述环境图像建立的；

发送所述目标对象的虚拟人物的三维重建数据，以使所述渲染终端根据所述三维重建数据，在所述渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中。

另一方面，本申请实施例提供一种渲染终端，应用于远程三维交互***，包括摄像头、处理器、存储器、显示屏和通信接口，所述摄像头、所述存储器、所述显示屏、所述通信接口与所述处理器通过总线连接：

所述存储器存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

通过摄像头采集真实场景的环境图像，并建立渲染坐标系；

通过所述通信接口，将所述属性信息集发送给所述交互***中的采集终端，以使所述采集终端根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到所述渲染坐标系；

通过所述通信接口接收所述采集终端发送的虚拟人物的三维重建数据，将所述三维重建数据在所述渲染坐标系的目标位置上进行渲染，通过所述显示屏，将渲染后的虚拟人物叠加显示在所述环境图像中。

另一方面，本申请实施例提供一种采集终端，应用于远程三维交互***，包括相机和主机，所述主机包括处理器、存储器、显示屏和通信接口，所述相机、所述存储器、所述显示屏、所述通信接口与所述处理器通过总线连接：

所述显示屏用于显示重建的虚拟人物；

通过所述通信接口，接收交互***中的渲染终端发送的真实物体的属性信息集，所述属性信息集是所述渲染终端在根据采集的真实场景的环境图像确定所述真实场景中存在真实物体后提取的；

通过所述通信接口，发送所述目标对象的虚拟人物的三维重建数据，以使所述渲染终端根据所述三维重建数据，在所述渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中，所述虚拟人物是根据所述相机采集的数据重建的。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行本申请实施例提供的交互过程中虚拟人物的定位方法。

本申请实施例提供的一种交互***中虚拟人物的定位方法及设备中，通过交互***中的采集终端和渲染终端的双向反馈机制，提高虚拟人物定位的准确性，进而提高虚实融合的真实性。具体的，渲染终端根据采集的真实场景的环境图像建立渲染坐标系，并提取真实场景中真实物体的属性信息集发送给采集终端，采集终端根据接收的属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系，这样，渲染终端接收到采集终端发送的虚拟人物的三维重建数据后，在渲染坐标系的目标位置上渲染虚拟人物并叠加显示在环境图像中，从而准确的融合到真实场景中。通过渲染终端真实场景中的环境信息辅助定位采集终端重建的虚拟人物的位置，并同步给渲染终端，从而渲染终端在同步后的目标位置上显示虚拟人物时，可以减少虚拟人物与真实物体的遮挡或者漂浮等异常现象，在一定程度上减弱了虚拟人物与真实场景融合的违和感，提高了虚实融合的真实性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的交互***架构图；

图2A为本申请实施例提供的直播场景示意图；

图2B为本申请实施例提供的远程会议场景示意图；

图3为本申请实施例提供的存在真实物体时渲染终端定位交互***中虚拟人物的方法流程图；

图4为本申请实施例提供的渲染终端建立渲染坐标系的方法流程图；

图5A为本申请实施例提供的一种检测环境图像中的平面方法流程图；

图5B为本申请实施例提供的另一检测环境图像中的平面方法流程图；

图6为本申请实施例提供的渲染终端的显示效果图；

图7为本申请实施例提供的不存在真实物体时渲染终端定位交互***中虚拟人物的方法流程图；

图8为本申请实施例提供的存在真实物体时采集终端定位交互***中虚拟人物的方法流程图；

图9A为本申请实施例提供的采集终端调整虚拟人物的初始位置的方法流程图；

图9B为本申请实施例提供的采集终端调整虚拟人物的初始位置的另一方法流程图；

图10为本申请实施例提供的不存在真实物体时采集终端定位交互***中虚拟人物的方法流程图；

图11为本申请实施例提供的采集终端和渲染终端的交互场景示意图；

图12为本申请实施例提供的采集终端和渲染终端的交互方法流程图；

图13为本申请实施例提供的渲染终端的机构图；

图14为本申请实施例提供的采集终端的机构图。

具体实施方式

目前，应用虚拟人物进行三维通信的交互***中，由采集终端根据采集的数据重建虚拟人物，并经过传输终端，将虚拟人物的三维重建数据发送给渲染终端，渲染终端将虚拟人物叠加显示在真实场景中。

从技术架构上划分，交互***主要包括三维重建、数据传输和渲染显示三部分。其中，三维重建是指根据传感器采集的人体数据重建虚拟人物，数据传输是指对虚拟人物的三维重建数据进行编解码传输，渲染显示是指根据接收的三维重建数据渲染显示虚拟人物。其中，采集的人体数据与传感器类型有关，传感器包括光学扫描仪(如：可见结构光或激光扫描仪)、RGBD相机、以及RGB相机。

已面市的三维全息通讯交互产品中，有的通过单帧2D图像生成拟真或卡通的三维数字人，因模型数据量小，导致拟真效果不佳。在以真人为基础的虚拟人物方向，有的采用数量较多的摄像头阵列进行3D数据采集，以较大的算力进行建模，生成拟真效果较好的三维数字人，但需要较宽网络带宽，***成本较高；还有的利用RGBD相机捕捉三维几何数据及纹理数据，重建三维数字人。

目前，应用虚拟人物进行三维通信的技术处于发展阶段，市面上的产品比较初级。在渲染显示时针对虚拟人物的定位以及模型的放置方法中，主要是将虚拟人物放置在预设的固定位置，与真实场景中的物体不存在直接交互，使得重建的虚拟人物与渲染终端脱节，导致渲染终端将虚拟人物显示在不当位置，从而与真实场景中的物体相互遮挡或漂浮在真实场景中，降低了虚拟融合的真实。

同时，目前虚拟人物的定位以及模型的放置方法，也会对搭建的交互***带来以下问题：

在三维重建部分：考虑到虚拟人物在渲染终端渲染显示时位置因素的限制，需要对采集数据的传感器进行严格地设置，造成了采集重建的限制。例如，以传感器为相机为例，需要严格设置相机的采集高度、采集角度、采集人物的位置等。

在渲染显示部分：受预先设置的人物位置的限制，不能准确定位虚拟人物的位置，从而无法根据真实场景自适应的放置虚拟人物，有可能会与真实场景中的物体产生重叠，增加交互损耗。因此，需要调整虚拟人物的位置。一方面，如果渲染终端有手势识别功能，则需要手动调整虚拟人物模型的空间位置并放置，降低用户体验。另一方面，如果渲染终端没有手势识别功能，则只能通过固定视点、固定位置放置虚拟人物，降低用户体验。

鉴于此，本申请实施例提供一种交互***中虚拟人物的定位方法及设备，通过采集终端和渲染终端的双向反馈机制，提高虚拟人物定位的准确性，进而提高虚实融合的真实性。具体的，渲染终端根据采集的真实场景的环境图像，提取真实物体的语义信息以及真实物体与渲染终端的距离，并经过传输终端发送给采集终端，采集终端在重建虚拟人物时，根据真实场景中提取的语义信息和距离的提示和引导，辅助定位虚拟人物并同步给渲染终端，增强虚拟人物与真实场景中物体的交互性，从而渲染终端在根据采集终端发送的三维重建数据显示虚拟人物时，能够有效防止虚拟人物与真实物体的遮挡、或者虚拟人物漂浮在真实场景中等异常现象，进而应用虚拟人物进行AR交互以及三维全息通讯中时，使虚拟人物更好的与真实场景相融合，增强人物交互体验。

参见图1，为本申请实施例提供的交互***整体架构图，主要包括采集终端、传输终端和渲染终端。

采集终端用于采集目标对象的几何数据和纹理数据，并根据采集的几何数据和纹理数据进行几何三维重建和纹理三维重建，生成以真人为基础的虚拟人物，并将虚拟人物的三维重建数据发送给渲染终端。重建过程中，渲染终端的真实场景的环境信息可通过AR眼镜反馈给采集人员，采集人员根据环境信息以及相机(RGB相机或RGBD相机)的可视范围设置目标对象的交互范围，以调整目标对象的虚拟人物在采集终端对应的采集坐标系的初始位置，并将调整后的目标位置同步给渲染终端，使得渲染终端能够准放置虚拟人物，提高虚实融合的真实性，进而提高用户的沉浸式体验。

其中，采集终端可以由RGB相机或RGBD相机，并配有计算能力的主机或工作站组成的交互设备。本申请对采集终端的交互设备不做限制性要求，例如，可以是笔记本电脑、台式机、智能手机、AR头戴式显示设备、AR眼镜等交互设备。

传输终端用于获取采集终端发送的三维重建数据，并经过编解码后分发给渲染终端；以及，获取渲染终端反馈的真实场景的环境信息，并经过编解码后分发给采集终端。

其中，传输终端可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

渲染终端用于基于配备的RGB相机采集周围真实场景的环境图像，从环境图像中提取环境信息并反馈给采集终端，以使渲染终端调整目标对象的虚拟人物在采集终端对应的采集坐标系的初始位置，并将调整后的目标位置同步给渲染终端，这样，渲染终端根据接收的采集终端发送的三维重建数据渲染虚拟人物后，能够准确的将虚拟人物放置在渲染坐标系的目标位置上，提高虚实融合的真实性，进而提高用户的沉浸式体验。

其中渲染终端可以是具有AR功能的AR头戴式显示设备、AR眼镜等三维交互设备，并且，虚拟人物的显示过程中，还可以连接智能电视、智能手机、平板等二维显示设备进行显示。

上述实施例中的环境信息，是指真实物体的语义信息、真实物体与渲染终端的距离以及真实物体的局部图像等属性信息。

需要说明的是，本申请的实施例中，可根据实际交互场景对三端进行独立的部署。

例如，参见图2A所示的直播场景，主播端设置有交互***中的采集终端，观众端设置有交互***中的渲染终端，采集终端和渲染终端通过直播平台的云服务器进行数据的传输。

在图2A所示的直播场景中，主播端的采集终端配置有相机和主机，相机用于采集主播的图像数据，主机用于根据图像数据重建主播的虚拟人物，并将虚拟人物的三维重建数据发送给渲染终端，以及，利用AR眼镜接收渲染终端反馈的观众端的真实场景的环境信息，调整主播的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步给渲染终端。渲染终端的AR眼镜接收虚拟人物的三维重建数据，并将虚拟人物显示在目标位置，实现对真实场景的增强，同时，AR眼镜可以连接手机、电视、平板等显示设备进行二维显示。

再例如，参见图2B所示的会议场景，在进行远程会议的每个会议室(如图2B中的会议室1-4)中分别部署交互***中的采集终端和渲染终端。

在图2B所示的会议场景中，每个会议室内的采集终端和渲染终端的功能相同。以会议室1中的采集终端和渲染终端为例，采集终端配置的相机用于采集会议室1内用户1的图像数据，主机根据相机采集的图像数据重建用户1的虚拟人物1，并将虚拟人物1的三维重建数据通过云服务器发送给每个会议室内的渲染终端；渲染终端将用户1在真实场景中的环境信息通过云服务器发送给每个会议室内的采集终端，以使采集终端调整各自的虚拟人物在采集坐标系中的初始位置并同步给该渲染终端，同时，该渲染终端的AR眼镜接收各虚拟人物的三维重建数据，并将渲染后的虚拟人物按各自的位置进行放置，实现对真实场景的增强，并可连接电视、手机、平板等进行二维显示。

需要说明的是，图2A和图2B仅是一种场景示例，不作为交互人数的限制，无论采集终端和渲染终端是分开部署还是合并部署，对应的用户数量均可以是一个或多个。

基于本申请实施例的交互***，图3示例性示出了本申请实施例提供的交互***中虚拟人物的定位方法流程图，该流程应用在交互***中的渲染终端，主要包括以下几步：

S301：采集真实场景的环境图像，并建立渲染坐标系。

渲染终端安装有摄像头，包括但不限于双目相机、RGBD相机，可以采集真实场景的环境图像和深度数据。

在执行S301时，渲染终端启动AR应用后，通过头部转动带动摄像头扫描渲染终端周围的真实场景，获得真实场景的环境图像，并基于采集的环境图像，建立渲染坐标系。其中，渲染坐标系的建立过程参见图4，主要包括以下几步：

S3011：提取环境图像包含的三维点云数据。

在一种可选的实施方式中，可采用内在形状签名(Intrinsic Shape signatures，ISS)算法，从环境图像中提取三维点云数据。其中，从图像中提取三维点云数据的技术已经相当成熟，此部分内容不作为本申请的重点，不再详细展开描述。

在一种可选的实施方式中，当渲染终端安装的摄像头为RGBD相机时，还可以基于环境图像对应的深度数据获得三维点云数据。

S3012：根据三维点云数据，检测环境图像中是否包含至少一个平面，若包含，执行S3013，否则，执行S3014。

S3013：以检测到的目标平面为地面，建立渲染坐标系。

S3014：重新采集环境图像，返回S3011。

目前，常用的从三维点云数据中检测平面的算法主要包括：随机抽样一致性(Random Sample Consensus，RANSAC)算法，区域生长(Region Growing)算法和基于网格的区域生长(Grid-based Region Growing)算法。

其中，RANSAC算法作为最经典的一种算法，能够根据一组包含异常数据的样本数据集中，计算出数学模型参数，从而得到有效样本数据。RANSAC算法的基本假设是样本数据集中包含正确数据(可以被数学模型描述的数据，也称为内点(inliers))，也包含异常数据(偏离正常范围很远、无法适应数据模型的数据，也称为外点(outliers))，即样本数据集中含有噪声。这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的。同时RANSAC算法也假设，给定一组正确的数据，存在可以计算出符合这些数据的模型参数的方法。

从三维点云数据中拟合平面的过程中，平面上小的凹凸点(如：地面上小的坑洼)可视为有效数据，对所拟合的平面来说有一定的偏移，而偏移量过大的凹凸点(如：地面上的障碍物、地面的深坑)，这些点可是为无效数据。因此，可采用RANSAC算法，根据三维点云数据检测环境图像中是否包含至少一个平面，具体检测过程参见图5A，主要包括以下几步：

S3012_11：根据三维点云数据，随机拟合多个平面。

S3012_12：针对每一个平面，确定三维点云数据中与该平面的距离超过预设距离阈值的点数。

如果三维点云数据中点与该平面的距离超过预设距离阈值，表明该点为无效数据，如果三维点云数据中点与该平面的距离小于预设距离阈值，表明该点为有效数据。

S3012_13：确定超过预设距离阈值的点数是否大于设定的第一数量阈值，若是，执行S3012_14，否则，执行S3012_15。

如果超过预设距离阈值的点数大于设定数量阈值，表明该平面无效，应该舍弃，如果超过预设距离阈值的点数小于等于设定数量阈值，表明该平面有效，应该保留。

S3012_14：舍弃该平面。

S3012_15：保留该平面。

S3012_16：从保留的各平面中，选择超过预设距离阈值的点数最少的一个平面，并将选择的平面作为最终检测到的目标平面。

在S3012_16中，可能存在多个满足上述要求的平面，保留的各平面中超过预设距离阈值的点数最少的一个平面，表明拟合效果最佳，可将其作为环境图像中包含的平面。

本申请的实施例中，除了使用三维点云数据中的无效数据检测平面外，还可以使用有效数据检测平面，具体过程参见图5B，主要包括以下几步：

S3012_21：根据三维点云数据，随机拟合多个平面。

S3012_22：针对每一个平面，确定该平面包含的距离小于预设距离阈值的点数。

S3012_23：确定小于预设距离阈值的点数是否大于设定的第二数量阈值，若是，执行S3012_24，否则，执行S3012_25。

S3012_24：保留该平面。

S3012_25：舍弃该平面。

S3012_26：从保留的各平面中，选择小于预设距离阈值的点数最少的一个平面，并将选择的平面作为最终检测到的目标平面。

相对于最小二乘拟合，RANSAC算法意在根据大多数的有效数据获得拟合结果，因此，平面检测效果更佳。

建立渲染坐标系后，利用采集的环境图像，检测渲染终端所在的真实场景中是否包含真实物体，以防止叠加显示时虚拟人物与真实物体间的遮挡。具体过程参见S302～S304。

S302：当根据环境图像确定真实场景中存在真实物体时，提取真实物体的属性信息集。

在S302中，真实物体的检测可采用常用的目标检测算法，如卷积神经网络检测算法、深度神经网络检测算法等，本申请实施例不做限制性要求。当检查到真实物体后，可通过检测框从环境图像中截取出真实物体的局部图像。

在检测到真实物体后，对环境图像进行图像语义分割，提取真实物体的语义信息(如：真实物体的类别)。其中，本申请实施例对基于图像的语义分割算法不做限制性要求，包括但不限于基于深度学习的全连接网络(Fully Connected Network，FCN)、U-net、SegNet、Deeplab、PSPNet等。

本申请的实施例中，由于渲染终端配置的摄像头为双目相机或者RGBD相机，可以分析出真实场景中的真实物体和渲染终端的距离。

根据上述真实物体的语义信息，以及真实物体与渲染终端的距离，获得真实物体的属性信息集，或者，根据上述真实物体的局部图像，以及真实物体与渲染终端的距离，获得真实物体的属性信息集。

S303：将属性信息集发送给交互***中的采集终端，以使采集终端根据属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系。

一般的，采集终端在重建虚拟人物的过程中，是以采集终端自身的采集坐标系为基础进行的三维重建，也就是说，重建好的虚拟人物在采集坐标系中有一个初始位置，该初始位置不受渲染终端中真实场景的影响。

本申请的实施例中，渲染终端将真实场景中提取的属性信息集发送给采集终端，由于属性信息集反映了渲染终端所在的真实场景中真实物体的真实信息，通过采集终端侧AR眼镜，可以根据属性信息感知渲染终端侧的真实场景，从而针对重建的虚拟人物，可以根据渲染终端侧的真实场景，调整虚拟人物在采集坐标系中的原始位置，并将调整后的位置同步给渲染坐标系，保证渲染终端显示虚拟人物时，不会和真实场景中的真实物体存在遮挡，提高虚实融合的真实性。

其中，虚拟人物位置的调整过程参见采集终端侧定位虚拟人物的方法流程，在此不再展开描述。

S304：将接收的虚拟人物的三维重建数据，在渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。

在S304中，采集终端重建好虚拟人物后，将虚拟人物的三维重建数据经过传输终端发送给渲染终端，以使渲染终端根据三维重建数据渲染虚拟人物，并根据AR应用的设计，将渲染的虚拟人物叠加显示在真实场景的环境图像中。显示过程中，虚拟人物在渲染坐标系中放置的目标位置是采集终端调整后同步给渲染终端的，由于采集终端在调整虚拟人物的初始位置时，参考了渲染终端反馈的真实场景中真实物体的信息，因此，可以保证在目标位置放置的虚拟人物不会和真实场景中的真实物体存在遮挡，提高虚实融合的真实性。

在一些实施例中，渲染终端通过AR技术将虚拟人物叠加在环境图像中显示在视野内时，结合摄像头光圈表示的可视范围，显示虚拟人物在渲染坐标系内的可移动范围，并在显示界面中标注虚拟人物当前所在的位置以引起用户的关注。

例如，如图6所示，实线的四面体表示真实物体，虚线的小人表示虚拟人物，虚拟人物的可移动范围可通过纯色的填充区域表示，虚拟人物当前所在的位置通过方向图标进行引导。

在一些实施例中，渲染终端所在的真实场景中可能没有放置任何真实物体，即通过目标检测算法没有检测到真实物体，此时，渲染终端定位虚拟人物的方法流程参见图7，主要包括以下几步：

S701：采集真实场景的环境图像，并建立渲染坐标系。

该步骤的详细描述参见图5A和图5B，在此不再重复。

S702：当根据环境图像确定真实场景中不存在真实物体时，向采集终端发送无真实物体的提示信息，以使采集终端根据提示信息，显示目标对象的虚拟人物在采集坐标系内的可移动范围，并将可移动范围同步到渲染坐标系。

本申请的实施例中，当渲染终端所在的真实场景中不存在真实物体时，无需考虑虚拟人物与真实物体的遮挡问题，此时，渲染终端向采集终端发送无真实物体的提示信息，采集终端接收到提示信息后，根据渲染终端配置的摄像头的可视范围，设置虚拟人物在采集坐标系内的可移动范围并显示，并将可移动范围同步给渲染坐标系，防止交互过程中，渲染终端显示的虚拟人物从用户的视野内消失。

S703：将接收的虚拟人物的三维重建数据，在渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。

在S703中，渲染终端接收采集终端发送的虚拟人物的三维重建数据，并根据AR应用的设计，渲染虚拟人物并叠加显示在真实场景的环境图像中。显示过程中，虚拟人物在渲染坐标系内的可移动范围是采集终端根据渲染终端的摄像头的可视范围设置，并同步给渲染终端的，因此，能够保证虚拟人物在可移动范围内移动时，不会超出真实场景，提高虚实融合的真实性。

上述过程为渲染终端侧实现的交互***中虚拟人物的定位方法流程，与渲染终端相对应，图8为本申请实施例提供的采集终端侧实现的交互***中虚拟人物的定位方法流程图，主要包括以下几步：

S801：接收交互***中的渲染终端发送的真实物体的属性信息集。

其中，属性信息集是渲染终端在根据采集的真实场景的环境图像确定真实场景中存在真实物体后提取的，属性信息的提取过程及内容参见渲染终端侧的描述，在此不再重复。

S802：根据属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系。

在S802中，根据属性信息集中内容的不同，虚拟人物在采集坐标系中的初始位置的调整方式不同。

当属性信息集至少包括真实物体的局部图像，以及真实物体与渲染终端的距离时，可借助传输终端的计算能力，调整虚拟人物在采集坐标系中的初始位置，具体调整过程参见图9A，主要包括以下几步：

S802_11：接收真实物体对应的虚拟物体的三维重建数据，虚拟物体是传输终端根据渲染终端发送的真实物体的局部图像重建的。

当渲染终端经过传输终端向采集终端发送属性信息集后，借助传输终端的计算能力，由传输终端根据真实物体的局部图像，重建真实物体的三维模型，得到虚拟物体，并将虚拟物体的三维重建数据(包括几何和纹理数据)发送给采集终端。

S802_12：将虚拟物体的三维重建数据在采集坐标系中进行渲染，并根据真实物体与渲染终端的距离，放置虚拟物体并显示。

采集终端接收到虚拟物体的三维重建数据后，渲染虚拟物体，并根据真实物体与渲染终端的距离，放置虚拟物体并显示。

S802_13：根据虚拟物体的位置，调整目标对象的虚拟人物在采集坐标系的初始位置。

采集终端侧的采集人员通过佩戴AR眼镜，可以看到虚拟物体，并参照虚拟物体与虚拟人物的距离，通过改变相机高度、目标对象的位置等操作，调整虚拟人物在采集坐标系中的初始位置，获得调整后虚拟人物的目标位置，并将目标位置同步给渲染坐标系，保证渲染终端在叠加显示虚拟人物时，能正确放置虚拟人物，提高虚拟融合的真实性。

由于图9A所示的调整过程需要对真实物体进行三维重建，对计算能力的要求较高，且在网络不佳的情况下可能存在时延，引起交互画面的卡顿，影响用户体验。为了解决上述问题，可借助真实物体的语义信息进行调整。

当属性信息集至少包括真实物体的语义信息，以及真实物体与渲染终端的距离时，虚拟人物在采集坐标系中初始位置的调整过程参见图9B，主要包括以下几步：

S802_21：根据真实物体的语义信息，从预设数据库获取语义信息对应的虚拟物体，并根据真实物体与渲染终端的距离，在采集坐标系中显示虚拟物体。

本申请的实施例中，预设数据库中包含各类物体的三维模型，因此，可以从预设数据库中获取相应类别的真实物体对应的虚拟物体。

以语义信息为真实物体的类别为例，假设渲染终端的真实场景中存在的真实物体为沙发，则采集终端接收到语义信息后，从预设数据库中获取沙发的虚拟物体，并根据真实场景中沙发与渲染终端的距离，放置虚拟物体以提供虚拟人物定位的参照物。采集人员可通过佩戴采集终端侧的AR眼镜看到沙发的虚拟物体。

S802_22：根据虚拟物体的位置，调整目标对象的虚拟人物在采集坐标系的初始位置。

仍以虚拟物体为少发为例，放置好沙发的虚拟物体后，参照沙发的虚拟物体与虚拟人物的距离，通过改变相机高度、目标对象的位置等操作，调整虚拟人物在采集坐标系中的初始位置，获得调整后虚拟人物的目标位置，并将目标位置同步给渲染坐标系，保证渲染终端在叠加显示虚拟人物时，能正确放置虚拟人物，提高虚拟融合的真实性。

相对于图9A所示的调整方式，图9B的实时性更强，能够适用各中交互场景。

S803：发送目标对象的虚拟人物的三维重建数据，以使渲染终端将三维重建数据，在渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。

本申请的实施例中，虚拟人物的三维重建涉及人体形状重建、运动重建、材质重建。在人体形状重建方面，采用基于参数化人体模型和人体语义分割的语义化分层人体表达、约束及求解方式重建人体几何模型，这样，提升人体三维重建精度的同时，实现了人体动态三维信息的多层语义化重建。人体运动重建方面，采用基于骨架跟踪及参数化人体模型的联合运动跟踪方法，实现人体骨架运动及表面非刚性运动的联合求解，能够提升人体动作捕捉的精度；并且，针对单视点条件下动作捕捉方法无法处理快速运动和人体自遮挡的复杂难点，本申请实施例采用基于语义的双向混合运动捕捉算法，提升人体动作捕捉在复杂条件下的鲁棒性。

其中，虚拟人物实时三维重建的相关技术可参考Doublefusion、Function4D、以及PifuHD等。由于虚拟人物的三维重建过程不作为本申请的重点内容，在此不再详细描述。

在一种可选的实施方式中，执行S803时，采集终端内的相机和主机完成虚拟人物的三维重建后，将虚拟人物的三维重建数据(包括几何和纹理数据)通过传输终端发送给渲染终端，传输终端将三维重建数据压缩后，分发给渲染终端。渲染终端根据三维重建数据，在渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。由于虚拟人物的目标位置是根据真实场景中真实物体的属性信息调整后的，因此，叠加显示时，不会与真实物体存在遮挡，提高了虚实融合的真实性，进而提升了交互体验。

在另一种可选的实施方式中，采集终端可将虚拟人物的三维重建数据发送给渲染终端，渲染终端根据三维重建数据预先生成虚拟人物。这样，在交互过程中，采集终端可将三维重建数据中反映目标对象姿态的几何数据发送给渲染终端以减少传输的数据量，提高交互的实时性，这样，渲染终端可根据接收的几何数据驱动待显示的虚拟人物进行运动，得到真实姿态的虚拟人物进行显示。

在一些实施例中，渲染终端所在的真实场景中可能没有放置任何真实物体，即通过目标检测算法没有检测到真实物体，此时，采集终端定位虚拟人物的方法流程参见图10，主要包括以下几步：

S1001：接收交互***中的渲染终端发送的真实物体的属性信息集。

S1002：接收渲染终端在根据环境图像确定真实场景中不存在真实物体时发送的无真实物体的提示信息。

本申请的实施例中，当渲染终端所在的真实场景中不存在真实物体时，无需考虑虚拟人物与真实物体的遮挡问题，此时，渲染终端向采集终端发送无真实物体的提示信息。

S1003：根据提示信息，显示目标对象在采集坐标系内的可移动范围，并将可移动范围同步到渲染坐标系，以使渲染终端根据虚拟人物的三维重建数据，在渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。

在S1003中，采集终端接收到提示信息后，根据渲染终端配置的摄像头的可视范围，设置虚拟人物在采集坐标系内的可移动范围并显示，并将可移动范围同步给渲染坐标系，保证虚拟人物在可移动范围内移动时，不会超出真实场景，提高虚实融合的真实性。

本申请的实施例中，采集终端不仅仅负责重建虚拟人物并发送虚拟人物的三维重建数据，渲染终端也不仅仅是叠加显示虚拟人物，采集终端根据渲染终端反馈的真实场景的环境信息，调整虚拟人物的初始位置并同步给渲染终端，这样，通过渲染终端和采集终端的双向反馈，增强虚拟人物与真实场景中物体的交互性，可以减少虚拟人物与真实物体的遮挡、超出真实场景等异常现象，在一定程度上减弱了虚拟人物与真实场景融合的违和感，提高了虚实融合的真实性，进而提高用户的沉浸式体验。

参见图11，为本申请实施例提供的采集终端和渲染终端的交互场景示意图。其中，采集终端和渲染终端分别位于两个不同的场景中，为区别描述，将采集终端所在的场景记为场景1，将渲染终端所在的场景记为场景2。

场景1中，采集终端中的主机利用相机采集的ActorA的几何数据和纹理数据，重建ActorA的三维人体模型，并将ActorA的三维人体模型的三维重建数据，通过云端传输给场景2中的渲染终端。

场景2中，观察者佩戴有渲染终端，渲染终端可以是AR眼镜或者AR头盔，并配有摄像头以采集真实场景的环境图像。场景2中放置有真实物体A和真实物体B，通过对包含真实物体A和真实物体B的环境图像进行语义分割和距离分析，提取出真实物体A和真实物体B的语义信息，以及各自与渲染终端的距离，并通过云端传输给场景1中的采集终端。

在场景1中，采集终端侧的采集者佩戴有AR眼镜，在采集终端接收到渲染终端发送的真实物体A和真实物体B的语义信息，以及各自与渲染终端的距离后，采集者通过佩戴的AR眼镜，可以看到基于语义信息从预设数据库中匹配的虚拟物体A和虚拟物体B，并根据真实物体A和真实物体B各自与渲染终端的距离，获得虚拟物体A和虚拟物体B的位置，以获知场景2中的真实场景。这样，采集终端通过虚拟物体A和虚拟物体B分别与重建的虚拟人物间的距离，调整虚拟人物在采集坐标系中的原始位置，防止虚拟人物与真实物体A和真实物体B发生遮挡，并将调整后的目标位置同步给场景2中的渲染终端。

在场景2中，渲染终端接收到采集终端发送的三维重建数据后，在渲染坐标系的目标位置处渲染并显示虚拟人物，观察者通过渲染终端，可以看到虚拟人物和真实场景叠加显示后的AR效果。

基于图11所示的交互场景，图12为本申请实施例提供的定位虚拟人物的交互方法流程图，主要包括以下几步：

S1201：渲染终端接收采集终端发送的虚拟人物的三维重建数据。

S1202：渲染终端采集真实场景的环境图像。

S1203：渲染终端确定该环境图像中是否包含目标平面，若包含，执行S1204，否则，返回S1202重新采集环境图像。

S1204：渲染终端以检测到的目标平面为地面，建立渲染坐标系。

S1205：渲染终端根据该环境图像，检测真实场景中是否存在真实物体，若存在，执行S1206，否则，执行S1211。

S1206：渲染终端对该环境图像进行语义分割及距离分析，提取真实物体的语义信息以及真实物体与渲染终端的距离。

S1207：渲染终端将真实物体的语义信息以及真实物体与渲染终端的距离发送给采集终端。

S1208：采集终端根据真实物体的语义信息以及真实物体与渲染终端的距离，渲染虚拟物体，并通过AR眼镜显示给采集人员，以使采集人员参照虚拟物体调整虚拟人物在采集坐标系中的初始位置。

S1209：采集终端将调整后的目标位置同步给渲染坐标系。

S1210：渲染终端将三维重建数据在渲染坐标系的目标位置处进行渲染，并将渲染后的虚拟人物叠加在环境图像中。

S1211：渲染终端向采集终端发送无真实物体的提示信息。

S1212：采集终端根据提示信息，显示虚拟人物在采集坐标系内的可移动范围，并将可移动范围同步到渲染坐标系。

S1213：渲染终端将三维重建数据，在渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在环境图像中。

S1214：渲染终端在用户界面显示虚拟人物当前位置的标识以增强虚拟人物的关注度。

本申请实施例提供的一种交互***中虚拟人物的定位方法中，渲染终端根据采集的真实场景的环境图像建立渲染坐标系，并提取真实场景中真实物体的语义信息和真实物体与渲染终端的距离，并发送给采集终端，采集终端根据接收的真实物体的语义信息和真实物体与渲染终端的距离，调整虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到渲染坐标系，这样，通过交互***中的采集终端和渲染终端的双向反馈机制，提高虚拟人物定位的准确性，从而渲染终端接收到虚拟人物的三维重建数据后，在渲染坐标系的目标位置上渲染虚拟人物并叠加显示在环境图像中，实现虚拟人物与真实场景的准确融合，减少虚拟人物与真实物体的遮挡或者漂浮等异常现象，在一定程度上减弱了虚拟人物与真实场景融合的违和感，提高了虚实融合的真实性。

基于相同的技术构思，本申请实施例提供一种渲染终端，该渲染终端可实现上述实施例中交互***中虚拟人物的定位方法步骤，且能达到相同的技术效果。

参见图13，该渲染终端包含摄像头1301、处理器1302、存储器1303、显示屏1304和通信接口1305，所述摄像头1301、所述通信接口1305、所述显示屏1304、所述存储器1303与所述处理器1302通过总线1306连接；

所述存储器1303存储有计算机程序，所述处理器1302根据所述计算机程序，执行以下操作：

通过所述摄像头1301采集真实场景的环境图像，并建立渲染坐标系；

通过所述通信接口1305，将所述属性信息集发送给所述交互***中的采集终端，以使所述采集终端根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，并将调整后的目标位置同步到所述渲染坐标系；

通过所述通信接口1305，接收所述采集终端发送的虚拟人物的三维重建数据，将所述三维重建数据在所述渲染坐标系的目标位置上进行渲染，通过所述显示屏1304，将渲染后的虚拟人物叠加显示在所述环境图像中。

可选的，当根据所述环境图像确定所述真实场景中不存在真实物体时，所述处理器1302还执行：

通过所述通信接口1305，向所述采集终端发送无真实物体的提示信息，以使所述采集终端根据所述提示信息，显示所述目标对象的虚拟人物在所述采集坐标系内的可移动范围，并将所述可移动范围同步到所述渲染坐标系；

通过所述通信接口1305接收所述采集终端发送的虚拟人物的三维重建数据，将所述三维重建数据在所述渲染坐标系的可移动范围内进行渲染，并通过所述显示屏1304，将渲染后的虚拟人物叠加显示在所述环境图像中。

可选的，所述处理器1302建立渲染坐标系，具体操作为：

提取所述环境图像包含的三维点云数据；

根据所述三维点云数据，检测所述环境图像中是否包含至少一个平面；

若包含，则从检测到的至少一个平面中选择一个目标平面为地面，建立所述渲染坐标系，否则，重新采集环境图像。

可选的，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的语义信息；或者

所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的局部图像。

基于相同的技术构思，本申请实施例提供一种采集终端，该采集终端可实现上述实施例中交互***中虚拟人物的定位方法步骤，且能达到相同的技术效果。

参见图14，该采集终端包含相机1401和主机1402，所述主机1402包括处理器1402_1、存储器1402_2、显示屏1402_3和通信接口1402_4，所述相机1401、所述通信接口1402_4、所述显示屏1402_3、所述存储器1402_2与所述处理器1402_1通过总线1403连接；

所述显示屏1402_3用于显示重建的虚拟人物；

所述存储器1402_2存储有计算机程序，所述处理器1402_1根据所述计算机程序，执行以下操作：

通过所述通信接口1402_4，接收交互***中的渲染终端发送的真实物体的属性信息集，所述属性信息集是所述渲染终端在根据采集的真实场景的环境图像确定所述真实场景中存在真实物体后提取的；

通过所述通信接口1402_4，发送所述目标对象的虚拟人物的三维重建数据，以使所述渲染终端根据所述三维重建数据，在所述渲染坐标系的目标位置上进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中，所述虚拟人物是根据所述相机采集的数据重建的。

可选的，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的语义信息；

所述处理器1402_1根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，具体操为：

根据所述真实物体的语义信息，从预设数据库获取所述语义信息对应的虚拟物体，并根据所述真实物体与所述渲染终端的距离，在所述采集坐标系中显示所述虚拟物体；

根据所述虚拟物体的位置，调整所述目标对象的虚拟人物在所述采集坐标系的初始位置。

可选的，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的局部图像；

通过所述通信接口1402_4，接收所述真实物体对应的虚拟物体的三维重建数据，所述虚拟物体是传输终端根据所述渲染终端发送的所述真实物体的局部图像重建的；

将所述虚拟物体的三维重建数据在所述采集坐标系中进行渲染，并根据所述真实物体与所述渲染终端的距离，放置所述虚拟物体并显示；

可选的，所述处理器1402_1还执行：

通过所述通信接口1402_4，接收所述渲染终端在根据所述环境图像确定所述真实场景中不存在真实物体时发送的无真实物体的提示信息；

根据所述提示信息，通过所述显示屏1402_3显示所述目标对象在所述采集坐标系内的可移动范围，并将所述可移动范围同步到所述渲染坐标系，以使所述渲染终端根据所述三维重建数据，在所述渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中。

需要说明的是，图13、14仅是一种示例，给出渲染终端和采集终端执行本申请实施例提供的交互***中虚拟人物的定位方法步骤所必要的硬件，未示出的，渲染终端和采集终端还包含显示设备的常用硬件，如扬声器、麦克风等。

本申请实施例图13、14中涉及的处理器可以是中央处理器(Central ProcessingUnit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specific IntegratedCircuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种虚拟人物的定位方法，其特征在于，应用于交互***中的渲染终端，包括：

采集真实场景的环境图像，并建立渲染坐标系；

2.如权利要求1所述的方法，其特征在于，当根据所述环境图像确定所述真实场景中不存在真实物体时，所述方法还包括：

向所述采集终端发送无真实物体的提示信息，以使所述采集终端根据所述提示信息，显示所述目标对象的虚拟人物在所述采集坐标系内的可移动范围，并将所述可移动范围同步到所述渲染坐标系；

将接收的所述虚拟人物的三维重建数据，在所述渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中。

3.如权利要求1所述的方法，其特征在于，所述建立渲染坐标系，包括：

提取所述环境图像包含的三维点云数据；

4.如权利要求1-3中任一项所述的方法，其特征在于，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的语义信息；或者

5.一种虚拟人物的定位方法，其特征在于，应用于交互***中的采集终端，包括：

6.如权利要求5所述的方法，其特征在于，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的语义信息；

所述根据所述属性信息集，调整目标对象的虚拟人物在采集坐标系的初始位置，包括：

7.如权利要求5所述的方法，其特征在于，所述属性信息集至少包括所述真实物体与所述渲染终端的距离，以及所述真实物体的局部图像；

接收所述真实物体对应的虚拟物体的三维重建数据，所述虚拟物体是传输终端根据所述渲染终端发送的所述真实物体的局部图像重建的；

8.如权利要求5所述的方法，其特征在于，所述方法还包括：

接收所述渲染终端在根据所述环境图像确定所述真实场景中不存在真实物体时发送的无真实物体的提示信息；

根据所述提示信息，显示所述目标对象在所述采集坐标系内的可移动范围，并将所述可移动范围同步到所述渲染坐标系，以使所述渲染终端根据所述三维重建数据，在所述渲染坐标系的可移动范围内进行渲染，并将渲染后的虚拟人物叠加显示在所述环境图像中。

9.一种渲染终端，其特征在于，应用于远程三维交互***，包括摄像头、处理器、存储器、显示屏和通信接口，所述摄像头、所述存储器、所述显示屏、所述通信接口与所述处理器通过总线连接：

通过所述摄像头采集真实场景的环境图像，并建立渲染坐标系；

10.一种采集终端，其特征在于，应用于远程三维交互***，包括相机和主机，所述主机包括处理器、存储器、显示屏和通信接口，所述相机、所述存储器、所述显示屏、所述通信接口与所述处理器通过总线连接：

所述显示屏用于显示重建的虚拟人物；