CN112598742A

CN112598742A - 一种基于图像和雷达数据的舞台交互***

Info

Publication number: CN112598742A
Application number: CN202011609683.2A
Authority: CN
Inventors: 吴子朝; 陈豪; 张�成
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-02

Abstract

本发明公开了一种基于图像和雷达数据的舞台交互***，包括信息采集模块、处理模块和控制模块。所述信息采集模块包括安装在舞台正前方的一台RGB摄影机和一台LiDAR激光雷达，实时探测舞台上表演者的姿态信息，作为生产姿态的训练数据或现场数据；处理模块包括姿态生成和姿态识别，姿态生成单元利用双流深度学习网络学习训练数据，产生表演者的姿态模型；姿态识别根据表演者的姿态模型识别匹配对应的预设姿态，将结果发送到控制模块。控制单元模块根据接收到的识别结果，控制舞台屏幕的显示内容随表演者姿态变化。通过上述方式，本发明能够在较高精度下使表演者可以通过动作姿态与舞台场景实时交互。

Description

一种基于图像和雷达数据的舞台交互***

技术领域

本发明属于人机交互技术，具体涉及一种基于图像和雷达数据的舞台交互***。

背景技术

随着艺术表演的舞美对演出效果增强作用的越发突出，传统的常规式布景式舞台已经无法满足表演者与舞台场景互动的需求，于是出现了许多舞台交互***。现有的舞台交互***通常使用3D体感摄影机，配合表演者身上的体感设备来捕捉表演者的姿态，或是采用激活雷达探测表演者的触控点，来实现交互。

基于3D体感摄影机和体感设备来捕捉表演者姿态的舞台交互***，其实现方法通常是借助穿戴于表演者身上的体感设备，检测表演者肢体的动作幅度并输出检测信号；3D体感摄影机检测体感信号后将信息传输给处理装置和控制装置，实现舞台交互。这种方法的优点在于可检测包括手势，姿态，表情等信息，且只需表演者穿戴设备，成本低廉。缺点是***的检测范围有限，当表演者背对或侧对3D体感摄影机时，该交互***都难以准确的获取表演者的姿态数据，从而也无法准确控制舞台的切换,而且体感设备在一定程度上也会影响表演者的动作美观。

基于激光雷达探测表演者触控点的舞台交互***，其实现方案是采用激光雷达探测装置，通过形成的扫描面来检测面上的触摸动作，从而定位一个或多个触摸点的位置信息，通过触摸点的位置信息控制舞台的切换；优点在于抗干扰能力强，对环境光不敏感，不受屏幕形状和边界的限制；缺点是有效检测区域小，有效检测范围仅为半径3m的半圆，检测数量有限，即使设置多个激光雷达配合使用，仍不适合中大型舞台的交互控制，其次只能简单的检测触控点位置，而无法检测表演者的姿态信息，同时还存在误触等情况，难以达到精确控制舞台的交互切换。

发明内容

针对现有技术的不足，本发明提出了一种基于图像和雷达数据的舞台交互***，无需表演者穿戴额外的体感设备，还可以提高有效检测范围的面积，提高***控制精度。

一种基于图像和雷达数据的舞台交互***，包括信息采集模块、处理模块和控制模块。

所述信息采集模块，使用一台RGB摄影机和一台LiDAR激光雷达，分别对舞台进行图像拍摄和雷达探测，实时获取舞台上的表演者信息，将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后，将RGB图像和雷达云点图作为现场数据，一同传输到处理模块中。

作为优选，所述RGB摄影机和LiDAR激光雷达布置在舞台前方。

所述处理模块包括姿态生成单元和姿态识别单元，姿态生成单元通过双流网络学习信息采集模块采集的数据，生成姿态集；姿态识别单元找到姿态集中的现场姿态对应的预设姿态，将识别结果发送给控制模块。

所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到鸟瞰图，然后利用VGG-16网络提取鸟瞰图与RGB图像特征，得到特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息，将锚定姿态拟合到目标区域中，生成姿态集。

所述控制模块，接收到处理模块的姿态识别结果后，根据识别结果判断表演者的意图，控制舞台随表演者的姿态进行变化。

所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。

本发明具有以下有益效果：

1、同时使用RGB摄影机和LiDAR激光雷达获取当前表演者的姿态，检测范围大，表演者无需额外穿戴体感装置；表演者变化不同姿势时都能捕获到相应的手势、姿态、表情等信息。

2、处理模块通过神经网络对采集到的现场数据进行特征提取、聚合等处理后识别出表演者的姿态信息，再通过控制模块根据表演者的意图控制舞台变化，实现了表演者姿态与舞台效果的交互，达到了虚实结合的舞台效果。

附图说明

图1为实施例中的舞台结构示意图；

图2为交互***的原理图；

图3为双流网络结构示意图。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，在舞台的前方设置一台RGB摄像机和一台LiDAR激光雷达，并将采集到的数据发送到控制主机中，在主机中完成对数据的处理、识别，并控制舞台效果变化。

如图2所示，一种基于图像和雷达数据的舞台交互***，包括信息采集模块、处理模块和控制模块。

所述处理模块包括姿态生成单元和姿态识别单元，姿态生成单元通过双流网络学习信息采集模块采集的数据，生成姿态集；所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到6通道的鸟瞰图，然后利用两个并行的VGG-16网络同时提取鸟瞰图与RGB图像特征，得到两个特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。为了生成表演者姿态，神经网络通常需要先探测人物的关节点然后对各个关节点进行分组，或是先通过区域建议算法在输入的数据框选出上出需要生成姿态的位置作为区域建议，再在目标区域内生成姿态，双流神经网络采用了先探测位置再生成姿态的方式，在姿态拟合过程中同时回归每个姿态关节点的5维信息，包括2维姿态和3维姿态的坐标；将双流神经网络预生成的锚盒投影到特征提取模块得到的特征图视图上，然后使用两次Rol Align算法，第一次Rol Align算法获得3D目标区域，锚定姿态将在该区域内拟合任务；第二次Rol Align算法得到姿态细节与姿态得分，裁剪后得到的建议区域，即表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息，将锚定姿态拟合到目标区域中，生成姿态集。

在正式使用前需要采集大量的现场数据输入双流网络中，对其进行训练、优化，调整网络参数。使用RPN(目标区域建议)损失L_RPN、锚定姿态损失L_cls、2D姿态细化损失L_2D和3D姿态细化损失L_3D四项损失作为优化双流网络的指标L_total：

L_total＝L_RPN+L_cls+L_2D+L_3D

RPN损失L_RPN用于优化目标区域的位置选择，这部分损失包括区域回归和目标分类；区域回归是在输入的特征图中求得目标框的位置，用于优化特征聚合模块在特征图上输出一系列目标区域的过程；目标分类即锚定姿态分类是判断目标区域框选的是否为目标对象，该损失优化目标是让网络能在多个目标区域中找到恰当的目标区域；

其中p_i表示第i个预测框是前景的概率，

为标签，当第i个预测框为前景时

为1，反之为0；t_i表示预测框的4个位置参数，

为标定框的参数，n_cls和N_reg为一次训练的小批量中的大小，L_cls是锚定姿态损失函数，L_reg是回归损失函数；

锚定姿态损失L_cls用于优化锚定姿态的选择，包括前景和后景的区分以及使用相似性分数分配最佳锚定姿态两个步骤，其中锚定姿态的相似度计算公式为：

其中a_k,j表示第k个锚定姿势的关节j的位置，g_j表示真实标注的关节节点j，J为关节节点的总数量，K为锚定字数的总数量。

2D姿态细化损失L_2D用于优化最终的2D锚定姿态，将双流网络预测的2D回归增量加到锚定姿态上，获得一组最终的2D姿态锚定预测P_2D：

其中P_2D为最终预测的预测框为前景的概率，N_fg为前景的数量，T_2D为每个前景的目标区域对应的真实标注。l_i是参数因子，smooth_ll为平滑函数。

3D姿态细化损失L_3D与2D姿态细化损失类似，将回归增量加入3D锚定姿态来获得最终的3D姿态P_3D，但由于双流神经网络没有使用有3D标注的数据，所以网络将3D姿态投影到2D图像空间来做计算：

N_fg为前景的数量，T_3D为每个前景的目标区域对应的真实标注，pr函数为投影函数,将P_3D投影到2D空间。

姿态识别单元中预先设定了表演者的姿态动作信息，接收到姿态生成单元生成的姿态集后，识别姿态集中的表演者姿态，若识别的该姿态与存储的预设姿态中姿态匹配，则将匹配的预设姿态作为识别结果发送到控制单元；

所述控制模块中保存了与表演者预设姿态对应的预设场景，控制模块接收到处理模块的姿态识别结果后，根据识别结果判断表演者的意图，加载对应的动画场景到舞台屏幕上，同时控制舞台场景布置的切换，包括灯光、音乐、舞台特效、舞台升降等。

Claims

1.一种基于图像和雷达数据的舞台交互***，其特征在于：包括信息采集模块、处理模块和控制模块；

所述信息采集模块，使用一台RGB摄影机和一台LiDAR激光雷达，分别对舞台进行图像拍摄和雷达探测，实时获取舞台上的表演者信息，将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后，将RGB图像和雷达云点图作为现场数据，一同传输到处理模块中；

所述处理模块包括姿态生成单元和姿态识别单元，姿态生成单元通过双流网络学习信息采集模块采集的数据，生成姿态集；姿态识别单元找到姿态集中的现场姿态对应的预设姿态，将识别结果发送给控制模块；

所述双流网络包括特征提取、特征聚合与姿态生成模块；其中特征提取模块首先单独处理雷达点云图得到鸟瞰图，然后利用VGG-16网络提取鸟瞰图与RGB图像特征，得到特征图；特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置；姿态生成模块根据表演者在图像中的位置信息，将锚定姿态拟合到目标区域中，生成姿态集；

2.如权利要求1所述一种基于图像和雷达数据的舞台交互***，其特征在于：所述RGB摄影机和LiDAR激光雷达布置在舞台前方。

3.如权利要求1所述一种基于图像和雷达数据的舞台交互***，其特征在于：所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。

4.如权利要求1所述一种基于图像和雷达数据的舞台交互***，其特征在于：双流网络的优化过程中，使用RPN损失L_RPN、锚定姿态损失L_cls、2D姿态细化损失L_2D和3D姿态细化损失L_3D四项损失的和作为优化指标L_total。