CN112598742A - 一种基于图像和雷达数据的舞台交互*** - Google Patents
一种基于图像和雷达数据的舞台交互*** Download PDFInfo
- Publication number
- CN112598742A CN112598742A CN202011609683.2A CN202011609683A CN112598742A CN 112598742 A CN112598742 A CN 112598742A CN 202011609683 A CN202011609683 A CN 202011609683A CN 112598742 A CN112598742 A CN 112598742A
- Authority
- CN
- China
- Prior art keywords
- attitude
- stage
- image
- module
- performer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 21
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004873 anchoring Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 4
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000036544 posture Effects 0.000 description 21
- 230000000694 effects Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像和雷达数据的舞台交互***,包括信息采集模块、处理模块和控制模块。所述信息采集模块包括安装在舞台正前方的一台RGB摄影机和一台LiDAR激光雷达,实时探测舞台上表演者的姿态信息,作为生产姿态的训练数据或现场数据;处理模块包括姿态生成和姿态识别,姿态生成单元利用双流深度学习网络学习训练数据,产生表演者的姿态模型;姿态识别根据表演者的姿态模型识别匹配对应的预设姿态,将结果发送到控制模块。控制单元模块根据接收到的识别结果,控制舞台屏幕的显示内容随表演者姿态变化。通过上述方式,本发明能够在较高精度下使表演者可以通过动作姿态与舞台场景实时交互。
Description
技术领域
本发明属于人机交互技术,具体涉及一种基于图像和雷达数据的舞台交互***。
背景技术
随着艺术表演的舞美对演出效果增强作用的越发突出,传统的常规式布景式舞台已经无法满足表演者与舞台场景互动的需求,于是出现了许多舞台交互***。现有的舞台交互***通常使用3D体感摄影机,配合表演者身上的体感设备来捕捉表演者的姿态,或是采用激活雷达探测表演者的触控点,来实现交互。
基于3D体感摄影机和体感设备来捕捉表演者姿态的舞台交互***,其实现方法通常是借助穿戴于表演者身上的体感设备,检测表演者肢体的动作幅度并输出检测信号;3D体感摄影机检测体感信号后将信息传输给处理装置和控制装置,实现舞台交互。这种方法的优点在于可检测包括手势,姿态,表情等信息,且只需表演者穿戴设备,成本低廉。缺点是***的检测范围有限,当表演者背对或侧对3D体感摄影机时,该交互***都难以准确的获取表演者的姿态数据,从而也无法准确控制舞台的切换,而且体感设备在一定程度上也会影响表演者的动作美观。
基于激光雷达探测表演者触控点的舞台交互***,其实现方案是采用激光雷达探测装置,通过形成的扫描面来检测面上的触摸动作,从而定位一个或多个触摸点的位置信息,通过触摸点的位置信息控制舞台的切换;优点在于抗干扰能力强,对环境光不敏感,不受屏幕形状和边界的限制;缺点是有效检测区域小,有效检测范围仅为半径3m的半圆,检测数量有限,即使设置多个激光雷达配合使用,仍不适合中大型舞台的交互控制,其次只能简单的检测触控点位置,而无法检测表演者的姿态信息,同时还存在误触等情况,难以达到精确控制舞台的交互切换。
发明内容
针对现有技术的不足,本发明提出了一种基于图像和雷达数据的舞台交互***,无需表演者穿戴额外的体感设备,还可以提高有效检测范围的面积,提高***控制精度。
一种基于图像和雷达数据的舞台交互***,包括信息采集模块、处理模块和控制模块。
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中。
作为优选,所述RGB摄影机和LiDAR激光雷达布置在舞台前方。
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;姿态识别单元找到姿态集中的现场姿态对应的预设姿态,将识别结果发送给控制模块。
所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到鸟瞰图,然后利用VGG-16网络提取鸟瞰图与RGB图像特征,得到特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集。
所述控制模块,接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,控制舞台随表演者的姿态进行变化。
所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。
本发明具有以下有益效果:
1、同时使用RGB摄影机和LiDAR激光雷达获取当前表演者的姿态,检测范围大,表演者无需额外穿戴体感装置;表演者变化不同姿势时都能捕获到相应的手势、姿态、表情等信息。
2、处理模块通过神经网络对采集到的现场数据进行特征提取、聚合等处理后识别出表演者的姿态信息,再通过控制模块根据表演者的意图控制舞台变化,实现了表演者姿态与舞台效果的交互,达到了虚实结合的舞台效果。
附图说明
图1为实施例中的舞台结构示意图;
图2为交互***的原理图;
图3为双流网络结构示意图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1所示,在舞台的前方设置一台RGB摄像机和一台LiDAR激光雷达,并将采集到的数据发送到控制主机中,在主机中完成对数据的处理、识别,并控制舞台效果变化。
如图2所示,一种基于图像和雷达数据的舞台交互***,包括信息采集模块、处理模块和控制模块。
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中。
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;所述双流网络包括特征提取、特征聚合与姿态生成模块。其中特征提取模块首先单独处理雷达点云图得到6通道的鸟瞰图,然后利用两个并行的VGG-16网络同时提取鸟瞰图与RGB图像特征,得到两个特征图。特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置。为了生成表演者姿态,神经网络通常需要先探测人物的关节点然后对各个关节点进行分组,或是先通过区域建议算法在输入的数据框选出上出需要生成姿态的位置作为区域建议,再在目标区域内生成姿态,双流神经网络采用了先探测位置再生成姿态的方式,在姿态拟合过程中同时回归每个姿态关节点的5维信息,包括2维姿态和3维姿态的坐标;将双流神经网络预生成的锚盒投影到特征提取模块得到的特征图视图上,然后使用两次Rol Align算法,第一次Rol Align算法获得3D目标区域,锚定姿态将在该区域内拟合任务;第二次Rol Align算法得到姿态细节与姿态得分,裁剪后得到的建议区域,即表演者在图像中的位置。姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集。
在正式使用前需要采集大量的现场数据输入双流网络中,对其进行训练、优化,调整网络参数。使用RPN(目标区域建议)损失LRPN、锚定姿态损失Lcls、2D姿态细化损失L2D和3D姿态细化损失L3D四项损失作为优化双流网络的指标Ltotal:
Ltotal=LRPN+Lcls+L2D+L3D
RPN损失LRPN用于优化目标区域的位置选择,这部分损失包括区域回归和目标分类;区域回归是在输入的特征图中求得目标框的位置,用于优化特征聚合模块在特征图上输出一系列目标区域的过程;目标分类即锚定姿态分类是判断目标区域框选的是否为目标对象,该损失优化目标是让网络能在多个目标区域中找到恰当的目标区域;
其中pi表示第i个预测框是前景的概率,为标签,当第i个预测框为前景时为1,反之为0;ti表示预测框的4个位置参数,为标定框的参数,ncls和Nreg为一次训练的小批量中的大小,Lcls是锚定姿态损失函数,Lreg是回归损失函数;
锚定姿态损失Lcls用于优化锚定姿态的选择,包括前景和后景的区分以及使用相似性分数分配最佳锚定姿态两个步骤,其中锚定姿态的相似度计算公式为:
其中ak,j表示第k个锚定姿势的关节j的位置,gj表示真实标注的关节节点j,J为关节节点的总数量,K为锚定字数的总数量。
2D姿态细化损失L2D用于优化最终的2D锚定姿态,将双流网络预测的2D回归增量加到锚定姿态上,获得一组最终的2D姿态锚定预测P2D:
其中P2D为最终预测的预测框为前景的概率,Nfg为前景的数量,T2D为每个前景的目标区域对应的真实标注。li是参数因子,smooth_ll为平滑函数。
3D姿态细化损失L3D与2D姿态细化损失类似,将回归增量加入3D锚定姿态来获得最终的3D姿态P3D,但由于双流神经网络没有使用有3D标注的数据,所以网络将3D姿态投影到2D图像空间来做计算:
Nfg为前景的数量,T3D为每个前景的目标区域对应的真实标注,pr函数为投影函数,将P3D投影到2D空间。
姿态识别单元中预先设定了表演者的姿态动作信息,接收到姿态生成单元生成的姿态集后,识别姿态集中的表演者姿态,若识别的该姿态与存储的预设姿态中姿态匹配,则将匹配的预设姿态作为识别结果发送到控制单元;
所述控制模块中保存了与表演者预设姿态对应的预设场景,控制模块接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,加载对应的动画场景到舞台屏幕上,同时控制舞台场景布置的切换,包括灯光、音乐、舞台特效、舞台升降等。
Claims (4)
1.一种基于图像和雷达数据的舞台交互***,其特征在于:包括信息采集模块、处理模块和控制模块;
所述信息采集模块,使用一台RGB摄影机和一台LiDAR激光雷达,分别对舞台进行图像拍摄和雷达探测,实时获取舞台上的表演者信息,将雷达探测得到的数据以与RGB图像相同的频率生成雷达点云图后,将RGB图像和雷达云点图作为现场数据,一同传输到处理模块中;
所述处理模块包括姿态生成单元和姿态识别单元,姿态生成单元通过双流网络学习信息采集模块采集的数据,生成姿态集;姿态识别单元找到姿态集中的现场姿态对应的预设姿态,将识别结果发送给控制模块;
所述双流网络包括特征提取、特征聚合与姿态生成模块;其中特征提取模块首先单独处理雷达点云图得到鸟瞰图,然后利用VGG-16网络提取鸟瞰图与RGB图像特征,得到特征图;特征聚合模块根据特征图中的特征信息框选出表演者在图像中的位置;姿态生成模块根据表演者在图像中的位置信息,将锚定姿态拟合到目标区域中,生成姿态集;
所述控制模块,接收到处理模块的姿态识别结果后,根据识别结果判断表演者的意图,控制舞台随表演者的姿态进行变化。
2.如权利要求1所述一种基于图像和雷达数据的舞台交互***,其特征在于:所述RGB摄影机和LiDAR激光雷达布置在舞台前方。
3.如权利要求1所述一种基于图像和雷达数据的舞台交互***,其特征在于:所述舞台屏幕内容的变化包括虚拟环境影像和背景屏幕显示内容的变化。
4.如权利要求1所述一种基于图像和雷达数据的舞台交互***,其特征在于:双流网络的优化过程中,使用RPN损失LRPN、锚定姿态损失Lcls、2D姿态细化损失L2D和3D姿态细化损失L3D四项损失的和作为优化指标Ltotal。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609683.2A CN112598742A (zh) | 2020-12-30 | 2020-12-30 | 一种基于图像和雷达数据的舞台交互*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609683.2A CN112598742A (zh) | 2020-12-30 | 2020-12-30 | 一种基于图像和雷达数据的舞台交互*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598742A true CN112598742A (zh) | 2021-04-02 |
Family
ID=75206255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609683.2A Pending CN112598742A (zh) | 2020-12-30 | 2020-12-30 | 一种基于图像和雷达数据的舞台交互*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598742A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024000362A1 (en) * | 2022-06-30 | 2024-01-04 | Intel Corporation | Methods and apparatus for real-time interactive performances |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016071697A1 (en) * | 2014-11-05 | 2016-05-12 | Sinetic Av Ltd | Interactive spherical graphical interface for manipulaton and placement of audio-objects with ambisonic rendering. |
JP2019125204A (ja) * | 2018-01-17 | 2019-07-25 | 株式会社東芝 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
CN111368930A (zh) * | 2020-03-09 | 2020-07-03 | 成都理工大学 | 基于多类谱图融合与分级学习的雷达人体姿态识别方法及*** |
CN111797650A (zh) * | 2019-04-09 | 2020-10-20 | 广州文远知行科技有限公司 | 障碍物的识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-30 CN CN202011609683.2A patent/CN112598742A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016071697A1 (en) * | 2014-11-05 | 2016-05-12 | Sinetic Av Ltd | Interactive spherical graphical interface for manipulaton and placement of audio-objects with ambisonic rendering. |
JP2019125204A (ja) * | 2018-01-17 | 2019-07-25 | 株式会社東芝 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
CN111797650A (zh) * | 2019-04-09 | 2020-10-20 | 广州文远知行科技有限公司 | 障碍物的识别方法、装置、计算机设备和存储介质 |
CN111368930A (zh) * | 2020-03-09 | 2020-07-03 | 成都理工大学 | 基于多类谱图融合与分级学习的雷达人体姿态识别方法及*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024000362A1 (en) * | 2022-06-30 | 2024-01-04 | Intel Corporation | Methods and apparatus for real-time interactive performances |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104601964B (zh) | 非重叠视域跨摄像机室内行人目标跟踪方法及*** | |
Hsieh et al. | A real time hand gesture recognition system using motion history image | |
CN103731583B (zh) | 用于拍照智能化合成、打印处理方法 | |
CN106598226A (zh) | 一种基于双目视觉和深度学习的无人机人机交互方法 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN108229587A (zh) | 一种基于飞行器悬停状态的输电杆塔自主扫描方法 | |
CN103714321A (zh) | 基于距离图像和强度图像的驾驶员人脸定位*** | |
CN104517095A (zh) | 一种基于深度图像的人头分割方法 | |
CN111767831B (zh) | 用于处理图像的方法、装置、设备及存储介质 | |
CN113158833B (zh) | 一种基于人体姿态的无人车控制指挥方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN114445853A (zh) | 一种视觉手势识别***识别方法 | |
Li et al. | Weak moving object detection in optical remote sensing video with motion-drive fusion network | |
CN112598742A (zh) | 一种基于图像和雷达数据的舞台交互*** | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
CN112700568A (zh) | 一种身份认证的方法、设备及计算机可读存储介质 | |
Feng et al. | Effective venue image retrieval using robust feature extraction and model constrained matching for mobile robot localization | |
CN116466827A (zh) | 一种智能人机交互***及其方法 | |
CN116685028A (zh) | 一种虚拟环境数字人场景灯光智能控制*** | |
Konishi et al. | Detection of target persons using deep learning and training data generation for Tsukuba challenge | |
CN112655021A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113778233B (zh) | 一种操控显示设备的方法、装置及可读介质 | |
CN108805006A (zh) | 一种基于深度摄像头的手势识别*** | |
Shoman et al. | Illumination invariant camera localization using synthetic images | |
Ye et al. | Human motion analysis based on extraction of skeleton and dynamic time warping algorithm using RGBD camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |