CN114842384B

CN114842384B - 一种面向6g的触觉模态信号重建方法

Info

Publication number: CN114842384B
Application number: CN202210476817.0A
Authority: CN
Inventors: 周亮; 李昂; 李沛林; 陈顺; 曹宇; 楼婧蕾; 倪守祥; 陈亚男; 陈建新; 魏昕
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2024-05-31
Anticipated expiration: 2042-04-30
Also published as: CN114842384A

Abstract

本发明公开了一种面向6G的触觉模态信号重建方法，此重建方法包括，采集数据样本，构建包含视频和触觉模态信号的数据集；通过利用两种模态信号间的语义关联性，基于深度学习构建具有内在语义关联驱动下的跨模态信号重建模型；使用数据集对跨模态信号重建模型进行训练，直至重建信号质量满足要求或偏差无法继续优化；本发明中为面向6G跨模态应用场景，构建包括视频和触觉的模态数据集VisTouch；基于深度学习技术将具有语义关联性的视频模态信号重建为触觉模态信号；为提升信号重建质量，利用对抗损失与均方误差损失这两类损失函数作为目标函数，并基于VisTouch进行训练，验证了该重建方法的准确性。

Description

一种面向6G的触觉模态信号重建方法

技术领域

本发明涉及跨模态通信技术领域，尤其涉及一种面向6G的触觉模态信号重建方法。

背景技术

6G时代下，传统以视听为核心的多媒体应用已逐渐不能满足用户的沉浸式体验需求，因此，亟需在新型多媒体应用中引入新的感官交互，如触觉等，来为用户带来身临其境的极致体验。然而，新模态信号的引入势必会对现有的多媒体***提出巨大挑战，且在多维感官信息协同传输的要求下，网络传输的最大吞吐量预计将成倍提升。因此，为了兼顾用户体验与通信质量，迫切需要一种跨模态信号重建方案来减少传输数据量，以支持6G沉浸式多媒体应用。

有研究表明，多模态应用将触觉信号与传统音频视频信号结合起来，用户可通过触摸或交互行为获得更多的沉浸式体验。针对6G时代下的多模态应用，提出音视触跨模态通信构架，旨在通过充分挖掘不同模态信号之间的关联性来解决高效的触觉信号编码、异构码流传输、模态信息重建三大关键科学问题。同时进一步提出人工智能加持下的跨模态通信框架，利用强化学习、迁移学习等技术解决跨模态通信中的技术挑战。其中，在信号传输及接收过程中势必会伴随不同程度的丢失，因此，发掘音、视、触信号间的内在关联性，利用一种模态信号精准、实时地重建另一种模态信号，是6G跨模态通信研究的重点之一，也被认为是可大幅提升用户沉浸式体验的关键技术。在6G的潜在沉浸式应用场景中(如沉浸云XR、全息通信、感官互联)，跨模态重建技术可利用现有的视频、音频信号恢复出同一物体的触觉信号，新生成的触觉信号又可对原始音视频信号进行超分辨率重建，极大地满足人与人、物、环境的沟通需求，同时6G下的毫秒级时延将为用户提供较好的连接体验。

对于实现跨模态重建的深度学习模型来说，其性能优劣依赖于数据集的质量与规模，理论上，数据量越大、标注质量越高，深度模型越能逼近甚至超越人类表现，例如，利用大规模ImageNet图像数据集训练出的图像模型AlexNet、VGG、Resnet等模型已经与人类识别准确率相差无几。当前，音视数据集种类繁多，因此现有工作主要集中于利用深度模型探索音频、视频之间的语义关系。为了满足6G沉浸式体验需求，迫切需要一个大规模、高质量的音视触数据集来助力深度学习完成跨模态编码、传输、信号处理等任务。此外，当前大量的研究主要集中于音频、视频之间的恢复与重建，对利用音频、视频重建触觉信号的研究还处于起步阶段。与此同时，不同传感器采集到的触觉信号结构与内容各异，如何对不同形式的触觉信号进行语义表征，以及如何设计普适的、鲁棒的跨模态信号重建框架，已经成为实现6G跨模态应用的难点。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有面向6G的触觉模态信号重建方法存在的问题，提出了本发明。

因此，本发明目的是提供一种面向6G的触觉模态信号重建方法，其目的在于解决现有中视频模态信号无法转化为触感模态信号的问题。

为解决上述技术问题，本发明提供如下技术方案：一种面向6G的触觉模态信号重建方法，此重建方法包括，

S1：采集数据样本，构建包含视频和触觉模态信号的数据集；

S2：通过利用两种模态信号间的语义关联性，基于深度学习构建具有内在语义关联驱动下的跨模态信号重建模型；

S3：使用数据集对跨模态信号重建模型进行训练，直至重建信号质量满足要求或偏差无法继续优化。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述采集数据样本包括，选取采集样本，并对采集的样本进行分类；选取采集设备，对采集设备进行同步性设置；设置采集方式，通过采集设备采集不同样本在不同状态的视频信号和触觉信号。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述跨模态信号重建模型包括特征提取模块、信号重建模块、信号辨别模块和损失优化模块，其中，特征提取模块在对视频信号的视频帧处理后，提取视频语义特征；将所述视频语义特征输入信号重建模块，经重建处理后，得到重建触觉信号；将真实触觉信号和重建触觉信号输入信号辨别模块进行真假判别；计算重建触觉信号与真实触觉信号的均方误差损失和生成对抗损失，损失值通过反向传播算法，实现对上述模块的参数的梯度更新，以优化生成准确度更高的重建信号。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述特征提取模块中，针对视频信号，在基于3D CNN进行语义特征提取中，首先对每个视频帧进行缩放和裁剪的预处理；其次，将视频帧图像输入到3D Resnet50，经过多层3D卷积处理，输出视频语义特征。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：采集真实触觉信号时，需对真实触觉信号进行预处理，包括，针对时间序列形式的触觉信号，使用STFT得到频谱，分离复数矩阵中复数的实数部分和虚数部分，得到真实触觉频谱S_。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述信号重建模块，包括，根据输出的视频语义特征，通过反卷积层、批归一化层、激活函数的处理，重建出触觉信号的频谱，再经傅里叶反变换，得到时间域下的重建触觉信号。作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：在重建处理过程中，输入视频语义特征，依次经过三个反卷积组处理，每个反卷积组均包括反卷积层、批归一化层和Relu激活函数；再经过一个卷积组处理，包括反卷积层、批归一化层，以及Tanh激活函数；所述反卷积层表示为：k＝(k_h,k_w)，p＝(p_h,p_w)，s；其中，k＝(k_h,k_w)表示卷积核尺寸，p＝(p_h,p_w)表示补零数量，s代表卷积核滑动步长，Relu激活函数为y＝max(0,x)，Tanh激活函数为x表示为反卷积组中批归一化层的输出。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述信号辨别模块，包括，两个卷积组、全连接层和Sigmoid激活函数，所述卷积组包括3×3的卷积层、批归一化层、Relu激活函数以及最大池化层。

所述Sigmoid激活函数为以全连接层输出作为函数输入x，输出信号属于真实信号的概率。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述损失优化模块采用生成对抗损失函数与均方误差损失函数的组合对特征提取模块、信号重建模块和信号辨别模块在的参数进行优化，其中，

生成对抗损失函数为：

其中，E(·)是期望函数，G(·)和D(·)分别表示触觉信号生成网络与触觉信号辨别网络，P_data(·)表示数据分布。

均方误差损失函数表示为：

其中，s_i与分别代表真实触觉频谱S与重建触觉频谱/>的第i个位置的元素，n代表频谱中的元素数量。

作为本发明所述面向6G的触觉模态信号重建方法的一种优选方案，其中：所述训练采用随机梯度下降法，训练轮次为70，初始学习率为0.001，并使用余弦退火调整器不断调整学习率，批处理量设为6。

本发明的有益效果：

本发明中为面向6G跨模态应用场景，构建包括视频和触觉的模态数据集VisTouch；基于深度学习技术将具有语义关联性的视频模态信号重建为触觉模态信号；为提升信号重建质量，利用对抗损失与均方误差损失这两类损失函数作为目标函数，并基于VisTouch进行训练，验证了该重建方法的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明面向6G的触觉模态信号重建方法的VisTouch数据采集图。

图2为本发明面向6G的触觉模态信号重建方法的视频辅助的触觉信号重建模型图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1～2，为本发明第一个实施例，提供了一种面向6G的触觉模态信号重建方法，此重建方法包括，

S1：采集数据样本，构建包含视频和触觉模态信号的VisTouch数据集。

具体的，采集数据样本包括如下步骤：

S11：选取采集样本，并对采集的样本进行分类`。

选取生活中常见的、实用价值高的材质，总计47种，并对其进行分类，如表1所示，作为所构建的VisTouch数据集的样本类别。此外，在样本收集过程中，可观察到同种材质由于染色、加工等原因，其颜色各异，例如，玻璃不仅在类别上有普通玻璃和石英玻璃之分，而且在色彩上可分为有色玻璃和透明玻璃，这对跨模态信息处理造成了一定的挑战。为此，针对同一类型的样本，尽可能收集多种颜色，如合成纺织品，收集红色、黄色、蓝色、白色等四种颜色的样本，针对玻璃，收集有色玻璃、透明玻璃、毛玻璃等样本，以此减少颜色对实验结果的影响。

表1 VisTouch数据集包含的样本类别

S12：选取采集设备，对采集设备进行同步性设置。

为了同步采集视频和触觉信号，需要选择合适的摄像头和触觉传感器。表2给出了VisTouch数据集所使用到的采集设备及采样率、分辨率等具体参数。

表2采集设备信息

S13：设置采集方式，通过采集设备采集不同样本在不同状态的视频信号和触觉信号。

触觉数据采集手段为控制机械手滑动触摸各种材质，并记录滑动触摸过程中指尖与材质摩擦产生的滑动摩擦力作为触觉信号，同时利用高清摄像头采集视频信号，并用时间戳对两种信号进行同步。

此外，为保证触觉信号精准、低噪地采集，从两方面入手:(1)将机械臂放置在桌面上，并给予挂载在机械臂末端的机械手以垂直于桌面向下的恒定驱动力；(2)采集材质选用片状以保证驱动力对接触面的法向性，从而减少材质形状因素对采集信号的影响。

滑动触摸轨迹设置直线滑动、曲线滑动、折线滑动三种，同时，恒定法向驱动力大小设置3N、6N、9N三种，并与滑动轨迹交叉组合，共可设置9种滑动方式(如在3N驱动力下折线滑动触摸)。

S2：通过利用两种模态信号间的语义关联性，基于深度学习构建具有内在语义关联驱动下的跨模态信号重建模型。

进一步的，跨模态信号重建模型包括有特征提取模块、信号重建模块、信号辨别模块和损失优化模块。

S21：特征提取模块在对视频信号的视频帧处理后，提取视频语义特征。

具体的，针对视频信号，在基于3D CNN(三维卷积神经网络)进行语义特征提取中，首先对每个视频帧进行缩放和裁剪的预处理；其次，将视频帧图像输入到3D Resnet50(三维残差网络)，经过多层3D卷积处理，输出视频语义特征F_R。3D Resnet50凭借其独特的残差设计使学习曲线能够快速收敛，同时可避免梯度消失的问题，实现模型大小与准确性的兼顾。

假设输入的视频信号为5维张量I∈R^{N×T×C×H×W}，其中N为批处理量，T代表视频帧数，C代表图像通道数，对于RGB图像C＝3，H和W分别代表图像的高度与宽度，这里对每个视频帧图像进行缩放、裁剪的预处理，使得图像大小统一为224×224，即H＝W＝224。其次，将I输入3D Resnet50，经多层3D卷积处理，输出特征图为F∈R^{N'×T'×C'×H'×W'}，对于3D Resnet50而言，T'＝2，C'＝2048，H'＝W'＝7，为了便于后续触觉信号重建模块的处理，本重建方法对F进行形状变换，得到四维张量F_R∈R^{N'×T'C'×H'×W'}，F_R表示视频语义特征，其中T'C'＝2×2048＝4096。

针对触觉信号，在采集后，需对真实触觉信号进行预处理，包括，针对时间序列形式的触觉信号，使用STFT(短时傅里叶变换)得到频谱，STFT中，采样频率设置为1000Hz，窗宽50，从而得到大小为26×41的复数矩阵，分离复数的实数部分和虚数部分，得到大小为2×26×41的真实触觉频谱S。

S22：将视频语义特征输入信号重建模块，经重建处理后，得到重建触觉信号。

具体的，本实施例利用反卷积、批归一化和线性激活函数的组合，从小尺寸到大尺寸、从高维到低维、从语义域到目标域实现跨模态信号映射。根据输出的视频语义特征，通过反卷积层、批归一化层、激活函数的处理，重建出触觉信号的频谱，再经傅里叶反变换，得到时间域下的触觉模态信号。

重建模块具有五层子模块，第一层为输入层，第二至第四层为反卷积层、批归一化层和激活函数的组合，用于重构出频谱图的高度与宽度，第五层为卷积组，用于重构出频谱图的通道维度。

在重建处理中，输入的视频语义特征，依次经过三个反卷积组(第二至第四层)处理，每个反卷积组均包括反卷积层、批归一化层，以及Relu激活函数，如表3中所示；再经过卷积组(第五层)处理。

反卷积层表示为：k＝(k_h,k_w)，p＝(p_h,p_w)，s；其中，激活函数用于增强模块的非线性表征能力，Relu函数放置在三个反卷积组末尾，x代表反卷积组中批归一化层输出，Tanh函数放置在整个模块末尾，用于生成与真实频谱分布范围一致的重建触觉频谱。

表3该信号重建模块具体包括如下结构：

其中，k＝(k_h,k_w)表示卷积核尺寸，p＝(p_h,p_w)表示补零数量，s代表卷积核滑动步长，Relu激活函数为y＝max(0,x)，Tanh激活函数为x表示为反卷积组中批归一化层的输出量。

本实施例中的信号重建模块具体为如下参数：

表4触觉信号生成网络参数(忽略批处理量N)

S23：将真实触觉信号和重建触觉信号输入信号辨别模块进行真假判别。

具体的，信号辨别模块中具有两个卷积组、全连接层和Sigmoid激活函数，其中，卷积组包括3×3的卷积层、批归一化层、Relu激活函数以及最大池化层。

Sigmoid激活函数为以全连接层输出作为函数输入x，输出信号属于真实信号的概率。

进一步的，将真实触觉频谱v与信号重建模块生成的重建触觉频谱作为信号辨别模块输入，先经过两个卷积组的处理，分别得到S与/>对应的判别向量v与/>然后，将v与/>分别输入到全连接层及Sigmoid函数，输出S与S是真实信号的概率；在网络训练过程中，我们将S尽可能判别为真，即概率尽可能接近于1，而将/>尽可能判别为假，即概率尽可能接近于0，从而实现二值真假判别。

S24：计算重建触觉信号与真实触觉信号的均方误差损失和生成对抗损失，损失值通过反向传播算法，实现对上述模块的参数的梯度更新，以优化生成准确度更高的重建信号。

具体的，损失优化模块采用生成对抗损失函数与均方误差损失函数的组合对特征提取模块、信号重建模块和信号辨别模块在的参数进行优化，其中，

生成对抗损失函数为：

均方误差损失函数表示为：

评估模块用于评价重建信号是否与真实信号相一致，同时在训练过程中，可将重建信号与真实信号的偏差进行梯度的反向传播，调整特征提取模块、重建模块的训练参数，直至重建信号质量满足要求或偏差无法继续优化，通过使整个重建模型挖掘多模态信号间的内在语义关联性，并最终生成准确、低噪的重建信号。

具体的，训练采用随机梯度下降法，训练轮次为70，初始学习率为0.001，并使用余弦退火调整器不断调整学习率，批处理量设为6。进一步的，3D CNN输入尺寸为224×224，整个模型使用Pytorch深度学习框架进行编程开发。在硬件配置上，使用单张RTX 2080Ti显卡进行模型训练，直至上述两种损失函数同时收敛。

实施例2

为了对本重建方法的技术效果加以验证说明，由于本方法首次利用VisTouch数据集完成触觉重建工作，暂无已公开的基准模型，为此，本实施例对所提视频辅助的触觉重建模型进行约简，得到以下两种模型作为比较基准：

模型1：不改变模型结构，仅使用生成对抗损失函数训练本发明模型；

模型2：移除触觉信号辨别网络，且仅使用均方误差损失函数训练模型。

确定比较基准后，需要引入评估指标来测试输出结果，本实施例使用两种评估指标，即平均绝对误差(MAE)与准确度(ACC)进行度量。

MAE：由于触觉信号的表征形式为时间序列，因此，从信号本身出发，假设真实触觉时间信号为T，重建出的触觉时间信号为样本容量为M，则MAE计算公式为：

MAE用于评估重建信号与真实信号的绝对偏差。

ACC：首先，利用真实信号预训练一个样本类别分类器，训练完成后，输入重建信号，检验重建信号对样本类别的判别结果是否与真实样本类别一致，从而统计精确度ACC，在本实施例中，该分类器由多层感知机实现。

模型对比实验统计结果如表5所示，可以看出，本重建模型在结构上、损失函数设计上比模型1、2重建精度显著提升。

表5模型对比实验结果

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向6G的触觉模态信号重建方法，其特征在于：包括，

采集数据样本，构建包含视频和触觉模态信号的数据集；

通过利用两种模态信号间的语义关联性，基于深度学习构建具有内在语义关联驱动下的跨模态信号重建模型；

所述跨模态信号重建模型包括特征提取模块、信号重建模块、信号辨别模块和损失优化模块，其中，

特征提取模块在对视频信号的视频帧处理后，提取视频语义特征；

将所述视频语义特征输入信号重建模块，经重建处理后，得到重建触觉信号；

将真实触觉信号和重建触觉信号输入信号辨别模块进行真假判别；

计算重建触觉信号与真实触觉信号的均方误差损失和生成对抗损失，损失值通过反向传播算法，实现对上述模块的参数的梯度更新，以优化生成准确度更高的重建信号；

所述信号重建模块，包括，

根据输出的视频语义特征，通过反卷积层、批归一化层、激活函数的处理，重建出触觉信号的频谱，再经傅里叶反变换，得到时间域下的重建触觉信号；

在重建处理过程中，

输入视频语义特征，依次经过三个反卷积组处理，每个反卷积组均包括反卷积层、批归一化层和Relu激活函数；

再经过一个卷积组处理后输出，卷积组包括反卷积层、批归一化层，以及Tanh激活函数；

所述反卷积层表示为：，/>，s；

其中，表示卷积核尺寸，/>表示补零数量，s代表卷积核滑动步长，Relu激活函数为/>，Tanh激活函数为/>， x表示为反卷积组中批归一化层的输出；

所述信号辨别模块，包括，两个卷积组、全连接层和Sigmoid激活函数，所述卷积组包括3×3的卷积层、批归一化层、Relu激活函数以及最大池化层；

所述Sigmoid激活函数为，以全连接层输出作为函数输入x，输出信号属于真实信号的概率；

使用数据集对跨模态信号重建模型进行训练，直至重建信号质量满足要求或偏差无法继续优化。

2.根据权利要求1 所述的面向6G的触觉模态信号重建方法，其特征在于：所述采集数据样本包括，

选取采集样本，并对采集的样本进行分类；

选取采集设备，对采集设备进行同步设置；

设置采集方式，通过采集设备采集不同样本在不同状态的视频信号和触觉信号。

3.根据权利要求2所述的面向6G的触觉模态信号重建方法，其特征在于：所述特征提取模块中，

针对视频信号，在基于3D CNN进行语义特征提取中，首先对每个视频帧进行缩放和裁剪的预处理；其次，将视频帧图像输入到3D Resnet50，经过多层3D卷积处理，输出视频语义特征。

4.根据权利要求3所述的面向6G的触觉模态信号重建方法，其特征在于：采集真实触觉信号，对真实触觉信号进行预处理，包括，

针对时间序列形式的触觉信号，使用STFT得到频谱，分离复数矩阵中复数的实数部分和虚数部分，得到真实触觉频谱S。

5.根据权利要求4所述的面向6G的触觉模态信号重建方法，其特征在于：所述损失优化模块采用生成对抗损失函数与均方误差损失函数的组合对特征提取模块、信号重建模块和信号辨别模块在的参数进行优化，其中，

生成对抗损失函数为：

；

其中，是期望函数，/>和/>分别表示触觉信号生成网络与触觉信号辨别网络，/>表示数据分布；

均方误差损失函数表示为：

；

其中，与/>分别代表真实触觉频谱S与重建触觉频谱/>的第/>个位置的元素，/>代表频谱中的元素数量。

6.根据权利要求5 所述的面向6G的触觉模态信号重建方法，其特征在于：所述训练采用随机梯度下降法，训练轮次为70，初始学习率为0.001，并使用余弦退火调整器不断调整学习率，批处理量设为6。