CN116794602A

CN116794602A - 一种应用于干扰环境下的毫米波雷达动态手势识别方法

Info

Publication number: CN116794602A
Application number: CN202310604404.0A
Authority: CN
Inventors: 马宵; 靳标; 吴昊; 刘超; 张贞凯; 练柱先; 魏雪云; 尚尚
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-22

Abstract

本发明公开了一种应用于干扰环境下的毫米波雷达动态手势识别方法，包括：将毫米波雷达的原始回波数据重组为三维数据块，并采用均值相消法滤除静态干扰；采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离‑时间图与多普勒‑时间图，并通过相干积累提升回波信噪比；构建CNN_Block模块，利用CNN_Block模块中的二维卷积提取动态手势的局部特征；构建Transformer模块；通过堆叠多个Transformer模块，以充分提取动态手势的更深层次的有效特征；利用Transformer模块增强对手势特征的全局性关注；利用Transformer模块中的多头注意力机制抑制环境中的随机动态干扰；采用全局平均池化层和全连接层构建FC_Block，输出手势标签。本发明实现了干扰环境下的手势识别，提高了手势识别精度。

Description

一种应用于干扰环境下的毫米波雷达动态手势识别方法

技术领域

本发明属于手势识别及毫米波雷达领域，涉及雷达信号处理及手势识别技术，具体涉及一种应用于干扰环境下的毫米波雷达动态手势识别方法。

背景技术

动态手势控制作为一种非接触式的人机交互方式，在工业物联网，智能家居、汽车驾驶、远程外科手术、VR游戏、手语翻译等多个领域具有广泛的应用前景。动态手势控制的前提是准确识别预定的各种手势。目前，常见的可用于手势识别的传感器包括光学摄像头和肌电传感器。然而，这些传感器存在许多局限性。光学传感器需要工作在光线良好的条件下，且容易暴露个人隐私。肌电传感器则需要使用者佩戴在手臂上，用户体验不佳，且不同使用者的肌电信号各不相同，不具有普适性。

近年来，随着毫米波雷达集成射频前端的发展，其在手势识别方面的应用潜力引起了许多研究者的关注。毫米波雷达不受光照条件的影响，体积小，能耗低，具有较高的距离和角度分辨率，可以获取更细微的手势信息。最典型的案例就是谷歌公司的soli项目。谷歌公司在2016年I/O大会上初步展示了利用60GHz毫米波雷达实现近距离手势识别。随后，相继有很多企业和高校都对毫米波雷达手势识别方法进行了研究。

由于深度学习的盛行，人工神经网络被用作毫米波雷达手势识别的分类器。根据神经网络的输入数据的表征，可以将用于毫米波雷达手势识别的人工神经网络分类器分为以下几类：

(1)一维神经网络：该方法直接将雷达原始回波作为网络的输入进行分类识别。例如，文献“J.Zhu,H.Chen and W.Ye,"A Hybrid CNN–LSTM Network for theClassification ofHuman Activities Based on Micro-Doppler Radar,"IEEE Access,vol.8,pp.24713-24720,2020,doi:10.1109/ACCESS.2020.2971064.”提出一种由一维卷积神经网络和长短期记忆(Long Short-Term Memory,LSTM)组成的深度学习网络。将频谱图视为具有多个通道的一维时间序列，并馈送到该网络。利用一维卷积在时间维度上，提取相邻帧的时间特征，并保存频谱的时间信息。然后，使用LSTM来处理全局的时间信息。文献“W.Ye,H.Chen and B.Li,"Using an End-to-End Convolutional Network on RadarSignal for Human Activity Classification,"IEEE Sensors Journal,vol.19,no.24,pp.12244-12252,15Dec.15,2019,doi:10.1109/JSEN.2019.2938997.”提出了一种端到端的深度学习网络，该网络以一维雷达信号作为输入，并使用两个一维卷积层代替短时傅里叶变换获取雷达信号表示。该类方法最大的优势就是参数量较小，且能够达到一定的分类效果，但是一维的数据表征无法通过雷达信号处理算法滤除干扰，应用场景受到一定限制。

(2)二维神经网络：二维神经网络的输入是二维图像数据，需要通过雷达信号处理算法将回波数据处理成单通道的灰度图或三通道图像数据。常用的雷达信号处理算法包括快速傅里叶变换(Fast Fourier Transformer,FFT)及多重信号分类(Multiple SignalClassification,MUSIC)等。文献“S.Skaria,A.Al-Hourani,M.Lech and R.J.Evans,"Hand-Gesture Recognition Using Two-Antenna Doppler Radar With DeepConvolutional Neural Networks,"IEEE Sensors Journal,vol.19,no.8,pp.3041-3048,15April15,2019,doi:10.1109/JSEN.2019.2892073.”利用短时离散傅里叶变换将原始时域信号转换为频谱图。通过结合时域和频域信息得到手势表示。然后，搭建三层深度卷积神经网络对不同手势特征进行提取和分类。文献“T.Sakamoto,X.Gao,E.Yavari,A.Rahman,O.Boric-Lubecke and V.M.Lubecke,"Hand Gesture Recognition Using a Radar EchoI–Q Plot and aConvolutional Neural Network,"IEEE Sensors Letters,vol.2,no.3,pp.1-4,Sept.2018,Artno.7000904,doi:10.1109/LSENS.2018.2866371.”提出了一种使用卷积神经网络的手势识别技术。该方法将雷达回波转换为低分辨率的二维图像，然后将该图像输入二维卷积神经网络进行分类识别。该类方法具有很好的识别效果，但是多应用于实验室环境，在干扰环境中的泛化性有待考验。

(3)三维神经网络：三维神经网络的输入是类似于视频的三维数据，在毫米波雷达动态手势识别领域也有所应用。在利用三维神经网络进行分类训练时，常常将雷达回波处理成含有空间和时间信息的三维数据，如距离-多普勒、距离-方位角、距离-俯仰角等。文献“L.Gan,Y.Liu,Y.Li,R.Zhang,L.Huang and C.Shi,"Gesture Recognition System Using24GHz FMCW Radar Sensor Realized on Real-Time Edge Computing Platform,"IEEESensors Journal,2022,vol.22,8904-8914.doi:10.1109/JSEN.2022.3163449.”提出一种基于实时边缘计算平台的雷达手势识别***，利用24GHz雷达获取手势的回波数据，然后提取手势的距离-多普勒信息，并输入3DCNN-LSTM中进行手势分类，最终获得了95.9％的识别准确率。文献“X.Shen,H.Zheng,X.Feng and J.Hu,"ML-HGR-Net:AMeta-Learning Networkfor FMCW Radar Based Hand Gesture Recognition,"IEEE Sensors Journal,vol.22,no.11,pp.10808-10817,1June1,2022,doi:10.1109/JSEN.2022.3169231.”针对少样本的手势识别问题，提出了一种基于距离-多普勒特征的元学习网络，以三维卷积神经网络为框架，在较少的训练数据下执行分类任务。该类方法使用三维卷积可以提取更多的手势特征，但是三维卷积网络的参数量很大，难以应用于物联网场景。

在上述几种深度学习分类网络中，一维神经网络比二维和三维神经网络的参数量都小。但是，一维数据丢失了相位信息，特征提取不完整。三维卷积相较于其他两种卷积，能够提取的特征种类最多，特征提取比较好，但是参数量最大，可移植性较差。二维输入数据既能通过雷达信号处理算法滤除干扰，又能尽可能多地提取特征，且参数量居中，适合应用于物联网场景。

然而，在实际应用中往往存在随机的动态干扰，如雷达与手势之间可能存在人员走动、挥手、抛物等。这些干扰的回波与有效手势的回波耦合在一起，利用常规的雷达信号处理算法很难将其滤除，这会使得手势识别的准确率大幅度降低。

申请号为“2021106380061”的专利文献提供了“应用于随机干扰场景下的毫米波雷达动态手势识别方法”的技术方案，该方案首先通过毫米波雷达捕获手势信息，解析雷达原始回波序列，按雷达原始回波的时域结构构建输入数据块。其次，通过基于时间分布层的包装器、一维卷积与全局池化层和Inception V3网络结构搭建卷积神经网络模块。利用卷积神经网络模块的一维时序卷积神经网络对雷达回波进行特征信息提取。通过帧间自注意机制为提取的特征分配权重值，获得序列的帧间相关性并抑制随机干扰；最后，通过全局平均池化层和全连接层将前面提取的特征经过非线性变换映射到标签集，并输出识别结果。该方案所采用的数据和网络分别为毫米波雷达原始回波数据和一维卷积神经网络，虽然网络的参数量有所减小，但是一维数据中不存在相位信息，导致特征提取不完整。此外，由于雷达原始回波数据的数据量较大，导致模型在嵌入式设备上的可移植性不友好。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种应用于干扰环境下的毫米波雷达动态手势识别方法，实现了干扰环境下的手势识别，提高了手势识别精度。

技术方案：为实现上述目的，本发明提供一种应用于干扰环境下的毫米波雷达动态手势识别方法，包括如下步骤：

S1：将毫米波雷达的原始回波数据重组为三维数据块，并采用均值相消法滤除静态干扰；

S2：采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离-时间图(Range-Time Map,RTM)与多普勒-时间图(Dopple-Time Map,DTM)，并通过相干积累提升回波信噪比；

S3：将动态手势的距离-时间图和多普勒-时间图输入到构建好的CNN_Block模块，利用CNN_Block模块中的二维卷积提取动态手势的局部特征；

S4：利用层归一化、多头注意力机制和MLP构建Transformer模块；

S5：通过堆叠多个Transformer模块，以充分提取动态手势的更深层次的手势特征；

S6：利用Transformer模块增强对手势特征的全局性关注；

S7：利用Transformer模块中的多头注意力机制抑制环境中的随机动态干扰；

S8：采用全局平均池化层和全连接层构建FC_Block，通过FC_Block输出手势标签。

进一步地，所述步骤S1中，由于毫米波雷达采集设备采集到的雷达原始回波数据的格式仅展示为一维的数据序列，不便进行雷达信号处理操作，因此将一维数据重组为三维数据块，该三维数据块采用Chirps×Samples×Frames格式。

进一步地，所述步骤S1中均值相消法滤除静态干扰的方法为对1D-FFT结果进行两脉冲对消，具体表达式为：

Y(N)＝X(N)-X(N-1)，N＝2,3,4,...

其中，X(N)表示第N个脉冲。

进一步地，所述步骤S2中距离-时间图RTM与多普勒-时间图DTM的获取方法为：在三维数据块的每一帧数据的距离维和多普勒维分别进行一维FFT，得到距离-多普勒谱，分别在多普勒维和距离维求和，以提高回波信噪比，得到一帧数据的距离信息和多普勒信息，将距离信息和多普勒信息分别在时间维上堆积，得到RTM和DTM。

进一步地，所述步骤S3中采用二维卷积层和池化层构建CNN_Block模块，具体的构建过程为：采用卷积层和池化层构建具有两个分支的卷积神经网络，每个卷积层之后为批归一化层和非线性层，每个分支包括3个卷积层、2个池化层，其中卷积核大小均为3×3，卷积核的个数以64、128、256递增，池化核大小为2×2。

进一步地，所述步骤S3中动态手势的局部特征的获取方法为：将RTM和DTM输入到CNN_Block模块，其中，RTM、DTM∈R^C×H×W，分别得到两个分支的特征图，当特征提取结束之后，将两个分支的特征图按通道维进行拼接，得到融合特征作为动态手势的局部特征。

进一步地，所述步骤S4中利用层归一化LN、多头注意力机制MHA和多层感知机MLP构建Transformer模块，且MHA与MLP之前均为LN，Transformer模块的构建过程为：

A1：利用层归一化函数计算二维输入数据的均值和方差，计算公式为：

其中，X是输入样本，LN(X)是层归一化值，E(X)是样本均值，σ[X]是样本的标准差，α，β是可学习变量，ε是一个极小量，用于防止标准差为0导致溢出；

A2：利用多头注意力机制为每个特征序列分配不同的权重，使模型关注重要特征，抑制干扰特征；计算表达式如下：

其中，Q，K，V分别是查询(Query)向量、键(Key)向量和值(Value)向量，W^Q，W^K和W^V分别是Q、K和V在训练过程中获得的权重矩阵，W^O为计算注意力得到的输出矩阵，d_k为注意力得分缩放比例因子，head_i表示注意力头的个数，i∈(1,2,...,n)；

A3：利用两个全连接层和一个激活函数构成MLP层，用于整合多头注意力输出的信息，增强模型对数据的拟合能力。

进一步地，步骤S5是由多个步骤S4中的Transformer模块构成的，每个Transformer模块均能提取全局特征，使用多个Transformer模块的目的是为了更深层次的提取手势特征，具体体现在步骤A1,A2,A3。

多头注意力机制为有效(手势)特征和干扰特征分配不同的权重，进而对不同特征进行不同程度的关注，从而抑制了干扰特征，步骤S5～S7均可在步骤A2中体现。

进一步地，所述步骤S8中FC_Block的构建方法为：使用一层全局平局池化，两层全连接层。利用一层全局平局池化对数据进行降维，减少模型参数量，并使用两层全连接层将特征向量映射到标签空间。

本发明提供了一种应用于干扰环境下的毫米波雷达动态手势识别方法，将毫米波雷达原始回波重组为三维数据块，并采用均值相消法滤除静态干扰；然后，采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离-时间图与多普勒-时间图，并通过相干积累提升回波信噪比；最后，搭建CNN-Transformer网络模型进行动态手势识别，利用CNN提取手势的局部特征，通过堆叠多个Transformer模块，以充分提取更深层次的有效特征。使用Transformer网络一方面可以增强对手势特征的全局性关注，另一方面Transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰。

上述方案可以归纳为如下三个步骤：

(1)雷达信号处理：首先将雷达回波信号按照Chirps×Samples×Frames的格式，重组为三维数据块，并采用均值相消法滤除环境中的静态干扰；然后，采用二维FFT算法提取动态手势的距离和多普勒信息，得到的RTM与DTM，并进行相干积累以提升回波信噪比。

(2)CNN_Block：使用两个相同的卷积模块，分别提取距离-时间和多普勒-时间特征，并将其进行拼接得到融合特征。

(3)Transformer网络：通过堆叠多个Transformer模块，以充分提取更深层次的有效特征。Transformer网络一方面可以增强对手势特征的全局性关注，另一方面Transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰。

有益效果：本发明与现有技术相比，通过CNN-Transformer网络模型进行动态手势识别，利用CNN提取手势的局部特征，通过堆叠多个Transformer模块，以充分提取更深层次的有效特征，使用Transformer网络一方面可以增强对手势特征的全局性关注，另一方面Transformer网络中的多头注意力机制能够有效抑制环境中的随机动态干扰，实现了干扰环境下的手势识别，提高了手势识别精度，解决了在干扰环境下有效地区分手势信号与干扰信号。

附图说明

图1是本发明中CNN-Transformer网络整体结构图；

图2是雷达信号处理流程图；

图3是CNN_Block结构图；

图4是Transformer Encoder模块结构图；

图5是本实施例中手势类别与干扰图；

图6是本实施例中均值相消前后的对比图；

图7是本实施例中手势数据集中的RTM和DTM图；

图8是本实施例中不同学习率下模型损失和准确率曲线图；

图9是本实施例中CNN-Transformer混淆矩阵图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种应用于干扰环境下的毫米波雷达动态手势识别方法，如图1所示，其包括如下步骤：

S4：利用层归一化、多头注意力机制和MLP构建Transformer模块；

S6：利用Transformer模块增强对手势特征的全局性关注；

本发明中CNN_Block模块、Transformer模块和FC_Block构成CNN-Transformer网络模型，步骤S3～S8就是通过CNN-Transformer网络模型进行动态手势识别的过程。

如图2所示，步骤S1中由于毫米波雷达采集设备采集到的雷达原始回波数据的格式仅展示为一维的数据序列，不便进行雷达信号处理操作，因此将一维数据重组为三维数据块，该三维数据块采用Chirps×Samples×Frames格式，利用2D-FFT进行实现。

均值相消法滤除静态干扰的方法为对1D-FFT结果进行两脉冲对消，具体表达式为：

Y(N)＝X(N)-X(N-1)，N＝2,3,4,...

其中，X(N)表示第N个脉冲。

步骤S2中距离-时间图(Range-Time Map,RTM)与多普勒-时间图(Dopple-TimeMap,DTM)的获取方法为：在三维数据块的每一帧数据的距离维和多普勒维分别进行一维FFT，得到距离-多普勒谱，分别在多普勒维和距离维求和，以提高回波信噪比，得到一帧数据的距离信息和多普勒信息，将距离信息和多普勒信息分别在时间维上堆积，得到RTM和DTM。

如图3所示，步骤S3中采用二维卷积层和池化层构建CNN_Block模块，具体的构建过程为：采用卷积层和池化层构建具有两个分支的卷积神经网络，每个卷积层之后为批归一化层和非线性层，每个分支包括3个卷积层、2个池化层，其中卷积核大小均为3×3，卷积核的个数以64、128、256递增，池化核大小为2×2。

动态手势的局部特征的获取方法为：将RTM和DTM输入到CNN_Block模块，其中，RTM、DTM∈R^C×H×W，分别得到两个分支的特征图，当特征提取结束之后，将两个分支的特征图按通道维进行拼接，得到融合特征作为动态手势的局部特征。

如图4所示，步骤S4中利用层归一化(Layer Normer,LN)、多头注意力机制(Multi-HeadAttention operation,MHA)和多层感知机(MultilayerPerceptron,MLP)构建Transformer模块，且MHA与MLP之前均为LN，Transformer模块的构建过程为：

步骤S8中FC_Block的构建方法为：使用一层全局平局池化，两层全连接层。利用一层全局平局池化对数据进行降维，减少模型参数量，并使用两层全连接层将特征向量映射到标签空间。

基于上述技术方案，为了验证本发明方法的效果，本实施例进行实验验证，具体如下：

采用AWR1642B00ST-ODS毫米波雷达，配合DCA1000高速数据采集卡，采集手势的雷达回波，并构建手势回波数据集。通过数据采集卡将雷达回波传到PC端，使用MATLAB 2021软件进行数据处理。CNN-Transformer网络基于PyTorch1.13深度学习框架，在配置为InterI7-10700K处理器和NVIDAGTX3090显卡上进行训练。

具体的实验过程为：

步骤1：初始化雷达参数

雷达参数配置如表1所示。

表1雷达参数配置

步骤2：定义动态手势数据集

本实验中共设计六类手势，如图5所示，(a)-(f)依次为V字形、击掌、左右挥手、上下按压、顺时针旋转和逆时针旋转。数据集由9名实验人员分别做指定的手势动作，每种手势采集50个数据文件，共采集9人×6类×50＝2700个数据文件。在采集数据的过程中，引入随机干扰，如挥手、抛物等。随机动态干扰如图5(g)-(h)所示。每种干扰有150个数据文件，共有300个含干扰的回波数据文件，即干扰数据占总数据集的10％。

图5为V字形手势的均值相消前后对比图，其横坐标表示时间(s)，纵坐标表示距离(m)。V字形手势的动作轨迹为，先靠近雷达后远离雷达。由图6可以看到，当手势靠近雷达时，手势与雷达之间的径向距离变小；当手势远离雷达时，手势与雷达之间的径向距离变大。图中红色箭头所示为静态干扰。采用均值相消的目的是滤除环境中的静态干扰，如墙壁、桌子等。由图6(a)可以看出，采集环境中的桌子距离雷达最近，反射强度更强，表现为最下面的一条横线。采用均值相消可以有效地滤除静态干扰(如图6(b)所示)。

经过信号处理和数据预处理之后，可以得到无静态干扰的RTM、DTM图片，各2700张，含随机动态干扰的RTM、DTM图片各300张。图7为不含干扰的RTM和DTM和含干扰的RTM(I_RTM)和DTM(I_DTM)。图7(a)-(f)依次对应图5(a)-(f)，如图7(a)(RTM)为V字形手势，表现为先靠近雷达后远离雷达；图7(b)(RTM)为击掌手势，表现为手势与雷达之间的径向距离几乎不变等。图中红线圈出的为随机干扰。如，图7(b)(I_RTM)中红线圈出的一条短线为随机干扰手势(挥手)。

步骤3：模型初始化

CNN_Block模块初始化参数如表2所示。其中k表示卷积核的个数，Batch为输入数据的批数；Channel、Height和Width分别为特征图的通道数、高和宽。

表2CNN_Block模块初始化参数

由于CNN_Block由2个相同的卷积模块组成，因此CNN_Block的最终输出是两个形状为(64,256,12,12)的四维张量，将它们展平后按通道维拼接，得到形状为(64,512,144)的张量。

对于Transformer Encoder模块，我们堆叠8个Transformer Encoder，并将多头注意力机制的头数设置为8。为了防止模型过拟合，本发明在多头注意力之后使用Dropout函数，以20％的比率随机丢弃部分权值。

步骤5：网络训练与验证

本实施例以6：2：2的比例，将数据集划分为训练集、验证集和测试集。为了使网络的训练能够更好的收敛，在输入网络之前，将所有特征谱图的大小统一抽取为64×64，并对其进行标准化和归一化处理。将预处理之后的RTM与DTM输入CNN-Transformer网络进行训练，使用交叉熵函数来定义损失函数。使用Adam优化器进行参数优化，并采用早停法监听验证集的准确率，在泛化效果变差时结束模型训练。

为了尽可能避免CNN-Transformer网络在训练过程中陷入局部最小值，验证不同学习率ξ对模型训练的影响。将学习率设置为唯一变量，其他参数不变，分别设置学习率为1e-3、1e-4、3e-3和3e-4。图8为不同学习率下所提模型的验证损失函数和准确率曲线，其中，(a)为验证集损失曲线(b)为验证集准确率曲线。可以看到，当学习率为1e-4时达到了较高的准确率，且模型的验证损失和准确率最稳定，收敛速度快。因此，在接下来的实验和分析中本发明选择1e-4的学习率。

为了验证本发明所构建的神经网络的在线识别准确率，选取了未参与训练的两组数据作为测试集(包括有干扰和无干扰的两组数据)，分析模型对每种手势的识别表现。图9给出了CNN-Transformer网络在无干扰数据集和有干扰数据集上的混淆矩阵。从图9(a)可以看出在无干扰环境下，本发明方法对每种手势均可达98％以上的识别准确率，尤其是击掌、左右挥手和顺时针画圆均达到了100％的识别准确率。

Claims

1.一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，包括如下步骤：

S2：采用二维快速傅里叶变换提取动态手势的距离和多普勒信息，得到动态手势的距离-时间图RTM与多普勒-时间图DTM，并通过相干积累提升回波信噪比；

S4：利用层归一化、多头注意力机制和MLP构建Transformer模块；

S5：通过堆叠多个Transformer模块，提取动态手势的手势特征；

S6：利用Transformer模块增强对手势特征的全局性关注；

2.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S1中三维数据块采用Chirps×Samples×Frames格式。

3.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S1中均值相消法滤除静态干扰的方法为对1D-FFT结果进行两脉冲对消，具体表达式为：

Y(N)＝X(N)-X(N-1)，N＝2,3,4,...

其中，X(N)表示第N个脉冲。

4.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S2中距离-时间图RTM与多普勒-时间图DTM的获取方法为：在三维数据块的每一帧数据的距离维和多普勒维分别进行一维FFT，得到距离-多普勒谱，分别在多普勒维和距离维求和，以提高回波信噪比，得到一帧数据的距离信息和多普勒信息，将距离信息和多普勒信息分别在时间维上堆积，得到RTM和DTM。

5.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S3中采用二维卷积层和池化层构建CNN_Block模块，具体的构建过程为：采用卷积层和池化层构建具有两个分支的卷积神经网络，每个卷积层之后为批归一化层和非线性层。

6.根据权利要求5所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述CNN_Block模块中的每个分支卷积神经网络包括3个卷积层、2个池化层，其中卷积核大小均为3×3，卷积核的个数以64、128、256递增，池化核大小为2×2。

7.根据权利要求5所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S3中动态手势的局部特征的获取方法为：将RTM和DTM输入到CNN_Block模块，其中，RTM、DTM∈R^C×H×W，分别得到两个分支的特征图，当特征提取结束之后，将两个分支的特征图按通道维进行拼接，得到融合特征作为动态手势的局部特征。

8.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S4中利用层归一化LN、多头注意力机制MHA和多层感知机MLP构建Transformer模块，且MHA与MLP之前均为LN，Transformer模块的构建过程为：

A2：利用多头注意力机制为每个特征序列分配不同的权重，使模型关注重要特征，抑制干扰特征；

9.根据权利要求1所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤S8中FC_Block的构建方法为：使用一层全局平局池化，两层全连接层。

10.根据权利要求8所述的一种应用于干扰环境下的毫米波雷达动态手势识别方法，其特征在于，所述步骤A2中利用多头注意力机制为每个特征序列分配不同的权重的计算表达式如下：

其中，Q，K，V分别是查询(Query)向量、键(Key)向量和值(Value)向量，W^Q，W^K和W^V分别是Q、K和V在训练过程中获得的权重矩阵，W^O为计算注意力得到的输出矩阵，d_k为注意力得分缩放比例因子，head_i表示注意力头的个数，i∈(1,2,...,n)。