CN115877376A

CN115877376A - 基于多头自注意力机制的毫米波雷达手势识别方法及识别***

Info

Publication number: CN115877376A
Application number: CN202211566615.1A
Authority: CN
Inventors: 赵雅琴; 宋雨晴; 吴龙文; 刘璞秋; 何胜阳; 左伊芮; 周仕扬
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-31

Abstract

基于多头自注意力机制的毫米波雷达手势识别方法及识别***，本发明涉及基于毫米波雷达的快速、轻量化手势识别方法及识别***。本发明的目的是为了解决现有的基于雷达的手势识别技术大多利用特征谱图和卷积神经网络进行手势的分类识别，训练时间长，占用的储存空间大，没有考虑注意力机制的问题。过程为：一、采用毫米波雷达进行手势数据采集，形成手势数据训练集；二、获得距离多普勒图；三、对距离‑时间谱、速度‑时间谱、方位谱和俯仰谱进行简化，得到28×4维的混和特征向量；四、得到训练好的手势识别网络；五、将毫米波雷达采集的待测手势数据经过二、三输入训练好的手势识别网络，获得待测手势数据识别结果。本发明用于手势识别领域。

Description

基于多头自注意力机制的毫米波雷达手势识别方法及识别 ***

技术领域

本发明涉及基于毫米波雷达的快速、轻量化手势识别方法及识别***。

背景技术

非接触的手势识别作为一种新型人机交互方式，符合人们肢体语言习惯，有着广阔的应用前景。在医疗方面，医生可以通过手势对医疗设备进行控制，进而实现无接触的医疗操作；在汽车领域，驾驶员和乘客可以通过手势向汽车中控台发出指令；在智能家居领域，人们能够利用手势动作对空调、电视等常用电器进行控制；在AR/VR领域，玩家可以利用手势对游戏中物体进行控制，增强代入感。由于具有非接触、对微动目标感知能力强、能够全天时、全天候工作、不受光线影响、***露隐私等优势，基于毫米波雷达的手势识别方法已经成为一种重要的人机交互方式。目前，用于手势识别的毫米波雷达大多采用调频连续波技术和多发多收天线，这是本发明的前提，手势识别的评价指标主要是能识别手势的种类和识别精度。

通常，毫米波雷达手势识别可分为3大步骤：首先，利用毫米雷达传感器检测并采集用户的动态手势信息；然后，对回波信号进行预处理操作，最大限度的对动态手势特征进行提取，同时滤除干扰杂波；最后，根据手势特征预处理的结果，选择恰当的算法对手势进行分类和识别。现有的基于雷达的手势识别技术大多利用特征谱图和卷积神经网络进行手势的分类识别，训练时间长，占用的储存空间大，没有考虑注意力机制。

发明内容

本发明的目的是为了解决现有的基于雷达的手势识别技术大多利用特征谱图和卷积神经网络进行手势的分类识别，训练时间长，占用的储存空间大，没有考虑注意力机制的问题，而提出基于多头自注意力机制的毫米波雷达手势识别方法及识别***。

基于多头自注意力机制的毫米波雷达手势识别方法具体过程为：

步骤一、采用信号形式为调频连续波的毫米波雷达进行手势数据采集，形成手势数据训练集；

步骤二、对采集到的手势数据进行预处理，获得距离多普勒RD图；

步骤三、基于步骤二获得的距离多普勒RD图，得到距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM，对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，最终得到28×4维的混和特征向量；

步骤四、构建手势识别网络8HBi-GRU，将混合特征向量输入到手势识别网络Bi-GRU中，得到训练好的手势识别网络Bi-GRU；

步骤五、将毫米波雷达采集的待测手势数据进行预处理，获得距离多普勒RD图；基于获得的距离多普勒RD图，得到距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM，对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，最终得到28×4维的混和特征向量；将得到的28×4维的混和特征向量输入训练好的手势识别网络Bi-GRU，获得待测手势数据识别结果。

基于多头自注意力机制的毫米波雷达手势识别***用于执行基于多头自注意力机制的毫米波雷达手势识别方法。

本发明的有益效果为：

本发明采用信号形式为调频连续波的毫米波雷达进行手势数据采集，并对数据集进行目标检测和特征提取，最后借助神经网络，从轻量化角度出发进行12种手势的手势识别。

本发明为实现手势识别，不仅提取了常用的距离、速度特征，还提取了方位角和俯仰角。目前基于雷达的手势识别方法有的是将原始雷达数据直接放入神经网络，有的是提取距离、多普勒和到达角信息后放入神经网络，大多未用到俯仰角特征，相比之下，本发明对数据做了充分的处理，特征提取更加全面和充分，能够表征多种微动手势。

本发明用加权平均的方法对RTM、DTM、ATM和ETM进行数据压缩，尽可能准确地提取出特征值，从而得到28×4维的混和特征向量，该混和特征向量共28帧，每帧包含距离、速度、方位角和俯仰角4个特征值，大大减小了数据量。采用混合特征向量和提出的手势识别网络8HBi-GRU进行分类，该网络能充分融合4种特征并提取手势数据的时间相关性，实验结果表明，对于12种微动手势，可以达到98.24％的识别正确率，并且模型训练和识别的速度很快，实现了快速、轻量化的手势识别。

附图说明

图1为本发明流程图

图2a为RTM数据压缩成特征向量的示例图；

图2b为DTM数据压缩成特征向量的示例图；

图2c为ATM数据压缩成特征向量的示例图；

图2d为ETM数据压缩成特征向量的示例图；

图3为本发明提出的8HBi-GRU网络的结构图；

图4为GRU模型原理示意图；

图5为Bi-GRU模型原理示意图；

图6为自注意力机制模型示意图；

图7a为8HBi-GRU网络训练过程中准确率(Accuracy)的变化曲线图；

图7b为8HBi-GRU网络训练过程中损失(Loss)的变化曲线图；

图8为对8HBi-GRU网络测试得到的混淆矩阵图。

具体实施方式

具体实施方式一：本实施方式基于多头自注意力机制的毫米波雷达手势识别方法具体过程为：

步骤一、采用信号形式为调频连续波(FMCW)的毫米波雷达进行手势数据采集，形成手势数据训练集；

步骤四、从轻量化的角度出发，构建手势识别网络8HBi-GRU，将混合特征向量输入到手势识别网络Bi-GRU中，得到训练好的手势识别网络Bi-GRU，得到的轻量化模型最终可以达到98.24％的识别正确率，有着训练时间短，训练速度快，数据量小的优势；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中对采集到的手势数据进行预处理，获得距离多普勒RD图；

具体过程为：

借助MTI动目标显示技术滤除毫米波雷达采集的手势数据(回波信号)中的静止物体成分，得到滤除静止物体成分后的手势数据；

对滤除静止物体成分后的手势数据在距离维和速度维做2D-FFT，得到距离多普勒RD图；

采用恒虚警检测器CFAR对得到的距离多普勒RD图中的干扰目标(恒虚警检测器CFAR完成干扰目标检测，去除)进行滤除，获得滤除干扰目标后的只包含人手目标的距离多普勒RD图。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述对滤除静止物体成分后的手势数据在距离维和速度维做2D-FFT，得到距离多普勒RD图；

具体过程为：

对滤除静止物体成分后的手势数据在距离维和速度维做2D-FFT得到距离多普勒RD图(横轴是速度索引，纵轴是距离索引，其值的大小反映到RD图上就是颜色)，表达式为：

其中，s_IF(m,n)为调频连续波(FMCW)雷达采集的手势数据，N_c为脉冲信号chirp数，N_adc为调频连续波(FMCW)雷达原始采集的手势数据个数；j为虚数单位，j²＝-1；m为原始脉冲信号chirp索引，n为原始采样点的索引；

目标会呈现在RD图上，表现为RD图上的一团能量较高的像素点。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中基于步骤二获得的距离多普勒RD图，得到距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM，对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，最终得到28×4维的混和特征向量；

具体过程为：

步骤三一、对只包含人手目标的距离多普勒RD图在纵轴进行投影，并且逐帧拼接，得到距离-时间谱RTM图；

步骤三二、对只包含人手目标的距离多普勒RD图在横轴进行投影，并且逐帧拼接，得到速度-时间谱DTM图；

步骤三三、对只包含人手目标的距离多普勒RD图中检测到的人手目标点进行波达方向DOA估计，即在水平的通道维度做角度FFT，并且逐帧拼接，得到方位谱ATM；在竖直的通道维做角度FFT，并且逐帧拼接，得到俯仰谱ETM。

步骤三四、对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，得到28×4维的混和特征向量。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三四中对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，得到28×4维的混和特征向量；

具体过程为：

对RTM、DTM、ATM和ETM进行数据压缩，得到28×4维的混和特征向量，其中28表示28帧数据，4表示距离、速度、方位角和俯仰角这4种特征，如图2a、2b、2c、2d所示；

步骤三四一、对于距离-时间谱RTM图，距离-时间谱RTM图的行数(距离FFT的点数)和列数分别为R＝128，L＝28，即距离-时间谱RTM图由28帧数据中的目标的距离分布拼接而成，每一帧数据中的目标的距离分布被划分为128个距离单元来表示，假设第l列第r行像素点的能量值表示为E_r(l,r)，则第l帧数据中的目标的距离估计f_r(l)可以表示为：

其中，l＝1,2,…,L，r＝1,2,…,R；

对28帧数据进行该操作，R×L尺寸的距离-时间谱RTM图就被简化成了尺寸为1×L的特征向量，这种降维方法高效直接，可以用一个数反映出目标在某一帧数据中的距离信息；

步骤三四二、对于速度-时间谱DTM图，速度-时间谱DTM图的行数(距离FFT的点数)和列数分别为D＝128，L＝28，假设第l列第d行像素点的能量值表示为E_d(l,d)，则第l帧数据中的目标的距离估计f_d(l)可以表示为：

其中，l＝1,2,…,L，d＝1,2,…,D；

对28帧数据进行该操作，D×L尺寸的速度-时间谱DTM图就被简化成了尺寸为1×L的特征向量；

步骤三四三、对于方位谱ATM，方位谱ATM的行数(距离FFT的点数)和列数分别为A＝160，L＝28，假设第l列第a行像素点的能量值表示为E_a(l,a)，则第l帧数据中的目标的距离估计f_a(l)可以表示为：

其中，l＝1,2,…,L，a＝1,2,…,A；

对28帧数据进行该操作，A×L尺寸的方位谱ATM就被简化成了尺寸为1×L的特征向量；

步骤三四四、对于俯仰谱ETM，俯仰谱ETM的行数(距离FFT的点数)和列数分别为E＝50，L＝28，假设第l列第e行像素点的能量值表示为E_e(l,e)，则第l帧数据中的目标距离估计f_e(l)可以表示为：

其中，l＝1,2,…,L，e＝1,2,…,E；

对28帧数据进行该操作，E×L尺寸的俯仰谱ETM就被简化成了尺寸为1×L的特征向量；

步骤三四五、对上述四种特征向量进行时间对齐和拼接，得到28×4维的混和特征向量(将4个28维的向量，拼接成4×28的向量)。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤四中从轻量化的角度出发，构建手势识别网络8HBi-GRU，将混合特征向量输入到手势识别网络Bi-GRU中，得到训练好的手势识别网络Bi-GRU，得到的轻量化模型最终可以达到98.24％的识别正确率，有着训练时间短，训练速度快，数据量小的优势；

具体过程为：

步骤四一、构建手势识别网络8HBi-GRU；具体过程为：

手势识别网络8HBi-GRU依次包括第一双向GRU层、第二双向GRU层、多头自注意力机制层、求和层和全连接层；

步骤四二、将步骤三得到的28×4维的混和特征向量输入到手势识别网络Bi-GRU中，直至收敛，得到训练好的手势识别网络Bi-GRU。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤四二中将步骤三得到的28×4维的混和特征向量输入到手势识别网络Bi-GRU中，直至收敛，得到训练好的手势识别网络Bi-GRU；

具体过程为：

将步骤三得到的28×4维的混和特征向量输入到第一双向GRU层，第一双向GRU层输出特征向量输入多头自注意力机制层，多头自注意力机制层输出特征向量输入求和层进行求和操作(28×512经过求和层变为512)，求和层输出特征向量输入全连接层，全连接层输出12维的向量，如图2a、2b、2c、2d所示，其中最大值所对应的类，即识别结果，直至收敛，得到训练好的手势识别网络Bi-GRU。

所述28代表时刻，4代表向量，分别为距离-时间谱(RTM)、速度-时间谱(DTM)、方位谱(ATM)和俯仰谱(ETM)；

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式基于多头自注意力机制的毫米波雷达手势识别***，所述***用于执行基于多头自注意力机制的毫米波雷达手势识别方法。

GRU网络的原理具体如下：

GRU的循环单元主要由重置门和更新门组成，分别用r_t和z_t表示，定义om算子为1减去输入数据的运算，GRU的结构表示如图4所示。

重置门将新的输入信息x_t与上一时刻的保留信息h_t-1进行融合；重置门的值越大，代表保留下来的有用信息就越多，计算方法为

r_t＝σ(W_r×[h_t-1,x_t]) (6)

其中，W_r为待训练参数，r_t为重置门的值，σ()为sigmoid激活函数；

更新门决定上一时刻信息对于当前时刻的影响程度，更新门的值越大，代表上一时刻信息对于当前时刻的影响就越大，更新门计算公式为

z_t＝σ(W_z×[h_t-1,x_t]) (7)

其中，W_z为待训练参数，z_t为更新门的值；

候选隐藏层状态

的计算公式为

其中，Tanh()为Tanh激活函数，W_xg、W_hg为权重矩阵(待训练的参数)，b_g为偏移向量(待训练的参数)，

可以看做两个时刻隐藏层信息的加权融合，这一环节中需要用到重置门r_t来计算保留上一时刻信息的多少，当r_t为0时，则计算过程中不对前一时刻的信息进行记忆。

随后更新隐藏层状态，计算方法为

GRU能获取时间序列的帧间特征，但是只能捕捉从前往后的时间序列相关性，在复杂分类问题中，这是远远不够的。

采用Bi-GRU网络模型(双向GRU网络模型)双向提取序列的时间相关性，得到时间序列的上下文特征，也就是说t时刻的隐藏层状态由t+1时刻和t-1时刻的隐藏层状态共同决定(即h_t由h_t-1和h_t+1共同决定，所以能双向提取)，其结构如图5所示；

在本发明中，n为帧数，x_t为4维向量，t＝1,2,...,28，隐藏层尺寸为256(就是h的维度)，由于采用双向GRU网络，输出大小为28×512(如果采用普通的单向GRU，输出大小为28×256，如果采用双向，则翻倍，输出大小为28×512)。

自注意力机制的原理具体如下：

自注意力机制的计算依赖于查询向量q，键值向量k和值向量v，查询向量q，键值向量k和值向量v分别由输入序列x(如图3所示，序列x的大小为4×28)与权重矩阵相乘得到：

q＝x×W_Q (10)

k＝x×W_K (11)

v＝x×W_V (12)

其中，W_Q，W_K，W_V表示对应的权重矩阵，用以实现特征维度的转换，是自注意力机制中的待学习参数，采用线性层实现q，k，v的求取；

自注意力机制指，首先由q与k运算得分配的权重值，然后利用Softmax函数归一化，最后将得到的权值和值向量v加权求和获取Attention值，该过程如图6所示；

对于i时刻的特征向量x_i，假设特征向量x_i与j时刻特征向量求得的注意力权重为a_ij，最后的输出为y_i，则有关计算公式如下：

其中，d_k为查询向量或键值向量的深度，在本发明中，d_k＝512；q_i为i时刻的特征向量x_i对应的查询向量，k_j为j时刻特征向量对应的键值向量，T为转置，v_i为特征向量对应的值向量；

采用多头自注意力机制进行注意力分配，具体如下：

采用m头自注意力机制，对于某一帧特征向量x_i，将对应的查询向量q_i，键值向量k_i，值向量v_i分别等分成m个子向量，就可以得到m组q，k，v的组合；

28×512大小的向量q变为m组

大小的向量；

28×512大小的向量k变为m组

大小的向量；

28×512大小的向量v变为m组

大小的向量；

分组执行自注意力机制运算，即可得到多组输出y，然后将多组输出y进行合并，得到最终的注意力输出，如图2a、2b、2c、2d所示；

对于连续输入的时间序列x，时间序列长度为n，经过m头自注意力机制处理之后获得的最终的注意力输出为u，可以用公式表示为：

u＝C(h₁(x₁,x₂,···,x_n),···,h_k(x₁,x₂,···,x_n),···,h_m(x₁,x₂,···,x_n))(15)

其中，h_k(x₁,x₂,···,x_n)表示第k组自注意力操作的结果，C(·)表示输出y按顺序进行的合并处理，每个单头自注意力的计算过程是完全相同的，但是权重矩阵各不相同。

在本发明中，m选为8，多头自注意力机制的输出大小为28×512。

采用以下实施例验证本发明的有益效果：

实施例一：采用8HBi-GRU对12种微动手势进行分类识别。

12种微动手势包括：操作者面向毫米波雷达，1)打勾，2)打叉，3)顺时针画圆，4)逆时针画圆，5)左右挥手，6)左扇，7)右扇，8)招手，9)摆手，10)单指TAP，11)手掌握拳，12)手掌张开。本发明邀请了10名实验人员(6男4女)参与手势数据采集，手势作用距离在离雷达平面20～60cm之间，水平方向角度范围限制为±80°，竖直方向角度范围限制为±25°，每人采集手势数量大致相同，最终形成了每种手势600组样本，共计7200组样本的手势数据集，其中随机抽取70％处理成特征数据集用于训练，剩余30％用于测试。

采用Python3.8,Pytorch1.12.0环境进行实验，CPU为i7-12700H，GPU为RTX3060，***为Windows10。训练学习率设置为0.001，使用Adam优化器，迭代60轮。

模型训练过程中的准确率(Accuracy)和损失(Loss)变化曲线如图7a、7b所示。可以看出，随着模型训练的进行，训练集和测试集的正确率以及损失经过足够轮次的迭代后都逐渐收敛，最终得到的总体分类正确率为98.24％。

对模型进行测试，混淆矩阵如图8所示，12种手势的精确度(Precision)、召回率(Recall)、F1分数(F1-score)如表1所示。

表112种手势的表现

可以看出，对于左扇、右扇、挥手等运动幅度较大的手掌运动手势，该分类方案可以获得接近100％的识别率，对于打勾、打叉、画圆等幅度较大的手指运动手势，该分类方案的识别效果也比较理想。但对于握拳和张开手掌这一对较为微动的易混淆手势而言，识别效果就不是非常好，识别率仅能达到90％左右。

实施例二：为了验证多头自注意力机制对于Bi-GRU网络的优化作用以及寻找多头自注意力机制合适的抽头数，对Bi-GRU网络，以及注意力头数量分别为0、1、2、4、8、16的多头自注意力机制的Bi-GRU网络进行实验。训练学习率设置为0.001，使用Adam优化器，迭代60轮，得到测试正确率如表2所示。

表2Bi-GRU与多头自注意力机制实验结果

1HBi-GRU代表与单头自注意力机制结合的Bi-GRU网络，2HBi-GRU代表抽头数为2的多头自注意力机制与Bi-GRU结合的网络，以此类推。从实验结果中可以看到，多头自注意力机制的作用效果受抽头数目的影响较大，当抽头数选择合适时，多头自注意力机制对于Bi-GRU网络的性能有一定提升作用，当抽头数选择不合适，甚至可能会出现负优化的现象。结合实验数据可以发现，当多头自注意力机制的抽头数目设置为8时对于Bi-GRU网络的优化作用最大，最终识别正确率最高。

实施例三：将本发明的8HBi-GRU方案与其它方案对比，以验证本发明的先进性和优越性。实验结果如表3所示。

其中，VGG16、Resnet50、Resnet101、DenseNet121和DenseNet161以混合特征谱图(RTM、DTM、ATM和ETM)作为输入，输入数据占用1.15GB大小的储存空间，实验表明，这类方法的数据量大、训练参数多、训练时间太长。

相比之下，CNN、CNN-LSTM、CNN-Bi-GRU、LSTM、Bi-LSTM、Bi-GRU和8HBi-GRU等以混和特征向量作为输入的方法，只占用0.82MB的储存空间、训练参数较少、训练时间较短，在3分钟内就能完成训练。其中，CNN由4个一维卷积层和2个全连接层组成，LSTM由两个LSTM层和1个分类器组成，CNN-LSTM由CNN和LSTM级联而成，CNN-Bi-GRU由CNN和Bi-GRU级联而成。

实验表明，与CNN、CNN-LSTM、CNN-Bi-GRU、LSTM、Bi-LSTM、Bi-GRU相比，我们的8HBi-GRU模型获得了最高的识别率，有着较强的优越性和应用前景。

表3我们的模型与其它模型的表现对比

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述步骤二中对采集到的手势数据进行预处理，获得距离多普勒RD图；

具体过程为：

借助MTI动目标显示技术滤除毫米波雷达采集的手势数据中的静止物体成分，得到滤除静止物体成分后的手势数据；

采用恒虚警检测器CFAR对得到的距离多普勒RD图中的干扰目标进行滤除，获得滤除干扰目标后的只包含人手目标的距离多普勒RD图。

3.根据权利要求2所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述对滤除静止物体成分后的手势数据在距离维和速度维做2D-FFT，得到距离多普勒RD图；

具体过程为：

对滤除静止物体成分后的手势数据在距离维和速度维做2D-FFT得到距离多普勒RD图，表达式为：

其中，s_IF(m,n)为调频连续波(FMCW)雷达采集的手势数据，N_c为脉冲信号chirp数，N_adc为调频连续波(FMCW)雷达原始采集的手势数据个数；j为虚数单位，j²＝-1；m为原始脉冲信号chirp索引，n为原始采样点的索引。

4.根据权利要求3所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述步骤三中基于步骤二获得的距离多普勒RD图，得到距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM，对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，最终得到28×4维的混和特征向量；

具体过程为：

步骤三三、对只包含人手目标的距离多普勒RD图中检测到的人手目标点进行波达方向DOA估计，即在水平的通道维度做角度FFT，并且逐帧拼接，得到方位谱ATM；在竖直的通道维做角度FFT，并且逐帧拼接，得到俯仰谱ETM；

5.根据权利要求4所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述步骤三四中对距离-时间谱RTM、速度-时间谱DTM、方位谱ATM和俯仰谱ETM进行简化，得到28×4维的混和特征向量；

具体过程为：

步骤三四一、对于距离-时间谱RTM图，距离-时间谱RTM图的行数和列数分别为R＝128，L＝28，即距离-时间谱RTM图由28帧数据中的目标的距离分布拼接而成，每一帧数据中的目标的距离分布被划分为128个距离单元来表示，假设第l列第r行像素点的能量值表示为E_r(l,r)，则第l帧数据中的目标的距离估计f_r(l)可以表示为：

其中，l＝1,2,…,L，r＝1,2,…,R；

对28帧数据进行该操作，R×L尺寸的距离-时间谱RTM图就被简化成了尺寸为1×L的特征向量；

步骤三四二、对于速度-时间谱DTM图，速度-时间谱DTM图的行数和列数分别为D＝128，L＝28，假设第l列第d行像素点的能量值表示为E_d(l,d)，则第l帧数据中的目标的距离估计f_d(l)可以表示为：

其中，l＝1,2,…,L，d＝1,2,…,D；

步骤三四三、对于方位谱ATM，方位谱ATM的行数和列数分别为A＝160，L＝28，假设第l列第a行像素点的能量值表示为E_a(l,a)，则第l帧数据中的目标的距离估计f_a(l)可以表示为：

其中，l＝1,2,…,L，a＝1,2,…,A；

步骤三四四、对于俯仰谱ETM，俯仰谱ETM的行数和列数分别为E＝50，L＝28，假设第l列第e行像素点的能量值表示为E_e(l,e)，则第l帧数据中的目标距离估计f_e(l)可以表示为：

其中，l＝1,2,…,L，e＝1,2,…,E；

步骤三四五、对上述四种特征向量进行时间对齐和拼接，得到28×4维的混和特征向量。

6.根据权利要求5所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述步骤四中构建手势识别网络8HBi-GRU，将混合特征向量输入到手势识别网络Bi-GRU中，得到训练好的手势识别网络Bi-GRU；

具体过程为：

步骤四一、构建手势识别网络8HBi-GRU；具体过程为：

7.根据权利要求6所述的基于多头自注意力机制的毫米波雷达手势识别方法，其特征在于：所述所述步骤四二中将步骤三得到的28×4维的混和特征向量输入到手势识别网络Bi-GRU中，直至收敛，得到训练好的手势识别网络Bi-GRU；

具体过程为：

将步骤三得到的28×4维的混和特征向量输入到第一双向GRU层，第一双向GRU层输出特征向量输入多头自注意力机制层，多头自注意力机制层输出特征向量输入求和层进行求和操作，求和层输出特征向量输入全连接层，全连接层输出12维的向量，其中最大值所对应的类，即识别结果，直至收敛，得到训练好的手势识别网络Bi-GRU。

8.基于多头自注意力机制的毫米波雷达手势识别***，其特征在于：所述***用于执行权利要求1至7之一所述的基于多头自注意力机制的毫米波雷达手势识别方法。