CN116824640A

CN116824640A - 基于mt与三维残差网络的腿部识别方法、***、介质和设备

Info

Publication number: CN116824640A
Application number: CN202311087438.3A
Authority: CN
Inventors: 宋校能; 钱琨; 后烜; 张首金
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-09-29
Anticipated expiration: 2043-08-28
Also published as: CN116824640B

Abstract

本发明涉及计算机视觉技术领域，公开一种基于MT与三维残差网络的腿部识别方法、***、介质和设备，包括：获取腿部姿态视频并进行数据预处理得到腿部姿态图像，分为训练集和测试集；构建神经网络识别模型，识别模型的主干网络为三维残差网络，三维残差网络用于提取图像特征并输入到全连接层中，识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；通过平均教师架构训练识别模型，平均教师架构包括学生模型和教师模型；将测试集输入训练完成的神经网络识别模型得到腿部姿态的识别结果。本发明可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。

Description

基于MT与三维残差网络的腿部识别方法、***、介质和设备

技术领域

本发明涉及计算机视觉技术领域，尤其是指一种基于MT与三维残差网络的腿部识别方法、***、介质和设备。

背景技术

复杂环境下的腿部姿态识别是计算机视觉分类技术的重要组成部分，它对青少年时期的腿型及走路姿态校正有着关键作用，因此针对复杂环境下的腿部姿态识别的研究越来越得到了研究者的重视。

现有技术中有基于全卷积孪生网络的视频目标跟踪方法，该方法实现的具体步骤是：基于ImageNet2015数据库，利用预先在线学习的方法，训练一个神经网络来解决生成式的相似性学习的问题，这个相似度匹配函数在跟踪的过程中简单的进行评价；然后，利用预训练后的深度卷积网络作为特征编码器，提高跟踪性能。现有技术中还有使用机器学习、或神经网络等模型对腿部姿态进行识别的做法，但是，这些方法的识别效果都十分依赖数据集，在有限的有标注数据样本下、特别是在复杂环境下的腿部姿态识别中，无法得到准确的识别结果，适用范围有限。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于MT与三维残差网络的腿部识别方法、***、介质和设备，可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。

为解决上述技术问题，本发明提供了一种基于MT与三维残差网络的腿部识别方法，包括：

获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集；

构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；

通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型，所述平均教师架构包括学生模型和教师模型；训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型，训练过程中使用所述教师模型指导所述学生模型训练，将训练完成的所述学生模型作为训练完成的神经网络识别模型；

将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

在本发明的一个实施例中，所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取，具体为：

设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S+1个条带；

使用全局池化层对每个条带进行全局池化，将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。

在本发明的一个实施例中，使用全局池化层对每个条带进行全局池化时，计算方法为：

，

其中，z _s,t表示第s个刻度划分的第t个条带，s∈{1,2,…,S}，t∈{2²,2³,…,2^S+1}；表示全局池化后的第s个刻度划分的第t个条带，maxpool( )表示全局最大化池化操作，avgpool( )表示全局平局池化操作。

在本发明的一个实施例中，通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，所述学生模型通过前向传播生成预测结果，所述教师模型通过前向传播生成指导性的预测结果。

在本发明的一个实施例中，通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，对所述训练集中的数据进行两种不同的加噪声操作，将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。

在本发明的一个实施例中，通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，总损失函数的建立过程为：

对所述训练集中有标签的数据加噪声η后输入所述学生模型，根据所述学生模型的预测结果计算交叉熵损失loss ₁；

对所述训练集中无标签的数据加噪声η后输入所述学生模型，得到学生模型的预测结果；对所述训练集中无标签的数据加噪声η’后输入所述教师模型，得到教师模型的预测结果/>；

将所述预测结果和/>的均方误差损失作为均方损失loss ₂，计算所述总损失函数L为：L=loss ₁+loss ₂。

在本发明的一个实施例中，所述学生模型的模型权重使用梯度下降法更新，所述教师模型的模型权重结合所述学生模型的模型权重更新，更新公式为：

，

其中，为第t个迭代周期的教师模型的模型权重，/>第t个迭代周期的学生模型的模型权重，α为权重系数。

本发明还提供了一种基于MT与三维残差网络的腿部识别***，包括：

数据获取模块，用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集；

模型构建模块，用于构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；

训练模块，用于通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型，所述平均教师架构包括学生模型和教师模型；

识别模块，用于将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还提供了一种计算机可读存储介质，该计算机程序被处理器执行时实现所述的基于MT与三维残差网络的腿部识别方法。

本发明还提供了一种基于MT与三维残差网络的腿部识别设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于MT与三维残差网络的腿部识别方法。

本发明的上述技术方案相比现有技术具有以下优点：

本发明针对腿部姿态图像，通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征，实现了对腿部姿态图像特征的有效提取，可以在有限的数据样本下提高复杂环境下的腿部姿态识别的精度；同时，本发明在训练神经网络识别模型时采用平均教师架构，通过平均教师架构中学生模型和教师模型的作用提高了识别模型的性能和泛化能力。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明方法的流程图。

图2是本发明的结构示意图。

图3是本发明实施例中特征增强后的示意图。

图4是本发明实施例中第一层特征提取后的示例图。

图5是本发明实施例中最后一层特征提取后的示例图。

图6是本发明实施例中对正常步态的识别示意图。

图7是本发明实施例中对O形步态的识别示意图。

图8是本发明实施例中对X形步态的识别示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1-图2所示，本发明公开了一种基于MT与三维残差网络的腿部识别方法，包括以下步骤：

S1：获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集。

本实施例中，将获取的腿部姿态视频按帧拆分成图片集，然后从定义增加或者减弱图片对比度、高斯模糊、随机裁剪图片边长比例、仿射变换、改变颜色、归一化处理等中随机选择进行预处理操作，预处理操作对整个图片集进行图片增强，将经过图片增强后的图片集组合成图像张量、即腿部姿态图像，作为模型输入分为训练集和测试集。

S2：构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络（3DResNet），所述三维残差网络（3DResNet）用于提取图像特征并将提取到的图像特征输入到全连接层中，所述神经网络识别模型的全连接（Full Connection，FC）层中引入水平特征提取模块（Horizontal Feature Extraction，HFE），水平特征提取模块（HFE）可以提高模型的性能和泛化能力对提取到的图像特征进行局部特征提取。

（1）设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S+1个条带，被一个刻度划分的属于一种条带，一共个条带；本实施例中，S的取值根据实际情况确定。

（2）使用全局池化层作用域三维的条带提取一维特征，对每个条带z _s,t，t∈2²、2³、…、2^S+1表示条带在刻度中的索引，进行全局池化，计算方法为：

，

（3）将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。属于同一个刻度划分的所有条带为一种条带，每一种条带使用一种全连接，使用全连接层将特征映射到一个可描述的空间。

S3：通过平均教师（Mean-Teacher，MT）架构，使用所述训练集训练所述神经网络识别模型，达到预定的最大迭代次数或总损失函数收敛时得到训练完成的神经网络识别模型，所述平均教师架构包括学生模型和教师模型。训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型，训练过程中使用所述教师模型指导所述学生模型训练。所述学生模型通过前向传播生成预测结果，所述教师模型通过前向传播生成指导性的预测结果，通过模型间的知识传递提高学生模型性能。将训练完成的所述学生模型作为训练完成的神经网络识别模型。

训练所述神经网络识别模型时，对所述训练集中的数据进行两种不同的加噪声操作，将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。总损失函数的建立过程为：

（1）对所述训练集中有标签的数据加噪声η后输入所述学生模型，根据所述学生模型的预测结果计算交叉熵损失loss ₁；

（2）对所述训练集中无标签的数据加噪声η后输入所述学生模型，得到学生模型的预测结果；对所述训练集中无标签的数据加噪声η’后输入所述教师模型，得到教师模型的预测结果/>；

（3）将所述预测结果和/>的均方误差损失作为均方损失loss ₂，计算所述总损失函数L为：L=loss ₁+loss ₂。本实施例中，噪声η和噪声η’的取值根据实际情况确定。

学生模型的模型权重使用梯度下降法更新。教师模型的模型权重通过指数移动平均值更新，具体为结合所述学生模型的模型权重更新，更新公式为：

，

其中，为第t个迭代周期的教师模型的模型权重，/>为第t-1个迭代周期的教师模型的模型权重，/>第t个迭代周期的学生模型的模型权重，α为权重系数，本实施例中α取值为0.75。

S4：将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还公开了一种基于MT与三维残差网络的腿部识别方***，包括数据获取模块、模型构建模块、训练模块、识别模块。

数据获取模块用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集。模型构建模块用于构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取。训练模块用于通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型，所述平均教师架构包括学生模型和教师模型。识别模块用于将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的基于MT与三维残差网络的腿部识别方法。

本发明还公开了一种基于MT与三维残差网络的腿部识别设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于MT与三维残差网络的腿部识别方法。

与现有技术相比，本发明的优点有：

1、本发明针对腿部姿态图像，通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征，实现了对腿部姿态图像特征的有效提取，可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度。

2、本发明中采用了平均教师架构和三维残差网络结合的神经网络识别模型，兼具了半监督学习方法和三维卷积神经网络的优势。使得本发明在视频目标跟踪中具有一定的优势，可以利用未标记的视频序列进行训练，减少了对大量标注数据的需求，提高了识别模型的性能和泛化能力、提高鲁棒性。

3、3DResNet结构是全卷积网络结构，将3DResNet作为主干网络能够输入输出任意大小的结构，不用受限制于要输入相同大小的图片尺寸，可以在跟踪的时候使用全图作为输入去比较，找到目标的位置，保证目标不丢失。使用3DResNet作为主干网络能够捕捉视频序列中的时间和空间特征，可以提高对目标的识别能力。

因此，本发明可以在有限的标注数据和复杂的视频背景下进行有效的学习和推断，可以广泛应用于计算机视觉、图像处理和模式识别等领域，在视频处理领域中具有重要的应用潜力。

为了进一步说明本发明的有益效果，本实施例中分别采集正常步态、O形步态、X形步态的视频并使用本发明中的方法进行腿部姿态识别的仿真实验。图3是对采集到的视频进行增强后得到的图像集合的示意图。图4是本发明进行第一层特征提取后的示例图，图5是本发明进行最后一层特征提取后的示例图，从图4-5可以看出，经过引入水平特征提取模块后的全连接层，可以提取到更多的图像特征。图6-图8中亮度标注的分别是对正常步态、O形步态、X形步态的腿部姿态识别结果，从图6-图8可以看出，本发明可以有效识别出腿部姿态，并且可以适用于正常步态、O形步态、X形步态等不同的复杂情况，本发明的适用场景广泛。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于MT与三维残差网络的腿部识别方法，其特征在于，包括：

2.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法，其特征在于：所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取，具体为：

设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S ⁺¹个条带；

3.根据权利要求2所述的基于MT与三维残差网络的腿部识别方法，其特征在于：使用全局池化层对每个条带进行全局池化时，计算方法为：

，

4.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法，其特征在于：通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，所述学生模型通过前向传播生成预测结果，所述教师模型通过前向传播生成指导性的预测结果。

5.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法，其特征在于：通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，对所述训练集中的数据进行两种不同的加噪声操作，将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。

6.根据权利要求5所述的基于MT与三维残差网络的腿部识别方法，其特征在于：通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，总损失函数的建立过程为：

7.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法，其特征在于：所述学生模型的模型权重使用梯度下降法更新，所述教师模型的模型权重结合所述学生模型的模型权重更新，更新公式为：

，

8.一种基于MT与三维残差网络的腿部识别***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于MT与三维残差网络的腿部识别方法。

10.一种基于MT与三维残差网络的腿部识别设备，其特征在于：包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于MT与三维残差网络的腿部识别方法。