CN117237984A

CN117237984A - 基于标签一致性的mt腿部识别方法、***、介质和设备

Info

Publication number: CN117237984A
Application number: CN202311115847.XA
Authority: CN
Inventors: 钱琨; 宋校能; 后烜; 王仕庆
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-15
Anticipated expiration: 2043-08-31
Also published as: CN117237984B

Abstract

本发明涉及计算机视觉技术领域，公开一种基于标签一致性的MT腿部识别方法、***、介质和设备，包括：获取腿部姿态视频并预处理得到腿部姿态图像，分为训练集和测试集；构建神经网络识别模型，主干网络为用于提取图像特征并输入到全连接层中的三维残差网络，全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；通过平均教师架构训练识别模型，平均教师架构包括学生模型和教师模型，通过输出系数矩阵评估教师模型在特征空间中是否与学生模型一致；将测试集输入训练完成的识别模型得到识别结果。本发明可以降低数据集中的标签存在不平衡或偏斜时的影响、在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。

Description

基于标签一致性的MT腿部识别方法、***、介质和设备

技术领域

本发明涉及计算机视觉技术领域，尤其是指一种基于标签一致性的MT腿部识别方法、***、介质和设备。

背景技术

复杂环境下的腿部姿态识别是计算机视觉分类技术的重要组成部分，它对青少年时期的腿型及走路姿态校正有着关键作用，因此针对复杂环境下的腿部姿态识别的研究越来越得到了研究者的重视。

现有技术中有基于全卷积孪生网络的视频目标跟踪方法，该方法实现的具体步骤是：基于ImageNet2015数据库，利用预先在线学***衡或偏斜的问题，也会对腿部姿态的识别带来影响，进一步降低识别精度。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于标签一致性的MT腿部识别方法、***、介质和设备，可以降低数据集中的标签存在不平衡或偏斜时的影响、在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。

为解决上述技术问题，本发明提供了一种基于标签一致性的MT腿部识别方法，包括：

获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集；

构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；

通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型；所述平均教师架构包括学生模型和教师模型，通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致；训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型，训练过程中使用所述教师模型指导所述学生模型训练，将训练完成的所述学生模型作为训练完成的神经网络识别模型；

将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

在本发明的一个实施例中，所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取，具体为：

设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S+1个条带；

使用全局池化层对每个条带进行全局池化，将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。

在本发明的一个实施例中，使用全局池化层对每个条带进行全局池化时，计算方法为：

，

其中，z _s,t表示第s个刻度划分的第t个条带，s∈{1,2,…,S}，t∈{2²,2³,…,2^S+1}；表示全局池化后的第s个刻度划分的第t个条带，maxpool( )表示全局最大化池化操作，avgpool( )表示全局平局池化操作。

在本发明的一个实施例中，所述通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致，具体为：

将所述训练集中的数据x _i输入所述教师模型得到预测值，设置教师模型的硬目标/> ，/>表示使得/>取得最大值时所对应的变量点xi的集合，/>表示取预测得到的图像向量/>的第k个分量；

将所述训练集中的数据x _j输入所述学生模型得到预测值，设置学生模型的硬目标/>= />；

当且仅当=/>时，所述教师模型在特征空间中与所述学生模型一致。

在本发明的一个实施例中，通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，总损失函数的建立过程为：

根据所述学生模型的预测结果计算交叉熵损失loss ₁，结合所述学生模型的预测结果和教师模型的预测结果计算均方误差损失loss ₂；

将教师模型和学生模型的分类器f分解为g和h，其中，h为将输入x _i、x _j映射到更高感受野的映射函数，g为输出层，经过h映射后得到的特征图为h(x _i)、h(x _j)；

根据所述和/>构建系数矩阵W _ij，/>；结合所述h(x _i)、h(x _j)和W _ij构建相似度损失R _S为：

R _S ，

其中，D表示训练集，( )表示相似度函数，/>表示h(x _i)和h(x _j)的相似度；/>( )表示加权函数，/>表示对/>和W _ij进行加权；

计算所述总损失函数L为：L=loss ₁+loss ₂+R _S。

在本发明的一个实施例中，所述根据所述学生模型的预测结果计算交叉熵损失loss ₁，结合所述学生模型的预测结果和教师模型的预测结果计算均方误差损失loss ₂，具体为：

对所述训练集中有标签的数据加噪声η后输入所述学生模型，根据所述学生模型的预测结果计算交叉熵损失loss ₁；

对所述训练集中无标签的数据加噪声η后输入所述学生模型，得到学生模型的预测结果；对所述训练集中无标签的数据加噪声η’后输入所述教师模型，得到教师模型的预测结果/>，所述η和η’不相同；将所述预测结果/>和/>的均方误差作为均方误差损失loss ₂。

在本发明的一个实施例中，所述学生模型的模型权重使用梯度下降法更新，所述教师模型的模型权重结合所述学生模型的模型权重更新，更新公式为：

，

其中，为第t个迭代周期的教师模型的模型权重，/>第t个迭代周期的学生模型的模型权重，α为权重系数。

本发明还提供了一种基于标签一致性的MT腿部识别***，包括：

数据获取模块，用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集；

模型构建模块，用于构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取；

训练模块，用于通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型；所述平均教师架构包括学生模型和教师模型，通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致；

识别模块，用于将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还提供了一种计算机可读存储介质，该计算机程序被处理器执行时实现所述的基于标签一致性的MT腿部识别方法。

本发明还提供了一种基于标签一致性的MT腿部识别设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于标签一致性的MT腿部识别方法。

本发明的上述技术方案相比现有技术具有以下优点：

本发明针对腿部姿态图像，通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征，实现了对腿部姿态图像特征的有效提取；通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致，可以降低数据集中的标签存在不平衡或偏斜时的影响，从而充分利用有限的数据样本，在有限的数据样本下提高复杂环境下的腿部姿态识别精度；本发明在训练神经网络识别模型时采用平均教师架构，通过平均教师架构中学生模型和教师模型的作用提高了识别模型的性能和泛化能力。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明方法的流程图。

图2是本发明的结构示意图。

图3是本发明实施例中特征增强后的示意图。

图4是本发明实施例中第一层特征提取后的示例图。

图5是本发明实施例中最后一层特征提取后的示例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1-图2所示，本发明公开了一种基于标签一致性的MT腿部识别方法，包括以下步骤：

S1：获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集。

本实施例中，将获取的腿部姿态视频按帧拆分成图片集，然后从定义增加或者减弱图片对比度、高斯模糊、随机裁剪图片边长比例、仿射变换、改变颜色、归一化处理等中随机选择进行预处理操作，预处理操作对整个图片集进行图片增强，将经过图片增强后的图片集组合成图像张量、即腿部姿态图像，作为模型输入分为训练集和测试集。

S2：构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络（3DResNet），所述三维残差网络（3DResNet）用于提取图像特征并将提取到的图像特征输入到全连接层中，所述神经网络识别模型的全连接（Full Connection，FC）层中引入水平特征提取模块（Horizontal Feature Extraction，HFE），水平特征提取模块（HFE）可以提高模型的性能和泛化能力对提取到的图像特征进行局部特征提取。

所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取，具体为：

（1）设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S+1个条带，被一个刻度划分的属于一种条带，一共个条带；本实施例中，S的取值根据实际情况确定。

（2）使用全局池化层作用域三维的条带提取一维特征，对每个条带z _s,t，t∈2²、2³、…、2^S+1表示条带在刻度中的索引，进行全局池化，计算方法为：

，

（3）将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。属于同一个刻度划分的所有条带为一种条带，每一种条带使用一种全连接，使用全连接层将特征映射到一个可描述的空间。

S3：通过平均教师（Mean-Teacher，MT）架构，使用所述训练集训练所述神经网络识别模型，达到预定的最大迭代次数或总损失函数收敛时得到训练完成的神经网络识别模型，所述平均教师架构包括学生模型和教师模型。训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型，训练过程中使用所述教师模型指导所述学生模型训练。所述学生模型通过前向传播生成预测结果，所述教师模型通过前向传播生成指导性的预测结果，通过模型间的知识传递提高学生模型性能。将训练完成的所述学生模型作为训练完成的神经网络识别模型。

训练模型时，通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致，具体为：

将所述训练集中的数据x _i输入所述教师模型得到预测值，设置教师模型的硬目标/> ，/>表示使得/>取得最大值时所对应的变量点xi的集合，/>表示取预测得到的图像向量/>的第k个分量。将所述训练集中的数据x _j输入所述学生模型得到预测值/>，设置学生模型的硬目标=/>。当且仅当/>=/>时，所述教师模型在特征空间中与所述学生模型一致。k的取值根据实际情况确定，x _i和x _j可以相同、可以不同。

训练所述神经网络识别模型时，对所述训练集中的数据进行两种不同的加噪操作，将经过两种不同的加噪操作后的数据分别作为所述学生模型和教师模型的输入。总损失函数的建立过程为：

（1）对所述训练集中有标签的数据加噪声η后输入所述学生模型，根据所述学生模型的预测结果计算交叉熵损失loss _1。

（2）对所述训练集中无标签的数据加噪声η后输入所述学生模型，得到学生模型的预测结果；对所述训练集中无标签的数据加噪声η’后输入所述教师模型，得到教师模型的预测结果/>。将所述预测结果/>和/>的均方误差作为均方误差损失loss ₂。

（3）将教师模型和学生模型的分类器f分解为g和h，其中，h为将输入x _i、x _j映射到更高感受野的映射函数，g为输出层，g可以为带有softmax函数的全连接层；经过h映射后得到的特征图为h(x _i)、h(x_j)；本发明中，将h(x _i)和h(x_j)作为输入的特征图。通常，特征空间可近似为线性可分的，为近似类别相似度。h(x _i)和h(x_j)的欧氏距离比和/>的欧氏距离更合适作为判断是否相似时的参数。因此，本发明中使用h(x _i)和h(x_j)来引导特征空间中的特征图，以实现更好的相似点区分。

根据所述和/>构建系数矩阵W _ij，/>；结合所述h(x _i)、h(x_j)和W _ij构建相似度损失R_S为：

，

其中，D表示训练集，( )表示相似度函数，/>表示h(x _i)和h(x_j)的相似度，本实施例中相似度函数可以是欧氏距离或余弦相似度；/>( )表示加权函数，表示对/>和W _ij进行加权。

（4）计算所述总损失函数L为：L=loss ₁+loss ₂+R _S。本实施例中，总损失函数L还可以包含其他任务相关的损失项，例如分类损失或正则化项。

学生模型的模型权重使用梯度下降法更新。教师模型的模型权重通过指数移动平均值更新，具体为结合所述学生模型的模型权重更新，更新公式为：

，

其中，为第t个迭代周期的教师模型的模型权重，/>为第t-1个迭代周期的教师模型的模型权重，/>第t个迭代周期的学生模型的模型权重，α为权重系数，本实施例中α取值为0.75。

将总损失函数L作为平均教师架构训练时的损失函数，重复上述过程直到达到预设的最大迭代次数、或者总损失函数L收敛，将此时更新得到的学生模型的模型权重作为最终的权重，将最终的权重对应的学生模型作为训练完成的神经网络识别模型。

S4：将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还公开了一种基于标签一致性的MT腿部识别方***，包括数据获取模块、模型构建模块、训练模块、识别模块。

数据获取模块用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像，将腿部姿态图像分为训练集和测试集。模型构建模块用于构建神经网络识别模型，所述神经网络识别模型的主干网络为三维残差网络，所述三维残差网络用于提取图像特征并输入到全连接层中，所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取。训练模块用于通过平均教师架构，使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型；所述平均教师架构包括学生模型和教师模型，通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致。识别模块用于将所述测试集输入训练完成的神经网络识别模型，得到腿部姿态的识别结果。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的基于标签一致性的MT腿部识别方法。

本发明还公开了一种基于标签一致性的MT腿部识别设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于标签一致性的MT腿部识别方法。

与现有技术相比，本发明的优点有：

1、本发明针对腿部姿态图像，通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征，实现了对腿部姿态图像特征的有效提取，从而提高了复杂环境下的腿部姿态识别精度。

2、本发明通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致，可以降低数据集中的标签存在不平衡或偏斜时的影响，有助于识别模型更好地学习和识别类别。这样，学生模型可以逐渐从更可靠的目标中学习，从而充分利用有限的数据样本、缓解数据稀缺的问题，在有限的数据样本下提高复杂环境下的腿部姿态识别精度。

3、本发明中采用了平均教师架构和三维残差网络结合的识别模型，兼具了半监督学习方法和三维卷积神经网络的优势。使得本发明在视频目标跟踪中具有一定的优势，可以利用未标记的视频序列进行训练，减少了对大量标注数据的需求，提高了识别模型的性能和泛化能力、提高鲁棒性。

4、3DResNet结构是全卷积网络结构，将3DResNet作为主干网络能够输入输出任意大小的结构，不用受限制于要输入相同大小的图片尺寸，可以在跟踪的时候使用全图作为输入去比较，找到目标的位置，保证目标不丢失。使用3DResNet作为主干网络能够捕捉视频序列中的时间和空间特征，可以进一步提高对目标的识别能力。

因此，本发明可以在有限的标注数据和复杂的视频背景下进行有效的学习和推断，可以广泛应用于计算机视觉、图像处理和模式识别等领域，在视频处理领域中具有重要的应用潜力。

为了进一步说明本发明的有益效果，本实施例中使用本发明中的方法进行腿部姿态识别的仿真实验。图3是对采集到的视频进行增强后得到的图像集合的示意图。图3是原始图像，其中包含了腿部姿态的信息，但对于人眼来说并不直观。通过第一层特征提取，图4展示了经过初步处理后的特征图示意图。在图4中，可以观察到一些初步提取到的腿部姿态特征，例如腿部的轮廓、关节位置等，这些特征的可视化可以帮助我们更好地理解模型对于腿部姿态的学习和识别过程。在图5中，展示了经过最后一层特征提取后的示例图。尽管图5可能存在一定的模糊度，但仍能够呈现一些腿部姿态的关键特征。虽然图像的清晰度可能受到某些因素的影响，但仍可以观察到特征图呈现出更强烈和明确的腿部姿态特征，例如腿部的角度、弯曲程度等。这些特征的突出显示可以帮助更准确地分析和理解腿部姿态。尽管图5的清晰度可能有限，但仍可以通过其模糊的展示，初步理解模型在腿部姿态识别任务中对特定特征的学习和关注。这种特征图的变化和提取能够为腿部姿态识别提供更多的信息和洞察，从而达到更准确和可靠的腿部姿态识别效果。

因此，仿真实验证明了本发明确实可以提取到更加细化、精确的特征，从而提高腿部姿态识别的准确性和鲁棒性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于标签一致性的MT腿部识别方法，其特征在于，包括：

2.根据权利要求1所述的基于标签一致性的MT腿部识别方法，其特征在于：所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取，具体为：

设置所述水平特征提取模块的S个刻度，S个刻度的长度分别为1、2、…、S；提取到的图像特征经过所述水平特征提取模块中的每个刻度时，分别在高度维度被划分为2²、2³、…、2^S ⁺¹个条带；

3.根据权利要求2所述的基于标签一致性的MT腿部识别方法，其特征在于：使用全局池化层对每个条带进行全局池化时，计算方法为：

，

4.根据权利要求1所述的基于标签一致性的MT腿部识别方法，其特征在于：所述通过输出系数矩阵评估所述教师模型在特征空间中是否与所述学生模型一致，具体为：

将所述训练集中的数据x _i输入所述教师模型得到预测值，设置教师模型的硬目标，/>表示使得/>取得最大值时所对应的变量点xi的集合，/>表示取预测得到的图像向量/>的第k个分量；

将所述训练集中的数据x _j输入所述学生模型得到预测值，设置学生模型的硬目标= />；

5.根据权利要求4所述的基于标签一致性的MT腿部识别方法，其特征在于：通过平均教师架构，使用所述训练集训练所述神经网络识别模型时，总损失函数的建立过程为：

R _S ，

计算所述总损失函数L为：L=loss ₁+loss ₂+R _S。

6.根据权利要求5所述的基于标签一致性的MT腿部识别方法，其特征在于：所述根据所述学生模型的预测结果计算交叉熵损失loss ₁，结合所述学生模型的预测结果和教师模型的预测结果计算均方误差损失loss ₂，具体为：

7.根据权利要求1所述的基于标签一致性的MT腿部识别方法，其特征在于：所述学生模型的模型权重使用梯度下降法更新，所述教师模型的模型权重结合所述学生模型的模型权重更新，更新公式为：

，

8.一种基于标签一致性的MT腿部识别***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于标签一致性的MT腿部识别方法。

10.一种基于标签一致性的MT腿部识别设备，其特征在于：包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于标签一致性的MT腿部识别方法。