CN116824640A - 基于mt与三维残差网络的腿部识别方法、***、介质和设备 - Google Patents
基于mt与三维残差网络的腿部识别方法、***、介质和设备 Download PDFInfo
- Publication number
- CN116824640A CN116824640A CN202311087438.3A CN202311087438A CN116824640A CN 116824640 A CN116824640 A CN 116824640A CN 202311087438 A CN202311087438 A CN 202311087438A CN 116824640 A CN116824640 A CN 116824640A
- Authority
- CN
- China
- Prior art keywords
- model
- leg
- neural network
- teacher
- dimensional residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000005021 gait Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,公开一种基于MT与三维残差网络的腿部识别方法、***、介质和设备,包括:获取腿部姿态视频并进行数据预处理得到腿部姿态图像,分为训练集和测试集;构建神经网络识别模型,识别模型的主干网络为三维残差网络,三维残差网络用于提取图像特征并输入到全连接层中,识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取;通过平均教师架构训练识别模型,平均教师架构包括学生模型和教师模型;将测试集输入训练完成的神经网络识别模型得到腿部姿态的识别结果。本发明可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其是指一种基于MT与三维残差网络的腿部识别方法、***、介质和设备。
背景技术
复杂环境下的腿部姿态识别是计算机视觉分类技术的重要组成部分,它对青少年时期的腿型及走路姿态校正有着关键作用,因此针对复杂环境下的腿部姿态识别的研究越来越得到了研究者的重视。
现有技术中有基于全卷积孪生网络的视频目标跟踪方法,该方法实现的具体步骤是:基于ImageNet2015数据库,利用预先在线学习的方法,训练一个神经网络来解决生成式的相似性学习的问题,这个相似度匹配函数在跟踪的过程中简单的进行评价;然后,利用预训练后的深度卷积网络作为特征编码器,提高跟踪性能。现有技术中还有使用机器学习、或神经网络等模型对腿部姿态进行识别的做法,但是,这些方法的识别效果都十分依赖数据集,在有限的有标注数据样本下、特别是在复杂环境下的腿部姿态识别中,无法得到准确的识别结果,适用范围有限。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种基于MT与三维残差网络的腿部识别方法、***、介质和设备,可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度、提高泛化能力。
为解决上述技术问题,本发明提供了一种基于MT与三维残差网络的腿部识别方法,包括:
获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集;
构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络,所述三维残差网络用于提取图像特征并输入到全连接层中,所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取;
通过平均教师架构,使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型;训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型,训练过程中使用所述教师模型指导所述学生模型训练,将训练完成的所述学生模型作为训练完成的神经网络识别模型;
将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
在本发明的一个实施例中,所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取,具体为:
设置所述水平特征提取模块的S个刻度,S个刻度的长度分别为1、2、…、S;提取到的图像特征经过所述水平特征提取模块中的每个刻度时,分别在高度维度被划分为22、23、…、2 S+1个条带;
使用全局池化层对每个条带进行全局池化,将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。
在本发明的一个实施例中,使用全局池化层对每个条带进行全局池化时,计算方法为:
,
其中,z s,t 表示第s个刻度划分的第t个条带,s∈{1,2,…,S},t∈{22,23,…,2 S+1};表示全局池化后的第s个刻度划分的第t个条带,maxpool( )表示全局最大化池化操作,avgpool( )表示全局平局池化操作。
在本发明的一个实施例中,通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,所述学生模型通过前向传播生成预测结果,所述教师模型通过前向传播生成指导性的预测结果。
在本发明的一个实施例中,通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,对所述训练集中的数据进行两种不同的加噪声操作,将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。
在本发明的一个实施例中,通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,总损失函数的建立过程为:
对所述训练集中有标签的数据加噪声η后输入所述学生模型,根据所述学生模型的预测结果计算交叉熵损失loss 1 ;
对所述训练集中无标签的数据加噪声η后输入所述学生模型,得到学生模型的预测结果;对所述训练集中无标签的数据加噪声η’后输入所述教师模型,得到教师模型的预测结果/>;
将所述预测结果和/>的均方误差损失作为均方损失loss 2 ,计算所述总损失函数L为:L=loss 1 +loss 2 。
在本发明的一个实施例中,所述学生模型的模型权重使用梯度下降法更新,所述教师模型的模型权重结合所述学生模型的模型权重更新,更新公式为:
,
其中,为第t个迭代周期的教师模型的模型权重,/>第t个迭代周期的学生模型的模型权重,α为权重系数。
本发明还提供了一种基于MT与三维残差网络的腿部识别***,包括:
数据获取模块,用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集;
模型构建模块,用于构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络,所述三维残差网络用于提取图像特征并输入到全连接层中,所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取;
训练模块,用于通过平均教师架构,使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型;
识别模块,用于将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
本发明还提供了一种计算机可读存储介质,该计算机程序被处理器执行时实现所述的基于MT与三维残差网络的腿部识别方法。
本发明还提供了一种基于MT与三维残差网络的腿部识别设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于MT与三维残差网络的腿部识别方法。
本发明的上述技术方案相比现有技术具有以下优点:
本发明针对腿部姿态图像,通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征,实现了对腿部姿态图像特征的有效提取,可以在有限的数据样本下提高复杂环境下的腿部姿态识别的精度;同时,本发明在训练神经网络识别模型时采用平均教师架构,通过平均教师架构中学生模型和教师模型的作用提高了识别模型的性能和泛化能力。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明方法的流程图。
图2是本发明的结构示意图。
图3是本发明实施例中特征增强后的示意图。
图4是本发明实施例中第一层特征提取后的示例图。
图5是本发明实施例中最后一层特征提取后的示例图。
图6是本发明实施例中对正常步态的识别示意图。
图7是本发明实施例中对O形步态的识别示意图。
图8是本发明实施例中对X形步态的识别示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图2所示,本发明公开了一种基于MT与三维残差网络的腿部识别方法,包括以下步骤:
S1:获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集。
本实施例中,将获取的腿部姿态视频按帧拆分成图片集,然后从定义增加或者减弱图片对比度、高斯模糊、随机裁剪图片边长比例、仿射变换、改变颜色、归一化处理等中随机选择进行预处理操作,预处理操作对整个图片集进行图片增强,将经过图片增强后的图片集组合成图像张量、即腿部姿态图像,作为模型输入分为训练集和测试集。
S2:构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络(3DResNet),所述三维残差网络(3DResNet)用于提取图像特征并将提取到的图像特征输入到全连接层中,所述神经网络识别模型的全连接(Full Connection,FC)层中引入水平特征提取模块(Horizontal Feature Extraction,HFE),水平特征提取模块(HFE)可以提高模型的性能和泛化能力对提取到的图像特征进行局部特征提取。
(1)设置所述水平特征提取模块的S个刻度,S个刻度的长度分别为1、2、…、S;提取到的图像特征经过所述水平特征提取模块中的每个刻度时,分别在高度维度被划分为22、23、…、2 S+1个条带,被一个刻度划分的属于一种条带,一共个条带;本实施例中,S的取值根据实际情况确定。
(2)使用全局池化层作用域三维的条带提取一维特征,对每个条带z s,t ,t∈22、23、…、2 S+1表示条带在刻度中的索引,进行全局池化,计算方法为:
,
其中,z s,t 表示第s个刻度划分的第t个条带,s∈{1,2,…,S},t∈{22,23,…,2 S+1};表示全局池化后的第s个刻度划分的第t个条带,maxpool( )表示全局最大化池化操作,avgpool( )表示全局平局池化操作。
(3)将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。属于同一个刻度划分的所有条带为一种条带,每一种条带使用一种全连接,使用全连接层将特征映射到一个可描述的空间。
S3:通过平均教师(Mean-Teacher,MT)架构,使用所述训练集训练所述神经网络识别模型,达到预定的最大迭代次数或总损失函数收敛时得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型。训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型,训练过程中使用所述教师模型指导所述学生模型训练。所述学生模型通过前向传播生成预测结果,所述教师模型通过前向传播生成指导性的预测结果,通过模型间的知识传递提高学生模型性能。将训练完成的所述学生模型作为训练完成的神经网络识别模型。
训练所述神经网络识别模型时,对所述训练集中的数据进行两种不同的加噪声操作,将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。总损失函数的建立过程为:
(1)对所述训练集中有标签的数据加噪声η后输入所述学生模型,根据所述学生模型的预测结果计算交叉熵损失loss 1 ;
(2)对所述训练集中无标签的数据加噪声η后输入所述学生模型,得到学生模型的预测结果;对所述训练集中无标签的数据加噪声η’后输入所述教师模型,得到教师模型的预测结果/>;
(3)将所述预测结果和/>的均方误差损失作为均方损失loss 2 ,计算所述总损失函数L为:L=loss 1 +loss 2 。本实施例中,噪声η和噪声η’的取值根据实际情况确定。
学生模型的模型权重使用梯度下降法更新。教师模型的模型权重通过指数移动平均值更新,具体为结合所述学生模型的模型权重更新,更新公式为:
,
其中,为第t个迭代周期的教师模型的模型权重,/>为第t-1个迭代周期的教师模型的模型权重,/>第t个迭代周期的学生模型的模型权重,α为权重系数,本实施例中α取值为0.75。
S4:将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
本发明还公开了一种基于MT与三维残差网络的腿部识别方***,包括数据获取模块、模型构建模块、训练模块、识别模块。
数据获取模块用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集。模型构建模块用于构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络,所述三维残差网络用于提取图像特征并输入到全连接层中,所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取。训练模块用于通过平均教师架构,使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型。识别模块用于将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于MT与三维残差网络的腿部识别方法。
本发明还公开了一种基于MT与三维残差网络的腿部识别设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于MT与三维残差网络的腿部识别方法。
与现有技术相比,本发明的优点有:
1、本发明针对腿部姿态图像,通过结合使用三维残差网络作为主干网络、在全连接层中引入水平特征提取模块提取局部特征,实现了对腿部姿态图像特征的有效提取,可以在有限的数据样本下提高复杂环境下的腿部姿态识别精度。
2、本发明中采用了平均教师架构和三维残差网络结合的神经网络识别模型,兼具了半监督学习方法和三维卷积神经网络的优势。使得本发明在视频目标跟踪中具有一定的优势,可以利用未标记的视频序列进行训练,减少了对大量标注数据的需求,提高了识别模型的性能和泛化能力、提高鲁棒性。
3、3DResNet结构是全卷积网络结构,将3DResNet作为主干网络能够输入输出任意大小的结构,不用受限制于要输入相同大小的图片尺寸,可以在跟踪的时候使用全图作为输入去比较,找到目标的位置,保证目标不丢失。使用3DResNet作为主干网络能够捕捉视频序列中的时间和空间特征,可以提高对目标的识别能力。
因此,本发明可以在有限的标注数据和复杂的视频背景下进行有效的学习和推断,可以广泛应用于计算机视觉、图像处理和模式识别等领域,在视频处理领域中具有重要的应用潜力。
为了进一步说明本发明的有益效果,本实施例中分别采集正常步态、O形步态、X形步态的视频并使用本发明中的方法进行腿部姿态识别的仿真实验。图3是对采集到的视频进行增强后得到的图像集合的示意图。图4是本发明进行第一层特征提取后的示例图,图5是本发明进行最后一层特征提取后的示例图,从图4-5可以看出,经过引入水平特征提取模块后的全连接层,可以提取到更多的图像特征。图6-图8中亮度标注的分别是对正常步态、O形步态、X形步态的腿部姿态识别结果,从图6-图8可以看出,本发明可以有效识别出腿部姿态,并且可以适用于正常步态、O形步态、X形步态等不同的复杂情况,本发明的适用场景广泛。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于MT与三维残差网络的腿部识别方法,其特征在于,包括:
获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集;
构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络,所述三维残差网络用于提取图像特征并输入到全连接层中,所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取;
通过平均教师架构,使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型;训练前初始的所述学生模型和教师模型均为构建的所述神经网络识别模型,训练过程中使用所述教师模型指导所述学生模型训练,将训练完成的所述学生模型作为训练完成的神经网络识别模型;
将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
2.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法,其特征在于:所述全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取,具体为:
设置所述水平特征提取模块的S个刻度,S个刻度的长度分别为1、2、…、S;提取到的图像特征经过所述水平特征提取模块中的每个刻度时,分别在高度维度被划分为22、23、…、2 S +1个条带;
使用全局池化层对每个条带进行全局池化,将全局池化后的属于同一个刻度划分的所有条带分别输入全连接层得到多个维度的局部特征。
3.根据权利要求2所述的基于MT与三维残差网络的腿部识别方法,其特征在于:使用全局池化层对每个条带进行全局池化时,计算方法为:
,
其中,z s,t 表示第s个刻度划分的第t个条带,s∈{1,2,…,S},t∈{22,23,…,2 S+1};表示全局池化后的第s个刻度划分的第t个条带,maxpool( )表示全局最大化池化操作,avgpool( )表示全局平局池化操作。
4.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法,其特征在于:通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,所述学生模型通过前向传播生成预测结果,所述教师模型通过前向传播生成指导性的预测结果。
5.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法,其特征在于:通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,对所述训练集中的数据进行两种不同的加噪声操作,将经过两种不同的加噪声操作后的数据分别作为所述学生模型和教师模型的输入。
6.根据权利要求5所述的基于MT与三维残差网络的腿部识别方法,其特征在于:通过平均教师架构,使用所述训练集训练所述神经网络识别模型时,总损失函数的建立过程为:
对所述训练集中有标签的数据加噪声η后输入所述学生模型,根据所述学生模型的预测结果计算交叉熵损失loss 1 ;
对所述训练集中无标签的数据加噪声η后输入所述学生模型,得到学生模型的预测结果;对所述训练集中无标签的数据加噪声η’后输入所述教师模型,得到教师模型的预测结果/>;
将所述预测结果和/>的均方误差损失作为均方损失loss 2 ,计算所述总损失函数L为:L=loss 1 +loss 2 。
7.根据权利要求1所述的基于MT与三维残差网络的腿部识别方法,其特征在于:所述学生模型的模型权重使用梯度下降法更新,所述教师模型的模型权重结合所述学生模型的模型权重更新,更新公式为:
,
其中,为第t个迭代周期的教师模型的模型权重,/>第t个迭代周期的学生模型的模型权重,α为权重系数。
8.一种基于MT与三维残差网络的腿部识别***,其特征在于,包括:
数据获取模块,用于获取腿部姿态视频并进行数据预处理得到腿部姿态图像,将腿部姿态图像分为训练集和测试集;
模型构建模块,用于构建神经网络识别模型,所述神经网络识别模型的主干网络为三维残差网络,所述三维残差网络用于提取图像特征并输入到全连接层中,所述神经网络识别模型的全连接层中引入水平特征提取模块对提取到的图像特征进行局部特征提取;
训练模块,用于通过平均教师架构,使用所述训练集训练所述神经网络识别模型得到训练完成的神经网络识别模型,所述平均教师架构包括学生模型和教师模型;
识别模块,用于将所述测试集输入训练完成的神经网络识别模型,得到腿部姿态的识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于MT与三维残差网络的腿部识别方法。
10.一种基于MT与三维残差网络的腿部识别设备,其特征在于:包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于MT与三维残差网络的腿部识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087438.3A CN116824640B (zh) | 2023-08-28 | 2023-08-28 | 基于mt与三维残差网络的腿部识别方法、***、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087438.3A CN116824640B (zh) | 2023-08-28 | 2023-08-28 | 基于mt与三维残差网络的腿部识别方法、***、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116824640A true CN116824640A (zh) | 2023-09-29 |
CN116824640B CN116824640B (zh) | 2023-12-01 |
Family
ID=88116976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087438.3A Active CN116824640B (zh) | 2023-08-28 | 2023-08-28 | 基于mt与三维残差网络的腿部识别方法、***、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824640B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN113488023A (zh) * | 2021-07-07 | 2021-10-08 | 合肥讯飞数码科技有限公司 | 一种语种识别模型构建方法、语种识别方法 |
CN113505719A (zh) * | 2021-07-21 | 2021-10-15 | 山东科技大学 | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法 |
CN114077892A (zh) * | 2020-08-14 | 2022-02-22 | ***通信有限公司研究院 | 人体骨骼序列提取及训练方法、装置和存储介质 |
CN114140876A (zh) * | 2021-11-24 | 2022-03-04 | 华中师范大学 | 一种课堂实时人体动作识别方法、计算机设备及可读介质 |
CN114332553A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
CN116508099A (zh) * | 2020-10-29 | 2023-07-28 | 杜比实验室特许公司 | 基于深度学习的语音增强 |
-
2023
- 2023-08-28 CN CN202311087438.3A patent/CN116824640B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN114077892A (zh) * | 2020-08-14 | 2022-02-22 | ***通信有限公司研究院 | 人体骨骼序列提取及训练方法、装置和存储介质 |
CN116508099A (zh) * | 2020-10-29 | 2023-07-28 | 杜比实验室特许公司 | 基于深度学习的语音增强 |
CN113488023A (zh) * | 2021-07-07 | 2021-10-08 | 合肥讯飞数码科技有限公司 | 一种语种识别模型构建方法、语种识别方法 |
CN113505719A (zh) * | 2021-07-21 | 2021-10-15 | 山东科技大学 | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法 |
CN114332553A (zh) * | 2021-11-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
CN114140876A (zh) * | 2021-11-24 | 2022-03-04 | 华中师范大学 | 一种课堂实时人体动作识别方法、计算机设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116824640B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105678284B (zh) | 一种固定位人体行为分析方法 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
CN109948741A (zh) | 一种迁移学习方法及装置 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、***及存储介质 | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及*** | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN113111716A (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN115359074A (zh) | 基于超体素聚类及原型优化的图像分割、训练方法及装置 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN112489088A (zh) | 一种基于记忆单元的孪生网络视觉跟踪方法 | |
CN114118303B (zh) | 基于先验约束的人脸关键点检测方法及装置 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及*** | |
CN104200222B (zh) | 一种基于因子图模型的图片中对象识别方法 | |
CN116740362A (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及*** | |
CN116824640B (zh) | 基于mt与三维残差网络的腿部识别方法、***、介质和设备 | |
Zhang et al. | Digital instruments recognition based on PCA-BP neural network | |
Cetindag et al. | Transfer Learning Methods for Using Textural Features in Histopathological Image Classification | |
CN113658231B (zh) | 光流预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |