CN118053050A

CN118053050A - 一种用于动作识别的自适应分类决策面构建方法

Info

Publication number: CN118053050A
Application number: CN202410452748.9A
Authority: CN
Inventors: 周果清; 郑皓文; 王立东; 单敬; 王浩宇; 李雅诗; 李婧怡; 王庆; 王雪
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2024-04-16
Filing date: 2024-04-16
Publication date: 2024-05-17
Anticipated expiration: 2044-04-16
Also published as: CN118053050B

Abstract

本发明提供了一种用于动作识别的自适应分类决策面构建方法，使用动作样本的时空语义来引导构建先验决策面的类原型从而生成构建后验决策面的动作样本自适应类原型，使用先验和后验损失一起来指导决策面的优化。本发明增强了决策面中动作样本表征的可判别性。在训练的过程中循环对先验和后验的约束，既实现了先验的基准性与泛化性，又提升了后验的有效性与灵活性，保证了训练过程的稳定有序进行，达到了良好的分类效果。

Description

一种用于动作识别的自适应分类决策面构建方法

技术领域

本发明涉及动作识别任务中的动作表征可判别性研究技术领域，尤其是一种优化分类决策面来提升动作样本表征可判别性的方法。

背景技术

动作识别任务的性能取决于动作样本表征的可判别性，更具判别性的表征会带来更优的分类性能。以往的工作往往通过在特征级上改进特征编码方法来编码更具判别性的样本表征，而忽视了在决策级上分类决策面对于样本表征可判别性的绝对影响。直观上看，决策面的结构直接决定了表征的可判别性，一个更可分的决策面会增强其中样本表征的可判别性，反之亦然。

在以往的工作中，要么训练一个分类器来分类动作样本表征，要么计算动作样本表征与类原型之间的相似度作为分类度量。前者通过分类器隐式地学习了决策面，后者通过类原型显式地构建了决策面。他们都生成了对于所有动作样本来说共有且固定的决策面。然而，固定的决策面并非对于所有动作样本来说都是普遍可分的，特别是对那些在决策边界附近的困难样本，因此动作样本的可判别性在固定的决策面中并非是良好的，某些特定样本的可判别性甚至非常差。

发明内容

为了克服现有技术的不足，本发明提供一种用于动作识别的自适应分类决策面构建方法。为了提升动作样本在决策面中的可判别性，本发明提供一种后验的即动作样本自适应的分类决策面构建方法。鉴于现有分类决策面的瓶颈与局限，本发明认为每一个动作样本应该有其专属与自适应的决策面以此来优化其表征在决策面中的可判别性，因此设计一种遵循贝叶斯理论的基于先验决策面的后验决策面构建方法。本发明的关键设计在于两步：1.使用动作样本的时空语义来引导构建先验决策面的类原型从而生成构建后验决策面的动作样本自适应类原型，2.使用先验和后验损失一起来指导决策面的优化。本发明所提出的后验决策面相较于先验决策面来说对于动作样本表征的可分性更强，因此增强了决策面中动作样本表征的可判别性。

本发明解决其技术问题所采用的技术方案的具体步骤如下：

S1.构建先验分类决策面

S1.1 首先为每个动作类别创建类原型，设置类原型为可学习的嵌入， K为类别总数，为特征维数，并由类内样本的平均特征初始化，类原型在训练过程中学习动作类别的公共特征，并总结动作类别的共有模式，构建了分类决策面，类原型充当类别先验，构建先验分类决策面；

S1.2 使用先验决策面进行分类决策时，分类度量为动作样本表征与类原型之间的相似度，与动作样本表征Z相似度最大的类原型所对应的类别即为动作样本类别归属，先验决策面对于所有的动作样本来说，都是固定的因为学习得到的类原型，不会改变的；

S2.构建后验分类决策面

S2.1 使用动作样本的时空语义引导类原型生成动作样本自适应的类原型，根据贝叶斯原理后验先验似然，以步骤S1中构建先验决策面的类原型为先验，以表征在先验决策面中的动作样本特征为似然，其中T为时间帧数，为空间块数，生成动作样本自适应的类原型，构建了后验分类决策面，生成过程步骤如下：

首先对动作样本特征分别执行时间池化和空间池化，得到动作样本空间特征和动作样本时间特征，然后以动作样本空间特征为似然引导代表先验的类原型E，继而生成代表后验的自适应空间类原型，以动作样本时间特征为似然引导代表先验的类原型E，继而生成代表后验的自适应时间类原型，最后整合自适应空间类原型与自适应时间类原型，得到动作样本自适应的类原型；

S2.2 使用后验决策面进行分类决策时，分类度量为动作样本表征与自适应类原型之间的相似度，同样与动作样本表征Z相似度最大的自适应类原型所对应的类别即为样本类别归属，但后验决策面对于动作样本来说是特定且自适应的，因为是在动作样本时空语义的引导下生成的，其既保留了类别的公共模式，又兼容了动作样本特有的语义分布，从而构建了对动作样本来说更加适合且可分性更强的决策面，增强了动作样本表征在决策面中的可判别性，更加有利于识别；

S3.分类任务中的先验后验损失

S3.1 作为分类任务，最直接的评价指标是分类结果，因此使用交叉熵损失作为分类损失；

S3.2 后验决策面中真实类别对应的自适应原型应该更加显著，覆盖区域应该更大，因此应该使得真实类别对应的自适应原型显著区别于其他类别对应的自适应原型来指导后验决策面的生成，故设计后验损失，使得真实类别对应的自适应原型更加显著，后验决策面更加可分；

S3.3 为了确保先验类原型表示类别的公共特征，避免类别共有模式的丢失，应该稳定使其不受动作样本特殊性的干扰，设计先验损失，使得先验类原型与类内动作样本的平均特征相一致，使用先验损失指导模型进行训练，提升先验决策面的标准性和泛化性从而确保后验决策面的可行性与精度，进而使得分类精度更高，性能更优。

所述交叉熵损失为作为分类损失，其中为真实类别概率，为预测类别概率，真实类别概率Y指groundtruth，即数据集中给定的标签，是真实类别对应为 1，其余类别对应为0的一个向量，预测类别概率指的是根据Z与所有原型进行相似度计算所得到的相似度值，i=1,2,...,K，K个相似度形成一个向量，两个向量间的交叉熵损失即为。

所述步骤S3.2中，后验损失(1-cos())，其中为真实类别索引，为第个类别的自适应类原型，为第个类别的自适应类原型，为一个指标函数，当动作样本j的真是类别标签为一个位置为1其余位置为0的向量时，该公式值为1，否则为0，也就是说只对类别为i的动作样本进行平均计算，表示这个损失只是对真实类别所对应的自适应原型有用，其他类别的自适应原型不计算这项损失。

所述步骤S3.3中，先验损失，其中为第个类别的类原型，为第i个类别的类内样本的平均特征。

本发明的有益效果在于使用动作样本的时空语义引导类原型生成动作样本自适应的类原型，从而将固定的先验决策面优化为动作样本自适应的后验决策面，因此使得决策面对于动作样本来说更加适合且可分性更强，进而增强了动作样本表征在决策面中的可判别性，更加有利于提升动作识别任务的性能；设计了一种先验后验的交替共轭损失，在训练的过程中循环对先验和后验的约束，既实现了先验的基准性与泛化性，又提升了后验的有效性与灵活性，保证了训练过程的稳定有序进行，达到了良好的分类效果。

附图说明

图 1 为本发明的整体结构图。

图 2 为本发明提出的后验决策面和先验决策面的比较示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

一种用于动作识别的自适应分类决策面构建方法，包括步骤：

S1.构建先验分类决策面

S1.1 类原型为可学习的嵌入，为类别总数，为特征维数，并由类内动作样本的平均特征初始化，对于第个类别，，为动作样本，为样本真实类别，为样本总数，为第个类别的样本总数，类原型在训练过程中学习动作类别的公共特征并总结动作类别的共有模式，由于类原型在表征空间中表示一个类的中心，在表征空间中是基于类原型构建分类决策面的，通过样本表征与类原型之间的相似度进行分类决策。在本发明中类原型充当类别先验，构建了先验分类决策面；

S1.2 先验决策面进行分类决策的分类度量为动作样本表征Z与类原型E之间的相似度，动作样本隶属于类别i的概率为动作样本表征Z与类原型的相似度为，而与Z相似度最大的类原型的对应类别即为动作样本类别归属，由于E是学习得到的，因此E并不会随着动作样本的变化而变化，这也就意味着E构建的先验决策面对于所有的动作样本来说是固定不变的；

S2.构建后验分类决策面

S2.1 使用动作样本的时空语义引导类原型生成动作样本自适应的类原型，根据贝叶斯原理（后验先验似然），以S1中构建先验决策面的类原型为先验，以表征在先验决策面中的动作样本空间特征和动作样本时间特征为似然，其中T为时间帧数，为空间块数，生成代表后验的自适应空间类原型和自适应时间类原型，由和整合的动作样本自适应的类原型构建了后验分类决策面，这里使用交叉注意力机制来生成自适应的类原型，首先对动作样本特征分别执行时间池化和空间池化得到动作样本空间特征和动作样本时间特征，然后以类原型为查询，动作样本空间特征为键和值来生成自适应空间类原型，其中表示空间查询嵌入，指代空间类原型，表示空间键嵌入，指代样本空间表征，为一个缩放因子，实际上计算的是空间类原型与样本空间表征之间的相似度，这其实是先验类别概率，代表了贝叶斯中的先验，表示空间值嵌入，指代表征在先验决策面中的样本空间特征，代表了贝叶斯中的似然，生成的为自适应空间类原型，代表了贝叶斯中的后验，时间生成与空间类似，以类原型为查询，动作样本时间特征为键和值来生成自适应时间类原型其中表示时间查询嵌入，指代时间类原型，表示时间键嵌入，指代样本时间表征，是先验类别概率，代表了贝叶斯中的先验，表示时间值嵌入，指代表征在先验决策面中的样本时间特征，代表了贝叶斯中的似然，生成的为自适应时间类原型，代表了贝叶斯中的后验，最后整合自适应空间类原型与自适应时间类原型得到动作样本自适应的类原型，其中和为平衡时空项的参数，动作样本自适应类原型的生成过程如图1所示；

S2.2 后验决策面进行分类决策的分类度量为动作样本表征与自适应类原型之间的相似度，同样与相似度最大的自适应类原型所对应的类别即为样本类别归属，但后验决策面对于所有的动作样本来说是特定且自适应的，因为后验决策面是由自适应类原型构建的，是在动作样本时空语义的引导下生成的，在引导过程中，真实类别的自适应原型应该更显著，而其他类别的自适应原型应该不显著，因为前者从动作样本的时空语义中提取了更多的分类信息，提取了充分样本特定分类信息的自适应原型与样本表征之间的相似度应该大于其先验类原型与表征之间的相似度，反之亦然，因此动作样本表征与真实类别的自适应原型之间的相似度将增大，而与其他类别的自适应原型之间的相似度将减小，故构建了对动作样本来说更加适合且可分性更强的决策面，从而增强了动作样本表征在决策面中的可判别性，这更加有利于动作识别，先验决策面与后验决策面的分类效果对比如图2所示；

S3.分类任务中的先验后验损失

S3.1 作为分类任务，最直接的评价指标就是分类结果，因此使用交叉熵损失作为目标函数，其中为真实类别概率，为预测类别概率；

S3.2 后验决策面中真实类别对应的自适应原型应该比其他类别对应的自适应原型更加显著，在表征空间中的覆盖区域应该更大，因此应该使得其他类别对应的自适应原型显著区别于真实类别对应的自适应原型来指导后验决策面的生成，故设计后验损失(1-cos())来使得真实类别对应的自适应原型更加显著，其中为真实类别索引，使得后验决策面对动作样本更加可分，进一步增强动作样本表征在决策面中的可判别性；

S3.3 由于类原型是可学习的嵌入，并且仅用作先验来生成后验，因此在训练过程中可能会出现类原型漂移以及公共模式消失等问题，为了维护先验类原型中类别的公共特征并确保先验的正确性和有效性，应该稳定先验类原型使其不受动作样本特殊性的干扰，故设计先验损失来对先验类原型施加一致性约束以稳定先验，其中为第个类别的类内样本平均特征，这可以提升先验的标准性和泛化性从而确保后验的可行性与精度，具体而言，在每轮训练迭代之后，通过计算类内动作样本的平均特征来获得每个类别的聚类中心，然后使用L2损失来鼓励每个类原型更接近其对应类别的聚类中心，整个训练过程是通过交替迭代使用先验损失和后验损失来进行的。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于动作识别的自适应分类决策面构建方法，其特征在于包括下述步骤：

S1.构建先验分类决策面

S1.1 首先为每个动作类别创建类原型，设置类原型为可学习的嵌入，K为类别总数，为特征维数，并由类内样本的平均特征初始化，类原型在训练过程中学习动作类别的公共特征，并总结动作类别的共有模式，构建了分类决策面，类原型充当类别先验，构建先验分类决策面；

S1.2 使用先验决策面进行分类决策时，分类度量为动作样本表征与类原型之间的相似度，与动作样本表征Z相似度最大的类原型所对应的类别即为动作样本类别归属；

S2.构建后验分类决策面

首先对动作样本特征分别执行时间池化和空间池化，得到动作增强了样本空间特征和动作样本时间特征，然后以动作样本空间特征为似然引导代表先验的类原型E，继而生成代表后验的自适应空间类原型，以动作样本时间特征为似然引导代表先验的类原型E，继而生成代表后验的自适应时间类原型，最后整合自适应空间类原型与自适应时间类原型，得到动作样本自适应的类原型；

S2.2 使用后验决策面进行分类决策时，分类度量为动作样本表征与自适应类原型之间的相似度，同样与动作样本表征Z相似度最大的自适应类原型所对应的类别即为样本类别归属，但后验决策面对于动作样本来说是特定且自适应的，因为是在动作样本时空语义的引导下生成的，其既保留了类别的公共模式，又兼容了动作样本特有的语义分布，从而构建了对动作样本来说更加适合且可分性更强的决策面；

S3.分类任务中的先验后验损失

S3.2 设计后验损失，使得真实类别对应的自适应原型更加显著，后验决策面更加可分；

S3.3 为了确保先验类原型表示类别的公共特征，避免类别共有模式的丢失，应该稳定使其不受动作样本特殊性的干扰，设计先验损失，使得先验类原型与类内动作样本的平均特征相一致，使用先验损失指导模型进行训练，提升先验决策面的标准性和泛化性从而确保后验决策面的可行性与精度。

2.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法，其特征在于：

所述交叉熵损失为作为分类损失，其中为真实类别概率，为预测类别概率，真实类别概率Y指groundtruth，即数据集中给定的标签，是真实类别对应为1，其余类别对应为0的一个向量，预测类别概率指的是根据Z与所有原型进行相似度计算所得到的相似度值，i=1,2,...,K，K个相似度形成一个向量，两个向量间的交叉熵损失即为。

3.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法，其特征在于：

所述步骤S3.2中，后验损失(1-cos())，其中为真实类别索引，为第个类别为第i个类别的类内样本的平均特征的自适应类原型，为第个类别的自适应类原型，为一个指标函数，当动作样本j的真是类别标签为一个位置为1 其余位置为0的向量时，该公式值为1，否则为0，也就是说只对类别为i的动作样本进行平均计算，表示这个损失只是对真实类别所对应的自适应原型有用，其他类别的自适应原型不计算这项损失。

4.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法，其特征在于：