CN112153370B

CN112153370B - 基于群敏感对比回归的视频动作质量评价方法及***

Info

Publication number: CN112153370B
Application number: CN202010857886.7A
Authority: CN
Inventors: 鲁继文; 周杰; 饶永铭; 于旭敏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-12-24
Anticipated expiration: 2040-08-24
Also published as: CN112153370A

Abstract

本发明公开了一种基于群敏感对比回归的视频动作质量评价方法及***，其中，该方法包括：根据当前视频选择对应的示例视频和示例视频得分；利用深度学习模型分别对当前视频和示例视频进行时空特征提取，并构造合并特征；构建群敏感回归树网络，对合并特征进行回归，得到最终差异分数，并将最终差异分数与示例视频得分结合，得到当前视频分数。该方法通过建模目标动作与示例动作的差距，从而得到最后的目标动作得分，提高了模型的动作质量评价准确度。

Description

基于群敏感对比回归的视频动作质量评价方法及***

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及一种基于群敏感对比回归的视频动作质量评价方法及***。

背景技术

视频动作质量评价(Action Qaulity Assessment,AQA)旨在评估特定动作的执行情况，近年来受到越来越多的关注，因为它在许多现实世界的应用中(包括体育和医疗保健)都起着至关重要的作用。与动作检测与识别等常规动作分析任务不同，AQA更具挑战性，因为它需要从包含相同类别动作的视频中预测细粒度得分。考虑到不同视频本身的差异与其动作得分之间的差异，我们认为解决此问题的关键是发现视频之间的差异并根据差异预测得分。

近年来，大多数基于回归算法进行，其中分数是从单个视频直接预测的。尽管取得了一些可喜的成果，但AQA仍然面临两个挑战：首先，由于分数标签通常由人类法官注释(如，潜水比赛的分数是通过汇总来自不同法官的分数来计算的)，因此对法官的主观评估很难进行准确的分数预测；其次，用于AQA任务的视频之间的差异非常小，因为演员通常在相似的环境中执行相同的动作。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于群敏感对比回归的视频动作质量评价方法，该方法提高了模型的动作质量评价准确度。

本发明的另一个目的在于提出一种基于群敏感对比回归的视频动作质量评价***。

为达到上述目的，本发明一方面实施例提出了基于群敏感对比回归的视频动作质量评价方法，包括以下步骤：步骤S1，根据当前视频选择对应的示例视频和示例视频得分；步骤S2，利用深度学习模型分别对所述当前视频和所述示例视频进行时空特征提取，并构造合并特征；步骤S3，构建群敏感回归树网络，对所述合并特征进行回归，得到最终差异分数，并将所述最终差异分数与所述示例视频得分结合，得到当前视频分数。

本发明实施例的基于群敏感对比回归的视频动作质量评价方法，提出对比回归的学习方法，将动作质量评价问题建模成回归当前视频与示例视频分数差异的回归问题，提高了模型的动作质量评价准确度；同时构建了一种群敏感的回归树结构，将传统的分数回归转换为两个更简单的子问题：从粗到精细分类和小区间回归，提高了回归器的可解释性与评价能力。

另外，根据本发明上述实施例的基于群敏感对比回归的视频动作质量评价方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S2包括：将所述当前视频和所述示例视频分别经过所述深度学习模型进行时空信息编码，并在特征维度对所述当前视频和所述示例视频进行拼接，并加入所述示例视频得分，一同构成所述合并特征。

进一步地，在本发明的一个实施例中，所述群敏感回归树网络中每个叶子节点代表一个预设差异分数区间，且每个区间内的样本均衡。

进一步地，在本发明的一个实施例中，所述群敏感回归树网络中对每个叶子节点进行群敏感分析，得到分类概率与组内相对位置。

为达到上述目的，本发明另一方面实施例提出了基于群敏感对比回归的视频动作质量评价***，包括：选择模块，用于根据当前视频选择对应的示例视频和示例视频得分；提取模块，用于利用深度学习模型分别对所述当前视频和所述示例视频进行时空特征提取，并构造合并特征；回归与分数结合模块，构建群敏感回归树网络，对所述合并特征进行回归，得到最终差异分数，并将所述最终差异分数与所述示例视频得分结合，得到当前视频分数。

本发明实施例的基于群敏感对比回归的视频动作质量评价***，提出对比回归的学习方法，将动作质量评价问题建模成回归当前视频与示例视频分数差异的回归问题，提高了模型的动作质量评价准确度；同时构建了一种群敏感的回归树结构，将传统的分数回归转换为两个更简单的子问题：从粗到精细分类和小区间回归，提高了回归器的可解释性与评价能力。

另外，根据本发明上述实施例的基于群敏感对比回归的视频动作质量评价***还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述提取模块具体用于：将所述当前视频和所述示例视频分别经过所述深度学习模型进行时空信息编码，并在特征维度对所述当前视频和所述示例视频进行拼接，并加入所述示例视频得分，一同构成所述合并特征。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于群敏感对比回归的视频动作质量评价方法流程图；

图2为根据本发明一个实施例的基于群敏感对比回归的视频动作质量评价方法的具体工作流程图；

图3为根据本发明一个实施例的群敏感回归树结构图；

图4为根据本发明一个实施例的基于群敏感对比回归的视频动作质量评价***结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明将AQA问题重新建模为参考具有相同属性(如同种类运动或具有相同难度级别的视频)的其他视频来回归差异得分，而不是直接学习预测未知的分数。通过引入用于评分预测的示例，回归器将参考人类裁判给出的已知评分，并鼓励其根据当前视频和示例之间的细微差异来预测当前视频评分。

下面参照附图描述根据本发明实施例提出的基于群敏感对比回归的视频动作质量评价方法及***，首先将参照附图描述根据本发明实施例提出的基于群敏感对比回归的视频动作质量评价方法。

图1是本发明一个实施例的基于群敏感对比回归的视频动作质量评价方法流程图。

如图1所示，该基于群敏感对比回归的视频动作质量评价方法包括以下步骤：

在步骤S1中，根据当前视频选择对应的示例视频和示例视频得分。

具体地，获取当前输入视频，针对当前输入视频选择对应的示例视频和该示例视频的得分，为后面的计算做准备。

在步骤S2中，利用深度学习模型分别对当前视频和示例视频进行时空特征提取，并构造合并特征。

进一步地，在本发明的一个实施例中，步骤S2包括：

将当前视频和示例视频分别经过深度学习模型进行时空信息编码，并在特征维度对当前视频和示例视频进行拼接，并加入示例视频得分，一同构成合并特征。

具体地，如图2所示，为建模当前视频与目标视频之间的对比差异信息，本发明实施例分别将两段视频输入预训练的深度学习模型(如I3D)进行时空信息编码，提取当前输入视频的时空特征的f₁，提取示例视频的时空特征f₂(提取过程中当前输入视频和示例视频之间互相分享权重)，在特征维度对当前视频和示例视频进行拼接，同时，在拼接时加入示例视频得分，最终获得合并特征。

需要说明的是，训练时，对于每一个当前视频，本发明会随机在符合条件的示例视频中选择一个视频进行对比回归。在测试时，本发明会随机选择N个满足条件的示例视频，逐个进行对比回归，最后将N个评价结果进行平均，从而得到最后的预测评价结果。

在步骤S3中，构建群敏感回归树网络，对合并特征进行回归，得到最终差异分数，并将最终差异分数与示例视频得分结合，得到当前视频分数。

进一步地，在本发明的一个实施例中，群敏感回归树网络中每个叶子节点代表一个预设差异分数区间，且每个区间内的样本均衡。

进一步地，在本发明的一个实施例中，群敏感回归树网络中对每个叶子节点进行群敏感分析，得到分类概率与组内相对位置。

具体地，如图3所示，为符合对比本质，且提高深度学习模型的可解释性，本发明实施例设计了形如二叉树的回归树网络，即群敏感回归树网络，将步骤S2中的合并特征输入群敏感回归树网络进行回归，可以得到差异分数。

进一步地，如图2所示，获得差异分数后，首先将差异分数的全区间进行分配，让回归树的每一个叶子节点都代表一个特定的差异分数区间，且保证每一个区间内的样本均衡。对于回归树的每一个节点，都在进行一次差异分数与节点的阈值比较，结果是一个二分类，即“大于”或“小于”。每一层的分流概率进行累乘，便可以得到一个最终的叶子节点的概率。取出最大概率的叶子节点，便可以将差异分数由全区间约束到一个特定的子区间中。最后在进行小区间内的分数回归，便可以得到最后的差异分数。

最后，通过回归树各叶子节点的输出，回归得到视频对分数差，结合示例视频得分，最终得到精确的当前视频分数。

本发明实施例提出的基于群敏感对比回归的视频动作质量评价方法，基于度量学习文献中的对比学习策略(contrastivelearning)，提出对比回归的学习方法，将动作质量评价问题建模成回归当前视频与示例视频分数差异的回归问题，提高了模型的动作质量评价准确度；同时构建了一种群敏感的回归树结构，将传统的分数回归转换为两个更简单的子问题：从粗到精细分类和小区间回归，提高了回归器的可解释性与评价能力。

其次参照附图描述根据本发明实施例提出的基于群敏感对比回归的视频动作质量评价***。

图4是本发明一个实施例的基于群敏感对比回归的视频动作质量评价***的结构示意图。

如图4所示，该***10包括：选择模块100、提取模块200和回归与分数结合模块300。

其中，选择模块100用于根据当前视频选择对应的示例视频和示例视频得分。提取模块200用于利用深度学习模型分别对当前视频和示例视频进行时空特征提取，并构造合并特征。回归与分数结合模块300用于构建群敏感回归树网络，对合并特征进行回归，得到最终差异分数，并将最终差异分数与示例视频得分结合，得到当前视频分数。

进一步地，在本发明的一个实施例中，提取模块具体用于：将当前视频和示例视频分别经过深度学习模型进行时空信息编码，并在特征维度对当前视频和示例视频进行拼接，并加入示例视频得分，一同构成合并特征。

根据本发明实施例提出的基于群敏感对比回归的视频动作质量评价***，基于度量学习文献中的对比学习策略，提出对比回归的学习方法，将动作质量评价问题建模成回归当前视频与示例视频分数差异的回归问题，提高了模型的动作质量评价准确度；同时构建了一种群敏感的回归树结构，将传统的分数回归转换为两个更简单的子问题：从粗到精细分类和小区间回归，提高了回归器的可解释性与评价能力。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于群敏感对比回归的视频动作质量评价方法，其特征在于，包括以下步骤：

步骤S1，根据当前视频选择对应的示例视频和示例视频得分；

步骤S2，利用深度学习模型分别对所述当前视频和所述示例视频进行时空特征提取，并构造合并特征，其中包括：将所述当前视频和所述示例视频分别经过所述深度学习模型进行时空信息编码，并在特征维度对所述当前视频和所述示例视频进行拼接，并加入所述示例视频得分，一同构成所述合并特征；以及

步骤S3，构建群敏感回归树网络，对所述合并特征进行回归，可以得到差异分数，获得差异分数后，首先将差异分数的全区间进行分配，让回归树的每一个叶子节点都代表一个特定的差异分数区间，且保证每一个区间内的样本均衡，对于回归树的每一个节点，都在进行一次差异分数与节点的阈值比较，结果是一个二分类，每一层的分流概率进行累乘，便可以得到一个最终的叶子节点的概率，取出最大概率的叶子节点，便可以将差异分数由全区间约束到一个特定的子区间中，最后在进行小区间内的分数回归，得到最终差异分数，并将所述最终差异分数与所述示例视频得分结合，得到当前视频分数。

2.根据权利要求1所述的基于群敏感对比回归的视频动作质量评价方法，其特征在于，所述群敏感回归树网络中每个叶子节点代表一个预设差异分数区间，且每个区间内的样本均衡。

3.根据权利要求2所述的基于群敏感对比回归的视频动作质量评价方法，其特征在于，所述群敏感回归树网络中对每个叶子节点进行群敏感分析，得到分类概率与组内相对位置。

4.一种基于群敏感对比回归的视频动作质量评价***，其特征在于，包括：

选择模块，用于根据当前视频选择对应的示例视频和示例视频得分；

提取模块，用于利用深度学习模型分别对所述当前视频和所述示例视频进行时空特征提取，并构造合并特征，其中包括：将所述当前视频和所述示例视频分别经过所述深度学习模型进行时空信息编码，并在特征维度对所述当前视频和所述示例视频进行拼接，并加入所述示例视频得分，一同构成所述合并特征；以及

回归与分数结合模块，用于构建群敏感回归树网络，对所述合并特征进行回归，可以得到差异分数，获得差异分数后，首先将差异分数的全区间进行分配，让回归树的每一个叶子节点都代表一个特定的差异分数区间，且保证每一个区间内的样本均衡，对于回归树的每一个节点，都在进行一次差异分数与节点的阈值比较，结果是一个二分类，每一层的分流概率进行累乘，便可以得到一个最终的叶子节点的概率，取出最大概率的叶子节点，便可以将差异分数由全区间约束到一个特定的子区间中，最后在进行小区间内的分数回归，得到最终差异分数，并将所述最终差异分数与所述示例视频得分结合，得到当前视频分数。

5.根据权利要求4所述的基于群敏感对比回归的视频动作质量评价***，其特征在于，所述群敏感回归树网络中每个叶子节点代表一个预设差异分数区间，且每个区间内的样本均衡。

6.根据权利要求5所述的基于群敏感对比回归的视频动作质量评价***，其特征在于，所述群敏感回归树网络中对每个叶子节点进行群敏感分析，得到分类概率与组内相对位置。