CN109045664B

CN109045664B - 基于深度学习的跳水打分方法、服务器及***

Info

Publication number: CN109045664B
Application number: CN201811030493.8A
Authority: CN
Inventors: 李永祺; 杜存宵; 林俊宇; 甘甜; 宋雪萌; 聂礼强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-10-01
Anticipated expiration: 2038-09-05
Also published as: CN109045664A

Abstract

本发明公开了一种基于深度学习的跳水打分方法、服务器及***。其中，一种基于深度学习的跳水打分方法，包括：构建跳水打分模型；所述跳水打分模型包括C3DNet模型、PoseNet模型和SVR支持向量回归模型，所述C3DNet模型和PoseNet模型并联连接之后，再与SVR支持向量回归模型串联连接；所述C3DNet模型是基于Intel优化的Caffe框架来实现的；利用已知跳水视频数据集及相应跳水分数值集，训练跳水打分模型；将跳水视频输入至训练完成的跳水打分模型中，输出跳水分数值。其避免了跳水分数值的人工干扰，提高了跳水分数值的准确性。

Description

基于深度学习的跳水打分方法、服务器及***

技术领域

本发明属于跳水信息处理领域，尤其涉及一种基于深度学习的跳水打分方法、服务器及***。

背景技术

跳水是指运动者在一定高度的器械上起跳，完成空中动作后，以入水为结束的一项水上技巧运动。跳水运动一般可分为竞赛性跳水和非竞赛性跳水两大类。然而，对于竞赛性跳水经常出现跳水赛事不公平争议现象，而且有些不公平现象很明显，在比赛过后都会引起巨大的舆论争论。比如在北京时间2008年8月17日凌晨进行的男子跳水3米板比赛中，中国选手彭勃在比赛前四轮大比分领先的情况下进行最后一跳，裁判故意判罚中国队失误，造成金牌流失。又比如在10年全运会中某裁判实名揭露跳水金牌全部内定，自己及裁判团***纵。

此外，培养裁判耗时且耗费大量资金。一名优秀的裁判往往需要数十年时间去培养，在这期间裁判又需要去不停的学习，而且一场比赛往往需要5-7名裁判，雇佣裁判的费用往往也是大赛资金中重要的支出。

跳水赛事打分规则为：跳水比赛的评判有7人及5人制，再加1个裁判长。但奥运、世界锦标赛和世界杯赛必须有7名评判评分。每一个动作的满分为10分。评分时，删去最高和最低分，将剩下的分数相加再乘难度分，便得出该动作的分数。评判会根据运动员的助跑(即行板、跑台)、起跳、空中和入水动作来评定分数。评分主要是由难度分与裁判评分构成，难度分是绝对客观的，但裁判评分完全是由裁判主观打分构成。虽然裁判打分有一定细则，但更多的仍是依赖裁判个人经验。而这种经验可不可靠，打分结果能不能服众都有待商榷。

综上所述，目前关于跳水比赛的打分中有一部分由裁判主观打分构成，这样得到的打分结果并不准确，且对运动员并不公平。因此，亟需提供一种准确高效地跳水打分方法及***。

发明内容

为了解决现有技术的不足，本发明的第一目的是提供一种基于深度学习的跳水打分方法，其将深度学习首次引入赛事打分领域，能够提高跳水评分结果的准确性。

本发明的一种基于深度学习的跳水打分方法，包括：

构建跳水打分模型；所述跳水打分模型包括C3DNet模型、PoseNet模型和SVR支持向量回归模型，所述C3DNet模型和PoseNet模型并联连接之后，再与SVR支持向量回归模型串联连接；所述C3DNet模型是基于Intel优化的Caffe框架来实现的；

利用已知跳水视频数据集及相应跳水分数值集，训练跳水打分模型；

将跳水视频输入至训练完成的跳水打分模型中，输出跳水分数值。

进一步的，该方法还包括：

将C3DNet模型和PoseNet模型并联连接之后，再与SVM分类器串联连接，以构成动作分析模型；

利用已知跳水视频数据集及相应动作分析结果标签集，训练动作分析模型；

将跳水视频输入至训练完成的动作分析模型中，输出跳水动作评语。

进一步的，该方法还包括：

利用已知跳水视频数据集及相应躯干识别结果集，训练PoseNet模型；

将跳水视频输入至训练完成的PoseNet模型中，输出躯干识别结果。

本发明的第二目的是提供一种基于深度学习的跳水打分服务器。

本发明的一种基于深度学习的跳水打分服务器，包括：

跳水打分模型构建模块，其被配置为：构建跳水打分模型；所述跳水打分模型包括C3DNet模型、PoseNet模型和SVR支持向量回归模型，所述C3DNet模型和PoseNet模型并联连接之后，再与SVR支持向量回归模型串联连接；所述C3DNet模型是基于Intel优化的Caffe框架来实现的；

跳水打分模型训练模块，其被配置为：利用已知跳水视频数据集及相应跳水分数值集，训练跳水打分模型；

跳水分数值输出模块，其被配置为：将跳水视频输入至训练完成的跳水打分模型中，输出跳水分数值。

进一步的，该服务器还包括：

动作分析模型构建模块，其被配置为：将C3DNet模型和PoseNet模型并联连接之后，再与SVM分类器串联连接，以构成动作分析模型；

动作分析模型训练模块，其被配置为：利用已知跳水视频数据集及相应动作分析结果标签集，训练动作分析模型；

跳水动作评语输出模块，其被配置为：将跳水视频输入至训练完成的动作分析模型中，输出跳水动作评语。

进一步的，该服务器还包括：

PoseNet模型训练模块，其被配置为：利用已知跳水视频数据集及相应躯干识别结果集，训练PoseNet模型；

躯干识别结果输出模块，其被配置为：将跳水视频输入至训练完成的PoseNet模型中，输出躯干识别结果。

本发明的第三目的是提供一种基于深度学习的跳水打分***。

本发明的一种基于深度学习的跳水打分***，包括上述所述的基于深度学习的跳水打分服务器。

进一步的，所述基于深度学习的跳水打分***，还包括客户端，其与基于深度学习的跳水打分服务器相连，用于展示基于深度学习的跳水打分服务器的输出结果。

与现有技术相比，本发明的有益效果是：

(1)本发明的C3DNet模型是基于Intel优化的Caffe框架来实现的；在原装IntelCaffe上编译新的直接用于读取视频数据以及3维的卷积层，这样无需使用分帧和传统的卷积层对帧操作，可以用三维卷积直接对四维的数组(blob)进行处理，提高了数据处理速度。

(2)本发明采用集成学习的思想，分别用两个网络刻画跳水的特征，C3D网络刻画时序特征，PoseNet网络刻画单帧人体信息，最后经SVR融合得到最终分数，提高了最后跳水分数值的准确度。

(3)本发明引入多任务学习的方法，在浅层参数上，所有的种类共享参数，在最后的SVR上分别训练各个网络，是一种基于参数共享的多任务学习方法，最后有效地提高了网络表现。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的基于深度学习的跳水打分方法的一种实施例流程图。

图2是本发明的基于深度学习的跳水打分服务器的一种实施例结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

专业术语解释：

(1)深度神经网络：深度神经网络是具有多层神经元的人工神经网络，在输入层和输出层之间具有多个隐藏层。每一层神经元之间可以相互传递数据，并且根据网络的函数目标动态调整自身的权重值。

(2)C3DNet模型：用于视频特征提取的3维卷积网络。

(3)PoseNet模型：PoseNet是剑桥大学做的一个视觉定位模型，能够通过一张彩色图像定位你的位姿信息。在一个大的城市环境下，它只需要花费5ms来获取你的位姿信息，精度比GPS更高。并且相较于GPS，它能够确定你的方向且能够在室内运行。PoseNet是用剑桥地标数据集进行训练的。它是一个大型的城市环境定位数据集，有这超过12000张剑桥周围的6类场景图像，每张图像都对应着6自由度的相机位姿信息。

(4)SVR支持向量回归模型：SVR()就是SVM算法来做回归用的方法(即输入标签是连续值的时候要用的方法)。

(5)SVM：Support Vector Machine，指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

(6)Caffe：Caffe是BVLC开发的深度学习框架，基于C++和CUDA C++语言，并提供了Python和Matlab接口；该框架对于卷积神经网络CNN、循环神经网络RNN及多层感知器很有帮助。

在近几年中深度学***均水平的表现。而且深度学习对于视频的处理也是目前state of theart(最佳)的表现。但是，将深度学习与跳水打分相结合存在以下问题：

(1)数据集数量问题：跳水打分问题是一个非常新颖的领域，公网上并没有开源的带标签数据集，因此需要自行采集。限于时间，财力，得到良好标注的样本数量仅有2000多，这对于深度学习来说太过微小，直接训练会导致严重的过拟合，梯度无法正常反向传播，网络无法正常训练。

(2)连续跳水特征难刻画：跳水动作是一个非常复杂的连续动作，运动员处在高速的运动中，采用CNN(Convolutional Neural Network,卷积神经网络)、VGG(VisualGeometry Group，大规模图像识别的深度卷积网络)甚至ResNet(深度残差网络)在捕捉这些特征的时候表现都不尽人意。

(3)跳水种类繁多，相应评分标准也繁多：跳水中不同的动作种类有不同的评分标准，即使动作相同得分也可能不同。然而数据本身就十分稀少，如果对每个动作都训练一个模型，将使得数据更加稀疏。

以上问题均会导致跳水评分结果不准确，进而出现对运动员不公平的现象。

为了解决上述问题，本申请将深度学习首次引入赛事打分领域，能够提高跳水评分结果的准确性。

如图1所示，本实施例的一种基于深度学习的跳水打分方法，包括：

步骤1：构建跳水打分模型；所述跳水打分模型包括C3DNet模型、PoseNet模型和SVR支持向量回归模型，所述C3DNet模型和PoseNet模型并联连接之后，再与SVR支持向量回归模型串联连接；所述C3DNet模型是基于Intel优化的Caffe框架来实现的；

步骤2：利用已知跳水视频数据集及相应跳水分数值集，训练跳水打分模型；

步骤3：将跳水视频输入至训练完成的跳水打分模型中，输出跳水分数值。

由于PoseNet模型可以准确捕捉人体的姿态特征，PoseNet模型捕捉的人体的姿态特征是对C3DNet模型无法捕捉到的信息的良好弥补。

对于C3DNet模型和PoseNet模型的融合采用SVR支持向量回归模型，C3DNet模型和PoseNet模型两个模型都是直接使用ground-truth训练，输出数值型分数。SVR支持向量回归模型的作用在于实现Ensemble，输入是两个模型的特征层级联后的结果，训练数据就是真实的得分。

具体地，C3DNet模型的工作流程为：

1)视频读取后会变成一个4维的数组，分别表示通道、帧数、长、宽。

2)用3d卷积对数组进行卷积操作，得到一个2维的数组。

3)步骤2)得到的2维的数组经过双向LSTM，得到一个向量。

4)步骤3)得到的向量经过一个全连接层，得到一个数值，即跳水分数。

PoseNet模型的工作流程：

1)用开源的openpose工具(这个工具是网上开源的，具体实现方式很复杂，我们只是简单的拿来应用)对视频进行处理，会得到每一帧的人体关键点的坐标以及处理后的视频。

2)将每一帧人体关键点的坐标送入双向GRU网络，得到一个向量。

3)向量经过一个全连接层变为一个数值，即是跳水分数。

在另一实施例中，该方法还包括：

动作分析模型的工作流程为：

2)用3d卷积对数组进行卷积操作，得到一个2维的数组。

3)步骤2)得到的2维的数组经过双向LSTM，得到一个向量。

4)步骤3)得到的向量经过sigmoid激活函数，向量里的每一个数值都变成了0或1。如果是1，就表示与之对应的评语被选中。

动作分析模型用于分析跳水动作的标准与不标准之处。

实现动作分析模型的关键在于数据，动作分析结果的标签集是6个常用的标签，如：起跳时机过早，水花过大等。每个视频有4个标签，所以动作分析模型转化为一个分类问题，其中采用与FocNet模型中一致的C3DNet模型进行特征提取，把最后的SVR支持向量回归模型更换为SVM分类器来实现动作分析模型。

在另一实施例中，该方法还包括：

躯干识别结果用于识别出人物的躯干与关键点。

躯干识别模型一方面为打分模型提供了部分特征，另一方面它的特征可视化结果也会在平台上展现。PoseNet是基于卡内基梅隆大学开源的OpenPose进行fine-tuning(微调)，由于OpenPose已经达到了十分精确的结果，只标注少量的跳水视频就能够取得非常完美的结果。

例如：在这项指标上的表现是0.5，也可以认为对于大规模样本，模型给出的得分与真实值的差距的数学期望不会高于0.5；另一方面，相关系数是用来衡量排名是否准确的指标，在该指标的表现是0.87。选择了2012年伦敦***的赛事视频作为测试集，对于***的裁判，将用同样的指标对打分的裁判进行了测试，***共有七名裁判，对七名裁判分别测试，发现本发明的该方法在平均绝对值误差上的表现超越了大多数单体裁判，位居第二，在相关系数上位居第三。可以认为达到了同等专家的水平。

如图2所示，本发明的一种基于深度学习的跳水打分服务器，包括：

(1)跳水打分模型构建模块，其被配置为：构建跳水打分模型；所述跳水打分模型包括C3DNet模型、PoseNet模型和SVR支持向量回归模型，所述C3DNet模型和PoseNet模型并联连接之后，再与SVR支持向量回归模型串联连接；所述C3DNet模型是基于Intel优化的Caffe框架来实现的；

(2)跳水打分模型训练模块，其被配置为：利用已知跳水视频数据集及相应跳水分数值集，训练跳水打分模型；

(3)跳水分数值输出模块，其被配置为：将跳水视频输入至训练完成的跳水打分模型中，输出跳水分数值。

在另一实施例中，该服务器还包括：

本发明还提供了一种基于深度学习的跳水打分***。

本发明的一种基于深度学习的跳水打分***，包括如图2所示的基于深度学习的跳水打分服务器。

在具体实施中，所述基于深度学习的跳水打分***，还包括客户端，其与基于深度学习的跳水打分服务器相连，用于展示基于深度学习的跳水打分服务器的输出结果。

本发明的C3DNet模型是基于Intel优化的Caffe框架来实现的；在原装IntelCaffe上编译新的直接用于读取视频数据以及3维的卷积层，这样无需使用分帧和传统的卷积层对帧操作，可以用三维卷积直接对四维的数组(blob)进行处理，提高了数据处理速度。

本发明采用集成学习的思想，分别用两个网络刻画跳水的特征，C3D网络刻画时序特征，PoseNet网络刻画单帧人体信息，最后经SVR融合得到最终分数，提高了最后跳水分数值的准确度。

本发明引入多任务学习的方法，在浅层参数上，所有的种类共享参数，在最后的SVR上分别训练各个网络，是一种基于参数共享的多任务学习方法，最后有效地提高了网络表现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度学习的跳水打分方法，其特征在于，包括：

2.如权利要求1所述的一种基于深度学习的跳水打分方法，其特征在于，该方法还包括：

3.如权利要求1所述的一种基于深度学习的跳水打分方法，其特征在于，该方法还包括：

4.一种基于深度学习的跳水打分服务器，其特征在于，包括：

5.如权利要求4所述的一种基于深度学习的跳水打分服务器，其特征在于，该服务器还包括：

6.如权利要求4所述的一种基于深度学习的跳水打分服务器，其特征在于，该服务器还包括：

7.一种基于深度学习的跳水打分***，其特征在于，包括如权利要求4-6中任一项所述的基于深度学习的跳水打分服务器。

8.如权利要求7所述的一种基于深度学习的跳水打分***，其特征在于，还包括客户端，其与基于深度学习的跳水打分服务器相连，用于展示基于深度学习的跳水打分服务器的输出结果。