CN103310193B

CN103310193B - 一种记录体操视频中运动员重要技术动作时刻的方法

Info

Publication number: CN103310193B
Application number: CN201310226685.7A
Authority: CN
Inventors: 吴自然
Original assignee: WENZHOU JUCHUANG ELECTRICAL TECHNOLOGY Co Ltd
Current assignee: WENZHOU JUCHUANG ELECTRICAL TECHNOLOGY Co Ltd
Priority date: 2013-06-06
Filing date: 2013-06-06
Publication date: 2016-05-25
Anticipated expiration: 2033-06-06
Also published as: CN103310193A

Abstract

本发明提供了一种记录体操视频中运动员重要技术动作时刻的方法，包括以下步骤：（1）将体操视频转化为一系列的帧；（2）对步骤(1)中所得的每一帧的图像，利用图像人体检测器检测出完整的人体，得到含有人体的长方形图像窗口，即人体区域；（3）根据预先定义好的人体姿态集合，对步骤（2）中检测出的人体区域进行人体姿态分类，得到人体姿态估计的结果；（4）对所有的帧的人体姿态估计结果进行去噪合并，最终得到重要技术动作的时刻记录。该方法可以用于辅助评审员评分以及体操视频的归档。

Description

一种记录体操视频中运动员重要技术动作时刻的方法

技术领域

本发明属于数字图像处理和模式识别领域，具体涉及一种记录体操视频中运动员重要技术动作时刻的方法。

背景技术

运动视频的识别分析一直是数字图像处理和模式识别中的热点也是难点。目前的实际中运动视频的识别分析的方法大多是针对特殊的物体，比如网球运动中球的运动轨迹，以达到辅助判定的目的。而针对人体运动的方法还是比较少。由于体育运动中的人的身体动作往往不同于通常的行为，存在有许多特殊性，而且变化比较大，所以需要设计特殊的***和方法来辨识。

在实践中可针对人体动作分析体育运动的***，较为著名的是微软用于搭配XBOX360游戏机的Kinect设备。但是这种设备利用的是红外点阵投影仪和传感器获得人体的三维深度图像，在使用中局限性很大，只能再室内小空间内使用。对于很多体育运动的场所，比如球场体育馆等，空间范围很大，红外点阵投影设备很难有效工作。而普通光学摄像机可在绝大多数环境条件下轻松地获得直观的体育图像。不同于红外点阵投影设备的是，单台普通光学相机仅能获得二维图像，需要检测出人体所在的图像区域，在算法上难度大于Kinect设备。

发明内容

本发明的目的在于提供一种对体操视频进行分析记录重要技术动作时刻的方法。

本发明的技术方案为：

一种记录体操视频中运动员重要技术动作时刻的方法，包括以下步骤：

(1)将体操视频转化为一系列的帧；

(2)对步骤(1)中所得的每一帧的图像，利用图像人体检测器检测出完整的人体，得到含有人体的长方形图像窗口，即人体区域；

(3)根据预先定义好的人体姿态集合，对步骤(2)中检测出的人体区域进行人体姿态分类，得到人体姿态估计的结果；

(4)对所有的帧的人体姿态估计结果进行去噪合并，最终得到重要技术动作的时刻记录。

进一步的，所述人体检测器为改进的HOG人体检测器，所述改进是指使用显示部分人体的图像作为反面的训练样本数据。

进一步的，所述人体姿态分类的方法可以采用通用化的距离变换或方向图模板匹配法。

进一步的，步骤(4)具体包括以下子步骤：

(4.1)对于一个视频片段，将所有的帧所对应的姿态的标号(1，2，3...)按照时间顺序排列，形成一个标号序列；将这个流程中的输入序列记为I，输出序列记为O；定义一个平滑窗口，宽度为w；w等于和对该视频片段每秒采样数的1.5倍最接近的奇数；定义u＝(w-1)/2；

(4.2)考虑输入序列中的任意一个成员I_i，计算I_i-u到I_i+u这w个成员当中每个姿态类别的总数，记为c₁，c₂，c₃...，如果其中某个类别c_j的个数大于w*0.5，则这个成员I_i的对应的输出项O_i的类别标号为j；如果所有类别总数都未超过w*0.5，则将O_i的类别标号记为-1，即表示姿态类别不明；

(4.3)对I中所有成员执行步骤(4.2)；

(4.4)对于O中每一个成员，如果O_i＝-1而O_i-1或O_i+1≠-1，并且I_i＝O_i-1或O_i+1，则将O_i的标号改为O_i-1或O_i+1；

(4.5)Ｏ就是这个视频片段的记录；该记录用不同的人体姿态类别标号标记每一帧，重要技术动作可以通过人体姿态类别标号得以体现。

本发明所述的记录体操视频中运动员重要技术动作时刻的方法，使用人体探测器检测出视频中体操运动员的身***置，并用多种方法在检测框内辨识出运动员的动作状态，捕获重要技术动作的时间点并予以记录，最终得出记录有一套体操动作每个重要技术动作的时间点的时间轴图表。该方法可以用于辅助评审员评分以及体操视频的归档。目前用于记录描述运动视频的应用工具还很少，该方法在这一领域是一个创新。该方法的人体检测准确率高，对姿态分类估计有一定的纠错能力，有较大的发展潜力和应用价值。

附图说明

图1为记录体操视频中运动员重要技术动作时刻的方法的流程图。

图2为模板示例图。

图3为视频记录图形。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。

如图1所示，本发明提供了一种记录体操视频中运动员重要技术动作时刻的方法，包括以下步骤：

(1)将体操视频一定的帧率转化为一系列的帧。该帧率一般为视频的帧率，通常来说为25或30fps。

其中，人体检测器为改进的HOG人体检测器。改进的方面为：该人体检测器使用了显示部分人体的图像，比如包含有人体上半身或四肢图像，作为反面的训练样本数据，大大降低了检测器在人体部位上产生的误检测率。所述HOG人体检测器是指NavneetDalal等人(参见文献1：N.Dalal和B.Triggs，“HistogramsofOrientedGradientsforHumanDetection，”出处2005IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition，Volume1，SanDiego，CA，USA，2005，pp.886-893.和文献2：N.Dalal，“FindingPeopleinImagesandVideos，”PhDThesis，InstitutNationalPolytechniqueDeGrenoble，2006.)的方向性梯度直方图(HOG)方法检测器，该方法计算出图像区域内的方向性梯度直方图并以此作为特征，通过支持向量机(SVM)对这些图像区域进行机器学习和分类。

(3)根据一套预定义好的姿态集合，比如附图2中所示的即为一个姿态集合的例子，对检测出的人体区域进行人体姿态分类，得到人体姿态估计的结果；

人体姿态分类的方法可以采用通用化的距离变换和方向图模板匹配法，具体包括：

(3.1)建立若干组人体边缘的模板，每一组模板代表一种人体的姿态；

(3.2)针对每一帧图像，使用N.D.Thanh等人(参见文献3：N.D.Thanh，W.Li和P.Ogunbona，“ANovelTemplateMatchingMethodforHumanDetection，”16thIEEEInternationalConferenceonImageProcessing(ICIP)，Cairo，Egypt，2009，pp.2549-2552.)提出的GDT&OM法，将所述模板与步骤(2)中检测到的该帧中人体区域进行匹配，将匹配结果最接近的模板所对应的姿态作为该帧中人体的姿态。

还可以根据人体部位坐标进行人体姿态分类，获得人体姿态估计的结果。该过程具体包括：

(A)根据不同姿态的人体部位位置建立对应的若干个模型；

(B)从步骤(2)检测出的人体区域，使用反复解析法获得人体部位位置，将这些位置与姿态分类模型进行比对，获得最接近的姿态，得到人体姿态估计的结果。

根据体操技术的特性在时间轴上用一个定长的窗口对姿态估计的结果进行处理，以达到将相近时间点的估计合并以及去除错误估计结果的目的。该处理过程具体包括：

(4.2)考虑输入序列中的任意一个成员I_i，计算I_i-u到I_i+u这w个成员当中每个姿态类别的总数，记为c₁，c₂，c₃...，如果其中某个类别c_j的个数大于w*0.5，则这个成员I_i的对应的输出项Q_i的类别标号为j。如果所有类别总数都未超过w*0.5，则将O_i的类别标号记为-1，即表示姿态类别不明；

(4.3)对I中所有成员执行步骤(4.2)；

(4.5)O就是这个视频片段的记录。该记录用不同的人体姿态类别标号标记每一帧，重要技术动作可以通过人体姿态类别标号得以体现。

实施例：

本发明使用了一组北京及伦敦***上的男子体操吊环视频片段作为实验数据。我们将8个北京***的男子吊环片段作为训练数据，而将伦敦奥运的8个男子吊环片段作为测试数据。每个片段约为1分钟，帧率为每秒30帧。由于原视频分辨率较高需要消耗很长的计算时间，我们将分辨率缩小为480×360或480×270(根据原始长宽比例进行缩放)。具体流程如下：

(1)人体检测：我们使用一个96×96的图像窗口作为检测窗。我们从北京***的视频片段中提取了4101个人体样本作为正面样本。每个人体样本就是一个正中间显示单个体操运动员全身的图片，大小为96×96。同时我们使用了562张非人体图片作为反面数据。这些非人体图片包含的内容包括背景、物品和人的身体部分。训练器将从每张非人体图片中随机提取20个正方形区域并等长宽比地缩放为96×96大小，作为反面样本。所以反面样本的总数为11240个。模型训练的流程如下：

a.使用HOG和SVM的算法根据正面和反面样本训练出一个初步的分类模型。

b.将a中所得的分类模型应用到反面数据的图片上，获得若干伪检测。将这些伪检测区域认为是“困难的”分类样本，并添加到反面样本中去。

c.再重新根据正面和反面样本训练一个最终的分类模型。

将该分类模型运用于伦敦奥运吊环的片段中去，得到了接近95％的真正面检测率(truepositiverate，TPR)和低于1.20×10^-4的伪正面检测率(falsepositiverate，FPR)。

(2)姿态估计：我们使用了一组轮廓边缘模板(如图2所示)进行姿态估计，得到了所有帧的姿态估计。我们取其中一个片段的结果作为例子，见图3，其中纵轴代表技术动作的分类编号，横轴代表时间。

(3)去噪合并：去噪窗口的大小为45帧，如图3所示。

最终8个视频片段中共有89个重要技术动作，我们检测出了80个，同时有17个检测错误。具体结果见表1，纵向标号代表真实的姿态类别，横向标号代表检测出的姿态类别。

表1：错误的姿态检测

标号	0	1	2	3	4	5	6	7	-1
										0	0	0	0	0	0	0	0	0	1
1	0	0	0	0	0	0	0	0	1
										2	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	1	2
										4	0	0	0	0	0	0	0	0	1
5	0	0	0	0	0	0	0	0	0
										6	0	0	0	0	0	0	0	0	1
7	0	0	0	0	0	0	0	0	2
										-1	1	0	2	2	0	0	1	3	0

Claims

1.一种记录体操视频中运动员重要技术动作时刻的方法，其特征在于，包括以下步骤：

（1）将体操视频转化为一系列的帧；

（2）对步骤(1)中所得的每一帧的图像，利用图像人体检测器检测出完整的人体，得到含有人体的长方形图像窗口，即人体区域；

（3）根据预先定义好的人体姿态集合，对步骤（2）中检测出的人体区域进行人体姿态分类，得到人体姿态估计的结果；

（4）对所有的帧的人体姿态估计结果进行去噪合并，最终得到重要技术动作的时刻记录；

步骤（4）具体包括以下子步骤：

（4.1）对于一个视频片段，将所有的帧所对应的姿态的标号(1,2,3…)按照时间顺序排列，形成一个标号序列；将这个流程中的输入序列记为I，输出序列记为O；定义一个平滑窗口，宽度为w；w等于和对该视频片段每秒采样数的1.5倍最接近的奇数；定义u=（w-1）/2；

（4.2）考虑输入序列中的任意一个成员I _i，计算I _i-u到I _i+u这w个成员当中每个姿态类别的总数，记为c ₁,c ₂,c ₃…，如果其中某个类别c _j的个数大于w*0.5，则这个成员I _i的对应的输出项O _i的类别标号为j；如果所有类别总数都未超过w*0.5，则将O _i的类别标号记为-1，即表示姿态类别不明；

（4.3）对I中所有成员执行步骤（4.2）；

（4.4）对于O中每一个成员，如果O _i=-1而O _i-₁或O _i+₁≠-1,并且I _i=O _i-₁或O _i+₁,则将O _i的标号改为O _i-₁或O _i+₁；

（4.5）O就是这个视频片段的记录；该记录用不同的人体姿态类别标号标记每一帧，重要技术动作可以通过人体姿态类别标号得以体现。

2.根据权利要求1所述的记录体操视频中运动员重要技术动作时刻的方法，其特征在于，所述人体检测器为改进的HOG人体检测器，所述改进是指使用显示部分人体的图像作为反面的训练样本数据。

3.根据权利要求1所述的记录体操视频中运动员重要技术动作时刻的方法，其特征在于，所述人体姿态分类的方法可以采用通用化的距离变换或方向图模板匹配法。