CN105955708A

CN105955708A - 一种基于深度卷积神经网络的体育视频镜头分类方法

Info

Publication number: CN105955708A
Application number: CN201610302292.3A
Authority: CN
Inventors: 王进军; 张顺; 刘桢琦
Original assignee: Xi'an Brision Information Technology Co Ltd
Current assignee: Beijing Hippo energy Sports Technology Co., Ltd.
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2016-09-21

Abstract

本发明公开了一种基于深度卷积神经网络的体育视频镜头分类方法，包括以下步骤：1)对已有足球视频进行镜头分割，每个镜头是由某个摄像头拍摄的一段连续的图像序列，从每个镜头片段中选出3～10张的关键帧图像，并对每张图像贴上镜头类别标签，构造训练样本集；2)构造七层深度卷积神经网络，该七层卷积神经网路包括：五个卷积层，三个全连接层；3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练，卷积神经网络的训练利用softmax回归作为分类算法，使用误差后向传播算法调整CNN的网络参数；4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试，并输出最终图像的镜头分类结果。

Description

一种基于深度卷积神经网络的体育视频镜头分类方法

技术领域：

本发明属于视频处理与机器学习领域，具体涉及一种基于深度卷积神经网络的体育视频镜头分类方法。

背景技术：

镜头分类是体育视频分析的一项基础技术，对于体育视频中特定事件检测、体育视频的检索和高级语义的提取都具有重要的意义，例如足球视频分析中特定事件的检测(红黄牌、射门、比赛中断等)和特定球员的检测都需要用到镜头分类的结果。一个准确快速的镜头分类方法对于后续分析性能的提高将产生极大的帮助。

在体育比赛的转播视频中，通常可以将镜头分为三类：远景镜头、中景镜头和特写镜头。远景镜头拍摄的是大部分场地，中景镜头是对场地中局部区域的某些球员和场景进行拍摄，特写镜头是对运动员的半身特写或动作信息。其中的中景镜头和特写镜头除了对场地进行拍摄外，还包括对场外观众的拍摄。

当前区分以上几类镜头的方法主要是通过计算主颜色区域的面积比率。这类方法将镜头中场地的颜色确定为主颜色(如足球场地以绿色为主颜色)，然后再根据主颜色在镜头中占据的面积比率来判断该镜头所属的类别，并认为拥有较大的主颜色面积比率的镜头是远景镜头，而较小的主颜色面积比率的镜头是特写镜头。由于该方法所用主颜色面积比率特征在中景镜头和特写镜头中受到背景颜色干扰较大，限制了最终的镜头分类精度。

发明内容：

为了克服现有技术的不足，本发明提供一种基于深度卷积神经网络的体育视频镜头分类的方法。本发明通过深度卷积神经网络，学习数据库中每类镜头的图像特征，在测试时直接选取卷积神经网络softmax层最大回归值对应的类别作为镜头分类的结果，使对于给出的关键帧能自动进行所属镜头的分类。本发明能够提高镜头分类的精度，且具有较好的可行性和鲁棒性。

为达到上述目的，本发明采用如下技术方案来实现的：

一种基于深度卷积神经网络的体育视频镜头分类方法，包括以下步骤：

1)对已有足球视频进行镜头分割，每个镜头是由某个摄像头拍摄的一段连续的图像序列，从每个镜头片段中选出3～10张的关键帧图像，并对每张图像贴上镜头类别标签，构造训练样本集；

2)构造七层深度卷积神经网络，该七层卷积神经网路包括：五个卷积层，三个全连接层；

3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练，卷积神经网络的训练利用softmax回归作为分类算法，使用误差后向传播算法调整CNN的网络参数；

4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试，并输出最终图像的镜头分类结果。

本发明进一步的改进在于，所述步骤1)中，将镜头类别标签分为6种：远景镜头，场内中景镜头，场外中景镜头，场内特写镜头，场外特写镜头，和不属于这5种镜头的其他镜头。

本发明进一步的改进在于，所述步骤2)中，每个输入图像都被缩放为256×256大小，并从中随机截取224×224大小的方形区块，以RGB三个颜色维度输入；第一、第二和第五卷积层的激励输出后，经过最大池化下采样操作，输出给下一个卷积层；深度卷积神经网络最终输出维数为6的神经元响应，对应于待分类图像的6种镜头种类。

本发明进一步的改进在于，所述步骤3)中，训练时卷积神经网络使用一些不同的小随机数初始化神经网络的参数。

与现有技术相比，本发明具有以下有益效果：

本发明所述的基于深度卷积神经网络的体育视频镜头分类方法，设计的深度卷积神经网络以关键帧图像作为网络的输入，隐式地学习每类镜头中的图像特征，进而使用该特征更加有效地进行镜头分类。

附图说明：

图1为本发明的流程示意图。

图2是本发明实例中卷积神经网络的结构示意图。

具体实施方式：

下面结合附图对本发明做进一步详细描述：

参考图1，本发明所述的基于深度卷积神经网络的体育视频镜头分类的方法，包括以下步骤：

1)对已有足球视频进行镜头分割，每个镜头是由某个摄像头拍摄的一段连续的图像序列。从每个镜头片段中选出5张的关键帧图像，并对每张图像贴上标签，构造训练样本集。将镜头类别标签分为6种：远景镜头，场内中景镜头，场外中景镜头，场内特写镜头，场外特写镜头，和不属于这5种镜头的其他镜头。

2)构造七层深度卷积神经网络(Convolutional Neural Network,CNN)，该七层卷积神经网路包括：五个卷积层，三个全连接层。

每个输入图像都被缩放为256×256大小，并从中随机截取224×224大小的方形区块，以RGB三个颜色维度输入。第一、第二和第五卷积层的激励输出后，经过最大池化下采样操作，输出给下一个卷积层。深度卷积神经网络最终输出维数为6的神经元响应，对应于待分类图像的6种镜头种类。如图2所示，输入图像经过每一层的具体过程包括：

第一层卷积层由96个大小为55×55的特征图组成。经过Max Pooling操作，输出96个27×27大小的特征图。

第二层卷积层由256个大小为27×27的特征图组成。经过Max Pooling操作，输出96个13×13大小的特征图。

第三层卷积层由384个大小为13×13的特征图组成。

第四层卷积层由384个大小为13×13的特征图组成。

第五层卷积层由256个大小为13×13的特征图组成。经过Max Pooling操作，输出256个6×6大小的特征图。

第六层和第七层为全连接层，输出4096维的特征向量。

第八层为全连接层，输出一个6维的特征向量，由softmax层分类并输出分类结果。

卷积神经网络的卷积层可以表示如下：第l层的第j个特征图矩阵可能由前一层若干个特征图卷积加权得到，

x_{j}^{l} = f (\underset{i &Element; N_{j}}{Σ} x_{i}^{l - 1} * k_{i j}^{l} + b_{j}^{l}) - - - (1)

其中，f为神经元激活函数；N_j代表输入特征图的组合，*表示卷积运算，为卷积核矩阵，为偏置矩阵。

采样过程可以表示为：

x_{j}^{l} = f (d o w n (x_{j}^{l - 1})) - - - (2)

其中，down(·)表示采样函数，常用的有最大值采样函数(Max Pooling)。采样过程与卷积过程类似，使用一种不带权参数的采样函数，从输入特征图的左上角开始按一定步长向右(或向下)滑动，对窗口相应区块的像素进行采样后输出。

卷积神经网络全连接层的每个神经元都会与下一层的每个神经元相连。第l层全连接层特征向量x^l可以表示如下：

x^l＝f(w^lx^l-1+b^l),(3)

其中，w^l是权值矩阵，b^l是偏置向量。

3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练。卷积神经网络的训练利用softmax回归作为分类算法，使用误差后向传播算法调整CNN的网络参数。

卷积神经网络使用一些不同的小随机数初始化神经网络的参数。CNN模型的训练需要连续的迭代优化，它可以根据迭代分类结果去调整下一次迭代的参数。将图片输入到网络，经过前向传播和后向传播两个训练阶段，前向传播过程是把一个样本输入网络，计算相应的实际输出；后向传播过程是计算实际输出与理想输出的差，根据误差率，不断优化网络参数，进行模型的训练。

Claims

1.一种基于深度卷积神经网络的体育视频镜头分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法，其特征在于，所述步骤1)中，将镜头类别标签分为6种：远景镜头，场内中景镜头，场外中景镜头，场内特写镜头，场外特写镜头，和不属于这5种镜头的其他镜头。

3.根据权利要求2所述的一种基于深度卷积神经网络的体育视频镜头分类方法，其特征在于，所述步骤2)中，每个输入图像都被缩放为256×256大小，并从中随机截取224×224大小的方形区块，以RGB三个颜色维度输入；第一、第二和第五卷积层的激励输出后，经过最大池化下采样操作，输出给下一个卷积层；深度卷积神经网络最终输出维数为6的神经元响应，对应于待分类图像的6种镜头种类。

4.根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法，其特征在于，所述步骤3)中，训练时卷积神经网络使用一些不同的小随机数初始化神经网络的参数。