CN105955708A - 一种基于深度卷积神经网络的体育视频镜头分类方法 - Google Patents

一种基于深度卷积神经网络的体育视频镜头分类方法 Download PDF

Info

Publication number
CN105955708A
CN105955708A CN201610302292.3A CN201610302292A CN105955708A CN 105955708 A CN105955708 A CN 105955708A CN 201610302292 A CN201610302292 A CN 201610302292A CN 105955708 A CN105955708 A CN 105955708A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
shot
training
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610302292.3A
Other languages
English (en)
Inventor
王进军
张顺
刘桢琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hippo energy Sports Technology Co., Ltd.
Original Assignee
Xi'an Brision Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Brision Information Technology Co Ltd filed Critical Xi'an Brision Information Technology Co Ltd
Priority to CN201610302292.3A priority Critical patent/CN105955708A/zh
Publication of CN105955708A publication Critical patent/CN105955708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的体育视频镜头分类方法,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。

Description

一种基于深度卷积神经网络的体育视频镜头分类方法
技术领域:
本发明属于视频处理与机器学习领域,具体涉及一种基于深度卷积神经网络的体育视频镜头分类方法。
背景技术:
镜头分类是体育视频分析的一项基础技术,对于体育视频中特定事件检测、体育视频的检索和高级语义的提取都具有重要的意义,例如足球视频分析中特定事件的检测(红黄牌、射门、比赛中断等)和特定球员的检测都需要用到镜头分类的结果。一个准确快速的镜头分类方法对于后续分析性能的提高将产生极大的帮助。
在体育比赛的转播视频中,通常可以将镜头分为三类:远景镜头、中景镜头和特写镜头。远景镜头拍摄的是大部分场地,中景镜头是对场地中局部区域的某些球员和场景进行拍摄,特写镜头是对运动员的半身特写或动作信息。其中的中景镜头和特写镜头除了对场地进行拍摄外,还包括对场外观众的拍摄。
当前区分以上几类镜头的方法主要是通过计算主颜色区域的面积比率。这类方法将镜头中场地的颜色确定为主颜色(如足球场地以绿色为主颜色),然后再根据主颜色在镜头中占据的面积比率来判断该镜头所属的类别,并认为拥有较大的主颜色面积比率的镜头是远景镜头,而较小的主颜色面积比率的镜头是特写镜头。由于该方法所用主颜色面积比率特征在中景镜头和特写镜头中受到背景颜色干扰较大,限制了最终的镜头分类精度。
发明内容:
为了克服现有技术的不足,本发明提供一种基于深度卷积神经网络的体育视频镜头分类的方法。本发明通过深度卷积神经网络,学习数据库中每类镜头的图像特征,在测试时直接选取卷积神经网络softmax层最大回归值对应的类别作为镜头分类的结果,使对于给出的关键帧能自动进行所属镜头的分类。本发明能够提高镜头分类的精度,且具有较好的可行性和鲁棒性。
为达到上述目的,本发明采用如下技术方案来实现的:
一种基于深度卷积神经网络的体育视频镜头分类方法,包括以下步骤:
1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;
2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;
3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;
4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。
本发明进一步的改进在于,所述步骤1)中,将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。
本发明进一步的改进在于,所述步骤2)中,每个输入图像都被缩放为256×256大小,并从中随机截取224×224大小的方形区块,以RGB三个颜色维度输入;第一、第二和第五卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层;深度卷积神经网络最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。
本发明进一步的改进在于,所述步骤3)中,训练时卷积神经网络使用一些不同的小随机数初始化神经网络的参数。
与现有技术相比,本发明具有以下有益效果:
本发明所述的基于深度卷积神经网络的体育视频镜头分类方法,设计的深度卷积神经网络以关键帧图像作为网络的输入,隐式地学习每类镜头中的图像特征,进而使用该特征更加有效地进行镜头分类。
附图说明:
图1为本发明的流程示意图。
图2是本发明实例中卷积神经网络的结构示意图。
具体实施方式:
下面结合附图对本发明做进一步详细描述:
参考图1,本发明所述的基于深度卷积神经网络的体育视频镜头分类的方法,包括以下步骤:
1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列。从每个镜头片段中选出5张的关键帧图像,并对每张图像贴上标签,构造训练样本集。将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。
2)构造七层深度卷积神经网络(Convolutional Neural Network,CNN),该七层卷积神经网路包括:五个卷积层,三个全连接层。
每个输入图像都被缩放为256×256大小,并从中随机截取224×224大小的方形区块,以RGB三个颜色维度输入。第一、第二和第五卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层。深度卷积神经网络最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。如图2所示,输入图像经过每一层的具体过程包括:
第一层卷积层由96个大小为55×55的特征图组成。经过Max Pooling操作,输出96个27×27大小的特征图。
第二层卷积层由256个大小为27×27的特征图组成。经过Max Pooling操作,输出96个13×13大小的特征图。
第三层卷积层由384个大小为13×13的特征图组成。
第四层卷积层由384个大小为13×13的特征图组成。
第五层卷积层由256个大小为13×13的特征图组成。经过Max Pooling操作,输出256个6×6大小的特征图。
第六层和第七层为全连接层,输出4096维的特征向量。
第八层为全连接层,输出一个6维的特征向量,由softmax层分类并输出分类结果。
卷积神经网络的卷积层可以表示如下:第l层的第j个特征图矩阵可能由前一层若干个特征图卷积加权得到,
x j l = f ( Σ i ∈ N j x i l - 1 * k i j l + b j l ) - - - ( 1 )
其中,f为神经元激活函数;Nj代表输入特征图的组合,*表示卷积运算,为卷积核矩阵,为偏置矩阵。
采样过程可以表示为:
x j l = f ( d o w n ( x j l - 1 ) ) - - - ( 2 )
其中,down(·)表示采样函数,常用的有最大值采样函数(Max Pooling)。采样过程与卷积过程类似,使用一种不带权参数的采样函数,从输入特征图的左上角开始按一定步长向右(或向下)滑动,对窗口相应区块的像素进行采样后输出。
卷积神经网络全连接层的每个神经元都会与下一层的每个神经元相连。第l层全连接层特征向量xl可以表示如下:
xl=f(wlxl-1+bl),(3)
其中,wl是权值矩阵,bl是偏置向量。
3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练。卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数。
卷积神经网络使用一些不同的小随机数初始化神经网络的参数。CNN模型的训练需要连续的迭代优化,它可以根据迭代分类结果去调整下一次迭代的参数。将图片输入到网络,经过前向传播和后向传播两个训练阶段,前向传播过程是把一个样本输入网络,计算相应的实际输出;后向传播过程是计算实际输出与理想输出的差,根据误差率,不断优化网络参数,进行模型的训练。
4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。

Claims (4)

1.一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,包括以下步骤:
1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;
2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;
3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;
4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。
2.根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,所述步骤1)中,将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。
3.根据权利要求2所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,所述步骤2)中,每个输入图像都被缩放为256×256大小,并从中随机截取224×224大小的方形区块,以RGB三个颜色维度输入;第一、第二和第五卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层;深度卷积神经网络最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。
4.根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,所述步骤3)中,训练时卷积神经网络使用一些不同的小随机数初始化神经网络的参数。
CN201610302292.3A 2016-05-09 2016-05-09 一种基于深度卷积神经网络的体育视频镜头分类方法 Pending CN105955708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610302292.3A CN105955708A (zh) 2016-05-09 2016-05-09 一种基于深度卷积神经网络的体育视频镜头分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610302292.3A CN105955708A (zh) 2016-05-09 2016-05-09 一种基于深度卷积神经网络的体育视频镜头分类方法

Publications (1)

Publication Number Publication Date
CN105955708A true CN105955708A (zh) 2016-09-21

Family

ID=56914080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610302292.3A Pending CN105955708A (zh) 2016-05-09 2016-05-09 一种基于深度卷积神经网络的体育视频镜头分类方法

Country Status (1)

Country Link
CN (1) CN105955708A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107241645A (zh) * 2017-06-09 2017-10-10 成都索贝数码科技股份有限公司 一种通过对视频的字幕识别自动提取进球精彩瞬间的方法
CN108270946A (zh) * 2016-12-30 2018-07-10 央视国际网络无锡有限公司 一种基于特征向量库的计算机辅助视频剪辑装置
CN108810620A (zh) * 2018-07-18 2018-11-13 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、计算机设备及存储介质
CN109299687A (zh) * 2018-09-18 2019-02-01 成都网阔信息技术股份有限公司 一种基于cnn的模糊异常视频识别方法
CN109325533A (zh) * 2018-09-18 2019-02-12 成都网阔信息技术股份有限公司 一种人工智能框架进行cnn迭代训练方法
CN109858514A (zh) * 2018-12-20 2019-06-07 北京以萨技术股份有限公司 一种基于神经网络的视频行为分类方法
WO2020077494A1 (zh) * 2018-10-15 2020-04-23 华为技术有限公司 智能拍照方法、***及相关装置
CN108848389B (zh) * 2018-07-27 2021-03-30 恒信东方文化股份有限公司 一种全景视频处理方法及播放***
CN116991298A (zh) * 2023-09-27 2023-11-03 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894125A (zh) * 2010-05-13 2010-11-24 复旦大学 一种基于内容的视频分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894125A (zh) * 2010-05-13 2010-11-24 复旦大学 一种基于内容的视频分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEX KRIZHEVSKY等: ""ImageNet Classification with Deep Convolutional Neural Networks"", 《PROCEEDING OF THE NEURAL INFORMATION PROCESSING SYSTEMS 2012》 *
JAKE BOUVRIE: ""Notes on Convolutional Neural Networks"", 《MASSACHUSETTS: CENTER FOR BIOLOGICAL AND COMPUTATIONAL LEARNING》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置
CN106779073B (zh) * 2016-12-27 2019-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置
CN106504190A (zh) * 2016-12-29 2017-03-15 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN106504190B (zh) * 2016-12-29 2019-09-13 浙江工商大学 一种基于3d卷积神经网络的立体视频生成方法
CN108270946A (zh) * 2016-12-30 2018-07-10 央视国际网络无锡有限公司 一种基于特征向量库的计算机辅助视频剪辑装置
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN107241645A (zh) * 2017-06-09 2017-10-10 成都索贝数码科技股份有限公司 一种通过对视频的字幕识别自动提取进球精彩瞬间的方法
CN107241645B (zh) * 2017-06-09 2020-07-24 成都索贝数码科技股份有限公司 一种通过对视频的字幕识别自动提取进球精彩瞬间的方法
CN108810620A (zh) * 2018-07-18 2018-11-13 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、计算机设备及存储介质
CN108810620B (zh) * 2018-07-18 2021-08-17 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、装置、设备及存储介质
CN108848389B (zh) * 2018-07-27 2021-03-30 恒信东方文化股份有限公司 一种全景视频处理方法及播放***
CN109325533A (zh) * 2018-09-18 2019-02-12 成都网阔信息技术股份有限公司 一种人工智能框架进行cnn迭代训练方法
CN109299687A (zh) * 2018-09-18 2019-02-01 成都网阔信息技术股份有限公司 一种基于cnn的模糊异常视频识别方法
WO2020077494A1 (zh) * 2018-10-15 2020-04-23 华为技术有限公司 智能拍照方法、***及相关装置
US11470246B2 (en) 2018-10-15 2022-10-11 Huawei Technologies Co., Ltd. Intelligent photographing method and system, and related apparatus
CN109858514A (zh) * 2018-12-20 2019-06-07 北京以萨技术股份有限公司 一种基于神经网络的视频行为分类方法
CN116991298A (zh) * 2023-09-27 2023-11-03 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法
CN116991298B (zh) * 2023-09-27 2023-11-28 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法

Similar Documents

Publication Publication Date Title
CN105955708A (zh) 一种基于深度卷积神经网络的体育视频镜头分类方法
CN111310862B (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN105184309B (zh) 基于cnn和svm的极化sar图像分类
CN106326937B (zh) 基于卷积神经网络的人群密度分布估计方法
CN107122776A (zh) 一种基于卷积神经网络的交通标志检测与识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN109284669A (zh) 基于Mask RCNN的行人检测方法
CN107016413B (zh) 一种基于深度学习算法的烟叶在线分级方法
CN107424159A (zh) 基于超像素边缘和全卷积网络的图像语义分割方法
CN106203523A (zh) 基于梯度提升决策树半监督算法融合的高光谱图像分类
CN108960404B (zh) 一种基于图像的人群计数方法及设备
CN111178120B (zh) 一种基于作物识别级联技术的害虫图像检测方法
CN106815604A (zh) 基于多层信息融合的注视点检测方法
CN111489370B (zh) 基于深度学习的遥感图像的分割方法
CN104598924A (zh) 一种目标匹配检测方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109242826B (zh) 基于目标检测的移动设备端签状物根数计数方法及***
CN107784319A (zh) 一种基于增强卷积神经网络的病理图像分类方法
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN114863263B (zh) 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN106650823A (zh) 一种基于概率极限学习机集成的泡沫镍表面缺陷分类方法
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180112

Address after: 100022 building 3, building 88, building 7-10, Jianguo Road, Beijing, Chaoyang District, 305

Applicant after: Beijing Hippo energy Sports Technology Co., Ltd.

Address before: 710075 Shaanxi city of Xi'an province high tech Zone Feng Hui Road No. 18 sigma building room 10201-224-26

Applicant before: Xi'an Brision Information Technology Co., Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921

RJ01 Rejection of invention patent application after publication