CN107766838B - 一种视频场景切换检测方法 - Google Patents

一种视频场景切换检测方法 Download PDF

Info

Publication number
CN107766838B
CN107766838B CN201711089563.2A CN201711089563A CN107766838B CN 107766838 B CN107766838 B CN 107766838B CN 201711089563 A CN201711089563 A CN 201711089563A CN 107766838 B CN107766838 B CN 107766838B
Authority
CN
China
Prior art keywords
video scene
detection model
scene switching
layer
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711089563.2A
Other languages
English (en)
Other versions
CN107766838A (zh
Inventor
苏许臣
朱立松
黄建杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cntv Wuxi Co ltd
Original Assignee
Cntv Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cntv Wuxi Co ltd filed Critical Cntv Wuxi Co ltd
Priority to CN201711089563.2A priority Critical patent/CN107766838B/zh
Publication of CN107766838A publication Critical patent/CN107766838A/zh
Application granted granted Critical
Publication of CN107766838B publication Critical patent/CN107766838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频场景切换检测方法,属于多媒体信息处理技术领域,通过视频场景切换检测模型完成检测,包括视频场景切换检测模型的训练和视频场景切换检测模型的应用。本发明采用深度学习算法,模型的判别阈值由训练过程自动调整到最优,因此,不用设置阈值;由于模型输入增加了两帧的帧差,使得模型收敛速度更快;由于模型采用了batch normalization技术防止训练过拟合,提高了模型的泛化能力。

Description

一种视频场景切换检测方法
技术领域
本发明涉及一种视频检测方法,特别是涉及一种视频场景切换检测方法,属于多媒体信息处理技术领域。
背景技术
一个视频一般由多个场景组成,一个场景由多个视频帧组成,视频场景检测是指找出一个视频的发生场景切换的帧和帧位置,得到的位置能用于视频快速和精确剪辑,得到的帧组成的帧序列可以用于粗略描述整个视频内容。
目前,传统的视频场景检测方法一般采用人工提取特征的方式,例如计算相邻帧的颜色直方图相似度,或者直接计算帧差,或者利用视频场景中各帧的高频子带系数的变化程度特征VH检测场景切换,其中计算高频子带系数需要用到三维小波变换等算法,如申请号为200810118534.9的中国专利,这些技术都会计算出一个特征值然后与阈值比较,如果大于阈值或者小于阈值者判定为切换帧。还有一些基于上述技术的自适应阈值算法,如申请号为201410466385.0的中国专利中介绍的基于自适应阈值的视频场景变化检测方法,但是该滑动窗大小以及预设值B还是需要人工设定。
目前,传统的视频场景检测方法都是采用经典的数学算法提取特征,算法的设计比较复杂而且算法的好坏决定了最终的准确率,另外传统的算法避免不了各种阈值的设定,如相似度大小的阈值、滑动窗口的阈值等等,这些阈值的设定需要凭经验获取,阈值的设定好坏也决定了检测准确率的高低。
发明内容
本发明的主要目的是为了提供一种视频场景切换检测方法,将预先准备的大量切换帧对和非切换帧对输入模型进行训练,将待检测视频相邻帧抽取出来依次输入训练好的模型,根据模型的输出找出所有的切换帧位置,无需指定任何阈值,准确率高。
本发明的目的可以通过采用如下技术方案达到:
一种视频场景切换检测方法,通过视频场景切换检测模型完成检测,包括视频场景切换检测模型的训练和视频场景切换检测模型的应用。
进一步的,所述视频场景切换检测模型的训练包括如下步骤:
步骤11:定义视频场景切换检测模型的参数;
步骤12:构建视频场景切换检测模型;
步骤13:定义损失函数,采用交叉熵作为损失函数;
步骤14:定义优化器,采用Adam优化算法;
步骤15:定义评估函数计算视频场景切换检测模型判别准确率;
步骤16:训练和评估视频场景切换检测模型,每训练20次保存一次参数。
进一步的,所述视频场景切换检测模型的应用包括如下步骤:
步骤21:依次读取待检测的视频一帧,并resize到96x96大小;
步骤22:将当前帧及上一帧输入训练好的视频场景切换检测模型,得到视频场景切换检测模型输出结果;
步骤23:如果视频场景切换检测模型输出的结果是切换帧,则输出当前帧序号并保存该帧。
进一步的,所述视频场景切换检测模型包括PAD层、多个卷积组、Reshape层、全连接层512、全连接层2和Softmax层。
进一步的,所述卷积组包括卷积组9×9×32、卷积组3×3×64和卷积组5×5×128。
进一步的,每个所述卷积组包括一个卷积层、一个Relu层、一个池化层和一个批归一化层。
进一步的,所述卷积组9×9×32的卷积核大小是9×9,输出特征数是32;
所述卷积组3×3×64的卷积核是3×3,输出特征数是64;
所述卷积组5×5×128的卷积核是5×5,输出特征数是128;
所述池化层的步长为2×2。
进一步的,所述视频场景切换检测模型的输入是一个图像帧对,分别表示为X1、X2,图像的大小是96×96×3。
进一步的,所述视频场景切换检测模型的检测,包括:首先将X1、X2以及X1-X2输入PAD层,在PAD层将三幅图像叠加在一起变成96×96×9的矩阵,经过卷积组9×9×32以后输出变成48×48×32的矩阵;再经过卷积组3×3×64,输出24×24×64的矩阵,再经过卷积组5×5×128,输出12×12x128的矩阵,之后通过Reshape层将该矩阵展平变成一维矩阵1x18432,再通过全连接层512和全连接层2,输出变成1×2,最后用Softmax层计算输出切换帧和非切换帧的概率,取两者大的一个就代表最终的判别输出结果。
本发明的有益技术效果:按照本发明的视频场景切换检测方法,本发明提供的视频场景切换检测方法,采用深度学习算法,模型的判别阈值由训练过程自动调整到最优,因此,不用设置阈值;由于模型输入增加了两帧的帧差,使得模型收敛速度更快;由于模型采用了batch normalization技术防止训练过拟合,提高了模型的泛化能力。
附图说明
图1为按照本发明的视频场景切换检测方法的一优选实施例的模型结构示意图;
图2为按照本发明的视频场景切换检测方法的一优选实施例的卷积组模型示意图;
图3为按照本发明的视频场景切换检测方法的一优选实施例的模型应用流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1、图2和图3所示,本实施例提供的一种视频场景切换检测方法,通过视频场景切换检测模型完成检测,包括视频场景切换检测模型的训练和视频场景切换检测模型的应用;所述视频场景切换检测模型的训练包括如下步骤:
步骤11:定义视频场景切换检测模型的参数;
步骤12:构建视频场景切换检测模型;
步骤13:定义损失函数,采用交叉熵作为损失函数;
步骤14:定义优化器,采用Adam优化算法;
步骤15:定义评估函数计算视频场景切换检测模型判别准确率;
步骤16:训练和评估视频场景切换检测模型,每训练20次保存一次参数。
进一步的,所述视频场景切换检测模型的应用包括如下步骤:
步骤21:依次读取待检测的视频一帧,并resize到96x96大小;
步骤22:将当前帧及上一帧输入训练好的视频场景切换检测模型,得到视频场景切换检测模型输出结果;
步骤23:如果视频场景切换检测模型输出的结果是切换帧,则输出当前帧序号并保存该帧。
进一步的,在本实施例中,如图1和图2所示,所述视频场景切换检测模型包括PAD层、多个卷积组、Reshape层、全连接层512、全连接层2和Softmax层;所述卷积组包括卷积组9×9×32、卷积组3×3×64和卷积组5×5×128;每个所述卷积组包括一个卷积层、一个Relu层、一个池化层和一个批归一化层。
进一步的,在本实施例中,如图1所示,所述卷积组9×9×32的卷积核大小是9×9,输出特征数是32;
所述卷积组3×3×64的卷积核是3×3,输出特征数是64;
所述卷积组5×5×128的卷积核是5×5,输出特征数是128;
所述池化层的步长为2×2。
进一步的,在本实施例中,所述视频场景切换检测模型的输入是一个图像帧对,分别表示为X1、X2,图像的大小是96×96×3;所述视频场景切换检测模型的检测,包括:首先将X1、X2以及X1-X2输入PAD层,在PAD层将三幅图像叠加在一起变成96×96×9的矩阵,经过卷积组9×9×32以后输出变成48×48×32的矩阵;再经过卷积组3×3×64,输出24×24×64的矩阵,再经过卷积组5×5×128,输出12×12x128的矩阵,之后通过Reshape层将该矩阵展平变成一维矩阵1x18432,再通过全连接层512和全连接层2,输出变成1×2,最后用Softmax层计算输出切换帧和非切换帧的概率,取两者大的一个就代表最终的判别输出结果。
进一步的,在本实施例中,首先介绍模型的组成。如图1所示,模型的输入是一个图像帧对,分别表示为X1、X2,图像的大小是96×96×3(3代表通道数)。首先将X1、X2以及X1-X2输入PAD层,在PAD层将三幅图像叠加在一起变成96×96×9的矩阵,再经过一个卷积组,它包括一个卷积层,一个relu层,一个max-pooling池化层以及一个批归一化层(batchnormalization),其中卷积层的卷积核大小是9×9,输出特征数是32,池化层的步长为2×2,这样经过一个卷积组以后输出变成48×48×32的矩阵;再经过第二个卷积组(它的卷积核是3×3,输出特征数是64),输出24×24×64的矩阵,再经过第三个卷积组(它的卷积核是5×5,输出特征数是128),输出12×12×128的矩阵,之后通过reshape层将该矩阵展平变成一维矩阵1×18432(18432=12×12×128),再通过两个全连接层,输出变成1×2,最后是输出层,用softmax计算输出两类的概率,分别代表是切换帧和非切换帧的概率,取两者大的那一个就代表最终的判别输出结果,如输出[0.886,0.114]表示是切换帧。
综上所述,在本实施例中,按照本实施例的视频场景切换检测方法,本实施例提供的视频场景切换检测方法,采用深度学习算法,模型的判别阈值由训练过程自动调整到最优,因此,不用设置阈值;由于模型输入增加了两帧的帧差,使得模型收敛速度更快;由于模型采用了batch normalization技术防止训练过拟合,提高了模型的泛化能力。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (8)

1.一种视频场景切换检测方法,其特征在于,通过视频场景切换检测模型完成检测,包括视频场景切换检测模型的训练和视频场景切换检测模型的应用;
所述视频场景切换检测模型的训练包括如下步骤:
步骤11:定义视频场景切换检测模型的参数;
步骤12:构建视频场景切换检测模型;
步骤13:定义损失函数,采用交叉熵作为损失函数;
步骤14:定义优化器,采用Adam优化算法;
步骤15:定义评估函数计算视频场景切换检测模型判别准确率;
步骤16:训练和评估视频场景切换检测模型,每训练20次保存一次参数。
2.根据权利要求1所述的一种视频场景切换检测方法,其特征在于,所述视频场景切换检测模型的应用包括如下步骤:
步骤21:依次读取待检测的视频一帧,并resize到96x96大小;
步骤22:将当前帧及上一帧输入训练好的视频场景切换检测模型,得到视频场景切换检测模型输出结果;
步骤23:如果视频场景切换检测模型输出的结果是切换帧,则输出当前帧序号并保存该帧。
3.根据权利要求1所述的一种视频场景切换检测方法,其特征在于,所述视频场景切换检测模型包括PAD层、多个卷积组、Reshape层、全连接层512、全连接层2和Softmax层。
4.根据权利要求3所述的一种视频场景切换检测方法,其特征在于,所述卷积组包括卷积组9×9×32、卷积组3×3×64和卷积组5×5×128。
5.根据权利要求3所述的一种视频场景切换检测方法,其特征在于,每个所述卷积组包括一个卷积层、一个Relu层、一个池化层和一个批归一化层。
6.根据权利要求5所述的一种视频场景切换检测方法,其特征在于,所述卷积组9×9×32的卷积核大小是9×9,输出特征数是32;
所述卷积组3×3×64的卷积核是3×3,输出特征数是64;
所述卷积组5×5×128的卷积核是5×5,输出特征数是128;
所述池化层的步长为2×2。
7.根据权利要求3所述的一种视频场景切换检测方法,其特征在于,所述视频场景切换检测模型的输入是一个图像帧对,分别表示为X1、X2,图像的大小是96×96×3。
8.根据权利要求1所述的一种视频场景切换检测方法,其特征在于,所述视频场景切换检测模型的检测,包括:首先将X1、X2以及X1-X2输入PAD层,在PAD层将三幅图像叠加在一起变成96×96×9的矩阵,经过卷积组9×9×32以后输出变成48×48×32的矩阵;再经过卷积组3×3×64,输出24×24×64的矩阵,再经过卷积组5×5×128,输出12×12x128的矩阵,之后通过Reshape层将该矩阵展平变成一维矩阵1x18432,再通过全连接层512和全连接层2,输出变成1×2,最后用Softmax层计算输出切换帧和非切换帧的概率,取两者大的一个就代表最终的判别输出结果。
CN201711089563.2A 2017-11-08 2017-11-08 一种视频场景切换检测方法 Active CN107766838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711089563.2A CN107766838B (zh) 2017-11-08 2017-11-08 一种视频场景切换检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711089563.2A CN107766838B (zh) 2017-11-08 2017-11-08 一种视频场景切换检测方法

Publications (2)

Publication Number Publication Date
CN107766838A CN107766838A (zh) 2018-03-06
CN107766838B true CN107766838B (zh) 2021-06-01

Family

ID=61273831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711089563.2A Active CN107766838B (zh) 2017-11-08 2017-11-08 一种视频场景切换检测方法

Country Status (1)

Country Link
CN (1) CN107766838B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110876143A (zh) * 2018-08-31 2020-03-10 北京意锐新创科技有限公司 基于移动支付设备的防切换应用***的方法和装置
CN110377794B (zh) * 2019-06-12 2022-04-01 杭州当虹科技股份有限公司 一种视频特征描述与去重检索处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU654952A1 (ru) * 1978-02-06 1979-03-30 Ставропольское высшее военное инженерное училище связи Устройство дл обучени учащихс обнаружению сигналов на фоне помехи
CN103458261A (zh) * 2013-09-08 2013-12-18 华东电网有限公司 一种基于立体视觉的视频场景变化检测方法
CN104615986A (zh) * 2015-01-30 2015-05-13 中国科学院深圳先进技术研究院 利用多检测器对场景变化的视频图像进行行人检测的方法
CN105005772A (zh) * 2015-07-20 2015-10-28 北京大学 一种视频场景检测方法
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及***
CN106446930A (zh) * 2016-06-28 2017-02-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU654952A1 (ru) * 1978-02-06 1979-03-30 Ставропольское высшее военное инженерное училище связи Устройство дл обучени учащихс обнаружению сигналов на фоне помехи
CN103458261A (zh) * 2013-09-08 2013-12-18 华东电网有限公司 一种基于立体视觉的视频场景变化检测方法
CN104615986A (zh) * 2015-01-30 2015-05-13 中国科学院深圳先进技术研究院 利用多检测器对场景变化的视频图像进行行人检测的方法
CN105005772A (zh) * 2015-07-20 2015-10-28 北京大学 一种视频场景检测方法
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及***
CN106446930A (zh) * 2016-06-28 2017-02-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Comparison of Scene Change Detection Algorithms for Videos;Bindu Reddy等;《2015 Fifth International Conference on Advanced Computing & Communication Technologies》;20150406;第84-89页 *
Hybrid approach for video compression based on scene change detection;Ankita P. Chauhan等;《 2013 IEEE International Conference on Signal Processing, Computing and Control (ISPCC)》;20131114;第1-5页 *
Scene Change Detection Using DCT Features in Transform Domain Video Indexing;S. Primechaev等;《 2007 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services》;20071112;第369-372页 *
适配分辨率动态变化的低复杂度视频场景切换检测方法;方宏俊等;《计算机科学》;20170228;第44卷(第2期);摘要 *

Also Published As

Publication number Publication date
CN107766838A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN109614922B (zh) 一种动静态手势识别方法和***
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN107145889B (zh) 基于具有RoI池化的双CNN网络的目标识别方法
CN106709453B (zh) 一种基于深度学习的体育视频关键姿态提取方法
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN111062278B (zh) 基于改进残差网络的异常行为识别方法
CN110533022B (zh) 一种目标检测方法、***、装置及存储介质
CN111079539B (zh) 一种基于异常追踪的视频异常行为检测方法
CN109740721B (zh) 麦穗计数方法及装置
CN107944354B (zh) 一种基于深度学习的车辆检测方法
CN111860587B (zh) 一种用于图片小目标的检测方法
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN107463932A (zh) 一种使用二进制瓶颈神经网络来抽取图片特征的方法
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN107766838B (zh) 一种视频场景切换检测方法
CN114445651A (zh) 一种语义分割模型的训练集构建方法、装置及电子设备
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN113888505B (zh) 一种基于语义分割的自然场景文本检测方法
CN109978858B (zh) 一种基于前景检测的双框架缩略图像质量评价方法
CN115311111A (zh) 课堂参与度评价方法及***
CN104268845A (zh) 极值温差短波红外图像的自适应双局部增强方法
CN113139431B (zh) 基于深监督学习的图像显著性目标检测方法
CN112446417B (zh) 基于多层超像素分割的纺锤形果实图像分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant