CN104008175A - 一种情感激励下的视频关键帧自适应提取方法 - Google Patents
一种情感激励下的视频关键帧自适应提取方法 Download PDFInfo
- Publication number
- CN104008175A CN104008175A CN201410248555.8A CN201410248555A CN104008175A CN 104008175 A CN104008175 A CN 104008175A CN 201410248555 A CN201410248555 A CN 201410248555A CN 104008175 A CN104008175 A CN 104008175A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- camera lens
- degree
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Studio Devices (AREA)
Abstract
本发明涉及一种情感激励下的视频关键帧自适应提取方法。从视频观看者情绪波动的角度考虑,通过计算视频帧的运动强度作为视频观看者观看视频时的视觉情感激励度,计算短时平均能量、音调作为听觉情感激励度,将听视觉情感激励度进行线性融合得到镜头内每个视频帧的视频情感激励度并生成镜头的视频情感激励度曲线;然后根据镜头的视频情感激励变化情况得到本镜头应分配到的视频关键帧数目KN;最后取视频情感激励度曲线情感激励度最高的前KN个波峰所对应的视频帧作为镜头关键帧。本发明的方法简单,从视频观看者情感变化的角度入手考虑,用视频情感激励度从语义从指导关键帧提取,所提取的视频关键帧更具有代表性以及有效性。
Description
技术领域
本发明涉及视频图像处理领域,特别是一种情感激励下的视频关键帧自适应提取方法。
背景技术
近年来多媒体技术的发展以及便携视频设备的普及催生出越来越多的视频数据,如何对这些数据进行快速浏览与高效管理成为一个亟待解决的问题。人的时间精力与视频的增长速度不成正比。一方面,人的时间跟精力是有限的,无法全部浏览自己感兴趣的视频;另一方面,视频数量不断暴涨。比如,对于体育视频爱好者来说,由于各方面的因素他们无法浏览一段时间内的全部比赛视频。事实上,他们可能只关注每场比赛的一些关键瞬间。为节省时间,需要对视频内容进行一定的分析,提取出其中的视频关键帧让用户尽可能快速地了解整段视频。
视频关键帧提取技术为用户能够快速了解视频片段提供了可能,为视频摘要以及视频检索提供了技术支撑。由于视频关键帧最终将服务于用户,因此如何充分考虑视频观看者情感变化以及视频的情感语义变化情况,从视频情感语义上更好地指导视频关键帧提取成为目前研究的重点问题之一。
传统的视频关键帧提取方法主要基于低层物理特征进行分析,没有从高层情感语义的角度分析问题。视频关键帧的一个很重要的特性在于它一般要服务于用户,没有从视频观看者的角度思考问题,没有从情感语义上定位视频关键帧往往导致所提取的视频关键帧缺乏一定的价值性和代表性。这类方法大多基于聚类或者基于运动分析。因此,目前本领域相关技术人员需要解决的技术问题在于:如何考虑视频观看者情感变化以及视频的情感语义变化情况,从视频情感语义上指导视频关键帧提取,使提取出来的视频关键帧更具有代表性和有效性。
发明内容
本发明的目的在于提供一种情感激励下的视频关键帧自适应提取方法,使得在视频情感语义的指导下所提取的视频关键帧更具有代表性和有效性,并且实现镜头关键帧数目的合理分配。
为实现上述目的,本发明的技术方案是:一种情感激励下的视频关键帧自适应提取方法,包括如下步骤,
步骤S1:从视频镜头中提取出所有视频帧并计算每个视频帧的视觉情感激励度 ;
步骤S2:计算与步骤S1中每个视频帧同步的音频数据的听觉情感激励度;
步骤S3:通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,得出每个视频帧的视频情感激励度,最后根据各镜头的视频情感激励情况自适应地计算出镜头的视频关键帧数目KN;
步骤S4:根据镜头内所有视频帧的视频情感激励度得到镜头的视频情感激励度曲线,在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。
在本发明实施例中,所述步骤S1所述视频帧的视觉情感激励度的提取,是根据视频帧的运动强度按照以下方案实现:
步骤S11:用横向R-1、纵向C-1条平行线把每个视频帧分成R·C个子块,其中,R、C为自然数,且R>1,C>1;
步骤S12:计算当前视频帧与相邻的前一帧在对应像素点的像素差绝对值,根据像素差值绝对值计算当前帧在该像素点的运动强度;用表示像素点(i,j)的运动强度,若像素差值绝对值大于阈值,则认为该像素点发生运动,将置为1,反之为0;
步骤S13:根据所述子块内发生运动的像素比例来计算子块的运动强度;用表示当前帧在第i个子块的运动强度,子块内发生运动的像素点比例超过阈值就认为该子块发生运动,将该子块的运动强度置为1,反之为0;
步骤S14:根据当前视频帧发生运动的子块数占所有子块数的比例来计算视频帧的运动强度,即视觉情感激励度。
在本发明实施例中,所述步骤S2所述视频帧的同步音频数据的听觉情感激励度的提取,是根据音频帧的短时平均能量和音调按照以下方案计算得到:
步骤S21:将所述视频帧的同步音频数据进行音频分帧处理,音频帧之间有50%重叠,得到AN个音频帧;
步骤S22:计算每个音频帧的短时能量Energy,取AN个音频帧的平均短时能量作为所述视频帧所对应的声音能量情感激励度;
步骤S23:计算每个音频帧的音调Pitch,取AN个音频帧的平均音调作为所述视频帧所对应的音***感激励度;
步骤S24:所述视频帧的同步音频数据的听觉情感激励度由以及相加得到,即。
在本发明实施例中,所述步骤S3所述的镜头视频关键帧数目KN的自适应计算方法按照以下方案实现:
步骤S31:通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,得出镜头中每个视频帧的视频情感激励度;
步骤S32:计算当前镜头S k 的相邻两帧的视频情感激励度差异累加和均值,,其中,F(i)是第i视频帧的视频情感激励度,N是镜头S k 内视频帧的总数;
步骤S33:计算当前镜头S k 应分配到的视频关键帧数目KN k :,其中,KN k 表示分配给镜头S k 的视频关键帧数目,Sum表示预设的视频关键帧总数,M表示视频序列的镜头数,是镜头S k 的的相邻两帧的视频情感激励度差异累加和均值,max()是求最大值操作;每个镜头至少有一帧视频关键帧,此时镜头的视频关键帧就是镜头视频情感激励度曲线最大值处所对应的视频帧。
在本发明实施例中,所述步骤S33所述预设的视频关键帧总数Sum由以下方案确定:赋予Sum初始值为视频文件镜头总数的3倍,并且允许用户通过交互的方式设定新值,所设定的新值不能低于视频文件的镜头数;若用户没有设定新值,则Sum值为默认的初始值;反之,Sum值为用户设定的合法值。
相较于现有技术,本发明具有以下有益效果:本发明提出了一种情感激励下的视频关键帧自适应提取方法,从视频观看者情感变化以及视频情感语义变化的角度考虑,计算出了视频观看者在观看视频时的视频情感激励度,从视频情感语义上指导视频关键帧提取,所提取的视频关键帧更具有代表性及有效性;此外,本发明还提出一种视频关键帧数目自适应方法,根据每个镜头的视频情感激励度情况动态决定镜头内视频关键帧数目。
附图说明
图1为本发明是情感激励下的视频关键帧自适应提取方法的结构框图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种情感激励下的视频关键帧自适应提取方法,包括如下步骤,
步骤S1:从视频镜头中提取出所有视频帧并计算每个视频帧的视觉情感激励度;
步骤S2:计算与步骤S1中每个视频帧同步的音频数据的听觉情感激励度;
步骤S3:通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,得出每个视频帧的视频情感激励度,最后根据各镜头的视频情感激励情况自适应地计算出镜头的视频关键帧数目KN;
步骤S4:根据镜头内所有视频帧的视频情感激励度得到镜头的视频情感激励度曲线,在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。
以下为本发明具体实施例。
请参照图1,本发明通过计算视频帧的运动强度作为视频观看者观看视频时的视觉情感激励度,计算短时平均能量、音调作为听觉情感激励度,将听视觉情感激励度进行线性融合得到镜头内每个视频帧的视频情感激励度并生成镜头的视频情感激励度曲线,该曲线反应了视频观看者观看视频时的兴奋及激动程度;然后根据镜头的视频情感激励变化情况得到本镜头应分配到的视频关键帧数目KN k ;最后取视频情感激励度曲线情感激励度最高的前KN个波峰所对应的视频帧作为镜头关键帧,具体如下:
步骤1:计算镜头内视频帧的视觉情感激励度。其过程如下:(1)用横向R-1、纵向C-1条平行线把每个视频帧分成R·C个子块,R>1,C>1;(2)计算当前视频帧与相邻的前一帧在对应像素点的像素差绝对值,根据像素差值绝对值计算当前帧在该像素点的运动强度。用表示像素点(i,j)的运动强度,若像素差值绝对值大于阈值,则认为该像素点发生运动,运动强度置为1,反之为0;(3)根据子块内发生运动的像素比例来计算子块的运动强度。用表示当前帧在第i个子块的运动强度,块内发生运动的像素点比例超过阈值就认为该块发生运动,将该块的运动强度置为1,反之为0;(4)根据当前视频帧发生运动的子块数占所有子块数的比例来计算视频帧的运动强度,即运动强度,也即视觉情感激励度。
步骤2:计算与每个视频帧同步的音频数据的听觉情感激励度。其步骤如下:(1)将该视频帧所对应的音频数据进行音频分帧处理,音频帧之间有50%重叠,得到AN个音频帧;(2)计算每个音频帧的短时能量Energy,取AN个音频帧的平均短时能量作为该视频帧所对应的声音能量情感激励度;(3)计算每个音频帧的音调Pitch,取AN个音频帧的平均音调作为该视频帧所对应的音***感激励度;(4)该视频帧所对应的听觉情感激励度由以及相加得到,即。
步骤3:自适应地计算出镜头的视频关键帧数目KN。其过程如下:(1)通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,即,其中 分别为、的权重值,最终得出镜头中每个视频帧的情感激励度;(2)计算当前镜头S k 的相邻两帧的视频情感激励度差异累加和均值,,其中F(i)是第i视频帧的视频情感激励度,N是镜头S k 内视频帧的总数;(3)计算当前镜头S k 应分配到的视频关键帧数目KN k :,其中KN k 表示分配给镜头S k 的视频关键帧数目,Sum表示预设的视频关键帧总数,M表示视频序列的镜头数,是镜头S k 的的相邻两帧的视频情感激励度差异累加和均值,max()是求最大值操作。每个镜头至少有一帧视频关键帧,此时镜头的视频关键帧就是镜头情感激励度曲线最大值处所对应的视频帧。其中,视频文件的关键帧总数Sum由以下方案确定:赋予Sum初始值为视频文件镜头总数的3倍,并且允许用户通过交互的方式设定新值,所设定的新值不能低于视频文件的镜头数。若用户没有设定新值,则Sum值为默认的初始值;反之,Sum值为用户设定的合法值。
步骤4:镜头视频关键帧提取。根据镜头内每个视频帧的视频情感激励度得到镜头的视频情感激励度曲线。在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种情感激励下的视频关键帧自适应提取方法,其特征在于:包括如下步骤,
步骤S1:从视频镜头中提取出所有视频帧并计算每个视频帧的视觉情感激励度 ;
步骤S2:计算与步骤S1中每个视频帧同步的音频数据的听觉情感激励度;
步骤S3:通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,得出每个视频帧的视频情感激励度,最后根据各镜头的视频情感激励情况自适应地计算出镜头的视频关键帧数目KN;
步骤S4:根据镜头内所有视频帧的视频情感激励度得到镜头的视频情感激励度曲线,在镜头的视频情感激励度曲线中选取视频情感激励度最高的前KN个波峰所对应的视频帧作为镜头的视频关键帧。
2.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法,其特征在于:所述步骤S1所述视频帧的视觉情感激励度的提取,是根据视频帧的运动强度按照以下方案实现:
步骤S11:用横向R-1、纵向C-1条平行线把每个视频帧分成R·C个子块,其中,R、C为自然数,且R>1,C>1;
步骤S12:计算当前视频帧与相邻的前一帧在对应像素点的像素差绝对值,根据像素差值绝对值计算当前帧在该像素点的运动强度;用表示像素点(i,j)的运动强度,若像素差值绝对值大于阈值,则认为该像素点发生运动,将置为1,反之为0;
步骤S13:根据所述子块内发生运动的像素比例来计算子块的运动强度;用表示当前帧在第i个子块的运动强度,子块内发生运动的像素点比例超过阈值就认为该子块发生运动,将该子块的运动强度置为1,反之为0;
步骤S14:根据当前视频帧发生运动的子块数占所有子块数的比例来计算视频帧的运动强度,即视觉情感激励度。
3.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法,其特征在于:所述步骤S2所述视频帧的同步音频数据的听觉情感激励度的提取,是根据音频帧的短时平均能量和音调按照以下方案计算得到:
步骤S21:将所述视频帧的同步音频数据进行音频分帧处理,音频帧之间有50%重叠,得到AN个音频帧;
步骤S22:计算每个音频帧的短时能量Energy,取AN个音频帧的平均短时能量作为所述视频帧所对应的声音能量情感激励度;
步骤S23:计算每个音频帧的音调Pitch,取AN个音频帧的平均音调作为所述视频帧所对应的音***感激励度;
步骤S24:所述视频帧的同步音频数据的听觉情感激励度由以及相加得到,即。
4.根据权利要求1所述的一种情感激励下的视频关键帧自适应提取方法,其特征在于:所述步骤S3所述的镜头视频关键帧数目KN的自适应计算方法按照以下方案实现:
步骤S31:通过线性加权的方式将视觉情感激励度与听觉情感激励度融合,二者权重相等,得出镜头中每个视频帧的视频情感激励度;
步骤S32:计算当前镜头S k 的相邻两帧的视频情感激励度差异累加和均值,,其中,F(i)是第i视频帧的视频情感激励度,N是镜头S k 内视频帧的总数;
步骤S33:计算当前镜头S k 应分配到的视频关键帧数目KN k :,其中,KN k 表示分配给镜头S k 的视频关键帧数目,Sum表示预设的视频关键帧总数,M表示视频序列的镜头数,是镜头S k 的的相邻两帧的视频情感激励度差异累加和均值,max()是求最大值操作;每个镜头至少有一帧视频关键帧,此时镜头的视频关键帧就是镜头视频情感激励度曲线最大值处所对应的视频帧。
5.根据权利要4所述的一种情感激励下的视频关键帧自适应提取方法,其特征在于:所述步骤S33所述预设的视频关键帧总数Sum由以下方案确定:赋予Sum初始值为视频文件镜头总数的3倍,并且允许用户通过交互的方式设定新值,所设定的新值不能低于视频文件的镜头数;若用户没有设定新值,则Sum值为默认的初始值;反之,Sum值为用户设定的合法值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410248555.8A CN104008175B (zh) | 2014-06-06 | 2014-06-06 | 一种情感激励下的视频关键帧自适应提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410248555.8A CN104008175B (zh) | 2014-06-06 | 2014-06-06 | 一种情感激励下的视频关键帧自适应提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008175A true CN104008175A (zh) | 2014-08-27 |
CN104008175B CN104008175B (zh) | 2017-03-08 |
Family
ID=51368832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410248555.8A Expired - Fee Related CN104008175B (zh) | 2014-06-06 | 2014-06-06 | 一种情感激励下的视频关键帧自适应提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008175B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375695A (zh) * | 2016-08-30 | 2017-02-01 | 百味迹忆(厦门)网络科技有限公司 | 音视频评分并存储的方法及装置 |
CN106921867A (zh) * | 2015-12-25 | 2017-07-04 | 北京奇虎科技有限公司 | 一种视频代表性图片、片段确定方法和装置 |
CN107968961A (zh) * | 2017-12-05 | 2018-04-27 | 吕庆祥 | 基于情感曲线剪辑视频的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101316362A (zh) * | 2007-05-29 | 2008-12-03 | 中国科学院计算技术研究所 | 一种基于故事情节发展模型分析的电影动作场景检测方法 |
CN101834982A (zh) * | 2010-05-28 | 2010-09-15 | 上海交通大学 | 基于多模态的暴力视频分层筛选方法 |
US7983340B2 (en) * | 2003-01-15 | 2011-07-19 | Microsoft Corporation | Extracting key frames from video using a triangle model of motion based on perceived motion energy |
-
2014
- 2014-06-06 CN CN201410248555.8A patent/CN104008175B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983340B2 (en) * | 2003-01-15 | 2011-07-19 | Microsoft Corporation | Extracting key frames from video using a triangle model of motion based on perceived motion energy |
CN101316362A (zh) * | 2007-05-29 | 2008-12-03 | 中国科学院计算技术研究所 | 一种基于故事情节发展模型分析的电影动作场景检测方法 |
CN101834982A (zh) * | 2010-05-28 | 2010-09-15 | 上海交通大学 | 基于多模态的暴力视频分层筛选方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106921867A (zh) * | 2015-12-25 | 2017-07-04 | 北京奇虎科技有限公司 | 一种视频代表性图片、片段确定方法和装置 |
CN106375695A (zh) * | 2016-08-30 | 2017-02-01 | 百味迹忆(厦门)网络科技有限公司 | 音视频评分并存储的方法及装置 |
CN106375695B (zh) * | 2016-08-30 | 2019-03-05 | 百味迹忆(厦门)网络科技有限公司 | 音视频评分并存储的方法及装置 |
CN107968961A (zh) * | 2017-12-05 | 2018-04-27 | 吕庆祥 | 基于情感曲线剪辑视频的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104008175B (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013463B2 (en) | Generating a feed of content items associated with a topic from multiple content sources | |
CN106953887B (zh) | 一种细粒度电台音频内容个性化组织推荐方法 | |
CN105957530B (zh) | 一种语音控制方法、装置和终端设备 | |
EP3759935A1 (en) | Automated voice translation dubbing for prerecorded videos | |
US10037313B2 (en) | Automatic smoothed captioning of non-speech sounds from audio | |
CN108009228A (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN107222795B (zh) | 一种多特征融合的视频摘要生成方法 | |
CN110324662A (zh) | 一种视频封面生成方法及装置 | |
WO2014162788A1 (ja) | 顔表情採点装置、ダンス採点装置、カラオケ装置、およびゲーム装置 | |
CN111930994A (zh) | 视频编辑的处理方法、装置、电子设备及存储介质 | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
CN110049370A (zh) | 使用音频流识别与当前播放的电视节目相关联的元数据 | |
EP3279809A1 (en) | Control device, control method, computer and program | |
US9563704B1 (en) | Methods, systems, and media for presenting suggestions of related media content | |
CN102999507A (zh) | 网络微博名人信息的推荐处理方法和装置 | |
CN106776971A (zh) | 视频与电子书关联方法、设备、客户端设备和服务器 | |
CN104463139A (zh) | 一种音频情感驱动下的体育视频精彩事件检测方法 | |
CN108985813A (zh) | 广告编入装置和广告编入方法 | |
CN106776808A (zh) | 基于人工智能的资讯数据提供方法及装置 | |
CN104008175A (zh) | 一种情感激励下的视频关键帧自适应提取方法 | |
CN105280203B (zh) | 一种音频播放方法及用户设备 | |
JP2011164681A (ja) | 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体 | |
CN104462454A (zh) | 一种性格分析方法 | |
Hasan et al. | Multi-modal highlight generation for sports videos using an information-theoretic excitability measure | |
CN113111197A (zh) | 多媒体内容的推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170308 Termination date: 20200606 |
|
CF01 | Termination of patent right due to non-payment of annual fee |