CN101650722A

CN101650722A - 基于音视频融合的足球视频精彩事件检测方法

Info

Publication number: CN101650722A
Application number: CN200910027398A
Authority: CN
Inventors: 王建宇; 张玉珍; 魏带娣
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2009-06-01
Filing date: 2009-06-01
Publication date: 2010-02-17
Anticipated expiration: 2029-06-01
Also published as: CN101650722B

Abstract

本发明公开了一种基于音视频融合的足球视频中精彩事件的检测方法，检测方法的步骤为：(1)对足球比赛压缩视频解码，得到视频流；(2)对视频流进行镜头分割；(3)根据镜头分割的结果，进行徽标镜头检测，并基于徽标检测慢镜头；(4)对视频流进行音频提取，得到音频流，并将音频流切割成音频片段，然后根据从每个音频片段提取的观察矢量将每个音频片段进行分类(5)根据音频片段分类结果以及视频流和音频流的时间对应关系，并结合慢镜头，进行精彩事件检测。本发明有效地融合了音频信息和视觉信息，不仅检测出的精彩事件丰富，而且具有准确、快速、误解率低的优点。

Description

基于音视频融合的足球视频精彩事件检测方法

技术领域

本发明属于体育视频中精彩事件的检测技术，特别是一种基于足球视频中慢镜头检测、对视频中音频信息分类并有效融合音频信息和视觉信息的足球视频精彩事件的检测方法。

背景技术

足球是世界上最广泛的运动之一，深受广大球迷喜爱。通常一场完整的足球比赛要持续两个小时左右，但是其中能够吸引观众的精彩镜头却只占其中的一小部分。因此为足球比赛提供精彩事件的摘要和快速浏览的生成方案，能够节省人们大量宝贵时间。现有的技术中，对精彩事件的检测多是基于视觉信息，例如公开号为CN 1991864A的中国专利公开了一种基于球门的足球视频精彩事件检测方法，在该专利中发明人根据视觉信息检测出球门，然后根据球门和镜头类型检测出发生在球门禁区附近的精彩事件。然而在足球视频中精彩事件并不只是发生在球门禁区附近，例如犯规事件。又如公开号为CN 101127866A的中国专利也是只基于视觉信息进行精彩事件检测。另外文献“刘宇驰等.多模态体育视频语义分析[J].计算机科学，2007，34(1)：109-111.”中虽然提出了一种融合音频信息和视觉信息对足球视频进行精彩事件检测的方法，但是因为该文中的音频分类方法的缺陷，只能检测出解说员的兴奋音，因此精彩事件检测中只检测出射门事件，而且对于射门事件中的进球事件并没有做进一步判断。另外，在该文献中对慢镜头检测技术的描述并不清楚。

因为足球视频中不仅有视觉信息，而且还有语义丰富的音频信息，例如解说员的激昂解说音和观众的欢呼声与比赛中射门事件密切相关，裁判的哨声可能就意味着有球员犯规。因此准确地对音频信息进行分类，并有效地融合视觉信息和音频信息能够使人们更加准确快捷地检测出种类较多的精彩事件。

发明内容

本发明的目的在于提供一种有效地融合视频中的音频信息和视觉信息，快速、准确地检测出足球视频中精彩事件的方法。

实现本发明目的的技术解决方案为：一种基于音视频融合的足球视频精彩事件检测方法，步骤如下：

步骤1：将需要检索的足球比赛的压缩视频通过解码器进行解码，得到视频流；

步骤2：对视频流进行镜头分割，镜头分割结果存入数据库；

步骤3：根据镜头分割的结果，进行徽标镜头检测，然后基于徽标镜头进行慢镜头检测，并将慢镜头检测结果存入数据库；

步骤4：从解码后得到的足球视频流中提取音频，得到音频流，并将音频流切割成音频片段；

步骤5：对每个音频片段进行预处理，然后提取音频特征即观察矢量，按照基于隐马尔科夫模型将音频片段分类，将该音频片段划分到以下5类中的一类：解说员的激昂解说音片段、解说员平缓解说音片段、观众的欢呼声片段、哨音片段和背景噪音片段，音频分类结果存入数据库；

步骤6：在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检测射门事件，对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间或慢镜头的持续长短检测进球事件。检测结果存入数据库；

步骤7：在有哨音发生的相邻镜头里结合慢镜头检测犯规事件，检测结果存入数据库；

步骤8：根据在步骤6和步骤7中存储在数据库中的精彩事件的信息，生成足球视频中精彩事件的浏览***。

本发明与现有技术相比，其显著优点：(1)现有的足球视频精彩片段多是根据视觉信息，而视频中还包含了语义丰富的音频信息。本发明中在检测精彩事件时，有效地融合了视频中的音频信息和视觉信息，这样检测结果更加准确，而且检测出的精彩事件的种类比较多，检测出的精彩事件有射门事件、进球事件和犯规事件；(2)本发明中采用隐马尔科夫模型将音频信息分成5类，分类效果很好，查全率和查准率都比较高，为精彩事件的检测提供很好的技术基础。(3)本发明根据音频分类结果和音频流与视频流的时间对应关系，快速定位和缩小精彩事件的检索范围，而不需在整个视频流里检索精彩事件，从而提高检索速度。如在包含解说员的激昂解说音和观众的欢呼声的相邻镜头里结合慢镜头检索射门事件，在包含裁判的哨音的相邻镜头里结合慢镜头检索犯规事件；(4)相对以往的慢镜头检测，本发明中的慢镜头检测不仅准确率高，而且速度非常快。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明中基于音视频融合的足球视频精彩事件检测方法的流程框图。

图2是本发明候选徽标镜头示意图。

图3是本发明各种各样的徽标镜头示意图。

图4是本发明音频段与音频帧的关系示意图。

图5是本发明音频分类中选用的隐马尔科夫模型的拓扑结构图。

具体实施方式

结合图1，本发明中基于音视频融合的足球视频精彩事件检测方法中，首先执行步骤1对需要检索的足球比赛压缩视频通过解码器进行解码，得到视频流；然后执行步骤2对视频进行镜头分割，分割结果存入数据库，存储的信息有镜头号、相应镜头在视频流中的起始帧和终止帧及视频名；接着执行步骤3，在该步骤中根据镜头分割的结果，进行徽标镜头检测，然后基于徽标镜头进行慢镜头检测，并将慢镜头检测结果存入数据库，需保存的信息有慢镜头号和慢镜头在视频流中的起始帧和终止帧；执行步骤4，对在步骤1中解码后得到的视频流进行音频提取，得到音频流，并对音频流进行音频切割得到音频片段；接着执行步骤5对每个音频片段进行预处理，然后提取音频特征即观察矢量，并按照基于隐马尔科夫模型将音频片段分类，将该音频片段划分到以下5类中的一类：解说员的激昂解说音片段，解说员平缓解说音片段，观众的欢呼声片段，哨音片段和背景噪音片段，分类结果存入数据库，保存的信息有音频片段号，该音频片段在视频流中对应的时间、音频片段的种类和视频名；执行步骤6，根据音频流与视频流的时间对应关系，在有解说员的激昂解说音或观众的欢呼声发生的相邻镜头里结合慢镜头检测射门事件，对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间的长短或慢镜头的持续时间的长短检测进球事件。检测结果存入数据库，需保存的信息有射门事件号、该事件对应视频流里的起始帧和终止帧、是否为进球事件及视频名；接着执行步骤7，根据音频流与视频流的时间对应关系，在有哨音发生的相邻镜头里结合慢镜头检测犯规事件，检测结果存入数据库，需保存的信息有犯规事件号、该事件对应视频流里的起始帧和终止帧及视频名；执行步骤8，根据在步骤6和步骤7中存储在数据库中的精彩事件的信息，生成足球视频中精彩事件的浏览***。

在步骤2中，对视频进行镜头分割是采用Wang J.Y和Luo W的“A Self-adaptingDual-threshold Method for Video Shot Transition Detection”.IEEE International Conferenceon Networking，Sensing and Control.2008，4：704-707.中的镜头分割方法。

慢镜头是对比赛中的一次行为事件不同角度的回放，并让观众在视觉上产生慢动作效果。足球比赛中，当出现精彩场面或观众感兴趣的片段之后，通常会出现从多个不同角度对精彩片段进行回放的慢镜头。因为慢镜头出现前后通常存在徽标，因此可以通过徽标检测慢镜头。在步骤3中，根据镜头分割的结果，先进行徽标镜头检测，然后基于徽标镜头进行慢镜头检测。

由于徽标镜头一般持续时间为10-20帧左右，而在这个长度范围内的镜头有两种：徽标镜头和特写镜头，如图2所示，而且徽标镜头占多数。因此可将镜头长度为10-20帧的镜头做为候选徽标镜头，并取镜头的中间帧作为其关键帧。通过对多种徽标镜头(如图3所示)观察，发现它们都有一个共同的特点，就是镜头图像帧的中心位置都会出现徽标图案，而其它的不含徽标的镜头大多都是特写镜头，其中心区域的颜色特征与徽标图案有着很明显的区分。因此，可将候选徽标镜头的关键帧图像按横纵方向1∶2∶1分割为9个窗口，将对应中心区域的中心窗口的图案单独提取出来进行分析处理，以提高计算速度。

徽标镜头检测以及基于徽标镜头进行慢镜头检测的具体操作按如下步骤展开：

(1)在分割后得到的镜头中，提取出所包含帧数在10-20帧之间的镜头作为候选徽标镜头，并取中间帧作为候选徽标镜头的关键帧；例如一个镜头包含的帧数是12帧，则这个镜头就被作为候选徽标镜头，而且其第6帧作为候选徽标镜头的关键帧。又如一个镜头包含的帧数是13帧，则这个镜头也就被作为候选徽标镜头，其第7帧作为候选徽标镜头的关键帧。

(2)将每个关键帧图像按横纵方向1∶2∶1分割，提取出在横纵方向分割比例均为2的区域，称该区域为中心窗口。

(3)将每个镜头关键帧的中心窗口的图像的颜色模型由RGB转换到HSV，并将所得到的H、S、V三个分量的值均量化为M个等份，即量化为M个台阶，在实际操作中，M可取为100。

(4)提取量化后的H、S、V分量的直方图。

(5)对所有的候选镜头的关键帧进行步骤(2)-(4)处理。

(6)根据公式(1)求取所有候选徽标镜头关键帧的H、S、V三个分量中每个分量的每阶直方图的均值。

H_{mean} (i, j) = \frac{Σ_{n = 1}^{L} H_{n} (i, j)}{L} - - - (1)

公式(1)中L表示所有候选徽标镜头的个数，H_n(i，j)表示第n个候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图，H_mean(i，j)表示所有候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图的平均值，其中i＝1，2，3，分别表示H、S、V分量，j＝0，2，3，4，5，...99，表示量化的台阶数。

(7)根据公式(2)计算每个候选徽标镜头关键帧图像的三个分量的直方图与均值的相似度，然后根据公式(3)将相似度值归一化到0-1之间。

Sim (n) = Σ_{i = 1}^{3} Σ_{j = 0}^{99} \min (H_{n} (i, j), H_{mean} (i, j))

i＝1，2，3j＝0，1，2，3，...，99 n＝1，2，3，...L (2)

UniSim (n) = \frac{Sim (n)}{\max_{k = 1,2, . . . L} (Sim (k))}

n＝1，2，...L (3)

(8)提取归一化后相似度值在0.5～1.0范围内的候选徽标镜头，判定这些镜头为徽标镜头，这样就得到一个徽标镜头集合LogoShotSet。

(9)将徽标镜头集合LogoShotSet中所有徽标镜头按前后的顺序进行匹配，求取慢镜头的起始帧和终止帧，即得到慢镜头，并将慢镜头检测结果存入数据库。

上述子步骤(9)中基于徽标镜头进行慢镜头检测的具体操作是按如下步骤得到：设LogoShot为徽标镜头集合LogoShotSet中的任意一个镜头，若LogoShot是奇次出现，则认为是慢镜头中起始镜头之前的徽标镜头，并将该镜头的尾帧的下一帧作为慢镜头的起始帧，若LogoShot是偶次出现，则认为是慢镜头结束后的徽标镜头，并将该镜头的起始帧的前一帧作为慢镜头的结束帧。这样就得到了慢镜头的终止帧。通过这种方式就可以找到所有的慢镜头。

在步骤4中对步骤1中解码后得到的足球视频流进行音频提取，得到音频流。提取音频时的统一采样频率为22050赫兹。然后将音频流切割为时长较短的音频片段，例如切割为时长为1秒的音频片段。

在步骤5中对每个音频片段进行预处理。首先对每个音频片段做预加重处理，以减少尖锐噪声影响，提升高频信号。然后对每个音频片段加长为40毫秒的hamming窗(即海明窗)进行音频分帧(加hamming窗的目的是对数据进行平滑处理，减少预测误差)，其中傅里叶变换长度Nfft＝1024，相邻帧之间重叠1/2帧，这样每个音频片段就分成了一个包含n个音频帧的帧序列，如图4所示。对于预加重处理以及加hamming窗进行音频分帧的具体计算方法在音频领域内是公知的。

接着从每个音频帧内提取12维的MFCC特征系数以及12维的一阶差分MFCC特征系数、短时过零率、短时平均能量等特征参数。对于这些特征的提取的具体计算方法在音频领域内是公知的。

最后从每个音频帧中提取的音频特征参数为26维的特征矢量O，包括12维的MFCC参数、12维的一阶差分MFCC参数、1维的短时过零率和1维的短时平均能量，这样就从每个音频片段中提取出一个观察矢量序列O＝O₁O₂...O_n，其中O_i(i＝1，2，...n)表示从音频片段中第i个音频帧中提取出的26维特征矢量，n表示一个音频片段经上述的音频分帧后被分为n个音频帧。

对每个观察矢量序列按照基于隐马尔科夫模型将音频片段分类，将该音频片段划分到以下5类中的一类：解说员激昂解说音片段、解说员平缓解说音片段、欢呼声片段、哨音片段和背景噪音片段。

在采用基于隐马尔科夫模型将音频片段分类时，具体的分类方法是根据从每个音频片段中提取的观察矢量序列O＝O₁O₂...O_n以及相应的解说员激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音的隐马尔科夫模型参数λ_i＝(A_i，B_i，π_i)(其中i＝1、2、3、4、5，分别表示解说员激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音片段)将每个音频片段划分到5种类型中的某一种，判断方法是用前向算法计算每个音频片段的观察矢量序列在上述的5个隐马尔科夫模型参数中的概率P(O|λ_i)(对于隐马尔科夫模型以及基于前向算法计算概率的方法可参见L.R.Rabiner，“ATutorial on Hidden Markov Models and Selected Applications in Speech Recognition”，Proceeding of the IEEE，1989，77(2)：257-286或者是庄越挺，***，吴飞，“网上多媒体信息分析与检索”，清华大学出版社，2002：159-177)，并根据公式(4)判断其中最大值所对应的类别S：

S = \arg \max_{i} P (O | λ_{i}) - - - (4)

然后将该音频片段划分到最大值所对应的那个类型中。例如，从公式(4)中我们计算得出一个音频片段的P(O|λ₃)为最大值，也即：

\arg \max_{i} P (O | λ_{i}) = 3,

则我们可以判断这个音频片段对应的音频类型为观众的欢呼声。

其中隐马尔科夫模型的参数在分类前需要通过学***缓解说音片段集合、用于训练用的观众欢呼声片段集合、用于训练用的哨音片段集合和用于训练用的背景噪音片段集合。标记这些训练片段所属的类型，并从训练片段中提取观察矢量。在隐马尔科夫参数学习中可以采用如图5所示的从左到右四状态二转移的拓扑结构。

因为足球比赛视频中，每当有精彩的射门事件发生时，一般都有解说员的激昂解说音和观众的欢呼声，并且还会有回放的慢镜头，对于精彩程度高的射门事件如射门进球事件，则解说员的激昂解说音和观众的欢呼声的持续时间会比较长，而且回放的慢镜头也比较长。因此，在步骤6中，根据音频分类结果及音频流和视频流的时间对应关系，在有解说员的激昂解说音或观众的欢呼声的发生的相邻镜头里结合慢镜头检测射门事件，对检测到的射门事件再根据解说员的激昂解说音和观众的欢呼声持续时间的长短或慢镜头的持续时间的长短检测进球事件。具体执行按照如下步骤：

(1)根据时间对应关系将音频流与视频流对应起来，具体操作为：

设视频流的播放速度为FrameRate，镜头的起始帧为StartFrame，对应的音频片段序号为AudioStartID。镜头的终止帧为EndFrame，对应的音频片段序号为AudioEndID。对时长为1秒的音频片段，则有：

AudioStartID = int [\frac{StartFrame}{FrameRate}] + 1 - - - (5)

AudioEndID = int [\frac{EndFrame}{FrameRate}] + 1 - - - (6)

其中int表示取整操作。StartFrame和EndFrame都是从整数0开始计数，依次加1。根据上述公式(5)和(6)，就可以将音频流与视频流中的镜头对应起来。

(2)提取出解说员的激昂解说音+欢呼声的持续时间大于4秒的镜头。

(3)在满足上述条件的镜头的前面1到2个镜头和后续5到6个镜头中，根据数据库中保存的慢镜头数据进行慢镜头检测，如果检测到慢镜头，则认为这段视频是一个射门事件。

(4)针对射门事件，继续判断慢镜头持续的镜头的个数是否大于3或者解说员的激昂解说音+欢呼声的持续时间是否大于10秒，如果是，则认为这段视频是一次射门进球事件，否则为射门非进球事件。

在足球比赛视频中，在犯规事件发生时，一般裁判会吹哨子，以示有人犯规。然后会跟随一个回放的慢镜头，而这个回放慢镜头持续时间比较短，通常只有几秒而已。因此在步骤7中根据音频流和视频流的时间对应关系，在有哨音发生的相邻镜头里结合慢镜头检测犯规事件，具体操作如下：

AudioStartID = int [\frac{StartFrame}{FrameRate}] + 1 - - - (5)

AudioEndID = int [\frac{EndFrame}{FrameRate}] + 1 - - - (6)

(2)提取出含哨音的镜头，根据数据库中保存的慢镜头数据检测含哨音镜头的后续5到6个镜头中是否有慢镜头，如果有，则

(3)检测慢镜头持续时间是否小于3个镜头，如果是，则认为这段视频是一个犯规事件。

在步骤8中，根据在步骤6和步骤7中存储在数据库中的精彩事件的信息，生成足球视频中精彩事件的浏览***。其具体操作为：

(1)根据在步骤6中存储在数据库中的射门事件和进球事件的信息，生成足球视频中射门事件和进球事件的浏览***。

(2)根据在步骤7中存储在数据库中的犯规事件的信息，生成足球视频中犯规事件的浏览***。

Claims

1、一种基于音视频融合的足球视频精彩事件检测方法，其特征在于步骤如下：

步骤2：对视频流进行镜头分割，镜头分割结果存入数据库；

2、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法，其特征在于步骤3中徽标镜头检测以及基于徽标镜头进行慢镜头检测是指如下步骤：

(1)在经过镜头分割后得到的镜头中，提取出所包含帧数在10-20帧之间的镜头作为候选徽标镜头，并取中间帧作为候选徽标镜头的关键帧；

(2)将每个候选徽标镜头的关键帧图像按横纵方向1∶2∶1分割，提取出在横纵方向分割比例均为2的区域，称该区域为中心窗口；

(3)将每个候选徽标镜头的关键帧的中心窗口的图像的颜色模型由RGB转换到HSV，并将所得到的H、S、V三个分量的值都量化为M个等份，即量化为M阶；

(4)提取量化后的H、S、V分量的直方图；

(5)对所有的候选镜头的关键帧进行步骤(2)-(4)的处理；

(6)根据公式(1)求取所有候选徽标镜头的H、S、V三个分量中每个分量的每阶直方图的均值；

H_{mean} (i, j) = \frac{Σ_{n = 1}^{L} H_{n} (i, j)}{L} - - - (1)

公式(1)中L表示所有候选徽标镜头的个数，H_n(i，j)表示第n个候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图，H_mean(i，j)表示所有候选徽标镜头关键帧在HSV颜色空间第i个颜色分量第j阶的直方图的平均值，其中i＝1，2，3，分别表示H、S、V分量，j＝0，2，3，4，5，...，(M-1)，表示量化的台阶数；

(7)根据公式(2)计算每个候选徽标镜头关键帧图像的三个分量的直方图与均值的相似度，然后根据公式(3)将相似度值归一化到0-1之间：

Sim (n) = Σ_{i = 1}^{3} Σ_{j = 0}^{M - 1} \min (H_{n} (i, j), H_{mean} (i, j))

i＝1，2，3 j＝0，1，2，3，...，(M-1) n＝1，2，...L (2)

UniSim (n) = \frac{Sim (n)}{\max_{k = 1,2 . . . L} (Sim (k))}

n＝1，2，...L (3)

(8)根据归一化后的相似度值进行徽标镜头选取，这样就得到一个徽标镜头集合LogoShotSet；

3、根据权利要求2中所述的基于音视频融合的足球视频精彩事件检测方法，其特征在于步骤(9)是按如下步骤得到：设LogoShot为徽标镜头集合LogoShotSet中的任意一个镜头，若LogoShot是奇次出现，则认为是慢镜头中起始镜头之前的徽标镜头，并将该镜头的尾帧的下一帧作为慢镜头的起始帧，若LogoShot是偶次出现，则认为是慢镜头结束后的徽标镜头，并将该镜头的起始帧的前一帧作为慢镜头的结束帧，这样就得到了慢镜头的终止帧，通过这种方式就可以找到所有的慢镜头。

4、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法，其特征在于：步骤5中基于隐马尔科夫模型将音频片段分类，分类方法是将从每个音频片段中提取的音频特征作为观察矢量O＝O₁O₂...O₃，然后按照相应的解说员的激昂解说音、解说员平缓解说音、观众的欢呼声、哨音和背景噪音的隐马尔科夫模型参数λ_i＝(A_i，B_i，π_i)来判断音频片段属于5种类型中的哪一种，判断方法是计算每个音频片段的观察矢量在上述的5个隐马尔科夫模型参数中的概率P(O|λ_i)，并且根据公式(4)判断其中最大值所对应的类别S：

S = srg \max_{i} P (O | λ_{i}) - - - (4)

然后将该音频片段划分到最大值所对应的类型中。

5、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法，其特征在于步骤6中根据解说员的激昂解说音或观众的欢呼声并结合慢镜头检测射门事件和进球事件的具体步骤如下：

(1)根据时间对应关系将音频流与视频流对应起来；

(2)提取出解说员的激昂解说音+观众的欢呼声的持续时间超过阈值K的镜头；

(3)在满足上述条件的镜头的相邻镜头中，根据数据库中保存的慢镜头数据进行慢镜头检测，如果检测到慢镜头，则认为这段视频是一个射门事件；

(4)针对射门事件，继续判断慢镜头持续的镜头的个数是否大于阈值L₁或者解说员的激昂解说音+观众的欢呼声的持续时间是否大于L₂秒，如果是，则认为这段视频是一次射门进球事件，否则为射门非进球事件。

6、根据权利要求1所述的基于音视频融合的足球视频精彩事件检测方法，其特征在于步骤7中根据裁判的哨音并结合慢镜头检测犯规事件的具体步骤如下：

(1)根据时间对应关系将音频流与视频流对应起来；

(2)提取出含哨音的镜头，根据数据库中保存的慢镜头数据检测含哨音镜头的后续邻近镜头中是否有慢镜头，如果有，则

(3)检测慢镜头持续时间是否小于L₃个镜头，如果是，则认为这段视频是一个犯规事件。