CN101268505A

CN101268505A - 用于对视频进行分类的方法和***

Info

Publication number: CN101268505A
Application number: CNA2006800348687A
Authority: CN
Inventors: 赖古纳唐·拉达克里希南; 迈克尔·西拉库萨; 阿贾伊·迪瓦卡兰; 大塚功
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-01-06
Filing date: 2006-12-27
Publication date: 2008-09-17
Anticipated expiration: 2026-12-27
Also published as: EP1917660A4; EP1917660B1; JP2009522587A; KR20080071554A; CN101268505B; KR100952804B1; US7558809B2; US20070162924A1; EP1917660A1; JP4870087B2; WO2007077965A1

Abstract

一种利用视频的音频信号和类别的集合对该视频进行分类的方法。将在集合中选定的分类合并为重要类别子集，该重要类别子集对于具体精彩场面任务是至关重要的，集合的剩余分类被合并为其它类别子集。所述重要类别子集和其他类别子集通过训练用音频数据进行训练以形成任务特有的分类器。接着，利用该任务特有的分类器，所述音频信号可被分类为重要音频信号或其他音频信号，以在对应于所述具体的精彩场面任务的视频中识别精彩场面。被分类的音频信号可用于对所述视频进行分段和摘要。

Description

用于对视频进行分类的方法和***

技术领域

本发明总体上涉及对视频片段进行分类，更具体地说，涉及根据音频信号对视频片段进行分类。

背景技术

对有字幕或无字幕的视频内容进行分段是视频检索应用和浏览应用的关键任务。视频可通过标识精彩场面来分段。精彩场面是视频中任何包含关键或重要事件的部分。因为精彩场面记录了视频的精华，所以精彩场面的片段可提供视频的良好摘要。例如在体育活动的视频中，摘要包括得分事件和精彩比赛。

图1示出了一种典型的现有技术的音频分类方法100，参见ZiyouXiong，Regunathan Radhakrishnan，Ajay Divakaran and Thomas S.Huang，″Effective and Efficient Sports Highlights Extraction Using the MinimumDescription Length Criterion in Selecting GMM Structures，″Intl.Conf.onMultimedia and Expo，June 2004，以及Radhakrishnan等人在2004年8月20日提交的美国专利申请10/922,781“Feature Identification of Events inMultimedia”，两者的内容通过引用的方式被并入于此。

音频信号101是输入。从音频信号101的帧102中提取特征111(110)。特征111可以是修正离散余弦变换(MDCT)的形式。

此外如图2所示，特征111被通用多路分类器200分类为标签121。通用多路分类器200具有经训练的音频类别的一般集合210，所述经训练的音频类别例如掌声、欢呼、音乐、正常的言语、以及激动的言语。每个音频类别都由高斯混合模型(GMM)进行建模。GMM的参数根据从训练数据211中提取的特征确定。

通过确定特征111的GMM与每个分类的GMM之间的似然性(likelihood)并比较该似然性(20)，对帧102的特征111的GMM进行分类。具有最大似然性的分类被选作特征的帧的标签121。

在通用分类器200中，每个分类被单独训练。每个模型的高斯混合成分的数量m基于最小描述长度(MDL)标准。当训练生成模型时，通常使用MDL标准。用于输入训练数据211的MDL标准可具有以下形式：

MDL(m)＝-logp(data|Θ，m)-logp(Θ|m)(1)

其中，m指示具有参数Θ的具体模型的混合成分的编号，而p是似然性或可能性。

等式(1)的第一项是m混合成分模型的训练数据的对数似然性(loglikelihood)。其可被认为是关于该m混合模型的数据的平均代码长度。第二项可被解释为模型参数Θ的平均代码长度。利用这两项，MDL标准将对最可能描述所述训练数据的具体模型的识别与描述所述模型需要的参数数量进行平衡。

在一定数值范围(例如从1到40之间的范围)上搜索k。对于每个k值，利用将数据似然性项最大化的期望最大化(EM)优化处理来确定Θ^k的值，从而相应地计算MDL得分。具有最小期望得分的k值被选出。利用MDL训练分类210的GMM伴随着以下的隐含假设，即分别为每个音频类别选择优良的产生GMM产生了更好的总体分类效果。

重要度131的判定(130)取决于任务140或应用。例如，重要度与具体摘要任务中被标记为重要的帧所占的百分量相对应。在体育精彩场面(highlighting)任务中，重要类别可以是激动的言语或欢呼。在音乐会精彩场面任务中，重要类别可以是音乐。通过对重要度设定阈值，可对视频内容获得不同的片段和摘要。

通过选择合适的类别集合210和匹配的通用多路分类器200，只有重要度131的判定(130)需要取决于任务140。由此，不同的任务可关联到所述分类器。这样通过单独的分类器简化了工作执行。

发明内容

本发明的实施方式提供了将无字幕视频的音频信号分类为标签的方法。所述标签可随后被用于检测所述视频中的精彩场面，并用于构造仅包括所述精彩场面片段的摘要(summary)视频。

分类器适用高斯混合模型(GMM)以检测代表重要音频类别的音频帧。根据取决于具体任务的单一音频类别或多个音频类别的混合体出现的次数来提取精彩场面。

例如，体育赛事视频的精彩场面任务依赖于评论员激动的言语以及观众的欢呼的出现，而对音乐会精彩场面的提取将依靠音乐的出现。

替代针对所有任务使用单一通用音频分类器，本发明的实施方式使用任务特有的音频分类器。另外，利用训练期间的交叉验证(CV)误差替代现有技术中的最小描述长度(MDL)标准，确定在我们的任务特有的分类器中用于GMM的混合成分的数量。

这将提高分类器的准确度，并降低进行分类所需的时间。

附图说明

图1是现有技术分类方法的框图；

图2是现有技术通用多路分类器的框图；

图3是根据本发明的实施方式的分类方法的框图；

图4是任务特有的二进制分类器的框图；

图5是用于对应的任务的多个任务特有的分类器的框图；

图6A对各种分类器的模型进行比较；

图6B对各种分类器的模型进行比较；

图6C对各种分类器的模型进行比较；

图7A对通用的分类器和任务特有的分类器的混合成分进行比较；

图7B对通用的分类器和任务特有的分类器的混合成分进行比较；以及

图8是根据本发明实施方式的分类器的分类准确度的曲线图。

具体实施方式

图3示出了根据本发明实施方式的用于为具体任务350将视频303的音频信号301分类(400)为标签321的方法。标签321可随后被用以标识视频中的精彩场面。所述精彩场面可被分段(340)以产生仅包括所述精彩场面的视频摘要304。

视频303的音频信号301是输入。从音频信号301的帧302提取特征311(310)。特征311可以具有修正离散余弦变换(MDCT)的形式。应注意的是，还可以对其他音频特征(例如，Mel频率倒谱系数、离散傅立叶变换等)进行分类。

此外如图4所示，通过任务特有的二进制分类器400分配标签321来对特征311进行分类。通过确定特征311的GMM与每个类别的GMM对应的似然性，并对似然性进行比较(420)，对帧302的特征311的GMM进行分类。具有最大似然性的类别被选为特征的帧的标签321。

任务特有的分类器400包括经训练的类别的集合401。这些类别可被存储在分类器的存储器内。将被认为对识别精彩场面来说至关重要的类别子集合合并为重要类别子集411。剩余的类别被合并为其他类别子集412。用如下所述的训练数据对重要类别子集和其他类别子集进行联合地训练(jointly trained)。

例如，重要类别子集411包括评论员激动的言语与观众的欢呼的混合体。评论员的激动的言语，是指一种通常由体育解说员或评论员在体育比赛中得分时使用的区别性的大声高音调的言语。欢呼通常是许多噪声的形式。其他类别子集412包括掌声、音乐和正常言语类别。应当理解的是，重要类别子集可以是多个类别的合并，例如，激动的言语和同步的欢呼和掌声。

在任何情况下，为了训练和分类的目的，只有两个类别子集：重要的类别子集和其他的类别子集。虽然各个子集可包括多个分类，但是任务特有的分类器被表征为二进制分类器。作为优点，该二进制分类器通常比多路分类器更准确，而且进行分类所花费的时间更少。

重要度331的判定(330)也取决于具体任务350或应用。例如，重要度与针对具体摘要任务被标记为重要的帧的百分比相对应。对于体育精彩场面任务，重要类别子集包括激动的言语和欢呼分类的混合体。对于音乐会精彩场面任务，重要类别子集将至少包括音乐类别，并可能包括掌声。

图5示出了根据本发明实施方式的二进制音频分类器的一般概念。各个具体任务501-503与对应的任务特有的分类器511-513相关联。与现有技术的主要区别是不用通用的多路音频分类器，本发明***了取决于具体任务的分类器。这允许用户针对视频中不同分类的精彩场面构造优化的小型且有效的分类器。

如图4所示，对于特定类型的精彩场面任务350，本发明为重要类别子集使用一个高斯混合模型(GMM)，并为其他类别子集使用一个GMM。利用针对重要类别的训练示例数据来训练重要类别子集。利用来自所有其他分类的训练示例数据来训练其他类别子集。

图4示出了为体育精彩场面而设计的任务特有的二进制分类器400。该分类器使用二进制分类器，其中重要类别包括激动的言语和欢呼的混合体，而其他类别子集对其他所有音频成分进行建模。

构造任务特有的分类器400的动机是本发明可以减小分类问题的计算复杂度，并增加检测重要类别的准确度。

尽管可存在多个分类，但是通过将多个分类合并为两个子集，本发明有效地实现了二进制分类器。与必须在更大的通用音频类别集合中进行分辨的通用多路分类器相比，该二进制分类需要更少的计算。

然而，本发明还考虑到如何训练这种分类器，同时留意这种分类器使用分类的子集。如果本发明遵循现有技术中基于相同的MDL的训练过程，那么我们将极可能对于各种分类学习到相同的混合成分。即，当利用MDL针对任务特有的分类器训练其他类别子集时，有可能学习到的混合成分的数量将非常接近如图2所示的用于掌声、言语和音乐类别的成分的数量之和。这是因为MDL训练过程关注于根据训练数据211生成良好的GMM。

如果其他类别子集中的冗余较小，那么经训练的模型仅仅是该模型代表的所有类别的模型的组合。MDL标准用于帮助为训练数据211发现良好的产生模型，但不对我们最终关心的内容(即，分类效果)进行直接优化。

我们希望选择每个GMM的混合成分的数量和参数，使得当该数量和参数用于分类时具有最低的分类误差。因此，对于本发明的任务特有的分类器，我们使用对分类的估计进行优化的联合训练过程，而不使用MDL。

假设C＝2，其中C是在本发明的分类器中类别子集的数量。

在训练数据413的向量x中具有N_train个样品。每个样品x_i具有从1到C取值的相关类别标签y_i。

本发明的分类器400具有以下形式：

f (x; m) = \arg \max_{y} p (x | y, m_{y}, Θ_{y}) - - - (2)

其中m＝[m₁，...，m_C]^T是每个分类模型的混合成分的数量，Θ_i是与分类i，i＝{1，2}相关的参数。这与由等式(1)表示的现有技术的通用分类器200不同。

如果有足够的训练数据413，则从中取出一部分训练数据作为具有N_test个样品的验证集合并且将它们的相关标签设置为(x_i，y_i)。对于具体的m，该集合的经验测试误差是

TestErr (m) = \frac{1}{N_{test}} Σ_{i = 1}^{N_{test}} 1 - δ (y_{i} - f (x_{i}; m)) - - - (3)

其中当y_i＝f(x_i；m)时δ为1，其他情况下δ为0。

利用此标准，本发明选择

其中

\hat{m} = \arg \min_{m} TestErr (m) - - - (4)

这需要在m的设置范围上进行网格搜索，并且在每次设置时，重复训练GMMs，并检查得到的分类器的测试误差。

如果训练数据不足以设置验证集合，则可使用K折交叉验证(K-foldcross validation)，参见Kohavi，R.，″A Study of Cross-Validation andBootstrap for Accuracy Estimation and Model Selection，″Proceedings of the14th International Joint Conference on Artificial Intelligence，StanfordUniversity，1995，其内容以引用的方式并入于此。

K折交叉验证可概括如下。训练数据被分割为K个相等大小的部分。假设

k：{1，...，N}→{1，...，K}

将N个训练样品映射到K个部分中的一个，设f^k(x_i；m)为在移除了第k部分的训练数据集合上训练的分类器。则误差的交叉验证估计是：

CV (m) = \frac{1}{N} Σ_{i = 1}^{N} 1 - δ (y_{i} - f^{κ (i)} (x_{i}; m)) . - - - (5)

即，对于第k部分，本发明将模型拟合到其他K-1个数据部分，并在预测数据第k部分时确定被拟合的模型的预测误差。对训练数据的所有K个部分的每一部分进行这种操作。接着，我们确定：

\hat{m} = \arg \min_{m} CV (m) - - - (6)

这需要在为m的范围上进行搜索。本发明可以通过在较小的范围上搜索m而将训练加速。例如，如图4所示的分类器中，本发明可以针对重要类别411固定m₁，并仅在m2上搜索其他类别子集412。我们可利用MDL标准来选择m₁，即，为重要类别子集保持GMM。

图6A-图6C象征性地示出了不同的训练过程如何产生不同模型。图6A示出了在2D特征空间中对于3个不同类别利用现有技术的MDL过程而学习到的GMM模型。该MDL标准为每个分类单独挑选混合成分的数量。该MDL标准在每个生成概率模型被单独训练而不知晓其他分类的情况下有利于模型选择。对于该MDL的情况，分类中的所有簇(cluster)都按具有同等重要性来对待。

图6B示出了替代用于训练的MDL利用交叉验证(CV)所得到的期望结果。我们看到CV为每个分类挑选更少的成分。具体地说，CV利用更少的成分对图6A的模型的细节进行摘要。然而，我们看到尽管每个类别丢失了一些细节，但是我们仍然能够对分类进行分辨。

图6C示出了如果我们将分类隔离为重要类别子集和全部其他子集，并有效地构建二进制分类器时发生的情况。我们能够看到可使用更少的混合成分，而仍可分辨重要类别601和其他类别602。

用于模型选择的交叉验证对于区别性的二进制分类器是有利的。例如，当为重要类别子集训练模型时，我们也留意到其他类别，并且反之，当为其他类别子集训练模型时，我们同时也留意到重要类别子集。因为联合训练对竞争分类敏感，所以模型对于在边界区域的簇的建模比在其他区域更仔细。这也使得模型复杂度的降低。

参照图4，已经说明了将包含于分类器400中的类别合并为2组(其组成边界音频分类器)的方法。图4所示的实施方式提供了通过合并激动的言语类别和欢呼类别而获得的类别子集411，以及由其他类别组成的子集412，所述激动的言语类别和欢呼类别从图2所示的通用分类器中选出。这些子集对识别体育节目中的精彩场面是有效的。如果另一实施方式例如提供了音乐类别子集以及其他类别子集(未示出)，则能够产生其中音乐场景显示出高似然性的分类器。由此，计算确定出含有包含在音乐节目中的音轨(music track)的场景具有高重要度，这对于识别含有音轨的场景是有效的。此外，还可以通过利用笑声作为训练数据并通过将该似然性与其他类别进行比较从而产生笑声类别，以识别包含在杂耍节目(variety program)中的含有突发笑声的场景。

参照图5，已经描述了通过切换与任务501到任务503相对应的分类器511到分类器513而适当地使用分类器511到分类器513的方法。当根据任务进行切换时，根据待分析的视频303的类型来选择分类器511到分类器513中的最优的一个。例如，在视频303包括体育节目的情况下选出的是根据激动的言语类别和/或欢呼类别来计算重要度的分类器，在音乐节目的情况下选出的是用音轨来计算场景的重要度的分类器，而在杂耍节目的情况下选出的是根据笑声类别来计算重要度的分类器。可以基于从记录在视频303中的节目信息获得的类别以切换的方式来执行选择分类器的任务501到任务503。此外，如果该***将要分析从电视播送中记录的节目，则可以基于从电子节目手册(EPG)获得的类别以切换的方式来执行任务501到任务503。

发明效果

本发明的实施方式提供了利用任务特有的二进制分类器对视频中精彩场面的检测。这些任务特有的二进制分类器被设计用于在少数分类(即，两个类别子集)之间进行区分。这种简化结合基于交叉验证和测试误差的训练，使得可以针对分类模型使用更少的混合成分。更少的混合成分意味着更快和更准确的处理。

图7A示出了针对现有技术的一般类别的成分数量(78)，而图7B示出了针对任务特有的类别的成分数量(42)。

图8示出平均检测准确度，纵轴表示的重要类别是横轴表示的其他类别的成分数量的函数。

尽管本发明已通过优选实施方式的实施例进行了描述，但是应当理解的是，可在本发明的精神和范围内对本发明进行其他各种修改和变型。因此，所附的权利要求的目的在于覆盖落入本发明的真实精神和范围内的所有变型例和修改例。

Claims

1.一种对视频进行分类的方法，该方法包括以下步骤：

定义用于对视频的音频信号进行分类的类别的集合；

将所述集合中的选定的类别合并为重要类别子集，该重要类别子集对于具体精彩场面任务是至关重要的；

将所述集合的剩余类别合并为其他类别子集；

利用训练用音频数据对所述重要类别子集和所述其他类别子进行联合地训练以形成任务特有的分类器；并且

利用所述任务特有的分类器将音频信号分类为重要音频信号或其他音频信号以在对应于所述具体的精彩场面任务的视频中识别精彩场面。

2.如权利要求1所述的方法，该方法还包括以下步骤：

根据已分类的音频信号将所述视频分段为重要片段和其他片段；并且

将所述重要片段合并为所述视频的摘要。

3.如权利要求1所述的方法，该方法还包括以下步骤：

将所述音频信号分割为帧；

从每个帧中提取音频特征；

根据所述音频特征将每个帧分类为重要帧或其他帧。

4.如权利要求3所述的方法，其中所述音频特征是修正离散余弦变换。

5.如权利要求1所述的方法，其中所述视频是关于体育活动的，且所述具体精彩场面任务是识别所述视频中的精彩场面，而且所述类别的集合包括激动的言语和欢呼的混合体类别、掌声类别、欢呼类别、正常言语类别以及音乐类别，且所述重要类别子集包括所述激动的言语和欢呼的混合体，而所述其他类别子集包括掌声、欢呼、正常言语以及音乐。

6.如权利要求1所述的方法，该方法还包括以下步骤：

用第一高斯混合模型表示所述重要类别子集；并且

用第二高斯混合模型表示所述其他类别子集。

7.如权利要求1所述的方法，其中所述训练联合地利用K折交叉验证。

8.如权利要求1所述的方法，其中所述训练联合地对分类的估计进行优化。

9.如权利要求1所述的方法，其中分类步骤分配标签，并且该方法还包括以下步骤：

根据所述具体精彩场面任务确定所述标签的重要度。

10.如权利要求6所述的方法，其中所述类别子集的数量C是2，而且所述训练用音频数据的向量x中有N_train个样品，每个样品x_i具有从1到C取值的相关类别标签y_i，所述任务特有的分类器具有以下形式：

f (x; m) = \arg \max_{y} p (x | y, m_{y}, Θ_{y}),

其中m＝[m₁，...，m_C]^T是每个高斯混合模型的混合成分的数量，Θ_i是与类别i，i＝{1，2}相关的参数。

11.如权利要求10所述的方法，其中所述训练用音频数据包括具有N_test个样品的验证集合，以及相关的标签为(x_i，yi)，并且对于具体的m，所述验证集合的经验测试误差是：

TestErr (m) = \frac{1}{N_{test}} Σ_{i = 1}^{N_{test}} 1 - δ (y_{i} - f (x_{i}; m)),

其中当y_i＝f(x_i；m)时δ为1，其他情况下δ为0。

12.如权利要求11所述的方法，其中根据下式选择混合成分的最优化数量

\hat{m} = \arg \min_{m} TestErr (m) .

13.一种用于对视频进行分类的***，该***包括：

存储器，该存储器被构造为存储用于对视频的音频信号进行分类的类别的集合；

用于将所述集合中的选定的类别合并为重要类别子集的装置，所述重要类别子集对于具体精彩场面任务是至关重要的；

用于将所述集合中剩余的类别合并为其他类别子集的装置；

用于利用训练用音频数据对所述重要类别子集和所述其他类别子集进行联合地训练以形成任务特有的分类器的装置；以及

用于利用所述任务特有的分类器将所述音频信号分类为重要音频信号或其他音频信号以在对应于所述具体的精彩场面任务的视频中识别精彩场面的装置。