CN102073636A

CN102073636A - 节目高潮检索方法和***

Info

Publication number: CN102073636A
Application number: CN2009102089555A
Authority: CN
Inventors: 卢鲤; 赵庆卫; 颜永红; 索宏斌; 刘昆; 吴伟国
Original assignee: Institute of Acoustics CAS; Sony Corp
Current assignee: Institute of Acoustics CAS; Sony Corp
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2011-05-25

Abstract

提供检索节目高潮的高潮检索***和方法以及相应计算机产品。该高潮检索***包括：滑动窗特征提取器，用于对待处理音频流加窗并提取窗内音频流片段的特征信息；模型分类器，用于在混合高斯模型上对每一个音频流片段进行打分以判断高潮片段；频谱能量分析器，用于对检索到的高潮片段和背景环境噪声进行频谱子带能量分析，并计算高潮片段的平均能量值作为频谱子带能量阈值；以及边界寻找器，对检索出的高潮片段的边界位置分别向前、向后计算子带平均能量，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

Description

节目高潮检索方法和***

技术领域

本发明涉及音频检索的方法和***，特别涉及用于检索体育比赛节目中的节目高潮的节目高潮检索方法和***。

背景技术

当今世界正处在信息***的时代，信息正在以指数级的速度增长。多媒体技术和互联网技术的不断发展，使得对海量多媒体数据进行自动分析处理的必要性大大提高。然而，视频分析运算量大，消耗资源较多，因此多媒体数据的音频分析有着更大的优势。

一般来说，诸如体育比赛之类的视频时间比较长，而往往广大体育爱好者真正关心的内容通常只占居整个内容的很小一部分。如果需要从中找到自己关注的内容，往往需要用户从头至尾遍历一遍之后才能找到所需内容，这样既费时又费力。另一方面，越来越多的体育视频，使得人们对体育视频的有效检索和管理的要求也越来越迫切。因此，如果能够有这样一个体育内容检索***，可以帮助用户检索一些真正关心的内容，就可以大大节约时间。

别地，对体育节目的自动音频分析，近年来受到越来越多研究者的青睐。针对体育比赛来说，通过对喝彩声的提取，来在体育比赛视频中提取精彩场景，使得用户能够更便捷的找到自己感兴趣的片段。

对喝彩声的提取有以下几个难点：首先，在体育比赛中，喝彩声往往不是孤立出现，而是同时伴随着主持人的讲话声以及其他声音，这就使得对喝彩声的建模产生一定困难；其次，在体育比赛中，喝彩声的频谱特点往往和环境噪声以及观众的加油声非常相似，导致在检索过程中产生较多的虚警，从而精度偏低。

喝彩声检索是一个较新的课题，并没有统一的框架，但从音频检索的角度来说，常用方法有滑动窗分析框架和隐马尔科夫框架。Zhang，D.和Ellis，D.在其文章“Detecting sound events in basketball video archive”(发表在Dept.Electronic Eng.，Columbia Univ.，New York)中仅利用语音信息来对广告，篮球比赛，足球比赛，新闻报道和天气预报5类电视节目进行识别，采用的是神经网络分类器，最后结合图像分析以提高准确性，没有对电视节目的内容进行分析和检索。该文献通过对音频流进行加窗，利用分类器对窗内片段的音频类型判定，实现对喝彩声的提取，但是由于固有窗长的限制，对喝彩声的边界往往无法准确判断。

Lu，L.、Cai，R.和Hanjalic，A.在文章“Towards a unified framework forcontent-based audio analysis”中结合视频特征用决策树来检索足球比赛进球场景，但是仅对一种体育比赛中的进球进行检索，该检索框架仅适用于足球比赛，对于其他的比赛就不适用了。在该文献中，利用隐马尔科夫模型对不同音频类型进行建模，通过对音频流进行维特比对齐实现特定音频事件的检索，由于细化到状态建模，克服了滑动窗分析法对边界无法准确判断的问题，但由于对齐中的存在大量错误，后处理较为困难，导致检索精度不佳。

此外，美国专利2005/0195331A1同时利用音频和视频特征对体育比赛进行场景分类，包括：场地全景、特写镜头、角球、任意球和进球五类场景，其中音频特征主要是用来识别鼓掌声和哨声两种类别。

此外，Reynolds，DA和Rose，RC在“Robust text-independent speakeridentification using gaussianmixture speaker models”(IEEE transactions onSpeech and Audio Processing)中仅仅利用语音识别技术得到文本内容，在识别后得到的文本内容里面进行待搜索内容匹配，得到需要检索的内容。

此外，Hermansky，H.在文章“Perceptual linear predictive(PLP)analysisof speech”(Journal of the Acoustical Society of America)中，通过两个阶段进行处理。在第一阶段，对有人工标注的多媒体数据利用语义标签进行相关音频寻找，而在第二阶段，基于语义标签的音频查询结果在线训练该类音乐特征，并利用于音频内容的查询。

此外，Lu，L.and Zhang，H.J.和Li，S.Z.在文章“Content-based audioclassification and segmentation by using support vector machines MultimediaSystems”中提出了一种音频、视频内容的采集方法和检索方法，其中音频方面采用将声音分段后识别，生成声音与文字的对应关系表，用户使用所需声音片断对用的文字在该对应关系表中进行检索。

从以上文献可以看出，现有技术仅对某一两种体育比赛内容的特定内容进行分析和检索，这些技术针对性强，不能很好的扩展到其他类别的提取比赛的内容检索中去。而随着体育比赛种类的日益增加，消费者越来越不可能有足够的时间将整场比赛从头至尾的观看一边了，因此，如何能够提供一套自动的体育比赛的内容检索***，从而帮助用户快速方便的检索出自己关注的内容是目前广大体育爱好者们迫切关注的问题。由于目前图像分析技术对于仅止于场景分析，对于图像内容的理解没有很好的研究，因此，本发明侧重于采用语音信号处理技术，对体育比赛内容进行理解和分析，帮助体育爱好者们提取一些感兴趣的事件和信息，比如类别进行检索比赛，检索精彩事件，检索关键人名和队名等，检索比赛不同场次的开始和结束时间点等等。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于滑动窗分析，在后端引入频谱子带能量分析实现节目高潮边界寻找的***。本发明的目的是通过滑动窗分析，先粗略检索出高潮片段，然后通过对频谱子带能量进行分析，去除虚警并确定高潮片段边界，以实现对整段高潮的检索。

为了实现上述目的，根据本发明的一方面，提供了在体育比赛等中进行高潮(例如，喝彩声)检索的高潮检索***，其包括：滑动窗特征提取器，用于从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；模型分类器，用于根据滑动窗特征提取器所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以判断出该音频片段是否属于该节目数据的高潮片段，并且初步确定高潮片段在节目中的位置；频谱能量分析器，用于对初步检索到的高潮片段进行频谱子带能量分析，并计算高潮片段的频谱子带平均能量值作为频谱子带能量阈值；以及边界寻找器，根据频谱子带能量阈值对检索出的高潮片段进行修正以去除背景噪声，并寻找到所述频谱子带平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

根据本发明的优选实施例，该高潮检索***还可以包括模型训练器，用于将训练用节目数据中的音频流经由滑动窗特征提取器提取音频流片段的特征信息，并根据音频类别，基于最大似然估计准则，利用期望最大化算法对混合高斯模型的参数进行估计，以得到相应于音频类型的所述混合高斯模型，其中所述音频类型至少包括语音、音乐、节目高潮类型。

根据本发明的优选实施例，该高潮检索***中的混合高斯模型可以为M个高斯模型的混合高斯分布，并且该混合高斯模型的权重、均值和方差可以是根据期望最大化算法估计出来的。

根据本发明的优选实施例，该高潮检索***还可以包括平滑器，用于对所述模型分类器输出的结果进行上下文的平滑，以去除由于分类造成的虚警。

根据本发明的优选实施例，该平滑器基于以下规则进行上下文音频类型的平滑以去除虚警：如果s(n)＝1，s(n+1)≠1并且s(n+2)＝1，则令s(n+1)＝1；以及如果s(n)＝1，s(n-1)≠1并且s(n+1)≠1，则令s(n)≠1，其中s(n)表示第n个滑动窗结果，而s(n)＝1表示该片段为节目高潮片段。

根据本发明的优选实施例，该特征信息包括下列至少一种：感知线性预测特征、子带能量特征、频谱通量特征、频谱质心特征和带宽特征，并且其中每个子带能量由子带内频域幅度和短时能量表示；频谱通量表示相邻频段之间频谱能量变化的快慢，由信号相邻频段的频域幅度变化、傅里叶变换的阶数、音频片段中的帧数表示；频谱质心表征一帧频谱在一个频段上的重心位置，由傅里叶变换系数和频率表示；而带宽表征在频谱质心处的有效带宽，由频谱质心、频率以及傅里叶变换系数联合表示。

根据本发明的优选实施例，该滑动窗特征提取器在对节目数据中的音频流进行加窗之前，对得到的音频流进行预处理，该预处理包括数字化、预加重高频提升和/或分帧处理。

根据本发明的优选实施例，该分帧处理取帧长为25ms，而取帧间重叠为15ms。

根据本发明的优选实施例，该滑动窗特征提取器采用Hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}),

其中，0≤n≤N-1。

进行加窗处理。

根据本发明的优选实施例，可以采用计算声学场景分析的等方法去除语音和音乐的影响，考虑到该方法的计算复杂度，本发明采用了一种简单有效的方法，即仅考虑语音和音乐出现较少的高频段6kHz至8kHz，用频谱能量分析器计算6kHz至8kHz的子带能量，然后求平均能量值以作为判断节目高潮的频谱子带能量阈值。

根据本发明的优选实施例，该高潮检索***还可以包括后处理装置，将边界寻找器输出的节目高潮片段中长度小于时间长度阈值的片段去除。

根据本发明的另一方面，提供检索节目高潮的高潮检索方法，包括步骤：从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；模型分类器，用于根据所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以初步判断出该音频片段是否属于该节目数据的高潮片段，并且初步确定高潮片段在节目中的位置；对初步检索到的高潮片段进行频谱子带能量分析，并计算高潮片段的频谱子带平均能量值作为频谱子带能量阈值；以及根据频谱子带能量阈值对检索出的高潮片段进行修正以去除背景噪声，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

根据本发明的再一方面，提供使得计算机执行以下步骤的计算机产品，所述步骤包括：从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；模型分类器，用于根据所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以初步判断出该音频片段是否属于该节目数据的高潮片段，并且初步确定高潮片段在节目中的位置；对检索到的高潮片段进行频谱子带能量分析，并计算高潮片段的频谱子带平均能量值作为频谱子带能量阈值；以及根据频谱子带能量阈值对检索出的高潮片段进行修正以去除背景噪声，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

本发明的优点是，利用了滑动窗分析这种较为灵活的模式，可以通过调节窗长窗移实现对音频流的检索效果调节。同时，利用频谱能量分析器和边界寻找器，一方面组合了由于喝彩声和其他音频掺杂在一起导致检索出的喝彩声常常被切成的小段，得到整个的喝彩声段落；另一方面克服了由于滑动窗窗长限制对喝彩声边界难以确定的问题。最后，也由于得到较为完整的高潮片段，可以结合时长的信息进一步去除虚警提高精度。

附图说明

图1是图示根据本发明的高潮片段检索***的框图；

图2是图示混合高斯模型的结构的示意图；

图3示出根据本发明的优选实施例的高潮检索方法的操作流程的流程图；

图4示出根据应用了本发明的节目高潮检索装置的节目信息检索***的方框图；以及

图5示出表示节目信息检索***的用户界面的一例的示意图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细描述。

在以下的实施例中，所针对的处理对象是具有视频和音频的、诸如体育比赛之类的节目的数据，其中该音频数据具有喝彩声之列的节目高潮内容。然而，本发明不限于体育这样的内容数据，可以应用于其他具有高潮内容的节目。

图1是示出根据本发明的节目高潮检索***的框图。参考图1，根据本发明的节目高潮检索***包括：模型训练器101、滑动窗特征提取器102、模型分类器103、平滑器104、频谱能量分析器105和边界寻找器106。

在图1中，模型训练器101通过滑动窗特征提取器102(将在后面进一步描述)将输入的训练音频加平滑窗，对该得到的语音段进行分帧，提取每帧的特征(plp，子带能量、频谱通量、频谱质心、带宽)，形成一个维数为1*D的特征矢量，其中D为特征维数。然后，模型训练器101，以音乐为例，将该类音频数据提取到的所有特征矢量作为输入，送入混合高斯模型训练器，训练得到相应的混合高斯模型。

具体来说，模型训练器101根据输入音频的音频类别(例如，语音、音乐、节目高潮(例如，喝彩声)、背景噪声等)，基于最大似然估计准则，利用EM(期望最大化)算法对混合高斯模型参数进行估计，得到相应的混合高斯模型。

这里，本领域技术人员应该知道，可以根据所处理节目的类型预先标定出所述音频类别，例如讲座节目可以包括掌声类型，而体育节目可以包括喝彩声类型等。

图2示出混合高斯模型的结构的示意图。如图2所示，数学上如下式表示：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} p_{i} b_{i} (\overset{&RightArrow;}{x})

其中λ代表混合高斯模型，

是特征矢量，

i＝1...M是i个高斯分布，p_i为第i个高斯分布的权重，保证

每一个高斯分布表示为下式形式：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}^{'} σ_{i}^{- 1} (\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}

其中

和σ_i分别为第i个高斯分布的均值和方差，根据EM(期望最大化)算法对M混合高斯模型权重、均值、方差进行参数估计。从而得到用于各个分类的音频数据的各个混合高斯模型。

需要指出的是，本发明的节目高潮检索***可以直接使用现成的混合高斯模型训练算法，以得到用于各个分类的音频数据的各个混合高斯模型。

接下来，滑动窗特征提取器102从前向后顺序地对音频流进行加窗以得到音频流片段，并提取窗内音频流片段(音频信号)的特征信息(包括PLP(Perceptual Linear Prediction，感知线性预测)参数，子带能量、频谱通量、亮度(频谱质心)和带宽)，并将该特征信息送入模型分类器103。

在一种实施例中，流入滑动窗特征提取器102的待处理的音频流是通过对输入节目进行音频解码和视频解码而得到的。滑动窗特征提取器102对得到的音频流进行预处理，该预处理例如包括进行数字化、预加重高频提升和/或分帧等处理。

这里，作为本发明的优选实施例，用于预加重高频提升的预加重滤波器可以是：H(z)＝1-αz^-1，其中α取值范围[0.95，0.99]；用于分帧处理的参数可以根据需要适当取得如下：取帧长25ms、帧间重叠15ms；而加窗处理可以采用常用的Hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}),

其中，0≤n≤N-1。

此外，根据本发明的实施例，滑动窗特征提取器102可以提取窗内音频信号的一种或多种特征。例如，用PLP(感知线性预测系数)参数特征提取方法提取PLP特征。将每个子带的能量用子带[L_j，H_j]内频域幅度和短时能量表示，并让其子带划分为自62.5Hz起倍频递增，直到8kHz共7个子带。频谱通量表示了相邻频段之间频谱能量变化的快慢，可以由信号相邻频段的频域幅度变化、傅里叶变换的阶数、音频片段中的帧数表示。频谱质心特征表征了某一帧频谱在某频段[w1，w2]上的重心位置，可以由傅里叶变换系数和频率表示。带宽特征表征在某频谱质心处的有效带宽，可以由频谱质心、频率以及傅里叶变换系数联合表示。

再参考图1，本发明的模型分类器103根据滑动窗特征提取器102所提取的特征信息，对每一个音频片段在预先训练的各个混合高斯模型上进行打分，也即计算该片段音频对每一个混合高斯模型的似然概率，从而判断出该片段属于哪一种音频性质，以实现不同音频性质的分类。从而初步判断出各音乐片段的音频类别，例如，语音、音乐、节目高潮(例如，喝彩声)、背景噪声或其他类型。当然也就初步判断出该节目是否具有高潮片段，并且初步确定高潮片段所在的位置。

需要注意的是，根据本发明的优选实施例，可以在节目高潮检索***中配置平滑器104来对模型分类器103输出的结果进行上下文的平滑，以去除由于分类造成的虚警，从而进一步提高节目高潮检索***的检索精度。

此外，频谱能量分析器105对检索到的节目高潮片段进行频谱子带能量分析，尽量避免语音和音乐对能量造成的影响，并计算节目高潮片段频谱子带平均能量值作为判断节目高潮片段的阈值。具体来说，将音频流中初步判断为节目高潮片段的片段送入频谱能量分析器以计算6kHz至8kHz的子带平均能量，以作为判断节目高潮片段的阈值。

最后，边界寻找器106根据频谱子带能量阈值的分析结果，对初步检索到的节目高潮片段进行修正，寻找其实际的起始位置和终止位置，以检索出整个的节目高潮片段，从而得到精确的精彩视频片段。具体做法是，对对于之前得到的高潮片段进行前向后向搜索，基于节目高潮片段的频谱子带能量比一般环境噪声大的特点，寻找到能量低于阈值的位置，作为节目高潮片段的实际边界。

图3示出根据本发明的优选实施例的节目高潮检索***的操作方法的流程图。以下，参考图3，详细描述本发明诸如检索体育比赛中的节目高潮的节目高潮检索方法。

首先，在步骤S301中，根据节目类型预先定义相应的M个混合高斯模型。例如，预先定义针对语音、音乐、节目高潮(例如，喝彩声)、背景噪声和其他类型的M个混合高斯模型。然而，模型训练器101通过滑动窗特征提取器102将输入的训练音频加平滑窗，对该得到的语音段进行分帧，提取每帧的特征(plp，子带能量、频谱通量、频谱质心、带宽)，形成一个维数为1*D的特征矢量，其中D为特征维数。接下来，模型训练器101，以音乐为例，将该类音频数据提取到的所有特征矢量作为输入，送入混合高斯模型训练器，训练得到相应的混合高斯模型。而模型训练器101基于最大似然估计准则，为每一个数据类别训练相应的混合高斯模型，从而得到相应的混合高斯模型。

然后，在步骤S302中，将有待处理的节目经过音频解码、视频解码之类的预处理，然后将所得到的音频流部分送入滑动窗特征提取器102。此外，在步骤S302中，用滑动窗特征提取器102对音频流进行包括分帧、加窗在内的预处理。

接下来，在步骤S303中，滑动窗特征提取器102对滑动窗内语音段的每一帧音频信号提取多种音频特征。这些音频特征包括PLP特征、子带能量、频谱变迁(频谱通量)、亮度(频谱质心)和带宽等。

接下来，在步骤S304中，模型分类器103在预先训练的每一个混合高斯模型上根据滑动窗提取的特征信息对相应的音频流片段进行打分，也即计算该片段音频对每一个高斯模型的似然概率，从而判断出该片段属于哪一种音频性质。

在步骤S305中，确定是否已经处理了完输入音频数据的所有音乐片段的音频类别。如果在步骤S305中确定为没有判断完输入音频数据的所有音乐片段的音频类别，则将处理返回到步骤S303，进行下一音乐片段的音频类型的判断，直到滑动窗移动到音频流的末尾。这样，初步判断出输入音频数据的各音乐片段的音频类别，例如，语音、音乐、节目高潮(例如，喝彩声)、背景噪声或其他类型。

如果在步骤S305中确定为已经判断完输入音频数据的所有音乐片段的音频类别，则将处理转移到步骤S306)。在步骤S306中，使用平滑器103对得到的音频流滑动窗分析的整个结果进行基于上下文音频类型的平滑以去除虚警，然后处理转移到步骤S307。

需要说明的是，步骤S306是根据本发明的优选实施例的一个步骤，用来提高节目高潮检索***的检索精度，但它并不是本发明的必要步骤。在不用步骤S306的基础上，如果在步骤S305中确定为已经判断完输入音频数据的所有音乐片段的音频类别，则将处理直接转移到步骤S307。

接下来，在步骤S307中，将步骤将音频流中初步判断为节目高潮的片段送入频谱子带能量分析器105以计算6kHz至8kHz的子带平均能量，以作为判断节目高潮的阈值。这里，实际上可以采用计算声学场景分析的等方法去除语音和音乐的影响，但考虑到该方法的计算复杂度，本发明采用了一种简单有效的方法，即仅考虑语音和音乐出现较少的高频段6kHz至8kHz，用频谱能量分析器计算6kHz至8kHz的子带能量，然后求平均能量值以作为判断节目高潮的频谱子带能量阈值。

然后，在步骤S308中，利用边界寻找器106和频谱能量分析器105对每一个检索的节目高潮片段进行边界确定，具体做法是对于之前得到的高潮片段进行前向后向搜索，计算对应的频域子带平均能量，基于节目高潮片段的能量比一般环境噪声大的特点，寻找到能量低于所求得的阈值的位置，作为节目高潮的实际边界。

根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，混合高斯模型定义如下：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} p_{i} b_{i} (\overset{&RightArrow;}{x})

其中，λ代表混合高斯模型，是特征矢量，

i＝1...M是i个高斯分布，p_i为第i个高斯分布的权重，保证每一个高斯分布表示为下式形式：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}^{'} σ_{i}^{- 1} (\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}

其中，

和σ_i分别为第i个高斯分布的均值和方差，根据EM(期望最大化)算法对混合高斯模型权重、均值、方差进行参数估计。

另外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，通过预加重进行高频提升，预加重滤波器是：H(z)＝1-αz^-1，其中α取值范围[0.95，0.99]。

另外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，将数据进行分帧处理，例如，可根据需要适当调整，参考数据：取帧长25ms、帧间重叠15ms。

另外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，加窗处理采用常用的hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}),

其中，0≤n≤N-1。

另外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，提取一种或多种特征。这些特征包括PLP(感知线性预测系数)参数、子带能量、频谱通量、频谱质心、带宽等。PLP特征可以采用通用的特征提取方法实现。每个子带的能量可用子带[L_j，H_j]内频域幅度和短时能量表示，其子带划分为自62.5Hz起倍频递增，直到8kHz共7个子带。频谱通量表示相邻频段之间频谱能量变化的快慢，可以由信号相邻频段的频域幅度变化、傅里叶变换的阶数、音频片段中的帧数表示。频谱质心特征表征某一帧频谱在某频段[w1，w2]上的重心位置，可以由傅里叶变换系数和频率表示。带宽特征表征在某频谱质心处的有效带宽，可以由频谱质心、频率以及傅里叶变换系数联合表示。

此外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，利用平滑器对得到的音频流滑动窗分析整个结果进行基于上下文音频类型的平滑以去除虚警的过程如下：令s(n)表示第n个滑动窗结果，令s(n)＝1表示该片段为节目高潮片段，具体规则如下：

规则1：如果s(n)＝1，s(n+1)≠1并且s(n+2)＝1，则令s(n+1)＝1

规则2：如果s(n)＝1，s(n-1)≠1并且s(n+1)≠1，则令s(n)≠1

利用节目高潮的连续性对滑动窗分析结果进行平滑，可以去掉一部分由于分类器错误造成的虚警片段。

此外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，将上述平滑结果中初步判断为节目高潮的片段送入频谱能量分析器105，为了避免残留语音的影响(因为语音只要能量集中在4kHz以下，而节目高潮的频谱可以看做是各个子带的能量增加)，本实施例只计算6kHz至8kHz的子带能量，然后求频域子带能量平均能量值以作为判断节目高潮的阈值。如上所述，实际上可以采用计算声学场景分析的等方法去除语音和音乐的影响，但考虑到该方法的计算复杂度，本发明采用了一种简单有效的方法，即仅考虑语音和音乐出现较少的高频段6kHz至8kHz，用频谱能量分析器计算6kHz至8kHz的子带能量，然后求平均能量值以作为判断节目高潮的频谱子带能量阈值。

更具体地说，为了求音频流片段的频域子带平均能量值以作为判断节目高潮的阈值，根据本发明的优选实施例首先通过对待处理音频数据流预加重以进行高频提升，其中预加重滤波器是：H(z)＝1-αz^-1，其中α取值范围[0.95，0.99]。然后将经预加重了的数据以帧长10ms进行分帧处理并进行加窗处理。接下来，对加窗后音频数据流(子带)进行快速傅里叶变换并计算子带能量。最后，计算子带的平均能量作为判断高潮片段的阈值。

此外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，频谱能量分析器105根据能量分析对每一个检索到的节目高潮片段的频域子带能量是否大于求出的阈值，对小于阈值的检索到的节目高潮片段，被认为是虚警并去除。

此外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，边界寻找器106是对初步检索出的节目高潮片段的边界进行前向后向搜索，计算频域子带平均能量，基于节目高潮片段的能量比一般环境噪声大的特点，并寻找到所述平均能量低于所述频谱子带能量阈值的位置，作为节目高潮的实际边界。

此外，根据本发明的一种实施例，在本发明的节目高潮检索***和节目高潮检索方法中，基于节目高潮一般有一定持续时间的特点，将边界寻找器106输出的节目高潮片段中长度小于一定阈值的片段去除，以进一步减少虚警，得到最终结果。特别地，在本发明的节目高潮检索***中，这样的功能可以通过在图1所示的***中增加后处理装置(未示出)来实现。

从本发明的实施例可以看出，本发明利用滑动窗分析、通过调节窗长窗移实现对音频流的检索效果调节。同时，利用频谱能量分析器和边界寻找器，一方面组合了由于诸如喝彩声之类的高潮音频掺杂在一起导致检索出的高潮片段常常被切成的小段，得到整个的高潮段落；另一方面克服了由于滑动窗窗长的限制对高潮边界难以确定的问题。最后，也由于得到较为完整的高潮片段，可以结合时长的信息进一步去除虚警提高精度。

使用体育节目的喝彩声作为高潮的例子，对本发明中提出的高潮提取算法进行了评估试验。下面是试验结果，其中包含5种体育运动：排球、乒乓球、羽毛球、沙滩排球和曲棍球，总计11场比赛，数据时长约18小时。采取精度，召回率和F值作为评价指标，分别定义如下：

精度＝(正确识别的喝彩声段落)/(识别出的喝彩声段落)；

召回＝(正确识别的喝彩声段落)/(答案中的喝彩声段落)；

F值＝(2*精度*召回)/(精度+召回)。

首先进行两种事件检索框架的性能对比，一种采用隐马尔科夫框架，定义了四种音频类型：语音，音乐，环境噪声和喝彩声，分别训练了隐马尔科夫模型(混合高斯模型)，对输入的音频流进行识别，从而得到喝彩声片段；另一种采用滑动窗框架，定义相同的四种音频类型，0.8s窗长配合0.4s窗移，对音频流进行滑动窗识别，检索喝彩声片段。其性能对比见下表：

从上表可以看出，由于喝彩声的长时特性，滑动窗这种框架表现出更好的性能。同时进行了本发明中提出的边界寻找器的功能对比试验，使用了边界寻找器和未使用边界寻找器性能对比如下表：

由于边界寻找器可以去除一些短时虚警片段，可以一定程度上提高最终的精度，虽然伴随了一定召回率上的下降，但整体性能从F值上反应是提高的，同时，***的检索将给出较为完整的喝彩声片段。

另外，本发明的节目高潮检索装置和节目高潮检索方法可以与其他装置和方法结合起来，以达到更好的效果。例如，图4提供了结合本发明的节目高潮检索装置的节目信息检索***，即，采用音频信号处理的方法对诸如体育比赛内容之类的节目进行检索的节目检索***。

下面，参照附图4来说明应用了本发明的节目高潮检索装置的节目信息检索***。该节目信息检索***至少包括：节目导入装置401、节目端点时间检测装置402、节目类别检索装置403、节目高潮检索装置404、解说员检索装置405以及显示装置406。

该节目信息检索***通过对节目的音频信号进行处理，从而获得用户所需的节目信息。参考图4，显示装置406显示该***的用户界面以及各单元的处理结果信息，以便于用户与***进行交互、直观地了解处理进展和结果等。显示装置406可采用CRT显示器、液晶显示器、等离子显示器以及触摸面板等多种显示装置。

节目导入装置401将多个节目导入所述节目信息检索***。具体来说，节目导入装置401将设置在节目信息检索***中的未示出的存储器的特定区域中存储的多个节目导入节目信息检索***，并在显示装置406中显示节目列表。从而，用户可以通过从该节目列表中选择自己需要的节目，由节目信息检索***进行检索分析。

节目端点时间检测装置402通过输入节目的音频信号分类为语音信号部分和非语音信号部分，从语音信号部分检索表示节目开始或结束的端点关键词作为候选的端点关键词，对检索出的候选的端点关键词的上下文进行内容理解以确定候选的端点关键词是否为有效的端点关键词，并基于关键词检索单元的检索结果和解说内容理解单元的确定结果进行统计分析，来确定节目的端点时间。

该节目信息检索***中的节目类别检索装置403对于由节目导入装置401导入的多个节目，根据节目所属的类别进行分类，并按照用户指示的类别，在显示装置406上显示该类别的节目列表。另外，节目类别检索装置403也可以用在参考图1描述了的、根据本发明的节目高潮检测装置404中。即，节目高潮检测装置404在由节目类别检索装置403预先判断节目类别之后，根据节目类型来检索节目高潮，从而能够缩小检索范围，提高检索效率和检索精度。因此，本发明通过使用节目类别检索装置403，将输入的节目流进行分类，从而可以使得在显示装置406中分门别类地显示各种类别的节目，而不是混杂在一起的各类节目。

这里，节目类别检索装置403进行分类方法例如可以通过关键词检索来进行。具体说明如下，如果选择某种比赛特定的关键词进行检索，将得到的关键词按照置信度从大到小排列，这样就能得到置信度最大的N个关键词，若某种比赛的关键词及其置信度组合得到的数值最大，则该类别即为这场比赛的类别。在105场比赛(10种比赛类别)中，进行比赛类别判断结果证明：识别率100％。其中，所述特定的关键词也可以存储在上述未图示的存储器的特定区域中。

解说员检索装置405检索由特定解说员解说的节目部分，并以不同形式将不同解说员的解说部分的时间信息显示在显示装置406上。解说员检索例如可采用说话人识别来完成，目前方法有：GMM-UBM方法，SVM的方法，HMM的方法等，可以根据需要而灵活选择。

虽然在上述实施例的节目信息检索***中提供了节目端点时间检测装置402、节目类别检索装置403、节目高潮检索装置404、解说员检索装置405等部分来实现相应的功能，但本发明的节目信息检索***也可以根据用户的需求，以各种形式对上述功能进行单独提供或者组合提供，而且它们的任意组合实施例之外的改进实施例同样在本发明的保护范围之内。

图5是表示节目信息检索***的用户界面的一例的示意图。作为节目信息检索***的一例，在显示装置406上例如显示如下如图5所示的用户界面，其中，点击附图标记501处的下拉菜单，可以实现对不同体育比赛数据的选择，在本例中例如选择“足球”，在附图标记502处得到的筛选后的体育比赛列表，例如“2008-06-07-欧洲杯捷克-瑞士.wav”、“2008-06-07-欧洲杯葡萄牙-土耳其.wav”、“2008-06-11-欧洲杯瑞士-土耳其.wav”，双击附图标记502中的某个体育比赛，这里选择了第一个，在附图标记504处显示该体育比赛的音频文件，附图标记503处列出了相应于足球这一类别的待检测的关键词列表，附图标记505处分别用不同颜色表明不同的音频类别，附图标记506处分别用不同颜色表明不同的解说员。点击附图标记507、508、509分别可以用来分屏显示检索出来的关键词、场次的起始时间、欢呼声，检索结果显示在附图标记510的部分。

通过上述节目信息检索***，用户能够全方面的得到与其关注的比赛相关的各种信息。当然，上述功能并非一定全部包含在本发明的节目信息检索***中，可以按照客户定制而适当地组合提供。

另外，本领域技术人员将理解，根据本发明的上述节目高潮检索方法可以实现为记录在计算机可读记录介质上的计算机可读代码。该计算机可读记录介质是可以存储可由计算机***读取的数据的任何数据存储设备。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储装置和载波(诸如通过因特网的数据发送)。计算机可读记录介质还可以分布在联网的计算机***中，以便以分布的方式存储并执行计算机可读代码。

在本说明书中，描述存储在程序记录介质中的程序的步骤不但包括按照时序方式以规定顺序执行的处理，而且包括代替按照时序执行而以并行或单独方式执行的处理。

以上所述仅为本发明的优选实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检索节目高潮的高潮检索***，包括：

滑动窗特征提取器，用于从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；

模型分类器，用于根据滑动窗特征提取器所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以判断出该音频片段是否属于该节目数据的高潮片段，初步确定高潮片段在节目中的位置；

频谱能量分析器，用于对初步检索到的高潮片段进行频谱子带能量分析，并计算高潮片段频谱子带能量的平均能量值作为频谱子带能量阈值；以及

边界寻找器，根据频谱子带能量阈值对检索出的高潮片段进行修正以去除背景噪声，对于之前得到的高潮片段进行前向后向搜索，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

2.根据权利要求1的高潮检索***，进一步包括：

模型训练器，用于将训练用节目数据中的音频流经由滑动窗特征提取器提取音频流片段的特征信息，并根据音频类别，基于最大似然估计准则，利用期望最大化算法对混合高斯模型的参数进行估计，以得到相应于音频类型的所述混合高斯模型，其中所述音频类型至少包括语音、音乐、节目高潮、背景杂噪声类型。

3.根据权利要求1的高潮检索***，其中所述混合高斯模型为M个高斯模型的混合高斯分布，并且该混合高斯模型的权重、均值和方差是根据期望最大化算法估计出来的。

4.根据权利要求1的高潮检索***，进一步包括：

平滑器，用于对所述模型分类器输出的结果进行上下文的平滑，以去除由于分类造成的虚警。

5.根据权利要求4的高潮检索***，其中所述平滑器基于以下规则进行上下文音频类型的平滑以去除虚警：

如果s(n)＝1，s(n+1)≠1并且s(n+2)＝1，则令s(n+1)＝1；以及

如果s(n)＝1，s(n-1)≠1并且s(n+1)≠1，则令s(n)≠1

其中s(n)表示第n个滑动窗结果，而s(n)＝1表示该片段为节目高潮片段。

6.根据权利要求1的高潮检索***，其中所述特征信息包括下列至少一种：感知线性预测特征、子带能量特征、频谱通量特征、频谱质心特征和带宽特征，并且其中每个子带能量由子带内频域幅度和短时能量表示；频谱通量表示相邻频段之间频谱能量变化的快慢，由信号相邻频段的频域幅度变化、傅里叶变换的阶数、音频片段中的帧数表示；频谱质心表征一帧频谱在一个频段上的重心位置，由傅里叶变换系数和频率表示；而带宽表征在频谱质心处的有效带宽，由频谱质心、频率以及傅里叶变换系数联合表示。

7.根据权利要求1的高潮检索***，其中所述滑动窗特征提取器在对节目数据中的音频流进行加窗之前，对得到的音频流进行预处理，该预处理包括数字化、预加重高频提升和/或分帧处理。

8.根据权利要求7的高潮检索***，其中所述分帧处理取帧长为25ms，而取帧间重叠为15ms。

9.根据权利要求1的高潮检索***，其中所述滑动窗特征提取器采用Hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}),

其中，0≤n≤N-1。

进行加窗处理。

10.根据权利要求1的高潮检索***，其中所述频谱能量分析器计算6kHz至8kHz的子带能量，然后求平均能量值以作为判断节目高潮的频谱子带能量阈值。

11.根据权利要求1的高潮检索***，进一步包括：

后处理装置，将边界寻找器输出的节目高潮片段中长度小于时间长度阈值的片段去除。

12.一种检索节目高潮的高潮检索方法，包括步骤：

1)从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；

2)模型分类器，用于根据所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以判断出该音频片段是否属于该节目数据的高潮片段，初步确定高潮片段在节目中的位置；

3)对初步检索到的高潮片段进行频谱子带能量分析，并计算高潮片段频谱子带能量的平均能量值作为频谱子带能量阈值；以及

4)根据频谱子带能量阈值对检索出的高潮片段进行修正以去除背景噪声，对于之前得到的高潮片段进行前向后向搜索，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

13.根据权利要求12的高潮检索方法，在所述步骤1)之前包括步骤：

将训练用节目数据中的音频流经由滑动窗特征提取器提取音频流片段的特征信息，并根据音频类别定义相应的混合高斯模型，并基于最大似然估计准则，利用期望最大化算法对混合高斯模型的参数进行估计，以得到相应于音频类型的所述混合高斯模型，其中所述音频类型至少包括语音、音乐、节目高潮类型。

14.根据权利要求12的高潮检索方法，其中所述混合高斯模型为M个高斯模型的混合高斯分布，并且该混合高斯模型的权重、均值和方差是根据期望最大化算法估计出来的。

15.根据权利要求12的高潮检索方法，在所述步骤2)与步骤3)之前包括步骤：对所述步骤3)输出的结果进行上下文的平滑，以去除由于分类造成的虚警。

16.根据权利要求15的高潮检索方法，其中所述对所述步骤3)输出的结果进行上下文的平滑的步骤基于以下规则进行上下文音频类型的平滑以去除虚警：

如果s(n)＝1，s(n+1)≠1并且s(n+2)＝1，则令s(n+1)＝1；以及

如果s(n)＝1，s(n-1)≠1并且s(n+1)≠1，则令s(n)≠1

17.根据权利要求12的高潮检索方法，其中所述特征信息包括下列至少一种：感知线性预测特征、子带能量特征、频谱通量特征、频谱质心特征和带宽特征，并且其中每个子带能量由子带内频域幅度和短时能量表示；频谱通量表示相邻频段之间频谱能量变化的快慢，由信号相邻频段的频域幅度变化、傅里叶变换的阶数、音频片段中的帧数表示；频谱质心表征一帧频谱在一个频段上的重心位置，由傅里叶变换系数和频率表示；而带宽表征在频谱质心处的有效带宽，由频谱质心、频率以及傅里叶变换系数联合表示。

18.根据权利要求12的高潮检索方法，其中将输入所述步骤1)的音频流经经历预处理，该预处理包括数字化、预加重高频提升和/或分帧处理。

19.根据权利要求18的高潮检索方法，其中所述分帧处理取帧长为25ms，而取帧间重叠为15ms。

20.根据权利要求12的高潮检索方法，其中采用Hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}),

其中，0≤n≤N-1。

进行加窗处理。

21.根据权利要求12的高潮检索方法，其中通过计算6kHz至8kHz的子带能量以求平均能量值来作为判断节目高潮的频谱子带能量阈值。

22.根据权利要求12的高潮检索方法，进一步包括步骤5)：

将所述步骤4)输出的节目高潮片段中长度小于时间长度阈值的片段去除。

23.一种使得计算机执行以下步骤的计算机产品，所述步骤包括：

从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；

模型分类器，用于根据所提取的特征信息，在混合高斯模型上对每一个音频流片段进行打分，以判断出该音频片段是否属于该节目数据的高潮片段，初步确定高潮片段在节目中的位置；

根据频谱子带能量阈值对检索到的高潮片段进行修正以去除背景噪声，并计算高潮片段的频谱子带平均能量值作为频谱子带能量阈值；以及

对于之前得到的高潮片段进行前向后向搜索，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

24.一种节目信息检索***，包括：

节目导入装置，用于导入节目并产生节目列表，以便从所述节目列表中选择的要处理的节目；

滑动窗特征提取器，用于对所选择的节目从前向后顺序地对节目数据中的音频流进行加窗以得到音频流片段，并提取窗内音频流片段的特征信息；

频谱能量分析器，用于对初步检索到的高潮片段进行修正以去除背景噪声，并计算高潮片段的频谱子带平均能量值作为频谱子带能量阈值；以及

边界寻找器，对于之前得到的高潮片段进行前向后向搜索，并寻找到所述平均能量低于所述频谱子带能量阈值的位置作为高潮片段的实际边界，以检索出整个高潮片段。

25.如权利要求24所述的信息检索***，还包括：

节目端点时间检测装置，用于对所选择的节目或经高潮检索处理的节目进行分析，以得到所述节目的端点时间。

26.如权利要求24所述的信息检索***，还包括：

节目类别检索装置，用于将所述节目导入装置导入的所述多个节目，根据节目类别进行分类，并按照类别产生各类别自己的节目列表。

27.如权利要求24所述的信息检索***，还包括：

解说员检索装置，用于检索由特定解说员解说的节目部分，以获得不同解说员的解说部分的时间信息。