CN1658226A

CN1658226A - 用于检测新闻主持人镜头的方法和装置

Info

Publication number: CN1658226A
Application number: CN2005100036625A
Authority: CN
Inventors: 金相均; 黄斗善; 金智渊; 文永秀; 许永植
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-02-20
Filing date: 2005-01-07
Publication date: 2005-08-24
Also published as: US20050187765A1; EP1566748A1; KR100763899B1; KR20050082757A; JP2005237001A

Abstract

本发明提供了用于检测新闻主持人镜头的方法和装置。所述方法包括：将活动图像分离为音频信号和视频信号；使用视频信号来确定镜头之间的边界；使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分，并且将所提取的镜头确定为新闻主持人语音镜头。

Description

用于检测新闻主持人镜头的方法和装置

技术领域

本发明涉及活动图像处理，具体涉及用于检测活动图像的新闻主持人镜头的方法和装置。

背景技术

在用于检测在诸如新闻之类的领域中或像电影那样的活动图像中使用的广播信号中的新闻主持人镜头的传统方法中，使用关于新闻主持人镜头的模板来检测新闻主持人镜头。在所述方法中，提前假定和识别关于新闻主持人镜头的格式信息，并且使用所识别的格式信息或使用利用新闻主持人的脸或衣服的颜色产生的模板来提取新闻主持人镜头。但是，在所述方法中，因为使用了新闻主持人的预定模板，因此检测新闻主持人镜头的性能可能由于新闻主持人镜头的格式的改变而大大地变差。而且，在使用新闻主持人的脸或衣服的颜色来检测新闻主持人镜头的传统方法中，当新闻主持人的脸或衣服的颜色类似于背景的颜色或改变照明时，检测新闻主持人镜头的性能变差。另外，在使用第一新闻主持人镜头来获得新闻主持人镜头信息的传统方法中，检测新闻主持人镜头受新闻主持人的数量或新闻主持人镜头的格式改变的程度影响。即，当错误地检测到新闻主持人镜头时，检测新闻主持人镜头的性能变差。

同时，在检测新闻主持人镜头的另一种传统方法中，通过聚合诸如在新闻主持人镜头中的类似颜色分布或当产生新闻主持人镜头的时间来检测新闻主持人镜头。在所述方法中，具有类似于新闻主持人镜头的颜色分布的报告镜头可能被错误地检测为新闻主持人镜头，并且不能检测到意外出现的一个新闻主持人镜头。

发明内容

本发明提供了一种使用从活动图像分离的音频信号即使用新闻主持人的语音信息来检测新闻主持人镜头的方法。

本发明也提供了一种使用从活动图像分离的音频信号、即使用新闻主持人的语音信息来检测新闻主持人镜头的装置。

按照本发明的一个方面，提供了一种检测新闻主持人镜头的方法，所述方法包括：将活动图像分离为音频信号和视频信号；使用视频信号来确定镜头之间的边界；使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分，并且将所提取的镜头确定为新闻主持人语音镜头。

按照本发明的另一个方面，提供了一种检测新闻主持人镜头的装置，所述装置包括：信号分离单元，用于将活动图像分离为音频信号和视频信号；边界确定单元，用于使用视频信号来确定镜头之间的边界；新闻主持人语音镜头提取单元，用于使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分，并且将所提取的镜头输出为新闻主持人语音镜头。

附图说明

通过参照附图详细说明本发明的示例实施例，本发明的上述和其他特点和优点将会变得更加清楚，其中：

图1是图解按照本发明的一个实施例的、用于检测新闻主持人镜头的方法的流程图；

图2A和2B是用于说明图1的步骤14的波形图；

图3是图解按照本发明的一个实施例的、图1的步骤16的流程图；

图4是图解按照本发明的一个实施例的、图3的步骤34的流程图；

图5示出了在步骤32选择的镜头中的一个镜头的结构；

图6是图解按照本发明的一个实施例的、图4的步骤52的流程图；

图7是示出帧的数量对能量的图；

图8图解帧相对于能量的分布以理解图4的步骤54；

图9示出了在步骤32中选择的镜头中的一个镜头的结构以理解图4的步骤56；

图10A、10B、10C、10D和10E示出了在图1的步骤16中确定的新闻主持人语音镜头；

图11是图解按照本发明的一个实施例的、图1的步骤18的流程图；

图12是图解按照本发明的一个实施例的、图11的步骤130的流程图；

图13是图解按照本发明的一个实施例的、图11的步骤130的流程图；

图14是图解按照本发明的一个实施例的、图13的步骤172的流程图；

图15是图解按照本发明的一个实施例的、图11的步骤132的流程图；

图16A-16E是用于理解图11的步骤132的视图；

图17是图解按照本发明的另一个实施例的、图11的步骤132的流程图；

图18是图解按照本发明的一个实施例的、图1的步骤20的流程图；

图19A、19B和19C示出了通过将图10A-10E的新闻主持人语音镜头编组而确定的相似组；

图20是图解按照本发明的另一个实施例的、用于检测新闻主持人镜头的方法的流程图；

图21是图解按照本发明的一个实施例的、图20的步骤274的流程图；

图22是按照本发明的一个实施例的、用于检测新闻主持人镜头的装置的方框图；

图23是按照本发明的另一个实施例的、用于检测新闻主持人镜头的装置的方框图。

具体实施方式

以下，参照附图来详细说明按照本发明的检测新闻主持人镜头的方法。

图1是图解按照本发明的一个实施例的、用于检测新闻主持人镜头的方法的流程图。检测图1的新闻主持人镜头的方法包括：获得在活动图像中的新闻主持人语音镜头(步骤10-16)，获得在新闻主持人语音镜头中的新闻主持人语音模型(步骤18-24)。

在步骤10中，将活动图像分离为音频信号和视频信号。以下，假定活动图像包括音频信号以及视频信号。在这种情况下，活动图像可以是通过MPEG格式压缩的数据。如果通过MPEG-1来压缩活动图像，则从活动图像分离的音频信号的频率可以是例如48kHz或44.1kHz，它对应于压密光盘(CD)的声音质量。为了执行步骤10，可以从活动图像提取原始(raw)脉冲编码调制(PCM)格式，并且可以将所提取的原始PCM格式确定为分离的音频信号。在步骤10后的步骤12，使用视频信号来确定镜头之间的边界。为此，当检测到其中具有活动图像中的较大改变的部分时，所检测的部分被确定为镜头之间的边界。可以检测活动图像的亮度、颜色数量和运动中至少一个的改变，并且可以将在检测结果中具有迅速改变的部分确定为镜头之间的边界。

图2A和2B是用于说明图1的步骤14的波形图。图2A是分离的音频信号的波形图，图2B是下采样的音频信号的波形图。

在步骤12后的步骤14，下采样音频信号。所分离的音频信号的大小太大，并且不必分析整个音频信号。因此，以诸如8kHz、12kHz或16kHz的下采样频率来下采样所分离的音频信号。在这种情况下，可以将下采样的结果存储为波形格式。在此，不像在图1中那样，可以在步骤12之前或与步骤12同时执行步骤14。

如果通过MPEG-1标准来压缩活动图像，则所分离的音频信号的频率是48kHz并且以8kHz的频率来下采样分离的音频信号，则图2A所示的音频信号可以被下采样，如图2B所示。

在步骤14后的步骤16，使用在步骤12获得的边界来从下采样的音频信号提取具有大于第一门限值TH1的长度的镜头和具有大于第二门限值TH2的长度的无声部分，并且将所提取的镜头确定为新闻主持人语音镜头(anchorperson speech shot)。所述新闻主持人语音镜头表示包括新闻主持人的语音的镜头，但是不限于此，并且可以是包括报告者的语音或对于用户有意义的声音的镜头。一般，新闻主持人镜头的长度相当长，大于10秒，并且在新闻主持人镜头结束的部分中存在一些无声部分，它是当新闻主持人镜头和报告镜头连续地存在时在新闻主持人镜头和报告镜头之间的边界。在步骤16，根据其特性来确定新闻主持人语音镜头。即，镜头的长度应当大于第一门限值TH1，具有大于第二门限值TH2的长度的无声部分应当存在于所述镜头结束的部分中，以便镜头可以是新闻主持人语音镜头，所述无声部分是镜头之间的边界。

图1的检测新闻主持人镜头的方法可能不包括步骤14。在这种情况下，在步骤12后的步骤16，使用在步骤12获得的边界来提取具有大于第一门限值TH1的长度的镜头和具有大于第二门限值TH2的长度的无声部分，并且将所提取的镜头确定为新闻主持人语音镜头。

图3是图解按照本发明的一个实施例16A的、图1的步骤16的流程图。图3的实施例16A包括：使用镜头的长度和无声部分的长度来确定新闻主持人语音镜头(步骤30-38)。

首先，在步骤30中，使用在步骤12获得的边界来获得每个镜头的长度。镜头之间的边界表示在镜头的结尾和新镜头的开始之间的部分，因此所述边界可以用于获得镜头的长度。

在步骤30后的步骤32，从镜头选择具有大于第一门限值TH1的长度的镜头。

在步骤32后的步骤34，获得所选择的镜头的每个的无声部分的长度。所述无声部分是其中没有有意义的声音的部分。

图4是图解按照本发明的一个实施例34A的、图3的步骤34的流程图。图4的实施例34A包括：使用帧的音频能量来获得无声门限值(步骤50和52)，并且计数使用无声门限值获得的无声部分中包括的帧的数量(步骤54和56)。

图5示出了在步骤32选择的镜头中的一个镜头的结构。图5的镜头包括N个帧，即帧1、帧2、帧3、...、帧i、...、帧N。为了方便，假定N是等于或大于1的正整数，1≤i≤N，帧1是开始帧，帧N是结束帧。

首先，在步骤50中，获得在步骤32中选择的镜头的每个中包括的帧帧1、帧2、帧3、...、帧i、...、帧N的每个的能量。在此，可以通过方程1来给出在步骤32中选择的镜头的每个中包括的每个帧的能量。

E_{i} = \frac{\sqrt{Σ_{n = 1}^{f_{d} t_{f}} {pcm}_{n}^{2}}}{f_{d} t_{f}} - - - (1)

在此，E_i是在镜头中包括的帧中第i个帧的能量，f_d是下采样音频信号的频率，t_f是第i个帧的长度70，pcm是在第i个帧中包括的每个采样的脉冲编码调制(PCM)值，并且是整数。当f_d是8kHz并且t_f是25毫秒时，f_dt_f是200。即，在第i个帧中存在200个采样。

在步骤50后的步骤52，使用在步骤32中选择的镜头中包括的帧的能量来获得无声门限值。在每个广播站中，在诸如新闻的活动图像中的无声部分中包括的帧的能量的大小可以彼此不同。因此，使用在步骤50获得的能量来获得无声门限值。

图6是图解按照本发明的一个实施例52A的、图4的步骤52的流程图。图6的实施例52A包括：使用被表达为整数的能量来获得帧相对于能量的分布(步骤80和82)，并且将对应的能量确定为无声门限值(步骤84)。

图7是示出帧的数量对能量的图。横轴是能量，纵轴是帧数量。

在步骤80中，在步骤32中选择的每个镜头中包括的帧中的、在步骤50获得的每个能量被舍入并且被表达为整数。在步骤80后的步骤82，使用被表达为整数的能量来获得帧相对于能量的分布。例如，在步骤32中选择的每个镜头中包括的每个帧的能量被示出为帧相对于能量的分布，如图7所示。

在步骤82后的步骤84，将参考能量确定为在帧相对于能量的分布中的无声门限值，并且执行步骤54。选择参考能量，以便等于或小于参考能量的能量中分布的帧的数量大约等于对应于在步骤32选择的镜头中包括的帧的总数X的预定百分比Y％、即XY/100的数量。例如，当帧相对于能量的分布被示出在图7中并且X＝4500和Y＝20时，可以将包括大约900个帧的、具有大约8的初始值的能量90选择为参考能量。

图8图解帧相对于能量的分布以理解图4的步骤54，它示出了在一个新闻主持人语音镜头的后部中的能量分布。在此，横轴表示帧数量(时间流)，纵轴表示能量。

在步骤52后的步骤54，使用无声门限值来确定在步骤32中选择的每个镜头的无声部分。例如，如图8所示，将具有等于或小于无声门限值100的帧所属的部分确定为无声部分102。

图9示出了在步骤32中选择的镜头中的一个镜头的结构以理解图4的步骤56。图9的镜头包括N个帧，即帧N、帧N-1、...、帧1。

在步骤54后的步骤56，在步骤32选择的每个镜头中计数无声帧的数量，将计数结果确定为无声部分的长度，并且执行步骤36。无声帧是无声部分中包括并且具有等于或小于无声门限值的能量的帧。例如，如图9所示，可以从在步骤32中选择的每个镜头的结束帧帧N到开始帧帧1的方向110中进行计数。

在步骤32中选择的每个镜头的结束帧可以不被计数，因此所选择的镜头的每个的结束帧具有不大于f_dt_f的采样数量。

另外，当计数属于无声部分的帧的数量时，即当确定是否一个帧属于无声部分中时，如果连续地存在大于无声门限值的能量，则可以停止计数操作。例如，当从在步骤32中选择的每个镜头查看是否帧是无声帧时，即使第L个帧不是无声帧并且当第(L-1)个帧是无声帧时，所述第L个帧被当作无声帧。另外，当第(L-M)个帧和第(L-M-1)个帧不是无声帧时，停止计数操作。

在步骤34后的步骤36，从在步骤32选择的镜头提取具有无声部分的镜头，所述无声部分具有大于第二门限值TH2的长度。例如，当帧的长度t_f是25毫秒并且第二门限值TH2被设置为0.85秒时，如果在镜头的无声部分中包括的无声帧的数量大于34，则在步骤36提取所述镜头。

在步骤36后的步骤38中，仅仅具有较长长度的预定百分比Q％的镜头(PQ/100)是从P(其中P是正整数)个所提取镜头中选择的，并且被确定为新闻主持人语音镜头，并且执行步骤18。例如，当P是200并且Q是80时，丢弃在步骤36中提取的200个镜头中具有短长度的40个镜头，并且将具有长长度的仅仅160个镜头选择和确定为新闻主持人语音镜头。

图3的步骤16A包括步骤38，以便防止具有长无声部分的报告镜头被提取为新闻主持人语音镜头。但是，步骤16A可以不包括步骤38。在这种情况下，在执行步骤36后，执行步骤18。

图10A、10B、10C、10D和10E示出了在图1的步骤16中确定的示例新闻主持人语音镜头。

通过执行图1的步骤10-16来从活动图像仅仅提取例如图10A-10E所示的新闻主持人语音镜头。

同时，在步骤16后的步骤18，从所述新闻主持人语音镜头分离包括多个新闻主持人的语音的多个新闻主持人的语音镜头。所述多个新闻主持人可以是相同性别或相反性别的新闻主持人。即，所述多个新闻主持人的语音镜头可以包括仅仅女新闻主持人语音或男新闻主持人语音或两者。

图11是图解按照本发明的一个实施例18A的、图1的步骤18的流程图。图11的实施例18A包括：从每个新闻主持人语音镜头去除无声帧和辅音帧(consonant frame)，然后检测多个新闻主持人的语音镜头(步骤130和132)。

在步骤16后的步骤130，从每个新闻主持人语音镜头去除所述无声帧和辅音帧。

图12是图解按照本发明的一个实施例130A的、图11的步骤130的流程图。图12的实施例130A包括：去除属于通过使用帧的能量获得的无声门限值确定的无声部分的帧(步骤150到156)。

在步骤150中，为了从每个新闻主持人语音镜头去除无声帧，获得在每个新闻主持人语音镜头中包括的每个帧的能量。

在步骤150后的步骤152，使用在每个新闻主持人语音镜头中包括的帧的能量来获得无声门限值。在步骤152后的步骤154，使用无声门限值来确定每个新闻主持人语音镜头的无声部分。在步骤154后的步骤156，从每个新闻主持人语音镜头去除在所确定的无声部分中包括的无声帧。

对于在步骤16中确定的每个新闻主持人语音镜头执行图12的步骤150、152和154，并且对于在步骤32中选择的每个镜头执行图4的步骤50、52和54。除了这一点，图12的步骤150、152和154对应于图4的步骤50、52和54。因此，通过将对于在步骤32中选择的镜头执行替代为对于在步骤16中确定的新闻主持人语音镜头执行，图6-8的说明可以被应用到图12的步骤150、152和154。

或者，不必在图12的步骤150-154中独立地获得在步骤16中确定的新闻主持人语音镜头的无声帧，仅仅使用在步骤50-54中已经确定的无声部分中的、在步骤16中确定的新闻主持人语音镜头的无声部分。因此，在步骤156，已经在步骤54中确定的无声部分中包括的帧被当作无声帧，并且从每个新闻主持人语音镜头中去除。

图13是图解按照本发明的一个实施例130B的、图11的步骤130的流程图。实施例130B包括：使用按照在每个新闻主持人语音镜头中的每个帧获得的过零率(ZCR)确定辅音帧(步骤170和172)，并且去除所确定的辅音帧(步骤174)。

首先，在步骤170中，获得按照在每个新闻主持人语音镜头中包括的每个帧的ZCR。所述ZCR可以通过方程2给出。

ZCR = \frac{#}{f_{d} t_{f}} - - - (2)

在此，#是在脉冲编码调制(PCM)数据的分贝值中的符号改变的数量，t_f是在其中获得所述ZCR的帧的长度。在这种情况下，当音频信号的频率提高时，所述ZCR提高。另外，所述ZCR用于分类新闻主持人语音的辅音部分和元音部分，因为语音的基波频率主要存在于语音的元音部分。

在步骤170后的步骤172，使用在每个新闻主持人语音镜头中包括的每个帧的ZCR来确定辅音帧。

图14是图解按照本发明的一个实施例172A的、图13的步骤172的流程图。图14的实施例172A包括：使用ZCR的平均值来确定辅音帧(步骤190和192)。

在步骤170后的步骤190，获得在每个新闻主持人语音镜头中包括的帧的ZCR的平均值。在步骤190后的步骤192，在每个新闻主持人语音镜头中，将具有大于ZCR的平均值的预定倍数的ZCR的帧确定为辅音帧，并且执行步骤174。所述预定倍数可以设置为2。

在步骤172后的步骤174，从每个新闻主持人语音镜头去除所确定的辅音帧。

可以同时执行图12的步骤130A和图13的步骤130B。在这种情况下，如图12和13所示，在图12的步骤156后，执行步骤132，并且在图13的步骤174后，执行步骤132。

或者，在图12的步骤130A后，可以执行图13的步骤130B。在这种情况下，不像在图12中那样，而是在图12的步骤156后，执行步骤170。

或者，在图12的步骤130A之前，可以执行图13的步骤130B。在这种情况下，不像在图13中那样，而是在图13的步骤174后，执行步骤150。

同时，按照本发明的一个实施例，在步骤130后，在步骤132，获得按照从中去除了无声帧和辅音帧的每个新闻主持人语音镜头中包括的每个帧的每个系数的唛耳频率对数倒频谱系数(mel-frequency cepstral coeffcient，MFCC)，并且使用所述MFCC来检测多个新闻主持人的语音镜头。所述MFCC已经由Davis S.B.和Mermelstein P.引入[“Comparison of ParametricRepresentations of Monosllabic Word Recognition in Continuously SpokenSentences”，IEEE Trans.Acoustics，Speech and Signal Processing，28，pp.357-366，1980(“在连续说出的语句中的单音节字识别的参数表示的比较”，IEEE会刊声音、语音和信号处理，28，第357-366页，1980)]。

图15是图解按照本发明的一个实施例132A的、图11的步骤132的流程图。图15的实施例132A包括使用在每个新闻主持人语音镜头中的MFCC来确定多个新闻主持人的语音镜头(步骤210-214)。

图16A-16E是用于理解图11的步骤132的视图。图16A示出了新闻主持人语音镜头，图16B-16E示出了示例窗口。

在步骤210，对于从中去除了无声帧和辅音帧的每个新闻主持人语音镜头，在具有预定长度的窗口以预定的时间间隔移动的同时获得按照在每个窗口中包括的一个帧的每个系数的MFCC的平均值。所述MFCC是在语音识别中广泛使用的特征值，并且一般在每个帧中包括13个系数。在本发明中，排除了第零个系数即12个MFCC以用于语音识别。

在这种情况下，每个窗口可以包括多个帧，每个帧具有按照一个帧的每个系数的MFCC。因此，通过平均按照每个窗口的多个帧的每个系数的MFCC而获得按照每个窗口的每个系数的MFCC的平均值。

在步骤210后的步骤212，在相邻的窗口之间获得在MFCC的平均值之间的差。在步骤212后的步骤214，对于从中去除了无声帧和辅音帧的每个新闻主持人语音镜头，如果在相邻窗口之间的MFCC的平均值之间的差大于第三门限值TH3，则所述新闻主持人语音镜头被确定为多个新闻主持人的语音镜头。

例如，参见图16，当预定长度的窗口是3秒并且所述窗口移动的预定时间间隔是1秒时，如图16B-16E所示，在步骤210，在所述窗口以1秒的时间间隔移动的同时获得按照在每个窗口中包括的帧的每个系数的MFCC的平均值。在这种情况下，可以相对于第七、第八、第九、第十、第十一和第十二系数的每个来获得在每个窗口中获得的MFCC的平均值。在这种情况下，在步骤212，可以在图16B和16C的相邻窗口之间、图16C和16D的相邻窗口之间和在图16D和16E的相邻窗口之间获得在MFCC的平均值之间的差。如果在步骤212获得的差中至少一个大于第三门限值TH3，则在步骤214，将图16A的新闻主持人语音镜头确定为多个新闻主持人的语音镜头。

按照本发明的另一个实施例，在步骤130后的步骤132，在从中去除了无声帧和辅音帧的每个新闻主持人语音镜头中包括的每个帧中获得按照每个系数和在预定频率带宽中的功率谱密度PSD的MFCC，并且使用按照每个系数和PSD的MFCC来检测多个新闻主持人的语音镜头。所述预定频率带宽是其中在男人语音和女人语音的平均频谱之间存在大差别的频率带宽，并且可以设置为例如100-150Hz。在男人语音和女人语音的频谱之间的差被Irii，H.、Itoh，K.和Kitawaki，N.引入[“Multi-lingual Speech Database for Speech QualityMeasurements and its Statistic Characteristics”，Trans.Committee on SpeechResearch，Acoust.Soc.Jap，pp.S87-69，1987(“用于语音质量测量的多语言语音数据库机器统计特性”，语音研究委员会会刊，日本声音协会，第S87-69页，1987)]，并且被Saito，S.、Kato，K.和Teranishi，N引入[“Statistical Propertiesof Fundamental Frequencies of Japanese Speech Voices”，J.Acoust.Soc.Jap，14，2，pp.111-1116，1958(“日本语音声音的基本频率的统计特性”，日本声音协会，14，2，第111-116页，1958)]。

图17是图解按照本发明的另一个实施例132B的、图11的步骤132的流程图。图17的实施例132B包括使用在每个新闻主持人语音镜头中的预定频率带宽中的MFCC和PSD来确定多个新闻主持人的语音镜头(步骤230-236)。

在步骤230，在具有预定长度的窗口以预定的时间间隔移动的同时，在从中消除了无声帧和辅音帧的每个新闻主持人语音镜头中获得按照在每个窗口中包括的每个帧的每个系数和在预定频率带宽中的PSD的平均分贝值的MFCC的平均值。通过下述方式来获得在每个窗口的预定频率带宽中的PSD的平均分贝值：计算在每个窗口中包括的每个帧的预定频率带宽中的频谱，平均被计算的频谱，并且将所计算的平均频谱转换为分贝值。

例如，如图16B-16E所示，在具有3秒长度的窗口以1秒的时间间隔移动的同时，获得在每个窗口中包括的预定频率带宽中的PSD的平均分贝值以及按照在每个窗口中包括的每个帧的每个系数的MFCC的平均值。每个窗口的三个帧的每个具有在预定频率带宽中的PSD的一个分贝值。因此，通过平均每个窗口的三个帧的PSD的分贝值来获得在每个窗口的预定频率带宽中的PSD的平均分贝值。

在步骤230后的步骤232，获得在相邻的窗口WD1和WD2之间的MFCC的平均值之间的差Δ1和在相邻的窗口WD1和WD2之间的PSD的平均分贝值之间的差Δ2。

在步骤232后的步骤234，在从中去除了无声帧和辅音帧的每个新闻主持人语音镜头中获得所述差Δ1和Δ2的加权和。所述加权和WS1可以通过方程3给出。

WS1＝W₁Δ1+(1-W₁)Δ2 (3)

在此，WS1是加权和，W₁是第一加权值。

在步骤234后的步骤236，具有大于第四门限值TH4的加权和WS1的新闻主持人语音镜头被确定为多个新闻主持人的语音镜头，并且执行步骤20。

在图15的步骤132A中，仅仅使用MFCC的平均值，还未使用PSD的平均分贝值。因此，可以执行图15的步骤132A来确定包括具有来自新闻主持人语音镜头的不同声音的同一性别的新闻主持人的评述的多个新闻主持人的语音镜头。在这种情况下，在图17的步骤132B中，使用PSD的平均分贝值以及MFCC的平均值。以这种方式，使用PSD的平均分贝值，可以执行图17的步骤132B来确定包括来自新闻主持人语音镜头的男新闻主持人和女新闻主持人的评述的多个新闻主持人的语音镜头。

同时，在步骤18后的步骤20，将多个新闻主持人的语音镜头汇集，将除了来自新闻主持人语音镜头的多个新闻主持人的语音镜头之外的新闻主持人的语音镜头分组，并且将分组结果确定为相似组。

图18是图解按照本发明的一个实施例20A的、图1的步骤20的流程图。图18的实施例20A包括使用MFCC和PSD来确定相似分组(步骤250-258)。

在步骤250，在每个新闻主持人的语音镜头中获得按照每个系数的MFCC的平均值。

在步骤250后的步骤252，当使用按照两个新闻主持人的语音镜头S_j和S_j+1的每个系数的MFCC的平均值计算的MFCC距离是在新闻主持人语音镜头中最近的并且小于第五门限值TH5时，所述两个新闻主持人的语音镜头S_j和S_j+1被确定为相似候选镜头S_j′和S_j+1′。按照在步骤252中使用的每个系数的MFCC的平均值的系数可以是第三到第十二系数，j表示一个新闻主持人的语音镜头的索引，并且在步骤250中被初始化。在这种情况下，可以通过方程4来给出MFCC距离WMFCC。

WMFCC = \sqrt{{(a_{1} - b_{1})}^{2} {(a_{2} - b_{2})}^{2} + . . . + {(a_{k} - b_{k})}^{2}} - - - (4)

在此，a₁、a₂、...和a_k是按照新闻主持人的语音镜头S_j的每个系数的MFCC的平均值，b₁、b₂、...和b_k是按照新闻主持人的语音镜头S_j+1的每个系数的MFCC的平均值，k是按照从新闻主持人的语音镜头S_j或S_j+1获得的每个系数的MFCC的平均值中的系数的总数。

在步骤252后的步骤254，获得在相似候选镜头S_j′和S_j+1′的预定频率带宽中的PSD的平均分贝值之间的差。

在步骤254后的步骤256，当在步骤254申获得的PSD的平均分贝值之间的差小于第六门限值TH6时，相似候选镜头S_j′和S_j+1′被编组和确定为相似分组。在这种情况下，当在PSD的平均分贝值之间的差大于第六门限值TH6时，可以向其中MFCC的平均值相似的相似候选镜头分配标记，因为防止对于被分配标记的相似候选镜头再次执行步骤252、254和256。

在步骤256后的步骤258，确定是否所有的新闻主持人的语音镜头被编组。如果确定所有的新闻主持人的语音镜头未被编组，则执行步骤252，并且对于其中MFCC的两个不同平均值最近的新闻主持人的语音镜头S_j+1和S_j+2执行步骤252、254和256。但是，如果确定所有的新闻主持人的语音镜头被编组，则结束图18的步骤20A。

图19A、19B和19C示出了通过将图10A-10E的新闻主持人语音镜头编组而确定的示例相似组。

例如，通过在图1的步骤20中编组图10A-10E的新闻主持人语音镜头，男新闻主持人语音镜头可以被编组到一个相似组(如图19A所示)，女新闻主持人语音镜头可以被编组到另一个相似组(如图19B所示)，而多个新闻主持人的语音镜头可以被编组到另一个相似组(如图19C所示)。

同时，在步骤20后的步骤22，每个相似组的代表值作为一个新闻主持人语音模型获得。所述代表值是按照属于相似组的镜头的每个系数的MFCC的平均值和属于相似组的镜头的预定频率带宽中的PSD的平均分贝值。

在步骤22后的步骤24，使用关于在每个相似组中包括的每个镜头的帧中的初始帧的信息来产生独立的语音模型。所述初始帧可以是对应于在每个相似组中包括的每个镜头中最初4秒的帧。例如，可以平均关于初始帧的信息，并且平均结果可以被确定为独立的语音模型。

图20是图解按照本发明的另一个实施例的、用于检测新闻主持人镜头的方法的流程图。图20的方法包括验证使用新闻主持人图像模型检测的新闻主持人候选镜头是否是实际的新闻主持人镜头(步骤270-274)。

在步骤270，产生新闻主持人图像模型。

在步骤270后的步骤272，使用所产生的新闻主持人图像模型来检测新闻主持人候选镜头。例如，可以将一个运动图像划分为多个镜头，并且可以通过下述方式来检测新闻主持人候选镜头：通过获得在多个被划分的镜头的每个的关键帧和新闻主持人图像模型之间的色差，并且通过比较所述色差。为了获得所述色差，在所述运动图像中包括的多个镜头的每个被划分为R×R(其中R是等于或大于1的正整数)个子块，并且新闻主持人图像模型被划分为R×R个子块。在这种情况下，将物体镜头的子块的颜色与与所述子块位于相同位置的新闻主持人图像模型的子块的颜色相比较，并且将比较结果确定为在子块之间的色差。如果在一个镜头的关键帧和新闻主持人图像模型之间的色差小于色差门限值，则所述镜头被确定为新闻主持人候选镜头。

所述色差是基于Grey世界理论的归一化值，并且可以被确定为相对于一些照明变化是强壮的。Grey世界理论是由E.H.Land和J.J.McCann引入的[“Lightness and Retinex Theory”，Journal of the Optical Society of America，vol.61，pp.1-11，1971(“亮度和视网膜(Retinex)理论”，美国光学学会学报，第61卷，第1-11页，1971)]。

在步骤272后的步骤274中，使用独立的语音模型和新闻主持人语音模型来验证新闻主持人候选镜头是否是包括新闻主持人图像的实际新闻主持人镜头。例如，使用独立的语音模型来验证具有小于6秒的很小长度的新闻主持人候选镜头是否是实际的新闻主持人镜头。因此，当具有大长度的新闻主持人候选镜头是实际的新闻主持人镜头时不使用独立的语音模型。在这种情况下，图1的方法可以不包括步骤24。

图21是图解按照本发明的实施例274A的图20的步骤274的流程图。图21的实施例274A包括使用色差信息、产生新闻主持人候选镜头的时间和新闻主持人候选镜头的代表值来验证新闻主持人候选镜头是否是实际的新闻主持人镜头(步骤292-298)。

在步骤292中，使用产生新闻主持人候选镜头的时间来获得每个新闻主持人候选镜头的代表值。所述新闻主持人候选镜头的代表值是按照属于所述镜头的帧的每个系数的MFCC的平均值和属于所述镜头的帧的预定频率带宽中的PSD的平均分贝值。另外，在步骤272获得产生新闻主持人候选镜头的时间，并且它是当开始和结束新闻主持人候选镜头时的时间。

在步骤292后的步骤294，获得在每个新闻主持人语音镜头的代表值和新闻主持人语音模型之间的差DIFF。所述差DIFF可以通过方程5给出。

DIFF＝W₂Δ3+(1-W₂)Δ4 (5)

在此，W₂是第二加权值，Δ3是在按照新闻主持人候选镜头的每个系数的MFCC的平均值和新闻主持人语音模型之间的差，Δ4是在新闻主持人候选镜头的PSD的平均分贝值和新闻主持人语音模型之间的差。

在步骤294后的步骤296，在每个新闻主持人候选镜头中获得色差信息ΔCOLOR和例如通过方程5可以表达的差DIFF的加权和WS2。色差信息ΔCOLOR是关于在新闻主持人候选镜头和在步骤272检测的新闻主持人语音模型之间的色差的信息，并且在步骤296获得的加权和WS2可以通过方程6给出。

WS2＝W₃ΔCOLOR+(1-W₃)DIFF (6)

在此，W₃是第三加权值。在这种情况下，加权和WS2反映作为运动图像的视频信息的色差信息ΔCOLOR和作为音频信息的差DIFF，因此被称为多模态信息。

在步骤296后的步骤298，当加权值WS2不大于第七门限值TH7时，所述新闻主持人候选镜头被确定为实际新闻主持人镜头。但是，当加权值WS2大于第七门限值TH7时，确定所述新闻主持人候选镜头不是实际的新闻主持人镜头。

按照本发明的一个实施例，在图20的步骤270中，可以使用可视信息来产生新闻主持人图像模型。所述可视信息是新闻主持人的脸、背景颜色、新闻主持人的衣服颜色或相似的代表帧的发生频率的至少一个。使用可视信息来产生新闻主持人图像模型的传统方法被HongJiang Zhang、Yihong Gong、Smoliar S.W.和Shuang Yeo Tan[“Automatic Parsing of News Video”，MultimediaComputing and Systems，Proceedings of International Conference on，pp.45-54，1994(“新闻视频的自动语法分析”，多媒体计算和***国际会议会刊，第45-54页，1994)]、Hanjalic，A.、Lagensijk，R.L.和Biemond，J.[“Template-basedDetection of Anchorperson Shots in News Program”，Image Processing，ICIP 98.Proceedings，International Conference on，v3，pp.148-152，1998(“在新闻节目中的新闻主持人镜头的基于模板的检测”，国际信息处理会议98图像处理国际会议会刊，第3卷，第148-152页，1998)]、M.Tekalp等[“Video Indexing throughIntegration of Syntactic and Semantic Features”，Proc.Workshop Applications ofComputer Vision，1996(“通过集成语法和语义特性的视频索引”，计算机视觉的工作室应用会刊，1996)]、Nakajima，Y、Yamguchi，D.、Kato，H.、Yanagihara，H.和Hatori，Y.[“Automatic Anchorperson Detection from an MPEG coded TVProgram”，Consumer Electronics，ICCE.2002 Digest of Technical Papers.International Conference on，pp.122-123(“从MPEG编码的电视节目自动新闻主持人检测”，消费者电子国际会议，ICCE 2002技术论文摘要，第122-123页)]引入。以这种方式，当产生新闻主持人图像模型时，可以在执行图1的方法的同时执行步骤270和272。在这种情况下，在执行步骤24和272后执行步骤274。

按照本发明的另一个实施例，在步骤270，可以使用在图1的步骤16或20获得的新闻主持人语音镜头或相似组来产生新闻主持人图像模型。在这种情况下，在步骤270，使用所述新闻主持人语音镜头或相似组来掌握在镜头代表帧中的新闻主持人位置，并且使用所述新闻主持人的位置来产生新闻主持人图像模型。

如果使用在图1的步骤16中获得的新闻主持人语音镜头来产生新闻主持人图像模型，则可以在图1的步骤16后执行步骤18-24的同时执行步骤270和272。在这种情况下，在步骤24后执行步骤274。

或者，如果使用在图1的步骤20中获得的相似组来产生新闻主持人图像模型，则在图1的步骤20后执行步骤270和272。在这种情况下，在步骤24后执行步骤274。

同时，可以通过执行步骤270和272来实现图20的方法。

在这种情况下，按照本发明的一个实施例，当在步骤270使用在图1的步骤16中获得的新闻主持人语音镜头来产生新闻主持人图像模型时，在图1的步骤16后执行步骤270和272。在这种情况下，图1的方法不必包括步骤18-24。

按照本发明的另一个实施例，当在步骤270使用在图1的步骤20中获得的相似组产生新闻主持人图像模型时，在图1的步骤20后执行步骤270和272。在这种情况下，图1的方法不必包括步骤22和24。

以下，将参照附图来详细说明按照本发明的用于检测新闻主持人镜头的装置。

图22是按照本发明的一个实施例的、用于检测新闻主持人镜头的装置的方框图。图22的装置包括信号分离单元400、边界确定单元402、下采样单元404、新闻主持人语音镜头提取单元406、镜头分离单元408、镜头分组单元410、代表值产生单元412和分离的语音模型产生单元414。

图22的装置可以执行图1的方法。

为了执行步骤10，信号分离单元400将通过输入端IN1输入的运动图像分离为音频信号和视频信号，向下采样单元404输出所分离的音频信号，并且向边界确定单元402输出被分离的视频信号。

为了执行步骤12，边界确定单元402使用由信号分离单元400输入的分离的视频信号来确定镜头之间的边界，并且向新闻主持人语音镜头提取单元406输出镜头之间的边界。

为了执行步骤14，下采样单元404下采样由信号分离单元400输入的分离的音频信号，并且向新闻主持人语音镜头提取单元406输出下采样结果。

为了执行步骤16，新闻主持人语音镜头提取单元406使用由边界确定单元402输入的边界作为新闻主持人语音镜头从下采样的音频信号提取具有大于第一门限值TH1的长度的镜头和具有大于第二门限值TH2的无声部分，并且通过输出端OUT2向镜头分离单元408输出被提取的新闻主持人语音镜头。

如上所述，当图1的方法不包括步骤14时，图22的装置可以不包括下采样单元404。在这种情况下，新闻主持人语音镜头提取单元406使用由边界确定单元402输入的边界从音频信号提取具有大于第一门限值TH1的长度的镜头和具有大于第二门限值TH2的无声部分，并且输出所提取的镜头作为新闻主持人语音镜头。

同时，为了执行步骤18，镜头分离单元408从由新闻主持人语音镜头提取单元406输入的新闻主持人语音镜头分离多个新闻主持人的语音镜头，并且向镜头分布单元410输出分离结果。

为了执行步骤20，镜头分组单元410从新闻主持人语音镜头分组所述多个新闻主持人的语音镜头和新闻主持人的语音镜头，将分组结果确定为相似组，并且通过输出端OUT3向代表值产生单元412输出确定结果。

为了执行步骤22，代表值产生单元412获得由镜头分组单元410输入的相似组的每个的代表值，并且向分离的语音模型产生单元414输出所获得的结果作为主持人语音模型。

为了执行步骤24，分离的语音模型产生单元414使用关于在每个相似组中包括的每个镜头的帧中的初始帧的信息来产生分离的语音模型，并且通过输出端OUT1输出所产生的分离语音模型。

如上所述，当图1的方法不包括步骤24时，图22的装置可以不包括分离的语音模型产生单元414。

图23是按照本发明的另一个实施例的、用于检测新闻主持人镜头的装置的方框图。图23的装置包括图像模型产生单元440、新闻主持人候选镜头检测单元442和新闻主持人镜头验证单元444。

图23的装置可以执行图20的方法。

图像模型产生单元440产生新闻主持人图像模型，并且向新闻主持人候选镜头检测单元442输出所产生的图像模型。在这种情况下，图像模型产生单元440通过输入端IN2输入从图22的新闻主持人语音镜头提取单元406输出的新闻主持人语音镜头。或者，图像模型产生单元440通过输入端IN2输入从图22的镜头分组单元410输出的相似组，并且使用所输入的相似组来产生新闻主持人语音模型。

为了执行步骤272，新闻主持人候选镜头检测单元442通过比较由图像模型产生单元440产生的新闻主持人图像模型和通过输入端IN3输入的每个被划分的镜头的关键帧来检测新闻主持人候选镜头，并且向新闻主持人镜头验证单元444输出所检测到的新闻主持人候选镜头。

为了执行步骤274，新闻主持人镜头验证单元444使用由分离的语音模型产生单元414和代表值产生单元412通过输入端IN4输入的分离的语音模型和新闻主持人语音模型来验证由新闻主持人候选镜头检测单元442输入的新闻主持人候选镜头是否是包括新闻主持人图像的实际新闻主持人镜头，并且通过输出端OUT4来输出验证结果。

上述的第一加权值W₁可以设置为0.5，第三加权值W₃可以设置为0.5，第一加权值TH1可以设置为6，第二加权值TH2可以设置为0.85，第四加权值TH4可以设置为4，第七加权值TH7可以设置为0.51。在这种情况下，彼此比较使用按照本发明的用于检测新闻主持人镜头的方法和装置的结果和使用用于检测在由几个广播站产生的720分钟长度数量的新闻运动图像中的新闻主持人镜头的传统方法的结果，如表1所示。所述传统方法由Xinbo Gao、Jie Li和Bing Yang[“A Graph-Theoretical Clustering based Anchorperson ShotDetection for News Video Indexing”，ICCIMA，2003(“基于用于新闻视频索引的新闻主持人镜头检测的图形理论分组”，ICCIMA，2003)].引入。

表1

分类	实际新闻主持人镜头(A)	所提取的镜头B	所提取的新闻主持人镜头C	错误检测到的新闻主持人镜头D	未检测的新闻主持人镜头E	精度＝C/B(％)	复检比＝C/A(％)
分类	实际新闻主持人镜头(A)	所提取的镜头B	所提取的新闻主持人镜头C	错误检测到的新闻主持人镜头D	未检测的新闻主持人镜头E	精度＝C/B(％)	复检比＝C/A(％)	步骤274前	284	301	281	20	2	93.36	98.94
步骤274后	281	282	281	1	0	99.65	100.00	步骤274前	284	301	281	20	2	93.36	98.94
步骤274后	281	282	281	1	0	99.65	100.00	传统方法	255	254	248	6	7	97.64	97.25

如表1中所示，按照本发明的用于检测新闻主持人镜头的方法和装置比用于检测新闻主持人镜头的传统方法具有更多的优点。

通过按照新闻情节来分类按照本发明的方法和装置检测的新闻主持人镜头，用户可以从因特网看见像新闻情节串连图板(storyboard)那样的镜头。结果，用户可以通过选择所感兴趣的项目来简要地按键对应的运动图像报告。即，使用按照本发明的用于检测新闻主持人镜头的方法和装置，用户可以自动地在期望的时间记录运动图像的期望内容，并且可以从被记录的镜头中选择和看见用户最感兴趣的镜头。

现在，在因为视频内容经由广播、因特网或其他几种媒体泛滥而改变传统的电视观看文化并且出现个人视频记录机(PVR)、电子节目指南(EPG)和大容量硬盘驱动器的环境中，按照本发明的用于检测新闻主持人镜头的方法和装置可以向具有诸如在体育或新闻中的规则图形的运动图像提供简化的情节串连图板或精彩场面，并且可以即使在记录后长时间观看。

如上所述，在按照本发明的用于检测新闻主持人镜头的方法和装置中，可以在诸如具有新闻主持人镜头的新闻之类的运动图像中产生新闻主持人图像模型而没有预定的新闻主持人图像模型，并且即使当新闻主持人的衣服或脸的颜色与背景颜色相似时候，也可以强壮地检测新闻主持人镜头，可以没有第一新闻主持人镜头的检测新闻主持人镜头，并且去除了可能错误地将类似于新闻主持人镜头的报告镜头检测为新闻主持人镜头的可能，即可以准确地检测新闻主持人镜头以便将新闻划分为情节，按照语音和性别来分组新闻主持人镜头的类型，可以在用于提供内容的家用音频/视频存储器或编辑器件中索引运动图像的内容，因此仅仅包含确定的新闻主持人的评述的新闻主持人镜头被提取和搜索或汇总。

虽然已经参照本发明的示例实施例具体示出和说明了本发明，但本领域的技术人员会理解，在不脱离所附的权利要求所限定的本发明的精神和范围的情况下，可以进行形式和细节上的各种改变。

Claims

1.一种检测新闻主持人镜头的方法，所述方法包括：

将活动图像分离为音频信号和视频信号；

使用视频信号来确定镜头之间的边界；以及

使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分，并且将所提取的镜头确定为新闻主持人语音镜头。

2.按照权利要求1的方法，其中，确定镜头之间的边界包括将在运动图像中存在较大改变的部分确定为边界。

3.按照权利要求2的方法，其中，在确定镜头之间的边界时，通过感测运动图像的亮度、色量和运动中至少一个的改变来确定边界。

4.按照权利要求1的方法，还包括下采样音频信号，并且具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分利用所述边界从下采样的音频信号提取，并且确定为新闻主持人语音镜头。

5.按照权利要求4的方法，其中，新闻主持人语音镜头的确定包括：

使用镜头之间的边界来获得每个镜头的长度；

从镜头选择具有大于第一门限值的长度的镜头；

获得每个所选择的镜头的无声部分的长度；以及

从所选择的镜头提取具有长度大于第二门限值的无声部分的镜头。

6.按照权利要求5的方法，其中，每个所选择的镜头的无声部分的长度的获得包括：

获得在每个所选择的镜头中包括的每个帧的能量；

使用所述能量来获得无声门限值；

使用所述无声门限值来确定每个所选择的镜头的无声部分；以及

计数在所述无声部分中包括的帧的数量，并且将计数结果确定为所述无声部分的长度。

7.按照权利要求6的方法，其中通过下式给出在每个所选择的镜头中包括的每个帧的能量：

E_{i} = \frac{\sqrt{Σ_{n = 1}^{f_{d} t_{f}} pc m_{n}^{2}}}{f_{d} t_{f}}

其中，E_i是在每个镜头中包括的帧中第i个帧的能量，f_d是下采样音频信号的频率，t_f是第i个帧的长度，pcm是在第i个帧中包括的每个采样的脉冲编码调制(PCM)值。

8.按照权利要求6的方法，其中无声门限值的获得包括：

将每个能量表达为整数；

使用被表达的结果来获得帧相对于能量的分布；并且

将帧相对于能量的分布中的参考能量确定为无声门限值，以及

相对于等于或小于窗口能量的能量分布的帧的数量大致等于对应于在所选择的镜头中包括的帧的总数的预定百分比的数量。

9.按照权利要求5的方法，其中，新闻主持人语音镜头的确定包括：仅仅从所提取的镜头中选择具有较大长度的预定百分比的镜头，并且将所选择的镜头确定为新闻主持人语音镜头。

10.按照权利要求6的方法，其中，在计数帧数量时，不计数每个所选镜头的最后帧。

11.按照权利要求6的方法，其中，当连续地存在具有大于无声门限值的能量的帧时，停止计数帧数量。

12.按照权利要求1的方法，还包括：

从新闻主持人语音镜头分离包括多个新闻主持人的语音的多个新闻主持人的语音镜头；

分组从新闻主持人语音镜头排除了所述多个新闻主持人的语音镜头之外的新闻主持人的语音镜头，分组所述多个新闻主持人的语音镜头，并且将分组结果确定为相似组；以及

获得每个相似组的代表值作为新闻主持人语音模型。

13.按照权利要求12的方法，其中从新闻主持人语音镜头分离多个新闻主持人的语音镜头包括：

从每个新闻主持人语音镜头中去除无声帧和辅音帧；以及

获得按照从中去除了无声帧和辅音帧的每个新闻主持人语音镜头中包括的每个帧的每个系数的唛耳频率对数倒频谱系数(MFCC)，并且使用所述MFCC来检测多个新闻主持人的语音镜头。

14.按照权利要求13的方法，其中，无声帧的去除包括：

获得在每个新闻主持人语音镜头中包括的每个帧的能量；

使用所述能量来获得无声门限值；

使用所述无声门限值来确定每个新闻主持人语音镜头的无声部分；以及

从每个新闻主持人语音镜头去除在被确定的无声部分中包括的无声帧。

15.按照权利要求13的方法，其中，辅音帧的去除包括：

获得在每个新闻主持人语音镜头中包括的每个帧中的过零率；

使用在每个新闻主持人语音镜头中包括的每个帧中的过零率来确定辅音帧；以及

从每个新闻主持人语音镜头去除所确定的辅音帧。

16.按照权利要求15的方法，其中，通过下式来给出过零率(ZCR)：

ZCR = \frac{#}{f_{d} t_{f}}

其中，#是在脉冲编码调制数据中的分贝值中的符号改变的数量，f_d是下采样音频信号的频率，t_f是其中获得所述ZCR的帧的长度。

17.按照权利要求15的方法，其中，辅音帧的确定包括：

获得在新闻主持人语音镜头中包括的帧的过零率的平均值；以及

将具有大于所述平均值的倍数的过零率的帧确定为在每个新闻主持人语音镜头中的辅音帧。

18.按照权利要求13的方法，其中多个新闻主持人的语音镜头的检测包括：

对于从中去除了无声帧和辅音帧的每个新闻主持人语音镜头，在具有预定长度的窗口以预定的时间间隔移动的同时获得按照在每个窗口中包括的帧的每个系数的MFCC的平均值；

获得在相邻窗口之间的MFCC的平均值之间的差；以及

对于从中去除了无声帧和辅音帧的每个新闻主持人语音镜头，将所述新闻主持人语音镜头确定为具有大于第三门限值的差的多个新闻主持人的语音镜头。

19.按照权利要求13的方法，其中，在多个新闻主持人的语音镜头的检测时，在从中去除了无声帧和辅音帧的每个新闻主持人语音镜头包括的每个帧中获得按照每个系数和在预定频率带宽中的功率谱密度(PSD)的MFCC，并且使用按照每个系数和PSD的MFCC来检测多个新闻主持人的语音镜头。

20.按照权利要求19的方法，其中多个新闻主持人的语音镜头的检测包括：

对于从中消除了无声帧和辅音帧的每个新闻主持人语音镜头，在具有预定长度的窗口以预定的时间间隔移动的同时，获得按照在每个窗口中包括的每个帧的每个系数和在预定频率带宽中的PSD的平均分贝值的MFCC的平均值；

获得在相邻的窗口WD1和WD2之间的MFCC的平均值之间的差Δ1和在相邻的窗口WD1和WD2之间的PSD的平均分贝值之间的差Δ2；

在从中去除了无声帧和辅音帧的每个新闻主持人语音镜头中获得所述差Δ1和Δ2的加权和；以及

将具有大于第四门限值的加权和的新闻主持人语音镜头确定为独个新闻主持人语音镜头。

21.按照权利要求12的方法，其中新闻主持人的语音镜头的分组和确定相似组包括：

获得在每个新闻主持人的语音镜头中的MFCC的平均值；

当使用按照两个新闻主持人的语音镜头的每个系数的MFCC的平均值计算的MFCC距离是在新闻主持人语音镜头之中最近的并且小于第五门限值TH5时，所述两个新闻主持人语音镜头被确定为相似候选镜头；

获得在相似候选镜头的预定频率带宽中的PSD的平均分贝值之间的差；

当在平均分贝值之间的差小于第六门限值时，分组相似候选镜头，并且将被分组的相似候选镜头确定为相似组；并且

确定是否分组所有的；以及

如果确定所有的新闻主持人语音镜头未被分组，则执行：确定相对于其他两个新闻主持人的语音镜头的相似候选镜头，获得所述差，并且确定相似组。

22.按照权利要求19的方法，其中，所述预定频率带宽是100-150Hz。

23.按照权利要求21的方法，其中，分组新闻主持人的语音镜头和确定相似组还包括：当在PSD的平均分贝值之间的差不小于第六门限值时，向相似候选镜头分配标记，以及

在向相似候选镜头分配所述标记后，不再执行：确定相对于分配了所述标记的相似候选镜头的相似候选镜头、获得所述差和确定相似组。

24.按照权利要求12的方法，其中，所述代表值是按照属于相似组的镜头的每个系数的MFCC的平均值和属于相似组的镜头的预定频率带宽中的PSD的平均分贝值。

25.按照权利要求12的方法，还包括：使用关于在每个相似组中包括的帧中初始帧的信息来产生分离的语音模型。

26.按照权利要求12的方法，还包括产生新闻主持人图像模型。

27.按照权利要求26的方法，还包括：比较所产生的新闻主持人图像模型与每个被划分的镜头的关键帧，并且检测新闻主持人语音镜头。

28.按照权利要求25的方法，还包括产生新闻主持人图像模型。

29.按照权利要求28的方法，还包括：比较所产生的新闻主持人图像模型与每个被划分的镜头的关键帧，并且检测新闻主持人语音镜头。

30.按照权利要求29的方法，还包括：使用分离的语音模型和新闻主持人语音模型来验证新闻主持人候选镜头是否是包括新闻主持人图像的实际新闻主持人镜头。

31.按照权利要求26的方法，其中，使用新闻主持人语音镜头来产生所述新闻主持人图像模型。

32.按照权利要求26的方法，其中，使用可视信息来产生所述新闻主持人图像模型。

33.按照权利要求26的方法，其中，使用相似组来产生新闻主持人图像模型。

34.按照权利要求30的方法，其中，验证新闻主持人候选镜头是否是实际的新闻主持人镜头包括：

使用在检测新闻主持人候选镜头中获得的、产生新闻主持人候选镜头的时间来获得每个新闻主持人候选镜头的代表值；

获得在每个新闻主持人候选镜头的代表值和新闻主持人语音模型之间的差；

获得所述差和在检测新闻主持人候选镜头中获得的新闻主持人候选镜头与相对于每个新闻主持人候选镜头的新闻主持人语音模型之间的色差信息的加权和；以及

当所述加权和小于第七门限值时，将所述新闻主持人候选镜头确定为实际新闻主持人镜头。

35.一种检测新闻主持人镜头的装置，所述装置包括：

信号分离单元，用于将活动图像分离为音频信号和视频信号；

边界确定单元，用于使用视频信号来确定镜头之间的边界；以及

新闻主持人语音镜头提取单元，用于使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分，并且将所提取的镜头输出为新闻主持人语音镜头。

36.按照权利要求35的装置，还包括下采样单元，用于下采样所分离的音频信号，并且所述新闻主持人语音镜头提取单元提取长度大于第一门限值的镜头作为新闻主持人语音镜头，并且使用所述边界从被下采样的音频信号提取长度大于第二门限值的无声部分。

37.按照权利要求35的装置，还包括：

镜头分离单元，用于从新闻主持人语音镜头分离包括新闻主持人的语音的镜头；

镜头分组单元，用于分组从新闻主持人语音镜头排除了包括所述新闻主持人的语音之外的多个新闻主持人的语音镜头的新闻主持人的语音镜头，分组所述多个新闻主持人的语音镜头，并且将分组结果确定为相似组；以及

代表值产生单元，用于计算每个相似组的代表值，并且输出计算结果作为新闻主持人语音模型。

38.按照权利要求37的装置，还包括分离语音模型产生单元，用于使用关于在每个相似组中包括的每个镜头的帧中的初始帧的信息来产生分离的语音模型。

39.按照权利要求37的装置，还包括图像模型产生单元，用于产生新闻主持人图像模型。

40.按照权利要求39的装置，还包括新闻主持人候选镜头检测单元，用于比较所产生的新闻主持人图像模型与每个所划分出的镜头的关键帧，并且检测新闻主持人候选镜头。

41.按照权利要求38的装置，还包括图像模型产生单元，用于产生新闻主持人语音模型，

42.按照权利要求41的装置，还包括新闻主持人候选镜头检测单元，用于比较被产生的新闻主持人图像模型与每个所划分出的镜头的关键帧，并且检测新闻主持人候选镜头。

43.按照权利要求42的装置，还包括新闻主持人镜头验证单元，用于使用分离的语音模型和新闻主持人语音模型来验证新闻主持人候选镜头是否是包括新闻主持人图像的实际新闻主持人镜头。