CN1244900C

CN1244900C - 检测音频信号中无声的方法和接收压缩音频信号的接收机

Info

Publication number: CN1244900C
Application number: CNB028015444A
Authority: CN
Inventors: A·斯特拉; J·A·D·尼斯瓦德巴; M·巴比里; F·斯尼德尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-11
Filing date: 2002-05-10
Publication date: 2006-03-08
Anticipated expiration: 2022-05-10
Also published as: KR20030027938A; EP1393301A1; KR100916959B1; CN1462427A; CN1462426A; DE60233223D1; CN100380441C; JP2004531766A; EP1393480B1; JP4365103B2; US20040125961A1; EP1393301B1; EP1393480A2; JP4560269B2; JP2004520627A; KR20030015385A; CN100348034C; WO2002093801A2; US20040138880A1; CN1612607A

Abstract

本发明涉及一种检测音频信号中无声的方法，在局部信号功率低于给定固定或相关阈值功率电平、局部信号功率低于给定固定或相关阈值的持续时间在第一范围内、并且信号功率下降/上升速率和局部功率偏移中的至少一个参数在各自的另一范围内，检测无声。本发明还涉及在接收机(1)中利用这样的无声检测。

Description

检测音频信号中无声的方法和接收压缩音频信号的接收机

技术领域

本发明涉及检测音频信号中的无声。本发明还涉及在广告检测中利用这种无声检测。

背景技术

EP 1 006 685 A2公开了一种用于处理电视信号以及检测电视信号中广告片的出现的方法和装置。广告候选段检测器根据寂静段和场景变化点来检测广告候选段。广告特征量检测器判断该广告候选段是否具有广告片的各种特征，并根据判断结果给广告特征值增加一个预定值。广告特征量检测器将最终广告特征值与预定阈值进行比较，并根据比较结果判断广告候选段是否是广告段。寂静段检测器将数字化音频信号的电平与阈值进行比较以检测寂静段，并将比较结果输出到场景变化检测器。另外还参考EP 1 087 557 A2。

发明内容

本发明的一个目的是提供一种有利的无声检测。为此，本发明提供用于检测无声的方法、无声检测器和接收机。

根据本发明的第一方面，在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内，检测无声。在局部信号功率电平下降到给定固定或相关阈值功率电平以下的时刻之前或在该时刻附近，确定信号功率下降速率，并且在局部信号功率电平低于给定固定或相关阈值功率电平的持续时间中的至少部分时间期间，确定局部信号功率偏移。线性偏移和/或下降速率被用于过滤部分无声，这种无声可以是能感知的但与广告检测无关。除了下降速率或作为对下降速率的补充，可以利用上升速率，在局部信号功率电平上升到高于给定固定或相关阈值功率电平的时刻附近确定上升功率。

在优选实施例中，无声开始时间、无声持续时间和局部信号功率电平被用于后续统计模型中，以确定连续检测到的无声之间的内容是否为广告片。这些参数可在无声检测中得到，并因此能够有利地重用于确定连续检测到无声之间的内容是否真的是广告片。

当音频信号包括量化样本块、即具有一组比例因子的给定块时，无声检测最好从压缩音频信号提取这组比例因子，并且根据比例因子的组合估计给定块中的信号功率。给定块可以是音频帧或音频帧的一部分。能够容易地从压缩音频中提取比例因子。本发明的这个方面是基于这样一种理解：比例因子表示与其有关的样本的最大可能值。因此，比例因子的组合，如平方比例因子的和给出信号功率的粗略估计，这只需有限的计算负荷。这种粗略估计对于某些应用是完全足够的，比如例如广告检测器中的无声检测。更有利的是只利用这组比例因子的子集。通过只利用整个比例因子组的子集，进一步减少了计算负荷。这可能导致更低的精确度，但与如用于广告片的无声检测等的一些应用关系不大。可以通过省略时间方向和/或频率方向中的比例因子执行子集的形成。例如，子集可以只包括压缩音频信号中可得到的多个窄带子信号的子集，子集最好包括若干较低频率的子信号的比例因子。在压缩音频信号是立体声或多声道信号的情况下，可以只利用可得到声道的子集。

注意，WO 96/3271 A1公开了一种压缩和解压缩音频信号以用于数字传输的***，其中辅助数据可以与音频数据复用并编码并以可对其进行解码的这样一种方式传送。这份文档在第159页公开了最小比例因子值的计算从而检查另一频道中是否出现音频。

本发明还涉及一种用于传送节目的方法和装置，这种节目至少包括音频信号，其中对音频信号中具有相对低的信号功率电平的时间间隔进行检测，并且其中在所述时间间隔中引入附加无声，其中附加无声比所述时间间隔短，并且在所述时间间隔期间，附加无声的信号功率电平低于音频信号的信号功率电平。通过在低功率时间间隔中提供附加无声，传送了若干利用无声检测控制广告检测器的标记。在低功率时间间隔中提供附加无声的优点在于，与在高信号功率时间间隔中增加无声相比，这些附加无声的能听度低。无声的功率偏移电平以及功率下降/上升速率最好在对应于接收机侧的无声检测器的范围内。本发明还提供一种信号和一种存储媒体。

本发明提供了一种检测音频信号中的无声的方法，所述方法包括：

确定所述音频信号中的局部信号功率电平；

确定所述局部信号功率电平低于给定阈值功率电平的持续时间；

确定以下参数中的至少一个：

-在所述局部信号功率电平下降到所述给定阈值功率电平以下的时刻之前或在该时刻附近的信号功率下降速率，以及

-在所述局部信号功率电平低于所述给定阈值功率电平的所述持续时间中的至少部分时间期间的局部信号功率偏移，

所述方法还包括在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内，检测无声。

本发明还提供了一种用于接收压缩音频信号的接收机，所述接收机包括：

输入端，用于获得压缩音频信号，

如上所述的无声检测器，用于检测所述压缩音频信号中的无声，以及

用于影响所述压缩音频信号的装置，其中所述影响至少部分地取决于对所述无声的所述检测。

附图说明

将参考附图对本发明的这些和其它方面进行说明并使本发明的这些和其它方面变得清楚。

附图中：

图1示意根据本发明的实施例的接收机；

图2示意例示音频帧，它包括32个子带，将每个子带细分为3块，每块包括12个量化样本并具有比例因子；

图3示意图2的例示音频帧，其中为各个子带选择最大比例因子，用灰色加亮了可能的选择；

图4示意一个例示图，其中圆圈表示所检测无声的局部信号功率，而十字表示这些局部信号功率的平均值；以及

图5示意与图4有关的例示似然函数。

附图只示意有助于理解本发明的实施例的那些部分。

具体实施方式

图1示意了根据本发明的一个实施例的接收机1，用于接收压缩音频信号[A]。接收机1包括输入10，用于获得压缩音频信号[A]。输入10可以是天线、网络连接、读装置等。接收机1还包括无声检测器11，用于检测压缩音频信号中的无声，以及影响块12，用于根据无声检测来影响音频信号。块12可以是如解码器，用于对压缩音频信号进行解码，其中所述解码根据所检测的无声。块12也可以是跳越块，用于根据所检测的无声跳过部分压缩音频。可以增强无声检测器11从而形成广告检测器。在解码过程中可以跳过检测到的广告片。可以将受影响的音频信号A输出到输出装置13，其中该信号A是解码的或仍是压缩的。输出13可以是网络连接、再现装置或记录装置。压缩音频信号[A]可以包括在节目流中，其中节目流还包括视频信号。在这种情况下，可以根据压缩音频信号中检测到的无声在块12中影响至少部分节目信号。有利的应用是一种只存储非广告内容的存储装置。

根据本发明的实施例的广告检测器自动检测视听流中的广告决。这允许在任何一种诸如关键帧提取、编辑或回放的处理期间，跳过广告片。对于多个音频特征，在滑动窗口上测量局部统计并将其与广告片的统计模型进行比较。通过这种比较，得到归一化似然函数，此函数表明音频信号如何在局部与广告片类似。可以适当地触发此似然函数用于广告检测。选择统计窗口以使其详细描述局部分析并且坚固的抵抗局部不规则性和波动性，这些并不影响检测。该算法适合于某些情形，这些情形可以沿单个流变化或在两个流之间变化。该算法独立于视频。尽管如此，仍然可以包括视频分析以增强或扩展这种分类。该算法可以被用于多种存储***。

许多音频编码器(如MPEG-1层1/2/3、MPEG-2层1/2/3、MPEG-2AAC、MPEG-4 AAC、AC-3)是频域编码器。它们将源频谱分成多个窄带子信号并对各个频率分量或样本分别进行量化。根据比例因子并根据位分配对频率分量或样本进行量化。这些比例因子可以被视作频率分量或样本的最大值的指示符。

在AC-3中，频率分量被表示为：尾数.2(-指数)表示。这里指数作为各个尾数的比例因子，等于2(-指数)。

在MPEG-1层2中，窄带子信号被分为具有12个量化样本的若干组，其中每组具有相应的比例因子。这个比例因子对应于与其相关的样本的最大值。

检测算法最好利用比例因子的子集。在全部窄带子信号或其子集中，通过计算比例因子的平方来计算信号功率的上限。

现在更详细地描述利用MPEG音频压缩的实施例。在MPEG层2中，对应于48kHz、44.1kHz或32kHz的采样率，分别在24毫秒、26.1毫秒或36毫秒的时间间隔划分音频信号。在每个这种时间间隔中，将信号编码编码为一帧。参考图1，每个帧间隔被分为三部分并且信号被分解为32个子带分量。对于各个子带分量和帧的各个三分之一部分(图1中的一个矩形)，根据比例因子并根据适当选择的若干比特来对12个样本进行量化。比例因子给出了12个样本的绝对值的上限估计。这种估计可能不是非常精确，但是广告检测不需要过分精确。可以从各个音频帧提取比例因子，其计算负荷可忽略不计，因为它们可以在帧中直接以伪对数指数得到。只需要对有限的一些帧信头进行解码。不需要解压缩。

在立体声模式中，每个声道自身具有每帧96个比例因子。检测算法只选择左声道或右声道的各个子带中的最大比例因子(见图2)：缓冲32个值并将其转换为线性(不是对数的)格式。例如，对于48kHz的音频采样率，根据标准只利用子带0...26：它给出每24毫秒27个样本，也就是1125样本/秒，这是广告检测器中非常普通的输入数据速率。计算缓冲比例因子的平方，从而获得子带信号功率的上限。接下来将它们用作：

(1)它们的和给出总短时功率的上限；

(2)它们可被用于计算短时带宽估计；

下表给出了用于MPEG-1层2中的比例因子的一些伪对数指数(见ISO/IEC 11172-3：1993中的表B.1)：

指数	比例因子
指数	比例因子	0	2.0000
1	1.5874	0	2.0000
1	1.5874	2	1.2599
3	1.0000	2	1.2599
3	1.0000	4	0.7937
5	0.6299	4	0.7937

下面给出了音频帧j的短时功率估计：

帧_功率_j≈∑(比例因子)_j ，i ²≈∑10^{0.6-0.2·指数}

或者，有可能利用查找表寻找比例因子。在给定时刻对子带数量执行求和。当利用子带的子集时，必须对子带总数或根据应用对所用子带数量执行求和。

无声检测基于以下方面的嵌套阈值：

1)局部信号功率电平，通过利用如以上所示的帧_功率

2)无声持续时间；

以及至少一个以下参数：

3)无声期间的局部信号功率线性偏移；以及

4)无声开始前的局部信号功率下降速率；以及

5)无声结束时的局部信号功率上升速率；

因为信号功率特性极大地取决于无声检测器工作的环境，所以无声检测器最好是自适应的。因此，为了使其是自适应的，将局部功率电平相关参数(即1)、3)和/或4))与它们在时间上的平均值进行比较。局部信号功率的典型阈值是0.01，即局部信号功率应该小于信号功率的时间平均值的百分之一。通过利用长度为w帧的自适应窗口来计算时间平均。以下是实际方案：

平均_帧_功率_-1＝0

其中j为帧指数。

无声持续时间是局部信号电平低于给定固定或自适应阈值功率电平的持续时间。线性偏移是至少部分无声持续时间上(帧功率减去平均帧功率)的总和。线性偏移和下降/上升速率被用于过滤部分无声，这种无声可以是能感知的但与广告检测无关。最好利用如上所述的比例因子来确定例如每音频帧或部分音频帧的局部信号功率电平。

广告块中广告片之间的无声持续时间间断的实际范围是3/25秒到20/25秒。

对无声开始时间、无声持续时间和无声局部信号功率电平的值进行缓冲，用于下述统计计算。广告片的特征在于以下特征的局部统计模型：

1)两个连续的所检测无声之间的时间间距；

2)所检测无声的局部信号功率电平(绝对的和/或相对的)

3)无声持续时间；以及

4)音频信号的局部带宽；

可以根据以下方式中的比例因子计算音频帧j的局部带宽：

每个特征得到0.5归一的似然函数，其值在0到1之间。它表示这种特征的局部统计与广告片局部统计的类似程度。然后，将不同的似然函数与不同的权组合，以获得全局似然函数，仍是0.5归一的，这种全局似然函数得出某个时间的所有信息。计算时间轴上每个点的全局似然函数，它被缓冲为无声开始时间。值0.5主要表示“总不定度”或“0.5的概率在广告块内”。可以以不同的方式利用似然函数。它可以被适当地触发以检测广告边界。可以由进一步分析和分类的算法利用这种似然函数(用作广告片和非广告片之间的归一化软分类)，还可选地使用音频特征。可以从统计上分析不同水平的视频特征(比如单亮度、单色度帧检测、场景变化检测)以及应用同一似然方法或其它方法的音频特征。以及根据上述音频分析开发并测试了具有回填(refilling)的触发广告检测。0.5归一似然函数L(t)可被用于判定所检测的无声是否属于广告块。可以借助于函数Q(L(t))完成，其中Q(L(t))被定义为如下：

Q(L(t))＝1如果L(t)＞0.5

Q(L(t))＝0如果L(t)＜＝0.5，

其中值0和1分别表示所检测的无声属于非广告块和广告块。

在实际实施例中，只有当广告片序列持续至少60秒时才检测得到。如果仅在小于45秒的短间隔似然函数低于0.5，则Q(t)被设置1。这个过程被称为“内部回填”。内部回填消除了零星的内部遗漏检测。“外部回填”应用在广告片的开始和结束时。例如如果：

t_i，t_i+1，...t_i+N，...为所检测无声开始的瞬间序列并且

L(t_i)＝0.2

L(t_i+1)＝0.4

L(t_i+2)＝0.6

L(t_i)＞0.5对于各个j＝i+3，...，i+N

L(t_i)＜0.5对于j＞i+N并且如果

T_i+2-t_i+1＜45.0秒

T_i+N+1-t_i+N＜45.0秒

则

Q(L(t_i))＝0

Q(L(t_i+1))＝1

Q(L(t_i+2))＝1

Q(L(t_i+N+1))＝1

Q(L(t_j))＝0对于j＞i+N+1

外部回填对于避免***遗漏第一和最后一点是有效的。这个事实与开窗的具体情况有关。外部和内部回填可被视为特殊的非线性滤波、上部驱动。可以利用广告块的通用统计模型。对一天中不同时间和/或不同种类的节目(肥皂剧、谈话节目、足球比赛等)和/或不同频道采用不同广告块模型，有可能精炼统计细节。尽管这对于获得满意的性能不是必需的，但它当然可以改进性能。这是目标***的复杂性与其性能之间的折衷选择。对于一个信道，检测的自适应性最好随时间的情况变化。此外最好具有频道切换的自适应性。具体地说，单个频道的局部最小噪声电平可以随时间而变化，并且从一个频道到另一频道可以发生明显地变化：这对于无声检测是关键的。除此之外，广告块统计模式中的自适应性不是关键的，但是有用的。***可以实现为对局部最小噪声电平的完全自训练(自适应)。唯一的约束是每当转换频道时对算法进行复位。这是因为在初始化时期自适应性快而以后自适应性较慢，这时适应性和精确度之间的折衷选择。如果使该算法在任何时候都是快速自适应的，那么检测的精确度将降低，这是因为在广告块内部，相对快的自适应将降低精确度。在实际的实施例中，切换自适应性只在开始的几分钟(即任何相继的切换都复位)有效，而循单个频道的自适应性则一直保持。通过不对称方案确保自适应性的稳定性。当最小噪声电平降低时，自适应性比其增加时快。这意味着例如在检测到的无声其局部功率能量低于之前检测到的无声局部功率能量时，无声检测的局部功率能量阈值下降地也相对快。可以出现两种错误：遗漏广告检测或者错误广告检测。这两种错误都相当低并且限于广告块的开始或结束部分。总之该算法是灵活的：判定参数可以改变两种出错率之间的折衷，取决于哪种更相关。例如，如果广告块检测是自动关键帧提取的预处理，那么低的遗漏检测率更为重要。对于简单的重放来说，低错误检测更为相关。参考所选特征(但可以加上其它的)，不进行子带分析就有可能分别估计局部功率能量和带宽。低采样率时在两分钟(可以选择其它值)对称滑动窗口上需要带宽值。因此，可以例如通过对连续段间隔FFT的少数点进行平均来估计带宽值。有可能逐项或全局地实现一个或多个似然函数不同形式的归一化和组合。实际实现基于逐项或全局地组合乘积并且再归一化。该乘积基本上是从布尔集{0、1}扩展到连续间隔[0、1]的布尔“与”。它确保良好的选择性。概括地说，某个时刻会同时软性地加上了不同条件。这些条件不需要完全地实现，但必需实现它们的大部分。相反，加法组合应是布尔“或”的一种扩展，它并不确保足够的选择性。进一步的选择性和坚固性由对持续时间阈值似然性的硬判定确保。似然性-噪声容限还由内部回填确保。

以下例示中考虑了36分钟的记录。该记录从电源的最后部分开始。秒[646，866]包括广告片。在秒866开始TV演出。其它广告片在间隔[1409，1735]秒。图4用圆圈画出在各个所检测无声期间计算的局部信号功率。十字表示这些值的向后平均。显然，广告无声(间隔[646，866]和[1409，1735]中)主要是较低功率的剪辑无声。可以约略地注意到，无声在广告片中的不同分布。例如，它们之中的大部分相距10-30秒。如图所示的那些统计详细内容被用于似然函数估计中。图5画出所得到的似然函数。填充触发检测到[648，866]和[1408，1735]。

可能的改动

1)可能缓冲更大部分的比例因子。也可能对它们作二次取样。当前从96个左声道比例因子中选择32个被证明是有效的。

2)可能选择不同的音频特征组。当然在引入其它特征之前仔细的调查研究是必需的。

3)如上所述，可能实现一个或几个似然函数不同形式的归一化和组合。当前实现基于乘积组合并且再归一化。该乘积主要是从布尔集{0，1}扩展到连续间隔[0，1]的布尔“与”。它确保了良好的选择性。半和是布尔“或”的一种扩展，但它并不确保足够的选择性。

4)能够修改触发全局似然函数并回填的选择，例如如果利用了不同的开窗形式和/或不同的音频特征。

5)也可以通过直接处理比例因子而获得特定音频序列的识别，比如许多广播电台在广告块的开始和/或结束时有规律地放置的那些。

在发射机侧，有可能通过使剪辑无声更好的被检测的方式，例如通过降低它们的信号功率、通过修改无声持续时间、通过提高信号功率下降速率、和/或通过降低无声期间的功率偏移，来调整该剪辑无声，从而帮助似然函数。相反，也有可能通过增加它们的信号功率，例如通过引入噪声、通过修改无声持续时间、通过降低信号功率下降速率和/或通过提高无声期间的功率偏移，从而降低剪辑无声的可检测性。另外，还有可能在信号中引入假剪辑无声。在实际实施例中，具有与剪辑无声类似的低功率的0.15秒的假剪辑无声和30秒的间距将可能破坏广告块检测。最好在已存在诸如语音无声的无声中***假剪辑无声。在那种情况下，一般用户很难注意到它们。

算法检测视听素材中的广告块并标记其边界。接下来，在任何类型的处理，比如浏览、自动片尾创建、编辑或简单重放期间，能够跳过广告决。这种功能能够被集成到多种类型的存储***中，并具有非常低的附加成本。能够在数据采集期间实时地或离线地将此功能应用到存储素材中。

应该注意，上述实施例用于说明而非限制本发明，本领域的技术人员将能够设计出许多备选实施例，而不背离所附权利要求的范围。在权利要求书中，任何放置于括弧中的标号都不应被理解为限制该权利要求。单词“包含”不排除权利要求中所列的那些以外的部件或步骤的存在。本发明可以借助于包含一些分立部件的硬件、以及一个合适程序设计的计算机来实现。在装置权利要求中列举了一些装置，这些装置中的一些可以用同一个硬件实施。起码的事实是在相互不同的从属权利要求中叙述的某些措施并不表示不能有利地使用这些措施的组合。

Claims

1.一种检测音频信号中的无声的方法，所述方法包括：

确定所述音频信号中的局部信号功率电平；

确定以下参数中的至少一个：

所述方法还包括在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内时，检测无声。

2.如权利要求1所述的方法，其特征在于在后续统计模型中利用无声开始时间、所述无声持续时间和所述局部信号功率电平，以确定连续检测的无声之间的内容是否是广告片。

3.如权利要求1所述的方法，其特征在于所述音频信号包括量化样本块，为给定块提供一组比例因子，所述方法包括：

从所述音频信号提取所述比例因子组，以及

根据所述比例因子的组合估计所述给定块中的所述局部信号功率电平。

4.如权利要求2所述的方法，其特征在于所述音频信号包括量化样本块，为给定块提供一组比例因子，所述方法包括：

从所述音频信号提取所述比例因子组，以及

5.如权利要求3所述的方法，其特征在于只对所述比例因子组的子集执行所述提取步骤和估计步骤。

6.如权利要求4所述的方法，其特征在于只对所述比例因子组的子集执行所述提取步骤和估计步骤。

7.如权利要求5所述的方法，其特征在于所述块被细分为至少两个子块，为所述每个子块提供比例因子，其中只提取每块的最大比例因子用于所述估计步骤。

8.如权利要求6所述的方法，其特征在于所述块被细分为至少两个子块，为所述每个子块提供比例因子，其中只提取每块的最大比例因子用于所述估计步骤。

9.如权利要求5所述的方法，其特征在于所述音频信号包括多个窄带子信号，所述每个窄带子信号被细分为信号块，所述每块包括量化样本并且为所述每个块提供一个或多个比例因子，其中对一个或多个所述子信号执行所述提取步骤。

10.如权利要求6所述的方法，其特征在于所述音频信号包括多个窄带子信号，所述每个窄带子信号被细分为信号块，所述每块包括量化样本并且为所述每个块提供一个或多个比例因子，其中对一个或多个所述子信号执行所述提取步骤。

11.如权利要求9所述的方法，其特征在于只对所述多个子信号的子集执行所述提取步骤。

12.如权利要求10所述的方法，其特征在于只对所述多个子信号的子集执行所述提取步骤。

13.如权利要求11所述的方法，其特征在于所述比例因子组的子集主要包括多个较低频率子信号的所述比例因子。

14.如权利要求12所述的方法，其特征在于所述比例因子组的子集主要包括多个较低频率子信号的所述比例因子。

15.如以上权利要求3至8、11至14中的任何一项所述的方法，其特征在于所述音频信号是立体声或多声道信号，其中只对多个声道信号的可得到声道的子集执行所述提取步骤。

16.一种用于检测音频信号中的无声的无声检测器，所述检测器包括：

用于确定所述音频信号中的局部信号功率电平的装置，

用于确定所述局部信号功率电平低于给定阈值功率电平的持续时间的装置，

用于确定以下参数中的至少一个的装置：

所述检测器还包括检测装置，用于在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内时，检测无声。

17.一种用于接收压缩音频信号的接收机，所述接收机包括：

输入端，用于获得压缩音频信号，

如权利要求16所述的无声检测器，用于检测所述压缩音频信号中的无声，以及