CN1244900C - 检测音频信号中无声的方法和接收压缩音频信号的接收机 - Google Patents

检测音频信号中无声的方法和接收压缩音频信号的接收机 Download PDF

Info

Publication number
CN1244900C
CN1244900C CNB028015444A CN02801544A CN1244900C CN 1244900 C CN1244900 C CN 1244900C CN B028015444 A CNB028015444 A CN B028015444A CN 02801544 A CN02801544 A CN 02801544A CN 1244900 C CN1244900 C CN 1244900C
Authority
CN
China
Prior art keywords
power level
signal power
noiseless
scale factor
local signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB028015444A
Other languages
English (en)
Other versions
CN1462426A (zh
Inventor
A·斯特拉
J·A·D·尼斯瓦德巴
M·巴比里
F·斯尼德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1462426A publication Critical patent/CN1462426A/zh
Application granted granted Critical
Publication of CN1244900C publication Critical patent/CN1244900C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Television Systems (AREA)
  • Air Bags (AREA)
  • Control Of Stepping Motors (AREA)
  • Amplifiers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明涉及一种检测音频信号中无声的方法,在局部信号功率低于给定固定或相关阈值功率电平、局部信号功率低于给定固定或相关阈值的持续时间在第一范围内、并且信号功率下降/上升速率和局部功率偏移中的至少一个参数在各自的另一范围内,检测无声。本发明还涉及在接收机(1)中利用这样的无声检测。

Description

检测音频信号中无声的方法和接收压缩音频信号的接收机
技术领域
本发明涉及检测音频信号中的无声。本发明还涉及在广告检测中利用这种无声检测。
背景技术
EP 1 006 685 A2公开了一种用于处理电视信号以及检测电视信号中广告片的出现的方法和装置。广告候选段检测器根据寂静段和场景变化点来检测广告候选段。广告特征量检测器判断该广告候选段是否具有广告片的各种特征,并根据判断结果给广告特征值增加一个预定值。广告特征量检测器将最终广告特征值与预定阈值进行比较,并根据比较结果判断广告候选段是否是广告段。寂静段检测器将数字化音频信号的电平与阈值进行比较以检测寂静段,并将比较结果输出到场景变化检测器。另外还参考EP 1 087 557 A2。
发明内容
本发明的一个目的是提供一种有利的无声检测。为此,本发明提供用于检测无声的方法、无声检测器和接收机。
根据本发明的第一方面,在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内,检测无声。在局部信号功率电平下降到给定固定或相关阈值功率电平以下的时刻之前或在该时刻附近,确定信号功率下降速率,并且在局部信号功率电平低于给定固定或相关阈值功率电平的持续时间中的至少部分时间期间,确定局部信号功率偏移。线性偏移和/或下降速率被用于过滤部分无声,这种无声可以是能感知的但与广告检测无关。除了下降速率或作为对下降速率的补充,可以利用上升速率,在局部信号功率电平上升到高于给定固定或相关阈值功率电平的时刻附近确定上升功率。
在优选实施例中,无声开始时间、无声持续时间和局部信号功率电平被用于后续统计模型中,以确定连续检测到的无声之间的内容是否为广告片。这些参数可在无声检测中得到,并因此能够有利地重用于确定连续检测到无声之间的内容是否真的是广告片。
当音频信号包括量化样本块、即具有一组比例因子的给定块时,无声检测最好从压缩音频信号提取这组比例因子,并且根据比例因子的组合估计给定块中的信号功率。给定块可以是音频帧或音频帧的一部分。能够容易地从压缩音频中提取比例因子。本发明的这个方面是基于这样一种理解:比例因子表示与其有关的样本的最大可能值。因此,比例因子的组合,如平方比例因子的和给出信号功率的粗略估计,这只需有限的计算负荷。这种粗略估计对于某些应用是完全足够的,比如例如广告检测器中的无声检测。更有利的是只利用这组比例因子的子集。通过只利用整个比例因子组的子集,进一步减少了计算负荷。这可能导致更低的精确度,但与如用于广告片的无声检测等的一些应用关系不大。可以通过省略时间方向和/或频率方向中的比例因子执行子集的形成。例如,子集可以只包括压缩音频信号中可得到的多个窄带子信号的子集,子集最好包括若干较低频率的子信号的比例因子。在压缩音频信号是立体声或多声道信号的情况下,可以只利用可得到声道的子集。
注意,WO 96/3271 A1公开了一种压缩和解压缩音频信号以用于数字传输的***,其中辅助数据可以与音频数据复用并编码并以可对其进行解码的这样一种方式传送。这份文档在第159页公开了最小比例因子值的计算从而检查另一频道中是否出现音频。
本发明还涉及一种用于传送节目的方法和装置,这种节目至少包括音频信号,其中对音频信号中具有相对低的信号功率电平的时间间隔进行检测,并且其中在所述时间间隔中引入附加无声,其中附加无声比所述时间间隔短,并且在所述时间间隔期间,附加无声的信号功率电平低于音频信号的信号功率电平。通过在低功率时间间隔中提供附加无声,传送了若干利用无声检测控制广告检测器的标记。在低功率时间间隔中提供附加无声的优点在于,与在高信号功率时间间隔中增加无声相比,这些附加无声的能听度低。无声的功率偏移电平以及功率下降/上升速率最好在对应于接收机侧的无声检测器的范围内。本发明还提供一种信号和一种存储媒体。
本发明提供了一种检测音频信号中的无声的方法,所述方法包括:
确定所述音频信号中的局部信号功率电平;
确定所述局部信号功率电平低于给定阈值功率电平的持续时间;
确定以下参数中的至少一个:
-在所述局部信号功率电平下降到所述给定阈值功率电平以下的时刻之前或在该时刻附近的信号功率下降速率,以及
-在所述局部信号功率电平低于所述给定阈值功率电平的所述持续时间中的至少部分时间期间的局部信号功率偏移,
所述方法还包括在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内,检测无声。
本发明还提供了一种用于接收压缩音频信号的接收机,所述接收机包括:
输入端,用于获得压缩音频信号,
如上所述的无声检测器,用于检测所述压缩音频信号中的无声,以及
用于影响所述压缩音频信号的装置,其中所述影响至少部分地取决于对所述无声的所述检测。
附图说明
将参考附图对本发明的这些和其它方面进行说明并使本发明的这些和其它方面变得清楚。
附图中:
图1示意根据本发明的实施例的接收机;
图2示意例示音频帧,它包括32个子带,将每个子带细分为3块,每块包括12个量化样本并具有比例因子;
图3示意图2的例示音频帧,其中为各个子带选择最大比例因子,用灰色加亮了可能的选择;
图4示意一个例示图,其中圆圈表示所检测无声的局部信号功率,而十字表示这些局部信号功率的平均值;以及
图5示意与图4有关的例示似然函数。
附图只示意有助于理解本发明的实施例的那些部分。
具体实施方式
图1示意了根据本发明的一个实施例的接收机1,用于接收压缩音频信号[A]。接收机1包括输入10,用于获得压缩音频信号[A]。输入10可以是天线、网络连接、读装置等。接收机1还包括无声检测器11,用于检测压缩音频信号中的无声,以及影响块12,用于根据无声检测来影响音频信号。块12可以是如解码器,用于对压缩音频信号进行解码,其中所述解码根据所检测的无声。块12也可以是跳越块,用于根据所检测的无声跳过部分压缩音频。可以增强无声检测器11从而形成广告检测器。在解码过程中可以跳过检测到的广告片。可以将受影响的音频信号A输出到输出装置13,其中该信号A是解码的或仍是压缩的。输出13可以是网络连接、再现装置或记录装置。压缩音频信号[A]可以包括在节目流中,其中节目流还包括视频信号。在这种情况下,可以根据压缩音频信号中检测到的无声在块12中影响至少部分节目信号。有利的应用是一种只存储非广告内容的存储装置。
根据本发明的实施例的广告检测器自动检测视听流中的广告决。这允许在任何一种诸如关键帧提取、编辑或回放的处理期间,跳过广告片。对于多个音频特征,在滑动窗口上测量局部统计并将其与广告片的统计模型进行比较。通过这种比较,得到归一化似然函数,此函数表明音频信号如何在局部与广告片类似。可以适当地触发此似然函数用于广告检测。选择统计窗口以使其详细描述局部分析并且坚固的抵抗局部不规则性和波动性,这些并不影响检测。该算法适合于某些情形,这些情形可以沿单个流变化或在两个流之间变化。该算法独立于视频。尽管如此,仍然可以包括视频分析以增强或扩展这种分类。该算法可以被用于多种存储***。
许多音频编码器(如MPEG-1层1/2/3、MPEG-2层1/2/3、MPEG-2AAC、MPEG-4 AAC、AC-3)是频域编码器。它们将源频谱分成多个窄带子信号并对各个频率分量或样本分别进行量化。根据比例因子并根据位分配对频率分量或样本进行量化。这些比例因子可以被视作频率分量或样本的最大值的指示符。
在AC-3中,频率分量被表示为:尾数.2(-指数)表示。这里指数作为各个尾数的比例因子,等于2(-指数)。
在MPEG-1层2中,窄带子信号被分为具有12个量化样本的若干组,其中每组具有相应的比例因子。这个比例因子对应于与其相关的样本的最大值。
检测算法最好利用比例因子的子集。在全部窄带子信号或其子集中,通过计算比例因子的平方来计算信号功率的上限。
现在更详细地描述利用MPEG音频压缩的实施例。在MPEG层2中,对应于48kHz、44.1kHz或32kHz的采样率,分别在24毫秒、26.1毫秒或36毫秒的时间间隔划分音频信号。在每个这种时间间隔中,将信号编码编码为一帧。参考图1,每个帧间隔被分为三部分并且信号被分解为32个子带分量。对于各个子带分量和帧的各个三分之一部分(图1中的一个矩形),根据比例因子并根据适当选择的若干比特来对12个样本进行量化。比例因子给出了12个样本的绝对值的上限估计。这种估计可能不是非常精确,但是广告检测不需要过分精确。可以从各个音频帧提取比例因子,其计算负荷可忽略不计,因为它们可以在帧中直接以伪对数指数得到。只需要对有限的一些帧信头进行解码。不需要解压缩。
在立体声模式中,每个声道自身具有每帧96个比例因子。检测算法只选择左声道或右声道的各个子带中的最大比例因子(见图2):缓冲32个值并将其转换为线性(不是对数的)格式。例如,对于48kHz的音频采样率,根据标准只利用子带0...26:它给出每24毫秒27个样本,也就是1125样本/秒,这是广告检测器中非常普通的输入数据速率。计算缓冲比例因子的平方,从而获得子带信号功率的上限。接下来将它们用作:
(1)它们的和给出总短时功率的上限;
(2)它们可被用于计算短时带宽估计;
下表给出了用于MPEG-1层2中的比例因子的一些伪对数指数(见ISO/IEC 11172-3:1993中的表B.1):
  指数   比例因子
  0   2.0000
  1   1.5874
  2   1.2599
  3   1.0000
  4   0.7937
  5   0.6299
下面给出了音频帧j的短时功率估计:
帧_功率j≈∑(比例因子)j ,i 2≈∑100.6-0.2·指数
或者,有可能利用查找表寻找比例因子。在给定时刻对子带数量执行求和。当利用子带的子集时,必须对子带总数或根据应用对所用子带数量执行求和。
无声检测基于以下方面的嵌套阈值:
1)局部信号功率电平,通过利用如以上所示的帧_功率
2)无声持续时间;
以及至少一个以下参数:
3)无声期间的局部信号功率线性偏移;以及
4)无声开始前的局部信号功率下降速率;以及
5)无声结束时的局部信号功率上升速率;
因为信号功率特性极大地取决于无声检测器工作的环境,所以无声检测器最好是自适应的。因此,为了使其是自适应的,将局部功率电平相关参数(即1)、3)和/或4))与它们在时间上的平均值进行比较。局部信号功率的典型阈值是0.01,即局部信号功率应该小于信号功率的时间平均值的百分之一。通过利用长度为w帧的自适应窗口来计算时间平均。以下是实际方案:
平均_帧_功率-1=0
Figure C0280154400121
其中j为帧指数。
无声持续时间是局部信号电平低于给定固定或自适应阈值功率电平的持续时间。线性偏移是至少部分无声持续时间上(帧功率减去平均帧功率)的总和。线性偏移和下降/上升速率被用于过滤部分无声,这种无声可以是能感知的但与广告检测无关。最好利用如上所述的比例因子来确定例如每音频帧或部分音频帧的局部信号功率电平。
广告块中广告片之间的无声持续时间间断的实际范围是3/25秒到20/25秒。
对无声开始时间、无声持续时间和无声局部信号功率电平的值进行缓冲,用于下述统计计算。广告片的特征在于以下特征的局部统计模型:
1)两个连续的所检测无声之间的时间间距;
2)所检测无声的局部信号功率电平(绝对的和/或相对的)
3)无声持续时间;以及
4)音频信号的局部带宽;
可以根据以下方式中的比例因子计算音频帧j的局部带宽:
Figure C0280154400122
每个特征得到0.5归一的似然函数,其值在0到1之间。它表示这种特征的局部统计与广告片局部统计的类似程度。然后,将不同的似然函数与不同的权组合,以获得全局似然函数,仍是0.5归一的,这种全局似然函数得出某个时间的所有信息。计算时间轴上每个点的全局似然函数,它被缓冲为无声开始时间。值0.5主要表示“总不定度”或“0.5的概率在广告块内”。可以以不同的方式利用似然函数。它可以被适当地触发以检测广告边界。可以由进一步分析和分类的算法利用这种似然函数(用作广告片和非广告片之间的归一化软分类),还可选地使用音频特征。可以从统计上分析不同水平的视频特征(比如单亮度、单色度帧检测、场景变化检测)以及应用同一似然方法或其它方法的音频特征。以及根据上述音频分析开发并测试了具有回填(refilling)的触发广告检测。0.5归一似然函数L(t)可被用于判定所检测的无声是否属于广告块。可以借助于函数Q(L(t))完成,其中Q(L(t))被定义为如下:
Q(L(t))=1如果L(t)>0.5
Q(L(t))=0如果L(t)<=0.5,
其中值0和1分别表示所检测的无声属于非广告块和广告块。
在实际实施例中,只有当广告片序列持续至少60秒时才检测得到。如果仅在小于45秒的短间隔似然函数低于0.5,则Q(t)被设置1。这个过程被称为“内部回填”。内部回填消除了零星的内部遗漏检测。“外部回填”应用在广告片的开始和结束时。例如如果:
ti,ti+1,...ti+N,...为所检测无声开始的瞬间序列并且
L(ti)=0.2
L(ti+1)=0.4
L(ti+2)=0.6
L(ti)>0.5对于各个j=i+3,...,i+N
L(ti)<0.5对于j>i+N并且如果
Ti+2-ti+1<45.0秒
Ti+N+1-ti+N<45.0秒
Q(L(ti))=0
Q(L(ti+1))=1
Q(L(ti+2))=1
Q(L(ti+N+1))=1
Q(L(tj))=0对于j>i+N+1
外部回填对于避免***遗漏第一和最后一点是有效的。这个事实与开窗的具体情况有关。外部和内部回填可被视为特殊的非线性滤波、上部驱动。可以利用广告块的通用统计模型。对一天中不同时间和/或不同种类的节目(肥皂剧、谈话节目、足球比赛等)和/或不同频道采用不同广告块模型,有可能精炼统计细节。尽管这对于获得满意的性能不是必需的,但它当然可以改进性能。这是目标***的复杂性与其性能之间的折衷选择。对于一个信道,检测的自适应性最好随时间的情况变化。此外最好具有频道切换的自适应性。具体地说,单个频道的局部最小噪声电平可以随时间而变化,并且从一个频道到另一频道可以发生明显地变化:这对于无声检测是关键的。除此之外,广告块统计模式中的自适应性不是关键的,但是有用的。***可以实现为对局部最小噪声电平的完全自训练(自适应)。唯一的约束是每当转换频道时对算法进行复位。这是因为在初始化时期自适应性快而以后自适应性较慢,这时适应性和精确度之间的折衷选择。如果使该算法在任何时候都是快速自适应的,那么检测的精确度将降低,这是因为在广告块内部,相对快的自适应将降低精确度。在实际的实施例中,切换自适应性只在开始的几分钟(即任何相继的切换都复位)有效,而循单个频道的自适应性则一直保持。通过不对称方案确保自适应性的稳定性。当最小噪声电平降低时,自适应性比其增加时快。这意味着例如在检测到的无声其局部功率能量低于之前检测到的无声局部功率能量时,无声检测的局部功率能量阈值下降地也相对快。可以出现两种错误:遗漏广告检测或者错误广告检测。这两种错误都相当低并且限于广告块的开始或结束部分。总之该算法是灵活的:判定参数可以改变两种出错率之间的折衷,取决于哪种更相关。例如,如果广告块检测是自动关键帧提取的预处理,那么低的遗漏检测率更为重要。对于简单的重放来说,低错误检测更为相关。参考所选特征(但可以加上其它的),不进行子带分析就有可能分别估计局部功率能量和带宽。低采样率时在两分钟(可以选择其它值)对称滑动窗口上需要带宽值。因此,可以例如通过对连续段间隔FFT的少数点进行平均来估计带宽值。有可能逐项或全局地实现一个或多个似然函数不同形式的归一化和组合。实际实现基于逐项或全局地组合乘积并且再归一化。该乘积基本上是从布尔集{0、1}扩展到连续间隔[0、1]的布尔“与”。它确保良好的选择性。概括地说,某个时刻会同时软性地加上了不同条件。这些条件不需要完全地实现,但必需实现它们的大部分。相反,加法组合应是布尔“或”的一种扩展,它并不确保足够的选择性。进一步的选择性和坚固性由对持续时间阈值似然性的硬判定确保。似然性-噪声容限还由内部回填确保。
以下例示中考虑了36分钟的记录。该记录从电源的最后部分开始。秒[646,866]包括广告片。在秒866开始TV演出。其它广告片在间隔[1409,1735]秒。图4用圆圈画出在各个所检测无声期间计算的局部信号功率。十字表示这些值的向后平均。显然,广告无声(间隔[646,866]和[1409,1735]中)主要是较低功率的剪辑无声。可以约略地注意到,无声在广告片中的不同分布。例如,它们之中的大部分相距10-30秒。如图所示的那些统计详细内容被用于似然函数估计中。图5画出所得到的似然函数。填充触发检测到[648,866]和[1408,1735]。
可能的改动
1)可能缓冲更大部分的比例因子。也可能对它们作二次取样。当前从96个左声道比例因子中选择32个被证明是有效的。
2)可能选择不同的音频特征组。当然在引入其它特征之前仔细的调查研究是必需的。
3)如上所述,可能实现一个或几个似然函数不同形式的归一化和组合。当前实现基于乘积组合并且再归一化。该乘积主要是从布尔集{0,1}扩展到连续间隔[0,1]的布尔“与”。它确保了良好的选择性。半和是布尔“或”的一种扩展,但它并不确保足够的选择性。
4)能够修改触发全局似然函数并回填的选择,例如如果利用了不同的开窗形式和/或不同的音频特征。
5)也可以通过直接处理比例因子而获得特定音频序列的识别,比如许多广播电台在广告块的开始和/或结束时有规律地放置的那些。
在发射机侧,有可能通过使剪辑无声更好的被检测的方式,例如通过降低它们的信号功率、通过修改无声持续时间、通过提高信号功率下降速率、和/或通过降低无声期间的功率偏移,来调整该剪辑无声,从而帮助似然函数。相反,也有可能通过增加它们的信号功率,例如通过引入噪声、通过修改无声持续时间、通过降低信号功率下降速率和/或通过提高无声期间的功率偏移,从而降低剪辑无声的可检测性。另外,还有可能在信号中引入假剪辑无声。在实际实施例中,具有与剪辑无声类似的低功率的0.15秒的假剪辑无声和30秒的间距将可能破坏广告块检测。最好在已存在诸如语音无声的无声中***假剪辑无声。在那种情况下,一般用户很难注意到它们。
算法检测视听素材中的广告块并标记其边界。接下来,在任何类型的处理,比如浏览、自动片尾创建、编辑或简单重放期间,能够跳过广告决。这种功能能够被集成到多种类型的存储***中,并具有非常低的附加成本。能够在数据采集期间实时地或离线地将此功能应用到存储素材中。
应该注意,上述实施例用于说明而非限制本发明,本领域的技术人员将能够设计出许多备选实施例,而不背离所附权利要求的范围。在权利要求书中,任何放置于括弧中的标号都不应被理解为限制该权利要求。单词“包含”不排除权利要求中所列的那些以外的部件或步骤的存在。本发明可以借助于包含一些分立部件的硬件、以及一个合适程序设计的计算机来实现。在装置权利要求中列举了一些装置,这些装置中的一些可以用同一个硬件实施。起码的事实是在相互不同的从属权利要求中叙述的某些措施并不表示不能有利地使用这些措施的组合。

Claims (17)

1.一种检测音频信号中的无声的方法,所述方法包括:
确定所述音频信号中的局部信号功率电平;
确定所述局部信号功率电平低于给定阈值功率电平的持续时间;
确定以下参数中的至少一个:
-在所述局部信号功率电平下降到所述给定阈值功率电平以下的时刻之前或在该时刻附近的信号功率下降速率,以及
-在所述局部信号功率电平低于所述给定阈值功率电平的所述持续时间中的至少部分时间期间的局部信号功率偏移,
所述方法还包括在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内时,检测无声。
2.如权利要求1所述的方法,其特征在于在后续统计模型中利用无声开始时间、所述无声持续时间和所述局部信号功率电平,以确定连续检测的无声之间的内容是否是广告片。
3.如权利要求1所述的方法,其特征在于所述音频信号包括量化样本块,为给定块提供一组比例因子,所述方法包括:
从所述音频信号提取所述比例因子组,以及
根据所述比例因子的组合估计所述给定块中的所述局部信号功率电平。
4.如权利要求2所述的方法,其特征在于所述音频信号包括量化样本块,为给定块提供一组比例因子,所述方法包括:
从所述音频信号提取所述比例因子组,以及
根据所述比例因子的组合估计所述给定块中的所述局部信号功率电平。
5.如权利要求3所述的方法,其特征在于只对所述比例因子组的子集执行所述提取步骤和估计步骤。
6.如权利要求4所述的方法,其特征在于只对所述比例因子组的子集执行所述提取步骤和估计步骤。
7.如权利要求5所述的方法,其特征在于所述块被细分为至少两个子块,为所述每个子块提供比例因子,其中只提取每块的最大比例因子用于所述估计步骤。
8.如权利要求6所述的方法,其特征在于所述块被细分为至少两个子块,为所述每个子块提供比例因子,其中只提取每块的最大比例因子用于所述估计步骤。
9.如权利要求5所述的方法,其特征在于所述音频信号包括多个窄带子信号,所述每个窄带子信号被细分为信号块,所述每块包括量化样本并且为所述每个块提供一个或多个比例因子,其中对一个或多个所述子信号执行所述提取步骤。
10.如权利要求6所述的方法,其特征在于所述音频信号包括多个窄带子信号,所述每个窄带子信号被细分为信号块,所述每块包括量化样本并且为所述每个块提供一个或多个比例因子,其中对一个或多个所述子信号执行所述提取步骤。
11.如权利要求9所述的方法,其特征在于只对所述多个子信号的子集执行所述提取步骤。
12.如权利要求10所述的方法,其特征在于只对所述多个子信号的子集执行所述提取步骤。
13.如权利要求11所述的方法,其特征在于所述比例因子组的子集主要包括多个较低频率子信号的所述比例因子。
14.如权利要求12所述的方法,其特征在于所述比例因子组的子集主要包括多个较低频率子信号的所述比例因子。
15.如以上权利要求3至8、11至14中的任何一项所述的方法,其特征在于所述音频信号是立体声或多声道信号,其中只对多个声道信号的可得到声道的子集执行所述提取步骤。
16.一种用于检测音频信号中的无声的无声检测器,所述检测器包括:
用于确定所述音频信号中的局部信号功率电平的装置,
用于确定所述局部信号功率电平低于给定阈值功率电平的持续时间的装置,
用于确定以下参数中的至少一个的装置:
-在所述局部信号功率电平下降到所述给定阈值功率电平以下的时刻之前或在该时刻附近的信号功率下降速率,以及
-在所述局部信号功率电平低于所述给定阈值功率电平的所述持续时间中的至少部分时间期间的局部信号功率偏移,
所述检测器还包括检测装置,用于在所述局部信号功率电平低于所述给定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范围内时,检测无声。
17.一种用于接收压缩音频信号的接收机,所述接收机包括:
输入端,用于获得压缩音频信号,
如权利要求16所述的无声检测器,用于检测所述压缩音频信号中的无声,以及
用于影响所述压缩音频信号的装置,其中所述影响至少部分地取决于对所述无声的所述检测。
CNB028015444A 2001-05-11 2002-05-10 检测音频信号中无声的方法和接收压缩音频信号的接收机 Expired - Fee Related CN1244900C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201730 2001-05-11
EP01201730.7 2001-05-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100956810A Division CN100348034C (zh) 2001-05-11 2002-05-10 传送节目的方法和传送节目的发射机

Publications (2)

Publication Number Publication Date
CN1462426A CN1462426A (zh) 2003-12-17
CN1244900C true CN1244900C (zh) 2006-03-08

Family

ID=8180284

Family Applications (3)

Application Number Title Priority Date Filing Date
CNB028015509A Expired - Fee Related CN100380441C (zh) 2001-05-11 2002-05-08 检测给定类型节目的方法和设备、无声检测器和接收器
CNB028015444A Expired - Fee Related CN1244900C (zh) 2001-05-11 2002-05-10 检测音频信号中无声的方法和接收压缩音频信号的接收机
CNB2004100956810A Expired - Fee Related CN100348034C (zh) 2001-05-11 2002-05-10 传送节目的方法和传送节目的发射机

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB028015509A Expired - Fee Related CN100380441C (zh) 2001-05-11 2002-05-08 检测给定类型节目的方法和设备、无声检测器和接收器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB2004100956810A Expired - Fee Related CN100348034C (zh) 2001-05-11 2002-05-10 传送节目的方法和传送节目的发射机

Country Status (8)

Country Link
US (2) US7356464B2 (zh)
EP (2) EP1393301B1 (zh)
JP (2) JP4365103B2 (zh)
KR (2) KR100916959B1 (zh)
CN (3) CN100380441C (zh)
AT (1) ATE438968T1 (zh)
DE (2) DE60217484T2 (zh)
WO (2) WO2002093552A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
WO2005098818A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 特定番組検出装置及び方法並びにプログラム
CN1934650A (zh) * 2004-06-18 2007-03-21 松下电器产业株式会社 Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
EP1954042A4 (en) * 2005-09-30 2009-11-11 Pioneer Corp OUT-OF-PROGRAM MATERIAL SCENE EXTRACTION DEVICE AND COMPUTER PROGRAM
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US7773813B2 (en) 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
GB2447985B (en) 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
US8081313B2 (en) * 2007-05-24 2011-12-20 Airbus Operations Limited Method and apparatus for monitoring gas concentration in a fluid
JP2008009442A (ja) * 2007-07-23 2008-01-17 Video Research:Kk 音声データ処理方法
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB0813715D0 (en) * 2008-07-28 2008-09-03 Airbus Uk Ltd A monitor and a method for measuring oxygen concentration
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
WO2010103422A2 (en) 2009-03-10 2010-09-16 Koninklijke Philips Electronics N.V. Apparatus and method for rendering content
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US10116902B2 (en) * 2010-02-26 2018-10-30 Comcast Cable Communications, Llc Program segmentation of linear transmission
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
FI20145493A (fi) 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN108665657B (zh) * 2017-03-30 2019-12-10 国基电子(上海)有限公司 传感器及应用该传感器的监控***
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS63118197A (ja) * 1986-11-06 1988-05-23 松下電器産業株式会社 音声検出装置
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH0666738B2 (ja) * 1990-04-06 1994-08-24 株式会社ビデオ・リサーチ Cm自動確認装置
WO1996003271A1 (fr) 1993-01-25 1996-02-08 Jean Alphonse David Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire
US5334947A (en) * 1993-07-06 1994-08-02 Aphex Systems, Ltd. Logic enhanced noise gate
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JPH08237135A (ja) * 1994-10-28 1996-09-13 Nippon Steel Corp 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
JPH1055150A (ja) * 1996-08-12 1998-02-24 Syst Works:Kk 音声割り込み方法及びその装置
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
WO1998049673A1 (fr) * 1997-04-30 1998-11-05 Nippon Hoso Kyokai Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif
US6324188B1 (en) * 1997-06-12 2001-11-27 Sharp Kabushiki Kaisha Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
CN1094280C (zh) * 1998-08-17 2002-11-13 英业达股份有限公司 网络电话中的静音检测方法
JP2000165806A (ja) 1998-11-30 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2000214872A (ja) * 1999-01-20 2000-08-04 Matsushita Electric Ind Co Ltd 音声検出装置
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
US6658027B1 (en) * 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
JP3697967B2 (ja) * 1999-09-22 2005-09-21 松下電器産業株式会社 オーディオ送信装置及びオーディオ受信装置
EP1087557A3 (en) 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
US6993245B1 (en) * 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
KR20030027938A (ko) 2003-04-07
EP1393301A1 (en) 2004-03-03
KR100916959B1 (ko) 2009-09-14
CN1462427A (zh) 2003-12-17
CN1462426A (zh) 2003-12-17
DE60233223D1 (de) 2009-09-17
CN100380441C (zh) 2008-04-09
JP2004531766A (ja) 2004-10-14
EP1393480B1 (en) 2009-08-05
JP4365103B2 (ja) 2009-11-18
US20040125961A1 (en) 2004-07-01
EP1393301B1 (en) 2007-01-10
EP1393480A2 (en) 2004-03-03
JP4560269B2 (ja) 2010-10-13
JP2004520627A (ja) 2004-07-08
KR20030015385A (ko) 2003-02-20
CN100348034C (zh) 2007-11-07
WO2002093801A2 (en) 2002-11-21
US20040138880A1 (en) 2004-07-15
CN1612607A (zh) 2005-05-04
US7356464B2 (en) 2008-04-08
WO2002093801A3 (en) 2003-01-30
WO2002093552A1 (en) 2002-11-21
DE60217484D1 (de) 2007-02-22
DE60217484T2 (de) 2007-10-25
US7617095B2 (en) 2009-11-10
ATE438968T1 (de) 2009-08-15

Similar Documents

Publication Publication Date Title
CN1244900C (zh) 检测音频信号中无声的方法和接收压缩音频信号的接收机
US6680753B2 (en) Method and apparatus for skipping and repeating audio frames
CN1426563A (zh) 使用音频类别界定节目边界和商业广告边界的***和方法
US20110015768A1 (en) method and an apparatus for processing an audio signal
CN1149366A (zh) 用来把码包括到音频信号中并且解码的设备和方法
WO2013184520A1 (en) Methods and systems for identifying content types
US20120089393A1 (en) Acoustic signal processing device and method
JP2011059504A (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US8543228B2 (en) Coded domain audio analysis
US20110235993A1 (en) Audio-based chapter detection in multimedia stream
JP4225957B2 (ja) 映像符号化装置及び映像符号化方法
US20080161952A1 (en) Audio data processing apparatus
CN1839657A (zh) 从多个通道提取码的方法和设备
CN102414744B (zh) 数字信号再生装置以及数字信号压缩装置
US7080006B1 (en) Method for decoding digital audio with error recognition
US11232804B2 (en) Low complexity dense transient events detection and coding
US10762911B2 (en) Audio encoding using video information
WO2019007969A1 (en) DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060308

Termination date: 20170510

CF01 Termination of patent right due to non-payment of annual fee