CN101010722B - 用于检测语音信号中话音活动的设备和方法 - Google Patents

用于检测语音信号中话音活动的设备和方法 Download PDF

Info

Publication number
CN101010722B
CN101010722B CN2005800290060A CN200580029006A CN101010722B CN 101010722 B CN101010722 B CN 101010722B CN 2005800290060 A CN2005800290060 A CN 2005800290060A CN 200580029006 A CN200580029006 A CN 200580029006A CN 101010722 B CN101010722 B CN 101010722B
Authority
CN
China
Prior art keywords
voice
sound signal
activity detector
speech activity
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800290060A
Other languages
English (en)
Other versions
CN101010722A (zh
Inventor
R·尼米斯托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Solutions and Networks Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101010722A publication Critical patent/CN101010722A/zh
Application granted granted Critical
Publication of CN101010722B publication Critical patent/CN101010722B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种包括话音活动检测器(6)的设备(1),该话音活动检测器(6)用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动。话音活动检测器(6)包括适于检查信号是否具有高通性质的第一单元(6.3.1)。话音活动检测器(6)还包括适于检查信号频谱的第二单元(6.3.2)。话音活动检测器(6)适于在第一单元(6.3.1)已经确定信号具有高通性质或者第二单元(6.3.2)已经确定信号没有平坦的频率响应时提供语音指示。

Description

用于检测语音信号中话音活动的设备和方法
技术领域
本发明涉及一种包括语音活动检测器的设备,该检测器用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动。本发明也涉及一种方法、***、设备和计算机程序产品。 
背景技术
在许多数字音频信号处理***中,话音活动检测用于例如为噪声抑制中的噪声估计来执行语音增强。语音增强的意图在于将数学方法用于提高表现为数字信号的语音的质量。在数字音频信号处理设备中,常见地以通常为10-30ms的短帧来处理语音,并且话音活动检测器将每个帧归类为有噪声的语音帧或者噪声帧。国际专利申请WO 01/37265公开了一种对于在蜂窝通信网络与移动终端之间的通信路径中的信号内的噪声进行抑制的噪声抑制方法。话音活动检测器(VAD)用来指示何时在音频信号中有语音或者仅有噪声。在该设备中,噪声抑制器的工作依赖于话音活动检测器的质量。 
此噪声可以是来自用户环境的环境性和声学背景噪声或者是在通信***本身中生成的电子性质的噪声。 
典型的噪声抑制器工作于频域中。时域信号先被转换到频域,这可以使用快速傅立叶变换(FFT)有效地来实现。必须从有噪声的语音中检测话音活动,而当没有检测到话音活动时估计噪声的频谱。然后基于当前输入信号频谱和噪声估计来计算噪声抑制增益系数。最后,使用逆FFT(IFFT)将信号变换回到时域。话音活动检测可以基于时域信号、基于频域信号或者基于二者。 
在时域中,干净的语音信号可以通过s(t)来表示,而有噪声的语音信号可以通过x(t)=s(t)+n(t)来表示,其中n(t)是破坏性的附加噪声信号。增强语音通过(t)来表示,而噪声抑制的任务在于使它尽可能地接近(未知的)干净语音信号。接近度首先通过一些例如最小平均平方误差的数学误差标准来定义,但是由于没有单个令人满意的标准,所以最终必须主观地或者使用对收听测试的结果进行预测的一组数学方法来评价接近度。记号S(e)、X(e)、N(e)和
Figure 058290060_1
(e)指代了信号在频域中的离散时间傅立叶变换。在实践中,在频域的零填补交迭帧中处理信号;使用FFT来评价频域值。记号S(ω,n)、X(ω,n)、N(ω,n)和
Figure 058290060_2
(ω,n)指代了在帧n内频率仓的离散集合所估计的频谱值,即X(ω,n)≈|X(e)|2。 
在现有技术的噪声抑制器中,语音增强是基于检测噪声并且当没有检测到语音活动时根据以下规则来更新噪声估计: 
N(ω,n)=λN(ω,n-1)+(1-λ)X(ω,n) 
(这里N(ω,n)指代了噪声估计,而X(ω,n)是有噪声的语音,并且λ是在0与1之间的平滑参数。通常,该值与接近0相比更接近1。指数ω和n分别指代了频率仓和帧)。潜在假设就是语音的频率内容比噪声的内容更快速地变化并且VAD检测到足够的噪声以便足够频繁地更新噪声估计。因此,语音活动检测器在估计有待抑制的噪声时起关键性作用。当VAD指示了噪声时,更新噪声估计。 
当存在有噪声电平的突变时,在噪声与语音之间的区分变得更困难。例如,如果在移动电话附近启动引擎则噪声电平快速地增加。设备的语音活动检测器可以在语音的开始时解释此噪声电平递增。因此,噪声被解释成语音而没有更新噪声估计。另外,打开通向嘈杂环境的门可能影响到噪声电平突然上升,话音活动检测器可以将这解释成语音的开始或者在一般意义上是话音活动的开始。 
在根据出版物WO 01/37265的话音活动检测器中,通过比较当前帧中的平均功率与噪声估计的平均功率来实现话音活动检测,该比较是通过比较后验SNR之和 
Figure S05829006020070301D000024
与预定阈值来实现的。在骤升的噪声电平情况下,这样的检测器将之归类为语音。因此,将用于度量平稳性的方法用于复原。然而,语音的浊音音素通常比音素之间小的停顿 更长。因此,平稳性度量不能可靠地将这归类为噪声,除非停顿比任何音素都更长;通常,对上升的噪声电平做出反应需要数秒。 
一种简单但是在计算上要求很高的话音活动检测判决方法是通过计算语音帧中的自相关系数来检测该帧中的周期性。周期性信号的自相关也是周期性的,在滞后域中具有与信号的周期对应的周期。人类语音的基本频率落在范围[50,500]Hz中。这在自相关滞后域中对于8000Hz采样频率而言对应于在范围[16,160]中的周期性而对于16000Hz采样频率而言对应于在范围[32,320]中的周期性。如果在那些范围内部计算浊音的语音帧的自相关系数(通过在0延迟处的系数来正规化),可以预期它们是周期性的,并且应当在与浊音语音的基本频率对应的滞后中发现最大值。如果与语音中基本频率的可能值对应的正规化自相关系数的最大值是在某一阈值以上则将该帧归类为语音。这种话音活动检测可以称为自相关VAD。自相关VAD可以非常准确地检测浊音的语音,只要语音帧的长度与有待检测的语音的基本周期相比充分地长,但是它没有检测非浊音的语音。 
在科学性出版物中也存在用于语音活动检测的其它提议方法,例如S.Gazoor和W.Zhang,“A soft voice activity detector based on aLaplacian-Gaussian model”,IEEE Trans.Speech and Audio Processing,第11卷第5期,第498-505页,2003年9月;以及M.Marzinzik和B.Kollmeier,“Speech pause detection for noise spectrum estimation bytracking power envelope dynamics”,IEEE Trans.Speech and AudioProcessing,第10卷第2期,第109-118页,2002年2月。它们通常是计算高阶统计或者语音存在和缺乏之概率的相当复杂方案。一般而言,它们实施起来在计算上非常浪费,而其意图在于发现帧中的所有语音而不是为准确的噪声估计来发现足够噪声。因此,它们更好地适合于语音编码应用。 
发明内容
本发明尝试在骤升的噪声功率情况下改进话音活动检测,在这种 情况下现有技术的方法常常将噪声帧归类为语音。 
根据本发明的语音活动检测器在本专利申请称为频谱平坦度VAD。本发明的频谱平坦度VAD考虑了有噪声的语音频谱的形状。在频谱为平坦并且它具有低通性质的情况下,频谱平坦度VAD将帧归类为噪声。潜在假设就是浊音音素没有平坦频谱但是有干净的共振峰频率而非浊音的音素具有相当平坦的频谱但是具有高通性质。根据本发明的话音活动检测是基于时域信号和基于频域信号。 
根据本发明的话音活动检测器可以单独地使用但是也可以与自相关VAD或者频谱距离VAD相结合地使用或者在包括前述两种VAD的组合中使用。根据三种不同VAD之组合的话音活动检测工作于三个阶段中。首先使用对语音所常有的周期性进行检测的自相关VAD来实现VAD判决,然后使用频谱距离VAD来实现VAD判决,并且最后如果自相关VAD归类为噪声而频谱距离VAD归类为语音则利用频谱平坦度VAD来实现VAD判决。根据本发明的略微简单的实施例,在没有自相关VAD的情况下与频谱距离VAD相结合地使用频谱平坦度VAD。 
本发明基于如下思想:检查音频信号的频谱和频率内容以便在必要时确定在音频信号中是否有语音或者仅有噪声。为了更准确地表述这一点,根据本发明的设备的主要特征在于该设备的话音活动检测器包括: 
-第一单元,适于检查信号是否具有高通性质,以及 
-第二单元,适于检查信号的频谱, 
其中话音活动检测器适于在满足以下条件之一时提供语音指示: 
-第一单元已经确定信号具有高通性质,或者 
-第二单元已经确定信号没有平坦的频率响应。 
根据本发明的设备的主要特征在于话音活动检测器包括: 
-第一单元,适于检查信号是否具有高通性质,以及 
-第二单元,适于检查信号的频谱, 
其中话音活动检测器适于在满足以下条件之一时提供语音指示: 
-第一单元已经确定信号具有高通性质,或者 
-第二单元已经确定信号没有平坦的频率响应。 
根据本发明的***的主要特征在于该***的话音活动检测器包括: 
-第一单元,适于检查信号是否具有高通性质,以及 
-第二单元,适于检查信号的频谱, 
其中话音活动检测器适于在满足以下条件之一时提供语音指示: 
-第一单元已经确定信号具有高通性质,或者 
-第二单元已经确定信号没有平坦的频率响应。 
根据本发明的方法的主要特征在于该方法包括: 
-检查信号是否具有高通性质,以及 
-检查信号的频谱, 
-在满足以下条件之一时提供语音指示: 
-确定信号具有高通性质,或者 
-确定信号没有平坦的频率响应。 
根据本发明的计算机程序产品的主要特征在于该计算机程序产品包括以下可由机器执行的步骤: 
-检查信号是否具有高通性质,以及 
-检查信号的频谱, 
-在满足以下条件之一时提供语音指示: 
-确定信号具有高通性质,或者 
-确定信号没有平坦的频率响应。 
本发明可以在存在快速噪声变化的环境中改进对噪声和语音的区分。根据本发明的话音活动检测可以在骤升噪声功率的情况下比现有方法更好地对音频信号进行归类。在工作于移动终端中的噪声抑制器中,本发明由于提高的噪声衰减而可以提高语音的可理解性和愉悦度。例如在引擎启动或者打开通向有噪声的环境的门时,与利用计算平稳性度量的此前解决方案相比,本发明还可以允许噪声更快地更新。然而,根据本发明的话音活动检测器有时候过于积极地将语音归类为噪 声。在移动通信中这一点只有当在存在来自背景的很强含糊说话声的人群中使用电话时才会发生。这样的情形对于任何方法而言都成问题。其差异即使在背景噪声电平骤然增加的这种情形中仍然可能在听觉上清晰可辨。另外,本发明允许自动音量控制的更快变化。在一些现有技术的实施中,自动增益控制由于VAD而受到限制,从而将电平逐渐地增加18dB至少需要4.5秒。 
附图说明
图1在简化框图中图示了根据本发明一个示例性实施例的电子设备的结构; 
图2图示了根据本发明一个示例性实施例的话音活动检测器的结构; 
图3在流程图中图示了根据本发明一个示例性实施例的方法; 
图4在框图中图示了将本发明并入其中的***的例子; 
图5.1图示了浊音音素的频谱的例子; 
图5.2图示了汽车噪声的频谱的例子; 
图5.3图示了非浊音辅音的频谱的例子; 
图5.4图示了噪声频谱的加权效果; 
图5.5图示了浊音语音频谱的加权效果;以及 
图6.1、6.2和6.3在简化框图中图示了话音活动检测器的不同示例性实施例。 
具体实施方式
现在将参照图1的电子设备和图2的话音活动检测器更具体地描述本发明。在这一示例性实施例中,电子设备1是无线通信设备,但是不言而喻本发明不仅仅限于无线通信设备。电子设备1包括用于输入音频信号以供处理的音频输入2。音频输入2例如是麦克风。音频信号在必要时由放大器3放大,并且也可以执行噪声抑制以产生经增强的音频信号。该音频信号被划分成语音帧,这意味着一次处理某一 长度的音频信号。帧的长度通常是数毫秒,例如10ms或者20ms。音频信号也在模拟/数字转换器4中被数字化。模拟/数字转换器4以某些间隔即以某一采样速率根据音频信号形成采样。在模拟/数字转换之后,语音帧通过采样集来表示。电子设备1也具有在其中至少部分地执行音频信号处理的语音处理器5。语音处理器5例如是数字信号处理器(DSP)。语音处理器也可以包括其它操作,比如在上行链路(发送)和/或下行链路(接收)中的回声控制。 
图1的设备也包括可以在其中实施语音处理器5和其它控制操作的控制块13、键盘14、显示器15和存储器16。 
音频信号的采样被输入到语音处理器5。在语音处理器5中,在逐帧的基础上处理采样。该处理可以在时域中或者在频域中或者在这两个域中执行。在噪声抑制中,通常在频域中处理信号并且通过增益系数使每个频带加权。增益系数的值依赖于有噪声的语音的电平和噪声估计的电平。需要话音活动检测以便更新噪声电平估计N(ω)。 
话音活动检测器6检查语音采样以给出当前帧的采样是否包含语音或者非语音信号的指示。来自话音活动检测器6的指示被输入到噪声估计器19,该噪声估计器可以使用这一指示以在话音活动检测器6指示了信号不含语音时估计和更新噪声的频谱。噪声抑制器20使用噪声的频谱来抑制信号中的噪声。例如,噪声估计器19可以向话音活动检测器6给予关于背景噪声参数的反馈。设备1也可以包括用以对语音进行编码以供发送的编码器7。 
经编码的语音为信道编码的并且经由例如移动通信网络这样的通信信道17由发送器8发送到例如无线通信设备的另一电子设备18(图4)。 
在电子设备1的接收部分中有用于从通信信道17接收信号的接收器9。接收器9执行信道解码并且将信道解码的信号指引到重建语音帧的解码器10。语音帧和噪声由数字到模拟转换器11转换成模拟信号。模拟信号可以由扬声器或者耳机12转换成听觉信号。 
假设在模拟到数字转换器中使用8000Hz的采样频率,其中有用 的频率范围约从0到4000Hz,这对于语音通常是足够的。当在有待转换成数字形式的信号中也可能存在高于4000Hz的频率时,也有可能使用不同于8000Hz的采样频率,例如16000Hz。 
在下文中具体地描述本发明的理论背景。先考虑语音采样在一个浊音音素(′ee′,正如在单词′men′中那样)期间的频谱。在它们之间有共振峰频率和谷值,而在浊音语音的情况下还有基本频率、它的谐波和谐波之间的谷值。在国际专利公开WO01/37265中公开的现有技术的噪声抑制器中,从0到4kHz的频率范围被划分成具有不等宽度的12个计算频带(子频带)。因此,频谱在计算用于抑制的增益函数之前极为平滑。然而,如图5.1中所示,这一不规则性在某一程度上仍然存在。图5.1图示了浊音音素(′ee′)的频谱的例子。针对75ms的帧计算第一曲线(FFT长度512),针对10ms的帧计算第二曲线(FFT长度128),而针对10ms的帧计算并且通过频率分组来平滑第三曲线。 
在噪声的情况下,频谱如示出了汽车噪声频谱例子的图5.2中所看到的那样更平滑。针对75ms的帧计算第一曲线(FFT长度512),针对10ms的帧计算第二曲线(FFT长度128),而针对10ms的帧计算第三曲线(通过频率分组来平滑)。如图5.2中所示,在所有平滑之后,频谱类似于向下而行的直线。在非浊音辅音的情况下,频谱也相当平滑但是向上而行,如图5.3中所示。图5.3图示了非浊音辅音(在单词control中的音素′t′)。针对75ms的帧计算第一曲线(FFT长度512),针对10ms的帧计算第二曲线(FFT长度128),而针对10ms的帧计算第三曲线(通过频率分组来平滑)。 
在下文中将描述根据本发明的频谱平坦度VAD6.3的一个示例性实施例的操作。先在时域中计算与当前帧和先前帧对应的最有一阶预测器A(z)=1-az-1。针对当前帧,按照下式计算预测器系数a: 
a = Σx ( t ) x ( t - 1 ) Σ x ( t ) 2 .
频谱平坦度VAD在块6.3.1中检查是否a≤0,这意味着频谱具有高通性质并且它可以是非浊音辅音的频谱。然后将帧归类为语音,并且频谱平坦度VAD 6.3输出语音指示(例如逻辑1)。 
如果a>0,则在块6.3.2中使当前有噪声的语音频谱估计加权,并且使用与频带的中部对应的余弦函数的值在分组之后在频域中实现加权。获得如下加权函数: 
| A ( e jω m ) | 2 = 1 + a 2 - 2 a cos ω m
其中ωm指代了频带的中部频率。加权频谱|A(ejωm)|2X(ω,n)的最小值Xmin和最大值Xmax的比较实现了VAD判决。与在300Hz以下和在3400Hz以上的频率对应的值在这一示例性实施例中省略。如果Xmax≥2thrXmin则信号归类为语音,信噪比对应于约thr×3dB。 
噪声和浊音语音频谱的加权效果分别在图5.4和图5.5中示出。正如所见,在这一情况下12dB是足以用于区分噪声和语音的阈值。 
可以单独地使用频谱平坦度VAD,但是也有可能将它与在频域中工作的频谱距离VAD相结合地使用。如果后验信噪比(SNR)之和超过预定阈值则频谱距离VAD归类为语音,而在骤升背景噪声的情况下它开始将所有帧归类为噪声;更具体的描述可以在出版物WO01/37265中找到。因此,在这一实施例中,频谱平坦度VAD中的阈值可能甚至小于12dB,因为仅需要少数正确判决以便更新噪声估计的电平使得频谱举例VAD正确地归类。仍然有将语音中类似噪声的音素归类为噪声的少量风险。然而,偶尔不正确的判决并不总是在噪声抑制中对语音质量有听觉影响,只要噪声估计中的平滑参数(λ)足够地高即可。 
频谱距离VAD和频谱平坦度VAD也可以与自相关VAD相结合地使用。这种实施的一个例子在图2中示出。自相关VAD是在计算上要求很高但是鲁棒的浊音语音检测方法,而它在其它两种VAD归类为噪声的低信噪比中还是检测到语音。另外,有时候浊音音素具有明显的周期性但是相当平坦的频谱。因此,对于高质量的噪声抑制而言,虽然自相关VAD的计算复杂度对于一些应用可能过高,但是仍然可能需要所有三种VAD判决的组合。 
话音活动检测器之组合的判决逻辑可以在真值表中表示。表1示出了针对自相关VAD 6.1、频谱举例VAD6.2和频谱平坦度VAD 6.3 之和的真值表。列指示了不同VAD在不同情形下的判决。最右列意味着判决逻辑的结果,即话音活动检测器6的输出。在该表中,逻辑值0意味着对应VAD的输出指示了噪声,而逻辑值1意味着对应VAD的输出指示了语音。在不同VAD 6.1、6.2、6.3中进行判决的次序对于结果没有影响,只要判决逻辑根据表1的真值表进行工作即可。 
自相关VAD 频谱距离VAD 频谱平坦度VAD 判决
 0  0  0  0
 0  0  1  0
 0  1  0  0
 0  1  1  1
 1  0  0  1
 1  0  1  1
 1  1  0  1
 1  1  1  1
表1 
另外,频谱平坦度VAD 6.3的内部判决逻辑可以表示为表2的真值表。列指示了高通判决块6.3.1、频谱分析块6.3.2和频谱平坦度VAD输出的判决。在该表中,在高通性质列中的逻辑值0意味着频谱没有高通性质,而逻辑值1意味着高通性质的频谱。在平坦频谱中的逻辑值0意味着频谱不平坦而逻辑值1意味着频谱平坦。 
高通性质 平坦频谱 判决
 0  0  1
 0  1  0
 1  0  1
 1  1  1
表2 
在图6.1的简化框图中仅使用频谱平坦度VAD 6.3实施话音活动检测器6,在图6.2中使用频谱平坦度VAD 6.3和频谱距离VAD 6.2实施话音活动检测器6,而在图6.3中使用频谱平坦度VAD 6.3、频谱距 离VAD 6.2和自相关VAD 6.1实施话音活动检测器6。判决逻辑利用块6.6来描绘。在这些非限制性的示例性实施例中,不同VAD图示为并行的。 
在下文中参照图3的流程图具体地描述与频谱平坦度VAD相结合地使用自相关VAD和频谱距离VAD的根据本发明一个示例性实施例的话音活动检测。 
话音活动检测器6基于时域信号为自相关VAD 6.1计算自相关系数r(0)=∑x2(t)和r(τ)=∑x(t)x(t-τ),τ=16,...,81,而为频谱平坦度VAD 6.2计算最优一阶预测器A(z)=1-az-1,其中 a = Σx ( t ) x ( t - 1 ) Σx ( t ) 2 . 然后,计算FFT以便为频谱平坦度VAD 6.2和为频谱距离VAD 6.3获得频域信号。频域信号用来评价与频带ω对应的有噪声的语音真的功率谱X(ω,n)。自相关系数、一阶预测器和FFT的计算在图2中图示为计算块6.2,但是不言而喻,该计算也可以在话音活动检测器6的其它部分中实施,例如与自相关VAD 6.1结合实施。在话音活动检测器6中,自相关VAD 6.1使用自相关系数来检查在帧中是否有周期性(在图3中的块301)。 
所有自相关系数相对于0延迟系数r(0)来正规化,而在与范围[100,500]Hz内的频率对应的采样范围计算自相关系数的最大值max{r(16),...,r(81)}。如果此值大于某一阈值(块302),则该帧视为包含语音(箭头303),如果不是则判决依赖于频谱距离VAD 6.2和频谱平坦度VAD 6.3。 
自相关VAD产生语音检测信号S1用作为话音活动检测器6的输出(在图2中的块6.1和在图3中的块304)。然而,如果自相关VAD在帧的采样中没有找到足够的周期性,则自相关VAD不产生语音判决信号S1,但是它可以产生指示了信号没有周期性或者仅有较小周期性的非语音检测信号S2。然后,执行频谱距离话音活动检测(块305)。计算后验SNR之和 
Figure S05829006020070301D000112
并且将它与预定阈值做比较(块306)。如果频谱距离VAD 6.2将帧归类为噪声(箭头307),则这一指示S3用作话音活动检测器6的输出(在图2中的块6.5和在图3中的块315)。否则频谱平坦度VAD 6.3进行进一步动作以便判决在帧中是否有噪声 或者现时语音。 
频谱平坦度VAD 6.3接收最优一阶预测器A(z)=1-az-1和频谱X(ω,n),因为需要对信号的进一步分析(块308)。首先,频谱平坦度VAD 6.3的高通检测块6.3.1检查预测器系数的值是否小于或者等于零a≤0(块309)。如果是这样,则将帧归类为语音,因为此参数指示了信号的频谱具有高通性质。在那一情况下,频谱平坦度VAD 6.3提供了语音指示S5(箭头310)。如果高通检测块6.3.1确定了条件a≤0对于当前帧并不成真,则它向频谱平坦度VAD 6.3的频谱分析块6.3.2给予指示S7。频谱分析块6.3.2利用 | A ( e jω m ) | 2 = 1 + a 2 - 2 a cos ω m 使频带ω加权(块311)。利用与ω的中部频率对应的值使频带频率ωm正规化至(0,π)。然后比较加权频率|A(ejωm)|2X(ω)的最大值和最小值(块312)。如果加权频率的最大值和最小值之比在阈值以下(例如12dB)则将帧归类为噪声(箭头313)并且形成指示S8。否则将帧归类为语音(箭头314)并且形成指示S9(块304)。如果频谱平坦度VAD 6.3确定该帧包含语音(上述的指示S5和S9),则话音活动检测器6产生(有噪声的)语音指示(块304)。否则(上述的指示S8)话音活动检测器8产生噪声指示(块315)。 
本发明例如可以在数字处理单元(DSP)中实施为计算机程序,在该计算机程序中可以提供用以执行话音活动检测的可由机器执行的步骤。 
根据本发明的话音活动检测器6可以使用于噪声抑制器20中,例如使用于如上所示的发送设备中、使用于接收设备中或者使用于这二者中。话音活动检测器6以及语音处理器5的其它信号处理单元可以是设备1的发送功能和接收功能所共有的或者部分共有的。也有可能在***的其它部分中,例如在通信信道17的某一个或多个单元中实施根据本发明的话音活动检测器6。针对噪声抑制的典型应用与语音处理有关,其中意图在于使语音更令用户感觉愉悦和更为用户所理解或者在于改进语音编码。由于语音编码解码器针对语音而优化,所以噪声的有害效应可能很大。也有可能与不同于噪声抑制的其它用途相结合地使用根据本发明的话音活动检测器6,例如在间断的发送中用以 指示何时应当发送语音或者噪声。 
根据本发明的频谱平坦度VAD可以单独地用于话音活动检测和/或噪声估计,但是也有可能与频谱距离VAD(例如与在出版物WO01/37265中描述的频谱距离VAD)相结合地使用频谱平坦度VAD,以便在骤升噪声功率的情况下改进噪声估计。另外,也可以与自相关VAD相结合地使用频谱距离VAD和频谱平坦度VAD以便在低SNR时实现良好性能。 
不言而喻,本发明不仅仅限于上述实施例,而是它可以在所附权利要求的范围之内有所修改。 

Claims (26)

1.一种包括话音活动检测器(6)的无线通信设备(1),所述话音活动检测器(6)用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动,其特征在于所述设备(1)的所述话音活动检测器(6)包括:
-第一单元(6.3.1),适于检查所述音频信号是否具有高通性质,
-第二单元(6.3.2),适于检查所述音频信号的频谱,以及
其中所述话音活动检测器(6)适于提供音频信号是否包含语音或非语音信号的指示,在满足以下条件之一时提供语音指示:
-所述第一单元(6.3.1)已经确定所述音频信号具有高通性质,或者
-所述第二单元(6.3.2)已经确定所述音频信号没有平坦的频率响应,
并且如果所述话音活动检测器(6)提供的指示表明所述音频信号不包含语音,则估计和更新噪声的频谱,并使用噪声的频谱来抑制所述音频信号中的噪声。
2.根据权利要求1所述的无线通信设备,其特征在于所述话音活动检测器(6)还适于在所述第一单元(6.3.1)已经确定所述音频信号没有高通性质而所述第二单元(6.3.2)已经确定所述音频信号具有平坦的频率响应时提供噪声指示。
3.根据权利要求1或2所述的无线通信设备,其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的频率属性并且用于基于所述检查来产生频谱距离检测数据的频谱距离话音活动检测器(6.2),所述频谱距离检测数据提供语音指示或者噪声指示。
4.根据权利要求3所述的无线通信设备,其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的自相关属性并且用于基于所述检查来产生自相关检测数据的自相关话音活动检测器(6.1),其中所述频谱距离话音活动检测器(6.2)适于在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。
5.根据权利要求4所述的无线通信设备,其特征在于所述话音活动检测器(6)包括用以基于其提供的音频信号是否包含语音或非语音信号的所述指示与自相关话音活动检测器(6.1)和频谱距离话音活动检测器(6.2)的指示的组合来形成判决信号的判决块(6.6)。
6.根据权利要求1或2所述的无线通信设备,其特征在于所述话音活动检测器(6)适于计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)=1-az-1,其中所述预测器系数a按照下式来计算:
a = Σx ( t ) x ( t - 1 ) Σx ( t ) 2 .
7.根据权利要求6所述的无线通信设备,其特征在于所述第一单元(6.3.1)还适于检查所述预测器系数a的值是否小于或者等于预定值以便在提供所述语音指示时使用所述检查的结果。
8.根据权利要求7所述的无线通信设备,其特征在于所述第二单元(6.3.2)还适于计算加权频谱估计并且比较加权频谱估计的最小值和最大值与第二预定值以便在提供噪声或者语音指示时使用所述比较的结果。
9.一种话音活动检测器(6),用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动,其特征在于所述话音活动检测器(6)包括:
-第一单元(6.3.1),适于检查所述音频信号是否具有高通性质,
-第二单元(6.3.2),适于检查所述音频信号的频谱,以及
其中所述话音活动检测器(6)适于提供音频信号是否包含语音或非语音信号的指示,在满足以下条件之一时提供语音指示:
-所述第一单元(6.3.1)已经确定所述音频信号具有高通性质,或者
-所述第二单元(6.3.2)已经确定所述音频信号没有平坦的频率响应,
-并且如果所述话音活动检测器(6)提供的指示表明所述音频信号不包含语音,则估计和更新噪声的频谱,并使用噪声的频谱来抑制所述音频信号中的噪声。
10.根据权利要求9所述的话音活动检测器(6),其特征在于所述话音活动检测器(6)还适于在所述第一单元(6.3.1)已经确定所述音频信号没有高通性质而所述第二单元(6.3.2)已经确定所述音频信号具有平坦的频率响应时提供噪声指示。
11.根据权利要求9或10所述的话音活动检测器(6),其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的频率属性并且用于基于所述检查来产生频谱距离检测数据的频谱距离话音活动检测器(6.2),所述频谱距离检测数据提供语音指示或者噪声指示。
12.根据权利要求11所述的话音活动检测器(6),其特征在于所述话音活动检测器(6)还包括用于检查所述音频信号的自相关属性并且用于基于所述检查来产生自相关检测数据的自相关话音活动检测器(6.1),其中所述频谱距离话音活动检测器(6.2)适于在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。
13.根据权利要求12所述的话音活动检测器(6),其特征在于所述话音活动检测器(6)包括用以基于其提供的音频信号是否包含语音或非语音信号的所述指示与自相关话音活动检测器(6.1)和频谱距离话音活动检测器(6.2)的指示的组合来形成判决信号的判决块(6.6)。
14.根据权利要求12所述的话音活动检测器(6),其特征在于所述频谱距离检测数据包括自相关参数,其中所述第一单元(6.3.1)适于检测所述自相关参数以确定所述音频信号的高通性质。
15.根据权利要求9或10所述的话音活动检测器(6),其特征在于所述话音活动检测器(6)适于计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)=1-ax-1,其中所述预测器系数a按照下式来计算:
a = Σx ( t ) x ( t - 1 ) Σx ( t ) 2 .
16.根据权利要求15所述的话音活动检测器(6),其特征在于所述第一单元(6.3.1)还适于检查所述预测器系数a的值是否小于或者等于预定值以便在提供所述语音指示时使用所述检查的结果。
17.根据权利要求16所述的话音活动检测器(6),其特征在于所述第二单元(6.3.2)还适于计算加权频谱估计并且用以比较加权频谱估计的最小值和最大值与第二预定值以便在提供噪声或者语音指示时使用所述比较的结果。
18.一种用于使用基于音频信号的采样而形成的数字数据来检测语音信号中的话音活动的方法,其特征在于所述方法包括:
-检查所述音频信号是否具有高通性质,以及
-检查所述音频信号的频谱,
-提供音频信号是否包含语音或非语音信号的指示,在满足以下条件之一时提供语音指示:
-确定所述音频信号具有高通性质,或者
-确定所述音频信号没有平坦的频率响应,以及
-并且如果所述提供的指示表明所述音频信号不包含语音,则估计和更新噪声的频谱,并使用噪声的频谱来抑制所述音频信号中的噪声。
19.根据权利要求18所述的方法,其特征在于所述方法包括:在确定所述音频信号没有高通性质并且所述音频信号具有平坦的频率响应时提供噪声指示。
20.根据权利要求18或19所述的方法,其特征在于所述方法还包括:检查所述音频信号的频率属性并且基于所述检查来产生频谱距离检测数据,所述频谱距离检测数据提供语音指示或者噪声指示。
21.根据权利要求20所述的方法,其特征在于所述方法还包括:检查所述音频信号的自相关属性并且基于所述检查来产生自相关检测数据,其中所述方法包括:在所述自相关检测数据没有指示语音时产生所述频谱距离检测数据。
22.根据权利要求21所述的方法,其特征在于所述方法还包括:基于提供的音频信号是否包含语音或非语音信号的所述指示与所述自相关检测数据和频谱距离检测数据的指示的组合来形成判决信号。
23.根据权利要求21所述的方法,其特征在于所述频谱距离检测数据包括自相关参数,其中所述方法包括:检测所述自相关参数以确定所述音频信号的高通性质。
24.根据权利要求18或19所述的方法,其特征在于所述方法包括:计算与所述数字数据的当前帧和先前帧对应的一阶预测器A(z)=1-az-1,其中所述预测器系数a按照下式来计算:
a = Σx ( t ) x ( t - 1 ) Σx ( t ) 2 .
25.根据权利要求24所述的方法,其特征在于检查所述音频信号是否具有高通性质包括:检查所述预测器系数a的值是否小于或者等于预定值,并且在提供所述语音指示时使用所述检查的结果。
26.根据权利要求25所述的方法,其特征在于检查所述音频信号的频谱包括:计算加权频谱估计,并且比较所述加权频谱估计的最小值和最大值与第二预定值,而且在提供噪声或者语音指示时使用所述比较的结果。
CN2005800290060A 2004-08-30 2005-08-29 用于检测语音信号中话音活动的设备和方法 Expired - Fee Related CN101010722B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20045315A FI20045315A (fi) 2004-08-30 2004-08-30 Ääniaktiivisuuden havaitseminen äänisignaalissa
FI20045315 2004-08-30
PCT/FI2005/050302 WO2006024697A1 (en) 2004-08-30 2005-08-29 Detection of voice activity in an audio signal

Publications (2)

Publication Number Publication Date
CN101010722A CN101010722A (zh) 2007-08-01
CN101010722B true CN101010722B (zh) 2012-04-11

Family

ID=32922176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800290060A Expired - Fee Related CN101010722B (zh) 2004-08-30 2005-08-29 用于检测语音信号中话音活动的设备和方法

Country Status (6)

Country Link
US (1) US20060053007A1 (zh)
EP (1) EP1787285A4 (zh)
KR (1) KR100944252B1 (zh)
CN (1) CN101010722B (zh)
FI (1) FI20045315A (zh)
WO (1) WO2006024697A1 (zh)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2089877B1 (en) 2006-11-16 2010-04-07 International Business Machines Corporation Voice activity detection system and method
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
WO2009130388A1 (en) * 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
SI3493205T1 (sl) 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US20140006019A1 (en) * 2011-03-18 2014-01-02 Nokia Corporation Apparatus for audio signal processing
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和***
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) * 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN103280225B (zh) * 2013-05-24 2015-07-01 广州海格通信集团股份有限公司 一种低复杂度的静音检测方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
GB2519379B (en) 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
CN105810201B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 语音活动检测方法及其***
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108039182B (zh) * 2017-12-22 2021-10-08 西安烽火电子科技有限责任公司 一种语音激活检测方法
TWI692970B (zh) * 2018-10-22 2020-05-01 瑞昱半導體股份有限公司 影像處理電路及相關的影像處理方法
TWI736206B (zh) * 2019-05-24 2021-08-11 九齊科技股份有限公司 音頻接收裝置與音頻發送裝置
DE102019133684A1 (de) 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung
EP4100949A1 (en) * 2020-02-04 2022-12-14 GN Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
CN111755028A (zh) * 2020-07-03 2020-10-09 四川长虹电器股份有限公司 一种基于基音特征的近场遥控器语音端点检测方法及***
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及***
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备
CN116935900A (zh) * 2022-03-29 2023-10-24 哈曼国际工业有限公司 语音检测方法
CN114566152B (zh) * 2022-04-27 2022-07-08 成都启英泰伦科技有限公司 一种基于深度学习的语音端点检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0335521A1 (en) * 1988-03-11 1989-10-04 BRITISH TELECOMMUNICATIONS public limited company Voice activity detection
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6647365B1 (en) * 2000-06-02 2003-11-11 Lucent Technologies Inc. Method and apparatus for detecting noise-like signal components
CN1507616A (zh) * 2001-05-03 2004-06-23 西门子公司 对声学信号自动区分和/或检测的方法和设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH0398038U (zh) * 1990-01-25 1991-10-09
EP0511488A1 (de) * 1991-03-26 1992-11-04 Mathias Bäuerle GmbH Papierfalzmaschine mit einstellbaren Falzwalzen
US5383392A (en) * 1993-03-16 1995-01-24 Ward Holding Company, Inc. Sheet registration control
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
IN184794B (zh) * 1993-09-14 2000-09-30 British Telecomm
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
AU3352997A (en) * 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6611718B2 (en) * 2000-06-19 2003-08-26 Yitzhak Zilberman Hybrid middle ear/cochlea implant system
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0335521A1 (en) * 1988-03-11 1989-10-04 BRITISH TELECOMMUNICATIONS public limited company Voice activity detection
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6647365B1 (en) * 2000-06-02 2003-11-11 Lucent Technologies Inc. Method and apparatus for detecting noise-like signal components
CN1507616A (zh) * 2001-05-03 2004-06-23 西门子公司 对声学信号自动区分和/或检测的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R.Venkatesha Prasad ET AL..Comparison of Voice Activity Detection Algorithms for VoIP.《Proceedings of the Seventh International Symposium on Computers and Communications (ISCC’02)》.2002,530-535. *
ZHIBO CAI ET AL..A KNOWLEDGE BASED REAL-TIME SPEECH DETECTOR FOR MICROPHONE ARRAY VIDEOCONFERENCING SYSTEM.《ICSP"02 Proceedings》.2002,第1卷350-353. *

Also Published As

Publication number Publication date
EP1787285A4 (en) 2008-12-03
CN101010722A (zh) 2007-08-01
EP1787285A1 (en) 2007-05-23
FI20045315A (fi) 2006-03-01
US20060053007A1 (en) 2006-03-09
KR20070042565A (ko) 2007-04-23
FI20045315A0 (fi) 2004-08-30
KR100944252B1 (ko) 2010-02-24
WO2006024697A1 (en) 2006-03-09

Similar Documents

Publication Publication Date Title
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
CN111149370B (zh) 会议***中的啸叫检测
US8600073B2 (en) Wind noise suppression
US20180102136A1 (en) Detection of acoustic impulse events in voice applications using a neural network
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
EP0909442B1 (en) Voice activity detector
CN102194452B (zh) 复杂背景噪声中的语音激活检测方法
US20050108004A1 (en) Voice activity detector based on spectral flatness of input signal
US9368112B2 (en) Method and apparatus for detecting a voice activity in an input audio signal
JP3878482B2 (ja) 音声検出装置および音声検出方法
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
US9183846B2 (en) Method and device for adaptively adjusting sound effect
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
CN108597505A (zh) 语音识别方法、装置及终端设备
CN101176149A (zh) 用于音调噪声鲁棒的信号处理***
CN111883182A (zh) 人声检测方法、装置、设备及存储介质
US20120265526A1 (en) Apparatus and method for voice activity detection
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
EP3748636A1 (en) Voice processing device and voice processing method
US20130226568A1 (en) Audio signals by estimations and use of human voice attributes
CN104243053A (zh) 一种输入信号的处理方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NOKIA SIEMENS NETWORKS

Free format text: FORMER OWNER: NOKIA NETWORKS OY

Effective date: 20080328

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20080328

Address after: Espoo, Finland

Applicant after: Nokia Corp.

Address before: Espoo, Finland

Applicant before: Nokia Oyj

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: NOKIA SIEMENS NETWORKS OY

Free format text: FORMER NAME: NOKIA CORP.

CP01 Change in the name or title of a patent holder

Address after: Espoo, Finland

Patentee after: Nokia Siemens Networks OY

Address before: Espoo, Finland

Patentee before: Nokia Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120411

Termination date: 20150829

EXPY Termination of patent right or utility model