CN1242553A - 用于噪声环境的语音检测*** - Google Patents

用于噪声环境的语音检测*** Download PDF

Info

Publication number
CN1242553A
CN1242553A CN99104095A CN99104095A CN1242553A CN 1242553 A CN1242553 A CN 1242553A CN 99104095 A CN99104095 A CN 99104095A CN 99104095 A CN99104095 A CN 99104095A CN 1242553 A CN1242553 A CN 1242553A
Authority
CN
China
Prior art keywords
threshold
frequency band
band
threshold value
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99104095A
Other languages
English (en)
Other versions
CN1113306C (zh
Inventor
赵翊
金-克劳德·军全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1242553A publication Critical patent/CN1242553A/zh
Application granted granted Critical
Publication of CN1113306C publication Critical patent/CN1113306C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Image Analysis (AREA)

Abstract

将输入信号变换到频域,随后划分为与不同频率范围相对应的频带。分别对各频带的数据施加自适应阈值。从而测试短期限带能量,以确定有无语音信号。通过利用直方图数据结构累加表示有关频带能量均值和方差的长期数据,独立更新各信号路径的自适应阈值。利用状态机完成端点检测,其中状态机根据阈值比较结果,从无语音状态变换到有语音状态,反之亦然。局部语音检测***处理输入信号被截短的情况。

Description

用于噪声环境的语音检测***
本发明一般涉及语音处理和语音识别***。更确切地说,本发明涉及用于检测输入信号内语音开始和语音结束的检测***。
目前,用于语音识别和其他目的的自动语音处理是计算机能够进行的最具挑战性的任务之一。例如,语音识别采用对变化非常敏感的高度复杂的模式匹配技术。在用户应用中,识别***需要处理各种各样的不同发言者,并且需要在各种互不相同的环境下运行。无关信号和噪声的出现可能严重降低识别质量和语音处理性能。
大部分自动语音识别***按如下方式工作,首先建立声音模式的模型,然后使用该模式确定音素,字母,最后确定单词。对于精确识别而言,排除实际语音之前或之后的所有无关声音(噪声)是非常重要的。存在一些检测语音开始和语音结束的公知技术,尽管还有许多地方需要改进。
本发明将输入信号划分为各种频带,各频带代表不同的频率范围。然后将各频带内的短期能量与若干阈值进行比较,并利用比较结果驱动状态机,当至少某个频带的限带信号能量高于该频带的至少一个有关阈值时,状态机就从“无语音”状态切换到“有语音”状态。同样,当至少某个频带的限带信号能量低于该频带的至少一个有关阈值时,状态机就从“有语音”状态切换到“无语音”状态。该***还包括一个基于实际语音开始之前的“无声段”假设的局部语音检测机制。
直方图数据结构累加与各频带内的能量均值和方差有关的长期数据,该信息用于调整自适应阈值。根据噪声特征分配频带。直方图表示能够明显区分语音信号、无声和噪声。在语音信号内,无声部分(仅有背景噪声)通常占主导地位,并且在直方图上有明显反映。相比为常量的背景噪声,在直方图上表示为明显峰值。
本***非常适用于噪声环境中的语音检测,该***检测语音的开始和结束并处理经过截短而丢失语音开始的情况。
参照以下详细说明书和附图,将更加理解本发明,其目的以及其优点。
图1为本发明之最佳实施方式(2频带实施方式)中语音检测***的框图;
图2为用于调整自适应阈值的***的详细框图;
图3为局部语音检测***的框图;
图4表示本发明的语音信号状态机;
图5表示用于理解本发明的典型直方图;
图6为一个波形图,该图表示为进行语音检测而比较信号能量时所使用的若干阈值;
图7为一个波形图,该图表示为避免错误检测强噪声脉冲而使用的开始语音延迟检测机制;
图8为一个波形图,该图表示为允许连续语音内的停顿而使用的结束语音延迟判定机制;
图9A为表示局部语音检测机制的一方面的波形图;
图9B为表示局部语音检测机制的另一方面的波形图;
图10为一组波形图,该图表示为了选择与有语音状态相对应的最终范围,如何综合多频带阈值分析;
图11表示出现强噪声时使用S阈值的波形图;以及
图12表示当自适应阈值适应背景噪声电平时,自适应阈值的性能。
本发明将输入信号划分为多个信号路径,各路径代表一个不同频带。图1表示采用两频带实施方式的本发明的实施方式,一个频带表示输入信号的总频谱,另一频带表示总频谱的高频子集。所示实施方式特别适用于检测具有较低信噪比(SNR)的输入信号,如在正在行驶的汽车内或噪杂的办公环境中所获得的信号。在以上常见环境中,大部分噪声能量分布在2,000Hz以下。
尽管本文说明了两频带***,可以将本发明轻易扩展为其他多频带结构。通常,各频带覆盖不同的频率范围,其目的是从噪声中分离信号(语音)。本实施方式为数字式。当然,也可以利用本文包含的详细说明实现模拟实施方式。
参照图1,在20提供包含潜在语音信号和噪声的输入信号。利用汉明窗口22数字化处理输入信号,以便将输入信号数据划分为帧。本发明之最佳实施方式采用时长为10ms的预定采样频率(8,000Hz情况下)的帧,每帧80个数字采样。所示***被设计成能够在其频率范围为300Hz到3,400Hz的输入信号下运行。因此,选择采样频率为频率上限的两倍(2×4,000=8,000)。如果在输入信号的信息传送部件中发现不同频谱,就适当调整采样频率和频带。
汉明窗口22的输出为表示输入信号(语音和噪声)的数字采样序列,并且将其排列为预定尺寸的帧。随后将以上各帧馈入到快速傅立叶变换(FFT)变换器24,后者将输入信号数据从时域变换到频域。此时,将该信号***为若干路径,位于26的第一路径和位于28的第二路径。第一路径表示包含输入信号所有频率的频带,而第二路径28表示输入信号总频谱的高频子集。由于利用数字数据表示频域含量,所以分别利用累加部件30和32实现频带***。
请注意,累加部件30累加范围10-108内的频谱分量;而累加部件32累加范围64-108内的频谱分量。这样,累加部件30选择输入信号内的所有频率,而部件32仅选择高频频带。此时,部件32抽取部件30所选频带的一个子集。这正是检测通常在行驶的汽车内或噪杂的办公室中所获得的噪声输入信号中语音含量的最佳实施方式。其他噪声环境可以规定其他频带***方式。例如,如果需要,可以配置若干信号路径以覆盖各个非重叠频带和部分重叠频带。
累加部件30和32每次累加一帧的频率分量。因此,部件30和32的结果输出表示信号内的限带短期能量。如果需要,可以经过平滑滤波器,如滤波器34和36,传送原始数据。在本发明的最佳实施方式中,采用3-抽头平均器作为两处的平滑滤波器。
正如下文中将要更加全面说明的那样,根据若干受限频带短期能量与若干阈值的比较,进行语音检测。根据与讲话前之无声部分(假设在***运行后但在发言者开始发言之间,出现无声部分)有关的能量的长期平均值与方差,自适应更新以上阈值。以上实施方式采用直方图数据结构生成自适应阈值。在图1中,组合框38和40分别表示信号路径26和28的自适应阈值更新部件。将结合图2和有关波形图,提供以上部件的细节。
尽管沿快速傅立叶变换部件24的下行方向保持不同的信号路径,各通过自适应阈值更新部件38和40,但有关输入信号中有无语音的最终决定是同时考虑两条信号路径产生的。因此,语音状态检测部件42以及与其有关的局部语音检测部件44从两条路径26和28考虑信号能量数据。语音状态部件42实现将在图4中进一步说明其细节的状态机。图3更详细地说明了局部语音检测部件。
现在参照图2,以下将说明自适应阈值更新部件38。本发明的最佳实施方式对各频带采用3个不同阈值。因此,在所示实施方式中,共有6个阈值。通过考虑波形图以及其有关论述,各阈值的目的将变得更加显而易见。对各能量频带,确定3个阈值:Threshold,WThreshold和SThreshold。第一阈值Threshold为用于检测语音开始的基本阈值。WThreshold为用于检测语音结束的弱阈值。SThreshold为用于评估语音检测判定之有效性的强阈值。以上阈值的更正式的定义为:
Threshold=Noise_Level+Offset
WThreshold=Noise_Level+Offset*R1;(R1=0.2..1,这里最好为0.5)
SThreshold=Noise_Level+Offset*R2;(R2=1..4,这里最好为2)
其中:
Noise_Level为长期平均值,即直方图中所有过去的输入能量的最大值。
Offset=Noise_Level*R3+Variance*R4;(R3=0.2..1,这里最好为0.5;R4=2..4,这里最好为4)。
Variance为短期方差,即M个刚刚过去的输入帧的方差。
图6表示叠加在某个典型信号上的3个阈值之间的关系。请注意,SThreshold高于Threshold,而WThreshold通常低于Threshold。以上阈值以噪声电平为基础,利用直方图数据结构确定输入信号的讲话前的无声部分中包含的所有过去输入的能量的最大值。图5表示叠加在某个波形上的典型直方图,该波形表示典型噪声电平。该直方图记录讲话前无声部分包含预定噪声电平能量的次数的“计数”。从而直方图作为能量电平的函数(在x轴上)绘制计数(在y轴上)。请注意,在图5所示的示例中,最普通的(最大计数)噪声电平能量具有能量值Ea。值Ea将与预定噪声电平能量相对应。
直方图(图5)中记录的噪声电平能量数据是从输入信号的讲话前的无声部分中抽取的。关于这一点,假设提供输入信号的音频通道是有效的,并且在实际讲话开始之前向语音检测***发送数据。因此,在讲话前的无声部分,***正在对环境噪声电平本身的能量特征进行有效采样。
本发明的最佳实施方式采用固定尺寸的直方图,以便降低计算机存储需求。正确配置直方图数据结构能够提供精度估计要求(意味着小的直方图步长)与宽阔动态范围(意味着大的直方图步长)之间的折衷。为了解决精度估计(小的直方图步长)与宽阔动态范围(大的直方图步长)之间的冲突,本***根据实际操作环境,自适应地调整直方图步长。以下伪码说明了在调整直方图步长大小时所采用的算法,其中M为步长大小(表示各直方图步长中能量值的范围)。
自适应直方图步长的伪码
在初始化步骤之后:
计算缓冲区内过去各帧的平均值
M=前一所述平均值的十分之一
If(M<MIN_HISTOGRAM_STEP)
M=MIN_HISTOGRAM_STEP
End
请注意,在上述伪码中,根据开始时在初始化步骤中放入缓冲区的假设无声部分的平均值,修改直方图步长M。这里,假设所述平均值能够表现实际背景的噪声环境。请注意,直方图步长以MIN_HISTOGRAM_STEP为下界。此后,固定直方图步长。
通过为各帧***一个新值来更新直方图。为了适应缓慢变化的背景噪声,每10帧引入一个遗忘因子(在本实施方式中为0.90)。
用于更新直方图的伪码
    If(value<HISTOGRAM_SIZE*M)

    {

      ∥利用遗忘因子更新直方图

      if(frame_in_histogram%10==0)

      {

         for(I=0;I<HISTOGRAM_SIZE;I++)

         histogram[I]*=HISTOGRAM_FORGETTING_FACTOR;

      }

     ∥通过***新值更新直方图

     histogram[value+M/2)/M]+=1;

     histogram[value-M/2)M}+=1;

     }
现在参照图2,图2表示自适应阈值更新机制的基本框图。该框图表示部件38和40(图1)所执行的操作。在更新缓冲器50中存储短期(当前数据)能量,部件52按上述方式使用该能量以便更新直方图数据结构。
随后,由部件54检查更新缓冲器,部件54计算缓冲器50中所存储的刚刚过去的若干数据帧的方差。
期间,部件56确定该直方图内的最大能量值(即图5中的值Ea),并将该值提供给阈值更新部件58。阈值更新部件利用以上最大能量值以及来自部件54的统计数据(方差)修改主要阈值Threshold。如上所述,Threshold等于噪声电平与预定偏移量之和。偏移量以利用直方图中的最大值所确定的噪声电平和部件54所提供的方差为基础。按照上面所列方程,根据Threshold计算剩余阈值,即WThreshold和SThreshold。
在正常操作中,通常经过跟踪讲话前的信号部分内的噪声电平,自适应调整阈值。图12说明以上概念。在图12中,100表示讲话前的信号部分,200表示开始讲话。已经将Threshold电平叠加到该波形中。请注意,以上阈值电平跟踪讲话前的信号部分内的噪声电平,外加一个偏移量。因此,应用于某个给定讲话范围的Threshold(以及SThreshold和WThreshold)为以下阈值,即刚开始讲话前的实际阈值。
现在回到图1,以下将说明语音状态检测和局部语音检测部件42和44。根据当前帧以及当前帧后面的某几帧进行有语音/无语音判定,而不是根据某个数据帧进行判定。就检测语音开始而言,考虑当前帧后面的附加帧(超前)避免了出现短暂但却是强噪声脉冲时,如电脉冲,的错误检测。就检测语音结束而言,帧超前防止连续语音信号中的暂停或短暂无声造成的语音结束的错误检测。通过在更新缓冲器50(图2)中缓冲数据并采用以下伪码所描述的处理,实现以上延迟判定或超前策略。
语音开始测试:
  开始延迟判定=FALSE
  Loop M个顺序帧(M=3;30ms)
    If Energy_All>Threshold或Energy_HPF>Threshold
        Then 开始延迟判定=TRUE
语音结束测试:
  结束延迟判定=FALSE
  Loop N个顺序帧(N=30;300ms)
    If Energy_All<Threshold与Energy_HPF<Threshold
        Then结束延迟判定=TRUE
  End of Loop
参见图7,图7表示语音开始测试中30ms的延迟是如何避免错误检测超过阈值的噪声峰值110的。同时参见图8,图8表示语音结束测试中300ms的延迟是如何防止语音信号中的短暂暂停120触发语音结束状态的。
上述伪码设置了两个标记,开始延迟判定标记和结束延迟判定标记。图4所示的语音信号状态机使用以上标记。请注意,语音开始使用30ms的延迟,相当于3帧(M=3)。通常该延迟足以筛去由于短暂噪声峰值而造成的错误检测。语音结束使用较长的延迟,相当于300ms,业已证明该延迟足以处理连续语音中的出现的正常暂停。300ms延迟相当于30帧(N=30)。为了避免语音信号消波或削波而造成的误差,可以根据检测的语音开始与语音结束的语音部分,利用附加帧填充以上数据。
语音开始检测算法假设讲话前存在至少某个指定的最小长度的无声部分。实际上,某些时候以上假设可能无效,如由于信号漏失或电路切换突变而消波输入信号,从而缩短或消除假定的“无声段”。当出现以上情况时,可能会错误更新阈值,这是由于该阈值是以噪声电平能量为基础,利用无语音信号估计的。此外,当消波输入信号,从而该信号不包含无声段时,语音检测***可能不能识别该输入信号包含语音,或许丢失输入阶段的语音,从而使随后的语音处理无效。
为了避免局部语音状态,采用图3所示的或非策略。图3表示局部语音检测部件44(图1)所采用的机制。局部语音检测机制通过监视阈值(Threshold)确定自适应阈值电平是否存在瞬时跳变而起作用。跳变检测部件60首先通过累加表示一连串帧的阈值变化的某个值,完成以上分析。产生累加阈值变化Δ的部件62完成该步处理。在部件64,比较累加阈值变化Δ与某个预定绝对值Athrd,并且根据Δ是否大于Athrd,经由分支66或分支68继续该处理。如果Δ小于Athrd,就激活部件70(否则,激活部件72)。部件70和72保持独立平均阈值。部件70保持并更新阈值T1,T1表示所测跳变之前的阈值,部件72保持并更新阈值T2,T2表示跳变之后的阈值。随后在部件74,将两个阈值之比率(T1/T2)与第三阈值Rthrd进行比较。如果以上比率大于第三阈值,则设置ValidSpeech(有效语音)标记。图4的语音信号状态机使用ValidSpeech标记。
图9A和9B表示运转中的部分语音检测机制。图9A表示采取Yes分支68(图3)的状态,而图9B表示采取No分支66的状态。参照图9A,请注意,从150到160存在阈值跳变。在所示示例中,该跳变大于绝对值Athrd。在图9B中,从152到162的阈值跳变表示并不大于Athrd的跳变。在图9A和9B中,虚线170表示跳变位置。T1表示跳变位置之前的平均阈值,T2表示跳变位置后的平均阈值。随后比较比率T1/T2与比率阈值Rthrd(图3中框74)。按下述方式,仅从讲话前范围内的杂散噪声中区分ValidSpeech。如果阈值跳变小于Athrd,或者比率T1/T2小于Rthrd,就将引起阈值跳变的信号识别为噪声。另一方面,如果比率T1/T2大于Rthrd,就将引起阈值跳变的信号看作部分语音,但不用来更新阈值。
现在参照图4,300表示的语音信号状态机启动初始化状态310。随后转到无声状态320,语音信号状态机保持在无声状态320直到在无声状态执行的步骤确定要转到语音状态330。一旦进入语音状态330,当满足某些条件时,如语音状态框330所示步骤所指示的那样,状态机将转回到无声状态320。
在初始化状态310,在缓冲器50(图2)中存储数据帧,并且更新直方图步长的大小。我们记得最佳实施方式利用额定步长大小M=20开始运行。根据上面提供的伪码所述,在初始化状态期间可以修改步长的大小。此外,在初始化状态期间,初始化直方图数据结构,以便删除早期操作的所有预先存储数据。执行完这些步骤后,状态机转到无声状态320。
在无声状态内,比较各受限频带短期能量值与基础阈值Threshold。如上所述,各信号路径具有其特有的阈值集。在图4中,Threshold_All表示适用于信号路径26(图1)的阈值,而Threshold_HPF表示适用于信号路径28的阈值。对于语音状态330中采用的其他阈值,使用类似名称。
如果任一短期能量值超过其本身的阈值,就测试开始延迟判定标记。如上所述,如果已经将该标记设置为TRUE,就返回语音开始消息,并且状态机转到语音状态330。反之,状态机保持无声状态,并且更新直方图数据结构。
本发明之最佳实施方式利用遗忘因子0.99更新直方图,以使非当前数据的影响随时间推移消失。通过在累加与当前帧能量有关的Count(计数)数据之前用0.99乘直方图中的现有数据,完成以上处理。这样,历史数据的影响随时间推移逐渐消失。
沿类似路径继续语音状态330内的处理,尽管使用不同的阈值集。语音状态把信号路径26和28内的有关能量同WThreshold比较。如果任一信号路径大于WThreshold,则与SThreshold进行类似比较。如果任一信号路径中的能量大于SThreshold,则将ValidSpeech标记设置为TRUE。在随后的比较步骤中使用该标记。
如上所述,如果预先将结束延迟判定标记设置为TRUE,并且如果已经将ValidSpeech标记设置为TRUE,则返回结束语音消息,并且状态机返回到无声状态320。另一方面,如果并未将ValidSpeech标记设置为TRUE,则发送消息以便取消前述语音检测,并且状态机返回到无声状态320。
图10和图11表示不同电平如何影响状态机的操作。图10比较两条路径,即全频频带Band_All和高频频带Band_HPF,的并发操作。请注意,由于信号波形包含不同的频谱,所以其信号波形不同。在所示示例中,识别为被检测语音的最终范围对应于b1处阈值与全频频带相交所产生的语音开始,而语音结束对应于高频频带在e2处的相交点。当然,根据图4所描述的算法,不同输入波形将产生不同结果。
图11表示在出现强噪声电平时,如何使用强阈值SThreshold来证实存在ValidSpeech。如图所示,区域R表示低于SThreshold的强噪声,该区域对应于将ValidSpeech标记设置为FALSE的区域。
根据上述说明可以理解,本发明提供一种检测输入信号内语音开始和语音结束的***,解决了用户在噪声环境中应用时遇到的许多问题。尽管以本发明之最佳实施方式说明了本发明,然而可以理解的是,在不背离权利要求书所规定之发明实质下,可以对本发明作某些修改。

Claims (16)

1.用于检测输入信号以确定有无语音信号的语音检测***,该***包括:
一个频带***器,用于将所述输入信号***为若干频带,各频带表示与不同频率范围相对应的限带信号能量;
一个能量比较***,用于把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及
一个与所述能量比较***相连的语音信号状态机,该状态机完成以下切换:
(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,从无语音状态切换到有语音状态,以及
(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,从有语音状态切换到无语音状态。
2.权利要求1的***还包括自适应阈值更新***,该***采用直方图数据结构累加表示至少一个所述频带内的能量的历史数据。
3.权利要求1的***还包括一个与各所述频带有关的独立的自适应阈值更新***。
4.权利要求1的***还包括根据各所述频带内的能量均值和方差,修改所述若干阈值的自适应阈值更新***。
5.权利要求1的***还包括对至少一个所述若干阈值的变化率的预定跳变敏感的局部语音检测***,如果所述跳变之前与所述跳变之后的所述某个阈值的平均值的比率超过某个预定值,所述局部语音检测***就阻止所述状态机切换到有语音状态。
6.权利要求1的***还包括定义以下阈值的多阈值***:
第一阈值为噪声基数上的预定偏移;
第二阈值为所述第一阈值的预定百分比,所述第二阈值小于所述第一阈值;以及
第三阈值为所述第一阈值的预定倍数,所述第三阈值大于所述第一阈值;以及
其中所述第一阈值控制从所述无语音状态切换到所述有语音状态;以及
其中所述第二和第三阈值控制从所述有语音状态切换到所述无语音状态。
7.权利要求6的***,其中如果至少一个所述频带的限带信号能量低于所述第二阈值并且如果至少一个所述频带的限带信号能量低于所述第三阈值,所述状态机就从所述有语音状态切换到所述无语音状态。
8.权利要求1的***还包括延迟判定缓冲器,该缓冲器存储代表所述输入信号的预定时间增量的数据,并且如果至少一个所述若干频带的限带信号能量不超过至少一个整个所述预定时间增量期间的阈值,该缓冲器就阻止状态机从所述无语音状态切换到所述有语音状态。
9.确定输入信号内有无语音信号的方法,该方法包括以下步骤:
将所述输入信号***为若干频带,各频带表示与不同频率范围相对应的限带信号能量;
把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及
确定:
(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,存在有语音状态,以及
(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,为无语音状态。
10.权利要求9的方法还包括利用直方图累加表示至少一个所述频带内的能量的历史数据,以定义至少一个所述若干阈值。
11.权利要求9的方法还包括分别对各所述频带自适应更新至少一个所述若干阈值。
12.权利要求9的方法还包括根据各所述频带内的能量均值和方差,修改所述若干阈值。
13.权利要求9的方法还包括检测至少一个所述若干阈值的变化率的预定跳变,并且如果所述跳变之前的与所述跳变之后的所述某个阈值的平均值的比率超过某个预定值,就确定不存在所述有语音状态。
14.权利要求9的方法还包括定义以下阈值:
第一阈值为噪声基数上的预定偏移;
第二阈值为所述第一阈值的预定百分比,所述第二阈值小于所述第一阈值;以及
第三阈值为所述第一阈值的预定倍数,所述第三阈值大于所述第一阈值;以及
根据所述第一阈值确定存在所述有语音状态;以及
根据所述第二和第三阈值确定存在所述无语音状态。
15.权利要求14的方法,其中如果至少一个所述频带的限带信号能量高于所述第二阈值并且如果至少一个所述频带的限带信号能量高于所述第三阈值,就确定存在所述无语音状态。
16.权利要求9的方法还包括如果至少一个所述若干频带的限带信号能量在整个预定时间增量期间不超过至少一个阈值,就确定不存在所述有语音状态。
CN99104095A 1998-03-24 1999-03-23 用于噪声环境的语音检测*** Expired - Fee Related CN1113306C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US047,276 1998-03-24
US047276 1998-03-24
US09/047,276 US6480823B1 (en) 1998-03-24 1998-03-24 Speech detection for noisy conditions

Publications (2)

Publication Number Publication Date
CN1242553A true CN1242553A (zh) 2000-01-26
CN1113306C CN1113306C (zh) 2003-07-02

Family

ID=21948048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99104095A Expired - Fee Related CN1113306C (zh) 1998-03-24 1999-03-23 用于噪声环境的语音检测***

Country Status (9)

Country Link
US (1) US6480823B1 (zh)
EP (1) EP0945854B1 (zh)
JP (1) JPH11327582A (zh)
KR (1) KR100330478B1 (zh)
CN (1) CN1113306C (zh)
AT (1) ATE267443T1 (zh)
DE (1) DE69917361T2 (zh)
ES (1) ES2221312T3 (zh)
TW (1) TW436759B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
US7739107B2 (en) 2005-10-28 2010-06-15 Samsung Electronics Co., Ltd. Voice signal detection system and method
CN1805007B (zh) * 2004-11-20 2010-11-03 Lg电子株式会社 用于在语音信号处理中检测语音片段的方法和装置
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
CN102201231A (zh) * 2010-03-23 2011-09-28 创杰科技股份有限公司 语音侦测方法
CN102272826A (zh) * 2008-10-30 2011-12-07 爱立信电话股份有限公司 电话内容信号鉴别
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103413554A (zh) * 2013-08-27 2013-11-27 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
CN103839544A (zh) * 2012-11-27 2014-06-04 展讯通信(上海)有限公司 语音激活检测方法和装置
CN104753656A (zh) * 2005-09-19 2015-07-01 核心无线许可有限公司 检测存在/不存在信息信号
CN106024018A (zh) * 2015-03-27 2016-10-12 大陆汽车***公司 实时风冲击噪声检测
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别***和方法
WO2019061055A1 (zh) * 2017-09-27 2019-04-04 深圳传音通讯有限公司 电子设备的测试方法及***
CN110555965A (zh) * 2018-05-30 2019-12-10 立积电子股份有限公司 检测环境中物体存在的方法、装置及处理器可读介质

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
US6721411B2 (en) * 2001-04-30 2004-04-13 Voyant Technologies, Inc. Audio conference platform with dynamic speech detection threshold
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7277585B2 (en) * 2001-05-25 2007-10-02 Ricoh Company, Ltd. Image encoding method, image encoding apparatus and storage medium
JP2003087547A (ja) * 2001-09-12 2003-03-20 Ricoh Co Ltd 画像処理装置
US6901363B2 (en) * 2001-10-18 2005-05-31 Siemens Corporate Research, Inc. Method of denoising signal mixtures
US7299173B2 (en) 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
JP2007501420A (ja) * 2003-08-01 2007-01-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ダイアログシステムの駆動方法
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7278092B2 (en) * 2004-04-28 2007-10-02 Amplify, Llc System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources
JP4483468B2 (ja) * 2004-08-02 2010-06-16 ソニー株式会社 ノイズ低減回路、電子機器、ノイズ低減方法
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7692683B2 (en) * 2004-10-15 2010-04-06 Lifesize Communications, Inc. Video conferencing system transcoder
US7545435B2 (en) * 2004-10-15 2009-06-09 Lifesize Communications, Inc. Automatic backlight compensation and exposure control
US8149739B2 (en) * 2004-10-15 2012-04-03 Lifesize Communications, Inc. Background call validation
US20060106929A1 (en) * 2004-10-15 2006-05-18 Kenoyer Michael L Network conference communications
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20060248210A1 (en) * 2005-05-02 2006-11-02 Lifesize Communications, Inc. Controlling video display mode in a video conferencing system
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7664635B2 (en) * 2005-09-08 2010-02-16 Gables Engineering, Inc. Adaptive voice detection method and system
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8319814B2 (en) 2007-06-22 2012-11-27 Lifesize Communications, Inc. Video conferencing system which allows endpoints to perform continuous presence layout selection
US8139100B2 (en) 2007-07-13 2012-03-20 Lifesize Communications, Inc. Virtual multiway scaler compensation
US9661267B2 (en) * 2007-09-20 2017-05-23 Lifesize, Inc. Videoconferencing system discovery
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8542983B2 (en) * 2008-06-09 2013-09-24 Koninklijke Philips N.V. Method and apparatus for generating a summary of an audio/visual data stream
US8514265B2 (en) 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
US20100110160A1 (en) * 2008-10-30 2010-05-06 Brandt Matthew K Videoconferencing Community with Live Images
WO2010101527A1 (en) * 2009-03-03 2010-09-10 Agency For Science, Technology And Research Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal
US8643695B2 (en) * 2009-03-04 2014-02-04 Lifesize Communications, Inc. Videoconferencing endpoint extension
US8456510B2 (en) * 2009-03-04 2013-06-04 Lifesize Communications, Inc. Virtual distributed multipoint control unit
WO2010106734A1 (ja) * 2009-03-18 2010-09-23 日本電気株式会社 音声信号処理装置
US8305421B2 (en) * 2009-06-29 2012-11-06 Lifesize Communications, Inc. Automatic determination of a configuration for a conference
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
US8350891B2 (en) * 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
DK3493205T3 (da) 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
CN103455021B (zh) * 2012-05-31 2016-08-24 科域半导体有限公司 改变检测***和方法
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
JP6045511B2 (ja) * 2014-01-08 2016-12-14 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
EP3545691B1 (en) * 2017-01-04 2021-11-17 Harman Becker Automotive Systems GmbH Far field sound capturing
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
US10948581B2 (en) 2018-05-30 2021-03-16 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
CN108962249B (zh) * 2018-08-21 2023-03-31 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质
CN112687273B (zh) * 2020-12-26 2024-04-16 科大讯飞股份有限公司 一种语音转写方法及装置
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4032711A (en) 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
USRE32172E (en) 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
FR2502370A1 (fr) 1981-03-18 1982-09-24 Trt Telecom Radio Electr Dispositif de reduction du bruit dans un signal de parole mele de bruit
US4410763A (en) 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
FR2535854A1 (fr) 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4627091A (en) 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
EP0186671A4 (en) * 1984-06-08 1988-11-16 Plessey Australia CUSTOMIZABLE VOICE DETECTION SYSTEM.
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4815136A (en) 1986-11-06 1989-03-21 American Telephone And Telegraph Company Voiceband signal classification
JPH01169499A (ja) 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5222147A (en) 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5305422A (en) 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805007B (zh) * 2004-11-20 2010-11-03 Lg电子株式会社 用于在语音信号处理中检测语音片段的方法和装置
CN104753656A (zh) * 2005-09-19 2015-07-01 核心无线许可有限公司 检测存在/不存在信息信号
US7739107B2 (en) 2005-10-28 2010-06-15 Samsung Electronics Co., Ltd. Voice signal detection system and method
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102272826A (zh) * 2008-10-30 2011-12-07 爱立信电话股份有限公司 电话内容信号鉴别
CN102272826B (zh) * 2008-10-30 2015-10-07 爱立信电话股份有限公司 电话内容信号鉴别
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102201231A (zh) * 2010-03-23 2011-09-28 创杰科技股份有限公司 语音侦测方法
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
CN103839544A (zh) * 2012-11-27 2014-06-04 展讯通信(上海)有限公司 语音激活检测方法和装置
CN103413554B (zh) * 2013-08-27 2016-02-03 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
CN103413554A (zh) * 2013-08-27 2013-11-27 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
CN106024018A (zh) * 2015-03-27 2016-10-12 大陆汽车***公司 实时风冲击噪声检测
CN106024018B (zh) * 2015-03-27 2022-06-03 大陆汽车***公司 实时风冲击噪声检测
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别***和方法
WO2019061055A1 (zh) * 2017-09-27 2019-04-04 深圳传音通讯有限公司 电子设备的测试方法及***
CN110555965A (zh) * 2018-05-30 2019-12-10 立积电子股份有限公司 检测环境中物体存在的方法、装置及处理器可读介质
CN110555965B (zh) * 2018-05-30 2022-01-11 立积电子股份有限公司 检测环境中物体存在的方法、装置及处理器可读介质

Also Published As

Publication number Publication date
US6480823B1 (en) 2002-11-12
ATE267443T1 (de) 2004-06-15
EP0945854B1 (en) 2004-05-19
CN1113306C (zh) 2003-07-02
DE69917361T2 (de) 2005-06-02
ES2221312T3 (es) 2004-12-16
TW436759B (en) 2001-05-28
JPH11327582A (ja) 1999-11-26
KR100330478B1 (ko) 2002-04-01
EP0945854A3 (en) 1999-12-29
EP0945854A2 (en) 1999-09-29
DE69917361D1 (de) 2004-06-24
KR19990077910A (ko) 1999-10-25

Similar Documents

Publication Publication Date Title
CN1113306C (zh) 用于噪声环境的语音检测***
US8554564B2 (en) Speech end-pointer
JP4512574B2 (ja) 音声活動に基づくゲイン制限による音声強化についての方法、記録媒体、及び装置
CN1257486C (zh) 用于将可感知相关信息保留在音频信号中的方法和设备
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
EP1775719A2 (en) Minimization of transient noises in a voice signal
EP1887559B1 (en) Yule walker based low-complexity voice activity detector in noise suppression systems
CN1912993A (zh) 基于能量及谐波的语音端点检测方法
CN102667927A (zh) 语音活动检测的方法和背景估计器
CN1689073A (zh) 基于语音来控制设备
EP2491549A1 (en) Detector and method for voice activity detection
KR20100072842A (ko) 음질 향상 장치와 음성 인식 시스템 및 방법
CN1210685C (zh) 语音编码中噪音鲁棒分类方法
EP1008140A1 (en) Waveform-based periodicity detector
CN1046366C (zh) 静态和非静态信号的鉴别
EP2257034B1 (en) Measuring double talk performance
EP1153387B1 (en) Pause detection for speech recognition
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
CN1717718A (zh) 正弦波音频编码
Nongpiur Impulse noise removal in speech using wavelets
US8392197B2 (en) Speaker speed conversion system, method for same, and speed conversion device
CN1754204A (zh) 低频带噪声检测
Kabal et al. Adaptive postfiltering for enhancement of noisy speech in the frequency domain
CN1064159C (zh) 语音检测装置
CN1514431A (zh) 非线性谱减缺失分量估计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee