JP3297346B2 - 音声検出装置 - Google Patents

音声検出装置

Info

Publication number
JP3297346B2
JP3297346B2 JP11225097A JP11225097A JP3297346B2 JP 3297346 B2 JP3297346 B2 JP 3297346B2 JP 11225097 A JP11225097 A JP 11225097A JP 11225097 A JP11225097 A JP 11225097A JP 3297346 B2 JP3297346 B2 JP 3297346B2
Authority
JP
Japan
Prior art keywords
term average
long
sound
background noise
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11225097A
Other languages
English (en)
Other versions
JPH10301600A (ja
Inventor
真資 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP11225097A priority Critical patent/JP3297346B2/ja
Priority to US09/069,858 priority patent/US6088670A/en
Publication of JPH10301600A publication Critical patent/JPH10301600A/ja
Application granted granted Critical
Publication of JP3297346B2 publication Critical patent/JP3297346B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号における
音声成分の存在(有音)、不存在(無音)を検出する音
声検出装置に関し、例えば、音声成分の存在、不存在に
よって処理を切り替えることを要する電話機、ナビゲー
ション機器、音声認識装置、無線機、録音機などに適用
し得るものである。
【0002】
【従来の技術】従来、この種の音声検出装置(第1の従
来例と呼ぶ)として、以下のような音声検出方法を採用
しているものがある。
【0003】この第1の従来例の音声検出方法は、音声
信号のレベル(パワーの場合もある)の長期平均と短期
平均とを計算し、滑らかな変動特性を示す長期平均の計
算結果に固定のオフセット(例えば6dBに相当するオ
フセット)を持たせ、急峻な変化を示す短期平均が、長
期平均にオフセットを加えた閾値を超過したときに音声
成分(有音)とみなす方法であった。
【0004】また、従来、特開平8−202394号公
報に記載されている音声検出装置(第2の従来例と呼
ぶ)がある。図2は、この第2の従来例の音声検出装置
の構成を示すものであり、以下、この図2を参照しなが
ら、第2の従来例を説明する。
【0005】この第2の従来例は、予め定められた固定
長のフレーム単位に音声信号のパワー等を検出し、音声
成分の有無(有音/無音)を検出するものである。
【0006】離散化された入力音声信号から、音声パワ
ー算出器20により、1サンプル毎にある固定長の長さ
の音声パワーが計算される。1サンプル毎に算出された
音声パワーは最大値検出器21に入力され、最大値検出
器21により、処理対象フレーム区間に対して、その前
後に所定区間だけ加えた範囲内で音声パワーの最大値が
検出されて判定回路22に与えられる。また、入力音声
信号から、零交差率測定器23により、処理対象フレー
ム区間についての零交差率が算出されて判定回路22に
与えられる。
【0007】以上のように、最大値検出器21及び零交
差率測定器23の検出結果は、フレームに1回ずつ判定
回路22に入力され、この判定回路22により、その時
点で閾値算出器25に設定されている閾値が利用されて
有音/無音判定がなされ、その判定結果(例えば、有音
で1、無音で0)がハングオーバ発生器24に与えられ
る。ハングオーバ発生器24においては、有音から無音
に変化したときには、その変化フレームから所定フレー
ム数の区間だけ、無音を指示する判定結果を有音を指示
する判定結果に変更して出力する。
【0008】なお、閾値算出器25は、判定回路22の
判定結果によって定まる期間内の音声パワーの変動を監
視して、閾値を更新するものである。
【0009】この第2の従来例において、処理対象フレ
ームの期間より最大値の探索区間を広くとっているの
は、以下の理由による。音声(実際の有音区間)は、そ
の発声直後(以下、話頭と呼ぶ)や発声終了直前(以
下、話尾と呼ぶ)においてはパワーが小さいものであ
り、処理対象フレームの後半に話頭がある場合や、処理
対象フレームの前半に話尾があるような場合には、その
処理対象フレームだけを探索区間としたときの最大値は
小さく、無音と誤判定される恐れが大きい。そこで、処
理対象フレームの期間より最大値の探索区間を広くとっ
て、上述したような話頭や話尾に係る処理対象フレーム
でも、その処理対象フレームを代表させる最大値を大き
くするようにしている。
【0010】
【発明が解決しようとする課題】しかしながら、第1の
従来例の音声検出装置では、短期平均の変化が急峻であ
るため、長期平均だけから作成した閾値によっては、有
音期間において、短期平均が閾値に対して超過すること
と達しないこととが頻繁に繰り返されるようなことも生
じ、仮に、有音判定結果から無音判定結果への変化に緩
衝期間を設けたとしても、誤判定が生じる恐れが高いも
のであった。同様に、無音期間であっても、背景ノイズ
などの変動による短期平均の急峻な変化のために、短期
平均が閾値に対して超過することと達しないこととが頻
繁に繰り返されるようなことも生じ、誤判定が生じる恐
れが高いものであった。
【0011】また、第2の従来例の音声検出装置でも、
以下のような課題(1)や(2)などを有するものであ
った。
【0012】(1)処理対象フレーム単位で最大パワー
の値を決定してその最大値に基づいて有音/無音を判定
するので、背景ノイズの急増(例えばスパイク状ノイ
ズ)がフレーム内でおこったときに、ノイズ急変を音声
成分(有音)と誤判定することを避けることができない
ものであった。
【0013】(2)上記では詳述しなかったが、有音/
無音判定用の閾値更新では、以下のような処理を行って
いる。1フレーム毎に、一定区間の音声パワーを入力
し、フレーム毎にそのパワーの変動を監視し、パワー変
動がある一定時間、所定値以下であればその区間は背景
ノイズの区間と判定し、この区間に入力された背景ノイ
ズのパワーを推定して閾値を決定する。
【0014】そのため、背景ノイズが急減したときに、
変化分を音声の変化と誤判定して背景ノイズのフレーム
ではないと判定し、一定フレーム数の期間、背景ノイズ
の推定レベルを実際の値よりも大きく誤判定してしま
う。その結果、本来ならば有音と判定すべきレベルの信
号を、背景ノイズレベル内であると誤判定する。特に、
有音でありながら音声成分のレベルが低い話頭や話尾の
期間では、この誤判定が起こりやすい。すなわち、背景
ノイズ変化の起きた後の一定フレーム数の期間は音声の
話尾、話頭切れが起こることを避けることができないこ
とが多い。
【0015】そのため、有音/無音をより正確に判定す
ることができる音声検出装置が求められている。
【0016】
【課題を解決するための手段】かかる課題を解決するた
め、第1の発明は、入力された音声信号が有音であるか
無音であるかを検出する音声検出装置において、(1)
入力音声信号のレベルの長期平均を計算する長期平均計
算手段と、(2)入力音声信号のレベルの短期平均を計
算する短期平均計算手段と、(3)これら長期平均計算
手段及び短期平均計算手段で計算された長期平均及び短
期平均に基づいて、背景ノイズレベルを推定して得た有
音/無音の判定用レベルを出力する判定用レベル形成手
段と、(4)長期平均計算手段で計算された長期平均
と、この判定用レベル形成手段から出力された判定用レ
ベルとを大小比較して、有音期間及び無音期間を決定す
る音声判定手段とを備え、上記判定用レベル形成手段
が、(5)長期平均に、当該長期平均及び短期平均によ
って定まる可変オフセットを与えるオフセット付加手段
と、(6)可変オフセットが与えられた長期平均、上記
長期平均計算手段から出力された長期平均、及び、直前
の推定背景ノイズレベルに基づいて、推定背景ノイズレ
ベルを更新するか否かを判定する背景ノイズレベル推定
判定手段と、(7)推定背景ノイズレベルを更新すると
いう判定結果のときに、直前の推定背景ノイズレベル
と、可変オフセットが与えられた長期平均とを重み付け
合成して推定背景ノイズレベルを更新させると共に、推
定背景ノイズレベルを更新しないという判定結果のとき
に、直前の推定背景ノイズレベルを維持して、有音/無
音の判定用レベルを形成する背景ノイズレベル推定手段
を有することを特徴とする。また、第2の発明は、入
力された音声信号が有音であるか無音であるかを検出す
る音声検出装置において、(1)入力音声信号のレベル
の長期平均を計算する長期平均計算手段と、(2)入力
音声信号のレベルの短期平均を計算する短期平均計算手
段と、(3)これら長期平均計算手段及び短期平均計算
手段で計算された長期平均及び短期平均に基づいて、背
景ノイズレベルを推定して得た有音/無音の判定用レベ
ルを出力する判定用レベル形成手段と、(4)上記長期
平均計算手段で計算された長期平均と、この判定用レベ
ル形成手段から出力された判定用レベルとを大小比較し
て、有音期間及び無音期間を決定する音声判定手段とを
備え、(5)上記音声判定手段が、所定単位期間毎に有
音/無音を決定するもので あり、所定単位期間中の1サ
ンプル期間でも、上記長期平均計算手段で計算された長
期平均が判定用レベルを越えていれば、その所定単位期
間を有音期間と決定するものであることを特徴とする。
【0017】第1の発明の音声検出装置は、以上のよう
に、長期平均と判定用レベルとの比較により有音/無音
を決定するものであるので、短期平均や最高レベル値を
判定用レベルと比較して有音/無音を決定する装置より
高精度に音声検出を実行でき、また、判定用レベルを長
期平均及び短期平均の両方から背景ノイズレベルを推定
して形成しているので、背景ノイズレベルの変動によく
追従している判定用レベルを形成できて、この点からも
有音/無音を高精度に検出できる。しかも、オフセット
付加手段や背景ノイズレベル推定判定手段によって、背
景ノイズの急変にも追随することができる。 また、第2
の発明の音声検出装置では、第1の発明と同様、短期平
均や最高レベル値を判定用レベルと比較して有音/無音
を決定する装置より高精度に音声検出を実行でき、背景
ノイズレベルの変動によく追従している判定用レベルを
形成できから、この点から有音/無音を高精度に検出で
きることに加えて、所定単位期間中の1サンプル期間で
も、上記長期平均計算手段で計算された長期平均が判定
用レベルを越えていれば、その所定単位期間を有音期間
と決定するため、他の装置で処理する場合でも、話頭、
話尾切れが防止できる。
【0018】
【発明の実施の形態】
(A)第1の実施形態 以下、本発明による音声検出装置の第1の実施形態を図
面を参照しながら詳述する。
【0019】(A−1)第1の実施形態の構成 図1は、第1の実施形態の音声検出装置の構成を示すブ
ロック図である。この第1の実施形態の音声検出装置に
は、図示しないアナログ/ディジタル変換器によってデ
ィジタル化されている音声信号が入力される。
【0020】図1において、この第1の実施形態の音声
検出装置は、音声信号入力端子1、フレーム分割器2、
2個の絶対値計算器3及び11、短期平均計算器4、長
期平均計算器5、3個の加算器6、7及び9、平滑演算
器8、背景ノイズレベル推定判定器10、背景ノイズレ
ベル推定器12、音声判定器13、並びに、判定結果出
力端子14から構成されている。
【0021】音声信号入力端子1からは、例えば、8k
Hzでサンプリングされたディジタル音声信号が入力さ
れる。
【0022】フレーム分割器2は、入力音声信号X(n)
を特定単位長(この実施形態では128サンプルとす
る;勿論これに限定されるものではない)毎にまとめ
て、1フレームを構成するように分割し、フレーム単位
に絶対値計算器3に出力するものである。
【0023】この第1の実施形態は、128サンプルを
1フレーム単位としているので、動作開始の第1サンプ
ル目から第128サンプル目までの入力音声サンプルは
第1フレームに格納されることになる。例えば、第1フ
レームのm(mは1、…、128)番目のサンプル値を
X(1,m)で表すことにする。第129サンプル目の入力
音声サンプルX(129)は第2フレームの1番目になり、
フレーム分割器2の処理を得た後は、X(2,1)と記述さ
れる。同様に、第kサンプル目の入力音声サンプルX
(k)は、(1)式で表されるように、第nフレームのm
番目の値になって、フレーム分割器2から出力される。
【0024】 X(k)=X(n,m) (但し、k、n、m(mは1、…、128)は整数であってk=128*n +mの関係がある) …(1) 絶対値計算器3は、フレーム分割器2から与えられた各
フレームの各サンプルX(n,m)についてそれぞれ、
(2)式に示すように絶対値x1(n,m)を計算し、その
絶対値x1(n,m)を短期平均計算器4及び長期平均計算
器5に出力するものである。
【0025】 x1(n,m)=|X(n,m)| …(2) 短期平均計算器4は、処理対象フレームの絶対値x1
(n,m)が入力される毎に短期平均xst(n,m)を計算する
ものである。一方、長期平均計算器5は、処理対象フレ
ームの絶対値x1(n,m)が入力される毎に長期平均xl
ng(n,m)を計算するものである。
【0026】短期平均計算器4及び長期平均計算器5と
してはそれぞれ、一般的な平均(算術平均)を求めるも
のを適用でき、また、算術平均の代わりに平滑値を求め
るものを適用できる。この実施形態では、(3)式及び
(4)式に示すように、平滑値演算によって、短期平均
xst(n,m)、長期平均xlng(n,m)を求めているもの
とする。
【0027】 xst(n,m)=α・xst(n,m-1)+(1−α)・x1(n,m) … (3) xlng(n,m)=β・xlng(n,m-1)+(1−β)・x1(n,m) …(4 ) ここで、平滑化係数α、βは0より大きく1より小さい
定数である。平滑化係数α(βについても同様)が小さ
い値のとき、入力された絶対値x1(n,m)の急峻な変動
にもよく追従し、短期平均に相当する計算結果が得られ
る。また、平滑化係数β(αについても同様)が大きい
値のとき、入力された絶対値x1(n,m)の急峻な変動に
は鈍感になり、絶対値x1(n,m)の変動成分の大まかな
変化にのみ追従するようになり、長期平均に相当する計
算結果が得られる。平滑化係数α、βとしては、種々の
値を適用し得るが、例えば、α=0.9、β=0.99
6を適用する。
【0028】また、上述した(3)式及び(4)式にお
いて、m=1のとき(処理対象フレームが更新された直
後のサンプル入力時刻)には、直前サンプル入力時刻で
の短期平均xst(n,m-1)=xst(n,0)として、前フレ
ームの最終サンプル時刻での短期平均xst(n-1,128)
を用い、同様に、直前サンプル入力時刻での長期平均x
lng(n,m-1)=xlng(n,0)として、前フレームの最
終サンプル時刻での長期平均xlng(n-1,128)を用い
る。
【0029】さらに、第1フレームに関しての初期状態
では、xst(1,0)=0、xlng(1,0)=0とする。な
お、0以外の初期値を設けて背景ノイズ等の値に最適化
をするようにしても良く、すなわち、初期値は0に限定
されるものではない。
【0030】短期平均計算器4から出力された短期平均
xst(n,m)は加算器6に出力され、長期平均計算器5
から出力された長期平均xlng(n,m)は加算器6、
7、9、背景ノイズレベル推定判定器10及び音声判定
器13に出力される。
【0031】加算器(機能的には減算器)6は、(5)
式に示すように、短期平均xst(n,m)及び長期平均x
lng(n,m)の差dif(n,m)を求めて絶対値計算器11
に出力するものである。第1フレームに関しての初期状
態では、dif(1,0)=0とする。なお、0以外の初期
値を設けて背景ノイズ等の値に最適化をするようにして
も良い。
【0032】 dif(n,m)=xst(n,m)−xlng(n,m) … (5) 絶対値計算器11は、(6)式に示すように、加算器6
の出力dif(n,m)の絶対値dif2(n,m)を計算して加
算器7に出力する。
【0033】 dif2(n,m)=|dif(n,m)| …(6) 加算器7は、(7)式に示すように、長期平均計算器5
の出力xlng(n,m)と絶対値計算器11の出力dif
2(n,m)とを加算することにより、音声検出用の閾値の
瞬時値difl3(n,m)を計算して平滑演算器8に出力
するものである。この(7)式から明らかなように、音
声検出用の閾値瞬時値difl3(n,m)は、必ず長期平
均xlng(n,m)より大きくなっている。
【0034】 difl3(n,m)=xlng(n,m)+dif2(n,m) … (7) 平滑演算器8は、(8)式に示すように、加算器7から
の出力difl3(n,m)を平滑処理して、平滑値dif
llpo(n,m)を加算器9及び背景ノイズレベル推定器
12に出力するものである。
【0035】 difllpo(n,m)= γ・difllpo(n,m-1)+(1−γ)・difl3(n,m) …(8) ここで、平滑化係数γは、加算器7からの出力difl
3(n,m)の変化に対応する追従性の速さを決定する係数
であり、この係数γが小さければ、加算器7からの出力
difl3(n,m)の急峻な変化にもよく追従し、この係
数γが大きければ、加算器7からの出力difl3(n,
m)の急峻な変化には鈍感になり、緩やかな変化成分をよ
く反映する。この係数γは、0より大きく1より小さい
範囲で選定すれば良く、例えば、0.9を適用すること
ができる。
【0036】また、フレーム内サンプル番号mが1のと
きのdifllpo(n,m-1)=difllpo(n,0)に
は、前出の他の信号と同様に、前フレームのデータdi
fllpo(n-1,128)を用いる。さらに、第1のフレー
ムに関しての初期値difllpo(1,0)としては0を
適用する。なお、背景ノイズ等の値に最適化をするよう
に、0以外の初期値を適用するようにしても良い。
【0037】加算器6、7、絶対値計算器11、及び平
滑演算器8は、長期平均に可変オフセットを与える手段
を構成している。
【0038】加算器(機能的には減算器)9は、(9)
式に示すように、平滑演算器8からの平滑値difll
po(n,m)から、長期平均計算器5からの長期平均xl
ng(n,m)を減算することにより、第1のノイズ推定判
定閾値J1を計算して背景ノイズレベル推定判定器10
に出力するものである。
【0039】 J1=difllpo(n,m)−xlng(n,m) …(9) 背景ノイズレベル推定判定器10には、背景ノイズレベ
ル推定器12が後述する(11)式又は(12)式に従
って形成した直前時刻(直前のサンプルタイミング)で
の背景ノイズレベルのオフセット付推定値difllp
o1(n,m-1)が与えられる。背景ノイズレベル推定判定
器10は、(10)式に示すように、直前時刻の背景ノ
イズレベルの推定値difllpo1(n,m-1)から、長
期平均計算器5からの長期平均xlng(n,m)を減算す
ることにより、第2のノイズ推定判定閾値J2を計算
し、その後、第1及び第2のノイズ推定判定閾値J1及
びJ2に基づいて、以下の条件1及び2のいずれを満足
するものであるかを判定して、その判定結果(有音、無
御を考慮して背景ノイズレベルが変化したととらえて良
いものか否かを表している)を背景ノイズレベル推定器
12に出力するものである。
【0040】 J2=difllpo1(n,m-1)−xlng(n,m) …( 10) 条件1:J2・c1>J1 条件2:J2・c1≦J1 ここで、係数c1としては、例えば2.5を適用する。
しかし、係数c1が2.5に限定されないことは勿論で
ある。
【0041】条件1を満足することは、背景ノイズレベ
ルがこのサンプル期間で直前レベルよりかなり変動して
いることを表している。一方、条件2を満足すること
は、背景ノイズレベルがこのサンプル期間で直前レベル
と同程度であることを表している。
【0042】背景ノイズレベル推定器12は、(11)
式又は(12)式に従って、背景ノイズレベルの推定値
difllpo1(n,m)を、背景ノイズレベル推定判定
器10からの判定結果に応じて更新し、更新した背景ノ
イズレベルの推定値difllpo1(n,m)を背景ノイ
ズレベル推定判定器10及び音声判定器13に出力する
ものである。
【0043】 difllpo1(n,m)= δ・difllpo1(n,m-1)+(1−δ)・difllpo(n,m) (条件1を満足するとき) …(11) difllpo1(n,m)=difllpo1(n,m-1) (条件2を満足するとき) …(12) ここで、δも0から1の範囲の平滑化係数であり、例え
ば、0.996を適用できる。また、背景ノイズレベル
の推定値difllpo1(n,m)の初期値は、音声振幅
のとりえる最大値に近い大きな値を設定する。例えば、
音声振幅の最大値1に対して0.7になるように背景ノ
イズレベルの推定値difllpo1(n,m)の初期値を
設定する。なお、初期値として固定値を適用しなくても
良い。また、はじめの50サンプル期間については、条
件1及び条件2の満足、不満足に関係なく強制的に(1
1)式を実行するようにして、背景ノイズレベルの推定
値difllpo1(n,m)の初期値を継続させるように
しても良い。
【0044】音声判定器13は、背景ノイズレベル推定
器12からの背景ノイズレベルの推定値difllpo
1(n,m)と、長期平均計算器5からの長期平均xlng
(n,m)との大小比較を行い、現在の処理対象フレームn
について、difllpo1(n,m)≦xlng(n,m)を満
たすサンプル期間が1個でもあるときに、この第nフレ
ーム全体に対し音声あり(有音)の判定を下し、その他
のときに、この第nフレーム全体に対し音声なし(無
音)の判定を下して、その判定結果を出力端子14を介
して次段の装置に出力するものである。
【0045】(A−2)第1の実施形態の動作 次に、以上のような各部から構成されている第1の実施
形態の音声検出装置の動作を説明する。
【0046】音声信号入力端子1から、8kHzでサン
プリングされたディジタル音声信号X(n)が入力される
と、フレーム分割器2によって、特定単位長毎にまとめ
られて、すなわち1フレームを構成するように分割さ
れ、フレーム単位に絶対値計算器3に出力される。そし
て、絶対値計算器3によって、フレーム分割器2からの
各フレームの各サンプルX(n,m)の絶対値x1(n,m)が計
算されて、短期平均計算器4及び長期平均計算器5に与
えられる。
【0047】この絶対値x1(n,m)の短期平均xst(n,
m)が、短期平均計算器4によって計算されると共に、こ
の絶対値x1(n,m)の長期平均xlng(n,m)が、長期平
均計算器5によって計算される。
【0048】図3(A)は、短期平均xst(n,m)の一
例を示し、図3(B)は、それに対応する長期平均xl
ng(n,m)の一例を示している。図3(A)に示すよう
に、短期平均xst(n,m)では背景ノイズ成分が平均化
(平滑化)後においても残っているのに対して、図3
(B)に示すように、長期平均xlng(n,m)では背景
ノイズ成分が平均化(平滑化)後においてほとんど除去
されている。
【0049】これら短期平均xst(n,m)及び長期平均
xlng(n,m)の差dif(n,m)が、加算器6によって求
められた後、絶対値計算器11によって、その絶対値d
if2(n,m)が求められて、加算器7によって、この絶
対値dif2(n,m)と長期平均xlng(n,m)とが加算さ
れ、音声検出用の閾値の瞬時値difl3(n,m)が形成
される。
【0050】形成された音声検出用の閾値の瞬時値di
fl3(n,m)は、図3(C)に示すように、長期平均x
lng(n,m)より常に大きく、しかも、短期平均xst
(n,m)(言い換えると、短期変動の背景ノイズ成分)が
反映されたものとなっている。
【0051】このような音声検出用の閾値瞬時値dif
l3(n,m)は、平滑演算器8によって、平滑処理され
て、音声検出用の閾値difllpo(n,m)に変換され
る。図3(D)は、音声検出用の閾値瞬時値difl3
(n,m)が図3(C)に示すような場合における平滑演算
器8からの出力(可変オフセットが付加された長期平
均;音声検出用の閾値の基本レベルを提供するものであ
る)difllpo(n,m)を示している。この図3
(D)から明らかなように、平滑値difllpo(n,
m)は、音声検出用の閾値瞬時値difl3(n,m)に比較
して、背景ノイズ成分による変動が小さくなされてい
る。
【0052】この平滑値difllpo(n,m)から、加
算器9によって、長期平均計算器5からの長期平均xl
ng(n,m)が減算され、第1のノイズ推定判定閾値J1
が得られて背景ノイズレベル推定判定器10に与えられ
る。この第1のノイズ推定判定閾値J1は、背景ノイズ
レベルの変動を、短期平均xst(n,m)及び長期平均x
lng(n,m)の変動を考慮して、しかも、背景ノイズレ
ベルをかなり平滑化したものとなっている(なお、第2
のノイズ推定判定閾値J2に比較するとその変動は大き
い)。
【0053】背景ノイズレベル推定判定器10において
は、背景ノイズレベル推定器12から背景ノイズレベル
のオフセット付推定値difllpo1(n,m-1)が与え
られ、この背景ノイズレベル推定判定器10によって、
この推定値difllpo1(n,m-1)から、長期平均計
算器5からの長期平均xlng(n,m)が減算されて第2
のノイズ推定判定閾値J2が求められる。その後、背景
ノイズレベル推定判定器10によって、第1のノイズ推
定判定閾値J1と、第2のノイズ推定判定閾値J2をc
1倍した値とが大小比較され、後者が前者より大きい場
合には(上述した条件1:J2・c1>J1が満足する
場合には)、背景ノイズレベルの推定値を更新させる判
定結果が形成され、一方、後者が前者以下の場合には
(上述した条件2:J2・c1≦J1が満足する場合に
は)、音声成分が存在する可能性があるので、背景ノイ
ズレベルの推定値の更新を禁止する判定結果が形成され
る。
【0054】背景ノイズレベル推定器12においては、
背景ノイズレベル推定判定器10から条件1を満足して
いるという判定結果が与えられたときには、現時刻(現
サンプルタイミング)の推定値difllpo1(n,m)
を、直前時刻の推定値difllpo1(n,m-1)と、平
滑演算器8からの出力difllpo(n,m)との重み付
け加算(平滑化)によって更新し、一方、背景ノイズレ
ベル推定判定器10から条件2を満足しているという判
定結果が与えられたときには、現時刻(現サンプルタイ
ミング)の推定値difllpo1(n,m)として、直前
時刻の推定値difllpo1(n,m-1)を適用する。
【0055】このように更新された背景ノイズレベルの
オフセット付推定値difllpo1(n,m)は、音声判
定器13に出力されると共に、背景ノイズレベル推定判
定器10に対しては、上述したように、直前時刻用の推
定値difllpo1(n,m-1)として出力される。
【0056】図3(E)は、背景ノイズレベルのオフセ
ット付推定値difllpo1(n,m)の一例を示すもの
である。背景ノイズレベルのオフセット付推定値dif
llpo1(n,m)は、短期平均xst(n,m)及び長期平均
xlng(n,m)の変動に応じた変動を有すると共に、そ
の変動成分は、図3(E)に示すように緩やかであり、
また、音声成分(有音成分)が除去されており、背景ノ
イズレベルのみを良く反映したものとなっている。
【0057】そして、音声判定器13において、長期平
均計算器5からの長期平均xlng(n,m)と、背景ノイ
ズレベル推定器12からの背景ノイズレベルのオフセッ
ト付推定値difllpo1(n,m)とが大小比較され、
現在の処理対象フレームnについて、前者が後者以上で
あるサンプル期間が1個でもあるときに、この第nフレ
ームが音声あり(有音)フレームであることを表し、そ
の他のときに、この第nフレームが音声なし(無音)フ
レームであることを表す音声検出結果が形成されて、出
力端子14を介して次段の装置に出力される。
【0058】図4は、長期平均計算器5からの長期平均
xlng(n,m)と、背景ノイズレベル推定器12からの
背景ノイズレベルのオフセット付推定値difllpo
1(n,m)との一例を示すものであり、図3より、単位長
さあたりの時間を長くとっているものである。背景ノイ
ズレベルのオフセット付推定値difllpo1(n,m)
は、音声成分(有音成分)が除去された背景ノイズレベ
ルのみを良く反映したものとなっているので、少なくと
もこれを越える長期平均xlng(n,m)の期間は有音期
間である。
【0059】(A−3)第1の実施形態の効果 上述した第1の実施形態の音声検出装置によれば、以下
の効果を奏することができる。
【0060】(1)入力音声信号のレベルの長期平均
を、長期平均及び短期平均から推定された可変オフセッ
トを有する背景ノイズレベル(閾値)と比較することに
より、有音/無音を判定するようにしたので、短期平均
を閾値と比較して有音/無音を検出する第1の従来例の
ような短期平均の急峻な変動性のために閾値に対する超
過と未達が頻繁に繰り返されて誤検出するということが
なくなる。
【0061】(2)また、音声パワーの最大値を、背景
ノイズレベルを考慮して作成した閾値と比較して有音/
無音を判定する第2の従来例に比較しても、安定かつ高
精度に有音/無音を判定することができる。
【0062】(3)フレーム内のサンプル毎に、可変オ
フセットを有する背景ノイズレベル(閾値)の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル(閾値)
を更新してそのノイズの急増に追従していくようにして
いるので、背景ノイズの急変を有音と誤判定することを
防止することができる。
【0063】(4)フレーム内のサンプル毎に、可変オ
フセットを有する背景ノイズレベル(閾値)の見直しを
行い、背景ノイズの急増がフレーム内でおこったときに
は、可変オフセットを有する背景ノイズレベル(閾値)
を更新してそのノイズの急増に追従していくようにし、
かつ、フレーム単位で有音/無音を判定するようにして
いるので、第2の従来例のような複数のフレームの期
間、背景ノイズの推定レベルを実際の値よりも大きく誤
判定してしまうようなことがなくなり、言い換えると、
有音と判定すべきレベルの信号を、背景ノイズレベル内
であると誤判定することが複数フレームで連続すること
がなくなり、背景ノイズの変化に伴う判定結果における
話尾、話頭切れをなくすことができる。
【0064】(5)フレーム内のどのサンプルで有音と
判定されても、当該処理対象フレーム全体を有音(音声
あり)と判定するようにしたので、他の装置でフレーム
処理する際に、話頭、話尾切れを防止することができ
る。
【0065】(B)第2の実施形態 次に、本発明による音声検出装置の第2の実施形態を図
面を参照しながら詳述する。
【0066】この第2の実施形態の音声検出装置は、第
1の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。すなわち、最も短い実際上の有音期
間でも、2以上のフレームにまたがる程度にフレーム長
を短く選定した場合(例えば、10ms;80サンプ
ル)を考慮したものである。
【0067】図5は、第2の実施形態の音声検出装置の
構成を示すブロック図であり、上述した第1の実施形態
に係る図1との同一、対応部分には同一符号を付して示
している。
【0068】図5において、この第2の実施形態の音声
検出装置は、第1の実施形態と同様な音声信号入力端子
1、フレーム分割器2、2個の絶対値計算器3及び1
1、短期平均計算器4、長期平均計算器5、3個の加算
器6、7及び9、平滑演算器8、背景ノイズレベル推定
判定器10、背景ノイズレベル推定器12、音声判定器
13、並びに、判定結果出力端子14に加えて、さら
に、前後フレーム音声制御器15を有するものである。
【0069】前後フレーム音声制御器15以外の構成要
素は、第1の実施形態のものと同様な機能を担っている
ので、その説明は省略する。
【0070】前後フレーム音声制御器15は、音声判定
器13の判定結果が有音であるフレームの前後それぞれ
のs個のフレームを、強制的に「有音フレーム」に変化
させて出力端子14に出力するものである。ここで、強
制的に有音フレームに変化させるフレーム個数sは任意
で良い。例えば、フレーム長が10ms程度であればs
は1程度で良い。要は、フレーム長に応じて、sを定め
れば良い。
【0071】この第2の実施形態の音声検出装置によっ
ても、第1の実施形態と同様な効果を奏することができ
る。
【0072】これに加えて、第2の実施形態によれば、
音声判定器13の後段に前後フレーム音声制御器15を
設けて、有音フレームの前後のsフレームを強制的に有
音フレームに変化させるようにしたので、フレーム長を
短く選定した場合であっても、有音フレームを無音フレ
ームと誤って判定することを防止することができる。
【0073】フレーム長が短ければ、1フレーム当りの
サンプル数がフレーム長が長い場合に比較して少なくな
るので、第1の実施形態においてフレーム長を短くした
場合には、話頭や話尾に係るフレームにおいて、非常に
小さくなっていても無音と誤判定される恐れは残ってい
る。そこで、第2の実施形態のように、フレーム長が短
い場合には、音声判定器13の後段に前後フレーム音声
制御器15を設けて、有音フレームの前後のsフレーム
を強制的に有音フレームに変化させるようにすることが
好ましい。
【0074】なお、実際上の有音最短期間に比べて、フ
レーム長が十分長い場合であっても、前後フレーム音声
制御器15を設けるようにして、有音フレームを無音フ
レームと誤判定される恐れを一段と小さくするようにし
ても良い。
【0075】(C)第3の実施形態 次に、本発明による音声検出装置の第3の実施形態を図
面を参照しながら詳述する。
【0076】この第3の実施形態の音声検出装置は、第
1の実施形態よりフレーム長を短く定めた場合を考慮し
ているものである。
【0077】ここで、図6が、この第3の実施形態の音
声検出装置の構成を示すブロック図であり、上述した第
2の実施形態に係る図5との同一、対応部分には、同一
符号を付して示している。図6及び図5の比較から明ら
かなように、この第3の実施形態の音声検出装置は、第
2の実施形態の構成に加えて、音声フレーム判定器1
(中間音声フレーム制御器)6を有するものである。
【0078】音声フレーム判定器16以外の構成要素
は、第2の実施形態のものと同様な機能を担っているの
で、その説明は省略する。
【0079】音声フレーム判定器16は、音声判定器1
3及び前後フレーム音声制御器15の間に設けられてい
る。音声フレーム判定器16は、音声判定器13から出
力された連続するt(tは3、4程度)個のフレームの
判定結果を監視し、両端の2フレームが有音フレームで
あって、中間のt−2個のフレームに無音フレームがあ
れば、その無音フレームを強制的に有音フレームに変化
させて(実際上は判定結果を変化させて)前後フレーム
音声制御器15に出力するものである。
【0080】これは、中間の無音フレームは、本来は音
声と音声の間の過渡期間であって子音である可能性が大
きく、正しくは、有音と判定されるべきものであるとい
う考え方によっている。
【0081】例えば、音声フレーム判定器16は、第n
−1フレームが「有音」、第nフレームが「無音」、第
n+1フレームが「有音」であれば、第nフレームを
「無音」から「有音」に変化させる。なお、次回の第n
フレーム〜第n+2フレームの判定においては、第nフ
レームの判定結果は当初の「無音」のままで、第n+1
フレームが「無音」から「有音」に変化させる必要があ
るかの判定を行う。
【0082】第3の実施形態の音声検出装置によって
も、上述した第2の実施形態と同様な効果を奏すること
ができ、さらに、この第3の実施形態によれば、以下の
効果を奏することができる。
【0083】すなわち、音声判定器13と前後フレーム
音声制御器15との間に音声フレーム判定器16を設
け、音声フレーム判定器16によって連続したt個のフ
レームのうち、両端の有音フレームに挟まれた中間の無
音フレームを有音フレームに強制的に変換させるように
したので、例えば、音声と音声の過渡期間における子音
に係るフレームが無音フレームと音声判定器13では誤
判定されても、当該音声検出装置から出力される判定結
果では正しく有音フレームとすることができる。
【0084】また、音声フレーム判定器16が監視して
いる連続するt個のフレームが切り替わった場合には
(例えば、n−1、n、n+1の3フレームが、n、n
+1、n+2のフレームに切り替わった場合には)、変
換後の判定結果ではなく、音声判定器13からの判定結
果に基づいて、音声と音声の過渡期間かを確認するよう
にしているので、判定換えの結果が後続する処理の判定
における誤動作の原因になることを確実に防止すること
ができる。
【0085】なお、監視している連続するt個のフレー
ムが切り替わった場合に、変換後の判定結果を用いたと
しても(他の実施形態を構成する)、誤動作の原因には
ほとんどならないと考えられるが、誤動作の原因を完全
に除去するという観点からは、上記第3の実施形態のよ
うに、変換後の判定結果を用いないことが好ましい。
【0086】(D)他の実施形態 上述した各実施形態の説明においても、種々変形実施形
態を説明したが、さらに以下のような変形実施形態を挙
げることができる。
【0087】上記各実施形態におけるフレーム分割器
は、各フレームでサンプルが重複しないようにフレーム
分割するものであったが、一部のサンプルが相前後する
フレームで重複するようにフレーム分割するフレーム分
割器を適用しても良い。
【0088】また、フレーム分割器を省略し、音声判定
器による判定段階でフレーム概念を導入するようにして
も良い。
【0089】さらに、入力音声信号のレベルを表した値
を形成するための絶対値計算器3は、入力音声信号が正
の範囲(例えば0〜256)だけをとるように表現され
ているデータであれば省略することもできる。また、絶
対値計算器3に代えて、2乗計算器を適用するようにし
ても良い。同様に、絶対値計算器11についても、絶対
値計算器11に代えて、2乗計算器を適用するようにし
ても良い。
【0090】さらにまた、上記各実施形態においては、
背景ノイズレベルが変動してないときには、直前の推定
背景ノイズレベルを維持するものを示したが、この場合
も、平滑演算器8の出力difllpo(n,m)と直前の
推定背景ノイズレベルdifllpo1(n,m)との平滑
演算を行うようにしても良い((10)式参照)。但
し、平滑化係数を、背景ノイズレベルが変動していると
きと異なるようにすることを要する。
【0091】また、推定背景ノイズレベルの見直し周期
を1サンプル期間毎ではなく、2サンプル期間毎や3サ
ンプル期間毎にして処理量を軽減するようにしても良
い。
【0092】さらに、第3の実施形態において、音声フ
レーム判定器16と前後フレーム音声制御器15の設置
位置を逆にするようにしても良い。
【0093】
【発明の効果】以上のように、第1の発明の音声検出装
置によれば、短期平均や最高レベル値を判定用レベルと
比較して有音/無音を決定する従来装置より高精度に音
声検出を実行でき、また、判定用レベルを長期平均及び
短期平均の両方から背景ノイズレベルを推定して形成し
ているので、背景ノイズレベルの変動によく追従してい
る判定用レベルを形成できて、この点からも有音/無音
を高精度に検出できる。しかも、オフセット付加手段や
背景ノイズレベル推定判定手段によって、背景ノイズの
急変にも追随することができる。 また、第2の発明の音
声検出装置では、第1の発明と同様、短期平均や最高レ
ベル値を判定用レベルと比較して有音/無音を決定する
装置より高精度に音声検出を実行でき、背景ノイズレベ
ルの変動によく追従している判定用レベルを形成できか
ら、この点から有音/無音を高精度に検出できることに
加えて、所定単位期間中の1サンプル期間でも、上記長
期平均計算手段で計算された長期平均が判定用レベルを
越えていれば、その所定単位期間を有音期間と決定する
ため、他の装置で処理する場合でも、話頭、話尾切れが
防止できる。
【図面の簡単な説明】
【図1】第1の実施形態の構成を示すブロック図であ
る。
【図2】従来の構成を締め巣ブロック図である。
【図3】第1の実施形態の各部信号波形図である。
【図4】第1の音声判定器の処理の説明図である。
【図5】第2の実施形態の構成を示すブロック図であ
る。
【図6】第3の実施形態の構成を示すブロック図であ
る。
【符号の説明】
2…フレーム分割器、3、11…絶対値計算器、4…短
期平均計算器、5…長期平均計算器、6、7、9…加算
器、10…背景ノイズレベル推定判定器、12…背景ノ
イズレベル推定器、13…音声判定器、15…前後フレ
ーム音声制御器、16…音声フレーム判定器。

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声信号が有音であるか無音
    であるかを検出する音声検出装置において、 入力音声信号のレベルの長期平均を計算する長期平均計
    算手段と、 入力音声信号のレベルの短期平均を計算する短期平均計
    算手段と、 これら長期平均計算手段及び短期平均計算手段で計算さ
    れた長期平均及び短期平均に基づいて、背景ノイズレベ
    ルを推定して得た有音/無音の判定用レベルを出力する
    判定用レベル形成手段と、 上記長期平均計算手段で計算された長期平均と、この判
    定用レベル形成手段から出力された判定用レベルとを大
    小比較して、有音期間及び無音期間を決定する音声判定
    手段とを備え、 上記判定用レベル形成手段が、 長期平均に、当該長期平均及び短期平均によって定まる
    可変オフセットを与えるオフセット付加手段と、 可変オフセットが与えられた長期平均、上記長期平均計
    算手段から出力された長期平均、及び、直前の推定背景
    ノイズレベルに基づいて、推定背景ノイズレベルを更新
    するか否かを判定する背景ノイズレベル推定判定手段
    と、 推定背景ノイズレベルを更新するという判定結果のとき
    に、直前の推定背景ノイズレベルと、可変オフセットが
    与えられた長期平均とを重み付け合成して推定背景ノイ
    ズレベルを更新させると共に、推定背景ノイズレベルを
    更新しないという判定結果のときに、直前の推定背景ノ
    イズレベルを維持して、有音/無音の判定用レベルを形
    成する背景ノイズレベル推定手段とを有することを特徴
    とする音声検出装置。
  2. 【請求項2】 上記オフセット付加手段が、上記長期平
    均計算手段及び上記短期平均計算手段から出力された長
    期平均及び短期平均間の差分絶対値を得、この差分絶対
    値に上記長期平均計算手段から出力された長期平均を加
    算し、この加算値を平滑して、可変オフセットが与えら
    れた長期平均を形成するものであることを特徴とする請
    求項に記載の音声検出装置。
  3. 【請求項3】 上記背景ノイズレベル推定判定手段が、
    可変オフセットが与えられた長期平均から、上記長期平
    均計算手段から出力された長期平均を減算して第1の判
    定用値を形成すると共に、今までの推定背景ノイズレベ
    ルから、上記長期平均計算手段から出力された長期平均
    を減算して第2の判定用値を形成し、第2の判定用値の
    所定倍が第1の判定用値より大きいときに、推定背景ノ
    イズレベルを更新すると判定するものであることを特徴
    とする請求項又はに記載の音声検出装置。
  4. 【請求項4】 入力された音声信号が有音であるか無音
    であるかを検出する音声検出装置において、 入力音声信号のレベルの長期平均を計算する長期平均計
    算手段と、 入力音声信号のレベルの短期平均を計算する短期平均計
    算手段と、 これら長期平均計算手段及び短期平均計算手段で計算さ
    れた長期平均及び短期平均に基づいて、背景ノイズレベ
    ルを推定して得た有音/無音の判定用レベルを出力する
    判定用レベル形成手段と、 上記長期平均計算手段で計算された長期平均と、この判
    定用レベル形成手段から出力された判定用レベルとを大
    小比較して、有音期間及び無音期間を決定する音声判定
    手段とを備え、 上記音声判定手段が、所定単位期間毎に有音/無音を決
    定するものであり、所定単位期間中の1サンプル期間で
    も、上記長期平均計算手段で計算された長期平均が判定
    用レベルを越えていれば、その所定単位期間を有音期間
    と決定するものであることを特徴とする音声検出装置。
  5. 【請求項5】 上記音声判定手段が、所定単位期間毎に
    有音/無音を決定するものであると共に、 この音声判定手段の後段に、有音期間と判定された所定
    単位期間の前後所定数の無音期間と判定された所定単位
    期間を、強制的に有音期間に変換する前後所定単位期間
    制御手段をさらに備えることを特徴とする請求項1〜
    のいずれかに記載の音声検出装置。
  6. 【請求項6】 上記音声判定手段が、所定単位期間毎に
    有音/無音を決定するものであると共に、 この音声判定手段の後段に、有音期間と判定された2個
    の所定単位期間に挟まれた無音期間と判定された所定単
    位期間の数が所定数のときに、有音期間と判定された2
    個の所定単位期間に挟まれた無音期間と判定された所定
    単位期間を強制的に有音期間に変換する中間所定単位期
    間制御手段をさらに備えることを特徴とする請求項1〜
    のいずれかに記載の音声検出装置。
JP11225097A 1997-04-30 1997-04-30 音声検出装置 Expired - Fee Related JP3297346B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11225097A JP3297346B2 (ja) 1997-04-30 1997-04-30 音声検出装置
US09/069,858 US6088670A (en) 1997-04-30 1998-04-30 Voice detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11225097A JP3297346B2 (ja) 1997-04-30 1997-04-30 音声検出装置

Publications (2)

Publication Number Publication Date
JPH10301600A JPH10301600A (ja) 1998-11-13
JP3297346B2 true JP3297346B2 (ja) 2002-07-02

Family

ID=14582011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11225097A Expired - Fee Related JP3297346B2 (ja) 1997-04-30 1997-04-30 音声検出装置

Country Status (2)

Country Link
US (1) US6088670A (ja)
JP (1) JP3297346B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别***及语音识别方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4085214B2 (ja) * 1999-01-11 2008-05-14 ブラザー工業株式会社 通信装置
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
JP4345225B2 (ja) * 2000-11-27 2009-10-14 沖電気工業株式会社 エコーキャンセラ
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
GB2384670B (en) * 2002-01-24 2004-02-18 Motorola Inc Voice activity detector and validator for noisy environments
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
US8416964B2 (en) * 2008-12-15 2013-04-09 Gentex Corporation Vehicular automatic gain control (AGC) microphone system and method for post processing optimization of a microphone signal
JP5333307B2 (ja) * 2010-03-19 2013-11-06 沖電気工業株式会社 雑音推定方法及び雑音推定器
ES2604652T3 (es) * 2012-08-31 2017-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Método y dispositivo para detectar la actividad vocal
JP6064566B2 (ja) * 2012-12-07 2017-01-25 ヤマハ株式会社 音響処理装置
US9107010B2 (en) * 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9257952B2 (en) * 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
US9674607B2 (en) 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US11631421B2 (en) 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
JP6695057B2 (ja) * 2016-04-27 2020-05-20 パナソニックIpマネジメント株式会社 認知機能評価装置、認知機能評価方法、およびプログラム
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
AU2021221525A1 (en) * 2020-08-25 2022-03-24 Viotel Limited A device and method for monitoring status of cable barriers

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202394A (ja) * 1995-01-27 1996-08-09 Kyocera Corp 音声検出器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别***及语音识别方法

Also Published As

Publication number Publication date
JPH10301600A (ja) 1998-11-13
US6088670A (en) 2000-07-11

Similar Documents

Publication Publication Date Title
JP3297346B2 (ja) 音声検出装置
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
JP4236726B2 (ja) 音声活動検出方法及び音声活動検出装置
EP0979504B1 (en) System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
JP3224132B2 (ja) 音声活動検出装置
EP2656341B1 (en) Apparatus for performing a voice activity detection
US4945566A (en) Method of and apparatus for determining start-point and end-point of isolated utterances in a speech signal
JPH09212195A (ja) 音声活性検出装置及び移動局並びに音声活性検出方法
WO2009009522A1 (en) Voice activity detector and a method of operation
US5430826A (en) Voice-activated switch
US4700394A (en) Method of recognizing speech pauses
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
JP4551817B2 (ja) ノイズレベル推定方法及びその装置
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
EP0972283A1 (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
GB2380644A (en) Speech detection
US9245537B2 (en) Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal
JPH08221097A (ja) 音声成分の検出法
JP2002198918A (ja) 適応雑音レベル推定器
JP2002258881A (ja) 音声検出装置及び音声検出プログラム
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
JP2656069B2 (ja) 音声検出装置
JPS63281200A (ja) 音声区間検出方式
JPH08202394A (ja) 音声検出器
KR100312334B1 (ko) 에너지와 lsp 파라메타를 이용한 음성신호처리부호화기에서의 음성 활동 검출 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080412

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090412

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100412

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100412

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110412

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110412

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130412

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140412

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees