JPH11327582A - 騒音下での音声検出システム - Google Patents

騒音下での音声検出システム

Info

Publication number
JPH11327582A
JPH11327582A JP11077884A JP7788499A JPH11327582A JP H11327582 A JPH11327582 A JP H11327582A JP 11077884 A JP11077884 A JP 11077884A JP 7788499 A JP7788499 A JP 7788499A JP H11327582 A JPH11327582 A JP H11327582A
Authority
JP
Japan
Prior art keywords
threshold
band
state
energy
thresholds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11077884A
Other languages
English (en)
Inventor
Yi Zhao
イ・ザオ
Jean-Claude Junqua
ジャン−クロード・ジュンカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH11327582A publication Critical patent/JPH11327582A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 騒音下での音声の有無を確実に検出する。 【解決手段】 入力信号が周波数領域に変換されて、異
なる周波数範囲に対応した複数の帯域に分割される。適
応した閾値が各周波数帯域からのデータに対して個別に
適用される。このようにして、短期間の帯域制限エネル
ギが音声信号の有無のために試験される。複数の適応閾
値は、各周波数帯域内のエネルギの平均と変動を表わす
長期間のデータを蓄積したヒストグラムデータ構造を用
いて、各信号経路について独立に更新される。終点検出
は閾値との比較結果に依存して、音声無状態から音声有
状態へ、或いはその逆に遷移する状態装置により実行さ
れる。部分音声検出システムは入力信号が切り取られる
場合を取り扱う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的には音声処
理および音声認識システムに関する。より詳細には、本
発明は入力信号に含まれる音声の開始と終りを検出する
ための検出システムに関する。
【0002】
【従来の技術】音声認識や他の目的のための自動音声処
理は、コンピュータが実行しうる最も挑戦的な課題の1
つである。音声認識は、例えば、変化に対してきわめて
敏感な高度に複雑なパターンマッチング技法を採用す
る。一般消費者用の用途では、認識システムは広範囲の
様々の話者を取り扱うことができなければならず、広範
囲で様々に変化する環境下で操作される。異質な信号や
雑音が存在すると、認識精度や音声処理能力が著しく劣
化する。
【0003】多くの自動音声認識システムは、まず、音
声パターンをモデル化し、これらのパターンを用いて、
音素、文字および最終的に単語を同定する。正確な認識
のためには、実際の音声に先行し、或いは後続する異音
(ノイズ)を除去することがきわめて重要である。未だ
改善すべき余地が多いに存在するが、音声の始まりと終
りを検出するための幾つかの公知の技術が存在する。
【0004】
【発明が解決しようとする課題】本発明は入力信号を複
数の周波数帯域に分割し、各帯域は異なる周波数領域を
表わす。各帯域内の短期間のエネルギは複数の閾値と比
較され、比較結果は状態装置を駆動するのに用いられ、
状態装置は少なくとも1つの帯域の帯域制限信号エネル
ギが関係する閾値の少なくとも1つを上廻ると、“音声
無”状態から“音声有”状態に切替える。状態装置は、
少なくとも1つの帯域の帯域制限信号エネルギが関係す
る複数の閾値の少なくとも1つを下廻ると、“音声有”
状態から“音声無”状態に切替える。本システムは、音
声の実際の始まりに先行する仮想“無声セグメント”に
基づいた部分音声検出機構をも含む。
【0005】ヒストグラムデータ構造は、周波数帯域内
のエネルギの平均と変動(variance)に関する長期間デ
ータを蓄積し、この情報は最適な閾値の調整に用いられ
る。周波数帯域はノイズ特性に基づいて割当てられる。
ヒストグラム表現は音声信号、無声およびノイズ間の明
確な識別を可能にする。音声信号それ自身内には、無声
部(背景ノイズのみを有する)が典型的には支配的でこ
のことはヒストグラムに強く反映される。背景ノイズ
は、比較的一定でヒストグラム上際立ったスパイクとし
て示される。
【0006】本システムは、騒がしい環境における音声
の検出にきわめて好適で、音声の始まりと終りの両方を
検出することができ、音声の始まりが先端のカットによ
り失われた状態でも処理が行える。
【0007】
【課題を解決するための手段】本発明、本発明の目的お
よび利点をより完全に理解するために、以下の明細書お
よび添付の図面を参照されたい。
【0008】
【発明の実施の形態】本発明では、入力信号を各々異な
る周波数帯域を表わす複数の信号経路に分割する。図1
は2帯域を用いた本発明の一実施例を示しており、一方
の帯域は入力信号の全周波数スペクトルに対応してお
り、他方の帯域は全周波数スペクトルの高周波部分に対
応している。図示の実施例は、例えば、走行中の自動車
の内部や騒がしいオフィスのような条件下のような低音
声対ノイズ比(SNR)を有する入力信号を調べるのに
特に適している。このような共通の環境下では、ノイズ
エネルギの大部分は、2,000Hz以下に分布してい
る。
【0009】ここでは、2帯域システムが図示されてい
るが、本発明は他の多帯域構造にも容易に拡張すること
ができる。一般には、個々の帯域は異なる周波数領域を
カバーしており、信号(音声)をノイズから分離するよ
うに設定されている。本装置はデジタルである。勿論、
本記述を用いれば、アナログ装置を製造することもでき
る。
【0010】図1を参照して、可能な音声信号とノイズ
を含む入力信号は20で示されている。入力信号はデジ
タル化され、ハミングウインド22を通して処理され、
入力信号データを複数のフレームに分割する。本実施例
では、所定のサンプリングレート(この場合、8,00
0Hz)の10ミリ秒のフレームを用い、フレーム当り
80個のデジタルサンプルとなる。図示のシステムは3
00Hzから3,400Hzの領域に広がった周波数を
有する入力信号に対して動作するように企画されてい
る。したがって、上限周波数の2倍のサンプリングレー
ト(2×4,000=8,000)が選ばれている。も
し、異なる周波数成分が入力信号の情報搬送部に含まれ
ている場合には、サンプリングレートと周波数帯域は適
当に調整される。
【0011】ハミングウインド22の出力は、入力信号
(音声プラスノイズ)を表わすデジタルサンプリング列
であり、所定サイズのフレーム中に配列されている。こ
れらのフレームは高速フーリエ変換器(FFT)24に
入力され、変換器は入力信号データを時間空間から周波
数空間へと変換する。
【0012】この時点で信号は複数の経路、第1経路2
6と第2の経路に分割される。第1の経路は入力信号の
全ての周波数を含む周波数帯域に対応する一方、第2の
経路28は入力信号の全スペクトルの高周波部分に対応
している。周波数空間成分はデジタルデータで表わされ
ており、周波数帯域分割は総和モジュール(summa
tion module)30,32によって達成され
る。
【0013】総和モジュール30はスペクトル成分を範
囲10から108まで合計する一方、総和モジュール3
2は範囲64から108までを合計する。このような方
法で、総和モジュール30は入力信号内の全ての周波数
帯域を選択する一方、モジュール32は高周波帯域のみ
を選択する。この場合、モジュール32はモジュール3
0で選択された帯域の部分集合を抽出する。これは、走
行中の車輛や騒がしいオフィスで通常見掛けられるよう
な騒がしい入力信号内の音声成分を検出するための現在
好ましいと考えられた構成である。他の騒がしい条件は
他の周波数の帯域分割構成を必要とするであろう。例え
ば、個別で互いに重畳しない周波数帯域および部分的に
重畳する周波数帯域を必要に応じてカバーするように複
数の信号経路を構成することができる。
【0014】総和モジュール30と32はある時間にお
ける1フレームの周波数成分を合計する。かくして、モ
ジュール30と32の結果としての出力は、信号内の周
波数帯域制限・短時間のエネルギを表わす。所望の場
合、この生データは、フィルタ34および36等の平滑
化フィルタに通すようにすればよい。本実施例では、3
−タップ平均化器が、両方の位置における平滑化フィル
タとして使用されている。
【0015】以下により詳細に説明するように、音声検
出は、多重周波数帯域制限・短時間エネルギを複数の閾
値と比較することに基いている。これらの閾値は、プリ
音声無声部(システムが能動化されている間、話者が話
し始める前に存在すると考えられる)に伴なわれるエネ
ルギの長期間の平均値と変動に基いて適応的に更新され
る。本装置では、適応的な閾値を生成するためヒストグ
ラムデータ構造を用いる。図1において、複合ブロック
38と40は信号経路26と28についての適応閾値更
新モジュールを表わす。これらモジュールのより詳細
は、図2および複数の関連波形ダイアグラムとの関連に
おいて与えられる。
【0016】複数の信号経路は高速フーリエ変換モジュ
ール24の下流に設けられているが、適応的閾値更新モ
ジュール38と40を通して、入力信号中に音声が存在
するかしないかの最終決定は、両方の信号経路を一緒に
考察することからもたらされる。かくして、音声状態検
出モジュール42とこれに関連する部分音声検出モジュ
ール44は両方の経路26と28からの信号エネルギデ
ータを考察する。音声状態モジュール42は図4により
詳細に図示されている状態装置を備えている。部分音声
検出モジュールは図3により詳細に図示されている。
【0017】図2を参照して、適応閾値更新モジュール
38を説明する。本実施例は、各エネルギ帯域について
3つの異なる閾値を用いる。したがって、図示の実施例
では合計6個の閾値がある。各閾値の目的は波形ダイア
グラムとこれに関連する議論を考えることによってより
明瞭にされるであろう。各エネルギ帯域について3種の
閾値Threshold、WThreshold、およびSThresholdが特定
される。第1の閾値Thresholdは,音声の始まりを検出
するために使用される。WThresholdは音声の終りを検出
するための弱い閾値である。SThresholdは音声検出決定
の有効性を認定するための強い閾値である。これらの閾
値はより正式には以下の通り定義される: Threshold=ノイズレベル+オフセット WThreshold=ノイズレベル+オフセット*R1(R1=
0.2〜1、0.5が現在選ばれている) SThreshold=ノイズレベル+オフセット*R2(R2=
1〜4、2が現在選ばれている) ここで、ノイズレベルは長期間の平均値、即ち、過去の
入力エネルギのヒストグラム内の最大値である。 オフセット=ノイズレベル*R3+変動*R4(R3=
0.2〜1、0.5が現在選ばれている;R4=2〜
4、4が現在選ばれている)。 変動は短期間変動、即ち、過去のM入力フレームの変動
である。
【0018】図6はある一例の信号に重ね合せた3種の
閾値の関係を図示している。SThresholdはThresholdよ
り高く、WThresholdは一般にThresholdより低い。これ
らの閾値は入力信号のプリ音声無声部に含まれる全ての
過去の入力エネルギの最大値を決めるためのヒストグラ
ムデータ構造を用いたノイズレベルに基いている。図5
は一例のノイズレベルを図示している波形に重ね合せた
ヒストグラムの一例を示している。ヒストグラムはプレ
音声無声部が所定のノイズレベルエネルギを有する回数
を個数(Counts)として記録する。ヒストグラムはエネ
ルギレベル(x軸上)の関数として個数(y軸上)をプ
ロットする。図5に図示された例において、最も共通し
た(最高個数の)ノイズレベルエネルギはEaのエネル
ギ値を有する。Eaの値は所定のノイズレベルエネルギ
に対応する。
【0019】ヒストグラム(図5の)内に記録されたノ
イズレベルエネルギデータは入力信号のプレ音声無声部
から抽出されている。これに関連して、入力信号を供給
するオーディオチャネルはライブで実際の音声が始まり
以前よりデータを音声検出システムに送っていることが
前提となっている。かくして、プレ音声無声領域におい
て、システムは周囲のノイズレベルそれ自身のエネルギ
特性を有効にサンプリングしている。
【0020】現在の好ましい実施例では、コンピュータ
のメモリ容量を減少させるため固定サイズのヒストグラ
ムを用いている。ヒストグラムデータ構造の適当な構成
は、微細な評価(小さいヒストグラムステップを含む)
の要求と広いダイナミックレンジ(大きいヒストグラム
ステップを含む)との間の調和を表わしている。微細な
評価(小さいヒストグラムステップ)と広いダイナミッ
クレンジ(大きいヒストグラムステップ)との間の衝突
を解消するため本システムは実際の作動条件に基いてヒ
ストグラムステップを適応的に調整する。ヒストグラム
ステップサイズを調整するのに採用されたアルゴリズム
は、以下の擬似コード(pseudocode)において記述さ
れ、ここでMはステップサイズ(ヒストグラムの各ステ
ップにおけるエネルギ値の範囲を表わしている)であ
る。
【0021】適応ヒストグラムステップのための擬似コ
ード 初期化ステージの後:バッファ内の過去のフレームの平
均を計算する。 M=前回の平均値の10分の1 もし、M<MIN_HISTOGRAM_STEPな
ら、M=MIN_HISTOGRAM_STEP 終り
【0022】上記の擬似コードにおいて、ヒストグラム
ステップMは初期化ステージにおいてバッファされてい
る初期における仮定された無声部の平均値に基いて最適
化される。上記平均値は実際の背景ノイズ条件を示すと
仮定される。ヒストグラムステップは、下側の境界とし
てMIN_HISTOGRAM_STEPに制限される
ことに注目すべきである。このヒストグラムステップは
この時点以後固定される。
【0023】ヒストグラムは、各フレームについて新し
い値を挿入することによって更新される。緩慢に変化す
る背景ノイズに適合するため、忘却(forgetting)ファ
クタ(本実施例では0.90)が10フレーム毎に導入
される。
【0024】ヒストグラム更新用擬似コード もし、値<HISTOGRAM_SIZE*Mであれば、ヒストグラムを
忘却ファクタにより更新。もし、frame_in_histogram%
10==0であれば、(l=0;l<HISTOGRAM_SIZE;
l++について) histogram[l]*=HISTOGRAM_FORGETTING_FACTOR; 新しい値を挿入することによってヒストグラムを更新。 histogram[value+M/2)/M]+=1; histogram[value−M/2)M]+=1.
【0025】図2を参照して、適応閾値更新メカニズム
の基本ブロックダイアグラムが図示されている。このブ
ロックダイアグラムはモジュール38と40(図1)に
よって実行される演算を示している。短期間(現在デー
タ)エネルギは更新バッファ50内に格納されるととも
に、先に述べたようにモジュール52内においてヒスト
グラムデータ構造を更新するために使用される。更新バ
ッファはバッファ50内に格納されたデータの過去のフ
レームについての変動を計算するモジュール54によっ
て検査される。
【0026】一方、モジュール56はヒストグラム内の
最大エネルギ値(即ち、図5の値Ea)を特定し、これ
を閾値更新モジュール58に供給する。閾値更新モジュ
ールは最大エネルギ値とモジュール54からの統計デー
タ(変動)を用いて第1閾値Thresholdを書き換える。
先に議論したように、Thresholdはノイズレベルと所定
のオフセットの和に等しい。このオフセットはヒストグ
ラムの最大値によって決まるノイズレベルとモジュール
54によって供給される変動に基いている。他の閾値WT
hresholdとSThresholdは先に定義した式に従ってThresh
oldから計算される。
【0027】通常の動作では、閾値はプレ音声領域内の
ノイズレベルを追跡することにより適応的に調整され
る。図3はこのコンセプトを図示している。図3におい
て、プレ音声領域は100で示され、音声の始まりは2
00で表わされている。この波形上にはThresholdレベ
ルが重ね合されている。この閾値のレベルはプレ音声領
域内のノイズレベルを追跡し、これにオフセットが加え
られる。このようにして、ある音声セグメントに適用す
るThreshold(同様に、SThreshodとWThreshold)は音声
の始まりの直前に有効とされる閾値である。
【0028】図1に戻って、音声状態検出および部分音
声検出モジュール42と44が記述される。データの1
フレームに基いて音声有/音声無の決定をなすのに代え
て、現在のフレームと現在フレームに続く2,3のフレ
ームを加えたものに基いて決定がなされる。音声検出の
始まりに関して、現在のフレームに続く付加的なフレー
ムを考慮すること(先読み)は、短いが強い、例えば、
電気パルスのようなノイズパルスの存在による誤検出を
回避することができる。音声検出の終りに関しては、フ
レームの先読み(frame look ahead)は、本質的には連
続する音声信号における間(pause)又は短い無声を音
声の終りとして誤検出することを回避することができ
る。この遅延による決定即ち先読み技法は更新バッファ
50(図2)内にデータをバッファするとともに以下の
擬似コードにより記述されるプロセスを適用することに
よって達成される: 音声テスト開始: 遅延された決定の開始=誤り M個の後続フレーム(M=3;30ms)をループ、も
し、Energy_All又はEnergy_HPF>Threshold,遅延された
決定の開始=真(TRUE)とする。 音声テストの終り 遅延された決定の終り=誤り N個の後続フレーム(N=30;300ms)をルー
プ、もし、Energy_AllとEnergy_HPFの両方<Threshol
d、遅延された決定の終り=真(TRUE)とする。 ループの終り
【0029】音声テストの開始における30msの遅延
が閾値を上廻るノイズスパイク110の誤検出を回避す
る方法を図示する図7を参照されたい。同様に、音声テ
ストの終りを遅延させる300msが音声信号中の短い
間120によって音声状態の終りをトリガすることを回
避する方法を図示している図8を参照されたい。
【0030】上記擬似コードは遅延決定開始フラグと遅
延決定終了フラグの2つのフラグを設定する。これらの
フラグは図4に示される音声信号状態装置によって使用
される。音声の開始は、3個のフレーム(M=3)に対
応する30msの遅延を用いる。このことは、短いノイ
ズスパイクによる誤決定を遮蔽するのに通常は適当であ
る。終了は、300msのオーダーのより長い遅延を使
用するが、これは、連結された音声内で生ずる通常の間
(pause)を適当に処理するために見出されたものであ
る。300msの遅延は30フレーム(N=30)に対
応する。音声信号のクリッピング又はチョッピングによ
るエラーを避けるため、データは開始と終了の両方につ
いて検出された音声部分に基いて付加的なフレームを付
加されてもよい。
【0031】音声検出アルゴリズムの開始は少なくとも
ある与えられた最小長のプレ音声無声部の存在を前提と
している。実際、この仮定が有効でない場合、例えば、
入力信号が信号の脱落や回路切替え時の電力変動(glit
ches)によりクリップされ、これによって仮定された
“無声セグメント”が短縮されるか消された場合は時々
存在する。このような場合が生ずると、閾値は音声信号
が存在しない状態でのノイズレベルエネルギに基いてい
るので、誤って適用されることになる。更に、入力信号
が無声セグメントがない所までクリップされると、音声
検出システムは入力信号が音声を含むものとして認識す
ることができず、その結果、以後の音声処理を無意味な
ものとする入力状態における音声の損失をもたらす。
【0032】部分音声条件を回避するため、拒否手法が
図3に図示されているように採用されている。図3は部
分音声検出モジュール44(図1)によって採用されて
いるメカニズムを図示されている。部分音声検出メカニ
ズムは、適応閾値レベルにおける突然の跳びが存在する
か否かを決定するため閾値(Threshold)をモニタするこ
とにより働く。跳び検出モジュール60は一連のフレー
ムに亘って閾値における変化を示す値を最初に蓄積する
ことによってこの分析を実行する。このステップは蓄積
された閾値変化Δを生成するモジュール62によって実
行される。この蓄積閾値変化Δはモジュール64内の所
定の絶対値Athrdと比較され、ΔがAthrdより大きいか
否かに依存して、処理はブランチ66又はブランチ68
に進む。そうでない場合、モジュール70が選ばれる。
(そうである場合、モジュール72が選ばれる。)モジ
ュール70と72は別個の平均閾値を保持している。モ
ジュール70は跳びを検出する前の閾値に対応した閾値
T1を保持し更新するとともに、モジュール72は跳び
の後の閾値に対応するThreshold2を保持し更新する。
これら2つの閾値の比(T1/T2)は、その後、モジ
ュール74内の第3の閾値Rthrdと比較される。比が第
3閾値より大きいならば、有効音声フラグがセットされ
る。有効音声フラグは図4の音声信号状態装置において
使用される。
【0033】図9と図10は動作中の部分音声検出メカ
ニズムが図示されている。図9はイエスブランチ68
(図3)を取る条件に対応する一方、図10はノーブラ
ンチ66を取る条件に対応する。図9を参照すると、1
50から160への閾値の跳びがあることに注目された
い。図示の例では、この跳びは絶対値Athrdより大き
い。図10において、位置(52から位置162への閾
値における跳びはAthrdより大きくない跳びを表わす。
図9と図10の両方において、跳び位置は破線170に
よって図示されている。跳び位置の前の平均閾値はT1
で示され、跳び位置の後の平均閾値はT2で示されてい
る。比T1/T2は比の閾値Rthrd(図3のブロック7
4)と比較される。有効音声は以下のようにしてプレ音
声領域における単純な浮遊ノイズから区別される。も
し、閾値の跳びがAthrdより小さいか、或いは比T1/
T2がRthrdより小さい場合に閾値の跳びに対応する信
号がノイズとして認識される。一方、比T1/T2がR
thrdより大きい場合、閾値の跳びに対応する信号は部分
音声として取扱われ、閾値を更新するのに使用されるこ
とはない。
【0034】図4を参照すると、音声信号状態装置は初
期化状態310において300で示されるようにスター
トする。該装置は無声状態320へ進み、ここで無声状
態において実行されるステップが音声状態330への遷
移を指示するまでこの状態に留まる。音声状態330に
おいて、状態装置は、音声状態330ブロック内におい
て図示されたステップによって示されるある条件が合致
すると、無声状態320に再遷移する。
【0035】初期状態310において、データフレーム
はバッファ50内に格納されるとともに、ヒストグラム
ステップサイズが更新される。好ましい実施例では最小
のステップサイズM=20で動作が開始されることが思
い出される。このステップサイズは先に述べた擬似コー
ドによって記述されるように初期化状態の間に最適化さ
れる。また、初期化状態の間、ヒストグラムデータ構造
は先に格納されたデータを先の動作から除去するように
初期化される。これらのステップの後、無声状態320
への状態装置の遷移が実行される。
【0036】無声状態において、周波数帯域制御・短期
エネルギ値の各々は、基本の閾値Thresholdと比較され
る。先に述べたように、各信号経路はそれ自身の閾値の
セットを有する。図4において、信号経路26に適用さ
れる閾値はThreshold_Allで示され、信号経路28に適
用される閾値はThreshold_HPFで示される。同様の符号
付けが音声状態330において用いられる他の閾値に対
して用いられている。
【0037】もし、短期エネルギ値のいずれか1つが閾
値を越えると、遅延決定開始フラグがテストされる。そ
のフラグが真(TRUE)と設定されていると、先に述べた
ように、音声メッセージの開始が復帰され、状態装置は
音声状態330に遷移する。そうでない場合、状態装置
は無声状態に留まり、ヒストグラムデータ構造は更新さ
れる。
【0038】現実施例では、現在的でないデータの効果
を時間とともに蒸発させるため0.99という忘却ファ
クタを用いてヒストグラムを更新する。このことは、現
在のフレームエネルギに関連する計数データを加算する
に先立ってヒストグラム内の現存する値に0.99を掛
け合せることによって実行される。この方法で、過去の
データの効果は時間とともに徐々に消失される。
【0039】音声状態330における処理は、閾値の異
なるセットが使用されるものの同様の流れに沿って進行
する。音声状態では、信号経路26と28における各エ
ネルギをWThresholdと比較する。いずれかの信号経路が
WThresholdを越えると、同様の比較がSThresholdに関し
ても行われる。いずれかの信号経路におけるエネルギが
SThresholdを越えると、音声有効フラグが真(TRUE)に
セットされる。このフラグは以後の比較ステップで使用
される。
【0040】先に述べたように、遅延決定終了フラグが
先に真(TRUE)に設定されており、かつ音声有効フラグ
も真に設定されている場合、音声メッセージの終りが復
帰され、状態装置は無声状態320へと再復帰する。一
方、音声有効フラグが真に設定されていない場合、メッ
セージが先の音声検出と状態装置の無声状態320への
再遷移をキャンセルする。
【0041】図11と12は種々のレベルが状態装置の
作動に影響する使用を示している。図11は両方の信号
経路、全周波数帯域Band-Allと高周波帯域Band-HPFの同
時の作動を比較する。信号波形は、異なる周波数成分を
含んでいるので異なることに注意すべきである。図示の
例では、検出された音声として認識される最終領域は全
周波数帯域がb1において閾値と交差することによって
生成される音声の始まりおよび高周波帯域がe2の交差
に対応する音声の終了に対応している。異なる入力波形
は、勿論、図4に記載したアルゴリズムにしたがって異
なる結果を生成する。
【0042】図12は強い閾値SThresholdが強いノイズ
レベルの存在下で有効音声の存在を確認するのに使用さ
れる方法を示している。図示されているように、SThres
hold以下の強いノイズは、音声有効フラグが誤り(FALS
E)にセットされていることに対応する領域Rに対応す
る。
【0043】
【発明の効果】以上述べたことから、本発明は、騒がし
い環境下における消費者向け用途において出会う多くの
問題を処理しつつ、入力信号における音声の開始と終了
を検出するシステムを提供するものであることが理解さ
れるであろう。本発明は現在の好ましい形態において記
述されているが、本発明は添付の請求の範囲に定義され
た本発明の要旨を逸脱することなしに種々の変更をなし
うることが理解されるべきである。
【図面の簡単な説明】
【図1】 好適な2帯域の実施例における音声検出シス
テムのブロックダイアグラムである。
【図2】 最適閾値を調整するのに用いられた本システ
ムの詳細なブロックダイアグラムである。
【図3】 部分音声検出システムの詳細なブロックダイ
アグラムである。
【図4】 本発明の音声信号状態装置を示す。
【図5】 本発明を理解するのに有用な一例としてのヒ
ストグラムを示すグラフである。
【図6】 音声検出のため信号エネルギを比較するのに
用いられる複数の閾値を示す波形ダイアグラムである。
【図7】 強いノイズパルスの誤検出を避けるために用
いられる音声開始遅延検出メカニズムを示す波形ダイア
グラムである。
【図8】 連続音声の中にある間(無声区間)を許容す
るために用いられる音声終り遅延検出メカニズムを示す
波形ダイアグラムである。
【図9】 部分音声検出メカニズムの一態様を示す波形
ダイアグラムである。
【図10】 部分音声検出メカニズムの他の一つの態様
を示す波形ダイアグラムである。
【図11】 多帯域閾値解析が音声有状態に対応する最
終領域を選択するために結合される様子を示す集合波形
ダイアグラムである。
【図12】 強いノイズの存在下でのS閾値の使用を示
す波形ダイアグラムである。
【図13】 背景ノイズレベルに適合するような順応閾
値の挙動を示す。
【符号の説明】
20…入力信号 22…ハミングウインド 24…高速フーリエ変換器(FFT) 26,28…信号経路 30,32…総和モジュール 34,36…平滑化フィルタ 38,40…適応閾値更新モジュール 42…音声状態検出モジュール 50…更新バッファ

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 音声信号の有無を決定するため入力信号
    を検査する音声検出システムは以下のものを有する:入
    力信号を複数の周波数帯域に分割する周波数帯域スプリ
    ッタ、各帯域は周波数の異なる範囲に対応する帯域制限
    信号エネルギを表わす;上記複数の周波数帯域の帯域制
    限信号エネルギを各周波数帯域が当該帯域に関連する少
    なくとも1つの閾値と比較されるように、複数の閾値と
    比較するエネルギ比較システム、 上記エネルギ比較システムに結合された音声信号状態装
    置、該装置は、(a)少なくとも1つの帯域の帯域制限
    信号エネルギがそれに関連する閾値の少なくとも1つよ
    り大きいときに音声無の状態から音声有の状態に、
    (b)少なくとも1つの帯域の帯域制限信号エネルギが
    それに関連する少なくとも1つの閾値より小さいときに
    音声有の状態から音声無の状態に切替える。
  2. 【請求項2】 少なくとも1つの周波数帯域内のエネル
    ギを表わす経時データを蓄積するためヒストグラムデー
    タ構造を採用した適応閾値更新システムをさらに備え
    た、請求項1のシステム。
  3. 【請求項3】 各周波数帯域に関連する個別の適応閾値
    更新システムをさらに備えた、請求項1のシステム。
  4. 【請求項4】 各周波数帯域内のエネルギの平均と変動
    に基づいて複数の閾値を書替える適応閾値更新システム
    をさらに備える、請求項1のシステム。
  5. 【請求項5】 複数の閾値の少なくとも1つの変化率に
    おける所定の跳びに対応する部分音声検出システムをさ
    らに備え、該部分音声検出システムは、上記一の閾値の
    平均値の跳びの前と後の比が所定の値を越えたときに、
    上記状態装置の音声有状態への切替えを禁止する、請求
    項1のシステム。
  6. 【請求項6】 多重閾値システムをさらに備え、該多重
    閾値システムは、以下の3つの閾値を規定し、ノイズレ
    ベルを越える所定のオフセットとしての第1の閾値:該
    第1の閾値の所定のパーセントとしての第2の閾値、第
    2の閾値は第1の閾値より小さい;第1の閾値の所定の
    倍数としての第3の閾値、第3の閾値は第1の閾値より
    大きい;上記第1の閾値は音声無状態から音声有状態へ
    の切替えを制御し、 第2、第3の閾値は、音声有状態から音声無状態への切
    替えを制御する、請求項1のシステム。
  7. 【請求項7】 状態装置は少なくとも1つの帯域の帯域
    制限信号エネルギが上記第2の閾値を下廻り、かつ、少
    なくとも1つの帯域の帯域制限信号エネルギが上記第3
    の閾値を下廻るときに音声有状態から音声無状態へ切替
    える、請求項6のシステム。
  8. 【請求項8】 上記入力信号の所定の時間増分を表わす
    データを格納するとともに、上記複数の周波数帯域の少
    なくとも1つの帯域制限信号エネルギが上記所定の時間
    増分中、少なくとも1つの閾値を越えないときに、上記
    状態装置の音声無状態から音声有状態への切替えを禁止
    する、請求項1のシステム。
  9. 【請求項9】 入力信号中に音声信号が有るか無いかを
    決定する方法は以下のステップからなる:入力信号を複
    数の周波数帯域に分割する、各帯域は周波数の異なる範
    囲に対応した帯域制限信号を表わす;複数の周波数帯域
    の帯域制限信号エネルギを、各周波数帯域が当該帯域に
    関係する少なくとも1つの閾値と比較されるように、複
    数の閾値と比較する;および以下のことを決定する; (a)上記帯域の少なくとも1つの帯域制限信号エネル
    ギが関連する複数の閾値の少なくとも1つを上廻ったと
    きに、音声有状態が存在する、および(b)上記帯域の
    少なくとも1つの帯域制限信号エネルギが関連する複数
    の閾値の1つを下廻ったときに、音声無状態が存在す
    る。
  10. 【請求項10】 上記周波数帯域の少なくとも1つの中
    のエネルギを表わす経時データを蓄積したヒストグラム
    を用いて、上記複数の閾値の少なくとも1つを規定する
    ことをさらに含む、請求項9の方法。
  11. 【請求項11】 上記複数の周波数帯域の各々について
    個別に上記複数の閾値の少なくとも1つを適応的に更新
    することをさらに含む、請求項9の方法。
  12. 【請求項12】 各周波数帯域内におけるエネルギの平
    均と変動に基づいて上記複数の閾値を書替えることをさ
    らに含む、請求項9の方法。
  13. 【請求項13】 上記複数の閾値の少なくとも1つにお
    ける変化率の所定の跳びを検出するとともに、 上記1つの閾値の平均値の上記跳びの前後の比が所定の
    値を越えたときに、音声有状態が存在しないことをさら
    に含む、請求項9の方法。
  14. 【請求項14】 ノイズレベルを越えた所定のオフセッ
    トとしての第1の閾値:第1の閾値の所定のパーセント
    としての第2の閾値、第2の閾値は第1の閾値より小さ
    い;第1の閾値の所定の倍数としての第3の閾値、第3
    の閾値は第1の閾値より大きい;を規定するとともに、 第1の閾値に基づいて音声有状態が存在することを決定
    する;および上記第2、第3の閾値に基づいて音声無状
    態が存在することを決定することをさらに含む、請求項
    9の方法。
  15. 【請求項15】 上記複数の帯域の少なくとも1つの帯
    域制限信号エネルギが第2の閾値より大きく、かつ、上
    記複数の帯域の少なくとも1つの帯域制限信号エネルギ
    が第3の閾値より大きい場合に、上記音声無状態が存在
    すると決定される、請求項14の方法。
  16. 【請求項16】 複数の帯域の少なくとも1つの帯域制
    限信号エネルギが所定の時間増分中に少なくとも1つの
    閾値を越えなかったときに、音声有状態が存在しないも
    のと決定することをさらに含む、請求項9の方法。
JP11077884A 1998-03-24 1999-03-23 騒音下での音声検出システム Pending JPH11327582A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/047276 1998-03-24
US09/047,276 US6480823B1 (en) 1998-03-24 1998-03-24 Speech detection for noisy conditions

Publications (1)

Publication Number Publication Date
JPH11327582A true JPH11327582A (ja) 1999-11-26

Family

ID=21948048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11077884A Pending JPH11327582A (ja) 1998-03-24 1999-03-23 騒音下での音声検出システム

Country Status (9)

Country Link
US (1) US6480823B1 (ja)
EP (1) EP0945854B1 (ja)
JP (1) JPH11327582A (ja)
KR (1) KR100330478B1 (ja)
CN (1) CN1113306C (ja)
AT (1) ATE267443T1 (ja)
DE (1) DE69917361T2 (ja)
ES (1) ES2221312T3 (ja)
TW (1) TW436759B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006050067A (ja) * 2004-08-02 2006-02-16 Sony Corp ノイズ低減回路、電子機器、ノイズ低減方法
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法
WO2012036305A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN103455021A (zh) * 2012-05-31 2013-12-18 科域半导体有限公司 改变检测***和方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
US6721411B2 (en) * 2001-04-30 2004-04-13 Voyant Technologies, Inc. Audio conference platform with dynamic speech detection threshold
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7277585B2 (en) * 2001-05-25 2007-10-02 Ricoh Company, Ltd. Image encoding method, image encoding apparatus and storage medium
JP2003087547A (ja) * 2001-09-12 2003-03-20 Ricoh Co Ltd 画像処理装置
US6901363B2 (en) * 2001-10-18 2005-05-31 Siemens Corporate Research, Inc. Method of denoising signal mixtures
US7299173B2 (en) 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
JP2007501420A (ja) * 2003-08-01 2007-01-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ダイアログシステムの駆動方法
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7278092B2 (en) * 2004-04-28 2007-10-02 Amplify, Llc System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7692683B2 (en) * 2004-10-15 2010-04-06 Lifesize Communications, Inc. Video conferencing system transcoder
US7545435B2 (en) * 2004-10-15 2009-06-09 Lifesize Communications, Inc. Automatic backlight compensation and exposure control
US8149739B2 (en) * 2004-10-15 2012-04-03 Lifesize Communications, Inc. Background call validation
US20060106929A1 (en) * 2004-10-15 2006-05-18 Kenoyer Michael L Network conference communications
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20060248210A1 (en) * 2005-05-02 2006-11-02 Lifesize Communications, Inc. Controlling video display mode in a video conferencing system
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7664635B2 (en) * 2005-09-08 2010-02-16 Gables Engineering, Inc. Adaptive voice detection method and system
GB0519051D0 (en) * 2005-09-19 2005-10-26 Nokia Corp Search algorithm
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
KR100800873B1 (ko) * 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8319814B2 (en) 2007-06-22 2012-11-27 Lifesize Communications, Inc. Video conferencing system which allows endpoints to perform continuous presence layout selection
US8139100B2 (en) 2007-07-13 2012-03-20 Lifesize Communications, Inc. Virtual multiway scaler compensation
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
US9661267B2 (en) * 2007-09-20 2017-05-23 Lifesize, Inc. Videoconferencing system discovery
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8542983B2 (en) * 2008-06-09 2013-09-24 Koninklijke Philips N.V. Method and apparatus for generating a summary of an audio/visual data stream
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US8514265B2 (en) 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
US20100110160A1 (en) * 2008-10-30 2010-05-06 Brandt Matthew K Videoconferencing Community with Live Images
CN102272826B (zh) * 2008-10-30 2015-10-07 爱立信电话股份有限公司 电话内容信号鉴别
WO2010101527A1 (en) * 2009-03-03 2010-09-10 Agency For Science, Technology And Research Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal
US8643695B2 (en) * 2009-03-04 2014-02-04 Lifesize Communications, Inc. Videoconferencing endpoint extension
US8456510B2 (en) * 2009-03-04 2013-06-04 Lifesize Communications, Inc. Virtual distributed multipoint control unit
WO2010106734A1 (ja) * 2009-03-18 2010-09-23 日本電気株式会社 音声信号処理装置
US8305421B2 (en) * 2009-06-29 2012-11-06 Lifesize Communications, Inc. Automatic determination of a configuration for a conference
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
US8350891B2 (en) * 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
DK3493205T3 (da) 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
CN103413554B (zh) * 2013-08-27 2016-02-03 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
WO2016188593A1 (en) * 2015-05-26 2016-12-01 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
EP3545691B1 (en) * 2017-01-04 2021-11-17 Harman Becker Automotive Systems GmbH Far field sound capturing
WO2019061055A1 (zh) * 2017-09-27 2019-04-04 深圳传音通讯有限公司 电子设备的测试方法及***
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
US10928502B2 (en) 2018-05-30 2021-02-23 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
US10948581B2 (en) 2018-05-30 2021-03-16 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
CN108962249B (zh) * 2018-08-21 2023-03-31 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质
CN112687273B (zh) * 2020-12-26 2024-04-16 科大讯飞股份有限公司 一种语音转写方法及装置
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4032711A (en) 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
USRE32172E (en) 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
FR2502370A1 (fr) 1981-03-18 1982-09-24 Trt Telecom Radio Electr Dispositif de reduction du bruit dans un signal de parole mele de bruit
US4410763A (en) 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
FR2535854A1 (fr) 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4627091A (en) 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
EP0186671A4 (en) * 1984-06-08 1988-11-16 Plessey Australia CUSTOMIZABLE VOICE DETECTION SYSTEM.
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4815136A (en) 1986-11-06 1989-03-21 American Telephone And Telegraph Company Voiceband signal classification
JPH01169499A (ja) 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5222147A (en) 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5305422A (en) 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006050067A (ja) * 2004-08-02 2006-02-16 Sony Corp ノイズ低減回路、電子機器、ノイズ低減方法
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection
WO2012036305A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN103455021A (zh) * 2012-05-31 2013-12-18 科域半导体有限公司 改变检测***和方法
CN103455021B (zh) * 2012-05-31 2016-08-24 科域半导体有限公司 改变检测***和方法
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム

Also Published As

Publication number Publication date
US6480823B1 (en) 2002-11-12
ATE267443T1 (de) 2004-06-15
CN1242553A (zh) 2000-01-26
EP0945854B1 (en) 2004-05-19
CN1113306C (zh) 2003-07-02
DE69917361T2 (de) 2005-06-02
ES2221312T3 (es) 2004-12-16
TW436759B (en) 2001-05-28
KR100330478B1 (ko) 2002-04-01
EP0945854A3 (en) 1999-12-29
EP0945854A2 (en) 1999-09-29
DE69917361D1 (de) 2004-06-24
KR19990077910A (ko) 1999-10-25

Similar Documents

Publication Publication Date Title
JPH11327582A (ja) 騒音下での音声検出システム
US6154721A (en) Method and device for detecting voice activity
US8271279B2 (en) Signature noise removal
US8165880B2 (en) Speech end-pointer
ES2211057T3 (es) Sistema y metodo para el ajuste del umbral de ruido usado para detectar actividad vocal en ambientes ruidosos no estacionario.
US20060116873A1 (en) Repetitive transient noise removal
RU2768508C2 (ru) Способ и устройство для обнаружения голосовой активности
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
US8326621B2 (en) Repetitive transient noise removal
CN102667927A (zh) 语音活动检测的方法和背景估计器
KR20120091068A (ko) 음성 활성 검출을 위한 검출기 및 방법
Manohar et al. Speech enhancement in nonstationary noise environments using noise properties
EP2257034B1 (en) Measuring double talk performance
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
EP1751740A1 (en) System and method for babble noise detection
Taboada et al. Explicit estimation of speech boundaries
Kabal et al. Adaptive postfiltering for enhancement of noisy speech in the frequency domain
US10720171B1 (en) Audio processing
KR100452109B1 (ko) 음성신호 추적장치 및 그 방법
KR20040082756A (ko) 비음성 제거에 의한 음성 추출 방법
JPH04251299A (ja) 音声区間検出方法
JPH03233600A (ja) 音声切り出し方法及び音声認識装置
JPS60191300A (ja) 音声区間検出回路
KR20070022345A (ko) 다중 누화 잡음 검출 시스템 및 방법

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031216