JPH11327582A

JPH11327582A - 騒音下での音声検出システム

Info

Publication number: JPH11327582A
Application number: JP11077884A
Authority: JP
Inventors: Yi Zhao; イ・ザオ; Jean-Claude Junqua; ジャン−クロード・ジュンカ
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-03-24
Filing date: 1999-03-23
Publication date: 1999-11-26
Also published as: US6480823B1; ATE267443T1; CN1242553A; EP0945854B1; CN1113306C; DE69917361T2; ES2221312T3; TW436759B; KR100330478B1; EP0945854A3; EP0945854A2; DE69917361D1; KR19990077910A

Abstract

(57)【要約】【課題】騒音下での音声の有無を確実に検出する。【解決手段】入力信号が周波数領域に変換されて、異
なる周波数範囲に対応した複数の帯域に分割される。適
応した閾値が各周波数帯域からのデータに対して個別に
適用される。このようにして、短期間の帯域制限エネル
ギが音声信号の有無のために試験される。複数の適応閾
値は、各周波数帯域内のエネルギの平均と変動を表わす
長期間のデータを蓄積したヒストグラムデータ構造を用
いて、各信号経路について独立に更新される。終点検出
は閾値との比較結果に依存して、音声無状態から音声有
状態へ、或いはその逆に遷移する状態装置により実行さ
れる。部分音声検出システムは入力信号が切り取られる
場合を取り扱う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には音声処
理および音声認識システムに関する。より詳細には、本
発明は入力信号に含まれる音声の開始と終りを検出する
ための検出システムに関する。

【０００２】

【従来の技術】音声認識や他の目的のための自動音声処
理は、コンピュータが実行しうる最も挑戦的な課題の１
つである。音声認識は、例えば、変化に対してきわめて
敏感な高度に複雑なパターンマッチング技法を採用す
る。一般消費者用の用途では、認識システムは広範囲の
様々の話者を取り扱うことができなければならず、広範
囲で様々に変化する環境下で操作される。異質な信号や
雑音が存在すると、認識精度や音声処理能力が著しく劣
化する。

【０００３】多くの自動音声認識システムは、まず、音
声パターンをモデル化し、これらのパターンを用いて、
音素、文字および最終的に単語を同定する。正確な認識
のためには、実際の音声に先行し、或いは後続する異音
（ノイズ）を除去することがきわめて重要である。未だ
改善すべき余地が多いに存在するが、音声の始まりと終
りを検出するための幾つかの公知の技術が存在する。

【０００４】

【発明が解決しようとする課題】本発明は入力信号を複
数の周波数帯域に分割し、各帯域は異なる周波数領域を
表わす。各帯域内の短期間のエネルギは複数の閾値と比
較され、比較結果は状態装置を駆動するのに用いられ、
状態装置は少なくとも１つの帯域の帯域制限信号エネル
ギが関係する閾値の少なくとも１つを上廻ると、“音声
無”状態から“音声有”状態に切替える。状態装置は、
少なくとも１つの帯域の帯域制限信号エネルギが関係す
る複数の閾値の少なくとも１つを下廻ると、“音声有”
状態から“音声無”状態に切替える。本システムは、音
声の実際の始まりに先行する仮想“無声セグメント”に
基づいた部分音声検出機構をも含む。

【０００５】ヒストグラムデータ構造は、周波数帯域内
のエネルギの平均と変動(variance）に関する長期間デ
ータを蓄積し、この情報は最適な閾値の調整に用いられ
る。周波数帯域はノイズ特性に基づいて割当てられる。
ヒストグラム表現は音声信号、無声およびノイズ間の明
確な識別を可能にする。音声信号それ自身内には、無声
部（背景ノイズのみを有する）が典型的には支配的でこ
のことはヒストグラムに強く反映される。背景ノイズ
は、比較的一定でヒストグラム上際立ったスパイクとし
て示される。

【０００６】本システムは、騒がしい環境における音声
の検出にきわめて好適で、音声の始まりと終りの両方を
検出することができ、音声の始まりが先端のカットによ
り失われた状態でも処理が行える。

【０００７】

【課題を解決するための手段】本発明、本発明の目的お
よび利点をより完全に理解するために、以下の明細書お
よび添付の図面を参照されたい。

【０００８】

【発明の実施の形態】本発明では、入力信号を各々異な
る周波数帯域を表わす複数の信号経路に分割する。図１
は２帯域を用いた本発明の一実施例を示しており、一方
の帯域は入力信号の全周波数スペクトルに対応してお
り、他方の帯域は全周波数スペクトルの高周波部分に対
応している。図示の実施例は、例えば、走行中の自動車
の内部や騒がしいオフィスのような条件下のような低音
声対ノイズ比（ＳＮＲ）を有する入力信号を調べるのに
特に適している。このような共通の環境下では、ノイズ
エネルギの大部分は、２，０００Ｈｚ以下に分布してい
る。

【０００９】ここでは、２帯域システムが図示されてい
るが、本発明は他の多帯域構造にも容易に拡張すること
ができる。一般には、個々の帯域は異なる周波数領域を
カバーしており、信号（音声）をノイズから分離するよ
うに設定されている。本装置はデジタルである。勿論、
本記述を用いれば、アナログ装置を製造することもでき
る。

【００１０】図１を参照して、可能な音声信号とノイズ
を含む入力信号は２０で示されている。入力信号はデジ
タル化され、ハミングウインド２２を通して処理され、
入力信号データを複数のフレームに分割する。本実施例
では、所定のサンプリングレート（この場合、８，００
０Ｈｚ）の１０ミリ秒のフレームを用い、フレーム当り
８０個のデジタルサンプルとなる。図示のシステムは３
００Ｈｚから３，４００Ｈｚの領域に広がった周波数を
有する入力信号に対して動作するように企画されてい
る。したがって、上限周波数の２倍のサンプリングレー
ト（２×４，０００＝８，０００）が選ばれている。も
し、異なる周波数成分が入力信号の情報搬送部に含まれ
ている場合には、サンプリングレートと周波数帯域は適
当に調整される。

【００１１】ハミングウインド２２の出力は、入力信号
（音声プラスノイズ）を表わすデジタルサンプリング列
であり、所定サイズのフレーム中に配列されている。こ
れらのフレームは高速フーリエ変換器（ＦＦＴ）２４に
入力され、変換器は入力信号データを時間空間から周波
数空間へと変換する。

【００１２】この時点で信号は複数の経路、第１経路２
６と第２の経路に分割される。第１の経路は入力信号の
全ての周波数を含む周波数帯域に対応する一方、第２の
経路２８は入力信号の全スペクトルの高周波部分に対応
している。周波数空間成分はデジタルデータで表わされ
ており、周波数帯域分割は総和モジュール（ｓｕｍｍａ
ｔｉｏｎｍｏｄｕｌｅ）３０，３２によって達成され
る。

【００１３】総和モジュール３０はスペクトル成分を範
囲１０から１０８まで合計する一方、総和モジュール３
２は範囲６４から１０８までを合計する。このような方
法で、総和モジュール３０は入力信号内の全ての周波数
帯域を選択する一方、モジュール３２は高周波帯域のみ
を選択する。この場合、モジュール３２はモジュール３
０で選択された帯域の部分集合を抽出する。これは、走
行中の車輛や騒がしいオフィスで通常見掛けられるよう
な騒がしい入力信号内の音声成分を検出するための現在
好ましいと考えられた構成である。他の騒がしい条件は
他の周波数の帯域分割構成を必要とするであろう。例え
ば、個別で互いに重畳しない周波数帯域および部分的に
重畳する周波数帯域を必要に応じてカバーするように複
数の信号経路を構成することができる。

【００１４】総和モジュール３０と３２はある時間にお
ける１フレームの周波数成分を合計する。かくして、モ
ジュール３０と３２の結果としての出力は、信号内の周
波数帯域制限・短時間のエネルギを表わす。所望の場
合、この生データは、フィルタ３４および３６等の平滑
化フィルタに通すようにすればよい。本実施例では、３
−タップ平均化器が、両方の位置における平滑化フィル
タとして使用されている。

【００１５】以下により詳細に説明するように、音声検
出は、多重周波数帯域制限・短時間エネルギを複数の閾
値と比較することに基いている。これらの閾値は、プリ
音声無声部（システムが能動化されている間、話者が話
し始める前に存在すると考えられる）に伴なわれるエネ
ルギの長期間の平均値と変動に基いて適応的に更新され
る。本装置では、適応的な閾値を生成するためヒストグ
ラムデータ構造を用いる。図１において、複合ブロック
３８と４０は信号経路２６と２８についての適応閾値更
新モジュールを表わす。これらモジュールのより詳細
は、図２および複数の関連波形ダイアグラムとの関連に
おいて与えられる。

【００１６】複数の信号経路は高速フーリエ変換モジュ
ール２４の下流に設けられているが、適応的閾値更新モ
ジュール３８と４０を通して、入力信号中に音声が存在
するかしないかの最終決定は、両方の信号経路を一緒に
考察することからもたらされる。かくして、音声状態検
出モジュール４２とこれに関連する部分音声検出モジュ
ール４４は両方の経路２６と２８からの信号エネルギデ
ータを考察する。音声状態モジュール４２は図４により
詳細に図示されている状態装置を備えている。部分音声
検出モジュールは図３により詳細に図示されている。

【００１７】図２を参照して、適応閾値更新モジュール
３８を説明する。本実施例は、各エネルギ帯域について
３つの異なる閾値を用いる。したがって、図示の実施例
では合計６個の閾値がある。各閾値の目的は波形ダイア
グラムとこれに関連する議論を考えることによってより
明瞭にされるであろう。各エネルギ帯域について３種の
閾値Threshold、WThreshold、およびSThresholdが特定
される。第１の閾値Thresholdは，音声の始まりを検出
するために使用される。WThresholdは音声の終りを検出
するための弱い閾値である。SThresholdは音声検出決定
の有効性を認定するための強い閾値である。これらの閾
値はより正式には以下の通り定義される： Threshold＝ノイズレベル＋オフセット WThreshold＝ノイズレベル＋オフセット＊Ｒ１（Ｒ１＝
０．２〜１、０．５が現在選ばれている） SThreshold＝ノイズレベル＋オフセット＊Ｒ２（Ｒ２＝
１〜４、２が現在選ばれている）ここで、ノイズレベルは長期間の平均値、即ち、過去の
入力エネルギのヒストグラム内の最大値である。オフセット＝ノイズレベル＊Ｒ３＋変動＊Ｒ４（Ｒ３＝
０．２〜１、０．５が現在選ばれている；Ｒ４＝２〜
４、４が現在選ばれている）。変動は短期間変動、即ち、過去のＭ入力フレームの変動
である。

【００１８】図６はある一例の信号に重ね合せた３種の
閾値の関係を図示している。SThresholdはThresholdよ
り高く、WThresholdは一般にThresholdより低い。これ
らの閾値は入力信号のプリ音声無声部に含まれる全ての
過去の入力エネルギの最大値を決めるためのヒストグラ
ムデータ構造を用いたノイズレベルに基いている。図５
は一例のノイズレベルを図示している波形に重ね合せた
ヒストグラムの一例を示している。ヒストグラムはプレ
音声無声部が所定のノイズレベルエネルギを有する回数
を個数（Counts)として記録する。ヒストグラムはエネ
ルギレベル（ｘ軸上）の関数として個数（ｙ軸上）をプ
ロットする。図５に図示された例において、最も共通し
た（最高個数の）ノイズレベルエネルギはＥａのエネル
ギ値を有する。Ｅａの値は所定のノイズレベルエネルギ
に対応する。

【００１９】ヒストグラム（図５の）内に記録されたノ
イズレベルエネルギデータは入力信号のプレ音声無声部
から抽出されている。これに関連して、入力信号を供給
するオーディオチャネルはライブで実際の音声が始まり
以前よりデータを音声検出システムに送っていることが
前提となっている。かくして、プレ音声無声領域におい
て、システムは周囲のノイズレベルそれ自身のエネルギ
特性を有効にサンプリングしている。

【００２０】現在の好ましい実施例では、コンピュータ
のメモリ容量を減少させるため固定サイズのヒストグラ
ムを用いている。ヒストグラムデータ構造の適当な構成
は、微細な評価（小さいヒストグラムステップを含む）
の要求と広いダイナミックレンジ（大きいヒストグラム
ステップを含む）との間の調和を表わしている。微細な
評価（小さいヒストグラムステップ）と広いダイナミッ
クレンジ（大きいヒストグラムステップ）との間の衝突
を解消するため本システムは実際の作動条件に基いてヒ
ストグラムステップを適応的に調整する。ヒストグラム
ステップサイズを調整するのに採用されたアルゴリズム
は、以下の擬似コード（pseudocode）において記述さ
れ、ここでＭはステップサイズ（ヒストグラムの各ステ
ップにおけるエネルギ値の範囲を表わしている）であ
る。

【００２１】適応ヒストグラムステップのための擬似コ
ード初期化ステージの後：バッファ内の過去のフレームの平
均を計算する。Ｍ＝前回の平均値の１０分の１もし、Ｍ＜ＭＩＮ＿ＨＩＳＴＯＧＲＡＭ＿ＳＴＥＰな
ら、Ｍ＝ＭＩＮ＿ＨＩＳＴＯＧＲＡＭ＿ＳＴＥＰ終り

【００２２】上記の擬似コードにおいて、ヒストグラム
ステップＭは初期化ステージにおいてバッファされてい
る初期における仮定された無声部の平均値に基いて最適
化される。上記平均値は実際の背景ノイズ条件を示すと
仮定される。ヒストグラムステップは、下側の境界とし
てＭＩＮ＿ＨＩＳＴＯＧＲＡＭ＿ＳＴＥＰに制限される
ことに注目すべきである。このヒストグラムステップは
この時点以後固定される。

【００２３】ヒストグラムは、各フレームについて新し
い値を挿入することによって更新される。緩慢に変化す
る背景ノイズに適合するため、忘却（forgetting）ファ
クタ（本実施例では０．９０）が１０フレーム毎に導入
される。

【００２４】ヒストグラム更新用擬似コードもし、値＜HISTOGRAM_SIZE^*Mであれば、ヒストグラムを
忘却ファクタにより更新。もし、frame_in_histogram％
１０＝＝０であれば、（ｌ＝０；ｌ＜HISTOGRAM_SIZE；
ｌ＋＋について） histogram[ｌ]^*＝HISTOGRAM_FORGETTING_FACTOR；新しい値を挿入することによってヒストグラムを更新。 histogram[value＋M/2)/M]+=1; histogram[value−M/2)M]＋＝１．

【００２５】図２を参照して、適応閾値更新メカニズム
の基本ブロックダイアグラムが図示されている。このブ
ロックダイアグラムはモジュール３８と４０（図１）に
よって実行される演算を示している。短期間（現在デー
タ）エネルギは更新バッファ５０内に格納されるととも
に、先に述べたようにモジュール５２内においてヒスト
グラムデータ構造を更新するために使用される。更新バ
ッファはバッファ５０内に格納されたデータの過去のフ
レームについての変動を計算するモジュール５４によっ
て検査される。

【００２６】一方、モジュール５６はヒストグラム内の
最大エネルギ値（即ち、図５の値Ｅａ）を特定し、これ
を閾値更新モジュール５８に供給する。閾値更新モジュ
ールは最大エネルギ値とモジュール５４からの統計デー
タ（変動）を用いて第１閾値Thresholdを書き換える。
先に議論したように、Thresholdはノイズレベルと所定
のオフセットの和に等しい。このオフセットはヒストグ
ラムの最大値によって決まるノイズレベルとモジュール
５４によって供給される変動に基いている。他の閾値WT
hresholdとSThresholdは先に定義した式に従ってThresh
oldから計算される。

【００２７】通常の動作では、閾値はプレ音声領域内の
ノイズレベルを追跡することにより適応的に調整され
る。図３はこのコンセプトを図示している。図３におい
て、プレ音声領域は１００で示され、音声の始まりは２
００で表わされている。この波形上にはThresholdレベ
ルが重ね合されている。この閾値のレベルはプレ音声領
域内のノイズレベルを追跡し、これにオフセットが加え
られる。このようにして、ある音声セグメントに適用す
るThreshold（同様に、SThreshodとWThreshold）は音声
の始まりの直前に有効とされる閾値である。

【００２８】図１に戻って、音声状態検出および部分音
声検出モジュール４２と４４が記述される。データの１
フレームに基いて音声有／音声無の決定をなすのに代え
て、現在のフレームと現在フレームに続く２，３のフレ
ームを加えたものに基いて決定がなされる。音声検出の
始まりに関して、現在のフレームに続く付加的なフレー
ムを考慮すること（先読み）は、短いが強い、例えば、
電気パルスのようなノイズパルスの存在による誤検出を
回避することができる。音声検出の終りに関しては、フ
レームの先読み（frame look ahead）は、本質的には連
続する音声信号における間（pause）又は短い無声を音
声の終りとして誤検出することを回避することができ
る。この遅延による決定即ち先読み技法は更新バッファ
５０（図２）内にデータをバッファするとともに以下の
擬似コードにより記述されるプロセスを適用することに
よって達成される：音声テスト開始：遅延された決定の開始＝誤りＭ個の後続フレーム（Ｍ＝３；３０ｍｓ）をループ、も
し、Energy_All又はEnergy_HPF＞Threshold,遅延された
決定の開始＝真（TRUE)とする。音声テストの終り遅延された決定の終り＝誤りＮ個の後続フレーム（Ｎ＝３０；３００ｍｓ）をルー
プ、もし、Energy_AllとEnergy_HPFの両方＜Threshol
d、遅延された決定の終り＝真（TRUE)とする。ループの終り

【００２９】音声テストの開始における３０ｍｓの遅延
が閾値を上廻るノイズスパイク１１０の誤検出を回避す
る方法を図示する図７を参照されたい。同様に、音声テ
ストの終りを遅延させる３００ｍｓが音声信号中の短い
間１２０によって音声状態の終りをトリガすることを回
避する方法を図示している図８を参照されたい。

【００３０】上記擬似コードは遅延決定開始フラグと遅
延決定終了フラグの２つのフラグを設定する。これらの
フラグは図４に示される音声信号状態装置によって使用
される。音声の開始は、３個のフレーム（Ｍ＝３）に対
応する３０ｍｓの遅延を用いる。このことは、短いノイ
ズスパイクによる誤決定を遮蔽するのに通常は適当であ
る。終了は、３００ｍｓのオーダーのより長い遅延を使
用するが、これは、連結された音声内で生ずる通常の間
（pause）を適当に処理するために見出されたものであ
る。３００ｍｓの遅延は３０フレーム（Ｎ＝３０）に対
応する。音声信号のクリッピング又はチョッピングによ
るエラーを避けるため、データは開始と終了の両方につ
いて検出された音声部分に基いて付加的なフレームを付
加されてもよい。

【００３１】音声検出アルゴリズムの開始は少なくとも
ある与えられた最小長のプレ音声無声部の存在を前提と
している。実際、この仮定が有効でない場合、例えば、
入力信号が信号の脱落や回路切替え時の電力変動（glit
ches）によりクリップされ、これによって仮定された
“無声セグメント”が短縮されるか消された場合は時々
存在する。このような場合が生ずると、閾値は音声信号
が存在しない状態でのノイズレベルエネルギに基いてい
るので、誤って適用されることになる。更に、入力信号
が無声セグメントがない所までクリップされると、音声
検出システムは入力信号が音声を含むものとして認識す
ることができず、その結果、以後の音声処理を無意味な
ものとする入力状態における音声の損失をもたらす。

【００３２】部分音声条件を回避するため、拒否手法が
図３に図示されているように採用されている。図３は部
分音声検出モジュール４４（図１）によって採用されて
いるメカニズムを図示されている。部分音声検出メカニ
ズムは、適応閾値レベルにおける突然の跳びが存在する
か否かを決定するため閾値(Threshold）をモニタするこ
とにより働く。跳び検出モジュール６０は一連のフレー
ムに亘って閾値における変化を示す値を最初に蓄積する
ことによってこの分析を実行する。このステップは蓄積
された閾値変化Δを生成するモジュール６２によって実
行される。この蓄積閾値変化Δはモジュール６４内の所
定の絶対値Ａthrdと比較され、ΔがＡthrdより大きいか
否かに依存して、処理はブランチ６６又はブランチ６８
に進む。そうでない場合、モジュール７０が選ばれる。
（そうである場合、モジュール７２が選ばれる。）モジ
ュール７０と７２は別個の平均閾値を保持している。モ
ジュール７０は跳びを検出する前の閾値に対応した閾値
Ｔ１を保持し更新するとともに、モジュール７２は跳び
の後の閾値に対応するThreshold２を保持し更新する。
これら２つの閾値の比（Ｔ１／Ｔ２）は、その後、モジ
ュール７４内の第３の閾値Ｒthrdと比較される。比が第
３閾値より大きいならば、有効音声フラグがセットされ
る。有効音声フラグは図４の音声信号状態装置において
使用される。

【００３３】図９と図１０は動作中の部分音声検出メカ
ニズムが図示されている。図９はイエスブランチ６８
（図３）を取る条件に対応する一方、図１０はノーブラ
ンチ６６を取る条件に対応する。図９を参照すると、１
５０から１６０への閾値の跳びがあることに注目された
い。図示の例では、この跳びは絶対値Ａthrdより大き
い。図１０において、位置（５２から位置１６２への閾
値における跳びはＡthrdより大きくない跳びを表わす。
図９と図１０の両方において、跳び位置は破線１７０に
よって図示されている。跳び位置の前の平均閾値はＴ１
で示され、跳び位置の後の平均閾値はＴ２で示されてい
る。比Ｔ１／Ｔ２は比の閾値Ｒthrd（図３のブロック７
４）と比較される。有効音声は以下のようにしてプレ音
声領域における単純な浮遊ノイズから区別される。も
し、閾値の跳びがＡthrdより小さいか、或いは比Ｔ１／
Ｔ２がＲthrdより小さい場合に閾値の跳びに対応する信
号がノイズとして認識される。一方、比Ｔ１／Ｔ２がＲ
thrdより大きい場合、閾値の跳びに対応する信号は部分
音声として取扱われ、閾値を更新するのに使用されるこ
とはない。

【００３４】図４を参照すると、音声信号状態装置は初
期化状態３１０において３００で示されるようにスター
トする。該装置は無声状態３２０へ進み、ここで無声状
態において実行されるステップが音声状態３３０への遷
移を指示するまでこの状態に留まる。音声状態３３０に
おいて、状態装置は、音声状態３３０ブロック内におい
て図示されたステップによって示されるある条件が合致
すると、無声状態３２０に再遷移する。

【００３５】初期状態３１０において、データフレーム
はバッファ５０内に格納されるとともに、ヒストグラム
ステップサイズが更新される。好ましい実施例では最小
のステップサイズＭ＝２０で動作が開始されることが思
い出される。このステップサイズは先に述べた擬似コー
ドによって記述されるように初期化状態の間に最適化さ
れる。また、初期化状態の間、ヒストグラムデータ構造
は先に格納されたデータを先の動作から除去するように
初期化される。これらのステップの後、無声状態３２０
への状態装置の遷移が実行される。

【００３６】無声状態において、周波数帯域制御・短期
エネルギ値の各々は、基本の閾値Thresholdと比較され
る。先に述べたように、各信号経路はそれ自身の閾値の
セットを有する。図４において、信号経路２６に適用さ
れる閾値はThreshold_Allで示され、信号経路２８に適
用される閾値はThreshold_HPFで示される。同様の符号
付けが音声状態３３０において用いられる他の閾値に対
して用いられている。

【００３７】もし、短期エネルギ値のいずれか１つが閾
値を越えると、遅延決定開始フラグがテストされる。そ
のフラグが真（TRUE)と設定されていると、先に述べた
ように、音声メッセージの開始が復帰され、状態装置は
音声状態３３０に遷移する。そうでない場合、状態装置
は無声状態に留まり、ヒストグラムデータ構造は更新さ
れる。

【００３８】現実施例では、現在的でないデータの効果
を時間とともに蒸発させるため０．９９という忘却ファ
クタを用いてヒストグラムを更新する。このことは、現
在のフレームエネルギに関連する計数データを加算する
に先立ってヒストグラム内の現存する値に０．９９を掛
け合せることによって実行される。この方法で、過去の
データの効果は時間とともに徐々に消失される。

【００３９】音声状態３３０における処理は、閾値の異
なるセットが使用されるものの同様の流れに沿って進行
する。音声状態では、信号経路２６と２８における各エ
ネルギをWThresholdと比較する。いずれかの信号経路が
WThresholdを越えると、同様の比較がSThresholdに関し
ても行われる。いずれかの信号経路におけるエネルギが
SThresholdを越えると、音声有効フラグが真（TRUE)に
セットされる。このフラグは以後の比較ステップで使用
される。

【００４０】先に述べたように、遅延決定終了フラグが
先に真（TRUE）に設定されており、かつ音声有効フラグ
も真に設定されている場合、音声メッセージの終りが復
帰され、状態装置は無声状態３２０へと再復帰する。一
方、音声有効フラグが真に設定されていない場合、メッ
セージが先の音声検出と状態装置の無声状態３２０への
再遷移をキャンセルする。

【００４１】図１１と１２は種々のレベルが状態装置の
作動に影響する使用を示している。図１１は両方の信号
経路、全周波数帯域Band-Allと高周波帯域Band-HPFの同
時の作動を比較する。信号波形は、異なる周波数成分を
含んでいるので異なることに注意すべきである。図示の
例では、検出された音声として認識される最終領域は全
周波数帯域がｂ１において閾値と交差することによって
生成される音声の始まりおよび高周波帯域がｅ２の交差
に対応する音声の終了に対応している。異なる入力波形
は、勿論、図４に記載したアルゴリズムにしたがって異
なる結果を生成する。

【００４２】図１２は強い閾値SThresholdが強いノイズ
レベルの存在下で有効音声の存在を確認するのに使用さ
れる方法を示している。図示されているように、SThres
hold以下の強いノイズは、音声有効フラグが誤り（FALS
E)にセットされていることに対応する領域Rに対応す
る。

【００４３】

【発明の効果】以上述べたことから、本発明は、騒がし
い環境下における消費者向け用途において出会う多くの
問題を処理しつつ、入力信号における音声の開始と終了
を検出するシステムを提供するものであることが理解さ
れるであろう。本発明は現在の好ましい形態において記
述されているが、本発明は添付の請求の範囲に定義され
た本発明の要旨を逸脱することなしに種々の変更をなし
うることが理解されるべきである。

【図面の簡単な説明】

【図１】好適な２帯域の実施例における音声検出シス
テムのブロックダイアグラムである。

【図２】最適閾値を調整するのに用いられた本システ
ムの詳細なブロックダイアグラムである。

【図３】部分音声検出システムの詳細なブロックダイ
アグラムである。

【図４】本発明の音声信号状態装置を示す。

【図５】本発明を理解するのに有用な一例としてのヒ
ストグラムを示すグラフである。

【図６】音声検出のため信号エネルギを比較するのに
用いられる複数の閾値を示す波形ダイアグラムである。

【図７】強いノイズパルスの誤検出を避けるために用
いられる音声開始遅延検出メカニズムを示す波形ダイア
グラムである。

【図８】連続音声の中にある間（無声区間）を許容す
るために用いられる音声終り遅延検出メカニズムを示す
波形ダイアグラムである。

【図９】部分音声検出メカニズムの一態様を示す波形
ダイアグラムである。

【図１０】部分音声検出メカニズムの他の一つの態様
を示す波形ダイアグラムである。

【図１１】多帯域閾値解析が音声有状態に対応する最
終領域を選択するために結合される様子を示す集合波形
ダイアグラムである。

【図１２】強いノイズの存在下でのＳ閾値の使用を示
す波形ダイアグラムである。

【図１３】背景ノイズレベルに適合するような順応閾
値の挙動を示す。

【符号の説明】

２０…入力信号２２…ハミングウインド２４…高速フーリエ変換器（ＦＦＴ）２６，２８…信号経路３０，３２…総和モジュール３４，３６…平滑化フィルタ３８，４０…適応閾値更新モジュール４２…音声状態検出モジュール５０…更新バッファ

Claims

【特許請求の範囲】

【請求項１】音声信号の有無を決定するため入力信号
を検査する音声検出システムは以下のものを有する：入
力信号を複数の周波数帯域に分割する周波数帯域スプリ
ッタ、各帯域は周波数の異なる範囲に対応する帯域制限
信号エネルギを表わす；上記複数の周波数帯域の帯域制
限信号エネルギを各周波数帯域が当該帯域に関連する少
なくとも１つの閾値と比較されるように、複数の閾値と
比較するエネルギ比較システム、上記エネルギ比較システムに結合された音声信号状態装
置、該装置は、（ａ）少なくとも１つの帯域の帯域制限
信号エネルギがそれに関連する閾値の少なくとも１つよ
り大きいときに音声無の状態から音声有の状態に、
（ｂ）少なくとも１つの帯域の帯域制限信号エネルギが
それに関連する少なくとも１つの閾値より小さいときに
音声有の状態から音声無の状態に切替える。
【請求項２】少なくとも１つの周波数帯域内のエネル
ギを表わす経時データを蓄積するためヒストグラムデー
タ構造を採用した適応閾値更新システムをさらに備え
た、請求項１のシステム。
【請求項３】各周波数帯域に関連する個別の適応閾値
更新システムをさらに備えた、請求項１のシステム。
【請求項４】各周波数帯域内のエネルギの平均と変動
に基づいて複数の閾値を書替える適応閾値更新システム
をさらに備える、請求項１のシステム。
【請求項５】複数の閾値の少なくとも１つの変化率に
おける所定の跳びに対応する部分音声検出システムをさ
らに備え、該部分音声検出システムは、上記一の閾値の
平均値の跳びの前と後の比が所定の値を越えたときに、
上記状態装置の音声有状態への切替えを禁止する、請求
項１のシステム。
【請求項６】多重閾値システムをさらに備え、該多重
閾値システムは、以下の３つの閾値を規定し、ノイズレ
ベルを越える所定のオフセットとしての第１の閾値：該
第１の閾値の所定のパーセントとしての第２の閾値、第
２の閾値は第１の閾値より小さい；第１の閾値の所定の
倍数としての第３の閾値、第３の閾値は第１の閾値より
大きい；上記第１の閾値は音声無状態から音声有状態へ
の切替えを制御し、第２、第３の閾値は、音声有状態から音声無状態への切
替えを制御する、請求項１のシステム。
【請求項７】状態装置は少なくとも１つの帯域の帯域
制限信号エネルギが上記第２の閾値を下廻り、かつ、少
なくとも１つの帯域の帯域制限信号エネルギが上記第３
の閾値を下廻るときに音声有状態から音声無状態へ切替
える、請求項６のシステム。
【請求項８】上記入力信号の所定の時間増分を表わす
データを格納するとともに、上記複数の周波数帯域の少
なくとも１つの帯域制限信号エネルギが上記所定の時間
増分中、少なくとも１つの閾値を越えないときに、上記
状態装置の音声無状態から音声有状態への切替えを禁止
する、請求項１のシステム。
【請求項９】入力信号中に音声信号が有るか無いかを
決定する方法は以下のステップからなる：入力信号を複
数の周波数帯域に分割する、各帯域は周波数の異なる範
囲に対応した帯域制限信号を表わす；複数の周波数帯域
の帯域制限信号エネルギを、各周波数帯域が当該帯域に
関係する少なくとも１つの閾値と比較されるように、複
数の閾値と比較する；および以下のことを決定する；（ａ）上記帯域の少なくとも１つの帯域制限信号エネル
ギが関連する複数の閾値の少なくとも１つを上廻ったと
きに、音声有状態が存在する、および（ｂ）上記帯域の
少なくとも１つの帯域制限信号エネルギが関連する複数
の閾値の１つを下廻ったときに、音声無状態が存在す
る。
【請求項１０】上記周波数帯域の少なくとも１つの中
のエネルギを表わす経時データを蓄積したヒストグラム
を用いて、上記複数の閾値の少なくとも１つを規定する
ことをさらに含む、請求項９の方法。
【請求項１１】上記複数の周波数帯域の各々について
個別に上記複数の閾値の少なくとも１つを適応的に更新
することをさらに含む、請求項９の方法。
【請求項１２】各周波数帯域内におけるエネルギの平
均と変動に基づいて上記複数の閾値を書替えることをさ
らに含む、請求項９の方法。
【請求項１３】上記複数の閾値の少なくとも１つにお
ける変化率の所定の跳びを検出するとともに、上記１つの閾値の平均値の上記跳びの前後の比が所定の
値を越えたときに、音声有状態が存在しないことをさら
に含む、請求項９の方法。
【請求項１４】ノイズレベルを越えた所定のオフセッ
トとしての第１の閾値：第１の閾値の所定のパーセント
としての第２の閾値、第２の閾値は第１の閾値より小さ
い；第１の閾値の所定の倍数としての第３の閾値、第３
の閾値は第１の閾値より大きい；を規定するとともに、第１の閾値に基づいて音声有状態が存在することを決定
する；および上記第２、第３の閾値に基づいて音声無状
態が存在することを決定することをさらに含む、請求項
９の方法。
【請求項１５】上記複数の帯域の少なくとも１つの帯
域制限信号エネルギが第２の閾値より大きく、かつ、上
記複数の帯域の少なくとも１つの帯域制限信号エネルギ
が第３の閾値より大きい場合に、上記音声無状態が存在
すると決定される、請求項１４の方法。
【請求項１６】複数の帯域の少なくとも１つの帯域制
限信号エネルギが所定の時間増分中に少なくとも１つの
閾値を越えなかったときに、音声有状態が存在しないも
のと決定することをさらに含む、請求項９の方法。