JPH10254476A

JPH10254476A - 音声区間検出方法

Info

Publication number: JPH10254476A
Application number: JP9060236A
Authority: JP
Inventors: Tatsuo Matsuoka; 達雄松岡; Yasuhiro Minami; 泰浩南; Sadahiro Furui; 貞▲煕▼ 古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-03-14
Filing date: 1997-03-14
Publication date: 1998-09-25
Anticipated expiration: 2017-03-14
Also published as: JP3105465B2

Abstract

(57)【要約】【課題】背景雑音が非定常な信号である場合や，雑音環
境下においても正確な音声認識を可能とするため，入力
信号中から音声区間を正確に自動検出する。【解決手段】認識対象語彙（クラス）を網羅する全ての
音声を用いて学習した音声音響モデルと，音声の発声さ
れていない区間を用いて学習した非音声音響モデルとを
用い，入力信号の適当な区間長ごとに音声音響モデルと
非音声音響モデルの尤度比を計算する。その尤度比があ
るしきい値を越えた区間が一定時間継続した場合に，そ
の区間の始端，またはその区間の始端から一定時間さか
のぼった時点を音声区間の始端とし，その後，尤度比が
あるしきい値を下回る区間が一定時間継続した場合に，
その下回る区間の始端，またはその始端から一定時間経
過した時点を音声区間の終端として検出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，機械による自動音
声認識における音声区間検出方法に関する。音声を認識
するための装置に実装され，入力信号中から音声区間を
検出するために用いられる。

【０００２】

【従来の技術】従来の音声認識システムでは，主に音声
パワーの包絡の立ち上がり，立ち下がりにより音声区間
の始終端を検出していた。音声パワーに加えて，単位時
間のゼロ交叉数や，認識対象語彙，対象タスクの情報な
どの付加情報により検出精度を向上する手法などが提案
されているが，背景雑音が非定常な雑音である場合や，
連続発声された音声に適用するには十分な精度が得られ
ていたとは言えない。

【０００３】図４は，従来技術による信号のパワーに基
づく音声区間検出方法のフローチャートである。ディジ
タル化（標本化＆量子化）された入力信号はＮサンプル
（標本点）ごとにブロック化され，ブロックごとの信号
パワーが計算される。信号パワーは，各サンプルの振幅
値の二乗をブロック内で総和したものとして計算され
る。

【０００４】次に，背景雑音のレベルの変動を補償する
ためのパワーの正規化処理を行う。まず，Ｅ_minを次の
ように計算する。Ｅ_min＝ｍｉｎ（Ｅ（ｋ））〔１≦ｋ≦ＮＦ〕ここで，ＮＦ（Number of Frames）は，入力信号の長さ
をフレームでカウントした値であり，ｍｉｎ（）は，ｋ
が１からＮＦまでの中の最小値を表す。

【０００５】正規化したパワーＥ_n（ｋ）は，次のよう
に定義する。Ｅ_n（ｋ）＝Ｅ（ｋ）−Ｅ_min，ｋ＝１，２，…，Ｎ
Ｆ次に，信号パワーのヒストグラムを求めることにより，
背景雑音レベルを推定する。ヒストグラムは例えば１５
ｄＢ以上のフレームについて求める。そして，３点メデ
ィアン平滑化を適用し，修正したパワーの輪郭Ｅ
_s（ｋ）を得る。

【０００６】Ｅ_s（ｋ）＝Ｅ_n（ｋ）−Ｍｏｄｅここで，Ｍｏｄｅは平滑化されたヒストグラムのモード
である。このようにして求められた信号パワーＥ
_s（ｋ）（図中ｅｎｅｒｇｙ）と，実験的に決定された
しきい値（図中ＴＨＲ）とを比較し，信号パワーＥ
_s（ｋ）がしきい値ＴＨＲを越えるフレーム数をカウン
トし，カウントしたフレーム数が一定値（図中ＭＩＮＬ
ＥＮ）を越えた場合，その始端が音声区間の始端として
検出される。ただし，音声区間中にも短いポーズは存在
しうるため，ある一定時間（図中ＭＡＸＰＡＵＳＥ）は
無音区間があっても音声区間に含めて検出する。ＭＡＸ
ＰＡＵＳＥを越える時間，信号パワーがしきい値ＴＨＲ
を下回った場合，その始端が音声区間の終端として検出
される。

【０００７】図中，ｓｐｅｅｃｈ，ｐａｕｓｅはカウン
タで，それぞれフレーム数をカウントする。ｓｐｅｅｃ
ｈは，信号パワーがしきい値ＴＨＲを越えるフレーム数
を，ｐａｕｓｅは，信号パワーがしきい値ＴＨＲより小
さいフレーム数をカウントする。音声区間の始端と終端
では，信号パワーの低い部分を取りこぼさないように，
それぞれＢＥＧ，ＥＮＤフレームだけ音声区間に糊代を
付加して検出する。

【０００８】以上の図４の処理を，各ステップに従って
説明すると，ステップＳ２０では，Ｎサンプルごとにブ
ロック化された入力信号を１データブロック（フレー
ム）入力する。ステップＳ２１では，入力したブロック
の信号パワーを計算する。ステップＳ２２では，計算し
た信号パワーｅｎｅｒｇｙと所定のしきい値ＴＨＲとを
比較し，ｅｎｅｒｇｙが大きい場合にはステップＳ２３
へ進み，そうでない場合にはステップＳ２６へ進む。

【０００９】ステップＳ２３では，音声区間を計数する
ためのカウンタｓｐｅｅｃｈをインクリメントし，も
し，音声区間に含めてよい短い無音（ポーズ）区間がカ
ウントされていれば（ステップＳ２４），ステップＳ２
５によって，そのポーズ区間のカウンタｐａｕｓｅの値
をカウンタｓｐｅｅｃｈに加え，その後ステップＳ２０
へ戻って，次のブロックの処理を同様に繰り返す。

【００１０】信号パワーｅｎｅｒｇｙがしきい値ＴＨＲ
を下回っている場合，ステップＳ２６により，音声区間
がカウントされているかどうかを調べ，未カウントであ
ればステップＳ２０へ戻る。音声区間がカウントされて
いれば，ステップＳ２７により，ポーズ区間のカウンタ
ｐａｕｓｅをインクリメントする。

【００１１】ステップＳ２８では，カウンタｐａｕｓｅ
の値と所定のＭＡＸＰＡＵＳＥとを比較し，カウンタｐ
ａｕｓｅの値がＭＡＸＰＡＵＳＥより大きければステッ
プＳ２９へ進み，そうでなければステップＳ２０へ戻
る。

【００１２】ステップＳ２９では，カウンタｓｐｅｅｃ
ｈの値と所定のＭＩＮＬＥＮとを比較し，カウンタｓｐ
ｅｅｃｈの値がＭＩＮＬＥＮより大きければステップＳ
３１へ進み，そうでなければステップＳ３０へ進む。ス
テップＳ３０では，短い音声区間を無視するため，ｓｐ
ｅｅｃｈとｐａｕｓｅを０に初期化し，ステップＳ２０
へ戻って同様に処理を繰り返す。

【００１３】ステップＳ３１では，現ブロックからｐａ
ｕｓｅとｓｐｅｅｃｈと音声区間の始端の糊代分のＢＥ
Ｇを加えたブロック数を戻した点を音声区間の始点とす
る。ステップＳ３２では，その始点からＢＥＧとｓｐｅ
ｅｃｈと音声区間の終端の糊代分のＥＮＤを加えたブロ
ック数を進めた点を音声区間の終端とする。その後，ス
テップＳ３０によりｓｐｅｅｃｈとｐａｕｓｅを初期化
し，同様に処理を続ける。

【００１４】

【発明が解決しようとする課題】以上のような従来の手
法は，信号対雑音比が３０ｄＢ以上の環境や，雑音が定
常的な性質のものである場合には，おおむね良好に動作
する。しかし，現実的な環境では，これらの手法がうま
く機能しない場面が多い。非定常な背景雑音が存在する
場合や，背景雑音のレベルが比較的高い場合などには音
声パワーの包絡から音声区間の検出をすることは非常に
困難である。

【００１５】本発明の目的は，背景雑音が非定常な信号
である場合や，雑音環境下においても正確な音声認識を
可能とするため，入力信号中から音声区間を自動的に検
出する方法を提供することにある。

【００１６】

【課題を解決するための手段】本発明は，認識対象語彙
（クラス）を網羅する全ての音声を用いて学習した音声
音響モデルと，音声の発声されていない区間を用いて学
習した非音声音響モデルとを用い，入力信号の適当な区
間長ごとに音声音響モデルと非音声音響モデルの尤度比
を計算する。その尤度比があるしきい値を越えた区間が
一定時間継続した場合に，その区間の始端，またはその
区間の始端から一定時間さかのぼった時点を音声区間の
始端とし，その後，尤度比があるしきい値を下回る区間
が一定時間継続した場合に，その下回る区間の始端，ま
たはその始端から一定時間経過した時点を音声区間の終
端として検出する。

【００１７】以上のように，本発明は，音声と背景雑音
の周波数領域での統計的性質に基づき信号中から音声区
間を検出するため，信号のパワーやゼロ交叉数による方
法では問題となった背景雑音が非定常雑音である場合
や，背景雑音のレベルが高い場合にも正確に音声区間を
検出できるという利点がある。

【００１８】

【発明の実施の形態】図１は，本発明の実施の形態を示
すブロック図である。まず，バンドパスフィルタによる
フィルタリング部１により，入力信号をフィルタリング
した後，Ａ／Ｄ変換部２によってアナログ／ディジタル
変換（サンプリング，および，量子化）し，ディジタル
信号を得る。

【００１９】次に，高域強調部３により，ディジタル化
された信号に，下記の［式１］に従って高域強調の処理
を施す。これは，通常，音声信号の周波数特性が低域か
ら高域にかけて下降する傾向にあり，これを補償するた
めである。

【００２０】Ｈ（ｚ）＝１−ａｚ^-1 ［式１］さらに，特徴抽出のため，特徴量抽出部４により，信号
を適当な長さ（例えば，３２ｍｓ）毎にブロック化し，
適当な長さ（例えば８ｍｓ）毎にシフトしながら特徴量
分析を行う。以下では，このシフト幅をフレームと呼
ぶ。

【００２１】各フレームは，次の［式２］に示されるＨ
ａｍｍｉｎｇ窓などにより重み付けを行い，フレーム毎
に切り出すことによる影響を低減する。ｗ（ｎ）＝0.54−0.46 cos（２πｎ／Ｎ），０≦ｎ≦Ｎ−１［式２］音声信号の特徴量としては，ＬＰＣ(Linear Predictive
Coefficient：線形予測係数）分析に基づくケプストラ
ムとその一次時間微分を用いる。

【００２２】以上のディジタル信号処理の後，尤度比計
算部５によって，二つのＨＭＭ（Hidden Markov Model)
に対する尤度を計算する。一つめのＨＭＭは，全ての語
彙に対応する音声ＨＭＭである。このモデルは，対象語
彙の全てを含む音声を用いて学習され，対象語彙の音声
信号に対しては高い尤度を示すが，それ以外の信号には
尤度が低くなるように期待される。もう一つのＨＭＭ
は，無音区間など認識対象語彙外の信号区間を用いて学
習された非音声ＨＭＭで，無音区間で高い尤度を示し音
声信号には低い尤度を示すことが期待される。それぞれ
のＨＭＭは非常に簡単な構造のモデルでよく，尤度計算
は高速に行うことが可能である。

【００２３】以上の尤度の比から，音声区間判定部６に
よって音声区間を検出し，その結果を出力する。図２は
本実施の形態による処理の流れを示すフローチャートで
ある。以下に，フローチャートに従って処理の流れを説
明する。

【００２４】なお，以下の説明において，カウンタｓｐ
ｅｅｃｈは，音声区間長を計るカウンタで，ｐａｕｓｅ
は，無音区間と考えられる区間の区間長を計るカウンタ
である。しかし，音声区間内でも短いポーズは存在しう
るため，ＭＡＸＰＡＵＳＥ以下の長さのポーズは音声区
間に含めている。また，ＭＩＮＬＥＮを越えない区間は
音声区間として検出しない。これは，あまり短い区間を
音声区間として抽出すると誤検出が増加するためであ
る。

【００２５】各フレームごとのケプストラム，およびデ
ルタケプストラムに対して音声ＨＭＭと非音声ＨＭＭに
対する尤度を計算し，その尤度比（図中ｄｉｆｆ）を求
める（ステップＳ１，Ｓ２）。ｄｉｆｆの定義は次式の
通りである。

【００２６】diff＝log Ｐ（ｏ_t｜allspeech ）−log
Ｐ（ｏ_t｜background）ここで，log Ｐ（ｏ_t｜allspeech ）は，時刻ｔでの音
声ＨＭＭの入力信号ｏ_tに対する対数尤度，log Ｐ（ｏ
_t｜background）は，同じく，非音声ＨＭＭの対数尤度
である。フレームごとの対数尤度には細かいギャップな
どが存在し，安定した尺度でないため，Ｍフレームに渡
ってｄｉｆｆの総和を取ることにより平滑化を行う（ス
テップＳ３）。

【００２７】次のステップＳ４では，平滑化後のｄｉｆ
ｆ（図中ｍｅａｓｕｒｅ）を，あらかじめ実験的に決定
しておいたしきい値（図中ＴＨＲ）と比較し，ｍｅａｓ
ｕｒｅがしきい値ＴＨＲより大きければ，ステップＳ５
へ進み，そうでなければ，ステップＳ１０へ進む。

【００２８】ｍｅａｓｕｒｅ＞ＴＨＲのとき，ステップ
Ｓ５では，当該フレームを音声区間の一部と判定して，
カウンタｓｐｅｅｃｈをインクリメントする。次に，ス
テップＳ６により，ポーズ区間の長さを計るカウンタｐ
ａｕｓｅの値が０かどうかを判定し，ｐａｕｓｅ＝０で
あればステップＳ７をスキップし，ｐａｕｓｅ＝０でな
ければ，ステップＳ７によって，音声区間のカウンタｓ
ｐｅｅｃｈに，ｐａｕｓｅの値を加える。

【００２９】次に，ステップＳ８により，ｓｐｅｅｃｈ
と音声区間とみなすための長さを定めたＭＩＮＬＥＮと
を比較し，ｓｐｅｅｃｈ＜ＭＩＮＬＥＮか，またはすで
に音声区間の始端（ｓｔａｒｔｐｏｉｎｔ）がセット
されていれば，ステップＳ１へ戻って，入力信号の次の
フレームに対して一連の処理を繰り返す。

【００３０】ｓｐｅｅｃｈ≧ＭＩＮＬＥＮであり，かつ
始端がセットされていなければ，当該フレームよりＢＥ
Ｇフレーム戻ったフレームを始端（ｓｔａｒｔｐｏｉ
ｎｔ）としてセットする。この音声区間検出と並列して
音声認識を走らせる場合には，ここで音声認識を駆動す
る。その後，ステップＳ１へ戻り，入力信号の次のフレ
ームに対して同様に処理を繰り返す。

【００３１】ステップＳ４の判定において，ｍｅａｓｕ
ｒｅがしきい値ＴＨＲより小さければ，ステップＳ１０
でｓｐｅｅｃｈが０かどうかを調べ，０であればステッ
プＳ１へ戻る。０でなければ，ステップＳ１１へ進み，
カウンタｐａｕｓｅをインクリメントする。

【００３２】次に，ステップＳ１２では，これまでのポ
ーズ区間が短いかどうかを調べるため，ｐａｕｓｅと所
定のＭＡＸＰＡＵＳＥとを比較する。ｐａｕｓｅがＭＡ
ＸＰＡＵＳＥより大きくないとき，ポーズ区間を音声区
間とみなしてよい場合があるので，ステップＳ１へ戻
り，同様に次のフレームの処理を行う。

【００３３】ｐａｕｓｅがＭＡＸＰＡＵＳＥより大きけ
れば，ステップＳ１３へ進み，始端（ｓｔａｒｔｐｏ
ｉｎｔ）がセットされているかどうかを判定する。始端
がセットされていない場合には，ステップＳ１４によ
り，ｓｐｅｅｃｈとｐａｕｓｅとを０に初期化し，ステ
ップＳ１へ戻り，入力信号の次のフレームに対して一連
の処理を繰り返す。

【００３４】始端がセットされている場合には，ステッ
プＳ１５により，セットされている始端から当該フレー
ムまでを音声区間として出力する。その後，ステップＳ
１６によりシステムを初期化し，ステップＳ１から同様
に処理を繰り返す。

【００３５】

【実施例】図３に，信号パワーに基づいて音声区間検出
を行う従来法と統計的音響モデルの尤度比に基づく本発
明の方法の比較評価の結果を示す。

【００３６】評価実験では，連続発声された４桁数字の
認識を対象タスクとした。音声区間検出方法を定量的に
評価するには，正解区間からの差分を定量的に評価すれ
ばよいように思えるが，正解区間をどのように与えるか
などの課題が残る。本発明の音声区間検出方法は，音声
認識のためのものであるから，音声認識の精度を測るこ
とでより直接的に本発明の効果を評価できる。ここで
は，同様の音声認識手法のもとで，音声区間検出方法を
従来法と本発明の方法として比較した。

【００３７】評価対象には，一つの音声ファイル中に３
５の４桁数字が含まれた５１の音声ファイルを用いた。
合計で１７８５の４桁数字がある。背景雑音が含まれた
データとして車の走行音を加算したデータを作成した。
車の走行音を含まない音声データのＳ／Ｎ比はおよそ２
５ｄＢ，車の走行音を含む音声データのＳ／Ｎ比はおよ
そ１２ｄＢである。また，音声区間検出方法の比較とし
ては，パワーに基づく従来法，統計的音響モデルの尤度
比に基づく本発明の方法のほか，人手により（波形を視
認し，また音声を聴取しながら）音声区間を検出した実
験も行った。

【００３８】図３（Ａ）は，パワーに基づく方法におい
て本実験に用いたパラメータを示す。実験的に最適値を
選んだ。図３（Ｂ）は，統計的音響モデルの尤度比に基
づく方法（本発明の方法）において用いたパラメータを
示す。同じく，実験的に最適値を選んだ。ここでは，Ｍ
ＡＸＰＡＵＳＥとＥＮＤは同じ値を用いた。

【００３９】図３（Ｃ）は，Ｓ／Ｎ比が２５ｄＢ，１２
ｄＢの音声データに対する，各音声区間検出方法を用い
た場合の４桁数字の認識結果を示している。この図にお
いて，Error rate（％）は，誤認識した割合, False al
arm は，音声区間でない部分を音声区間として検出して
しまった区間の数である。この結果より，本発明による
方法は人手による方法に比べ遜色なく，従来法に比べて
明らかに有効であることがわかる。

【００４０】

【発明の効果】本発明によれば，背景雑音が非定常雑音
である場合や，雑音レベルが高い場合にも正確に入力信
号中から音声区間を検出できるという利点がある。

【図面の簡単な説明】

【図１】本発明の実施の形態を示すブロック図である。

【図２】音声ＨＭＭと非音声ＨＭＭの尤度比を用いて音
声区間を検出する本発明の実施の形態による処理の流れ
を説明するフローチャートである。

【図３】信号パワーに基づいて音声区間検出を行う従来
法と統計的音響モデルの尤度比に基づく本発明の実施例
による方法の比較評価の結果を示す図である。

【図４】信号パワーによって音声区間を検出する従来手
法の処理の流れを説明するフローチャートである。

【符号の説明】

１フィルタリング部２Ａ／Ｄ変換部３高域強調部４特徴量抽出部５尤度比計算部６音声区間判定部

Claims

【特許請求の範囲】

【請求項１】機械による自動音声認識において入力信
号中から音声区間を検出する方法であって，認識対象語
彙を網羅する全ての音声を用いて学習した音声音響モデ
ルと，音声の発声されていない区間を用いて学習した非
音声音響モデルとを具備し，入力信号の適当な区間長ご
とに音声音響モデルと非音声音響モデルの尤度比を計算
し，尤度比があるしきい値を越えた区間が一定時間継続
した場合に，その区間の始端を音声区間の始端とし，そ
の後，尤度比があるしきい値を下回る区間が一定時間継
続した場合に，その始端を音声区間の終端として検出す
ることを特徴とする音声区間検出方法。
【請求項２】機械による自動音声認識において入力信
号中から音声区間を検出する方法であって，認識対象語
彙を網羅する全ての音声を用いて学習した音声音響モデ
ルと，音声の発声されていない区間を用いて学習した非
音声音響モデルとを具備し，入力信号の適当な区間長ご
とに音声音響モデルと非音声音響モデルの尤度比を計算
し，尤度比があるしきい値を越えた区間が一定時間継続
した場合に，その区間の始端から一定時間さかのぼった
時点を音声区間の始端とし，その後，尤度比があるしき
い値を下回る区間が一定時間継続した場合に，その始端
から一定時間経過した時点を音声区間の終端として検出
することを特徴とする音声区間検出方法。