JPH06100920B2

JPH06100920B2 - 音声認識装置

Info

Publication number: JPH06100920B2
Application number: JP61267007A
Authority: JP
Inventors: 武志則松
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-11-10
Filing date: 1986-11-10
Publication date: 1994-12-12
Anticipated expiration: 2009-12-12
Also published as: JPS63121099A

Description

【発明の詳細な説明】産業上の利用分野本発明は、標準パターンと入力音声パターンとのパター
ンマッチングにより認識結果を導き出す音声認識装置に
関するものである。

従来の技術一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法（ダイナミックプログラミング法）
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマッチング（以下、DPマッチングと記す。）が
使用されている。特に、単語音声認識装置では、このDP
マッチング法により高い認識率を得ている。（例えば、
「ダイナミックプログラミングオプティミゼイショ
ンフォスポークンワードレコグニション」（H.
Sakoe and S.Chiba,"Dynamic programming optimizatio
n for sporken word recognition",IEEE trans.Acousti
c,Speech,Signal Processing,Vol.ASSP−27pp.336−34
9,1979））発明が解決しようとする問題点しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマッチングを行うため、異なった
音声パターン間のDPマッチングにおいても、極端な時間
軸の非線形伸縮のため両者の距離が小さくなる場合があ
り、誤認識を生じる原因となっていた。例えば「大阪」
と「大分」とはエネルギー系列で見ると、前者は三つ、
後者は二つのエネルギーの山があり明らかに異なった二
つのパターンであるが、音韻的には似通っているためDP
マッチングにより距離が小さくなってしまう。

また、類似した音声パターン間のDPマッチングでは、音
声パターン全体に渡ってDPマッチングを行なうため、両
者間の違いが埋もれてしまい、その結果、パターン間の
距離が小さくなり誤認識を生じやすいという問題点を有
していた。

また、認識対象外単語が入力された時にも標準パターン
の一つにマッチングしてしまい、対象外単語のリジェク
ト性能には限界があった。

本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なDPマッチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のリジェクト
性能を高めることのできる音声認識装置を提供するもの
である。

問題点を解決するための手段上記目的点を解決するために本発明の音声認識装置は、
入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析手段と、前記音声分析手段から出
力されるエネルギー系列から無音区間を検出する無音区
間検出手段と、各標準パターンの無音区間のフレーム位
置及び個数を管理する無音区間管理手段と、標準パター
ン各々の無音区間の優先順位をあらかじめ決定し管理す
る無音区間優先順位管理手段と、最も確実に検出できる
無音区間の個数が入力音声の無音区間の個数以下の標準
パターンのみを認識対象として選択する予備選択手段
と、標準パターンの無音区間の優先順位に従って入力音
声と標準パターンの無音区間のフレーム位置の交点をマ
ッチングパスが必ず通過するように制限を加えたパター
ンマッチングを行ない、両者間の距離を算出する認識手
段とを備えたものである。

作用本発明は上記に述べた構成によって、あらかじめ標準パ
ターンの無音区間を調べ検出が確実な無音区間点から順
位付けを行い、その中でも最も確実な無音区間を最優先
無音区間として管理し、最優先無音区間の個数が入力音
声の無音区間の個数以下の標準パターンと入力音声との
間でのみ、優先順位に従ってそれぞれの無音区間のフレ
ーム位置を合わせて必ずその交点をマッチングパスが通
過するように制限をしたパターンマッチングを行い認識
結果を導き出すことにより、処理時間の短縮が図れ、類
似パターン間の誤認識および極端なマッチングによる誤
認識を極力抑えることができ、さらに認識対象外単語が
入力された時には極力リジェクトすることができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声入力部で、話
者の音声がマイクロホン、電話機のハンドセット等を通
して入力される。２は音声分析手段で、入力された音声
信号から特徴ベクトルの時系列を抽出する。３は音声区
間検出手段で、音声のエネルギー系列から無音区間部分
を検出する。４は標準パターン管理手段で、各標準パタ
ーンの記憶されているアドレス及びフレーム長を管理す
る。５は無音区間管理手段で、各標準パターンの無音区
間の個数、フレーム位置を管理する。６は無音区間優先
順位管理手段で、各標準パターンの無音区間を多数の音
声データより統計的手段等で順位付けを行い、その中で
も最も確実な無音区間を最優先無音区間として管理す
る。７は最優先無音区間の個数と入力音声の無音区間の
個数により認識対象の標準パターンを限定する予備選択
手段、８は入力パターンと予備選択手段７により選択さ
れた各標準パターンとの間で経路制限をしたパターンマ
ッチングを行う認識手段、９は認識候補音声をLED等に
表示、あるいは合成音声で結果を知らせる認識結果出力
部である。

第２図は本実施例の構成を示す回路図で、上記の無音区
間検出手段３、標準パターン管理手段４、無音区間管理
手段５、無音区間優先順位管理手段6,認識手段７をマイ
クロコンピュータ25で実現したものである。10は音声の
入力を行なうマイクロホン、11はマイクロホン10から入
力された音声信号をアナログ−ディジタル変換するアナ
ログ／ディジタル変換器（以下A/D変換器という。）で
ある。12は音声の特徴ベクトルの抽出を行う特徴抽出
部、13は入力音声の無音区間を検出する無音区間検出
部、14は入力音声の特徴ベクトルの時系列を記憶するバ
ッファメモリ、15は標準パターン音声の特徴ベクトルの
時系列を記憶する標準パターンメモリ、16は各標準パタ
ーンのアドレス及びフレーム長を管理する標準パターン
管理テーブル、17は各標準パターンの無音区間点を管理
する無音区間管理テーブル、18は各標準パターンの無音
区間の優先順位を記憶する優先順位テーブル、19は標準
パターンと入力パターンとの類似度を計算するパターン
マッチング部、20は認識候補音声を判定する認識判定
部、21は認識候補音声の合成音声を作り出す音声合成回
路、22は合成音のための音声メモリ、23は音声合成出力
を増幅する増幅器、24はスピーカである。

第３図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。以上の構成によ
る本実施例の動作を、第３図のフローチャートに沿って
詳細に説明する。

まず、マイクロホン10から音声を入力し、A/D変換器11
で音声信号をアナログ−ディジタル変換したあと、特徴
抽出部12で音声パターンの特徴ベクトル（例えば、10次
元の線形予測係数）の時系列とエネルギー系列を求め、
バッファメモリ14に記憶する。次に、ステップ30でバッ
ファメモリ14に記憶されたエネルギー系列からエネルギ
ー値がしきい値を下回る区間が一定時間T₀を超える区間
を無音区間として検出し、無音区間の個数と各無音区間
の最終フレーム位置を記憶する。なお、あらかじめ各標
準パターンの特徴ベクトルの時系列が標準パターンメモ
リ15に、各標準パターンのメモリ配置、フレームの長さ
が標準パターン管理テーブル16に、各標準パターンに対
応した無音区間の個数とフレーム位置が無音区間管理テ
ーブル17に、各標準パターンの無音区間の優先順位及び
最優先無音区間の個数，フレーム長が優先順位テーブル
18に蓄えられているものとする。

まず標準パターンメモリ15に記憶された第一番目の標準
パターンから順次認識処理を行うべきかを以下の手順で
判定する。始めにステップ31でＫ＝１とおく。これは、
第一番目の標準パターンを意味する。次にステップ32で
入力音声の無音区間数1_Mと優先順位テーブル18に記憶さ
れた第Ｋ番目の標準パターンの最優先無音区間数J_SKと
を比較する。I_M≧J_SKの時は、ステップ33に進み今度は
入力音声の無音区間数I_Mと第Ｋ番目の標準パターンの無
音区間数J_MKとを比較する。I_M≧J_MKのときはステップ33
に進む。ステップ31、ステップ32の判定処理により標準
パターンの予備選択を行っており、これらの条件を満た
さない標準パターンは認識候補からはずれたものとして
ステップ37以降に進みその他の標準パターンについて同
様の処理を続ける。

ステップ34では、入力音声の無音区間のフレーム位置を
優先順位テーブル18の優先順位に従って標準パターンの
無音区間のフレーム位置に一致させる。ここでは入力パ
ターンに一つ、標準パターンに三つ最も確からしい無音
区間が存在する場合について説明する。

入力パターンのフレーム長をＩ、その無音区間の最終フ
レーム位置をI₁、標準パターンのフレーム長をＪ、その
各無音区間の最終フレーム位置をJ₁、J₂、J₃とする。こ
こで優先順位の最も高いフレームをJ₁とすると、入力パ
ターンのI₁フレームと標準パターンのJ₁フレームとを対
応ずければよい。

そこで、ステップ35では、０＜ｉ＜I₁かつJ₁＜ｊ≦Ｊまたは I₁＜ｉ≦ＩかつＯ＜ｊ＜J₁ の条件を満たす入力パターンの第ｉフレームと標準パタ
ーンの第ｊフレームとの特徴ベクトル間の距離を無限大
にセットする。ステップ35の設定が終ると、ステップ36
により入力パターンと標準パターン間でDPマッチングを
行ない、両者間の距離を算出する。ここで得られる距離
は、入力パターンの第I₁フレームと標準パターンの第J₁
フレームの交点をマッチングパスが必ず通過するように
制限を加えたDPマッチングを行なった時に得られる結果
である。ここで、入力パターンの第I₁フレームと標準パ
ターンの第J₁フレームの交点が整合窓の範囲を超える場
合は両者のDPマッチングは不可能であるためこの標準パ
ターンは認識候補からはずす。

この後、ステップ37で次の標準パターンに進むためＫ＝
Ｋ＋１としステップ38でＫ＞Ｎの判定を行い満足しなけ
ればステップ32に戻り同様の処理を続ける。ここで、Ｎ
は標準パターンメモリ15に記憶された全標準パターン数
である。

ステップ38の条件が満足すると、ステップ36に進み、認
識判定部20で得られた距離値のうち最小値を与える標準
パターンを認識候補音声と判定し、認識候補音声に対応
した合成音声を音声合成回路21及び音声メモリ22により
作り出し、増幅機23、スピーカ24を介して出力する。

なお、本実施例では、入力パターンの無音区間の個数が
１個の場合について説明したが、無音区間が２個以上存
在する場合にも、ステップ32、33の条件を満たしていれ
ば優先順位テーブルに従って同様の処理を行なうことが
できる。例えば、標準パターン、入力音声パターンの無
音区間の個数が各々３、２の場合、無音区間テーブルの
順位に従った上位２個に時間的順序に従って一致させ
る。

以上のように本実施例によれば、音声パターン中の無音
区間を検出する無音区間検出手段と各標準パターンの無
音区間の個数、フレーム位置を記憶する無音区間管理手
段と無音区間の優先順位及び最優先無音区間を管理する
無音区間優先順位管理手段を持ち、最優先無音区間の個
数が入力音声の無音区間の個数以下の標準パターンを選
択する予備選択手段により認識候補を限定し、各標準パ
ターンについて決定した優先順位に従って入力パターン
と標準パターンの無音区間のフレーム位置の交点を通過
するように制限を加えたDPマッチングを行なうことによ
り、認識処理時間が短縮でき、さらに極端なマッチング
による誤認識、および音韻的に類似したパターン間の誤
認識を減少させることができる。

発明の効果以上のように本発明は、音声パターン中の無音区間の個
数とそのフレーム位置を検出する無音区間検出手段と、
各標準パターンの無音区間の個数、及びフレーム位置を
記憶する無音区間管理手段と、各標準パターンの無音区
間の出現の優先順位を多数の音声データの統計的性質等
から決定し、最も確実な無音区間は最優先無音区間とし
て管理する無音区間優先順位管理手段と、最優先無音区
間の個数が入力音声の無音区間の個数以下である標準パ
ターンのみを選択する予備選択手段を持ち、予備選択さ
れた標準パターンと入力音声との間で無音区間の優先順
位に従って入力パターンと標準パターンでの無音区間の
フレーム位置を時間的順序に従い合わせ、その交点をマ
ッチングパスが必ず通過するように制限したDPマッチン
グを行ない、距離の最小となる標準パターンを認識結果
として導き出すことにより、同単語間では二つのパター
ンを最適にマッチングさせ、異単語間では極端なマッチ
ングを生じさせることになり、音韻の類似したパターン
間での誤認識、および極端なマッチングによる誤認識を
極力抑えることのでき、また認識対象外単語が入力され
た時には極力リジェクとすることのできる音声認識装置
を提供することができる。また、認識処理を行う標準パ
ターンを予備選択することにより認識処理にかかる時間
を短縮することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第２図は同装置の構成を示す回路
図、第３図は同装置の動作説明のための要部フローチャ
ートである。３……音声区間検出手段、４……標準パターン管理手
段、５……無音区間管理手段、６……無音区間優先順位
管理手段、７……予備選択手段、８……認識手段、10…
…マイクロホン、14……バッファメモリ、15……標準パ
ターンメモリ、16……標準パターン管理テーブル、17…
…無音区間管理テーブル、18……優先順位テーブル、21
……音声合成回路、22……音声メモリ。

Claims

【特許請求の範囲】

【請求項１】入力音声からエネルギー系列を含む特徴ベ
クトルの時系列を出力する音声分析手段と、前記音声分
析手段から出力されるエネルギー系列から音声パターン
中の音声部分と無音部分を判別し、無音区間の個数およ
びそのフレーム位置を検出する無音区間検出手段と各標
準パターンの記憶されているアドレス、及びそのフレー
ム長を管理する標準パターン管理手段と、前記標準パタ
ーン管理手段により管理された各標準パターンの無音区
間の位置をあらかじめ検出しそのフレーム位置と個数を
管理する無音区間管理手段と、前記無音区間管理手段に
管理された各標準パターンの無音区間のフレーム位置
を、認識対象単語各々の多数の音声データの統計的性質
から得られる確実な無音区間点から順位付けを行い、ま
たその中で最も確実に検出できる無音区間点は最優先無
音区間とし、それらはすべて第一位の順位としてその個
数、フレーム位置を管理する無音区間優先順位管理手段
と、前記無音区間優先順位管理手段で管理された標準パ
ターンの最優先無音区間数が、前記無音区間検出手段か
ら得られる入力音声の無音区間の個数以下の標準パター
ンだけを認識対象とする予備選択手段と、前記予備選択
手段で選択された標準パターンと入力音声との間で、前
記無音区間管理手段に記憶された各標準パターンの最も
確実な無音区間点から時間軸に沿って順に入力音声の最
も確実な無音区間点とそのフレーム位置を一致させパタ
ーンマッチングを行い両者間の距離を算出する認識手段
とを備えたことを特徴とする音声認識装置。