JP3277579B2

JP3277579B2 - 音声認識方法および装置

Info

Publication number: JP3277579B2
Application number: JP36141492A
Authority: JP
Inventors: 雅文南
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-12-28
Filing date: 1992-12-28
Publication date: 2002-04-22
Anticipated expiration: 2017-04-22
Also published as: JPH06202689A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識方法および装
置に関する。

【０００２】

【従来の技術】従来の音声認識技術は、受け付ける発話
形態により、連続発話認識方法および離散発話認識方法
の２つに分類される。

【０００３】

【発明が解決しようとする課題】上記２つの認識方法
は、ともに、ユーザの発話形態に不自然な制約を加える
という欠点を持っている。具体的には、離散発話認識方
法では、ユーザは、前もって登録された単語を小間切れ
に発話しなければならないし、連続発話認識方法におい
ては、逆に連続に文章を発話することを強いられる。

【０００４】通常の人間の自然な発話には、発話の意味
と関係ない不要語、一時休止、言い換えとともに、発話
途中でも発話を中止してしまう等の現象も存在する。上
述の従来の方法では、この様な話言葉の自由度に過度に
制約を加えるため、ユーザに心理圧迫を加え、音声認識
装置を使いにくいものにしている。

【０００５】従来手法においても、与えられた文法に対
して、途中迄の発話を受け付けることは、可能である。
それは、与えられた文法に対して、発話が中止する可能
性の有るステートから、終了ステートに対して、ジャン
プ‐アーク（ｊｕｍｐａｒｃ）を接続することにより
実現される（図６参照）。

【０００６】しかし、この手法は、中途までの発話を認
識できるが、ユーザがより長い発話をする場合に、発話
を全く切らないで行う必要がある（例えば、゛ビデオに
録画゛と言う発話において、゛ビデオ゛、゛に゛、゛録
画゛の間に休止が入ってはいけない）。そうしないと、
ユーザが最後まで発話しようと思っているのにも関わら
ず、途中までの解析結果を認識結果として出力されてし
まうという、ユーザにとって、発話時の心理的圧迫が大
きいという欠点を持つ。

【０００７】本発明は、このような状況に鑑みてなされ
たものであり、ユーザが発話を任意の時間休止できるよ
うにする音声認識方法および装置を提供することを目的
とする。

【０００８】

【課題を解決するための手段】本発明の音声認識方法
は、発話の語順を規定する情報中に、発話が途中で休止
する可能性にある部分に、独立に継続時間を設定し、音
声認識中に、前記設定された継続時間以上発話の休止が
継続したことにより（例えば、図４のステップＳ６のＹ
ＥＳ）、発話完了を検出し、その時点までの発話解析結
果を出力し、発話解析結果に基づいて音声合成を使用し
て応答を生成することを特徴とする

【０００９】本発明の音声認識装置は、発話の語順を規
定する情報中の発話が途中で休止する可能性にある部分
に独立に設定された継続時間を記憶する記憶手段を備
え、設定された継続時間以上発話の休止が継続したこと
により、その時点までの発話解析結果を出力することを
特徴とする。

【００１０】

【作用】本発明の音声認識方法および装置においては、
発話の語順を規定する情報中の発話が途中で休止する可
能性にある部分に継続時間が独立に設定され、設定され
た継続時間以上発話の休止が継続すると、その時点まで
の発話解析結果が出力される。従って、ユーザは、発話
を任意の時間休止することができる。

【００１１】

【実施例】図１は、本発明の音声認識装置の一実施例の
構成を示す。音声信号処理部１は、音声信号入力につい
て時間領域、周波数領域での解析を行い、ＶＱコード列
を出力する。音声認識処理部２は、音声信号処理部１か
らのＶＱコード列を受け、音韻モデル記憶部３、単語辞
書記憶部４および発話文法記憶部５を参照して、連続発
話された音声を認識する探索処理を行うモジュールであ
る。すなわち、音声認識処理部２は、予めデータとして
用意された以下の（Ａ）（Ｂ）（Ｃ）の制約情報の中
で、ＶＱコード列を最も確かに説明する単語列を、トレ
リス計算により求め、認識した単語列とその単語列の意
味する意味構造を出力する。

【００１２】（Ａ）記憶部３に記憶されたＨＭＭにより
表現された音韻モデル（Ｂ）単語辞書記憶部４の記憶内容：システムの持つ単
語群の発音表記が音韻の列あるいは、ネットワークで表
現されているもの（Ｃ）発話文法記憶部５の記憶内容：ユーザの発話単語
列の制約が、文脈自由文法、あるいは、ネツトワーク手
法の枠組みで表現されているもの

【００１３】対話管理部６は、認識処理部２からの認識
結果からユーザの要求を解釈し、機器７に対しての命令
の生成を行ったり、場合によっては、不足の情報を文生
成部８および音声合成部９を通じてユーザに発話し、ユ
ーザの情報提供を促したりする。

【００１４】文生成部８は、対話管理部６から出力され
る応答意味表現すなわち発話意味情報からそれに相当す
る発話を発音記号列に変換して出力し、音声合成部９
は、文生成部からの発音記号列を受けて、実際に音声を
発する。

【００１５】図１の構成において、本発明に係わる部分
は、音声認識処理部２と対話管理部６である。特に
（ｉ）継続時間長の設定、（ｉｉ）継続時間長を用いた
発話完了検出、（ｉｉｉ）発話解析結果による対話管理
部６からのユーザへの応答生成が重要ポイントである。
以下に、文法の指定方法、無音声モデルについて説明
し、それらに継続時間長の設定の取り込み方法、及び、
この継続時間長を用いた発話終了検出方式について説明
する。

【００１６】図２は、図１の実施例における発話文法、
単語辞書、音韻モデルおよび無音声モデルの関係を示
す。発話文法は、発話として受け付ける（文章の）語順
を規定するものである。この実施例では、ネットワーク
文法を用いる。しかし、後述のように、必ずしもこの記
述方法である必要はなく、分脈自由文法（末尾の参考文
献Ｓｈｉｅｂｅｒ８６参照）であってもよい。図２の様
に、ネットワーク文法では、状態（ステート）とアーク
により表現され、各アークには、単語あるいは、語彙カ
テゴリが付けられ、それにより、受け付ける発話文のバ
リエーションを表している。本発明では、図２の様に各
ステートに、次のようなタイプ（ｔｙｐｅ），デスティ
ネーション（ｄｅｓｔｉｎａｔｉｏｎ）および継続時間
長の各フィールドを設ける。

【００１７】タイプ：ステートの種類を表し、後述の無
音声モデルを挿入するか、それとも、単なる遷移上の状
態なのかを決める。デスティネーション：（単語（ｗｏｒｄ），デスティネ
ーション−ステート）のペアになっており、このステー
トで入力が単語の時の遷移先ステートを記述した表であ
る。継続時間長：タイプが無音声モデルの場合に設定される
タイムアウト値を保持する。この値は、各ステート毎に
独立に設定可能であり、文法で予め定数を設定したり、
発話を解析中に、動的に設定値を変更することも可能で
ある。

【００１８】通常、途中で発話が中止する可能性のある
ステートに、継続時間長を設定する。

【００１９】無音声モデルは、ユーザの発話がない部分
の音をモデル化したものである。従来技術においても、
上記ネットワーク上の状態群にこの無音声モデルを挿入
し、単語間の言い淀みに対処している手法が存在する
（末尾の参考文献ＫＦＬｅｅ８８参照）。本発明の実施
例でも、状態に無音声モデルを挿入する事は、同様であ
るが、後述のアルゴリズムに有るように、継続時間長制
御をこの部分に導入している。

【００２０】認識探索は、２次元の配列の（一方の軸
が、時間（通常フレーム数）、もう一方の軸が音韻モデ
ルの各ステート）トレリスと呼ばれるデータ構造の上で
なされる（図３参照）。

【００２１】時間軸は、入力音声の時間軸に対応し、あ
る時間をｔ、とすると、その次の時間は、ｔ＋１にな
る。通常、単位変化時間は、１０ｍｓｅｃであり、各時
刻のステート群をフレームと称する。トレリス上の各ス
テートの時間軸方向の遷移は、音韻モデル、単語辞書、
文法から決定される。

【００２２】トレリス上の各ステートは、認識スコア、
バックポインタ（一つ前のフレームにおいてどのステー
トから遷移したかを表す。）から構成される。無音声モ
デルを構成するステートでは、これに加えて、継続時間
長を記憶する領域を設ける。

【００２３】本発明の実施例でも使用するビーム探索法
は、すべてのステートを並べる事はせずに、最も確立ス
コアの良いステートを基準として、一定の範囲に入るス
テートのみを探索の対象とする。（言い換えれば、ある
程度将来性のあるステートのみを考慮する）。

【００２４】上記の音韻モデル、単語辞書、文法からト
レリスを生成する方法は、末尾の参考文献（Ｂｒｉｄｌ
ｅ８２）に詳しく説明されており、ビーム探索手法につ
いては、末尾の参考文献（Ｋａｉ−ＦｕＬｅｅ９１）
に詳しく説明されている。

【００２５】図４は、図１の実施例の音声認識アルゴリ
ズムを示す。以下、図４を参照して、本発明の実施例の
認識アルゴリズムを説明する。

【００２６】処理は、概略、以下の手順で進む。処理の
概略は、末尾の参考文献（Ｋａｉ−ＦｕＬｅｅ９１）
に詳しく説明されている。

【００２７】Ｓｔｅｐ１．初期化（図４のステップＳ１
およびＳ２）各フレーム毎の状態を保持するためのトレリスＢを用意
する。Ｂは、ｔ＝０から発話終了フレームまでのＮフレ
ーム分の大きさを持つ。以下、Ｂ［ｔ］は、ｔ番目のフ
レームのヒープを表し、通常、ビームの範囲に入ったス
テートが入れられる（従って、時刻ｔのステートすべて
が入るわけではない）。ステップＳ２では、時刻ｔ＝０
の状態について、文法上、発話の初期ステートの確率ス
コアを１，０とし、Ｂ［０］に登録する。

【００２８】Ｓｔｅｐ２．各フレーム毎の処理（図
４のステップＳ３乃至Ｓ８）すべてのステートについてフレーム同期（時刻ｔの処理
をすべて終えてから、時刻ｔ＋１の処理を行う事。）で
処理する。各フレームの処理は、通常の構文情報制御の
ビタビ（Ｖｉｔｅｒｂｉ）ビーム探索法を用いる（末尾
の参考文献Ｋａｉ−ＦｕＬｅｅ９１参照）。

【００２９】Ｓｔｅｐ３．認識終了及びバックトレース
処理（図４のステップＳ９）各フレームの処理は、発話フレーム長Ｎまで繰り返され
る。その後、最後のフレーム（Ｎ−１番目）において、
最も確率スコアの良いステートから、バックポインタを
辿り（バックトレース処理）、認識結果のワード系列を
求める。

【００３０】本発明の実施例と上記の通常の探索方法と
の相違は、Ｉ．無音声モデル内の遷移の継続時間を計測すること。ＩＩ．この継続時間がある一定の限度を超えた場合、認
識を中止し、その時点までの認識結果を出力すること
（タイムアウト処理）。の２点である。

【００３１】以下、図４を参照して、ＩおよびＩＩにつ
いて説明する。

【００３２】Ｉ．無音声モデルの継続時間長の計測は、
図４中のステップＳ５：遷移先ステートの更新・登録ス
テップで行われる。ステートの違いにより、以下の３つ
のケースがある。（１）ケース１：通常のこのステップでは（無音声モデ
ル以外のステート同士の遷移の場合）、（ｉ）．遷移先のステート（時刻ｔ＋１）が、Ｂ［ｔ＋
１］にない場合は、このステートを確率スコア、遷移元
のステートを指し示すバックポインタと共にＢ［ｔ＋
１］に登録する、（ｉｉ）．その他の場合（遷移先のス
テートが、Ｂ［ｔ＋１］に既にある場合）は、確率スコ
アの良い方をＢ［ｔ＋１］に登録する、といった処理を
行う。（２）ケース２：無音声モデルへのその他モデルから遷
移の場合。上記（ｉ），（ｉｉ）ステップに於いて、遷移先ステー
トをＢ［ｔ＋１］に登録する際、継続時間を記録する領
域を設け、初期値を登録する。この初期値は、図２の様
に、無音声モデルの文法上の位置により設定したり、会
話の文脈により動的に設定することも可能である。（３）ケース３：無音声モデル内の遷移の場合。遷移先ステートをＢ［ｔ＋１］に登録する際、継続時間
情報を−１カウントダウンする。

【００３３】ＩＩ．継続時間のタイムアウト処理は、
（１）各フレーム毎に確率スコアの最大値を持つ状態が
無音声モデルであつて、かつ、その継続時間領域が０
になっていたら、ビタビ探索を中止する（ステップＳ
６のＹＥＳ）、（２）通常の認識結果を出力する動作の
バックトレース処理（ステップＳ９）を、上記の状態を
起点として行う、といった手順で行う。

【００３４】上記以外の手順は、従来のビタビビーム探
索法に準ずる。

【００３５】次に、本発明の実施例の対話管理手法につ
いて説明する。図１の認識処理部２の認識結果は、対話
管理部６に渡され、対話管理部６は、この発話結果（及
び現在の状況から）、機器７への制御指令及び、ユーザ
への発話を決定する。

【００３６】上述の認識手法を用いることにより、この
対話管理部６においてよりユーザフレンドリなマン・マ
シン・インタフェースを実現することが可能になる。こ
れを、簡単な発話文法を例に、以下に説明する。

【００３７】図５に、発話文法を示す。この文法は、ネ
ットワーク表現で、ビデオ、ＬＤ、カセットを制御する
発話を表しており、◎のステートは、終了状態を表す
る。

【００３８】本発明の実施例では、各ステートにタイム
アウト値を対応させることにより、そのステートまでの
認識結果を対話管理部６に渡すことができる。

【００３９】例えば、「ビデオに」という発話がされる
と、１）認識処理部２は、助詞「に」の後のタイムアウトを
検出することにより、対話管理部６に発話解析結果（゛
ビデオに゛）を出力する。２）対話管理部６は、認識結果を受け取り、会話の状況
など他の情報も加味して、ユーザへの発話（質問など）
を生成する事ができる。

【００４０】例えば、発話構文を利用して、゛ビデオに
゛の後に゛録画゛しか続かない事を利用して、「ビデオ
に何を録音すれば良いのですか？」と言うようなユーザ
発話に基づく質問を生成できる。

【００４１】本発明の重要点は、継続時間長を発話の切
れ目になりうる状態に設定して、発話終了検出をおこな
っている点である。

【００４２】なお、上記例では、ネットワーク文法をも
ちいて説明したが、分脈自由文法その他の方法も使用で
きる。

【００４３】また、上記例では、ワード（単語）間に無
音声モデルを挿入するように説明したが、この無音モデ
ルは、音韻間でも挿入ができる。

【００４４】また、マルチプロセッサ構成におけるタイ
マー処理の割り込みも利用できる。

【００４５】また、無音声モデルは、１モデルとは、限
らず、複数あってもよい。

【００４６】参考文献を列挙すれば、次の通りである。

【００４７】［Ｂｒｉｄｌｅ８２］Ｂｒｉｄｌｅ．Ｊ．
Ｓ．ｅｔａｌ，゛ＡｎＡｌｇｏｒｉｔｈｍｆｏｒ
ＣｏｎｎｅｃｔｅｄＷｏｒｄＲｅｃｏｇｎｉｔｉ
ｏｎ゛、Ｐｒｏｃ．ＩＣＡＳＳＰ８２，ｐｐ８９９−９
０２，Ｐａｒｉｓ，Ｍａｙ１９８２

【００４８】［Ｋａｉ−ＦｕＬｅｅ８８］Ｌｅｅ．
Ｋ．Ｆ．゛Ｌａｒｇｅ−ＶｏｃａｂｕｌａｒｙＳｐｅ
ａｋｅｒ−ｉｎｄｅｐｅｎｄｅｎｔＣｏｎｔｉｎｕｏｕ
ｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：Ｔｈｅ
ＳＰＨＩＮＸＳｙｓｔｅｍ゛、ＣＭＵ−ＣＳ−８８−
１４８、ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＤｅｐｔ．
Ｃａｒｎｅｇｉｅ−ＭｅｌｌｏｎＵｎｉｖ．

【００４９】［Ｋａｉ−ＦｕＬｅｅ９１］Ｌｅｅ．
Ｋ．Ｆ．ａｎｄＡｌｌｅｖａ．Ｆ．，゛Ｃｏｎｔｉｎ
ｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ゛，
ｉｎＡｄｖａｎｃｅｓｉｎＳｐｅｅｃｈＳｉｇｎ
ａｌＰｒｏｓｅｓｓｉｎｇ，ｐｐ６２３−６５０，１
９９１ＭａｒｅｌＤｅｋｋｅｒＩｎｃ．

【００５０】［Ｓｈｉｅｂｅｒ８６］Ｓｈｉｅｂｅ
ｒ．Ｓ．゛ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＵ
ｎｉｆｉｃａｔｉｏｎ−ｂａｓｅｄＡｐｐｒｏａｃｈ
ｅｓｔｏＧｒａｍｍａｒ゛，ＬｅｃｔｕｒｅＮｏ
ｔｅｓｏｆＣＳＬＩ，ＳｔａｎｆｏｒｄＵｎｉｖ
ｅｒｓｉｔｙ，１９８６

【００５１】

【発明の効果】本発明の音声認識方法および装置によれ
ば、発話の語順を規定する情報中の発話が途中で休止す
る可能性にある部分に継続時間を独立に設定し、設定さ
れた継続時間以上発話の休止が継続すると、その時点ま
での発話解析結果を出力するようにしたので、ユーザ
は、発話を任意の時間休止することができる。また、ユ
ーザの心理的圧迫を軽減し、より使い易いヒューマンイ
ンタフェースを実現できる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図２】図１の実施例における発話文法、単語辞書、音
韻モデルおよび無音声モデルの関係を示す図である。

【図３】図１の実施例のトレリスを示す図である。

【図４】図１の実施例の音声認識アルゴリズムを示す図
である。

【図５】サンプル文法を示す図である。

【図６】従来の中途発話を受け付けるための文法の一例
を示す図である。

【符号の説明】

１音声信号処理部２音声認識処理部３音韻モデル記憶部４単語辞書記憶部５発話文法記憶部６対話管理部７機器８文生成部９音声合成部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28

Claims

(57)【特許請求の範囲】

【請求項１】発話の語順を規定する情報に従って入力
音声を認識する音声認識方法において、前記発話の語順を規定する情報中に、発話が途中で休止
する可能性にある部分に、独立に継続時間を設定し、音声認識中に、前記設定された継続時間以上発話の休止
が継続したことにより、発話完了を検出し、その時点までの発話解析結果を出力し、前記発話解析結果に基づいて音声合成を使用して応答を
生成することを特徴とする音声認識方法。
【請求項２】前記発話が休止する可能性のある部分の
位置を記憶することを特徴とする請求項１記載の音声認
識方法。
【請求項３】前記設定された継続時間を記憶すること
を特徴とする請求項１記載の音声認識方法。
【請求項４】発話の語順を規定する情報に従って入力
音声を認識する音声認識装置において、前記発話の語順を規定する情報中の発話が途中で休止す
る可能性にある部分に独立に設定された継続時間を記憶
する記憶手段を備え、前記設定された継続時間以上発話の休止が継続したこと
により、その時点までの発話解析結果を出力することを
特徴とする音声認識装置。
【請求項５】前記発話解析結果に従って、音声入力者
に対して不足情報を提示する対話管理部をさらに備える
ことを特徴とする請求項４記載の音声認識装置。
【請求項６】前記発話解析結果に従って、機器を制御
すると共に、機器からの応答に従って音声入力者に対し
て不足情報を提示する対話管理部をさらに備えることを
特徴とする請求項４記載の音声認識装置。