JP3633254B2

JP3633254B2 - 音声認識システムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP3633254B2
Application number: JP00543198A
Authority: JP
Inventors: 俊之小▲高▼; 明雄天野; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-01-14
Filing date: 1998-01-14
Publication date: 2005-03-30
Anticipated expiration: 2018-01-14
Also published as: JPH11202895A

Description

【０００１】
本発明は、コンピュータを用いた音声の認識技術に係わり、特に、音声認識のロバスト性（信頼性）を高めるのに好適な音声認識システムおよびそのプログラムを記録した記録媒体に関するものである。
【０００２】
【従来の技術】
マンマシンインタフェースとして音声を文字情報等に変換する音声認識技術に関して、近年、種々の提案がなされている。
例えば、特開平２−８９０９９号公報においては、入力音声毎に平均音節長を推定し、平均音節長と特徴量とに基づいて音節区間を切り出すことにより、話者の発声速度の変化に影響されずに正しく音節認識ができるようにして、音節認識における性能向上を図った音声認識装置に関する技術が記載されている。
【０００３】
この特開平２−８９０９９号公報に記載のものを含め、音声認識技術では、入力音声に対して音声区間検出を行い、検出されたひと固まりの音声に対して、予め作成して蓄積している標準パターンとの照合処理をし、認識結果を出している。その後、照合処理した内部データはリセットされ、次の発声を待つ。
このように、あくまでも、一固まりに対して結果を出すため、音声の区間検出が重要になる。例えば、「がっこう」（実際は「っ」は無音である）という音声が分割されないように終端検出の条件を設定する必要がある。
【０００４】
以下、音声検出を用いる一般的な音声認識システムを、図１３を用いて簡単に説明する。
図１３は、従来の離散単語発声を対象とする音声認識システムの構成例を示すブロック図である。
マイク等からなる音声入力部３１より取り込まれた音声は、ある一定区間（フレーム）毎に音声分析部３２において音響分析され、ある特徴量（特徴べクトル）に変換される。この特徴量に基づき、音声区間検出部３３では音声区間内か音声区間外かを判定する。
【０００５】
この音声区間検出部３３による判定に基づき、照合部３４では、予め登録されていた単語に対応した標準パターンに対して、音声区間内の特徴量を用いた照合処理を行う。
そして、音声区間検出部３３で音声区間の終端が検出されると、判定部３５は、照合部３４の結果を用いて、それまで入力された一連の音声に対する認識結果を求める。このようにして得られた認識結果は、表示部３６で画面出力されたり、音声出力されたりする。
【０００６】
尚、認識のアルゴリズムとしては、例えば、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）があり、このＨＭＭによる音声認識の詳細な説明は、中川聖一著「確率モデルによる音声認識」（電子情報通信学会出版、１９８８）等にある。照合部３４による照合処理は比較的処理量が多いため、音声検出処理を設けることで、音声認識に係わる全体的な処理量を抑えられるという利点がある。
しかし、音声検出の精度が認識率に影響し易く、音声検出に失敗すると認識率が低下する。
【０００７】
次に、このような音声検出をしない、いわゆるワードスポッティングによる音声認識システムについて以下簡単に説明する。
ワードスポッテイングでは、音声が入力されているかどうかは関係なく常に照合処理をし続け、入力された音声中に含まれる単語を検出する技術である。図１３で説明した技術では、処理が図１３の左から右へのパイプライン処理であるが、ワードスボッティングでは、照合部３４と結果判定部３５が毎フレーム密接に連携して処理を進める点が特徴と言える。
しかし、このワードスポッテイング技術では、音声検出を行っていないため、実際の発声とはずれた位置に結果がでるといった、いわゆる湧き出しという現象が起きやすい。
【０００８】
また、音声検出およびワードスポッティングによる従来の音声認識技術のいずれにおいても、認識処理の単位は、ほぼ一塊りで発声された音声である。すなわち、単語認識システムとして使う場合は、単語単位の発声を前提としている。従って、たとえ単語音声であっても、「鈴木（すずき）」に関して、「す」「ず」「き」のように、音節単位で間にポーズが挿入されたような音声が入力された場合は、正しい認識結果を出力することはほぼ不可能となる。
【０００９】
すなわち、このような前提に反した音声が入力されたとしたら、区間検出された単位をむりやり１つの単語と仮定して認識結果を出そうとしてしまう。例えば、「す」「ず」「き」のそれぞれの音節発声を１つの単語と見なして、それぞれに対応して最大３つの認識結果を出そうとしてしまう。
このような発音の前提が従来の音声認識システムを使いにくくしている一つの要因であり、従来の音声認識技術における問題点の１つと言える。
【００１０】
例えば、上述の「鈴木」といった人名を認識可能な単語音声認識システムでは、従来、「すずき」という発声しか認識できない。しかし利用者によっては、ゆっくりと「す」「ず」「き」と区切って発声するかもしれない。また、「すずき」という発声が誤認識された場合に丁寧に発声するつもりで、「す」「ず」「き」と区切って発声し直す利用者もいる。すなわち、「すずき」でも「す」「ず」「き」でも正しく認識できるロバストな音声認識システムが望ましい。
【００１１】
別な例として、部署名や住所のような長めの単語の場合を考えると、従来は、例えば「東京都国分寺市東恋ヶ窪」というように、一息での連続した発声しか認識できなかったり、「東京都」「国分寺市」「東恋ヶ窪」というように区切った発声しか認識できなかったりする。いずれにせよ、必ず一息に発声するか、必ず区切って発声するか、どちらか片方の制約があった。このような長い単語の場合は、一息に発声しても、任意の場所で区切って発声しても認識できるようなロバストな音声認識システムが望ましい。
【００１２】
このように、従来の音声認識技術では、認識対象の音声の入力時にポーズが挿入されると、その時点で一旦処理が終了し、想定している認識対象の範囲内で何らかの認識結果を出力してしまう。そして、再度音声が入力されると、認識対象の先頭からの照合しか行わない。その結果、例えば、ある程度ゆっくり「がっこう」と言った場合に、正しい認識結果が得られないという問題が生じる。すなわち、「っ」の音は実際には無音であるために、認識装置には「が」の音声と「こう」の音声と見なされ、「が」と「こう」をそれぞれ１つの単語と見なして認識処理してしまう。
【００１３】
また、認識対象を単語と想定している場合には、例えば「すずき」と言わずに、一音節ずつ区切って「す」「ず」「き」と発声すると、正しい認識結果が得られない。実際の場面でも、「すずき」と発声して、装置がうまく認識結果を返さなかった場合に、「す」「ず」「き」とわざわざ一音ずつ区切って、丁寧に、ゆっくりと発声し直すユーザが多い。この場合、「す」と「ず」と「き」のそれぞれの音声を１つの単語と見なして認識処理してしまう。
同様に、認識対象を文節と想定している場合に単語単位や音節単位の発声をしたり、認識対象を文と想定している場合に文節や単語、音節で区切って発声してしまうと、正しい認識結果が得られない。
【００１４】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、認識対象の音声の発声の仕方に制約があり、前提としない発声では正しく認識できない点である。
本発明の目的は、これら従来技術の課題を解決し、発声側の負荷を軽減でき、かつ、認識性能を向上でき、使い勝手の良い音声認識システムおよびそのプログラムを記録した記録媒体を提供することである。
【００１５】
【課題を解決するための手段】
上記目的を達成するため、本発明の音声認識システムは、判定部５から照合部４へのフィードバックパスを設け、照合部４において、判定部５からフィードバックされる判定結果に基づき暫定的な候補をある時間蓄えておき、単語あるいは文の途中から照合処理を継続することを特徴とする。すなわち、音節単位のような部分的な発声の終端が検出される毎に、判定部５が、照合部４による照合結果を基に、受理する単語を判定すると同時に、部分的にマッチしている単語を、保留すべき単語として判定し、その情報をフィードバックパスを介して照合部４に戻す。さらに、照合部４では、判定部５より戻された情報に基づいて、部分的にマッチしている単語の照合用の内部データの一部を、次の音声入力まで保持する。その結果、ポーズで分割された音節単位発声の単語音声や、一息では言いづらい長い単語の音声認識が可能となる。
【００１６】
【発明の実施の形態】
以下、本発明の実施例を、図面により詳細に説明する。
図１は、本発明の音声認識システムの本発明に係る構成の第１の実施例を示すブロック図である。
本例において、認識のアルゴリズムは特に限定するものではないが、ここではアルゴリズムとして、従来技術でも述べた隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）を想定して説明する。
【００１７】
本図１において、１はマイク等からなり音声を取り込む音声入力部、２は音声入力部１で取り込んだ音声をある一定区間（フレーム）毎に音響分析して、ある特徴量（特徴べクトル）に変換する音声分析部、３は音声分析部２で変換した特徴量に基づき音声区間内か音声区間外かを判定する音声区間検出部、４は音声区間検出部３による判定に基づき予め登録されていた単語に対応した標準パターンに対して音声区間内の特徴量を用いた照合処理を行う照合部、５は音声区間検出部３で音声区間の終端が検出されると、照合部４の結果を用いて、それまで入力された一連の音声に対する認識結果を求める結果判定部、６は結果判定部５で得た認識結果を画面出力する表示部、７は結果判定部５で得た認識結果を照合部に渡すフィードバックパスである。
【００１８】
本例では、処理量の観点から、音声検出を行うものとする。また、照合部４内で保持している標準パターンも従来と同じ単語認識用のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）をそのまま使う。
従来の技術と異なるのは、結果判定部５から照合部４へのフィードバックパス７を設けた点である。
【００１９】
本例では、音節単位のような部分的な発声の終端が検出される毎に、結果判定部５が、照合部４による照合結果を基に、受理する単語を判定すると同時に、部分的にマッチしている単語を、保留すべき単語として判定し、その情報をフィードバックパス７を介して照合部４に戻す。さらに、照合部４では、結果判定部５より戻された情報に基づいて、部分的にマッチしている単語の照合用の内部データの一部を、次の音声入力まで保持する。その結果、ポーズで分割された音節単位発声の単語音声や、一息では言いづらい長い単語の音声認識が可能となる。
【００２０】
以下、このような音声認識（累積尤度技術）に係わる基本アルゴリズム（「（１）初期設定」、「（２）区間検出」、「（３）尤度更新」、「（４）候補選択およびリジェクション」）について説明する。
最初に、説明に用いる照合用の内部データを示す。
Ｓ（ｗ）…単語ｗの中のＨＭＭ状態数
Ｌ（ｗ，ｉ，ｔ）…単語ｗ中のｉ番目の状態のｔフレームにおける尤度
Ｌｓ（ｗ，ｉ）…単語ｗ中のｉ番目の状態の累積尤度
Ｆｓ（ｗ，ｉ）…単語ｗ中のｉ番目の状態の累積フレーム数
【００２１】
（１）初期設定
認識開始時に、単語ＨＭＭ状態の各内部データに初期値を設定しておく。例えば、認識対象を表す先頭の状態に尤度として確率値「１」、途中の状態に確率値「０」を設定する。また、全ての状態に対する累積尤度と累積フレーム数には「０」を設定しておく。すなわち、
∀ｗ∈Ｗについて、
Ｌ（ｗ，１，０）←１
Ｌ（ｗ，ｉ，０）←０，（２≦ｉ≦Ｓ（ｗ））
Ｌｓ（ｗ，ｉ）←０，Ｆｓ（ｗ，ｉ）←０（１≦ｉ≦Ｓ（ｗ））
ここで、Ｗは認識対象単語の集合である。
【００２２】
（２）区間検出
音声入力部１から音声データが入力され始めると、入力されたデータは、音声分析部２により、ある時間（フレーム）間隔毎に音響分析される。音声区間検出部３では、その結果の一部から音声区間かどうかを判定し、基本的には、音声区間内であれば、認識対象に対する尤度計算を実行してから次フレームの音響分折へ進み、音声区間外であれば何もせずに次フレームの音響分析へと進む。ここで、音声区間の終端を検出すると、その時点でのＨＭＭネットワーク内の状態の尤度に基づく候補選択へと進む。
【００２３】
（３）尤度更新
尤度更新においては、従来からある、いわゆるビタビアルゴリズム（従来技術の説明において挙げた中川聖一著「確率モデルによる音声認識」（電子情報通信学会出版、１９８８）等に詳細記載）により、各状態の尤度更新を行う。すなわち、ある状態ｉへ複数の遷移がつながっているとき、それらの遷移間で伝搬する尤度が最大である遷移を選択し、その遷移元の状態の前フレームにおける尤度にその遷移の尤度（Ｐｔｒａｎｓ）を加算して、状態ｉの現在のフレームの尤度とする。本例においては、さらに、ビタビアルゴリズムにより選択された遷移にそって、累積尤度と累積フレーム数をそのまま次状態へ伝搬させる。
【００２４】
すなわち、
【数１】

ここで、Ｐｔｒａｎｓ（ｉ，ｊ，Ｖ）は、状態ｊから状態ｉへの遷移確率と、その遷移における特徴べクトルＶに対する出現確率を掛けた値である。
尚、
【数２】

は、Ｘ（ｊ）を最大にするｊの値とする。
【００２５】
（４）候補選択およびリジェクション
候補選択では、照合パラメータから算出される評価値に基づいて、第１の候補群と第２の候補群を選択する。
第１の候補群とは、この時点までに入力された音声データが、認識対象（単語、文節、文等）として非常に尤もらしく、認識結果として受理すべき上位Ｎ（Ｎ＝０，１，２・・・）個の候補の集まりである。具体的には、その認識対象を表現しているＨＭＭネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度最大の状態の位置（尤度ピーク位置）が状態系列の終端付近にある場合に、その認識対象を第１の候補群とする。
【００２６】
一方、第２の候補群とは、この時点までに入力された音声データが、認識対象（単語、文節、文等）の先頭の一部分らしく、認識結果としての受理も棄却（リジェクション）も保留すべき上位Ｍ（Ｍ＝０，１，２・・・）個の候補の集まりである。
具体的には、その認識対象を表現しているＨＭＭネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度ピーク位置が状態系列の終端付近に到達せず、途中にある場合に、その認識対象を第２の候補群とする。
【００２７】
尚、第１の候補群、第２の候補群の個数Ｎ，Ｍは、尤度の大きい順に選択する際の個数を定数として決めても良いし、ネットワーク全体の状態の中で最大の尤度からある一定の尤度差内にある候補数と見なしても良い。ここでは後者を採用することとする。
【００２８】
すなわち、
【数３】

のとき、以下の判定を行う。
【数４】

【００２９】
ここで、Ｌ’（ｗ，ｉ，Ｔ）は、尤度Ｌ（ｗ，ｉ，ｔ）をフレーム数（＝Ｔ）で正規化した値であり、累積尤度および累積フレーム数も含めて正規化する。Ｓｍａｘ（ｗ，Ｔ）は終端検出されたフレームＴにおいて単語ｗの状態列の中で尤度が最大となる状態の位置、θｐはその状態位置に対する閾値である。このθｐは実験的に適当な値を決める。また、Ｌ’（ｗ，ｉ，Ｔ）は、その絶対値が、話者や音声の発声環境に対して安定した評価値とはならないため、ＨＭＭネットワーク全体の中での最大尤度であるＬ’ｇｍａｘ（Ｔ）により補正した値△Ｌ（ｗ）を評価値として求める。
【００３０】
さらにまた、
【数５】

は、△Ｌ（ｗ）に対する閾値であり、それぞれ認識結果の候補としての受理判定、保留判定に使う。いずれも、実験的に適当な値を求める。
但し、
【数６】

である。
【００３１】
（５）尤度再設定
候補選択が終わると、次の音声入力に備えた尤度の再設定を行う。
ここでの尤度は、先頭の状態に確率「１」を与えるとともに、第２の候補群として選択された認識対象の単語の中で、最大尤度が得られていた状態系列の途中の状態Ｓｍａｘ（ｗ_ｃ，Ｔ）（尤度ピーク位置の状態）にも、確率値「１」を与える。さらに、同じＳｍａｘ（ｗ_ｃ，Ｔ）に対応する累積尤度に、そのＳｍａｘ（ｗ_ｃ，Ｔ）での尤度を加算し、それ以外の状態及び第２の候補群に属さない各単語内の全ての累積尤度は「０」に再設定する。
【００３２】
また、Ｓｍａｘ（ｗ_ｃ，Ｔ）に対応する累積フレーム数以外の累積フレーム数も「０」に再設定する。
すなわち、
【数７】

こうした尤度の再設定により、再度、音声区間を検出した際に、第２の候補群に対して、その途中から照合を再開することができる。
以降、上述の「（２）区間検出」から「（５）尤度再設定」を繰り返しながら、「（４）候補選択およびリジェクト」で受理された認識結果は随時出力する。
【００３３】
次の例では、先の例で示した基本アルゴリズムを、音節単位発声単語の音声認識に適用する場合の問題点を挙げ、その対策案を説明する。
すなわち、上述の累積尤度技術では、単音節のような認識対象単語の部分的な発声を、単語モデルの標準パターンで無理矢理に照合しようとするため、認識単位モデル（音節モデル、半音節モデル、音素片モデル等）によっては照合で不整合が起きるため、認識率が悪くなる。
以下、この問題点について詳しく説明する。
尚、ここでは、認識単位モデルとして音素片モデルを採用しており、本モデルでもその不具合が起きる。
【００３４】
音素片モデルは、音声を、子音定常部（Ｃモデル）、母音定常部（Ｖモデル）、遷移部（ＣＶモデル、ＶＣモデル、ＶＶモデル）に分けて、モデル化している。
音素片モデルで音節発声の認識をするのであれば、本来、以下のようなモデルを標準パターンとして用意すべきである。
「すずき」という単語を例に挙げると、
「す」の発声に対して、「＊ｓｓｓｕｕｕ＊」
「ず」の発声に対して、「＊ｚｚｚｕｕｕ＊」
「き」の発声に対して、「＊ｋｋｋｉｉｉ＊」
【００３５】
しかし、単語発声を認識するための次のような標準パターンを使っている。
「＊ｓｓｓｕｕ（ｕｚ）ｚｚｕｕ（ｕｋ）ｋｋｉｉｉ＊」
ここで、「＊」部分は無音部との境界を示しているが、前に示した音節単位の場合と比較してわかるように、括弧（）を付けた部分が異なっており、この部分で照合に不整合が生じ、その結果、尤度が抑えられてしまう。
【００３６】
以下、第１の改良に係わる技術、すなわち、「継続時の定数ボーナス尤度加算による尤度補正」を説明する。
上述の問題点を解消するために、本例では、保留候補に対して、累積尤度Ｌｓを更新する時点で、定数ボーナス尤度（Ｌｂｏｎｕｓ）を加算することを考える。
【００３７】
すなわち、前記「数７」における（ａ）式を、
Ｌｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ））←Ｌｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ））＋Ｌ（ｗ，Ｓｍａｘ（ｗ，Ｔ），Ｔ）＋Ｌｂｏｎｕｓ
とする。
これにより、照合不具合による尤度の減少をある程度補正でき、認識率の改善が期待できる。
【００３８】
第２の改良に係わる技術、すなわち、「継続時の累積フレ−ム数で重み付けしたボーナス尤度加算による尤度補正」を説明する。
結果判定部５において、入力フレーム長がより長い単語を優先させることを考える。そのため、累積尤度Ｌｓの更新時に、累積フレーム数Ｆｓに比例したボーナス尤度を加算することを考える。
【００３９】
すなわち、
Ｌｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ））←Ｌｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ））＋Ｌ（ｗ，Ｓｍａｘ（ｗ，Ｔ），Ｔ）＋Ｆｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ），Ｔ）×Ｌｂｏｎｕｓ
とする。
これにより、過去の入力フレーム長が長い単語が優先的に候補に挙がるようになり、全体的に認識率の向上が期待できる。
【００４０】
次の例では、先の基本アルゴリズムを、単語単位発声文音声認識に適用する場合について説明する。
本例の累積尤度技術は、上述の音節単位発声単語音声認識の揚合と全く同様にして、単語の組み合わせからなる文音声の認識に対して適用できる。
これにより、住所をタスクとした場合に、「東京都国分寺市東恋ヶ窪」という連続発声、「東京都国分寺市（ポーズ）東恋ヶ窪」という発声、さらに、ポーズの入った「東京都（ポーズ）国分寺市（ポーズ）東恋ヶ窪」という発声の、いずれの場合でも認識できる音声認識システムが実現できる。
【００４１】
以上、説明したように、図１における構成の音声認識システムでは、音声は入力部１により取り込まれ、音声分析部２により一定時間幅（分析幅）の音声データが分析され特徴ベクトルに変換される。一定時間間隔（分析周期）毎の特徴ベクトルはその時系列データとして得られる。そして、音声区間検出部３では、特徴ベクトル内の例えばパワー情報を用いて音声区間か否かの判定をし、照合部４では、音声区間か否かの結果と、特徴ベクトルの情報を用い、音声区間内の間であれば照合処理を行い、音声区間が終了すれば、その時点での照合状況を判定部５に出力する。判定部５では、照合部４から出力され照合結果の状況を基に認識結果を出力、あるいは、その判定情報を照合部にフィードバックする。
【００４２】
次に、図１における音声認識システムの詳細構成を説明する。
図２は、図１における音声認識システムの詳細な構成例を示すブロック図である。
本図２において、２１は音声をアナログ信号に変換するマイク、２２はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やメインメモリを具備して蓄積プログラム方式のコンピュータ処理により本発明に係わる音声認識を行う情報処理装置、２３はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）等からなる表示装置、２４はキーボード等からなる入力装置、２５は本発明に係わる音声認識用プログラムを記録した光ディスク（図中、「ＯＭ」と記載）、２６は光ディスク２５の読み取りを行う光ディスク駆動装置（図中、「ＯＭ駆動装置」と記載）、２７はハードディスク装置等からなる外部記憶装置である。
【００４３】
情報処理装置２２に、光ディスク２５に記録された音声認識用プログラムを光ディスク駆動装置２６を介して読み込むことにより、図１における音声入力部１、音声分析部２、音声区間検出部３、照合部４、および、判定部５からなる本発明に係わる音声認識システムが構築されている。
本例では、さらに、照合部４に、複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、尤度が最大の位置（尤度ピーク位置）、および、この最大の尤度（部分照合尤度）を求めるピーク特定部４ａと、複数の標準パターン毎に求めた各部分照合尤度から最大の尤度（最大尤度）を求める最大尤度特定部４ｂとを設けている。
【００４４】
そして、判定部５には、照合部４で求めた尤度ピーク位置が標準パターンの末尾から所定の閾値内にあり、かつ、部分照合尤度と最大尤度との差が所定値内の標準パターンを抽出し、この抽出した標準パターンから、部分照合尤度が大きい上位Ｎ（Ｎ＝１，２，・・・）個の標準パターンを選択し、この選択した標準パターンに対応付けられた言語情報を第１の候補として特定する第１候補選択部５ａと、照合部４で求めた尤度ピーク位置が標準パターンの末尾から所定の閾値外にあり、かつ、部分照合尤度と最大尤度との差が所定値内の標準パターンを抽出し、この抽出した標準パターンから、部分照合尤度が大きい上位Ｍ（Ｍ＝１，２，・・・）個の標準パターンを選択し、この選択した標準パターンに対応付けられた言語情報を第２の候補として特定する第２候補選択部５ｂとを設けている
【００４５】
このような構成により、本例の音声認識システムは、音声区間のそれぞれで、先頭から末尾を含む任意の位置までの部分（先頭部分）が判定部５で音声に対応すると判定された標準パターンを、尤度が上位のものに絞って抽出すると共に、複数の音声区間に渡って、先頭部分およびこの先頭部分以降の各途中部分が判定部５で音声に対応すると判定された標準パターンを、尤度が上位のものに絞って抽出し、このようにして抽出した標準パターンを第２の候補として出力し、さらに、第２の候補の標準パターンの内、任意の位置が末尾から所定値内のものを抽出して第１の候補として出力する。
【００４６】
すなわち、音声区間検出部３で判定した次の音声区間の特徴ベクトルの時系列パターンに対して、ピーク特定部４ａと最大尤度特定部４ｂを具備した照合部４により、各標準パターンの先頭から末尾を含む任意の位置までの部分（通常部分）で尤度ピーク位置と部分照合尤度および最大尤度を求めると共に、判定部５の第２候補選択部５ｂで第２の候補として特定された言語情報に対応付けられた標準パターンの尤度ピーク位置から末尾を含む任意の位置までの部分（優先部分）でも新たな尤度ピーク位置と部分照合尤度および最大尤度を求める。
【００４７】
さらに、第１の候補選択部５ａと第２の候補選択部５ｂを具備した判別部５により、通常部分および優先部分での尤度ピーク位置と部分照合尤度および最大尤度に基づく第１の候補と第２の候補の特定を行う。
そして、音声入力部１で取り込んだ音声から音声区間検出部３で順次に判定する各音声区間の特徴ベクトルの時系列パターンに対して、照合部４による尤度ピーク位置と部分照合尤度および最大尤度の取得と、判別部５による第１の候補および第２の候補の特定とを繰り返し行い、第１の候補の言語情報および第２の候補の言語情報を表示部６を介して表示装置２３の画面上に表示出力する。
尚、表示部６は表示装置２３の画面上に、後述の図８、図１０で示すように、判別部５で特定された第１の候補の言語情報と第２の候補の言語情報とをそれぞれ識別可能に表示する。
【００４８】
また、本例の音声認識システムでは、認識結果確定部２２ａを具備しており、この認識結果確定部２２ａでは、複数の単語からなる言語情報が予め対応付けられた標準パターンを用いる場合、音声区間検出部３で音声の終端を検出した時点で、照合部４のピーク特定部４ａで特定した尤度ピーク位置が、単語の途中にあれば、この単語以前の部分を認識結果として確定し、さらに、音声区間検出部３で次の音声の始端を検出すれば、尤度ピーク位置が途中にあった単語の先頭から新たな尤度ピーク位置と部分照合尤度および最大尤度を求める。
【００４９】
これにより、複数の単語からなる言語情報単位での音声認識を行う場合、音声区間検出部３が音声の終端を検出した時点で、尤度ピーク位置が単語の途中にあれば、音声区間検出部３での次の音声の始端の検出時、単語の途中にあった尤度ピーク位置からのみでなく、この尤度ピーク位置が途中にあった単語の先頭からも、尤度ピーク位置と部分照合尤度および最大尤度を求める処理を行なうことができる。
【００５０】
図３は、図１における音声認識システムの処理手順例を示すフローチャートである。
本例は、図１における照合部４における処理を中心に示したものであり、音声データが入力され続けている間の処理手順である。実際の装置では、この外側に認識開始あるいは認識終了を制御する手段が設けられ、音声データが入力されたり、されなかったりすることになる。
ＨＭＭネットワークの各状態は、基本的に３種類の値を照合の内部データとして保持しているものとする。図１の説明でも述べたように、１つ目は尤度、２つ目は累積尤度、３つ目は累積フレーム数である。
【００５１】
認識開始時に、ＨＭＭネットワークの各状態の尤度などの内部データに初期値を設定しておく（ステップ３０１）。例えば、認識対象を表す先頭の状態に尤度として確率値「１」、途中の状態に確率値「０」等を設定する。また、全ての状態に対する累積尤度と累積フレーム数には「０」を設定する。音声データが入力され始めると、入力されたデータは、ある時間（フレーム）間隔毎に音響分析される（ステップ３０３）。
【００５２】
その結果の一部から音声区間かどうかを判定し（ステップ３０４）、基本的には、音声区間内であれば認識対象に対する尤度計算を実行（ステップ３０５）してから次フレームの音響分析へ進み、音声区間外であれば何もせずに次フレームの音響分析へと進む。ここで、音声区間の終端を検出すると、その時点でのＨＭＭネットワーク内の状態の尤度に基づく候補選択（ステップ３０６）へと進む。
【００５３】
尤度計算（ステップ３０５）においては、基本的にビタビアルゴリズムにより状態間の尤度更新を行うものとする。すなわち、ある状態Ｓへ複数の遷移がつながっているとき、それらの遷移間で伝搬する尤度が最大である遷移を選択し、その遷移の元の状態の前フレームにおける尤度にその遷移の尤度を加算して、状態Ｓの現在のフレームの尤度とする。
本例においては、さらに、ビタビアルゴリズムにより選択された遷移に沿って累積尤度をそのまま次状態へ伝搬させるとともに、累積フレーム数を１加算して次状態に伝搬させる。
【００５４】
候補選択（ステップ３０６）では、候補として、第１の候補群と第２の候補群を選択する。第１の候補群とは、この時点までに入力された音声データが、認識対象（単語、文節、文等）として非常に尤もらしい上位Ｎ個の候補の集まりである。具体的には、その認識対象を表現しているＨＭＭネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度最大の状態の位置（尤度ピーク位置）が状態系列の終端付近にある場合に、その認識対象を第１の候補群とする。
【００５５】
一方、第２の候補群とは、この時点までに入力された音声データが、認識対象（単語、文節、文等）の先頭の一部分らしい上位Ｍ個の候補の集まりである。具体的には、その認識対象を表現しているＨＭＭネットワーク上の各状態の尤度を観察したときに、状態系列間で尤度ピーク位置が状態系列の終端付近に到達せず、途中にある場合に、その認識対象を第２の候補群とする。
ＮおよびＭの値は、尤度の大きい順に選択する際の個数として決めても良いし、一番尤度の大きいものからある一定の尤度差内にある候補数と見なしても良い。
【００５６】
候補選択が終わると、次の音声入力に備えた尤度の再設定を行う（ステップ３０７）。ここでの尤度は先頭の状態に確率値「１」を与えるとともに、第２の候補群として選択された認識対象の中で最大尤度が得られていた、状態系列の途中の状態（尤度ピーク位置の状態）にも、確率値「１」を与える。さらに、この尤度の再設定では、第２の候補群に属する各候補に対応する尤度ピーク位置の状態に対応する累積尤度に、その尤度ピーク位置での尤度を加算し、第２の候補群に属さない各候補の累積尤度は「０」に再設定する。また、第２の候補群に属する各候補に対応する尤度ピーク位置以外の累積フレーム数も「０」に再設定する。
【００５７】
こうした尤度の再設定により、再度音声区間を検出した際に、第２の候補群に対して途中から照合を再開することができる。
さらに、累積尤度と累積フレーム数を保持し利用することにより、過去に分割されて入力された音声全体に対する各単語の単語尤度も次の式により求めることができる。
単語尤度＝累積尤度／累積フレーム数
尚、前述のステップ３０６の「候補選択」の処理において、普通の尤度（ある一固まりの音声に対する尤度）の代わりにこの単語尤度を使っても良い。
【００５８】
次に、分割されて入力された音声に対する照合の様子を図４〜図７に示すトレリスを用いて説明する。
ここで、トレリスとは状態遷移の様子を状態の並びとフレーム（時間）の２次元に表現した図である。図４〜図７に、ある単語に対するトレリスを示す。縦軸が状態、横軸がフレームである。また、図中○が状態を表し、状態間の矢印が遷移を表している。
【００５９】
図４は、初期状態のトレリスの例を示す説明図である。
初期状態では、先頭の状態のみに最大尤度を設定し（例えば「１」を与える。図中黒丸で示している）、他は最小尤度（例えば「０」）を設定する。
図５は、数フレーム分の音声入力があり一旦音声の終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
図中のグレー（網かけ模様）の丸は、この時点での尤度最大の状態を表している。例えば、「まつ」という認識対象に対して「ま」とだけ発声した場合、あるいは、「東京都国分寺市」という認識対象に対して「東京都」とだけ発声した場合に相当する。
【００６０】
図６は、図５の状態に最大尤度を再設定して次の音声入力に備えた段階のレトリスの状態の例を示す説明図である。
本図６では、同時に単語の先頭に対しても最大尤度を設定している。このように２箇所に初期尤度を再設定することにより、単語の先頭からの再入力にも、単語の途中からの継続的な音声入力にも対応できることになる。
【００６１】
図７は、図６の段階に再度音声入力があり数フレーム分の音声入力後に音声終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
本例では、途中からの継続的な音声入力があり、単語途中の状態からによりマッチし、最大尤度の状態が単語の最終状態となった例を示している。例えば、「まつ」の「つ」、あるいは、「東京都国分寺市」の「国分寺市」を発声した場合に相当する。
【００６２】
尚、図４から図７までの説明では、状態の並びを単語と仮定して説明したが、単語を文節、あるいは文に置き換えても同様なことが言える。また、図４から図７の説明では、２つに分割された音声が単語とマッチした例を示したが、３つ以上に分割された音声に対しても同様なことが言える。その結果、「東京都国分寺市恋ヶ窪」という状態列（標準パターン）に対して、「東京都」「国分寺市東恋ヶ窪」と２分割された音声も、「東京都」「国分寺市」「恋ヶ窪」と３分割された音声も正しく認識することができる。
【００６３】
また、「がっこう」をゆっくり発声した場合に「が」と「こう」に分離してしまう場合にも対応できることがわかる。
一般的な区間検出処理では、終端候補が検出されてから、再度音声が検出されないで終端候補を終端として確定するまでの待ち時間を設けている。すなわち、従来の技術では、「がっこう」のように促音（「っ」）を含む発声が語彙に含まれている場合に、「が」と「こう」に分離されてしまわないように、例えば３００ミリ秒程度の待ち時間を設けている。
【００６４】
しかし、ある程度ゆっくり発声した「がっ・こう」もうまく検出して認識できるようにするためには、この待ち時間をもっと長めに設定しておく必要がある。ところが、この据置時間はユーザが音声を発声し終わってから結果を表示するまでの応答時間に含まれているため、結果的には応答が遅くなってしまっていた。しかし、本例の音声認識システムによれば、この待ち時間を設定する必要がなく、結果的に応答時間も語彙によらず一定して早くすることができる。
【００６５】
ここまでの説明では、第２の候補群がキャンセルされることを特に考慮していない。しかし、いくら分割して発声するとしても１０秒間も間にポーズを取ることはほとんどあり得ないと考えられる。そこで、第２の候補群を場合によってキャンセルすることも考えられる。例えば、音声の終端検出後、５秒間音声入力がない場合は第２の候補群を全てキャンセルするようにすれば良い。
【００６６】
図８は、図１における音声認識システムの認識処理結果の表示出力例を示す説明図である。
本例は、図１の表示部６により出力された認識結果等の表示例を示し、第１の候補群と第２の候補群を別々の表示領域に表示した例である。
図８（ａ）は、「ま」と入力された場合の表示例、図８（ｂ）はその後に「つ」と入力された場合の表示例を示している。
【００６７】
図８（ｂ）においては、第１の候補群には、「まつ」と表示され、第２の候補群には「まつ」を含む候補群、および「つ」で始まる候補群（図中では「つちや」）が表示されている。
図８（ｃ）は、図８（ｂ）の後で「い」が入力された場合の表示例である。このとき第１の候補群では、図８（ｂ）における「まつ」が消され、「まつい」が表示される。また、第２の候補群には、「い」で始まる候補（図中では「いしい」「いとう」他）が表示される。
【００６８】
もし、「ま」と「つ」を連続的に発声する「まつ」が入力されると、図８（ｂ）において第２の候補群の「つちや」が抜けた表示となる。
また、第１の候補群、あるいは、第２の候補群として、音響的に類似の単語が、次候補や次々候補として挙がった場合には、それらも同時に表示される可能もある。例えば、もし「ますい」が認識対象語彙に含まれていたとすると、図８（ｂ）の時点で、第２の候補群に「ますい」も含めて表示され、図８（ｃ）の時点では、第１の候補群に「まつい」と「ますい」が表示されることもあり得る。この時、尤度が高い方が先（上位）に表示されるものとする。
【００６９】
さらに、図８（ａ）〜図８（ｃ）それぞれの状況において、ある一定時間音声の再入力がない場合、第２の候補群は削除され、第１の候補群を認識結果として確定するようにもできる。例えば、図８（ｂ）の時点でしばらく音声の再入力を行わないと、第２の候補群は全て取り消され、「まつ」が確定されるようにできる。
以下、このような動作を行なう音声認識システムに関して次の図９を用いて説明する。
【００７０】
図９は、本発明の音声認識システムの本発明に係る構成の第２の実施例を示すブロック図である。
本例は、図１における音声認識システムに、時間測定部８を設けた構成であり、時間測定部８は、音声区間検出部３で音声の終端を検出してからの経過時間を測定する。そして、音声区間検出部３が次の音声区間の始端を検出するまでに、時間測定部８で測定している時間が所定値（例えば５秒）を超えた場合、第２の候補群は全て取り消す。
【００７１】
また、時間測定部８は、表示部６が第１の候補群を表示してからの経過時間を測定しており、音声区間検出部３が次の音声区間の始端を検出するまでに、時間測定部８で測定している時間が所定値を超えた場合、表示部６が表示している第１の候補群を、音声区間検出部３で判定した音声区間における認識結果として確定する。
【００７２】
図１０は、図１における音声認識システムの認識処理結果の他の表示出力例を示す説明図である。
本例では、第２の候補群に網掛けをし、同じ表示領域内で、第１の候補群と識別できるように表示している。
【００７３】
次に、本実施例の音声認識システムにおける、音節単位発声による単語音声認識実験結果を説明する。
本実験では、人名１００語を認識タスクとして、本例の音声認識システムにおける累積尤度技術の効果を調べた。使用した音声資料および分析条件は、下記表１および表２の通りである。
【表１】

【表２】

また、使用したＨＭＭは、分布を２５６で量子化した半連続型ＨＭＭで、２状態３混合の音素片モデル３８７種類からなる。
【００７４】
図１１は、本実施例の音声認識システムにおける音節単位発声による単語音声認識実験結果例を示す説明図である。
本例は、定数ボーナス（Ｌｂｏｎｕｓ）の加算による尤度補正を含んだ累積尤度法による評価結果を示すものであり、ボーナス尤度をパラメータとした結果である。
θｐ、および、
【数８】

も認識性能に影響するパラメータであるが、今回は最適に近くなるような値として、θｐ＝単語の先頭から７０％の位置、
および、
【数９】

に固定した。
【００７５】
また、本例において、評価単語途中までの音節が入力された段階で誤った単語を受理してしまった場合を誤受理とし、途中誤受理率を以下の通り定義する。理想的には、「０％」になるべき評価指標である。
途中誤受理率
＝評価単語途中での単語受理誤り総数÷評価単語途中の入力音声（音節）総数
【００７６】
本例において、ボーナス尤度が「０」の場合が尤度補正なし（改良前）に相当するが、従来認識できなかったデータ（単語認識率０％）に対して認識率２９％が得られた。さらに、ボーナス尤度の値を「９０，０００」付近に設定すると最も高い認識率（６７％）が得られている。
尚、誤受理に関しては、例えば、「わ」「た」「な」「べ」という発声の途中で認識結果として、「わだ」が受理されてしまったり、あるいは、「し」だけで「いしい」が受理されてしまうというような現象があったが、ボーナス尤度（）の途中誤受理率に対する影響はほとんどないといえる。
【００７７】
図１２は、本実施例の音声認識システムにおける音節単位発声による他の単語音声認識実験結果例を示す説明図である。
本例は、累積フレーム数で重み付けしたボーナス尤度（Ｆｓ（ｗ，Ｓｍａｘ（ｗ，Ｔ），Ｔ）×Ｌｂｏｎｕｓ）の加算による尤度補正の結果を示すものである。
図１１における例の場合と比較すると、誤受理率はほとんど変わらず、認識率が改善されている（最高で、７１％）。
【００７８】
以上、図１〜図１２を用いて説明したように、本実施例の音声認識システムでは、結果判定部５から照合部４へのフィードバックパスを設け、照合部４において、結果判定部５からフィードバックされる判定結果に基づき暫定的な候補をある時間蓄えておき、単語あるいは文の途中から照合処理を継続する。これにより、例えば、単語音声認識において、単語単位の標準パターンは変更しなくとも、照合の内部データを一部保持することにより、従来全く認識不可能であった音節単位で区切って発声される単語音声、すなわち、ポーズで分割された音節単位発声の単語音声もある程度正しく認識でき、また、一息では言いづらい長い単語の音声認識が可能となる。
このように、音声認識のロバスト性（頑健性）を高めることができ、発声の制約がなくなるとともに、認識結果の応答時間も語彙によらず早くでき、その結果使い勝手が非常に向上し、実用化の際に非常に有効となる。
【００７９】
尚、本発明は、図１〜図１２を用いて説明した実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本発明の別な実施例として、「東京都国分寺市東恋ヶ窪」という登録単語に対して、音声入力がまだ全くない初期状態で「国分寺」部分の先頭の状態に初期（最大）尤度を与えておくことにより、「国分寺市」「恋ヶ窪」という途中からあるいは部分的な音声の受理も可能となる。この応用として、先頭の音節が無声化しやすい単語（「きらむら」等）の場合に、２番目以降の音節に相当するＨＭＭの状態に初期尤度を与えることで、無声化による発声変形にある程度対処可能になる。
【００８０】
また、第１の候補群の確定や、第２の候補群の削除に関しては、図９で示した時間測定部８による時間経過に伴う処理以外に、例えば、マウス入力や、キー入力、あるいはボタン入力等を介して、利用者の意志によって実行させるような構成とすることでも良い。
【００８１】
【発明の効果】
本発明によれば、音声認識のロバスト性（頑健性）を高めることができ、認識対象の音声の発声の仕方の制約をなくし、前提としない発声であっても正しく認識でき、発声側の負荷が軽減し、かつ、認識性能が向上し、音声認識システムの使い勝手を良くすることが可能である。
【図面の簡単な説明】
【図１】本発明の音声認識システムの本発明に係る構成の第１の実施例を示すブロック図である。
【図２】図１における音声認識システムの詳細な構成例を示すブロック図である。
【図３】図１における音声認識システムの処理手順例を示すフローチャートである。
【図４】初期状態のトレリスの例を示す説明図である。
【図５】数フレーム分の音声入力があり一旦音声の終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
【図６】図５の状態に最大尤度を再設定して次の音声入力に備えた段階のレトリスの状態の例を示す説明図である。
【図７】図６の段階に再度音声入力があり数フレーム分の音声入力後に音声終端が検出されたと仮定した時点のトレリスの例を示す説明図である。
【図８】図１における音声認識システムの認識処理結果の表示出力例を示す説明図である。
【図９】本発明の音声認識システムの本発明に係る構成の第２の実施例を示すブロック図である。
【図１０】図１における音声認識システムの認識処理結果の他の表示出力例を示す説明図である。
【図１１】本実施例の音声認識システムにおける音節単位発声による単語音声認識実験結果例を示す説明図である。
【図１２】本実施例の音声認識システムにおける音節単位発声による他の単語音声認識実験結果例を示す説明図である。
【図１３】従来の離散単語発声を対象とする音声認識システムの構成例を示すブロック図である。
【符号の説明】
１：音声入力部、２：音声分析部、３：音声区間検出部、４：照合部、４ａ：ピーク特定部、４ｂ：最大尤度特定部、５：判定部、５ａ：第１候補選択部、５ｂ：第２候補選択部、６：表示部、７：フィードバックパス、８：時間測定部、２１：マイク、２２：情報処理装置、２２ａ：認識結果確定部、２３：表示装置、２４：入力装置、２５：光ディスク、２６：光ディスク駆動装置、２７：外部記憶装置、３１：音声入力部、３２：音声分析部、３３：音声区間検出部、３４：照合部、３５：結果判定部、３６：表示部。

Claims

音声をＡ／Ｄ変換して取り込む音声入力手段と、該音声入力手段で取り込んだ音声を所定の間隔（フレーム）毎に音響分析して特徴ベクトルの時系列パターンを求める音声分析手段と、該音声分析手段で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する音声区間検出手段と、該音声区間検出手段で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を取得する照合手段と、該照合手段で取得した尤度に基づき、上記音声入力手段で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する判定手段と、該判定手段で判定した言語情報を出力する出力手段とからなる音声認識システムであって、
先頭から末尾を含む任意の位置までの部分（先頭部分）が上記判定手段で上記音声に対応すると判定された上記標準パターンを抽出して上記照合手段に渡すフィードバック手段を設け、
上記照合手段は、上記音声区間のそれぞれで、上記先頭部分での尤度と共に、上記フィードバック手段から渡された標準パターンの上記先頭部分の後からの部分（途中部分）での尤度を求め、
上記判定手段は、上記途中部分での尤度を優先して、上記音声に対応する標準パターンを判定し、
上記途中部分での尤度を優先して判定された標準パターンを、上記フィードバック手段を介して上記照合手段に渡し、上記照合手段と上記判定手段および上記フィードバック手段による処理を複数の上記音声区間に渡って繰り返し、
複数の上記音声区間に渡って上記音声に最適に対応する標準パターンを特定することを特徴とする音声認識システム。
音声をＡ／Ｄ変換して取り込む音声入力手段と、
該音声入力手段で取り込んだ音声を所定の間隔（フレーム）毎に音響分析して特徴ベクトルの時系列パターンを求める音声分析手段と、
該音声分析手段で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する音声区間検出手段と、
該音声区間検出手段で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を求める照合手段と、
該照合手段で求めた尤度に基づき、上記音声入力手段で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する判定手段と、
該判定手段で判定した言語情報を出力する出力手段とからなる音声認識システムであって、
上記照合手段は、
上記判定手段で上記音声に対応すると判定された複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、上記尤度が最大の位置（尤度ピーク位置）および該最大の尤度（部分照合尤度）を求める手段と、上記複数の標準パターン毎に求めた各部分照合尤度から最大の尤度（最大尤度）を求める手段を有し、
上記判定手段は、
該照合手段で求めた尤度ピーク位置が上記標準パターンの末尾から所定の閾値内にあり、かつ、上記部分照合尤度と上記最大尤度との差が所定値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位Ｎ（Ｎ＝１，２，・・・）個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第１の候補とする手段と、該照合手段で求めた尤度ピーク位置が上記標準パターンの末尾から上記所定の閾値外にあり、かつ、上記部分照合尤度と上記最大尤度との差が予め定められた値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位Ｍ（Ｍ＝１，２，・・・）個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第２の候補として特定する手段を有し、
上記第１の候補および第２の候補について上記照合手段と上記判定手段の処理を繰り返すことを特徴とする音声認識システム。
コンピュータに、音声をＡ／Ｄ変換して取り込む第１の手順と、該第１の手順で取り込んだ音声を所定の間隔（フレーム）毎に音響分析して特徴ベクトルの時系列パターンを求める第２の手順と、該第２の手順で求めた上記特徴ベクトルの時系列パターンから、音声の始端および終端を検出して音声区間を判定する第３の手順と、該第３の手順で判定した音声区間の上記特徴ベクトルの時系列パターンに対して、予め作成された複数の標準パターンとのそれぞれの尤度を求める第４の手順と、該第４の手順で求めた尤度に基づき、上記第１の手順で取り込んだ音声に対応する上記標準パターンおよび該標準パターンに予め対応付けられた言語情報を判定する第５の手順と、該第５の手順で判定した言語情報を出力する第６の手順とに基づく音声認識を実行させるプログラムを記録した記録媒体であって、
上記第４の手順は、上記複数の標準パターン毎に、各標準パターンの先頭から末尾を含む任意の位置までの部分で、上記尤度が最大の位置（尤度ピーク位置）および該最大の尤度（部分照合尤度）を求める第７の手順と、上記複数の標準パターン毎に求めた各部分照合尤度から最大の尤度（最大尤度）を求める第８の手順とを含み、
上記第５の手順は、上記第４の手順で求めた尤度ピーク位置が上記標準パターンの末尾から所定の閾値内にあり、かつ、上記部分照合尤度と上記最大尤度との差が所定値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位Ｎ（Ｎ＝１，２，・・・）個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第１の候補として特定する第９の手順と、上記第４の手順で求めた尤度ピーク位置が上記標準パターンの末尾から上記所定の閾値外にあり、かつ、上記部分照合尤度と上記最大尤度との差が予め定められた値内の標準パターンを抽出し、該抽出した標準パターンから、上記部分照合尤度が大きい上位Ｍ（Ｍ＝１，２，・・・）個を選択し、該選択した標準パターンに対応付けられた上記言語情報を第２の候補として特定する第１０の手順とを含み、
上記コンピュータに、
上記第３の手順で判定した次の音声区間の上記特徴ベクトルの時系列パターンに対して、
上記第４の手順における上記第７の手順と上記第８の手順により、上記各標準パターンの先頭から末尾を含む任意の位置までの部分（通常部分）で上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めさせると共に、上記第１０の手順で第２の候補として特定された言語情報に対応付けられた上記標準パターンの上記尤度ピーク位置から末尾を含む任意の位置までの部分（優先部分）でも上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めさせ、
上記第５の手順における上記第９の手順と上記第１０の手順とにより、上記通常部分および上記優先部分での上記尤度ピーク位置と上記部分照合尤度および上記最大尤度に基づく上記第１の候補と上記第２の候補の特定を行なわせ、
上記第１の手順で取り込んだ音声から上記第２の手順で順次に判定する各音声区間の上記特徴ベクトルの時系列パターンに対して、上記第４の手順による上記尤度ピーク位置と上記部分照合尤度および上記最大尤度の取得と、上記第５の手順による上記第１の候補および上記第２の候補の特定とを繰り返し行なわせ、上記第１の候補の上記言語情報および上記第２の候補の上記言語情報を上記第６の手順により出力させることにより、上記音声認識を実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
上記第６の手順は、上記判別手段で特定された上記第１の候補の上記言語情報と上記第２の候補の上記言語情報とを、それぞれ識別可能に表示することを特徴とする請求項３に記載のコンピュータ読み取り可能な記録媒体。
上記音声認識は、複数の単語からなる上記言語情報が予め対応付けられた上記標準パターンを用いる場合、上記音声区間検出手段で上記音声の終端を検出した時点で、上記照合手段の上記ピーク特定手段で特定した上記尤度ピーク位置が上記単語の途中にあれば、該単語以前の部分を認識結果として確定する手順と、上記音声区間検出手段で次の音声の始端を検出すれば、上記尤度ピーク位置が途中にあった上記単語の先頭から上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求める手順とを有し、上記複数の単語からなる上記言語情報単位での音声認識を行う場合、上記音声区間検出手段で上記音声の終端を検出した時点で上記尤度ピーク位置が上記単語の途中にあれば、上記音声区間検出手段での次の音声の始端の検出時、上記単語の途中にあった上記尤度ピーク位置からのみでなく、該尤度ピーク位置が途中にあった単語の先頭からも、上記尤度ピーク位置と上記部分照合尤度および上記最大尤度を求めることを特徴とする請求項３、もしくは、請求項４のいずれかに記載のコンピュータ読み取り可能な記録媒体。