JP3559479B2

JP3559479B2 - 連続音声認識方法

Info

Publication number: JP3559479B2
Application number: JP26823799A
Authority: JP
Inventors: 厚徳小川; 喜昭野田; 昭一松永
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-09-22
Filing date: 1999-09-22
Publication date: 2004-09-02
Anticipated expiration: 2019-09-22
Also published as: JP2001092495A

Description

【０００１】
【発明の属する技術分野】
この発明は、規定された文法あるいは接続関係によって生成可能な数多くの単語列の仮説から、入力された音声に最も近い仮説を、複数の探索段階により見つける連続音声認識方法に関する。
【０００２】
【従来の技術】
まず、図６を参照して、従来の連続音声認識法の一例について説明する。この図において、入力音声１１は、分析処理部１２において特徴パラメータのベクトルデータ時系列に変換され、さらに探索処理部１３において文法／言語モデル１６で許容する単語列の仮説（以下単に仮説と記す）と対応した音響モデル１５と前記特徴パラメータのベクトルデータ時系列とが照合される。この仮説の照合結果の評価値であるスコアは、入力音声と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を示す言語スコアからなり、最も高いスコアを持つ仮説が認識結果１４として出力される。
【０００３】
分析処理部１２における信号処理としてよく用いられるのは、ケプストラム分析であり、特徴パラメータとしては、ＭＦＣＣ（Mel Frequency Cepstral Coefficient) 、ΔＭＦＣＣ、対数パワーなどがある。音響モデル１５としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（Hidden Markov Model 、以後ＨＭＭという）が主流である。通常、ＨＭＭは音素ごとに作成される（音素モデル）が、現在では、ある音素のＨＭＭを作成する際に、その前後に接続する音素も考慮に入れる（音素環境を考慮する）triphone ＨＭＭと呼ばれるＨＭＭが主流となっている。このＨＭＭの詳細は、例えば、文献（社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』）に開示されている。
【０００４】
文法／言語モデル１６は、認識対象とする文章を定義するための単語の連結関係を規定したものであり、単語を枝とした単語ネットワークや言語の確率モデル等が用いられる。連続音声認識の場合、文法は図７に示すような任意の単語が任意の単語に接続可能な単語ネットワークの形式をとることが多い。このような形式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。言語の確率モデルは、単語単体の存在確率、２つ以上の単語の連鎖する確率が用いられる。単語単体の存在確率を表すモデルは単語１−ｇｒａｍ、単語の２連鎖確率、３連鎖確率をそれぞれ表すモデルはそれぞれ、単語２−ｇｒａｍ、単語３−ｇｒａｍと呼ばれる。この言語の確率モデルを用いることで、言語（ここでは日本語）として存在し得ない仮説の生成を抑制することができる。この言語の確率モデルの詳細は、例えば、社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』等に開示されている。
【０００５】
探索処理部１３では、文法で規定された単語の接続関係を示す単語ネットワーク上の仮説に対応した音響モデルと特徴パラメータのベクトルデータ時系列を照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアを求め、音響スコアと言語スコアからなる仮説のスコアを、入力連続音声の始端から終端まで各仮説について求め、最も大きいスコアの仮説、つまり入力音声に最も近い仮説を認識結果として出力する。連続音声認識においては、文法で生成可能な仮説が膨大であり、高速かつ高精度に認識結果を得るために、仮説探索を複数段階行い、段階的に候補仮説を絞り込んでいくマルチパス探索という探索法がとられることが多い。マルチパス探索の詳細は、例えば、R.Schwartz, L.Nguyen, and John Makhoul：“Multiple-pass SearchStrategies ”，in Automatic Speech and Speaker Recognition Advanced Topics, pp.429-456, Kluwer Academic Publishers(1996）．等に開示されている。
【０００６】
ここでは最も一般的である２段階で仮説を絞り込むマルチパス探索について図８を用いて説明する。１段階目の探索（第１パス探索）２１では、図７に示されるような単語ネットワークで生成可能な膨大な仮説の中から、文法／言語モデル１６中の粗い言語モデル、例えば単語２−ｇｒａｍや、音響モデル１５中の粗い音響モデル、例えば単語内の音素環境のみ考慮するtriphone ＨＭＭなどの計算コストの低いモデルを用い、入力音声に近い候補仮説を高速に絞り込む。
【０００７】
またこの第１パス探索２１では時間同期ビーム探索と呼ばれる方法がとられることが多い。時間同期ビーム探索では、入力音声と仮説の照合は図７の単語ネットワークで生成可能な全ての仮説に対して、通常分析フレームごとの計算を、時間同期的に同時に進められるが、生成可能な仮説の数が時間の経過と共に著しく多くなるため、この処理を現実的な処理時間で終えることは困難である。そこで、探索途中において認識結果となる可能性が低い仮説に対する探索を打ち切る（枝刈りする）ことで、現実的な処理時間で探索を終えることをねらう。時間同期ビーム探索において仮説を枝刈りする基準としては、全ての仮説の中で、最大のスコアから大きいスコアの順にｍ個の仮説を残し、それ以外の仮説を打ち切る方法や、全ての仮説のスコアの中で最大のスコアから一定値θを差し引いたスコアをしきい値とし、そのしきい値以上のスコアを有する仮説のみ残し、それ以下のスコアを有する仮説を枝刈りする方法等がある。ここで、仮説を枝刈りする基準を決定するパラメータであるｍやθはビーム幅と呼ばれる。時間同期ビーム探索では同一時刻における各仮説のスコアの大きさから可能性がないと推定される仮説を枝刈りするため、正しい解となる仮説を枝刈りする可能性は少ない。しかし時間同期ビーム探索は、探索途中で仮説の枝刈りを行うため、必ずしも最もスコアの高い仮説が認識結果として得られるわけではないが、ビーム幅をある程度以上大きくとれば必ず解が得られる探索法である。時間同期ビーム探索の詳細は、例えば、R.Haeb-Umbach and H.Ney ：“Improvements in beam search for 10000-word continuous-speech recognition”，IEEE Trans. Speech and Audio Processing, Vol.2，No.2，pp.353-356(1994)．等に開示されている。
【０００８】
第１パス探索の結果は、トレリス形式や単語ラティスなどの中間表現として得られるが、ここでは図９に示すような単語ラティスと呼ばれる単語の接続関係をコンパクトに表現した単語ネットワークを想定する。単語ラティスには、第１パス探索の結果として単語境界時刻とその時刻におけるその仮説のそれまでのスコアが記憶されている。単語ラティスの詳細は、例えば、S.Ortmanns and H.Ney：“A word graph algorithm for large vocaburary continuous speech recognition ”，Computer Speech and Language, Vol.11, No.1, pp.43-72(1997)．等に開示されている。
【０００９】
図８に示すように２段階目の探索（第２パス探索）２２では、第１パス探索２１の結果得られた単語ラティス２３上で音響モデル１５中の高精度の音響モデルと文法／言語モデル１６中の高精度の言語モデルを用いた仮説のスコアの再計算を分析フレームごとに行い、最終的な認識結果１４を得る。第２パス探索２２としてよく用いられる方法としては、Ｎ−ｂｅｓｔリスコアリング、Ａ^*探索が挙げられる。
【００１０】
Ｎ−ｂｅｓｔリスコアリングは、粗いモデルを用いた探索によるスコアで順序づけられたＮ−ｂｅｓｔ文候補と呼ばれる複数（スコアの高いＮ個）の文候補のスコアを、高精度のモデルを用いた探索によるスコアで置き換えて、文候補の順序を大きい順に入れ換える。Ｎ−ｂｅｓｔリスコアリングを第２パス探索２２に用いる場合、まず、単語ラティスに記憶されている第１パス探索のスコアを基に単語ラティス２３からスコアの大きい順からＮ個の文候補（Ｎ−ｂｅｓｔ文候補）を作成し、単語２−ｇｒａｍ等の粗い言語モデルによるスコアを単語３−ｇｒａｍ等のより高精度の言語モデルによるスコアで置き換えてスコアを計算しなおし、その再計算したスコアの大きい順に文候補の順序を入れ換える。Ｎ−ｂｅｓｔリスコアリングは、実装が単純であり、確実に認識結果を得ることができる。Ｎ−ｂｅｓｔリスコアリングの詳細は、例えば、L.Nguyen, R.Schwartz, Y.Zhao, and G.Zavaliagkos ：“Is N-best dead？”，Proc.DARPA Speech and Natural Language Workshop, pp.411-414(1994) ．等に開示されている。
【００１１】
Ａ^*探索では、次の（１）式で定義されるスコアが最も高い仮説ｎから優先的に展開を行う（best-first探索）。
ｆ_n（ｔ）＝ｇ_n（ｔ）＋ｈ_n（ｔ）（１）
ここで、ｔは時刻（フレーム番号）、ｇ_n（ｔ）は既に探索を終えた区間のスコア、つまり図１０において、単語境界時刻（ノードとも呼ぶ）Ｎ０−Ｎ１−Ｎ２−Ｎ３−Ｎ４−Ｎ５を連ねる仮説のスコアであり、ｈ_n（ｔ）はこの単語境界時刻Ｎ５より始端までの未探索の区間の推定スコア（ヒューリスティック）である。すなわち、ｆ_n（ｔ）は仮説ｎの全区間に対する推定スコアであり、ｆ_n（ｔ）を仮説ｎのスコアとして用いることは、全ての仮説のスコアを始端から終端までの全区間に対するものを求めていることになる。また、これにより、探索の進行度が異なる（時間的な長さの異なる）仮説同士の比較が可能となる。Ａ^*探索で最もスコアの高い解（最適解）を得るためには、ｈ_n（ｔ）の値がその真値（わかったとする）よりも大きくなければならない（Ａ^*適格性）ことが知られている。また、ｈ_n（ｔ）がその真値に近いほど効率の高い探索が可能である。Ａ^*探索を第２パス探索２２に用いる場合は、図１０に示すように、単語ラティス上を第１パス探索２１とは逆向きに文末から単語単位の仮説展開を行う。このとき、ｇ_n（ｔ）は第１パス探索で用いた言語モデル、音響モデルよりもよりそれぞれ高精度の言語モデル、音響モデル、例えば単語３−ｇｒａｍと、単語内及び単語間の各音素環境を考慮したtriphone ＨＭＭを用いて再計算する形で求める。
【００１２】
第２パス探索スコアで、ｈ_n（ｔ）には単語ラティス２３に記憶されている第１パス探索スコアを用いることができる。図１０においては現在、計６個の仮説があるが、この中からｆ_n（ｔ）が最大のもの（例えば今の場合、Ｎ０−Ｎ１−Ｎ２−Ｎ３−Ｎ４−Ｎ５）を選んでこれを展開する。Ａ^*探索の詳細は、例えば、コロナ社、Nils.J.Nilsson著、合田周平、増田一比古訳、『人工知能−問題解決のシステム論−』に開示されている。
【００１３】
【発明が解決しようとする課題】
ところで、Ｎ−ｂｅｓｔリスコアリングには、単語ラティスからＮ−ｂｅｓｔ文候補を作成する際に、１単語のみ異なるような類似候補が多数出現するため、十分な認識精度を得るには、比較的多くの文候補を対象にリスコアリングを行う必要がある、また、より高精度の音響モデルを用いた音響スコアの再計算も可能であるが効率的ではない、等の問題がある。一方、Ａ^*探索には、第１パス探索の結果を第２パス探索でヒューリスティックとして利用できるという利点はあるが、第１パス探索と第２パス探索では用いるモデルが異なるために、真値に近いｈ_n（ｔ）が得られるとは限らないため、入力音声によっては探索の効率が悪くなる場合がある。ｈ_n（ｔ）が真値に近く、最高のｆ_n（ｔ）の仮説展開をうまく行うことができればよいが、ｈ_n（ｔ）が真値から遠い場合は仮説数が極端に増大し、実時間での認識は困難になる。
【００１４】
この発明は、上述のＮ−ｂｅｓｔリスコアリングやＡ^*探索にある問題点に鑑みてなされたもので、Ａ^*探索のように粗いモデルを用いたパス探索の結果を利用しながら、その後のパス探索を効率よく行い、かつ、時間同期ビーム探索やＮ−ｂｅｓｔリスコアリングのように必ず解を得ることを可能とする連続音声認識方法を提供することを目的とする。
【００１５】
【課題を解決するための手段】
この発明によれば、粗いモデルによる探索により得た単語ネットワーク（単語ラティス）を利用して精度の高いモデルを用いる探索の際に探索が最も遅れている仮説を優先的に展開することを繰返し実行する。このようにすることにより展開中の仮説の長さがほぼ揃うことになる。よって仮説展開中に枝刈りを行い、効率的な探索が可能となり、しかも必ず解が得られる。
【００１６】
また、精度の高いモデルを用いた探索において、先に得られている単語ラティスに記憶されている各単語境界時刻に５ミリ秒以上又は１フレーム以上の幅をもたせてスコアの計算をする。
【００１７】
【発明の実施の形態】
以下にこの発明の実施例を説明する。この実施例では例えば図８に示したように、粗い音響モデルと粗い言語モデルを用いて第１パス探索を入力特徴パラメータのベクトルデータ系列に対して行い、単語ラティス２３を生成し、その後、その単語ラティス２３上で、高精度音響モデルと高精度言語モデルを用いて、第２パス探索を行う。
【００１８】
この実施例において特徴があるのは第２パス探索の手法にある。この第２パス探索は従来のＡ^*探索と同様に、第１パス探索とは逆向きに文末（入力音声の終端）から単語単位で仮説の展開を行う。この際この発明ではその単語単位の仮説展開を、探索が最も遅れているものから優先的に展開する（Shortest-first探索）。例えば図１に示すように、いま、単語境界時刻（ノード）Ｎ０−Ｎ１−Ｎ３−Ｎ８よりなる仮説、Ｎ０−Ｎ１−Ｎ３−Ｎ９よりなる仮説、Ｎ０−Ｎ１−Ｎ３−Ｎ７よりなる仮説、…，Ｎ０−Ｎ１−Ｎ４−Ｎ５−Ｎ１３よりなる仮説の７個の仮説に展開されている状態において、探索が最も遅れている仮説は、各仮説の先頭ノードＮ８，Ｎ９，Ｎ７，Ｎ１０，Ｎ１１，Ｎ１２，Ｎ１３中のその時刻が最も遅い時刻ｔのノードＮ７を選択する。ただし入力音声の始点を基準とし、終端側時間が進むと各時刻を表わしている。このようにして選択したノードＮ７につきその仮説を展開させる。例えば単語ラティス２３（図８）からノードＮ７に対し始端側に接続されるノードがＮ１４，Ｎ１５，Ｎ１６であったとし、ノードＮ１４から始端に至る未探索区間の推定スコア（ヒューリスティック）がｈ_n１（ｔ）、同様にノードＮ１５，Ｎ１６からそれぞれ始端に至る未探索区間のヒューリスティックがｈ_n２（ｔ），ｈ_n３（ｔ）であったとする。
【００１９】
ノードＮ０からＮ７を経てＮ１４に至る仮説のスコアｇ_n１（ｔ）を各分析フレームごとに計算して求め、このｇ_n１（ｔ）とｈ_n１（ｔ）との和ｆ_n１（ｔ）、つまりその仮説の全区間でのスコアを求める。以下同様にしてノードＮ１５に至る仮説のスコアｇ_n２（ｔ）と、その全区間でのスコアｆ_n２（ｔ）求め、またノードＮ１６に至る仮説のスコアｇ_n３（ｔ）と、その全区間でのスコアｆ_n３（ｔ）を求める。
【００２０】
このように最も遅れている仮説の先端ノードＮ７からその仮説を１単語分延長する仮説の展開を行い、その１単語分延長するごとに、最も遅れている仮説を選びその仮説を１単語分延長する仮説展開を行う。このようにすると、時間同期ビーム探索のように各仮説の時間的な長さがほぼ揃ろいながら仮説が展開されることになる。よってスコアにもとづく枝刈りが可能となり、この実施例では仮説を展開しながら枝刈りを行う。この枝刈りは二つの手法の一方又は両方を用いることができる。その１つは仮説を延長させる際に求めるその仮説のスコアｇ_ni（ｔ）（前記例えばｉ＝１，２，３）を分析フレームごとに計算中において、各分析フレームごとの計算が終ると、その時の全仮説のスコアｇ_n（ｔ）の最高値から一定値θを差し引いたスコアをしきい値として、そのしきい値以下のスコアの仮説はそこで計算を打切り、除去する。
【００２１】
例えば図２に示すように、各分析フレームごとの計算で得られるスコアｇ_n（ｔ）の最高値の包絡か曲線３１で表わされ、その曲線３１よりθだけ小さいスコアの曲線３２とすると、仮説展開の計算途中で、スコアｇ_n（ｔ）が曲線３２以下となったものは除かれ、スコアが曲線３１と３２の間に入る仮説のみが残される。なお図２は仮説が延長されるに従ってそのスコアが小さくなるようなスコアの計算方向をとった場合である。
【００２２】
枝刈りのもう１つの手法は、１つの仮説について１単語分の仮説の延長展開を行うごとに、全仮説の全区間スコアｆ_n（ｔ）を大きい順にｍ個取出し、そのｍ個の仮説を残し、それより小さい仮説は除去する。
以上述べた仮説の展開の手順を図３に示す、まず全仮説の先頭ノード群Ｎ＝｛ｎ１，…，ｎｘ｝のうち時刻が最も遅いものｎｉを選択する（Ｓ１）。ノードｎｉから展開されるノード群｛ｎｉ１，…，ｎｉｙ｝を取出す（Ｓ２）。その取出したノードから順に１つのノードｎｉｊ（ｊ＝１，…，ｙ）についてその仮説のスコアｇ_n（ｔ）（ｎｉｊ）の計算を開始する（Ｓ３）、その各ｇ_n（ｔ）（ｎｉｊ）の計算途中で、その分析フレームごとの計算結果から最高値スコアを求め、これよりθだけ引いた値をしきい値とし、計算したスコアがしきい値以下になると（Ｓ４）、その計算を中止し、そのノードｎｉｊへの展開を停止し、つまりそのノードへの展開する仮説を枝刈りしてステップＳ７に移る（Ｓ１２）。
【００２３】
計算中にスコアがしきい値以下にならずスコア計算が終了すると（Ｓ５）、そのノードｎｉｊが始端でなく（Ｓ６）、かつ取出したノードｎｉｊの全てについての計算が終っていなければ（Ｓ７）、ステップＳ３に戻り、次のノードｎｉｊについてスコアの計算を開始する。
全てのｎｉｊについて仮説のスコアを計算し終ると（Ｓ７）、先に選択したｎｉを先頭ノード群Ｎから消去し、全てのｎｉｊを先頭ノード群Ｎに加える（Ｓ８）。この状態での仮説の数がｍ個以下であれば（Ｓ９）、ステップＳ１に戻って、再び先頭ノード群から最も時刻が遅れているノードを選択して同様の処理を行う。一方、仮説の数がｍ以下でなければ、各仮説の全区間スコアｆ_n（ｔ）＝ｇ_n（ｔ）＋ｈ_n（ｔ）の大きいものから順にｍ個を取出し、その仮説のみを残し、他の仮説は除去する（Ｓ１０）。この除去に伴って、その除去された仮説の先頭ノードも先頭ノード群Ｎから除かれる。この枝刈り後にステップＳ１に戻る。
【００２４】
ステップＳ６でｎｉｊが始端であれば、その時得られたその仮説の全区間スコアｆ_n（ｔ）＝ｇ_n（ｔ）（ｎｉｊ）をその仮説について記憶してステップＳ７に移る（Ｓ１２）。このｎｉｊは再び先頭ノード群Ｎには加えない（ｎｉｊに関しては探索終了）。
以上の処理をステップＳ１で選択する先頭ノードがなくなるまで行い、選択する先頭ノードがなくなった時に、記憶してある仮説スコアの最大のもの又は大きい順に所定数のものの仮説を認識結果として出力する。
【００２５】
第１パス探索と第２パス探索では用いるモデルが異なるため、同じ仮説に対しても第１パス探索と第２パス探索では単語境界がずれる可能性がある。そこでこの実施例では第２パス探索の単語境界時刻として単語ラティスに記憶されている第１パス探索の単語境界時刻をそのまま用いるのではなく、前後数フレームのずれを許容して第２パス探索を行う。
【００２６】
つまり例えば図４Ａに示すように単語ラティスに記憶されている単語境界時刻が単語Ａと単語Ｂ間はｔ１、単語Ｂと単語Ｃ間はｔ２とする。この時、図４Ｂに示すように単語Ａと単語Ｂ間はｔ１のみならず、ｔ１−Δと、ｔ１＋Δも境界時刻とし、単語Ｂと単語Ｃ間はｔ２のみならず、ｔ２−Δとｔ２＋Δも境界時刻とする。この時のスコアの計算は時刻ｔ２＋Δから計算を開始し、時刻ｔ２に達した時の値Δｇ（ｔ２＋Δ，ｔ２）を記憶し、更に計算を継続して進めｔ２−Δに達した時の値Δｇ（ｔ２＋Δ，ｔ２−Δ）を記憶し、更に計算を継続して進め、時刻ｔ１＋Δに達した時の値ｇ（ｔ２＋Δ，ｔ１＋Δ）を記憶し、更に計算を継続して進めｔ１に達した時の値ｇ（ｔ２＋Δ，ｔ１）を記憶し、更に計算を継続して進めｔ１−Δに達した時の値ｇ（ｔ２＋Δ，ｔ１−Δ）を記憶し、ｔ２＋Δ，ｔ２，ｔ２−Δからそれぞれｔ１＋Δに仮説を延長した時の各スコアｇ（ｔ２＋Δ，ｔ１＋Δ）とｇ（ｔ２＋Δ，ｔ１＋Δ）−Δｇ（ｔ２＋Δ，ｔ２）と、ｇ（ｔ２＋Δ，ｔ１＋Δ）−Δｇ（ｔ２＋Δ，ｔ２−Δ）との３つのうち最大のものを時刻ｔ１＋Δのスコアとし、ｔ２＋Δ，ｔ２，ｔ２−Δからそれぞれｔ１に仮説を延長した時の各スコアｇ（ｔ２＋Δ，ｔ１）と、ｇ（ｔ２＋Δ，ｔ１）−Δｇ（ｔ２＋Δ，ｔ２）と、ｇ（ｔ２＋Δ，ｔ１）−Δｇ（ｔ２＋Δ，ｔ２−Δ）との３つのうち最大のものを時刻ｔ１のスコアとし、ｔ２＋Δ，ｔ２，ｔ２−Δからそれぞれｔ１−Δに仮説を延長した時の各スコアｇ（ｔ２＋Δ，ｔ１−Δ）と、ｇ（ｔ２＋Δ，ｔ１−Δ）−Δｇ（ｔ２＋Δ，ｔ２）と、ｇ（ｔ２＋Δ，ｔ１−Δ）−Δｇ（ｔ２＋Δ，ｔ２−Δ）との３つのうち最大のものを時刻ｔ１−Δのスコアとする。
【００２７】
なお、Δとしては１分析フレーム以上乃至５ミリ秒程度以上とするが、Δの値を大きくすると、計算量が多くなるので数フレーム乃至数１０ミリ秒程度以下とする。
上述において仮説の全区間スコアとしてｆ_n（ｔ）＝ｇ_n（ｔ）＋ｈ_n（ｔ）を用いたが、ｈ_n（ｔ）に対して１に近い重みαを与えてｆ_n（ｔ）＝ｇ_n（ｔ）＋αｈ_n（ｔ）を全区間スコアとしてより精度を高めることもできる。αを求めるには、第１パス探索に用いる粗いモデルを用いて、適当な単語列についてスコアｈを計算し、またその単語列について第２パス探索に用いる高精度モデルを用いてスコアｇを計算し、α＝ｇ／ｈを計算して重みαを求めればよい。
【００２８】
上述においてはこの発明を第２パス探索に適用したが、３段階探索により認識を行う場合にも適用できる。要は粗いモデルを用いてパス探索を行い、単語ラティスを作り、その単語ラティス上で、高い精度のモデルを用いてパス探索を行う場合にこの発明を適用できる。
続いて、この発明者等が開発した大語彙連続発声認識システムに、上記Ｎ−ｂｅｓｔリスコアリングとこの発明による探索（以後時間非同期ビーム探索と呼ぶ）を用いた場合の比較連続音声認識実験の結果について説明する。なお、大語彙連続音声認識システムについては、電子情報通信学会技術研究報告ＳＰ９６−１０２、野田喜昭、松永昭一、嵯峨山茂樹著、“単語グラフを用いた大語彙連続音声認識における近似演算手法の検討”（１９９７）に詳しく記載されている。音響モデルは、ニュース番組１ケ月分から６７００文を学習データとする総状態数２０００、混合数８のtriphone ＨＭＭである。特徴量は、ＭＦＣＣ１２次元とその１次、２次回帰係数、対数パワーとその１次、２次回帰係数の計３９次元である。言語モデルは、ニュース番組原稿４年分の５０万文と、１ケ月分のニュース番組音声の書き起こしで学習された単語２−ｇｒａｍと単語３−ｇｒａｍである。評価セットはニュース番組５日分から５０文（総単語数１８００、平均発声長１２秒）を選択した。なお、第１パス探索の結果として得られる単語ラティス内に含まれる仮説の中でスコアの最も高い仮説（最適解）の単語誤り率は９．５１％であった。
【００２９】
Ｎ−ｂｅｓｔリスコアリングと上記単語境界時刻のずれを許さない時間非同期ビーム探索の実験結果を図５Ａに示す。これより、時間非同期ビーム探索ではＮ−ｂｅｓｔリスコアリングよりも高速かつ高精度に解を得られることが分かる。続いて時間非同期ビーム探索で単語境界時刻のずれを考慮し、数ｍｓｅｃのずれを許容する効果を調査した。図５Ａのずれを許容しない場合（０ｍｓｅｃ）を基準とし、許容するずれを１０から５０ｍｓｅｃと変化させて実験を行った。結果を図５Ｂに示す。これより、２０ｍｓｅｃ程度のずれを許容することで、より高精度の解が得られ、またずれを許容すればずれを許容しない場合よりも高い精度の解が得られることが分かる。なおこの実験においてＡ^*探索の評価も行ったが、第４文章で３０分間程度しても解が得られないものが生じた。しかしこの発明によれば実用的時間内に全ての解が得られ、この発明がＡ^*探索より優れていることが確認できた。
【００３０】
【発明の効果】
以上説明したように、この発明によれば、安定して解が得られる時間同期ビーム探索のように展開中の仮説の長さがなるべく揃うような仮説展開と枝刈りを行うことにより、必ず解が得られる。またＡ^*探索のように粗いモデルを用いたパス探索の結果として単語ラティスに記憶されている単語境界時刻とスコアの情報を利用することと、単語ラティスに記憶されている単語境界時刻を高精度モデルを用いたパス探索の単語境界時刻としてそのまま用いるのではなく、数フレーム分のずれを許容することで、高精度、効率的かつ安定して最終的な解を得られるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の要部である最も探索が遅れた仮説を優先的に展開させることを説明するための仮説展開図。
【図２】スコアビームによる枝刈りを説明する図。
【図３】この発明の要部である最も探索が遅れた仮説を優先的に展開し、かつ枝刈りをする処理手順の例を示す流れ図。
【図４】この発明で単語境界時刻のずれを許容させる説明図。
【図５】この発明の効果を示す実験結果を示す図。
【図６】音声認識処理の一般的な機能構成を示す図。
【図７】文法が許容する単語ネットワークを示す図。
【図８】マルチパス探索による連続音声認識処理の機能構成を示す図。
【図９】図８中の第１パス探索により生成された単語ラティスの例を示す図。
【図１０】従来のＡ^*探索における仮説展開の様子を示す図。

Claims

単語と入力音声との音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法あるいはその接続しやすさを示す言語スコアを求める言語モデルを備え、
連続的に発声された入力音声に対して、粗い音響モデルと粗い言語モデルを用いて探索して文法の許容する単語列の仮説の中から入力音声に近いものを絞り込み単語ネットワークを作成し、その後前記探索よりも高精度の音響モデルと高精度の言語モデルを用い、上記単語ネットワーク上で探索して上記入力音声に対して単語ネットワークで許容される単語列の仮説の中から入力音声に更に近いものを絞り込み、最終的に入力音声に最も近いひとつあるいは複数の単語列の仮説を認識結果とする連続音声認識方法において、
前記高精度の音響モデルと言語モデルを用いた探索は、単語列の仮説の展開ごとに最も探索が遅れている単語列の仮説を選択して行い、
各単語列の仮説の展開ごとに、得られた単語列のスコアに基づき予め決めた条件から外れた単語列の仮説の展開を打ち切ることを特徴とする連続音声認識方法。
上記単語列の仮説の展開打ち切りは、単語列の仮説の展開時に行う既探索区間としてのスコアｇ_n（ｔ）の計算結果又はその計算途中でそのスコアがしきい値以下になるとその単語列の仮説の展開を打ち切ることを特徴とする請求項１記載の連続音声認識方法。
上記単語列の仮説の展開打ち切りは、１つのノード（前記単語ネットワーク上の１つの単語境界）についての単語列の仮説展開を終了時に、各単語列の仮説のスコアｆ_n（ｔ）を、既探索区間のスコアｇ_n（ｔ）と未探索区間における先の探索で得られているスコアｈ_n（ｔ）との和とし、この単語列の仮説ｆ_n（ｔ）の大きい順にｍ個の単語列の仮説以外の単語列の仮説の展開を打ち切ることを特徴とする請求項１又は２記載の連続音声認識方法。
前記未探索区間のスコアｈ_n（ｔ）に対し重みαを掛けてｆ_n（ｔ）＝ｇ_n（ｔ）＋αｈ_n（ｔ）とすることを特徴とする請求項３記載の連続音声認識方法。
前記単語列の仮説の展開時のスコア計算を、前記単語ネットワークに記憶されている単語境界時刻に対し５ミリ秒〜数１０ミリ秒ずらした範囲内について行うことを特徴とする請求項１乃至４の何れかに記載の連続音声認識方法。