JP2008116744A

JP2008116744A - 連続音声認識方法、連続音声認識装置、プログラム

Info

Publication number: JP2008116744A
Application number: JP2006300485A
Authority: JP
Inventors: Atsunori Ogawa; 厚徳小川; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-11-06
Filing date: 2006-11-06
Publication date: 2008-05-22

Abstract

【課題】メモリ容量が小さい小型端末機器でも比較的長い入力音声を音声認識することができる連続音声認識方法、装置を提案する。
【解決手段】探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の処理繰返回数が所定値に達するごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開する。
【選択図】図１

Description

本発明は、連続音声認識装置における探索処理部に関する発明であり、連続音声認識を一定のメモリ使用量以下で動作させることが可能である。本発明によれば、例えば、ＰＤＡなど、少量のメモリしか搭載していない小型端末でも連続音声認識を安定して動作させることが可能となる。

まず、図４を参照して、従来の連続音声認識装置の一例について説明する。
この図において、入力音声４０１は、分析処理部４０２において特徴量ベクトル４０３の時系列に変換され、探索処理部４０５に入力される。探索処理部４０５においては、音響モデル４０４と言語モデル４０７を用いて、特徴量ベクトル４０３の時系列と文法４０６で許容される単語列の仮説（以下単に仮説と記す）が照合される。この仮説の照合結果の評価値であるスコアは、入力音声４０１と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を示す言語スコアを持つひとつの仮説またはそれを含む複数の仮説が認識結果４０８として出力される。

分析処理部４０２における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC（Mel Frequency Cepstral Coefficient）、ΔMFCC、ΔΔMFCC、Δ対数パワーなどがあり、それらが、１０〜１００次元程度の特徴量ベクトル４０３を構成する。分析フレーム幅３０ｍｓ程度、分析フレームシフト幅１０ｍｓ程度で分析が実行され、特徴量ベクトル４０３の時系列が生成される。
音響モデル４０４は、前記MFCCなどの音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトル４０３に対して、各標準パターンの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。

現在、音響モデル４０４としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（Hidden Markov Model、略してHMM）が汎用される。通常、HMMは音素カテゴリ単位で作成され、この音素モデルの集合として一つの音響モデル４０４が構築される。音素モデルの種類としては、該当中心音素に先行および後続する音素の両方を音素環境として考慮しない（音素環境非依存）monophone-HMM（例えば、＊-a-＊は、音素aのmonophone-HMM。＊は任意の音素を示す）、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone-HMM（例えば、p-a-＊は、先行音素がpである音素aの先行音素環境依存biphone-HMM）、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone-HMM（例えば＊-a-tは、後続音素がtであるaの後続音素環境依存biphone-HMM）、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone-HMM（例えばp-a-tは、先行音素がｐ、後続音素がtである音素aのtriphone-HMM）が最もよく用いられる。音素モデルを連結することにより、単語がHMMとして表現される（例えば、「音声（おんせい）」という単語は、＊-o-n + o-n-s + n-s-e + s-e-i + e-i-＊というように、biphone-HMMとtriphone-HMMを連結して表現される）。

文法４０６は、認識対象とする文章を定義するための単語の接続関係を規定したものである。連続音声認識の場合、文法は、図５に示すような任意の単語が任意の単語に接続可能な単語ネットワークの型式をとることが多い。このような型式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。
言語モデル４０７は、単語単体の存在確率を表わす単語unigramモデル（例えばP(Wi)は単語Wiの存在確率）、単語の２連鎖確率を表す単語bigramモデル（例えば、P(Wj|Wi)は、単語Wiの後に単語Wjが接続する確率）、単語の３連鎖確率を表す単語trigramモデル（例えば、P(Wk|Wi,Wj)は、単語列Wi,Wjの後に単語Wkが接続する確率）で構成される。図５の文法によれば、任意の単語列が許容されるが、言語モデル４０７を用いることで、言語（ここでは日本語）として存在しえない仮説の生成を抑制することができる。

探索処理部４０５では、文法４０６で規定された単語の接続関係を示す単語ネットワーク（図５）で許容される仮説に対応した音響モデル４０４と特徴量ベクトル４０３の時系列をフレーム単位で照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアを求め、音響スコアと言語スコアからなる仮説のスコアを、入力音声の始端から終端まで各仮説について求め、最もスコアの大きい仮説、つまり入力音声に最も近い仮説を認識結果として出力する。場合によっては、最もスコアの大きい仮説だけでなく、それに続くスコアの仮説も複数出力することもある。連続音声認識においては、文法で生成可能な仮説が膨大であり、高速かつ高精度に認識結果を得るために、仮説探索を複数段階行い、段階的に候補仮説を絞り込んでいくマルチパス探索という探査法がとられることが多い。ここでは最も一般的である２段階で仮説を絞り込む２パス探索について図６を用いて示す。

図６に示す探索処理部４０５は第１パス探索処理部５０１と第２パス探索処理部５０２とを備えて構成される。１段階目の第１パス探索処理部５０１では、図５で示されるような単語ネットワーク（文法４０６）で生成可能な膨大な仮説の中から、言語モデル４０７中の粗い言語モデル、例えば単語bigramモデルや、音響モデル４０４中の粗い音響モデル、例えば単語内は音素環境に考慮するtriphone-HMM、単語間は音素環境を考慮しないbiphone-HMM、などの計算量の少ないモデルを用い、入力音声に近い候補仮説を絞り込む。第１パス探索処理の結果は、図７に示すような単語の接続関係をコンパクトに表現した単語ラティス５０３として出力される。

図６に示すように、２段階目の第２パス探索処理部５０２では、第１パス探索処理部５０１の結果得られた単語ラティス上５０３で音響モデル中４０４の高精度の音響モデル、例えば単語内の音素環境に加え単語間の音素環境も考慮するtriphone-HMMと言語モデル４０７中の高精度の言語モデル、例えば単語trigramモデルを用いて仮説のスコア再計算を行い、最終的な認識結果４０８を得る。
以上の従来の連続音声認識装置の詳細については、例えば、非特許文献１に開示されている。
IT Text 音声認識システム２００１、オーム社

連続音声認識装置におけるメモリ使用量の内訳を図８を用いて説明する。音響モデルや言語モデル（その他、実行バイナリ）などが使用するメモリは一定であるのに対し、探索処理で使用するメモリは、図７で示すように単語ラティス５０３が入力音声に合わせて生成されることからも明らかなように、入力音声の長さに依存する。すなわち、入力音声が短ければ単語ラティス５０３を生成するのに必要なメモリは少量で済むが、入力音声が長くなれば単語ラティス５０３を生成するのに必要なメモリも大量になる。これは、PDAなど、少量のメモリしか搭載していない小型端末では大きな問題となる。

この状況を図９で説明する。従来の探索処理では、入力音声９０１に対して１フレームずつ特徴量ベクトルに分析し、各フレームごとに仮説展開（第１パス探索、単語ラティスの生成）９１５を行う。入力音声がそれほど長くなければ入力音声の全区間に対して、図７で示すような単語ラティス５０３を生成することができ、認識結果９０８することができる。しかし、１フレームずつ仮説展開９１５をするうちに、メモリ使用量が装置で準備できる制限値を超えると探索処理は異常終了９２１し、連続音声認識装置自体が異常停止してしまう。

この発明は、上述の従来の探索処理部にある問題点を鑑みてなされたもので、連続音声認識を一定のメモリ使用量以下で動作させることを可能とするものである。

本発明による連続音声認識方法は、単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続しやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理を含む連続音声認識方法において、探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の一定フレーム間隔ごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を元に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開することを特徴とする。

本発明による連続音声認識方法は更に、部分認識結果として出力された中断前の入力音声に最も近い単語列の仮説の最後の１単語または２単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開することを特徴とする。
本発明による連続音声認識方法は更に、部分認識結果が出力される毎に、出力された部分認識結果を蓄積する蓄積処理と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより、前記入力音声に対応する全認識結果として出力する全認識結果出力処理とを含むことを特徴とする。

本発明による連続音声認識方法は更に、探索処理は第１パス探索処理と第２パス探索処理とを含み、第１パス探索処理は音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第２パス探索処理は第１パス探索処理で生成された単語ラティスを基に部分認識結果を出力することを特徴とする。
本発明による連続音声認識装置は単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部を備える連続音声認識装置において、探索処理部は、入力音声の終端を検出する入力音声終端検出手段と、探索処理フレーム数を加算する探索処理フレーム数加算手段と、探索処理フレーム数加算手段の加算値が所定値に達するごとにメモリの使用を計測するメモリ使用量計測手段と、メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、メモリ使用量が前記メモリ制限値を超過したとメモリ使用量超過判定手段が判定した場合に探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、中断前までに使用したメモリの使用領域を開放するメモリ領域開放手段と、中断前までの探索処理フレーム数を０にリセットする探索処理フレーム数初期化手段と、探索処理を再開させる探索再開手段と、部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを蓄積された部分認識結果列の末尾に連結することにより入力音声に対応する全音声認識結果として出力する全認識結果出力手段とを備えることを特徴とする。

本発明による連続音声認識装置は更に、前記探索再開手段は部分認識結果出力手段が出力した中断前の入力音声に最も近い単語列の仮説の最後の１単語または２単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開させることを特徴とする。
本発明による連続音声認識装置は更に、探索処理部は第１パス探索処理部と第２パス探索処理部とを備え、第１パス探索処理部は音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第２パス探索処理部は第１パス探索処理部で生成された単語ラティスを基に部分認識結果を出力することを特徴とする。

本発明による連続音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータにインストールし、インストールした連続音声認識プログラムをコンピュータに備えたＣＰＵに解読させ、実行させることにより前記記載の連続音声認識装置として機能させることを特徴とする。

本発明によれば、連続音声認識を一定のメモリ使用量以下で動作させることが可能であり、例えばＰＤＡなど、少量のメモリしか搭載していない小型端末でも連続音声認識を安定して動作させることが可能である。

本発明による連続音声認識装置を実施する場合、全てをハードウェアによって構成し、ハードウェアによって構成した連続音声認識装置により本発明で提案する連続音声認識方法を実現することは可能である。然し乍ら、最も簡素に実施するには、本発明で提案する連続音声認識プログラムをコンピュータにインストールし、コンピュータを連続音声認識装置として機能させ、本発明による連続音声認識方法を実行させる実施形態が最良の実施形態である。
コンピュータによって本発明による連続音声認識装置を構成するには、コンピューターに単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルと、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部とを備える。

探索処理部は、本発明で提案する連続音声認識プログラムにより、入力音声の終端を検出する入力音声終端検出手段と、探索処理フレーム数を加算する探索処理フレーム数加算手段と、探索処理フレーム数加算手段の加算値が所定値に達するごとにメモリの使用量を計測するメモリ使用量計測手段と、メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、メモリ使用量がメモリ制限値を超過したとメモリ使用量超過判定手段が判定した場合に探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、中断前までに使用した前記メモリの使用領域を開放するメモリ領域開放手段と、中断前までの探索処理フレーム数を０にリセットする探索処理フレーム数初期化手段と、探索処理を再開させる探索再開手段と、部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより前記入力音声に対応する全音声認識結果として出力する全認識結果出力手段とを構築し、連続音声認識装置として機能させる。

図１乃至図３を用いて本発明による連続音声認識装置の一実施例を説明する。図１に本発明による連続音声認識装置の全体の構成概念図を示す。バスラインBUSにCPU（中央演算処理装置）１０２が接続され、このCPU１０２の指示に従って分析処理部４０２、音響モデル４０４、探索処理部４０５、文法４０６、言語モデル４０７、仮説展開用メモリ１０４等が制御される。
分析処理部４０２は図４を用いて説明したように、入力音声を例えば１０ｍｓ程度の時間間隔でフレームに分断し、各フレーム毎に特徴量を分析し、特徴量ベクトルを生成する。分析処理部４０２で生成した特徴量ベクトルは図４の場合と同様に探索処理部４０５に入力される。

探索処理部４０５は図６の説明と同様に、第１パス探索処理部５０１と第２パス探索処理部５０２とを備える場合を例示する。本発明の特徴とする構成は第１パス探索処理部５０１をメモリ制限値記憶手段５０１−０と、入力音声終端検出手段５０１−１と、仮説展開手段５０１−２と、探索処理フレーム数加算手段５０１−３と、メモリ使用量計測対象フレーム判定手段５０１−４と、メモリ使用量計測手段５０１−５と、メモリ使用量超過判定手段５０１−６と、部分認識結果蓄積手段５０１−７と、メモリ領域開放手段５０１−８と、探索処理フレーム数初期化手段５０１−９と、探索再開処理手段５０１−１０と、全認識結果出力手段５０１−１１とによって構成した点と、メモリ使用量がメモリ制限値記憶手段５０１−０に記憶した制限値を超えていることをメモリ使用量超過判定手段５０１−６が検出した場合に、第１パス探索処理部５０１の処理を中断させ、これに代えて第２パス探索処理部５０２を起動させ、第２パス探索処理部５０２に仮説展開手段５０１−２が仮説展開用メモリ１０４に展開している単語ラティスを基にスコアを再計算し、スコアのもっとの高い仮説のひとつ又はこれに続く順位の仮設を部分認識結果として出力させ、更にこの間に仮説展開用メモリ１０４の使用領域を開放させる構成とした点である。

メモリ制限値記憶手段５０１−０には仮説展開用メモリ１０４の記憶容量で定められるメモリ使用量の制限値つまりメモリ制限値を予め記憶する。
入力音声終端検出手段５０１−１は分析処理部４０２が生成する特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定し、入力音声の終端を検出する。
仮説展開手段５０１−２は入力音声の始端から入力音声に合わせて１フレームずつ仮説を展開し単語ラティス５０３−１を生成する（図２Ｂ参照）。

探索処理フレーム数加算手段５０１−３は分析処理部４０２から入力される特徴量ベクトルのフレーム数を計数し、探索処理フレーム数を加算する。
メモリ使用量計測対象フレーム判定手段５０１−４は仮説展開用メモリ１０４のメモリ制限値を基に、メモリ使用量がメモリ制限値を超えないようなフレーム数を予め定め、この処理フレーム数に達した時点でその処理フレームをメモリ使用量計数対象フレームと判定する。ここでは使用量計測対象フレーム数を例えば１〜１００フレームの中から適宜に選択する。

メモリ使用量計測手段５０１−５はメモリ使用量計測対象フレーム判定手段５０１−４がメモリ使用量計測対象フレームと判定した時点で仮説展開用メモリ１０４の使用量を計測する。
メモリ使用量超過判定手段５０１−６はメモリ使用量計測手段５０１−５が計測したメモリ使用量がメモリ制限値記憶手段５０１−０に記憶したメモリ制限値を超えているか否かを判定する。メモリ使用量がメモリ制限値未満である場合は次の探索処理を実行するが、メモリ使用量がメモリ制限値を超えている場合は、探索処理を中断し、第２パス探索処理部５０２を起動させる。

第２パス探索処理部５０２はメモリ使用量超過判定手段５０１−６から起動指令を受けると、仮説展開用メモリ１０４から単語ラティス５０３−１（図２Ａ参照）を読み込み、各仮説毎にスコアを再計算する。このスコアの再計算には図６に示す高精度音響モデルと、高精度言語モデルとが適用される。再計算されたスコア中の最も高い値を呈する仮説を部分認識結果として出力し、この部分認識結果を部分認識結果蓄積手段５０１−７に蓄積する。
部分認識結果蓄積手段５０１−７に部分認識結果の蓄積が完了すると、メモリ領域開放手段５０１−８が起動され、仮説展開用メモリ１０４のメモリ領域を開放する。

メモリ領域の開放後、探索処理フレーム数初期化手段５０１−９は探索処理フレーム数加算手段５０１−３の計数値を初期値０に初期化する。
探索再開処理手段５０１−１０は探索処理フレーム数加算手段５０１−３の初期化を待って探索再開処理を実行する。探索再開には部分認識結果として得られた単語列を言語モデル４０７による言語スコア計算に利用する。図２に示す例では第１パス探索中断前の認識結果として出力された単語列の２単語W1、W2（図２Ｃ参照）再開後の単語Ｗ３またはＷ４に先行する単語列として、言語スコアP(W3|W1,W2)とP(W4|W1,W2)を求め（図２Ｄ参照）、仮説展開に利用した例を示す。

探索再開処理後、第１パス探索処理が繰返され、仮説展開用メモリ１０４に仮説が展開される。単語ラティスの展開によるメモリ使用量が制限値を超える毎に部分認識結果が部分認識結果蓄積手段５０１−７に蓄積される。
第１パス探索処理中に入力音声が所定時間にわたって途切れると、入力音声終端検出手段５０１−１が入力音声の終端を検出する。入力音声の終端を検出すると、その時点までに仮説展開用メモリ１０４に展開されている仮説を第２パス探索処理部５０２で再認識処理して部分認識結果とし、部分認識結果蓄積手段５０１−７に蓄積する。

これと共に、全認識結果出力手段５０１−１０は部分認識結果蓄積手段５０１−７に蓄積した部分認識結果列を全認識結果として出力ポート１０３から出力し、必要に応じて全認識結果を表示器等に表示させる。
図３に本発明による連続音声認識プログラムの動作手順の概要を示す。
ステップSP1では入力音声をフレーム処理化と、フレーム処理化された１フレーム分の音声データから特徴量ベクトルの分析処理を施す。
ステップSP2では特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定する。入力音声が存在する間、処理の流れはステップSP3に進む。

ステップSP3では１フレーム分の仮説を展開する。
ステップSP4では探索処理フレーム数を加算する。
ステップSP5ではメモリ使用量計測対象フレーム数以上であるか否かを判定する。メモリ使用量計測対象フレーム数以上でない場合はステップSP1に戻り、ステップSP1〜SP5を繰返し、第１パス探索処理が繰返される。
ステップSP5において、「メモリ使用量計測対象フレーム数以上である」と判定した場合はステップSP6に進む。

ステップSP6では仮説展開用メモリ１０４の使用量を計測し、ステップSP7に進む。
ステップSP7ではメモリ使用量が制限値を超えているか否かを判定する。制限値を超えていなければステップSP1に戻り、ステップSP1〜SP7を繰返す。制限値を超えている場合はステップSP8に進む。
ステップSP8では仮説展開用メモリに展開されている単語ラティスを再認識処理し、部分認識結果を出力する。
ステップSP9ではステップSP8で出力された部分認識結果を蓄積処理し、ステップSP10に進む。

ステップSP10では仮説展開用メモリ１０４の使用済領域を開放する。
ステップSP11では探索処理フレーム数初期化手段５０１−９が探索処理フレーム数加算手段５０１−３の加算値を０に初期化する。
ステップSP12では第１パス探索再開処理を施し、ステップSP1に戻り、第１パス探索処理を再開する。
ステップSP2において、入力音声の終端が検出されると、ステップSP13で第２パス探索処理を実行し、このとき得られた部分認識結果を部分認識結果蓄積手段５０１−７に蓄積されている部分認識結果列の末尾に加え、この部分認識結果列を全認識結果としてステップSP14で出力する。

全認識結果を出力すると、ステップSP15で探索処理の正常終了処理が施され、待機状態に戻される。
以上説明したように、本発明によれば入力音声を部分毎に音声認識し、部分音声認識結果を逐次蓄積すると共に、その都度仮説展開用メモリの使用領域を開放するから、仮説展開用メモリ１０４の容量は小さくても、比較的長い入力音声の音声認識を実行することができる。この結果小規模の例えばPDAのような小型端末でも連続音声認識を安定して動作させることができる。

上述した本発明による連続音声認識装置はコンピュータに本発明による連続音声認識プログラムをインストールし、インストールしたプログラムをコンピュータに備えたCPUに解読させ、実行させることにより実現することができる。本発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され磁気ディスク或いはCD-ROM、半導体メモリのような記録媒体に記録され、これら記録媒体或いは通信回線を通じてコンピュータにインストールされる。

携帯用音声認識装置の分野に活用される。

本発明による連続音声認識装置の一実施例を説明するためのブロック図。本発明の要部の動作を説明するための図。本発明の連続音声認識プログラムの概要を説明するためのフローチャート。従来の連続音声認識装置を説明するためのブロック図。連続音声認識に用いられる文法の一例を説明するためのフローチャート。従来の連続音声認識に用いられているマルチパス探索方法を説明するためのブロック図。従来のマルチパス探索方法の第１パス探索で得られる単語ラティスを説明するための図。連続音声認識装置に用いられるメモリのメモリ使用量を説明するための図。従来の連続音声認識に用いられる探索処理の手順を説明するためのフローチャート。

符号の説明

１０１入力ポート５０１−０メモリ制限値記憶手段
１０２ＣＰＵ５０１−１入力音声終端検出手段
１０３出力ポート５０１−２仮説展開手段
１０４仮説展開用メモリ５０１−３探索処理フレーム数加算手段
４０１入力音声５０１−４メモリ使用量計測対象フレーム判定手段
４０２分析処理部５０１−５メモリ使用量計測手段
４０３特徴量ベクトル５０１−６メモリ使用量超過判定手段
４０４音響モデル５０１−７部分認識結果蓄積手段
４０５探索処理部５０１−８メモリ領域開放手段
４０６文法５０１−９探索処理フレーム数初期化手段
４０７言語モデル５０１−１０探索再開処理手段
４０８認識結果５０１−１１全認識結果出力手段
５０１第１パス探索処理部５０２第２パス探索処理部
５０３，５０３−１単語ラティス

Claims

単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続しやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、前記音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理を含む連続音声認識方法において、
探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の一定フレーム間隔ごとに前記メモリの使用量を計測し、計測したメモリ使用量が前記メモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開することを特徴とする連続音声認識方法。
請求項１記載の連続音声認識方法において、前記部分認識結果として出力された中断前の入力音声に最も近い単語列の仮説の最後の１単語または２単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開することを特徴とする連続音声認識方法。
請求項１又は２の何れかに記載の連続音声認識方法において、前記部分認識結果が出力される毎に、出力された部分認識結果を蓄積する蓄積処理と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより、前記入力音声に対応する全認識結果として出力する全認識結果出力処理とを含むことを特徴とする連続音声認識方法。
請求項１乃至３の何れかに記載の連続音声認識方法において、前記探索処理は第１パス探索処理と第２パス探索処理とを含み、第１パス探索処理は前記音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第２パス探索処理は第１パス探索処理で生成された単語ラティスを基に部分認識結果を出力することを特徴とする連続音声認識方法。
単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、前記音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部を備える連続音声認識装置において、
前記探索処理部は、
入力音声の終端を検出する入力音声終端検出手段と、
探索処理フレーム数を加算する探索処理フレーム数加算手段と、
探索処理フレーム数加算手段の加算値が所定値に達するごとに前記メモリの使用を計測するメモリ使用量計測手段と、
メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、
前記メモリ使用量が前記メモリ制限値を超過したと前記メモリ使用量超過判定手段が判定した場合に前記探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、
中断前までに使用した前記メモリの使用領域を開放するメモリ領域開放手段と、
中断前までの探索処理フレーム数を０にリセットする探索処理フレーム数初期化手段と、
前記探索処理を再開させる探索再開手段と、
前記部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、
入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより前記入力音声に対応する全音声認識結果として出力する全認識結果出力手段と、
を備えることを特徴とする連続音声認識装置。
請求項５記載の連続音声認識装置において、前記探索再開手段は前記部分認識結果出力手段が出力した中断前の入力音声に最も近い単語列の仮説の最後の１単語または２単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開させることを特徴とする連続音声認識装置。
請求項５又は６の何れかに記載の連続音声認識装置において、前記探索処理部は第１パス探索処理部と第２パス探索処理部とを備え、第１パス探索処理部は前記音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第２パス探索処理部は第１パス探索処理部で生成された単語ラティスを基に部分認識結果を出力することを特徴とする連続音声認識装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項５乃至７の何れかに記載の連続音声認識装置として機能させる連続音声認識プログラム。