JP2008116744A - 連続音声認識方法、連続音声認識装置、プログラム - Google Patents
連続音声認識方法、連続音声認識装置、プログラム Download PDFInfo
- Publication number
- JP2008116744A JP2008116744A JP2006300485A JP2006300485A JP2008116744A JP 2008116744 A JP2008116744 A JP 2008116744A JP 2006300485 A JP2006300485 A JP 2006300485A JP 2006300485 A JP2006300485 A JP 2006300485A JP 2008116744 A JP2008116744 A JP 2008116744A
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- memory
- word
- search processing
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】メモリ容量が小さい小型端末機器でも比較的長い入力音声を音声認識することができる連続音声認識方法、装置を提案する。
【解決手段】探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の処理繰返回数が所定値に達するごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開する。
【選択図】図1
【解決手段】探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の処理繰返回数が所定値に達するごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開する。
【選択図】図1
Description
本発明は、連続音声認識装置における探索処理部に関する発明であり、連続音声認識を一定のメモリ使用量以下で動作させることが可能である。本発明によれば、例えば、PDAなど、少量のメモリしか搭載していない小型端末でも連続音声認識を安定して動作させることが可能となる。
まず、図4を参照して、従来の連続音声認識装置の一例について説明する。
この図において、入力音声401は、分析処理部402において特徴量ベクトル403の時系列に変換され、探索処理部405に入力される。探索処理部405においては、音響モデル404と言語モデル407を用いて、特徴量ベクトル403の時系列と文法406で許容される単語列の仮説(以下単に仮説と記す)が照合される。この仮説の照合結果の評価値であるスコアは、入力音声401と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を示す言語スコアを持つひとつの仮説またはそれを含む複数の仮説が認識結果408として出力される。
この図において、入力音声401は、分析処理部402において特徴量ベクトル403の時系列に変換され、探索処理部405に入力される。探索処理部405においては、音響モデル404と言語モデル407を用いて、特徴量ベクトル403の時系列と文法406で許容される単語列の仮説(以下単に仮説と記す)が照合される。この仮説の照合結果の評価値であるスコアは、入力音声401と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を示す言語スコアを持つひとつの仮説またはそれを含む複数の仮説が認識結果408として出力される。
分析処理部402における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、Δ対数パワーなどがあり、それらが、10〜100次元程度の特徴量ベクトル403を構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行され、特徴量ベクトル403の時系列が生成される。
音響モデル404は、前記MFCCなどの音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトル403に対して、各標準パターンの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。
音響モデル404は、前記MFCCなどの音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトル403に対して、各標準パターンの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。
現在、音響モデル404としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略してHMM)が汎用される。通常、HMMは音素カテゴリ単位で作成され、この音素モデルの集合として一つの音響モデル404が構築される。音素モデルの種類としては、該当中心音素に先行および後続する音素の両方を音素環境として考慮しない(音素環境非依存)monophone-HMM(例えば、*-a-*は、音素aのmonophone-HMM。*は任意の音素を示す)、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone-HMM(例えば、p-a-*は、先行音素がpである音素aの先行音素環境依存biphone-HMM)、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone-HMM(例えば*-a-tは、後続音素がtであるaの後続音素環境依存biphone-HMM)、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone-HMM(例えばp-a-tは、先行音素がp、後続音素がtである音素aのtriphone-HMM)が最もよく用いられる。音素モデルを連結することにより、単語がHMMとして表現される(例えば、「音声(おんせい)」という単語は、*-o-n + o-n-s + n-s-e + s-e-i + e-i-*というように、biphone-HMMとtriphone-HMMを連結して表現される)。
文法406は、認識対象とする文章を定義するための単語の接続関係を規定したものである。連続音声認識の場合、文法は、図5に示すような任意の単語が任意の単語に接続可能な単語ネットワークの型式をとることが多い。このような型式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。
言語モデル407は、単語単体の存在確率を表わす単語unigramモデル(例えばP(Wi)は単語Wiの存在確率)、単語の2連鎖確率を表す単語bigramモデル(例えば、P(Wj|Wi)は、単語Wiの後に単語Wjが接続する確率)、単語の3連鎖確率を表す単語trigramモデル(例えば、P(Wk|Wi,Wj)は、単語列Wi,Wjの後に単語Wkが接続する確率)で構成される。図5の文法によれば、任意の単語列が許容されるが、言語モデル407を用いることで、言語(ここでは日本語)として存在しえない仮説の生成を抑制することができる。
言語モデル407は、単語単体の存在確率を表わす単語unigramモデル(例えばP(Wi)は単語Wiの存在確率)、単語の2連鎖確率を表す単語bigramモデル(例えば、P(Wj|Wi)は、単語Wiの後に単語Wjが接続する確率)、単語の3連鎖確率を表す単語trigramモデル(例えば、P(Wk|Wi,Wj)は、単語列Wi,Wjの後に単語Wkが接続する確率)で構成される。図5の文法によれば、任意の単語列が許容されるが、言語モデル407を用いることで、言語(ここでは日本語)として存在しえない仮説の生成を抑制することができる。
探索処理部405では、文法406で規定された単語の接続関係を示す単語ネットワーク(図5)で許容される仮説に対応した音響モデル404と特徴量ベクトル403の時系列をフレーム単位で照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアを求め、音響スコアと言語スコアからなる仮説のスコアを、入力音声の始端から終端まで各仮説について求め、最もスコアの大きい仮説、つまり入力音声に最も近い仮説を認識結果として出力する。場合によっては、最もスコアの大きい仮説だけでなく、それに続くスコアの仮説も複数出力することもある。連続音声認識においては、文法で生成可能な仮説が膨大であり、高速かつ高精度に認識結果を得るために、仮説探索を複数段階行い、段階的に候補仮説を絞り込んでいくマルチパス探索という探査法がとられることが多い。ここでは最も一般的である2段階で仮説を絞り込む2パス探索について図6を用いて示す。
図6に示す探索処理部405は第1パス探索処理部501と第2パス探索処理部502とを備えて構成される。1段階目の第1パス探索処理部501では、図5で示されるような単語ネットワーク(文法406)で生成可能な膨大な仮説の中から、言語モデル407中の粗い言語モデル、例えば単語bigramモデルや、音響モデル404中の粗い音響モデル、例えば単語内は音素環境に考慮するtriphone-HMM、単語間は音素環境を考慮しないbiphone-HMM、などの計算量の少ないモデルを用い、入力音声に近い候補仮説を絞り込む。第1パス探索処理の結果は、図7に示すような単語の接続関係をコンパクトに表現した単語ラティス503として出力される。
図6に示すように、2段階目の第2パス探索処理部502では、第1パス探索処理部501の結果得られた単語ラティス上503で音響モデル中404の高精度の音響モデル、例えば単語内の音素環境に加え単語間の音素環境も考慮するtriphone-HMMと言語モデル407中の高精度の言語モデル、例えば単語trigramモデルを用いて仮説のスコア再計算を行い、最終的な認識結果408を得る。
以上の従来の連続音声認識装置の詳細については、例えば、非特許文献1に開示されている。
IT Text 音声認識システム2001、オーム社
以上の従来の連続音声認識装置の詳細については、例えば、非特許文献1に開示されている。
IT Text 音声認識システム2001、オーム社
連続音声認識装置におけるメモリ使用量の内訳を図8を用いて説明する。音響モデルや言語モデル(その他、実行バイナリ)などが使用するメモリは一定であるのに対し、探索処理で使用するメモリは、図7で示すように単語ラティス503が入力音声に合わせて生成されることからも明らかなように、入力音声の長さに依存する。すなわち、入力音声が短ければ単語ラティス503を生成するのに必要なメモリは少量で済むが、入力音声が長くなれば単語ラティス503を生成するのに必要なメモリも大量になる。これは、PDAなど、少量のメモリしか搭載していない小型端末では大きな問題となる。
この状況を図9で説明する。従来の探索処理では、入力音声901に対して1フレームずつ特徴量ベクトルに分析し、各フレームごとに仮説展開(第1パス探索、単語ラティスの生成)915を行う。入力音声がそれほど長くなければ入力音声の全区間に対して、図7で示すような単語ラティス503を生成することができ、認識結果908することができる。しかし、1フレームずつ仮説展開915をするうちに、メモリ使用量が装置で準備できる制限値を超えると探索処理は異常終了921し、連続音声認識装置自体が異常停止してしまう。
この発明は、上述の従来の探索処理部にある問題点を鑑みてなされたもので、連続音声認識を一定のメモリ使用量以下で動作させることを可能とするものである。
本発明による連続音声認識方法は、単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続しやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理を含む連続音声認識方法において、探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の一定フレーム間隔ごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を元に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開することを特徴とする。
本発明による連続音声認識方法は更に、部分認識結果として出力された中断前の入力音声に最も近い単語列の仮説の最後の1単語または2単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開することを特徴とする。
本発明による連続音声認識方法は更に、部分認識結果が出力される毎に、出力された部分認識結果を蓄積する蓄積処理と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより、前記入力音声に対応する全認識結果として出力する全認識結果出力処理とを含むことを特徴とする。
本発明による連続音声認識方法は更に、部分認識結果が出力される毎に、出力された部分認識結果を蓄積する蓄積処理と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより、前記入力音声に対応する全認識結果として出力する全認識結果出力処理とを含むことを特徴とする。
本発明による連続音声認識方法は更に、探索処理は第1パス探索処理と第2パス探索処理とを含み、第1パス探索処理は音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第2パス探索処理は第1パス探索処理で生成された単語ラティスを基に部分認識結果を出力することを特徴とする。
本発明による連続音声認識装置は単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部を備える連続音声認識装置において、探索処理部は、入力音声の終端を検出する入力音声終端検出手段と、探索処理フレーム数を加算する探索処理フレーム数加算手段と、探索処理フレーム数加算手段の加算値が所定値に達するごとにメモリの使用を計測するメモリ使用量計測手段と、メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、メモリ使用量が前記メモリ制限値を超過したとメモリ使用量超過判定手段が判定した場合に探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、中断前までに使用したメモリの使用領域を開放するメモリ領域開放手段と、中断前までの探索処理フレーム数を0にリセットする探索処理フレーム数初期化手段と、探索処理を再開させる探索再開手段と、部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを蓄積された部分認識結果列の末尾に連結することにより入力音声に対応する全音声認識結果として出力する全認識結果出力手段とを備えることを特徴とする。
本発明による連続音声認識装置は単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部を備える連続音声認識装置において、探索処理部は、入力音声の終端を検出する入力音声終端検出手段と、探索処理フレーム数を加算する探索処理フレーム数加算手段と、探索処理フレーム数加算手段の加算値が所定値に達するごとにメモリの使用を計測するメモリ使用量計測手段と、メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、メモリ使用量が前記メモリ制限値を超過したとメモリ使用量超過判定手段が判定した場合に探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、中断前までに使用したメモリの使用領域を開放するメモリ領域開放手段と、中断前までの探索処理フレーム数を0にリセットする探索処理フレーム数初期化手段と、探索処理を再開させる探索再開手段と、部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを蓄積された部分認識結果列の末尾に連結することにより入力音声に対応する全音声認識結果として出力する全認識結果出力手段とを備えることを特徴とする。
本発明による連続音声認識装置は更に、前記探索再開手段は部分認識結果出力手段が出力した中断前の入力音声に最も近い単語列の仮説の最後の1単語または2単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開させることを特徴とする。
本発明による連続音声認識装置は更に、探索処理部は第1パス探索処理部と第2パス探索処理部とを備え、第1パス探索処理部は音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第2パス探索処理部は第1パス探索処理部で生成された単語ラティスを基に部分認識結果を出力することを特徴とする。
本発明による連続音声認識装置は更に、探索処理部は第1パス探索処理部と第2パス探索処理部とを備え、第1パス探索処理部は音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第2パス探索処理部は第1パス探索処理部で生成された単語ラティスを基に部分認識結果を出力することを特徴とする。
本発明による連続音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータにインストールし、インストールした連続音声認識プログラムをコンピュータに備えたCPUに解読させ、実行させることにより前記記載の連続音声認識装置として機能させることを特徴とする。
本発明によれば、連続音声認識を一定のメモリ使用量以下で動作させることが可能であり、例えばPDAなど、少量のメモリしか搭載していない小型端末でも連続音声認識を安定して動作させることが可能である。
本発明による連続音声認識装置を実施する場合、全てをハードウェアによって構成し、ハードウェアによって構成した連続音声認識装置により本発明で提案する連続音声認識方法を実現することは可能である。然し乍ら、最も簡素に実施するには、本発明で提案する連続音声認識プログラムをコンピュータにインストールし、コンピュータを連続音声認識装置として機能させ、本発明による連続音声認識方法を実行させる実施形態が最良の実施形態である。
コンピュータによって本発明による連続音声認識装置を構成するには、コンピューターに単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルと、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部とを備える。
コンピュータによって本発明による連続音声認識装置を構成するには、コンピューターに単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルと、連続的に発声された入力音声に対して、音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部とを備える。
探索処理部は、本発明で提案する連続音声認識プログラムにより、入力音声の終端を検出する入力音声終端検出手段と、探索処理フレーム数を加算する探索処理フレーム数加算手段と、探索処理フレーム数加算手段の加算値が所定値に達するごとにメモリの使用量を計測するメモリ使用量計測手段と、メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、メモリ使用量がメモリ制限値を超過したとメモリ使用量超過判定手段が判定した場合に探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、中断前までに使用した前記メモリの使用領域を開放するメモリ領域開放手段と、中断前までの探索処理フレーム数を0にリセットする探索処理フレーム数初期化手段と、探索処理を再開させる探索再開手段と、部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより前記入力音声に対応する全音声認識結果として出力する全認識結果出力手段とを構築し、連続音声認識装置として機能させる。
図1乃至図3を用いて本発明による連続音声認識装置の一実施例を説明する。図1に本発明による連続音声認識装置の全体の構成概念図を示す。バスラインBUSにCPU(中央演算処理装置)102が接続され、このCPU102の指示に従って分析処理部402、音響モデル404、探索処理部405、文法406、言語モデル407、仮説展開用メモリ104等が制御される。
分析処理部402は図4を用いて説明したように、入力音声を例えば10ms程度の時間間隔でフレームに分断し、各フレーム毎に特徴量を分析し、特徴量ベクトルを生成する。分析処理部402で生成した特徴量ベクトルは図4の場合と同様に探索処理部405に入力される。
分析処理部402は図4を用いて説明したように、入力音声を例えば10ms程度の時間間隔でフレームに分断し、各フレーム毎に特徴量を分析し、特徴量ベクトルを生成する。分析処理部402で生成した特徴量ベクトルは図4の場合と同様に探索処理部405に入力される。
探索処理部405は図6の説明と同様に、第1パス探索処理部501と第2パス探索処理部502とを備える場合を例示する。本発明の特徴とする構成は第1パス探索処理部501をメモリ制限値記憶手段501−0と、入力音声終端検出手段501−1と、仮説展開手段501−2と、探索処理フレーム数加算手段501−3と、メモリ使用量計測対象フレーム判定手段501−4と、メモリ使用量計測手段501−5と、メモリ使用量超過判定手段501−6と、部分認識結果蓄積手段501−7と、メモリ領域開放手段501−8と、探索処理フレーム数初期化手段501−9と、探索再開処理手段501−10と、全認識結果出力手段501−11とによって構成した点と、メモリ使用量がメモリ制限値記憶手段501−0に記憶した制限値を超えていることをメモリ使用量超過判定手段501−6が検出した場合に、第1パス探索処理部501の処理を中断させ、これに代えて第2パス探索処理部502を起動させ、第2パス探索処理部502に仮説展開手段501−2が仮説展開用メモリ104に展開している単語ラティスを基にスコアを再計算し、スコアのもっとの高い仮説のひとつ又はこれに続く順位の仮設を部分認識結果として出力させ、更にこの間に仮説展開用メモリ104の使用領域を開放させる構成とした点である。
メモリ制限値記憶手段501−0には仮説展開用メモリ104の記憶容量で定められるメモリ使用量の制限値つまりメモリ制限値を予め記憶する。
入力音声終端検出手段501−1は分析処理部402が生成する特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定し、入力音声の終端を検出する。
仮説展開手段501−2は入力音声の始端から入力音声に合わせて1フレームずつ仮説を展開し単語ラティス503−1を生成する(図2B参照)。
入力音声終端検出手段501−1は分析処理部402が生成する特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定し、入力音声の終端を検出する。
仮説展開手段501−2は入力音声の始端から入力音声に合わせて1フレームずつ仮説を展開し単語ラティス503−1を生成する(図2B参照)。
探索処理フレーム数加算手段501−3は分析処理部402から入力される特徴量ベクトルのフレーム数を計数し、探索処理フレーム数を加算する。
メモリ使用量計測対象フレーム判定手段501−4は仮説展開用メモリ104のメモリ制限値を基に、メモリ使用量がメモリ制限値を超えないようなフレーム数を予め定め、この処理フレーム数に達した時点でその処理フレームをメモリ使用量計数対象フレームと判定する。ここでは使用量計測対象フレーム数を例えば1〜100フレームの中から適宜に選択する。
メモリ使用量計測対象フレーム判定手段501−4は仮説展開用メモリ104のメモリ制限値を基に、メモリ使用量がメモリ制限値を超えないようなフレーム数を予め定め、この処理フレーム数に達した時点でその処理フレームをメモリ使用量計数対象フレームと判定する。ここでは使用量計測対象フレーム数を例えば1〜100フレームの中から適宜に選択する。
メモリ使用量計測手段501−5はメモリ使用量計測対象フレーム判定手段501−4がメモリ使用量計測対象フレームと判定した時点で仮説展開用メモリ104の使用量を計測する。
メモリ使用量超過判定手段501−6はメモリ使用量計測手段501−5が計測したメモリ使用量がメモリ制限値記憶手段501−0に記憶したメモリ制限値を超えているか否かを判定する。メモリ使用量がメモリ制限値未満である場合は次の探索処理を実行するが、メモリ使用量がメモリ制限値を超えている場合は、探索処理を中断し、第2パス探索処理部502を起動させる。
メモリ使用量超過判定手段501−6はメモリ使用量計測手段501−5が計測したメモリ使用量がメモリ制限値記憶手段501−0に記憶したメモリ制限値を超えているか否かを判定する。メモリ使用量がメモリ制限値未満である場合は次の探索処理を実行するが、メモリ使用量がメモリ制限値を超えている場合は、探索処理を中断し、第2パス探索処理部502を起動させる。
第2パス探索処理部502はメモリ使用量超過判定手段501−6から起動指令を受けると、仮説展開用メモリ104から単語ラティス503−1(図2A参照)を読み込み、各仮説毎にスコアを再計算する。このスコアの再計算には図6に示す高精度音響モデルと、高精度言語モデルとが適用される。再計算されたスコア中の最も高い値を呈する仮説を部分認識結果として出力し、この部分認識結果を部分認識結果蓄積手段501−7に蓄積する。
部分認識結果蓄積手段501−7に部分認識結果の蓄積が完了すると、メモリ領域開放手段501−8が起動され、仮説展開用メモリ104のメモリ領域を開放する。
部分認識結果蓄積手段501−7に部分認識結果の蓄積が完了すると、メモリ領域開放手段501−8が起動され、仮説展開用メモリ104のメモリ領域を開放する。
メモリ領域の開放後、探索処理フレーム数初期化手段501−9は探索処理フレーム数加算手段501−3の計数値を初期値0に初期化する。
探索再開処理手段501−10は探索処理フレーム数加算手段501−3の初期化を待って探索再開処理を実行する。探索再開には部分認識結果として得られた単語列を言語モデル407による言語スコア計算に利用する。図2に示す例では第1パス探索中断前の認識結果として出力された単語列の2単語W1、W2(図2C参照)再開後の単語W3またはW4に先行する単語列として、言語スコアP(W3|W1,W2)とP(W4|W1,W2)を求め(図2D参照)、仮説展開に利用した例を示す。
探索再開処理手段501−10は探索処理フレーム数加算手段501−3の初期化を待って探索再開処理を実行する。探索再開には部分認識結果として得られた単語列を言語モデル407による言語スコア計算に利用する。図2に示す例では第1パス探索中断前の認識結果として出力された単語列の2単語W1、W2(図2C参照)再開後の単語W3またはW4に先行する単語列として、言語スコアP(W3|W1,W2)とP(W4|W1,W2)を求め(図2D参照)、仮説展開に利用した例を示す。
探索再開処理後、第1パス探索処理が繰返され、仮説展開用メモリ104に仮説が展開される。単語ラティスの展開によるメモリ使用量が制限値を超える毎に部分認識結果が部分認識結果蓄積手段501−7に蓄積される。
第1パス探索処理中に入力音声が所定時間にわたって途切れると、入力音声終端検出手段501−1が入力音声の終端を検出する。入力音声の終端を検出すると、その時点までに仮説展開用メモリ104に展開されている仮説を第2パス探索処理部502で再認識処理して部分認識結果とし、部分認識結果蓄積手段501−7に蓄積する。
第1パス探索処理中に入力音声が所定時間にわたって途切れると、入力音声終端検出手段501−1が入力音声の終端を検出する。入力音声の終端を検出すると、その時点までに仮説展開用メモリ104に展開されている仮説を第2パス探索処理部502で再認識処理して部分認識結果とし、部分認識結果蓄積手段501−7に蓄積する。
これと共に、全認識結果出力手段501−10は部分認識結果蓄積手段501−7に蓄積した部分認識結果列を全認識結果として出力ポート103から出力し、必要に応じて全認識結果を表示器等に表示させる。
図3に本発明による連続音声認識プログラムの動作手順の概要を示す。
ステップSP1では入力音声をフレーム処理化と、フレーム処理化された1フレーム分の音声データから特徴量ベクトルの分析処理を施す。
ステップSP2では特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定する。入力音声が存在する間、処理の流れはステップSP3に進む。
図3に本発明による連続音声認識プログラムの動作手順の概要を示す。
ステップSP1では入力音声をフレーム処理化と、フレーム処理化された1フレーム分の音声データから特徴量ベクトルの分析処理を施す。
ステップSP2では特徴量ベクトルの有無を監視し、特徴量ベクトルがなくなった時点で入力音声が途切れたと判定する。入力音声が存在する間、処理の流れはステップSP3に進む。
ステップSP3では1フレーム分の仮説を展開する。
ステップSP4では探索処理フレーム数を加算する。
ステップSP5ではメモリ使用量計測対象フレーム数以上であるか否かを判定する。メモリ使用量計測対象フレーム数以上でない場合はステップSP1に戻り、ステップSP1〜SP5を繰返し、第1パス探索処理が繰返される。
ステップSP5において、「メモリ使用量計測対象フレーム数以上である」と判定した場合はステップSP6に進む。
ステップSP4では探索処理フレーム数を加算する。
ステップSP5ではメモリ使用量計測対象フレーム数以上であるか否かを判定する。メモリ使用量計測対象フレーム数以上でない場合はステップSP1に戻り、ステップSP1〜SP5を繰返し、第1パス探索処理が繰返される。
ステップSP5において、「メモリ使用量計測対象フレーム数以上である」と判定した場合はステップSP6に進む。
ステップSP6では仮説展開用メモリ104の使用量を計測し、ステップSP7に進む。
ステップSP7ではメモリ使用量が制限値を超えているか否かを判定する。制限値を超えていなければステップSP1に戻り、ステップSP1〜SP7を繰返す。制限値を超えている場合はステップSP8に進む。
ステップSP8では仮説展開用メモリに展開されている単語ラティスを再認識処理し、部分認識結果を出力する。
ステップSP9ではステップSP8で出力された部分認識結果を蓄積処理し、ステップSP10に進む。
ステップSP7ではメモリ使用量が制限値を超えているか否かを判定する。制限値を超えていなければステップSP1に戻り、ステップSP1〜SP7を繰返す。制限値を超えている場合はステップSP8に進む。
ステップSP8では仮説展開用メモリに展開されている単語ラティスを再認識処理し、部分認識結果を出力する。
ステップSP9ではステップSP8で出力された部分認識結果を蓄積処理し、ステップSP10に進む。
ステップSP10では仮説展開用メモリ104の使用済領域を開放する。
ステップSP11では探索処理フレーム数初期化手段501−9が探索処理フレーム数加算手段501−3の加算値を0に初期化する。
ステップSP12では第1パス探索再開処理を施し、ステップSP1に戻り、第1パス探索処理を再開する。
ステップSP2において、入力音声の終端が検出されると、ステップSP13で第2パス探索処理を実行し、このとき得られた部分認識結果を部分認識結果蓄積手段501−7に蓄積されている部分認識結果列の末尾に加え、この部分認識結果列を全認識結果としてステップSP14で出力する。
ステップSP11では探索処理フレーム数初期化手段501−9が探索処理フレーム数加算手段501−3の加算値を0に初期化する。
ステップSP12では第1パス探索再開処理を施し、ステップSP1に戻り、第1パス探索処理を再開する。
ステップSP2において、入力音声の終端が検出されると、ステップSP13で第2パス探索処理を実行し、このとき得られた部分認識結果を部分認識結果蓄積手段501−7に蓄積されている部分認識結果列の末尾に加え、この部分認識結果列を全認識結果としてステップSP14で出力する。
全認識結果を出力すると、ステップSP15で探索処理の正常終了処理が施され、待機状態に戻される。
以上説明したように、本発明によれば入力音声を部分毎に音声認識し、部分音声認識結果を逐次蓄積すると共に、その都度仮説展開用メモリの使用領域を開放するから、仮説展開用メモリ104の容量は小さくても、比較的長い入力音声の音声認識を実行することができる。この結果小規模の例えばPDAのような小型端末でも連続音声認識を安定して動作させることができる。
以上説明したように、本発明によれば入力音声を部分毎に音声認識し、部分音声認識結果を逐次蓄積すると共に、その都度仮説展開用メモリの使用領域を開放するから、仮説展開用メモリ104の容量は小さくても、比較的長い入力音声の音声認識を実行することができる。この結果小規模の例えばPDAのような小型端末でも連続音声認識を安定して動作させることができる。
上述した本発明による連続音声認識装置はコンピュータに本発明による連続音声認識プログラムをインストールし、インストールしたプログラムをコンピュータに備えたCPUに解読させ、実行させることにより実現することができる。本発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され磁気ディスク或いはCD-ROM、半導体メモリのような記録媒体に記録され、これら記録媒体或いは通信回線を通じてコンピュータにインストールされる。
携帯用音声認識装置の分野に活用される。
101 入力ポート 501−0 メモリ制限値記憶手段
102 CPU 501−1 入力音声終端検出手段
103 出力ポート 501−2 仮説展開手段
104 仮説展開用メモリ 501−3 探索処理フレーム数加算手段
401 入力音声 501−4 メモリ使用量計測対象フレーム判定手段
402 分析処理部 501−5 メモリ使用量計測手段
403 特徴量ベクトル 501−6 メモリ使用量超過判定手段
404 音響モデル 501−7 部分認識結果蓄積手段
405 探索処理部 501−8 メモリ領域開放手段
406 文法 501−9 探索処理フレーム数初期化手段
407 言語モデル 501−10 探索再開処理手段
408 認識結果 501−11 全認識結果出力手段
501 第1パス探索処理部 502 第2パス探索処理部
503,503−1 単語ラティス
102 CPU 501−1 入力音声終端検出手段
103 出力ポート 501−2 仮説展開手段
104 仮説展開用メモリ 501−3 探索処理フレーム数加算手段
401 入力音声 501−4 メモリ使用量計測対象フレーム判定手段
402 分析処理部 501−5 メモリ使用量計測手段
403 特徴量ベクトル 501−6 メモリ使用量超過判定手段
404 音響モデル 501−7 部分認識結果蓄積手段
405 探索処理部 501−8 メモリ領域開放手段
406 文法 501−9 探索処理フレーム数初期化手段
407 言語モデル 501−10 探索再開処理手段
408 認識結果 501−11 全認識結果出力手段
501 第1パス探索処理部 502 第2パス探索処理部
503,503−1 単語ラティス
Claims (8)
- 単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続しやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、前記音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理を含む連続音声認識方法において、
探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の一定フレーム間隔ごとに前記メモリの使用量を計測し、計測したメモリ使用量が前記メモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開することを特徴とする連続音声認識方法。 - 請求項1記載の連続音声認識方法において、前記部分認識結果として出力された中断前の入力音声に最も近い単語列の仮説の最後の1単語または2単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開することを特徴とする連続音声認識方法。
- 請求項1又は2の何れかに記載の連続音声認識方法において、前記部分認識結果が出力される毎に、出力された部分認識結果を蓄積する蓄積処理と、入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより、前記入力音声に対応する全認識結果として出力する全認識結果出力処理とを含むことを特徴とする連続音声認識方法。
- 請求項1乃至3の何れかに記載の連続音声認識方法において、前記探索処理は第1パス探索処理と第2パス探索処理とを含み、第1パス探索処理は前記音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第2パス探索処理は第1パス探索処理で生成された単語ラティスを基に部分認識結果を出力することを特徴とする連続音声認識方法。
- 単語と入力音声の音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法と、単語間の接続のしやすさを示す言語スコアを求める言語モデルを備え、連続的に発声された入力音声に対して、前記音響モデルと言語モデルを用いて、始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、入力音声の終端で入力音声に最も近いひとつまたは複数の単語列の仮説を認識結果として出力する探索処理部を備える連続音声認識装置において、
前記探索処理部は、
入力音声の終端を検出する入力音声終端検出手段と、
探索処理フレーム数を加算する探索処理フレーム数加算手段と、
探索処理フレーム数加算手段の加算値が所定値に達するごとに前記メモリの使用を計測するメモリ使用量計測手段と、
メモリ使用量計測手段が計測したメモリ使用量が予め設定したメモリ制限値を超過したことを検出するメモリ使用量超過判定手段と、
前記メモリ使用量が前記メモリ制限値を超過したと前記メモリ使用量超過判定手段が判定した場合に前記探索処理を一時中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力する部分認識結果出力手段と、
中断前までに使用した前記メモリの使用領域を開放するメモリ領域開放手段と、
中断前までの探索処理フレーム数を0にリセットする探索処理フレーム数初期化手段と、
前記探索処理を再開させる探索再開手段と、
前記部分認識結果出力手段が部分認識結果を出力するごとに、部分認識結果を蓄積する部分認識結果蓄積手段と、
入力音声の終端が検出された時点で最後の部分認識結果を出力し、これを前記蓄積された部分認識結果列の末尾に連結することにより前記入力音声に対応する全音声認識結果として出力する全認識結果出力手段と、
を備えることを特徴とする連続音声認識装置。 - 請求項5記載の連続音声認識装置において、前記探索再開手段は前記部分認識結果出力手段が出力した中断前の入力音声に最も近い単語列の仮説の最後の1単語または2単語を、再開後の探索処理における最初の単語に先行する単語として探索処理を再開させることを特徴とする連続音声認識装置。
- 請求項5又は6の何れかに記載の連続音声認識装置において、前記探索処理部は第1パス探索処理部と第2パス探索処理部とを備え、第1パス探索処理部は前記音響モデルと言語モデルを用いて、入力音声の始端から入力音声に合わせて前記文法の許容する単語列の仮説をメモリに展開し、単語ラティスを生成し、第2パス探索処理部は第1パス探索処理部で生成された単語ラティスを基に部分認識結果を出力することを特徴とする連続音声認識装置。
- コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項5乃至7の何れかに記載の連続音声認識装置として機能させる連続音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006300485A JP2008116744A (ja) | 2006-11-06 | 2006-11-06 | 連続音声認識方法、連続音声認識装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006300485A JP2008116744A (ja) | 2006-11-06 | 2006-11-06 | 連続音声認識方法、連続音声認識装置、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008116744A true JP2008116744A (ja) | 2008-05-22 |
Family
ID=39502714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006300485A Pending JP2008116744A (ja) | 2006-11-06 | 2006-11-06 | 連続音声認識方法、連続音声認識装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008116744A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010048908A (ja) * | 2008-08-19 | 2010-03-04 | Canon Inc | 情報処理装置及びその制御方法 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
JPWO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 |
-
2006
- 2006-11-06 JP JP2006300485A patent/JP2008116744A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010048908A (ja) * | 2008-08-19 | 2010-03-04 | Canon Inc | 情報処理装置及びその制御方法 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
KR20170011905A (ko) * | 2015-07-24 | 2017-02-02 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
JP2017027044A (ja) * | 2015-07-24 | 2017-02-02 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 |
CN106373561B (zh) * | 2015-07-24 | 2021-11-30 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
JPWO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | ||
WO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
JP7501610B2 (ja) | 2020-03-09 | 2024-06-18 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686154B2 (ja) | 発話認識方法及び装置 | |
JP4322815B2 (ja) | 音声認識システム及び方法 | |
KR100612839B1 (ko) | 도메인 기반 대화 음성인식방법 및 장치 | |
US7249017B2 (en) | Speech recognition with score calculation | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
KR20120066530A (ko) | 언어 모델 가중치 추정 방법 및 이를 위한 장치 | |
Lee et al. | Real-time word confidence scoring using local posterior probabilities on tree trellis search | |
US20120109650A1 (en) | Apparatus and method for creating acoustic model | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2008116744A (ja) | 連続音声認識方法、連続音声認識装置、プログラム | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP2009116075A (ja) | 音声認識装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
Hetherington | A multi-pass, dynamic-vocabulary approach to real-time, large-vocabulary speech recognition. | |
JP2017211513A (ja) | 音声認識装置、その方法、及びプログラム | |
TW201828279A (zh) | 語音識別方法及裝置 | |
JP3494338B2 (ja) | 音声認識方法 | |
JP3559479B2 (ja) | 連続音声認識方法 | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム |