JP3813491B2 - 連続音声認識装置およびそのプログラム - Google Patents

連続音声認識装置およびそのプログラム Download PDF

Info

Publication number
JP3813491B2
JP3813491B2 JP2001332825A JP2001332825A JP3813491B2 JP 3813491 B2 JP3813491 B2 JP 3813491B2 JP 2001332825 A JP2001332825 A JP 2001332825A JP 2001332825 A JP2001332825 A JP 2001332825A JP 3813491 B2 JP3813491 B2 JP 3813491B2
Authority
JP
Japan
Prior art keywords
word
continuous speech
model
forward search
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001332825A
Other languages
English (en)
Other versions
JP2003140685A (ja
Inventor
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2001332825A priority Critical patent/JP3813491B2/ja
Publication of JP2003140685A publication Critical patent/JP2003140685A/ja
Application granted granted Critical
Publication of JP3813491B2 publication Critical patent/JP3813491B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、連続して発声された音声を認識して、発声された連続音声が示す単語列を生成するための連続音声認識装置およびそのプログラムに関する。
【0002】
【従来の技術】
従来、連続して発声された音声を認識してその音声が示す単語列を生成するための連続音声認識方法として、以下に示す2つの方法が知られていた。
第1の方法は、今井ほか著、「最ゆう単語列逐次比較による音声認識結果の早期確定」、電子情報通信学会論文誌、第J84-D-II巻、9号、1942-1949頁(2001)に開示されているように、2つのパスを介して以下の処理を行うものである。
【0003】
第1パスでは、詳細な音響モデルおよび簡易な言語モデルを用いて文頭から文末方向への探索(以下、前向き探索という。)を行い、認識候補となる複数の単語列を求める。次に、第2パスで、詳細な言語モデルを用いて第1パスで求めた複数の単語列についてスコアを更新し、最大スコアを与える単語列を認識結果として採用するものである。
【0004】
第2の方法は、ロング グエン等著、「高性能2パスN−ベストデコーダ」、DARPA音声認識ワークショップの議事録、100−103頁、(1997)(Long Nguyen,et al.,“Efficient 2-pass N-best decoder”,Proceedings of theDARPA Speech Recognition Workshop,pp.100-103(1997))に開示された以下の処理を行うものである。
【0005】
初めに、第1パスでは、簡易な音響モデルおよび言語モデルを用いて前向き探索を行い、認識候補となる単語およびその終端時刻のリストを作成する。次に、この単語終端リストの制約の下、第2パスで詳細な音響モデルおよび言語モデルを用いて、文末から文頭への探索(以下、後ろ向き探索という。)を行うものである。
【0006】
【発明が解決しようとする課題】
しかしながら、従来の第1の方法では、第1パスで詳細な音響モデルを用いるために、音響モデルを詳細にすればするほど認識候補を限定するための処理量が増大し、認識結果確定までの時間が長引くという問題や、第2パスでは第1パスで得られた単語列の範囲内でのみスコアの更新を行うため、詳細な言語モデルの能力を十分に引き出すことができず、高い認識精度が得られないという問題があった。
【0007】
また、従来の第2の方法では、第2パスで後ろ向き探索を行うために、通常の前向き探索とは異なり、文末から文頭方向への詳細な言語モデルが必要になるという問題や、第1パスで求める単語終端は、ある程度の区間で引き続き単語終端候補となり易く、第2パスでの処理量を増大させるおそれがあるという問題や、発話終了を待たずに認識結果を逐次確定する場合には、第2パスが後ろ向き探索であるために、候補単語列の文頭からの一意性を利用する最適な早期確定手法を適用することができず、認識精度が低下し、リアルタイム処理に適さない等の問題があった。
【0008】
本発明は、かかる問題を解決するためになされたものであり、その目的は、音声認識に詳細な音響モデルおよび言語モデルを用いる場合でも、早期に認識結果を確定するリアルタイム性に優れ、高い認識精度かつ演算処理負担の少ない連続音声認識装置およびそのプログラムを提供することにある。
【0009】
【課題を解決するための手段】
以上の点を考慮して、請求項1に係る発明は、発声された連続音声を認識して、前記連続音声に対応する単語列を生成するための連続音声認識装置において、簡易な第1の音響モデル、簡易な第1の言語モデル、前記第1の音響モデルよりも詳細な第2の音響モデル、および前記第1の言語モデルよりも詳細な第2の言語モデルを記憶する手段と、前記簡易な第1の音響モデルおよび前記簡易な第1の言語モデルを用いて前記連続音声に対して前向き探索を行い、前記単語列を生成するための候補として単語終端に達した各単語の情報と前記候補となる各単語が発声された始端時刻の情報とからなる単語始端リストを生成するための第1パス処理手段と、前記詳細な第2の音響モデルおよび前記詳細な第2の言語モデルを用いて、前記単語始端リストに含まれる前記候補となる各単語の範囲内で、前記候補となる各単語が発声された始端時刻の情報に基づいて、前記連続音声に対して前向き探索を行い、前記連続音声に対応する単語列を生成するための第2パス処理手段とを備えた構成を有している。
【0010】
この構成により、第2パス処理手段が探索すべき単語とその始端時刻は単語始端リストによって高精度に制限され、しかも、連続した単語終端は共通の単語始端をもつ可能性が高いため、単語始端リストは単語終端リストよりも冗長度が低く、より詳細な音響モデルや言語モデルを用いた場合でも全体の処理量を増大させることなく、単語の認識精度を向上させることが可能な連続音声認識装置を実現できる。また、第2パス処理手段は文頭から文末方向へ前向き探索を行うために、候補単語列の文頭からの一意性を利用した最適で原理的に認識精度を低下させない早期確定手法を適用可能で、リアルタイム処理に適している。
【0011】
また、請求項2に係る発明は、請求項1において、前記第1パス処理手段は、さらに、前記第1パス処理手段での前向き探索中に単語終端近傍に達した単語の情報と、前記単語終端近傍に達した単語が発声された始端時刻の情報とを前記単語始端リストに追加登録する構成を有している。
この構成により、単語終端に達した単語のみならず単語終端近傍に達した単語についても、前記第2パス処理手段での前向き探索以降の処理がなされ、より高精度に音声認識が可能な連続音声認識装置を実現できる。
【0012】
また、請求項3に係る発明は、請求項1において、前記第1パス処理手段は、さらに、前記単語始端リストに含まれる前記各単語の単語平均スコアを前記単語始端リストに追加登録し、前記第2パス処理手段は、さらに、前記各単語の単語平均スコアが所定値以上となるものに前記候補となる単語を限定し、前記限定された単語について、前記連続音声に対応する単語列を生成する構成を有している。
この構成により、第2パス処理手段の処理対象の単語が限定されるため、処理負担の低減が可能な連続音声認識装置を実現できる。
【0013】
また、請求項4に係る発明は、請求項1において、前記第2パス処理手段は、さらに、前記候補となる各単語が発声された始端時刻の前後一定範囲内の所定時刻を始端時刻として、前記第2パス処理手段での前向き探索を行う構成を有している。
この構成により、候補となる各単語の始端時刻の前後一定範囲内における所定時刻を始端時刻として追加し、前記第2パス処理手段での前向き探索を行うため、より高精度に音声認識が可能な連続音声認識装置を実現できる。
【0014】
また、請求項5に係る発明は、請求項1において、前記第2パス処理手段は、前記第1パス処理手段によって前記単語始端リストの生成が完了する前であっても、前記第1パス処理手段での前向き探索によって前記候補となる単語の情報とその始端時刻の情報とが生成され次第、前記第2パス処理手段での前向き探索を行い、前記連続音声に対応する単語列を生成するための処理を行う構成を有している。
この構成により、第2パス処理手段での前向き探索によって候補となる単語の情報とその始端時刻の情報とが生成され次第、第2パス処理手段での前向き探索の処理が行われるため、認識精度を低下させない早期確定手法を適用可能で、リアルタイム処理に適した連続音声認識装置を実現できる。
【0015】
また、請求項6に係る発明は、請求項1において、前記第2パス処理手段は、前記第1パス処理手段によって前記単語始端リストの生成が完了した後に、前記第2パス処理手段での前向き探索を開始し、前記連続音声に対応する単語列を生成するための処理を行う構成を有している。
この構成により、リアルタイム処理が必要でない場合でも、演算処理の負担が少なく、単語の認識精度を向上させることが可能な連続音声認識装置を実現できる。
【0016】
また、請求項7に係る発明は、請求項1において、コンピュータに、発声された連続音声を認識して、前記連続音声に対応する単語列を生成するための処理を実行させるプログラムにおいて、コンピュータに、簡易な第1の音響モデル、簡易な第1の言語モデル、前記第1の音響モデルよりも詳細な第2の音響モデル、および前記第1の言語モデルよりも詳細な第2の言語モデルを記憶するステップと、前記簡易な第1の音響モデルおよび前記簡易な第1の言語モデルを用いて前記連続音声に対して前向き探索を行い、前記単語列を生成するための候補となる各単語の情報と前記候補となる各単語が発声された始端時刻の情報とからなる単語始端リストを生成するための第1パス処理ステップと、前記詳細な第2の音響モデルおよび前記詳細な第2の言語モデルを用いて、前記単語始端リストに含まれる前記候補となる各単語の範囲内で、前記候補となる各単語が発声された始端時刻の情報に基づいて、前記連続音声に対して前向き探索を行い、前記連続音声に対応する単語列を生成するための第2パス処理ステップとを実行させる構成を有している。
【0017】
この構成により、第2パス処理ステップで探索すべき単語とその始端時刻は単語始端リストによって高精度に制限され、しかも、連続した単語終端は共通の単語始端をもつ可能性が高いため、単語始端リストは単語終端リストよりも冗長度が低く、より詳細な音響モデルや言語モデルを用いた場合でも全体の処理量を増大させることなく、単語の認識精度を向上させることが可能な連続音声認識プログラムを実現できる。また、第2パス処理ステップでは文頭から文末方向へ前向き探索が行われるために、候補単語列の文頭からの一意性を利用した最適で原理的に認識精度を低下させない早期確定手法を適用可能で、リアルタイム処理に適している。
【0018】
【発明の実施の形態】
以下、添付図面を参照して、本発明の第1の実施の形態に係る連続音声認識装置について説明する。
図1は、本発明の第1の実施の形態に係る連続音声認識装置100の概略の構成を示すブロック図である。連続音声認識装置100は、入力音声を音響分析して音響分析結果を生成する音響分析部10、音響分析結果に応じて単語始端リストを生成する第1パス処理部20、および音響分析結果と単語始端リストとを用いて認識単語列を生成する第2パス処理部30によって構成される。
【0019】
第1パス処理部20は、さらに、発音辞書・簡易モデル記憶部21、木構造音素ネットワーク生成部(以下、木構造音素NW生成部という。)22、音響スコア算出部23、言語スコア算出部24、および第1前向き探索部25によって構成される。
発音辞書・簡易モデル記憶部21は、第1パスでの音声認識処理に用いる発音辞書、簡易な音響モデル(以下、簡易音響モデルという。)、および簡易な言語モデル(以下、簡易言語モデルという。)等を記憶するための構成部である。ここで、「簡易な」とは、言うまでもなく、モデルの規模が小さいことを指し、例えば、モデルに含まれる状態数の少ないものが含まれる。
【0020】
木構造音素NW生成部22は、音響分析部10から出力された入力音声の音響分析結果、発音辞書・簡易モデル記憶部21に記憶された発音辞書、および簡易音響モデル等を入力とし、入力音声の音響分析結果に応じた、木構造を有する音素ネットワーク(以下、木構造音素ネットワークという。)を生成し、生成した木構造音素ネットワークを音響スコア算出部23、言語スコア算出部24、および第1前向き探索部25にそれぞれ出力するための構成部である。
【0021】
音響スコア算出部23は、入力音声の音響分析結果、簡易音響モデルおよび木構造音素ネットワークを入力とし、簡易音響モデルおよび木構造音素ネットワークを用いて音響分析結果に対する音響スコアを算出し、第1前向き探索部25に出力するための構成部である。ここで、簡易音響モデルとしては、例えば状態数の少ないトライフォン隠れマルコフモデル(Hidden Markov Model、以下、HMMという。)等を用いることができる。また、音響スコアの算出方法は、公知であり、その説明を省略する。
【0022】
言語スコア算出部24は、簡易言語モデルおよび木構造音素ネットワークを入力とし、木構造音素ネットワーク上のアクティブなノードに対する言語スコアを、簡易言語モデルを用いて算出し、第1前向き探索部25に出力するための構成部である。ここで、簡易言語モデルとしては、例えば単語バイグラム等を用いることができる。また、言語スコアの算出方法は、公知であり、その説明を省略する。
【0023】
第1前向き探索部25は、木構造音素ネットワーク、音響スコア、および言語スコアを入力とし、木構造音素ネットワーク上で音響スコアおよび言語スコアを用いて、アクティブなノードを前向きに伝搬させ、枝刈りされずに単語終端まで残った単語とその始端時刻のリストである単語始端リストを作成し、作成した単語始端リストを第2パス処理部30に出力するための構成部である。なお、「前向き」とは、文頭から文末への方向のことを指し、以下では、前向きの探索のことを「前向き探索」ということにする。
【0024】
ここで、木構造音素ネットワークは、1つの木構造音素ネットワークをループさせて用いる静的なものでも、木構造音素ネットワークを複数接続させて得られたものを用いる動的なものでもよい。なお、単語始端リストを精度の良いものとするために、第1前向き探索部25は、直前の単語に依存した単語対近似探索を行うものとする。
【0025】
一方、第2パス処理部30は、さらに、発音辞書・詳細モデル記憶部31、線形構造音素ネットワーク生成部(以下、線形構造音素NW生成部という。)32、音響スコア算出部33、言語スコア算出部34、および第2前向き探索部35によって構成される。
発音辞書・詳細モデル記憶部31は、第2パスでの音声認識処理に用いる発音辞書、詳細な音響モデル(以下、詳細音響モデルという。)、および詳細な言語モデル(以下、詳細言語モデルという。)等を記憶するための構成部である。ここで、「詳細な」とは、言うまでもなく、モデルの規模がある程度以上大きいことを指し、例えば、モデルに含まれる状態数の多いものが含まれる。
【0026】
線形構造音素NW生成部32は、音響分析部10から出力された入力音声の音響分析結果、発音辞書・詳細モデル記憶部31に記憶された発音辞書、および詳細音響モデル等を入力とし、入力音声の音響分析結果に応じた、直線構造を有する音素ネットワーク(以下、線形構造音素ネットワークという。)を生成し、生成した線形構造音素ネットワークを音響スコア算出部33、言語スコア算出部34、および第2前向き探索部35にそれぞれ出力するための構成部である。
【0027】
音響スコア算出部33は、入力音声の音響分析結果、詳細音響モデルおよび線形構造音素ネットワークを入力とし、音響分析結果に対する音響スコアを、詳細音響モデルおよび線形構造音素ネットワークを用いて算出し、第2前向き探索部35に出力するための構成部である。ここで、詳細音響モデルとしては、例えば状態数の多いトライフォンHMM等を用いることができる。また、音響スコアの算出方法は、上記音響スコア算出部23による算出の方法と同様に公知であり、その説明を省略する。
【0028】
言語スコア算出部34は、詳細言語モデルと線形構造音素ネットワークとを入力とし、線形構造音素ネットワーク上のアクティブな単語先頭ノードに対する言語スコアを、詳細言語モデルを用いて算出し、第2前向き探索部35に出力するための構成部である。ここで、詳細言語モデルとしては、例えば単語トライグラムなどを用いることができる。また、言語スコアの算出方法は、上記言語スコア算出部34による算出の方法と同様に公知であり、その説明を省略する。
【0029】
第2前向き探索部35は、線形構造音素ネットワーク、音響スコア算出部33から出力された音響スコア(以下、第2音響スコアという。)、および言語スコア算出部34から出力された言語スコア(以下、第2言語スコアという。)、および第1前向き探索部25から出力された単語始端リストを入力とし、認識単語列を決定し、連続音声認識装置100の外部に出力するための構成部である。
【0030】
その際、第2前向き探索部35は、単語始端リストに含まれる単語および始端時刻に限定して線形構造音素ネットワーク上のアクティブなノードを前向きに伝搬させ、上記の第2音響スコアおよび第2言語スコアを用いて、発話終了を待たずに単語列候補の文頭からの一意性を利用した早期確定を行うことができるものとする。もちろん、発話終了後に、第2前向き探索部35での処理を行うことも可能である。
【0031】
第2前向き探索部35は、詳細言語モデルに単語トライグラムを用いる場合、直前単語毎に最適な1つの単語履歴を保存しつつ探索を進める1-ベスト探索を行うことができるものとする。また、線形構造音素ネットワークを用いる理由は、単語始端リストに従ってアクティブにする単語が各時刻で異なるので、1つの音素ノードを複数の単語で共有する必要がないためである。
【0032】
なお、連続音声認識装置100として、上記で示したものの他にも、以下に示す実施の形態のものも可能である。
(1)第1前向き探索部25は、単語終端だけでなく単語終端付近に達した単語とその始端時刻を単語始端リストに追加登録し、第2前向き探索部35は、追加登録された単語についても上記の処理を行うとする実施の形態。
(2)第1前向き探索部25は、単語始端リストに単語平均スコアを追加登録し、第2前向き探索部35は、上記の追加登録した単語平均スコアが所定閾値を越えたものに限定して枝刈りし、上記の処理を行うという実施の形態。
(3)第2前向き探索部35は、単語始端リストに登録された始端時刻に、前後する一定幅の時間範囲の所定時刻を始端時刻として追加し、探索範囲を広げて単語の探索開始を許す実施形態。
【0033】
また、第1パス処理部20と第2パス処理部30における処理の実行順序に関しては、以下に示す2通りの実施の形態が考えられる。
(1)第1パス処理部20の処理中に、一定の遅れ時間で第2パス処理部6を並行して処理しつつ、発話終了を待たずに単語の早期確定を行うリアルタイム処理向きの実施形態。これは、第1パス処理部20によって単語始端リストが生成され、完成する前であっても、候補となる所定の単語とその始端時刻の情報とが生成され次第、第2パス処理部30での前向き探索を行い、連続音声に対応する単語列を生成するための処理を行うものである。
【0034】
(2)リアルタイム処理が必要でない場合に、第1パス処理部20における処理の終了後、すなわち発話終了後に第2パス処理部30での処理を開始する実施形態。これは、第2パス処理部20は、第1パス処理部によって単語始端リストが生成された後に、第2パス処理部での前向き探索を開始し、連続音声に対応する単語列を生成するための処理を行うものである。
【0035】
以下、図面を参照して、本発明の第1の実施の形態に係る連続音声認識装置100における処理について説明する。図2および図3は、本発明の第1の実施の形態に係る連続音声認識装置100の第1パス処理部20における処理の流れを示すフローチャートである。なお、第1の実施の形態に係る連続音声認識装置は、不図示の、インターフェース、制御・演算装置、記憶装置を有する一般的な構成のコンピュータ装置により構成することができる。その場合、発音辞書・簡易モデル記憶部21および発音辞書・詳細モデル記憶部31は、記憶装置に対応させ、その他の第1パス処理部20と第2パス処理部30とにおける各構成、および音響分析部10は、制御・演算装置に対応させることができる。
【0036】
ステップS210で、第1パス処理部20は、対象となる入力音声の処理時刻tを0に、文頭単語<s>に対応する音素ノードのみをアクティブに、およびそのトータルスコアを0にする、初期化処理を行う。
ステップS220で、第1パス処理部20は、時刻tにおける入力音声についての音響分析結果32を音響分析部10から取り出す。
【0037】
ステップS230で、第1パス処理部20は、全アクティブ・ノードの中から1つのノードを選択し、それをノードnとする。
ステップS240で、音響スコア算出部23はノードn、時刻tにおける入力音声についての簡易音響スコアを算出し、第1前向き探索部25はステップS230で選択したノードnのトータルスコアに時刻tにおける入力音声についての簡易音響スコアを加算する。
【0038】
ステップS250で、言語スコア算出部24はノードnの簡易言語スコアを算出し、第1前向き探索部25はノードを遷移する度にノードnのトータルスコアの簡易言語スコアを更新する。ノードを遷移する度にノードnのトータルスコアの簡易言語スコアを更新するのは、音素ネットワークに探索効率の高い木構造音素ネットワークを用いており、一つのノードが複数の単語に共有されていることによるものである。
【0039】
ステップS261で、第1前向き探索部25は、ノードnのトータルスコアが枝刈り閾値以下か否かを判断する。
ステップS261で、ノードnのトータルスコアが枝刈り閾値以下と判断された場合、ステップS262で、第1前向き探索部25は、ノードnを非アクティブにしてステップS270に進む。
【0040】
ステップS261で、ノードnのトータルスコアが枝刈り閾値を超えると判断された場合、処理はステップS263に移る。
ステップS263で、第1前向き探索部25は、ノードnが単語wの終端か否かを判断する。
ステップS263で、ノードnが単語wの終端と判断された場合、処理はステップS264に進む。
なお、ノードnが単語wの終端でなくても、単語終端付近で十分高いスコアをもつ場合に、処理をステップS264に進める実施の形態もありえ、それを排除するものではない。
【0041】
ステップS264で、第1前向き探索部25は、ノードnが属する単語wとその始端時刻、単語平均スコアを単語始端リストに追加し、同じ始端時刻に同じ単語が既に登録されていれば、大きい方の単語平均スコアへ更新する。
ステップS265で、第1前向き探索部25は、後続単語の先頭ノードをすべてアクティブにする。
【0042】
ステップS263で、終端でないと判断された場合、処理はステップS266に移り、ステップS266で、第1前向き探索部25は、後続音素のノードをすべてアクティブにする。
上記のステップS262、ステップS265、またはステップS266のいずれかのステップでの処理が終了したら、処理はステップS270に進む。
【0043】
ステップS270で、第1前向き探索部25は、全アクティブ・ノードの処理が終了したか否かを判断し、終了したと判断された場合、処理はステップS280に進み、終了していないと判断された場合、処理はステップS230に戻り、次のアクティブ・ノードを選択し、上記の処理を繰り返す。
【0044】
ステップS280で、第1前向き探索部25は、全入力音声についての処理が終了したか否かを判断し、終了したと判断された場合、第1パスに関する処理は終了し、終了していないと判断された場合、処理はステップS290に移る。
ステップS290で、第1前向き探索部25は、時刻tに1を加え、その後、処理はステップS220に戻り、時刻t+1における入力音声について上記の処理が繰り返される。
【0045】
図4および図5は、本発明の第1の実施の形態に係る連続音声認識装置100の第2パス処理部30における処理の流れを示すフローチャートである。以下に、図面を参照して、本発明の第1の実施の形態に係る連続音声認識装置100の第2パス処理部30における処理について説明する。
【0046】
ステップS410で、第2パス処理部30は、対象となる入力音声の処理時刻tを0に、文頭単語<s>に対応する音素ノードのみをアクティブに、およびそのトータルスコアを0にする、初期化処理を行う。
ステップS420で、第2パス処理部30は、時刻tにおける入力音声についての音響分析結果32を音響分析部10から取り出す。
【0047】
ステップS430で、第2パス処理部30は、全アクティブ・ノードの中から1つのノードを選択し、それをノードnとする。
ステップS440で、音響スコア算出部33はノードn、時刻tにおける入力音声についての詳細音響スコアを算出し、第2前向き探索部35はステップS430で選択したノードnのトータルスコアに時刻tにおける入力音声についての詳細音響スコアを加算する。
【0048】
ステップS451で、第2前向き探索部35は、ノードnのトータルスコアが枝刈り閾値以下か否かを判断する。
ステップS451で、ノードnのトータルスコアが枝刈り閾値以下と判断された場合、ステップS452で、第2前向き探索部35は、ノードnを非アクティブにしてステップS470に進む。
【0049】
ステップS451で、ノードnのトータルスコアが枝刈り閾値を超えると判断された場合、処理はステップS453に移る。
なお、ステップS451で、第1パス処理部20によって得られた単語始端リストに登録されている単語平均スコアを単語の先頭ノードの枝刈り判定において併用する実施の形態もありえ、それを排除するものではない。
【0050】
ステップS453で、第2前向き探索部35は、ノードnが単語wの終端か否かを判断する。
ステップS453で、ノードnが単語wの終端と判断された場合、処理はステップS454に進み、終端でないと判断された場合、処理はステップS456に移る。
【0051】
ステップS454で、第2前向き探索部35は、単語始端リストを参照し、時刻t+1で開始可能なすべての単語の先頭ノードをアクティブにする。もちろん、単語始端リストに登録された単語始端時刻に加えて、前後一定の幅で単語の探索開始を許す実施の形態も可能である。
ステップS455で、第2前向き探索部35は、ステップS454でアクティブにしたノードのトータルスコアに、詳細言語スコアを加算する。
【0052】
ステップS456で、第2前向き探索部35は、後続音素のノードをすべてアクティブにする。
上記のステップS452、ステップS455、またはステップS456のいずれかのステップでの処理が終了したら、処理はステップS460に進む。
【0053】
ステップS460で、第2前向き探索部35は、全アクティブ・ノードの処理が終了したか否かを判断し、終了したと判断された場合、処理はステップS470に進み、終了していないと判断された場合、処理はステップS430に戻り、次のアクティブ・ノードを選択し、上記の処理を繰り返す。
ステップS470で、第2前向き探索部35は、全アクティブ・ノードの単語履歴を参照し、文頭単語<s>に後続する単語列が一意となる区間があれば、それを認識結果の一部として早期確定する。
【0054】
ステップS480で、第2前向き探索部35は、全入力音声についての処理が終了したか否かを判断し、終了したと判断された場合、第2パスに関する処理は終了し、終了していないと判断された場合、処理はステップS490に移る。
ステップS490で、第2前向き探索部35は、時刻tに1を加え、その後、処理はステップS420に戻り、時刻t+1における入力音声について上記の処理が繰り返される。
【0055】
なお、音声認識にリアルタイム性が求められない場合には、ステップS470で単語を早期確定することなく、ステップS480での処理を終了した後に、文末単語</s>から単語履歴をトレースバックし、発話全体の単語列を一度に出力する実施の形態も可能である。
【0056】
図6を用いて、本発明の第1前向き探索部25の動作について説明する。文頭単語<s>は、時刻0を始端とし、時刻2、3、4を終端の候補としている。単語w1は、文頭単語<s>の終端を時刻3とした場合の文頭単語<s>に後続し、時刻4を始端として時刻8、9を終端の候補としている。単語w2は、文頭単語<s>の終端を時刻2とした場合の文頭単語<s>に後続し、時刻3を始端とするが、時刻8で枝刈りされている。
【0057】
単語w3は、文頭単語<s>の終端を時刻4とした場合の文頭単語<s>に後続し、時刻5を始端として時刻12、13を終端の候補としている。さらに、単語w3は、時刻8を終端とした場合の単語w1にも後続可能であり、時刻9を始端として時刻12、13を終端の候補としている。単語w4は、時刻8を終端とした場合の単語w1に後続し、時刻9を始端として時刻13、14、15を終端の候補としている。
【0058】
図7は、図6に示す第1前向き探索部25によって作成される単語始端リストの一例を示す図である。時刻0を始端とする単語候補には、文頭単語<s>があり、その単語平均スコアが括弧内に記載され、図7に示す場合、その単語平均スコアは−59である。同様に、時刻4を始端とする単語候補には単語w1が、時刻5を始端とする単語候補には単語w3が、時刻9を始端とする単語候補には単語w3とw4がある。単語w2は単語終端に達する前に枝刈りされたため、この単語始端リストには記載されない。
【0059】
図8は、図7に示す単語始端リストの制約下で動作する、第2前向き探索部35の動作を説明するための図である。文頭単語<s>は時刻0にアクティブとなり、前向き探索が開始される。なお、単語w1は時刻4にアクティブとなって前向き探索が開始されるが、時刻4の前後の時刻3および時刻5から前向き探索を開始可能とする実施例もあり得る。
【0060】
同様に、単語w3は時刻5と時刻9、およびそれらの前後の時刻に、単語w4は時刻9およびその前後の時刻にアクティブとなり、前向き探索が開始される。以上のように、第2パス処理部30が探索すべき単語と探索開始時刻は単語始端リストによって高精度に制限されるため、より詳細な音響モデルや言語モデルを用いた場合でも全体の処理量を増大させることなく、単語の正解精度を向上させることが可能である。
【0061】
以上説明したように、本発明の第1の実施の形態に係る連続音声認識装置およびそのプログラムは、簡易なモデルによって求めた候補単語とその始端時刻のリストを利用して詳細な前向き探索を行うため、より詳細な音響モデルおよび言語モデルを用いた場合でも全体の処理量を増大させることなく、単語の正解精度を向上させることができる。
また、第2パスにおいても文頭から文末方向への前向き探索を行うために、候補単語列の文頭からの一意性を利用した最適な早期確定手法を適用することが可能となり、リアルタイム処理に適している。
【0062】
なお、本発明の第1の実施の形態では、第1の実施の形態に係る連続音声認識装置を用いて上記のステップS210〜S490の各ステップでの処理を行う連続音声認識の方法について説明したが、これらのステップS210〜S490を含む連続音声認識動作を実行させるための連続音声認識プログラムがインストールされた所定のコンピュータを用いて実施することも可能である。
【0063】
また、本発明は、所定の記憶媒体に記憶された上記の連続音声認識プログラムをコンピュータにロードする方法のほかに、上記連続音声認識プログラムを通信インターフェースおよびネットワークからファイル形式で取得し、前記コンピュータで実施する方法によっても同様の効果が得られる。さらに、ネットワークを用いることでプログラムの更新や配布が容易となる。
【0064】
【発明の効果】
以上説明したように、本発明は、音声認識に詳細な音響モデルおよび言語モデルを用いる場合でも、早期に認識結果を確定するリアルタイム性に優れ、高い認識精度かつ演算処理負担の少ない連続音声認識装置およびそのプログラムを実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る連続音声認識装置の構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る連続音声認識装置の第1パス処理部において行われる処理の流れを示すフローチャートである。
【図3】本発明の第1の実施形態に係る連続音声認識装置の第1パス処理部において行われる処理の一部の処理の流れを詳細に示すフローチャートである。
【図4】本発明の第1の実施形態に係る連続音声認識装置の第2パス処理部において行われる処理の流れを示すフローチャートである。
【図5】本発明の第1の実施形態に係る連続音声認識装置の第2パス処理部において行われる処理の一部の処理の流れを詳細に示すフローチャートである。
【図6】本発明の第1の実施形態に係る連続音声認識装置の第1前向き探索部の動作を説明するための図である。
【図7】本発明の第1の実施形態に係る連続音声認識装置の第1前向き探索部によって作成される単語始端リストの一例を示す図である。
【図8】単語始端リストの制約下で動作する、本発明の第1の実施形態に係る連続音声認識装置の第2前向き探索部の動作を説明するための図である。
【符号の説明】
10 音響分析部
20 第1パス処理部
21 発音辞書・簡易モデル記憶部
22 木構造音素NW生成部
23 音響スコア算出部
24 言語スコア算出部
25 第1前向き探索部
30 第2パス処理部
31 発音辞書・詳細モデル記憶部
32 線形構造音素NW生成部
33 音響スコア算出部
34 言語スコア算出部
35 第2前向き探索部
100 連続音声認識装置

Claims (7)

  1. 発声された連続音声を認識して、前記連続音声に対応する単語列を生成するための連続音声認識装置において、簡易な第1の音響モデル、簡易な第1の言語モデル、前記第1の音響モデルよりも詳細な第2の音響モデル、および前記第1の言語モデルよりも詳細な第2の言語モデルを記憶する手段と、前記簡易な第1の音響モデルおよび前記簡易な第1の言語モデルを用いて前記連続音声に対して前向き探索を行い、前記単語列を生成するための候補として単語終端に達した各単語の情報と前記候補となる各単語が発声された始端時刻の情報とからなる単語始端リストを生成するための第1パス処理手段と、前記詳細な第2の音響モデルおよび前記詳細な第2の言語モデルを用いて、前記単語始端リストに含まれる前記候補となる各単語の範囲内で、前記候補となる各単語が発声された始端時刻の情報に基づいて、前記連続音声に対して前向き探索を行い、前記連続音声に対応する単語列を生成するための第2パス処理手段とを備えたことを特徴とする連続音声認識装置。
  2. 前記第1パス処理手段は、さらに、前記第1パス処理手段での前向き探索中に単語終端近傍に達した単語の情報と、前記単語終端近傍に達した単語が発声された始端時刻の情報とを前記単語始端リストに追加登録することを特徴とする請求項1記載の連続音声認識装置。
  3. 前記第1パス処理手段は、さらに、前記単語始端リストに含まれる前記各単語の単語平均スコアを前記単語始端リストに追加登録し、前記第2パス処理手段は、さらに、前記各単語の単語平均スコアが所定値以上となるものに前記候補となる単語を限定し、前記限定された単語について、前記連続音声に対応する単語列を生成することを特徴とする請求項1記載の連続音声認識装置。
  4. 前記第2パス処理手段は、さらに、前記候補となる各単語が発声された始端時刻の前後一定範囲内の所定時刻を始端時刻として、前記第2パス処理手段での前向き探索を行うことを特徴とする請求項1記載の連続音声認識装置。
  5. 前記第2パス処理手段は、前記第1パス処理手段によって前記単語始端リストの生成が完了する前であっても、前記第1パス処理手段での前向き探索によって前記候補となる単語の情報とその始端時刻の情報とが生成され次第、前記第2パス処理手段での前向き探索を行い、前記連続音声に対応する単語列を生成するための処理を行うことを特徴とする請求項1記載の連続音声認識装置。
  6. 前記第2パス処理手段は、前記第1パス処理手段によって前記単語始端リストの生成が完了した後に、前記第2パス処理手段での前向き探索を開始し、前記連続音声に対応する単語列を生成するための処理を行うことを特徴とする請求項1記載の連続音声認識装置。
  7. コンピュータに、発声された連続音声を認識して、前記連続音声に対応する単語列を生成するための処理を実行させるプログラムにおいて、コンピュータに、簡易な第1の音響モデル、簡易な第1の言語モデル、前記第1の音響モデルよりも詳細な第2の音響モデル、および前記第1の言語モデルよりも詳細な第2の言語モデルを記憶するステップと、前記簡易な第1の音響モデルおよび前記簡易な第1の言語モデルを用いて前記連続音声に対して前向き探索を行い、前記単語列を生成するための候補となる各単語の情報と前記候補となる各単語が発声された始端時刻の情報とからなる単語始端リストを生成するための第1パス処理ステップと、前記詳細な第2の音響モデルおよび前記詳細な第2の言語モデルを用いて、前記単語始端リストに含まれる前記候補となる各単語の範囲内で、前記候補となる各単語が発声された始端時刻の情報に基づいて、前記連続音声に対して前向き探索を行い、前記連続音声に対応する単語列を生成するための第2パス処理ステップとを実行させることを特徴とする連続音声認識プログラム。
JP2001332825A 2001-10-30 2001-10-30 連続音声認識装置およびそのプログラム Expired - Fee Related JP3813491B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001332825A JP3813491B2 (ja) 2001-10-30 2001-10-30 連続音声認識装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001332825A JP3813491B2 (ja) 2001-10-30 2001-10-30 連続音声認識装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2003140685A JP2003140685A (ja) 2003-05-16
JP3813491B2 true JP3813491B2 (ja) 2006-08-23

Family

ID=19148189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001332825A Expired - Fee Related JP3813491B2 (ja) 2001-10-30 2001-10-30 連続音声認識装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP3813491B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5310563B2 (ja) * 2007-12-25 2013-10-09 日本電気株式会社 音声認識システム、音声認識方法、および音声認識用プログラム
WO2009139230A1 (ja) * 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP5739718B2 (ja) * 2011-04-19 2015-06-24 本田技研工業株式会社 対話装置
JP6001944B2 (ja) * 2012-07-24 2016-10-05 日本電信電話株式会社 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Also Published As

Publication number Publication date
JP2003140685A (ja) 2003-05-16

Similar Documents

Publication Publication Date Title
US10152971B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
US6275801B1 (en) Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
US5907634A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP4322815B2 (ja) 音声認識システム及び方法
EP4018437B1 (en) Optimizing a keyword spotting system
GB2453366A (en) Automatic speech recognition method and apparatus
JP3813491B2 (ja) 連続音声認識装置およびそのプログラム
JP2003208195A5 (ja)
JP3039634B2 (ja) 音声認識装置
Paul et al. The Lincoln large-vocabulary stack-decoder HMM CSR
JP3104900B2 (ja) 音声認識方法
JP3559479B2 (ja) 連続音声認識方法
JP3494338B2 (ja) 音声認識方法
JP4972660B2 (ja) 音声学習装置及びプログラム
JP3873418B2 (ja) 音声スポッティング装置
JPH07104780A (ja) 不特定話者連続音声認識方法
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Novak et al. Speed improvement of the tree-based time asynchronous search
JPH1145097A (ja) 連続音声認識方式
KR101134450B1 (ko) 음성인식 방법
Fu et al. Combination of multiple predictors to improve confidence measure based on local posterior probabilities
JP3484077B2 (ja) 音声認識装置
Hori et al. Improved phoneme-history-dependent search for large-vocabulary continuous-speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees