JP5276610B2

JP5276610B2 - 言語モデル生成装置、そのプログラムおよび音声認識システム

Info

Publication number: JP5276610B2
Application number: JP2010023969A
Authority: JP
Inventors: 真一本間; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-02-05
Filing date: 2010-02-05
Publication date: 2013-08-28
Anticipated expiration: 2030-02-05
Also published as: JP2011164175A

Description

本発明は、確率的言語モデルによって言語モデルを生成する技術、および、この言語モデルを用いて音声認識を行う技術に関する。

例えば、音声による機械操作（カーナビゲーション装置）、自動音声案内システム、または、放送番組におけるリアルタイム字幕生成では、言語モデルを用いた音声認識が不可欠である。このように、言語モデルは、音声認識の精度を左右する重要なものであるため、この言語モデルに関する従来技術が幾つか提案されている。

現在、音声認識で利用されている一般的な言語モデルは、単語Ｎグラムモデルと呼ばれるものである（例えば、非特許文献１参照）。また、この単語Ｎグラムモデルを拡張した言語モデルとして、単語クラスという概念を用いた、クラスＮグラムモデルがある。このクラスＮグラムモデルは、品詞や概念によって単語を分類したクラスとして扱うＮグラムモデルであり、学習テキストが少ないために、単語Ｎグラムモデルで学習を十分に行うことができない場合に有効である。

また、Ｎグラムモデル以外の言語モデルに関する技術として、特許文献１に記載の発明が提案されている。この特許文献１に記載の発明は、正式名称の単語リストと、この言い換え単語リストとを用いて、言い換えのパターン（規則）を確率的に推定（モデル化）する。そして、この特許文献１に記載の発明は、正式名称に加えて、その辞書に言い換えのパターンを辞書（言語モデル）に追加する。さらに、この特許文献１に記載の発明は、短い入力音声（例えば、施設名、地名等の固有名詞）が、この辞書に登録された単語の波形にどれだけ近いものであるかを計算して認識結果を出力する。つまり、特許文献１に記載の発明は、１つ単語が含まれる入力音声を音声認識する孤立単語認識を行うものである。

特開２００５−３１２５５号公報

確率的言語モデル、東京大学出版会、ｐｐ．６０−６２およびｐｐ．７２−７５

しかし、Ｎグラムモデルでは、以下に述べるような問題がある。
主に話し言葉で見られるくだけた日本語には、同一の表現に対応するさまざまな表記や読みが存在する。例えば、「という」は、「っていう」または「っちゅう」等の表現になることが多い。一方、書き言葉では、これら全てが「という」に統一される。
また、話し言葉を書き起こした学習テキストを用いる場合、「という」が、例えば、「っていう」または「っちゅう」に置き換えられることがある。
これらの結果、言語モデルにおいて、一例として、「という」の統計量が分散して学習テキストの量が不十分となり、信頼できる確率値を算出できないことがある。

また、学習テキストには、例えば、「取り引きする」は、「取引する」とも記述できるように、表記のゆらぎが含まれる場合がある。この場合、この表現のゆらぎが原因で、「取り引きする」の確率値が、小さな値で算出されることがある。

以上をまとめると、Ｎグラムモデルは、話し言葉や書き言葉、および、表記のゆらぎのように、同一の意味で表記または読みが異なる単語または連鎖語が存在する場合、これら単語または連鎖語の統計量が分散する。このため、Ｎグラムモデルは、相対的に学習テキスト量が不足することになり、生成された言語モデルにおいて、確率値の信頼性が低くなるという問題がある。

また、特許文献１に記載の発明は、孤立単語認識を行うことから、文脈を考慮して辞書を生成していない。このため、特許文献１に記載の発明は、文脈が非常に重要となる大語彙連続音声認識（複数の単語が含まれる入力音声の音声認識）に対応することができない。

そこで、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする言語モデルを生成する言語モデル生成装置およびそのプログラムを提供することを課題とする。
さらに、本発明は、前記した問題を解決し、認識誤りが少ない音声認識を可能とする音声認識システムを提供することも課題とする。

前記した課題を解決するため、本願第１発明に係る言語モデル生成装置は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成する言語モデル生成装置であって、言語モデル生成部と、連鎖語抽出手段と、編集距離算出手段と、最小編集距離選択手段と、同意単語・連鎖語リスト生成手段と、言語モデル変換部とを備えることを特徴とする。

かかる構成によれば、言語モデル生成装置は、言語モデル生成部で、前記学習テキストによって学習を行うことで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデル（例えば、Ｎグラムモデル）を生成する。つまり、言語モデル生成部は、文脈を考慮した確率的言語モデルを生成する。

ここで、前記したように、確率的言語モデルとして生成された言語モデルは、学習テキストに同意語が存在する場合、これら同意語の統計量が分散してしまい、これら同意語の出現確率が低くなる。そこで、言語モデル生成装置は、連鎖語抽出手段によって、前記学習テキストの１単語あたりのエントロピーを最も削減する順序で、前記学習テキストに予め設定された頻度以上出現する単語対を前記連鎖語として抽出する。さらに、言語モデル生成装置は、編集距離算出手段によって、前記連鎖語抽出手段が抽出した連鎖語の編集距離をＤＰマッチングによって算出する。さらに、言語モデル生成装置は、最小編集距離選択手段によって、前記編集距離算出手段によって算出された編集距離が最小となる連鎖語を同意語候補として選択する。さらに、言語モデル生成装置は、同意単語・連鎖語リスト生成手段によって、前記同意語候補から予め選択された連鎖語が含まれる選択指示が入力され、前記選択指示に基づいて、同一の意味を有する前記同意語が予め対応付けられた同意語リストを生成する。さらに、言語モデル生成装置は、言語モデル変換部によって、前記同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する。つまり、言語モデル変換部は、学習テキストに同意語が存在することによって低い値で算出された同意語の出現確率を補正する。

これによって、言語モデル生成装置は、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択することが可能となる。

また、本願第２発明に係る言語モデル生成装置は、前記言語モデル変換部が、前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、を備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、言語モデルのデータサイズを縮小することができる。

本願第３発明に係る言語モデル生成装置は、少なくとも前記同意語の表記と当該同意語の発音とを予め対応付けた発音辞書を記憶する発音辞書記憶部と、前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部とをさらに備えることを特徴とする。
かかる構成によれば、言語モデル生成装置は、発音辞書を、基本型の表記と同意型の表記および発音とを対応付けた変換後発音辞書に変換する。

また、前記した課題を解決するため、本願第４発明に係る言語モデル生成プログラムは、コンピュータを、本願第１発明に係る言語モデル生成装置として機能させることを特徴とする。

また、前記した課題を解決するため、本願第５発明に係る音声認識システムは、本願第３発明に係る言語モデル生成装置と、当該言語モデル生成装置が生成した言語モデルを用いて音声認識を行う音声認識装置とを備える音声認識システムであって、前記音声認識装置は、音声データを学習することで予め生成した音響モデルを記憶する音響モデル記憶部と、音声分析部と、探索部を備えることを特徴とする。

かかる構成によれば、音声認識装置は、音声分析部によって、入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する。そして、音声認識装置は、探索部によって、前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第１の定数を乗算した値に第２の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する。つまり、音声認識装置は、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを出力することができる。

本発明によれば、以下のような優れた効果を奏する。
本願第１，４発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第１発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。

本願第１，４発明によれば、利用者が同意語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、同意語リストが提示されない場合に比べて、利用者が同意語を選択する手間を大きく低減することができる。

本願第２発明によれば、言語モデルのデータサイズを縮小することができるため、この言語モデルを用いる音声認識装置のメモリ容量を節約することができる。
本願第３発明によれば、変換後発音辞書に基本型の表記と同意型の表記および発音とが対応付けられているので、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができる。

本願第５発明によれば、文脈を考慮した確率的言語モデルを生成するため、大語彙連続音声認識に対応することができる。そして、本願第５発明によれば、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする。さらに、本願第５発明によれば、変換後発音辞書を参照することで、基本型に対応する同意型の表記と発音とを容易に出力することができ、音声認識システムの利便性を向上させることができる。

本発明の実施形態に係る音声認識システムの構成を示すブロック図である。図１の同意単語・連鎖語選択部の構成を示すブロック図である。図２の連鎖語抽出手段が生成した連鎖語リストの一例を示す図である。図２の最小編集距離選択手段が生成した編集距離最小連鎖語関係リストの一例を示す図である。図２の同意単語・連鎖語リスト記憶部が記憶する同意単語・連鎖語リストの一例である。図１の言語モデル変換部の構成を示すブロック図である。図１の言語モデル記憶部が記憶する言語モデルの一例を示す図であり、（ａ）はユニグラムの場合であり、（ｂ）はバイグラムの場合である。図１の発話辞書記憶手段が記憶する発話辞書の一例を示す図である。図８の発話辞書を変換した変換後発話辞書の一例を示す図である。図２の同意単語・連鎖語選択部の動作を示すフローチャートである。図６の言語モデル変換部の動作を示すフローチャートである。

以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。

［音声認識システムの概略］
図１を参照して、本発明の実施形態に係る音声認識システムの概略について説明する。
図１に示すように、音声認識システム１００は、言語モデル生成装置１と、音声認識装置３とを備える。
言語モデル生成装置１は、同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、音声認識に用いる言語モデルを生成する。
音声認識装置３は、言語モデル生成装置１が生成した言語モデルを用いて、入力音声を音声認識する。

なお、連鎖語（単語連鎖）とは、複数の単語からなる頻出表現であり、１つの単語連鎖中の各単語を結合して１単語として扱うものである。例えば、連鎖語としては、単語「と」および単語「いう」とを連結した「と＿いう」がある。ここで、”＿“は、単語同士の連結を示す。

［言語モデル生成装置の構成］
以下、言語モデル生成装置１の構成を詳細に説明する。
図１に示すように、言語モデル生成装置１は、学習テキスト記憶部１１と、連鎖語リスト記憶部１２と、編集距離付与連鎖語関係リスト記憶部１３と、編集距離最小連鎖語関係リスト記憶部１４と、同意単語・連鎖語リスト記憶部１５と、言語モデル記憶部１６と、発音辞書記憶部１７と、変換後発音辞書記憶部１８と、同意単語・連鎖語選択部（同意語選択部）２１と、言語モデル生成部２２と、言語モデル変換部２３と、発音辞書変換部２４とを備える。

［各記憶部］
学習テキスト記憶部１１は、言語モデルを生成する際に必要となる学習テキスト（学習データ）を記憶するメモリ、ハードディスク等の記憶手段である。この学習テキストは、例えば、音声認識システムの利用者により、学習テキスト記憶部１１に予め記憶される。

連鎖語リスト記憶部１２は、連鎖語リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離付与連鎖語関係リスト記憶部１３は、編集距離付与連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
編集距離最小連鎖語関係リスト記憶部１４は、編集距離最小連鎖語関係リストを記憶するメモリ、ハードディスク等の記憶手段である。
同意単語・連鎖語リスト記憶部１５は、同意単語・連鎖語リスト（同意語リスト）を記憶するメモリ、ハードディスク等の記憶手段である。
なお、連鎖語リスト、編集距離付与連鎖語関係リスト、編集距離最小連鎖語関係リストおよび同意単語・連鎖語リストの詳細は、同意単語・連鎖語選択部２１とあわせて説明する。

言語モデル記憶部１６は、言語モデルを記憶するメモリ、ハードディスク等の記憶手段である。この言語モデルは、学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示すものであり、後記する言語モデル生成部２２によって生成される。

発音辞書記憶部１７は、発音辞書を予め記憶するメモリ、ハードディスク等の記憶手段である。この発音辞書は、単語または連鎖語の表記とその発音とを対応付けた辞書である。
変換後発音辞書記憶部１８は、変換後発音辞書を記憶するメモリ、ハードディスク等の記憶手段である。この変換後発音辞書は、後記する発音辞書変換部２４によって発音辞書が変換されたものであり、音声認識装置３が音声認識を行う際に参照される。
なお、発音辞書および変換後発音辞書の詳細は、発音辞書変換部２４とあわせて説明する。

［同意単語・連鎖語選択部］
以下、図２を参照し、同意単語・連鎖語選択部２１を詳細に説明する。
同意単語・連鎖語選択部２１は、学習テキストを参照し、利用者から入力された選択指示に基づいて、同意単語・連鎖語リストを生成する。ここで、図２に示すように、同意単語・連鎖語選択部２１は、連鎖語抽出手段２１１と、編集距離算出手段２１２と、最小編集距離選択手段（連鎖語候補選択手段）２１３と、同意単語・連鎖語リスト生成手段２１４とを備える。

連鎖語抽出手段２１１は、学習テキストの文頭から順に、連続する２個の単語の出現確率を計算するバイグラムを行う。例えば、学習テキストが「きょう＿は＿温かい＿朝＿だった」の場合、単語対は、「きょう＿は」、「は＿温かい」および「朝＿だった」になる。この場合、連鎖語抽出手段２１１は、「きょう＿は」、「は＿温かい」および「朝＿だった」という単語対が１回ずつ出現するため、これら単語対の出現確率「１」をそれぞれ算出する。そして、連鎖語抽出手段２１１は、予め設定された頻度（閾値）以上であり、かつ、学習テキストの１単語あたりのエントロピーを最も削減する順序でこの学習テキストに出現する単語対を連鎖語として抽出する。その後、連鎖語抽出手段２１１は、抽出した連鎖語を格納した連鎖語リストを生成し、連鎖語リスト記憶部１２に記憶する。
なお、連鎖語の抽出手法の詳細は、例えば、文献「対談音声のための連鎖語とクラスを利用した言語モデル、日本音饗学会講演論文集、ｐｐ．７１−７２、２００６年３月」に記載されている。

ここで、図３を参照し、連鎖語リストの一例を説明する。
図３の連鎖語リストは、連鎖語抽出手段２１１によって学習テキストから抽出された連鎖語（例えば、「あり＿ます」、「い＿ない」、「い＿ました」）が、それぞれ格納されている。

図２に戻り、同意単語・連鎖語選択部２１の説明を続ける。
編集距離算出手段２１２は、連鎖語リストを参照し、この連鎖語リストに含まれる連鎖語の編集距離をＤＰマッチングによって算出する。具体的には、編集距離算出手段２１２は、各連鎖語に対して、その連鎖語を除くＮ−１個の連鎖語と、その連鎖語を構成する単語単位とでＤＰマッチングを行って、連鎖語の編集距離を算出する。そして、編集距離算出手段２１２は、各連鎖語、および、各連鎖語の編集距離を格納した編集距離付与連鎖語関係リストを生成して、編集距離付与連鎖語関係リスト記憶部１３に記憶する。
なお、ＤＰマッチングの詳細は、例えば、文献「パターン認識と学習のアルゴリズム、文一総合出版、ｐｐ.９１−１０８」に記載されている。

最小編集距離選択手段２１３は、編集距離付与連鎖語関係リストを参照し、この編集距離付与連鎖語関係リストに含まれる編集距離が最小となる連鎖語を同意語候補として選択（リストアップ）する。そして、最小編集距離選択手段２１３は、選択した同意語候補（連鎖語）を格納した編集距離最小連鎖語関係リストを生成して、編集距離最小連鎖語関係リスト記憶部１４に記憶する。

ここで、図４を参照し、編集距離最小連鎖語関係リストの一例を説明する（適宜図２参照）。
図４に示すように、最小編集距離選択手段２１３は、編集距離最小連鎖語関係リストを、例えば、基本型を示す識別子「基本型」で始まる行と、同意型を示す識別子「同意型」で始まる行とが交互に現れるフォーマットとする。このとき、最小編集距離選択手段２１３は、編集距離最小連鎖語関係リストに、「基本型」で始まる行には１個の連鎖語を含め、「同意型」で始まる行には１個以上の連鎖語を含めるようにする。さらに、最小編集距離選択手段２１３は、編集距離最小連鎖語関係リストにおいて、「同意型」で始まる行の各連鎖語が、その１行上の「基本型」で始まる行の連鎖語に対して、編集距離が最小となる関係とする。例えば、図４の編集距離最小連鎖語関係リストは、「同意型」で始まる行の２つの連鎖語「なきゃ＿いけ＿ない」および「なければ＿なら＿ない」が、その１行上の「基本型」で始まる行の連鎖語「なければ＿いけ＿ない」に対して、編集距離が最小であることを示している。

ここで、編集距離最小連鎖語関係リストは、「同意型」で始まる行の連鎖語の中に、「基本型」で始まる行の連鎖語に対して同意語と言えないものを含んでいる可能性がある。このため、利用者は、編集距離最小連鎖語関係リストをチェックし、「同意型」で始まる行の連鎖語の中から、同意語として問題ない連鎖語だけを選択することが好ましい。そして、利用者は、編集距離最小連鎖語関係リストに基づいて利用者が選択した連鎖語を、選択指示として同意単語・連鎖語リスト生成手段２１４に入力する。

この選択指示は、同意語として選択した単語および連鎖語の少なくとも一方を示すものである。つまり、選択指示は、連鎖語以外に、利用者が予め選択した単語を含めても良い。さらに、選択指示は、同意語として連鎖語および単語の何れか一方だけを用いる場合、当該一方だけを含めても良い。

以下、図２に戻り、同意単語・連鎖語選択部２１の説明を続ける。
同意単語・連鎖語リスト生成手段２１４は、利用者から選択指示が入力され、この選択指示に基づいて同意単語・連鎖語リストを生成する。つまり、同意単語・連鎖語リスト生成手段２１４は、この選択指示に含まれる同意語を格納して同意単語・連鎖語リストを生成する。そして、同意単語・連鎖語リスト生成手段２１４は、生成した同意単語・連鎖語リストを同意単語・連鎖語リスト記憶部１５に記憶する。

ここで、図５を参照し、同意単語・連鎖語リストの一例を説明する。
図５の同意単語・連鎖語リストは、図４の編集距離最小連鎖語関係リストから、同意語として選択された連鎖語が含まれる。また、この同意単語・連鎖語リストは、図４の編集距離最小連鎖語関係リストと同様に、「基本型」および「同意型」という識別子を行頭に挿入することで、同意語（同一の意味の単語および同一の意味の連鎖語）を対応付けている。つまり、同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語と、その１行下の「同意型」で始まる行の連鎖語とが同意語であることを示す。例えば、図５の同意単語・連鎖語リストは、「基本型」で始まる行の連鎖語「なければ＿いけ＿ない」と、その一行下の「同意型」で始まる行の連鎖語「なきゃ＿いけ＿ない」とが同意語であることを示している。その一方、図４に図示した連鎖語「なければ＿なら＿ない」は、連鎖語「なければ＿いけ＿ない」の同意語でないと利用者によって判断されたため、同意単語・連鎖語リストに含まれない。
なお、図５では省略したが、同意単語・連鎖語リストは、連鎖語と同様、同意語として、同一の意味となる単語を対応付けても良いことは言うまでもない。

以上をまとめると、同意単語・連鎖語選択部２１は、学習テキストの中で出現頻度が大きい単語対を選択し、これら単語対の中で学習テキストのエントロピーを最も大きく削減するものを連鎖語（同意語候補）とする。そして、同意単語・連鎖語選択部２１は、この処理を必要に応じて繰り返し、Ｍ個の連鎖語（同意語候補）を得て同意単語・連鎖語リストを生成する。これによって、利用者は、例えば、同意単語・連鎖語リストの同意語候補を参照して、連鎖語についての同意語を選択できるため、利用者が同意語を選択する手間を大きく低減することができる。仮に、同意単語・連鎖語リストを利用者が参照できない場合、利用者は、連鎖語について同意語を学習テキストから直接選択するという困難な作業を行う必要があり、負担が極めて大きくなる。ここで、Ｍの値は、音声認識の精度が高くなるように予め設定しておく。
なお、単語については、連鎖語に比べ、利用者が同意語を選択する手間が少ないため、編集距離最小連鎖語関係リストに相当するリストを生成していない。

［言語モデル生成部］
図１に戻り、言語モデル生成装置１の説明を続ける。
言語モデル生成部２２は、学習テキストを確率的言語モデルによって学習（機械学習）することで、言語モデルを生成して言語モデル記憶部１６に記憶する。ここで、言語モデル生成部２２は、確率的言語モデルとして、単語Ｎグラムモデルを用いる。この単語Ｎグラムモデルは、学習テキストに含まれる単語列ｗ_１ ^ｎ＝ｗ_１，・・・，ｗ_ｎに対して、単語ｗ_ｎの出現確率を、直前のＮ−１単語から予測する確率的言語モデルであり、下記の式（１）で表すことができる。

この単語Ｎグラムモデルは、Ｎ＝１とした場合には、ユニグラム（ｕｎｉｇｒａｍ）と呼ばれ、Ｎ＝２とした場合には、バイグラム（ｂｉｇｒａｍ）と呼ばれ、Ｎ＝３とした場合には、トライグラム（ｔｒｉｇｒａｍ）と呼ばれる。また、直前のＮ−１単語（ｗ_１ ^ｎ-１）は、履歴（ｈｉｓｔｏｒｙ）と呼ばれる。

ここで、図７を参照し、言語モデルの一例を説明する（適宜図１参照）。
図７の言語モデルは、左列がＮグラム確率値（出現確率）であり、中央列がパラメータ名（単語または連鎖語）であり、右列がバックオフ係数である。

Ｎグラム確率値は、パラメータ名に記載の単語または連鎖語の出現確率を示し、図７では、その値を対数表記している。
パラメータ名は、単語または連鎖語を示している。また、パラメータ名の＜ｓ＞は文頭記号であり、＜／ｓ＞は文末記号である。つまり、この言語モデルでは、文頭記号と文末記号とを単語として扱っている。
バックオフ係数は、学習テキストの中に出現確率がゼロとなるＮグラム確率値を、低次の単語Ｎグラムモデル（例えば、ユニグラム）から推定するときに用いる係数である。
なお、バックオフ係数の詳細は、後記するバックオフ係数処理手段２３４とあわせて説明する。

［言語モデル変換部］
以下、図６に戻り、言語モデル変換部２３を詳細に説明する。
言語モデル変換部２３は、同意単語・連鎖語リストを参照し、言語モデルの変換（補正）を行う。ここで、図６に示すように、言語モデル変換部２３は、パラメータ抽出手段２３１と、確率値算出手段２３２と、履歴処理手段２３３と、バックオフ係数処理手段２３４と、言語モデル更新手段２３５とを備える。

パラメータ抽出手段２３１は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストに含まれる同意語のＮグラムパラメータを、言語モデルから抽出する。そして、パラメータ抽出手段２３１は、抽出したＮグラムパラメータを確率値算出手段２３２に出力する。以下の説明において、Ｎグラムパラメータは、言語モデルのＮグラム確率値、パラメータ名およびバックオフ係数のことを指す。

確率値算出手段２３２は、パラメータ抽出手段２３１からＮグラムパラメータが入力される。また、確率値算出手段２３２は、同意単語・連鎖語リストを参照して、この同意単語・連鎖語リストで対応付けられた同一の意味を有する同意語を取得する。そして、確率値算出手段２３２は、この同一の意味を有する同意語について、入力されたＮグラムパラメータの出現確率に基づいて確率値を算出する。ここで、確率値算出手段２３２は、入力されたＮグラムパラメータの出現確率について、加算値等を求める四則演算を行って確率値を算出することができる。また、確率値算出手段２３２は、入力されたＮグラムパラメータの出現確率について、平均値、最大値等を求める統計演算を行って確率値を算出することもできる。さらに、確率値算出手段２３２は、入力されたＮグラムパラメータの出現確率について、加算値（手法１）、平均値（手法２）又は最大値（手法３）の何れかを確率値として算出することが好ましい。以下、確率値を算出する６つの具体例を順に説明する。

＜第１例：トライグラムで手法１＞
まず、第１例〜第３例として、連鎖語列ｗ_ｉ，ｗ_ｊの次に連鎖語ｗ_ｋが出現するトライグラムに手法１〜手法３を適用したときの具体例を説明する。
同一の意味の連鎖語毎にクラスタリングした結果、Ｎ個の連鎖語クラス｛Ｃ_１，・・・，Ｃ_Ｎ｝が得られ、あるクラスＣ_ｎにおいて（但し、１≦ｎ≦Ｎ）、Ｋ_ｎ＋１個の同一の意味の連鎖語が存在するとする。この場合、Ｋ_ｎ＋１個の連鎖語のうち、出現確率が最大のものを基本型とし、これ以外を同意型とする（単語も基本型と同意型とを有する）。つまり、Ｋ_ｎ＋１個の連鎖語は、下記の式（２）で表される。

この第１例では、同一の意味を表す連鎖語が、基本型と同意型とに分散して出現すると解釈する。従って、確率値算出手段２３２は、下記の式（３）を用いて、連鎖語の出現確率の加算値を確率値として算出する。
なお、式（３）において、Ｓ_ｎ（κ）は、クラスＣ_ｎにおけるκ番目の連鎖語を示す

＜第２例：トライグラムで手法２＞
この第２例では、基本型と同意型とが均等の確率で出現すると解釈する。従って、確率値算出手段２３２は、下記の式（４）を用いて、連鎖語の出現確率の平均値を確率値として算出する。

＜第３例：トライグラムで手法３＞
この第３例では、確率値算出手段２３２は、手法１および手法２を簡略し、下記の式（５）を用いて、連鎖語の出現確率の最大値を確率値として算出する。つまり、確率値算出手段２３２は、同意型の出現確率を、基本型の出現確率で置き換える。

＜第４例：ユニグラムで手法１＞
続いて、第４例〜第６例として、ユニグラムに手法１〜手法３を適用したときの具体例を説明する。この第４例〜第６例では、同意語とその出現確率とが以下の関係であるとする。また、この第４例〜第６例では、同意語「んです＿けれど」を基本型とし、それ以外の同意語「んです＿けれども」、「んです＿けど」および「んです＿が」を同意型とする。

＜＜第４例〜第６例における同意語とその出現確率＞＞
同意語出現確率
んです＿けれど０．４
んです＿けれども０．３
んです＿けど０．２
んです＿が０．１

この第４例では、確率値算出手段２３２は、第１例と同様、同意語の出現確率を加算した値を確率値とする。つまり、確率値算出手段２３２は、「０．４＋０．３＋０．２＋０．１＝１．０」という計算を行う。従って、各同意語の確率値は、以下のようになる。

＜＜第４例で算出した確率値＞＞
同意語確率値
んです＿けれど１．０
んです＿けれども１．０
んです＿けど１．０
んです＿が１．０

＜第５例：ユニグラムで手法２＞
この第５例では、確率値算出手段２３２は、第２例と同様、同意語の出現確率を平均した値を確率値とする。つまり、確率値算出手段２３２は、「（０．４＋０．３＋０．２＋０．１）／４＝０．２５」という計算を行う。従って、各同意語の確率値は、以下のようになる。

＜＜第５例で算出した確率値＞＞
同意語確率値
んです＿けれど０．２５
んです＿けれども０．２５
んです＿けど０．２５
んです＿が０．２５

＜第６例：ユニグラムで手法３＞
この第６例では、確率値算出手段２３２は、第３例と同様、同意語の中で出現確率の最大値「０．４」を求める。従って、各同意語の確率値は、以下のようになる。

＜＜第６例で算出した確率値＞＞
同意語確率値
んです＿けれど０．４
んです＿けれども０．４
んです＿けど０．４
んです＿が０．４

その後、確率値算出手段２３２は、パラメータ抽出手段２３１から入力されたＮグラムパラメータに含まれる出現確率を、算出した確率値で更新する。そして、確率値算出手段２３２は、確率値で更新されたＮグラムパラメータを履歴処理手段２３３に出力する。

なお、確率値算出手段２３２は、どの手法で確率値しても良く、例えば、どの手法で確率値を算出するか予め設定しても良い。また、確率値算出手段２３２は、連鎖語と同様、単語についても確率値を算出することができる。

履歴処理手段２３３は、確率値算出手段２３２からＮグラムパラメータが入力されると共に、同意型が存在する単語が履歴中に存在する場合、履歴処理を行う。ここで、履歴処理の説明を簡略化するため、同意型のパターン数Ｋ＝１、すなわち、基本型に対して１つの同意型が存在すると仮定する。また、このとき、言語モデルは、バイグラムであるとする。

学習テキスト中の単語ｗ_ｎ-１の次に単語ｗ_ｎが出現する確率は、下記の式（６）で表すことができる。
なお、式（６）において、Ｃ(・)は、学習テキスト中の出現確率を示す。

また、同様に、単語ｗ_ｎ-１の同意語ｗ´_ｎ-１の次に単語ｗ_ｎが出現する確率は、下記の式（７）で表すことができる。

これらより、履歴中の基本型と同意型とを統合して得られる出現確率は、下記の式（８）で表すことができる。
なお、式（８）において、Ｎは、学習テキストの全単語について、ユニグラムでの出現確率の和を表す。

そして、履歴処理手段２３３は、下記の式（９）を用いて、確率値算出手段２３２から入力されたＮグラムパラメータの出現確率を更新する。その後、履歴処理手段２３３は、出現確率を更新したＮグラムパラメータをバックオフ係数処理手段２３４に出力する。

つまり、前記した式（８）および式（９）によれば、学習テキストにおいて、基本型および同意型について、どちらか一方の出現確率がゼロの場合には、出現確率がゼロとなっている一方のＮグラムパラメータを新たに生成する。そして、この新たなＮグラムパラメータにおいて、その出現確率は、出現確率がゼロでない他方の出現確率となる。

ところで、単語Ｎグラムモデルの次数が大きくなると、前記した式（８）が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、以下の手法Ａまたは手法Ｂが考えられる。
なお、履歴処理手段２３３は、単語と同様、連鎖語についても履歴処理を行うことができる。

手法Ａ：出現確率がゼロのＮグラムパラメータだけを新たに生成し、他のＮグラムパラメータに関する計算を省略する。
手法Ｂ：同意型を履歴とするＮグラムパラメータに、基本型を履歴とするＮグラムパラメータの値を代用する。

バックオフ係数処理手段２３４は、履歴処理手段２３３からＮグラムパラメータが入力されると共に、バックオフ係数を更新するバックオフ係数処理を行う。ここで、バックオフ係数処理の説明を簡略化するため、履歴処理と同様、同意型のパターン数Ｋ＝１(基本型ｗに対して同意語ｗ´が存在する）とし、言語モデルがバイグラムであるとする。

バックオフ・スムージングは、学習テキストの出現確率Ｃ（ｗ_ｎ-１ｗ_ｎ）＝０の場合、出現確率Ｐ（ｗ_ｎ｜ｗ_ｎ-１）を出現確率Ｐ（ｗ_ｎ）から推定する手法である。ここで、バックオフ・スムージングの一つであるカッツの手法では、下記の式（１０）および式（１１）を用いる。このとき、学習テキスト中の低頻度語(出現確率がゼロの単語を含む)の出現確率は、グッド・チューリングの推定法を利用して、予め補正しておくことが好ましい（例えば、「確率的言語モデル、東京大学出版会、ｐｐ．６７−６８」参照)。
なお、式（１０）および式（１１）において、バックオフ係数はαである。

ここで、基本型ｗ_ｎ-１と同意型ｗ´_ｎ-１とを統合する場合、バックオフ係数αは、下記の式（１２）で表すことができる(これに式（８）に代入すればさらに展開可能)。

そして、バックオフ係数処理手段２３４は、下記の式（１３）を用いて、履歴処理手段２３３から入力されたＮグラムパラメータのバックオフ係数を更新する。その後、バックオフ係数処理手段２３４は、バックオフ係数を更新したＮグラムパラメータを言語モデル更新手段２３５に出力する。

ところで、単語Ｎグラムモデルの次数が大きくなると、前記した式（１２）が複雑になるため、実用上、近似することが好ましい。この近似手法としては、例えば、履歴処理と同様に、計算の省略（手法Ａ）、または、基本型のＮグラムパラメータの代用（手法Ｂ）が考えられる。
なお、バックオフ係数処理手段２３４は、単語と同様、連鎖語についてもバックオフ係数処理を行うことができる。

言語モデル更新手段２３５は、バックオフ係数処理手段２３４からＮグラムパラメータが入力されると共に、このＮグラムパラメータを用いて、言語モデル記憶部１６に記憶された言語モデルを更新する。つまり、言語モデル更新手段２３５は、言語モデル記憶部１６の言語モデルに含まれる出現確率をこのＮグラムパラメータに含まれる出現確率で更新し、言語モデル記憶部１６の言語モデルに含まれるバックオフ係数をこのＮグラムパラメータに含まれるバックオフ係数で更新する。

ここで、言語モデル更新手段２３５は、図６に示すように、言語モデル削除手段２３６を備える。この言語モデル削除手段２３６は、言語モデル更新手段２３５が言語モデルを更新した後、この言語モデルから同意型のＮグラムパラメータを削除する。このように、言語モデルのデータサイズが縮小されるため、この言語モデルを参照する音声認識装置３は、音声認識の際、そのメモリ容量を節約することができる。

［発音辞書変換部］
以下、図８および図９を参照し、発音辞書変換部２４の詳細を説明する（適宜図１参照）。
発音辞書変換部２４は、同意単語・連鎖語リストを参照して、発音辞書のフォーマット変換を行う。図８に示すように、発音辞書は、左列が連鎖語または単語の表記であり、右列がその連鎖語または単語の発音である。この発音辞書では、発音をローマ字で表しており、“：”はその直前の母音を伸ばして発音することを表している。例えば、この発音辞書には、連鎖語「と＿いう」は、「ｔｏｉｕｓｐ」および「ｔｏｙｏｕ：ｓｐ」という２つの発音が登録されている。

ここで、同意単語・連鎖語リストから、同意語の関係となる単語および連鎖語と、それら同意語のうちの基本型および同意型とを判別できる。例えば、同意単語・連鎖語リストに、基本型「と＿いう」、および、その同意型「って＿いう」が設定されていたとする。この場合、図８の発音辞書には、基本型「と＿いう」の発音が２つ登録されているので、発音辞書変換部２４は、図９の変換後発話辞書に基本型の表記「と＿いう」と、基本型の２つの発音「ｔｏｉｕｓｐ」および「ｔｏｙｏｕ：ｓｐ」をそれぞれ登録する。つまり、図９に示すように、発音辞書変換部２４は、左列および中央列に基本型の表記「と＿いう」と、右列にその１つ目の発音「ｔｏｉｕｓｐ」とを登録する。また、発音辞書変換部２４は、左列および中央列に基本型の表記「と＿いう」と、右列にその１つ目の発音「ｔｏｙｏｕ：ｓｐ」とを登録する（図８，図９の符号α参照）。

また、図８の発音辞書には、同意型「って＿いう」の発音が３つ登録されているので、発音辞書変換部２４は、図９の変換後発話辞書に基本型の表記「と＿いう」と、同意型の表記「って＿いう」と、同意型の発音「Ｑｔｅｉｕｓｐ」、「Ｑｔｅｙｕ：ｓｐ」および「Ｑｔｕ：ｓｐ」をそれぞれ登録する。つまり、図９に示すように、発音辞書変換部２４は、左列に基本型の表記「と＿いう」と、中央列に同意型の表記「って＿いう」と、右列にその同意型の１つ目の発音「Ｑｔｅｉｕｓｐ」とを登録する。また、発音辞書変換部２４は、左列に基本型の表記「と＿いう」と、中央列に同意型の表記「って＿いう」と、右列にその同意型の２つ目の発音「Ｑｔｅｙｕ：ｓｐ」とを登録する。さらに、発音辞書変換部２４は、左列に基本型の表記「と＿いう」と、中央列に同意型の表記「って＿いう」と、右列にその同意型の２つ目の発音「Ｑｔｕ：ｓｐ」とを登録する（図８，図９の符号β参照）。

つまり、発音辞書変換部２４は、図８の発音辞書を、基本型の表記と、同意型の表記と、同意型の発音とを有する変換後発音辞書に変換する。従って、図９の変換後発音辞書は、左列と中央列の表記が異なる場合には、中央列が左列の同意型となる。

［言語モデル生成装置の動作］
＜同意単語・連鎖語選択部＞
以下、図１０を参照して、図２の同意単語・連鎖語選択部２１の動作を説明する（適宜図２参照）。
まず、言語モデル生成装置１は、連鎖語抽出手段２１１によって、学習テキストより連鎖語を抽出する（ステップＳ１）。また、言語モデル生成装置１は、編集距離算出手段２１２によって、抽出した連鎖語の編集距離をＤＰマッチングによって算出する（ステップＳ２）。

また、言語モデル生成装置１は、最小編集距離選択手段２１３によって、編集距離が最小となる連鎖語を同意語候補として選択し、編集距離最小連鎖語関係リストを生成する（ステップＳ３）。そして、言語モデル生成装置１は、同意単語・連鎖語リスト生成手段２１４によって、入力された選択指示に基づいて同意単語・連鎖語リストを生成する（ステップＳ４）。

＜言語モデル変換部＞
以下、図１１を参照して、図６の言語モデル変換部２３の動作を説明する（適宜図６参照）。
まず、言語モデル生成装置１は、言語モデル生成部２２によって、言語モデルを生成する（ステップＳ１１）。また、言語モデル生成装置１は、パラメータ抽出手段２３１によって、同意語のＮグラムパラメータを言語モデルから抽出する（ステップＳ１２）。

また、言語モデル生成装置１は、確率値算出手段２３２によって、出現確率に基づいて確率値を算出する（ステップＳ１３）。そして、言語モデル生成装置１は、履歴処理手段２３３によって、履歴処理を行う（ステップＳ１４）。

また、言語モデル生成装置１は、バックオフ係数処理手段２３４によって、バックオフ係数処理を行う（ステップＳ１５）。そして、言語モデル生成装置１は、言語モデル更新手段２３５によって、確率値およびバックオフ係数を算出したＮグラムパラメータで言語モデルを更新する（ステップＳ１６）。

以上のように、本発明の実施形態に係る言語モデル生成装置１は、言語モデル生成部２２によって、文脈を考慮した単語Ｎグラムモデルを生成するため、大語彙連続音声認識に対応することができる。そして、言語モデル生成装置１は、言語モデル変換部２３によって、学習テキストに同意語が存在することによって分散して、低い値で算出された同意語の出現確率を補正するので、学習テキストが少量の場合でも、認識誤りが少ない音声認識を可能とする言語モデルを生成できる。

なお、言語モデル生成装置１は、表記のゆらぎ（例：「取引する」「取り引きする」）の問題を解消するために、言語モデルを更新した後、予め定めた推奨表記を含むＮグラムパラメータだけを残し、それ以外のＮグラムパラメータを削除することが好ましい。

なお、言語モデル生成装置１は、基本型を示す識別子「基本型」、および、同意型を示す識別子「同意型」を用いる例で説明したが、これに限定されない。例えば、言語モデル生成装置１は、基本型を示す識別子として「ｒｅｆ」、および、同意型を示す識別子として「ｈｙｐ」を用いてもよい。

なお、実施形態では、本発明に係る言語モデル生成装置を独立した装置として説明したが、本発明では、一般的なコンピュータを、前記した各手段として機能させるプログラムによっても実現することができる。このプログラムは、通信回線を介して配布しても良く、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。

［音声認識装置の構成］
図１に戻り、音声認識装置３の構成を説明する。
図１に示すように、音声認識装置３は、音響モデル記憶部３１と、音声分析部３３と、探索部３５とを備える。

音響モデル記憶部３１は、音響モデルを予め記憶するメモリ、ハードディスク等の記憶手段である。この音響モデルは、大量の音声データを学習（機械学習）することによって予め生成した確率モデルである。

音声分析部３３は、入力音声（音声信号）が入力されると共に、入力音声を音声分析して入力音声の特徴ベクトルを算出し、探索部３５に出力する。具体的には、音声分析部３３は、入力音声をハミング窓で切り出して、線形予測分析（ＬＰＧ）やメルケプストラム分析を行って、入力音声の特徴ベクトル（ＭＦＣＣ特徴量）を求める。

探索部３５は、音声分析部３３から入力音声の特徴ベクトルが入力されると共に、この入力音声の特徴ベクトルから、言語モデルと音響モデルと変換後発音辞書とを用いて、音声認識の結果を出力する。具体的には、探索部３５は、入力音声の特徴ベクトルと音響モデルとのマッチングを行って確率値（尤度）を求め、この確率値の対数(ｌｏｇ)をとった値を音響スコアとして算出する。また、探索部３５は、音声認識の実行中、音声認識結果の候補となった単語候補について、言語モデルから出現確率（Ｎグラム確率）を求める。このとき、探索部３５は、基本型のパラメータ（出現確率およびバックオフ係数）を使って正解語探索を行うことが好ましい。そして、探索部３５は、この出現確率の対数をとり、言語重みと呼ばれる第１の定数を乗じ、挿入ペナルティーと呼ばれる第２の定数を加えた値を言語スコアとする。その後、探索部３５は、図９の変換後発音辞書を参照して、言語スコアと音響スコアとが最大になる単語候補の列を音声認識の結果（図１では認識結果）として出力する。

以上のように、本発明の実施形態に係る音声認識装置３は、探索部３５によって、正解語探索中に選ばれた単語候補（基本型）に対応する発音系列を参照できるため、図９の変換後発音辞書を利用して、中央列に記載された同意型の表記を出力することができる。すなわち、音声認識装置３は、基本型に対応する同意型の表記と発音とを出力することができ、音声認識システム１００の利便性を向上させることができる。

以下、実施例として、本発明の効果について説明する。
ここでは、図１の言語モデル生成装置１によって、手法１〜手法３を用いて言語モデルを生成した。そして、各言語モデルを用いて、図１の音声認識装置３によって、報道情報番組（大語彙連続音声認識）を入力音声として、音声認識を行った。また、比較の対象として、従来の手法で生成した言語モデルを用いて、同一の報道情報番組を音声認識し、単語誤り率を求めた。下記の表１に、単語誤り率の結果を示す。

表１に示すように、手法１〜手法３の言語モデルは、比較例１，２の言語モデルより単語誤り率（認識誤り）が低いことがわかる。つまり、言語モデル生成装置１は、従来技術に比べて、認識誤りが少ない音声認識を可能とする言語モデルを生成することができる。

また、図９の変換後発音辞書を利用するために、言語モデル削除手段２３６によって、同意型のＮグラムパラメータを削除した言語モデル（実施例４）と、従来の手法で生成した言語モデルとのデータサイズを比較した。
なお、比較例３の手法は、言語モデルに基本型のＮグラムパラメータが存在して同意型のＮグラムパラメータが存在しない場合、又は、その逆の場合で存在しない方のＮグラムパラメータを追加するものである。

表２に示すように、実施例４の言語モデルは、比較例１，３の言語モデルに比べて、データサイズが小さくなる。つまり、言語モデル生成装置１は、従来技術に比べて言語モデルのデータサイズを縮小することができる。

１言語モデル生成装置
１１学習テキスト記憶部
１２連鎖語リスト記憶部
１３編集距離付与連鎖語関係リスト記憶部
１４編集距離最小連鎖語関係リスト記憶部
１５同意単語・連鎖語リスト記憶部
１６言語モデル記憶部
１７発音辞書記憶部
１８変換後発音辞書記憶部
２１同意単語・連鎖語選択部（同意語選択部）
２１１連鎖語抽出手段
２１２編集距離算出手段
２１３最小編集距離選択手段（連鎖語候補選択手段）
２１４同意単語・連鎖語リスト生成手段
２２言語モデル生成部
２３言語モデル変換部
２３１パラメータ抽出手段
２３２確率値算出手段
２３３履歴処理手段
２３４バックオフ係数処理手段
２３５言語モデル更新手段
２３６言語モデル削除手段
２４発音辞書変換部
３音声認識装置
３１音響モデル記憶部
３３音声分析部
３５探索部
１００音声認識システム

Claims

同一の意味で表記または読みが異なる単語または連鎖語からなる同意語を含む学習テキストを用いて、言語モデルを生成する言語モデル生成装置であって、
前記学習テキストを確率的言語モデルによって学習することで、前記学習テキストに含まれる単語または連鎖語の少なくとも一方の出現確率を示す言語モデルを生成する言語モデル生成部と、
前記学習テキストの１単語あたりのエントロピーを最も削減する順序で、前記学習テキストに予め設定された頻度以上出現する単語対を前記連鎖語として抽出する連鎖語抽出手段と、
前記連鎖語抽出手段が抽出した連鎖語の編集距離をＤＰマッチングによって算出する編集距離算出手段と、
前記編集距離算出手段によって算出された編集距離が最小となる連鎖語を同意語候補として選択する最小編集距離選択手段と、
前記同意語候補から予め選択された連鎖語が含まれる選択指示が入力され、前記選択指示に基づいて、同一の意味を有する前記同意語が予め対応付けられた同意語リストを生成する同意単語・連鎖語リスト生成手段と、
前記同意語リストを参照して、前記言語モデルにおいて前記同一の意味を有する同意語の出現確率に基づいて確率値を算出し、前記言語モデルに含まれる前記同意語の出現確率を前記確率値で更新する言語モデル変換部と、
を備えることを特徴とする言語モデル生成装置。
前記言語モデル変換部は、
前記出現確率が最大となる前記同意語の基本型以外である前記同意語の同意型を、前記言語モデル変換部が更新した後の言語モデルから削除する言語モデル削除手段、
を備えることを特徴とする請求項１に記載の言語モデル生成装置。
少なくとも前記同意語の表記と当該同意語の発音とを予め対応付けた発音辞書を記憶する発音辞書記憶部と、
前記発音辞書を、前記同意語リストを参照して、前記同意語の基本型の表記と、当該基本型に対応する同意語の同意型の表記と、当該同意語の同意型の発音とを少なくとも含む変換後発音辞書に変換する発音辞書変換部と、
をさらに備えることを特徴とする請求項１又は請求項２に記載の言語モデル生成装置。
コンピュータを、請求項１に記載の言語モデル生成装置として機能させるための言語モデル生成プログラム。
請求項３に記載の言語モデル生成装置と、当該言語モデル生成装置が生成した言語モデルを用いて音声認識を行う音声認識装置とを備える音声認識システムであって、
前記音声認識装置は、
音声データを学習することで予め生成した確率モデルである音響モデルを記憶する音響モデル記憶部と、
入力される入力音声を音声分析して当該入力音声の特徴ベクトルを算出する音声分析部と、
前記音声分析部が算出した特徴ベクトルと前記音響モデルとのマッチングにより音響スコアを算出すると共に、前記言語モデルを参照して、音声認識結果の候補となる単語候補の出現確率に第１の定数を乗算した値に第２の定数を加算した言語スコアを算出すると共に、前記言語スコアと前記音響スコアとが最大になる単語候補の列を、前記変換後発音辞書を参照して前記音声認識の結果として出力する探索部と、
を備えることを特徴とする音声認識システム。