JP3782943B2

JP3782943B2 - 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体

Info

Publication number: JP3782943B2
Application number: JP2001044186A
Authority: JP
Inventors: 伸泰伊東; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-02-20
Filing date: 2001-02-20
Publication date: 2006-06-07
Anticipated expiration: 2021-02-20
Also published as: US20020156627A1; JP2002258890A; US6985863B2

Description

【０００１】
【発明の属する技術分野】
本発明は、人の自然な発話を認識して文章化し、冗長語（disfluency）と呼ばれる無意味な単語を自動的に除去してテキスト・データを作成することのできる音声認識装置およびその方法に関する。
【０００２】
【従来の技術】
例えば、「A Maximum Likelihood Approach to Continuous Speech Recognition（L.R. Bahl他，IEEE Trans. Vol. PAMI-5, No. 2, 1983, March）」や「単語を認識単位とした日本語の大語彙連続音認識（西村他、情報処理学会論文誌、第４０巻、第４号、１９９９年４月）」は、音響モデルと言語モデルを用いて音声認識を行う統計的方法を記述している。また、ＩＢＭＶｉａＶｏｉｃｅ９８応用編（インフォ・クリエイツ出版事業部、１９９８年９月３０日発行）の１５ページには、言語モデルとして一般的な手法であるＮ−ｇｒａｍ推定が開示されている。
さらに、応用上重要である自由発話の認識において頻出する「エー」「アノー」といった冗長語についても、これらをＮ−ｇｒａｍモデルの中で取り扱い、認識結果から自動的に除去する手法が「Statistical Language Modeling for Speech Disfluencies（A. Stolcke, E. Shriberg, Proc. of ICASSP96）」に開示されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、これらの手法を用いた場合、副作用として本来認識対象となるべき単語が冗長語であると判断されて、除かれてしまうという現象を避けることは難しい。冗長語の種類や頻度は、話者はもちろん、発話環境（例原稿のあるなし、フォーマルかそうでないか）によっても変化するものであり、平均的なモデルでの予測を難しくしている。
したがって本発明は、ユーザの指定、または話者登録時に得られる情報から、冗長語の除去についてより適しているモデル設定機能を提供することを目的とする。
【０００４】
【課題を解決するための手段】
語彙・言語モデルにおいてコンピュータなど特定分野に特化したもの（トピックと呼ばれる）を汎用の言語モデルと組み合わせて用い、当該分野における認識精度を向上させる手段が広く用いられている。トピックは比較的サイズを小さく作成することができ、そのオン／オフが容易である。そこで本発明では、冗長語除去のための語彙・言語モデルをトピックとして作成することに着目した。
つまり、本発明は、まず「アー」「エート」「ソノー」といった冗長語を通常語同様に単語として登録した辞書と、その発音を追加したＢａｓｅｆｏｒｍＰｏｏｌ（ベースフォーム・プール）を用意する。ただし、冗長語については、後処理で除去する際に通常語と容易に区別できるよう、特別の記号（たとえば不等号）を付加した表記（<アー>、<エート>）としておくことが有効である。一方、冗長語を予測する専用の言語モデルをトピック用に作成する。この冗長語予測用の言語モデルは、冗長語を含むようなＮ−ｇｒａｍおよび自由発話に特有の口語体表現に限って言語モデルの要素とするものであるから、汎用の言語モデルよりはるかに小さなものとすることができる。この言語モデルを汎用の言語モデルと次式（１）で線形補間することにより、冗長語の予測精度を向上させる。
Pr(w1|w2,w3)＝λP1(w1|w2,w3)＋(1−λ)P2(w1|w2,w3)…（１）
ただし、本式（１）はＮ＝３の場合を例示し、０＜λ≦１、P1は汎用言語モデルによる確率を、P2は冗長語トピックの言語モデル（冗長語言語モデル）による確率を示す。
【０００５】
本発明は以上の事項を基礎にするものであって、音声に含まれる音素列を１つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換手段と、前記変換手段により得られた前記単語列それぞれに対応する言語モデルが示す更新用数値に基づいて、前記変換手段により前記単語列に付与された出現確率の更新を行う更新手段と、更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識手段とを備え、前記更新手段は、自由発話特有の表現に特化した第１の言語モデルと、前記第１の言語モデルとは異なる第２の言語モデルとを用いて前記更新用数値を算出し、算出した前記更新用数値に基づいて、前記出現確率の更新を行うことを特徴とする音声認識装置である。
冗長語は、自由発話特有の表現に関する単語組に含まれる。したがって、本発明は、冗長語に限定することなく、自由発話特有の表現を対象とする第１の言語モデルを備える。自由発話特有の表現としては、例えば、「なん」「です」「ね」がある。
【０００６】
本発明の音声認識装置において、前記第１の言語モデルは、自由発話特有の表現に含まれる所定の単語を含む単語列が、前記音素列により本来示される単語列である確からしさを示すものとすることができる。
また本発明の音声認識装置において、前記所定の単語を音声認識の結果に含める場合には、前記変換手段は前記音素列を前記所定の単語を含む単語列に変換し、前記更新手段は、前記第１の言語モデルおよび前記第２の言語モデルに基づいて、前記単語列それぞれの出現確率を更新することができる。
さらに本発明において、前記第１の言語モデルは、冗長語を含む単語組みを要素とすることができる。
また本発明の音声認識装置において、前記第１の言語モデルおよび前記第２の言語モデルをＮ−ｇｒａｍモデルとし、前記更新手段は、前記第１の言語モデルおよび前記第２の言語モデルの加重平均値を前記更新用数値として用いることができる。
本発明は、コンピュータ・システム内に以上の音声認識装置を備えることができる。
【０００７】
本発明はまた、以下の音声認識方法を提供する。すなわち本発明の音声認識方法は、音声に含まれる音素列を１つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換ステップと、前記変換ステップにより得られた前記単語列が自由発話固有の単語を含む場合に、自由発話固有の表現に特化した第１の言語モデルおよび前記第１の言語モデルとは異なる第２の言語モデルを参照することにより、前記単語列それぞれに付された出現確率の更新を行う更新ステップと、更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識ステップと、を備えたことを特徴とする。
【０００８】
本発明の音声認識方法において、前記第１の言語モデルは、自由発話特有の単語を含む単語列の出現確率を、連続するＮ個の単語の組み合わせと対応付けて記述することができる。
また本発明の音声認識方法において、前記自由発話固有の単語の典型例として冗長語がある。
さらに本発明の音声認識方法では、前記更新ステップにおいて、単語列に含まれることのある特定の記号に特化した第３の言語モデルをさらに参照することにより、前記単語列それぞれに付された出現確率の更新を行うこともできる。「ある特定の記号」は、句点、読点のほか？といった記号を包含する。したがって、これらの特定の記号を自動的に挿入することを可能とする。
【０００９】
本発明の音声認識方法は、コンピュータで所定の処理を実行するためのプログラムとしても成立する。すなわち本発明は、音声データを解析して特徴ベクトルに変換する音響処理ステップと、前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、冗長語を単語候補に含めながら、前記音素列を単語列に変換する単語変換ステップと、冗長語を含む単語列の出現する確率を連続するＮ個の単語の組み合わせと対応付けて記述する冗長語言語モデルを参照することにより、前記出現確率を更新する更新ステップと、更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実現させるためのプログラムである。
【００１０】
本発明のプログラムにおいて、前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換することができる。冗長語であることを明示させるため、あるいは冗長語を自動削除する際の目印とするためである。
また本発明のプログラムにおいて、前記認識ステップは、出現確率が最も高い前記単語列をテキスト・データとして出力する。テキスト・データとして出力する際に、出現確率が最も高い前記単語列から前記記号が付された前記単語を除外したテキスト・データとすることもできる。冗長語を自動的に削除してテキスト・データを表示する際に有効である。
本発明のプログラムにおいて、前記更新ステップは、前記冗長語言語モデルの他に汎用的な言語モデルをも参照することにより前記出現確率を更新することが実用上は必要になってくる。
さらに本発明のプログラムでは、前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、前記更新ステップは、句読点挿入に限定した句読点言語モデルをさらに参照することにより前記出現確率を更新することもできる。句読点を自動的に挿入する際に有効となる。
【００１１】
本発明の音声認識方法は、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。すなわち本発明の記録媒体は、音声データを解析して特徴ベクトルに変換する音響処理ステップと、前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、冗長語を認識結果に反映させる場合には冗長語を単語候補に含めながら前記音素列を単語列に変換し、冗長語を認識結果に反映させない場合には冗長語を単語候補に含めずに前記音素列を単語列に変換する単語変換ステップと、冗長語を認識結果に反映させる場合には冗長語を含む単語列の出現する確率を連続するＮ個の単語の組み合わせと対応付けて記述する冗長語言語モデルおよび汎用的な言語モデルを参照し、冗長語を認識結果に反映させない場合には汎用的な言語モデルを参照することにより、前記出現確率を更新する更新ステップと、更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実行させる。
【００１２】
本発明の記録媒体において、前述した本発明のプログラムと同様に、単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換することができる。
また、本発明の記録媒体において、前記冗長語言語モデルおよび前記汎用的な言語モデルはＮ−ｇｒａｍモデルであり、前記更新ステップは、前記冗長語言語モデルおよび前記汎用的な言語モデルの加重平均値を用いて前記出現確率を更新することができる。
さらに、本発明の記録媒体において、音声認識結果に句読点を自動的に挿入させる場合に、前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、前記更新ステップは、句読点挿入に限定した句読点言語モデルをさらに参照することにより前記出現確率を更新することが有効である。
【００１３】
【発明の実施の形態】
以下本発明を実施の形態に基づき説明する。
＜第１の実施形態＞
図１は第１の実施形態による音声認識装置１の構成を示す。
図１に示すように、音声認識装置は１、マイクロプロセッサ、メモリおよびこれらの周辺回路などから構成されるＣＰＵ１０、マウス、キーボード、およびマイクロフォンなどの音声入力装置１２０を含む入力装置１２、ＣＲＴディスプレイなどの表示装置１４、ＨＤＤ（Hard Disk Drive）、ＤＶＤ（Digital Versatile Disc）装置、ＣＤ（Compact Disk）装置などの記憶装置１６から構成される。
つまり、音声認識装置１は、通常のコンピュータに音声入力装置１２０を付加したハードウェア構成を採り、ＤＶＤ、ＣＤ−ＲＯＭあるいはＣＤ−Ｒ等の記憶媒体１８に記憶された形態で供給される音声認識プログラム２ａを実行する。つまり、音声認識装置１は、音声入力装置１２０から入力され、デジタル形式に変換された音声（音声データ）を認識して、冗長語を自動的に除去したテキスト・データを生成し、記憶装置１６に挿入された記憶媒体１８に記憶し、あるいは表示装置１４にテキスト・データを表示する。
【００１４】
図２は音声認識プログラム２ａの構成を示す図である。
図２に示すように、音声認識プログラム２ａは、音響処理部２０、言語復号部２２、音響モデル３０、言語モデル３２ａ、ベースフォーム・プール３４ａおよび言語モデル３２ａについてのＯＮ／ＯＦＦ制御部３６から構成される。言語モデル３２ａは、汎用言語モデル３２０と冗長語言語モデル（トピック）３２２とを含んでいる。
【００１５】
音響処理部２０は、音声入力装置１２０から入力された音声データに対してフーリエ変換などの周波数分析処理および特徴抽出処理を行い、特徴ベクトルに変換し、言語復号部２２に対して出力する。
音響モデル３０は、音素毎に特徴ベクトルの出現確率（音素列により本来示される単語列である可能性が高ければ高いほど高い数値を示す）をＨＭＭ（Hidden Markov Model）等により記述した音響モデルデータを言語復号部２２に対して出力する。
【００１６】
ベースフォーム・プール３４ａは、言語モデル３２ａの汎用言語モデル３２０に対応する汎用部分と、冗長語言語モデル３２２に対応する冗長語発音（例「エー」「アー」）部分とを有する。また、ベースフォーム・プール３４ａは、各単語の発音を音響モデル３０に対応付けられた発音記号で記述する。
【００１７】
言語モデル３２ａにおいて、汎用言語モデル３２０は、音声認識に必要な一般的な単語・単語列の出現確率を、連続するＮ個（例えば、Ｎ＝３）の単語の組み合わせとし、出現確率と対応付けて表形式で記述する。なお、この汎用言語モデル３２０のサイズは、通常、６０ＭＢ程度になる。ここで、Ｎ＝３個の場合の単語組み合わせの出現確率は、連続する２個の単語列の後にある１個の単語が出現する確率として定義され、汎用言語モデル３２０においては、冗長語は認識対象単語とみなされない。
【００１８】
冗長語言語モデル３２２には、本モデル学習のため自由発話を書き起こしたテキストを走査することにより作成され、冗長語を含む単語組（Ｎ＝３の例では「これ」「が」「<エー>」）や自由発話特有の口語的表現に関する単語組（例「なん」「です」「ね」）が含まれる。冗長語も自由発話特有の表現の１つである。後者は冗長語検出と直接関連するわけではないが、汎用言語モデル３２０の多くが新聞などの「書き言葉」から学習されたものであるため、自由発話の認識精度を全体としてより向上させる効果をもつ。
【００１９】
図３は、図２に示した音声認識プログラム２ａ（言語復号部２２）の動作を示す図である。図３（ａ）は冗長語言語モデル３２２が用いずに汎用言語モデル３２０のみを用いて音声認識が行われる（トピック・オフの）場合を示し、（ｂ）は汎用言語モデル３２０および冗長語言語モデル３２２を用いて音声認識が行われる（トピック・オンの）場合を示す。
言語復号部２２は、音響処理部２０から入力された特徴ベクトルを、音響モデル３０、ベースフォーム・プール３４ａおよび言語モデル３２ａにより計算される確率が最大になる単語列（下記式（２）のＷ'）をテキスト・データとして、表示装置１４または記憶装置１６に対して出力し、これらに表示あるいは記憶する。
【００２０】
言語復号部２２は、図３（ａ）、（ｂ）に例示するように、冗長語言語モデル３２２が用いられるか否かに応じて、図４〜図６を参照して後述するように、冗長語の検出と削除を自動的に行う。
ＯＮ／ＯＦＦ制御部３６は冗長語言語モデル３２２のＯＮ／ＯＦＦを制御し、冗長語言語モデル３２２の使用を決定する。この制御方式にはさまざまなものが考えられるが、もっとも簡単なものはユーザからの指示に応じて冗長語言語モデル３２２のＯＮ／ＯＦＦを決定するものである。一方、より自動的に制御するには、ユーザの音声データの一部を冗長語言語モデル３２２がＯＮの場合と、ＯＦＦの場合について２度言語復号を行い、その結果得られるスコア（ゆう度）を比較することによって、いずれがより適しているかを判断し、ＯＮ／ＯＦＦを制御すればよい。この判断は使用するたびに行うことも可能であるが、言語復号を２度行うことはそれだけＣＰＵ１０の演算時間を必要とするので、通常エンロールと呼ばれるユーザ登録時に行うことが望ましい。
また、下式（２）において、P(S|W)は、音響モデル３０およびベースフォーム・プール３４ａにより与えられ、P(W)は言語モデル３２ａにより与えられる。このP(W)は、上記式（１）により、汎用言語モデル３２０と冗長語言語モデル３２２とがλの値に応じて加重平均され、求められる。λの値を変更することで、冗長語言語モデル３２２を単にＯＮ／ＯＦＦするのみならず、汎用言語モデル３２０および冗長語言語モデル３２２のいずれのモデルをどの程度重視するかの制御が可能となる。一般にはシステム設計者が、事前の実験により、最適と考えられる値に設定するが、これについてもエンロール時の試験的な言語復号により、調整することが可能である。
【００２１】
W'＝argmax_W P(W|S)＝argmax_W P(S|W)P(W) …（２）
ただし、Sは特徴ベクトル（s₁，s₂，．．．，s_k）、Wは単語列（w₁，w₂，．．．，w_l）、W'は単語列（w'₁，w'₂，．．．，w'_l）である。
【００２２】
以下、図４〜図６をさらに参照し、Ｎ−ｇｒａｍとして３−ｇｒａｍを用いる場合を具体例として、言語復号部２２の動作を詳細に説明する。
図４は、図２に示した音声認識プログラム２ａ（言語復号部２２）の音声認識処理を示すフローチャートである。
図５は、図２に示した汎用言語モデル３２０のみを用いるため、冗長語の自動削除を行わない（トピック・オフ）場合の音声認識プログラム２ａ（言語復号部２２）の動作を示す図である。
図６は、図２に示した汎用言語モデル３２０および冗長語言語モデル３２２を用いて冗長語の自動削除を行う（トピック・オン）場合の音声認識プログラム２ａ（言語復号部２２）の動作を示す図である。
【００２３】
図４に示すように、ステップ１００（図中Ｓ１００、以下同様）において、音響処理部２０が、入力音声としての「これがえほん」を特徴ベクトルに変換し、言語復号部２２に対して出力する。
ステップ１０２（Ｓ１０２）において、図５および図６に示すように、言語復号部２２は、入力された特徴ベクトル（s₁，s₂，．．．，s_k）を音響モデル３０に対して出力する。
音響モデル３０は、特徴ベクトルに対応する可能性がある音素列（/koegaehon/、/koregaehon/）に出現確率を付した音響データを作成し、言語復号部２２に返す。
【００２４】
ステップ１０４（Ｓ１０４）において、言語復号部２２は、ユーザが指定するか、またはエンロール時の試験復号により冗長語自動削除機能が設定されているか否か、つまり冗長語言語モデル３２２（トピック）がオンになっているか否かを判断し、自動削除が行われない設定になっている（トピックがオフになっている）場合にはλを１に設定してステップ１１０（Ｓ１１０）の処理に進み、そうでない場合は０〜１のあらかじめ決められた値に設定し、ステップ１２０（Ｓ１２０）の処理に進む。
【００２５】
冗長語の自動削除を行わない場合、ステップ１１０（Ｓ１１０）において、図５に示すように、言語復号部２２は、ベースフォーム・プール３４ａの汎用部分（汎用ベースフォーム・プール）のみを参照して、冗長語を候補に含めずに、順次音素列（/koegaehon/,/koregaehon/等）を単語列（声/が/絵本、これ/が/絵本等）に変換し、候補とする。すなわち/ehon/の部分はベースフォーム/ehon/に該当する通常単語、もしくは通常単語の組み合わせに変換されることになる。ただし、この段階での変換は音響モデル３０から得られる確率のみを用いて行われる。
ステップ１１２（Ｓ１１２）において、図５に示すように、言語復号部２２は、汎用言語モデル３２０のみを参照して、ステップ１１０（Ｓ１１０）の処理において得た候補単語列の出現確率を更新する。図５の例においては、この処理の結果として、単語列「これ/が/絵本」の確率が０．０２、単語列「声/が/絵本」の確率が０．０１となる。
【００２６】
冗長語の自動削除を行う場合、ステップ１２０（Ｓ１２０）において、図６に示すように、言語復号部２２は、ベースフォーム・プール３４ａの汎用ベースフォーム・プールおよび冗長語の音に対応するよう記述された冗長語部分（冗長語ベースフォーム・プール）の両方を参照して、順次冗長語を単語候補に含めながら、音素列（/koegaehon/,/koregaehon/等）を単語列（声/が/絵本、声/が/<エ>/本、これ/が/<エ>/本等）に変換する。なお、＜エ＞というように、エに＜＞を付しているのは、それが冗長語であることを明示するためである。また、この＜＞を付した単語を自動的に削除したテキスト・データを表示させる場合に有効である。
【００２７】
ステップ１２２（Ｓ１２２）において、図６に示すように、言語復号部２２は、汎用言語モデル３２０および冗長語言語モデル３２２を、λ≠１とした前記式（１）にしたがって重み付けして参照し、Ｓ１１０の処理において得た候補単語列の出現確率を更新する。図６の例においては、この処理の結果として、単語列「これ/が/<エ>/本」の確率が０．０２、その他の単語列の確率が０．０１となる。
【００２８】
ステップ１２４（Ｓ１２４）において、図５，６に示すように、言語復号部２２は、Ｓ１１２またはＳ１２２の処理において計算・更新された確率が最も大きい単語列を、音声認識結果を示すテキスト・データとして出力する。たとえば図６の例では「これ/が/<エ>/本」が選択されることになる。なお、図６では<エ>を表示しているが、実際には<エ>を削除した状態でテキスト・データを表示させることもできる。以下の例でも同様であり、見かけ上＜エ＞を表示しているが、実際には表示されていない場合を包含する意味である。
【００２９】
冗長語言語モデル３２２を用いない場合と用いる場合に分けて、話者が、例えば、音声認識装置１の音声入力装置１２０（図１）から、「コレガ」「エ」「ホン」という音声を入力した場合の動作を説明する。
冗長語言語モデル３２２を用いない場合、音響処理部２０は、この音声を示す音声データを処理し、この音声の音を記述する特徴ベクトルを言語復号部２２に対して出力する。言語復号部２２は、図４および図５に示したように、音響モデル３０と汎用言語モデル３２０のみを用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と同言語モデル３２ａから得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「エ」「ホン」を「絵本」と識別する。すなわち「エ」という音に対しては、通常語の組み合わせの中から、音響モデル３０および言語モデル３２ａを参照して得られる確率が最大になるものを選択し、この場合「これ/が/絵本」というテキスト・データを識別結果として出力する。
【００３０】
冗長語言語モデル３２２を用いる場合、冗長語言語モデル３２２を用いない場合と同じく、当該音声データを処理し、この音声の音を記述する特徴ベクトルを言語復号部２２に対して出力する。言語復号部２２は、図４および図６に示したように、音響モデル３０、汎用言語モデル３２０、および冗長語言語モデル３２２を用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と同言語モデル３２ａから得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「エ」「ホン」を「<エ>」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル３２ａから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。そして図３に示すような状況においては、「これ/が/絵本/発明」と「これ/が/<エ>/本/発明」という２つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。
【００３１】
冗長語言語モデル３２２は、冗長語にそれを示す記号を割り当てた発音辞書などから構成され、上述した冗長語自動削除用のタスクに比べて、非常に小さいサイズ（例えば、２ＭＢ程度）で済む。
また、本実施の形態による冗長語自動削除方法では、トピックとしての冗長語言語モデル３２２を追加すれば足りるので、従来からの汎用のシステムをほとんど変更することなく、冗長語自動削除機能を追加することができる。
しかもユーザは、この冗長語自動削除用の冗長語言語モデル３２２を選択するか否かによって、容易に冗長語自動削除機能をオン・オフすることができ、かつ、このオン・オフにはプログラムの再起動が不要である。
さらに、冗長語言語モデル３２２を、例えば、「コンピュータ」、「サッカー」、「野球」といった、他の分野に特化されたトピックと組み合わせて使用することも可能である。例えば、句読点等の記号を挿入するためのトピックを併設することが有効である。以下、冗長語削除用トピックと句読点挿入用トピックとを併設した例を第２の実施形態として説明する。
【００３２】
＜第２の実施形態＞
第２の実施形態による音声認識装置の基本的な構成は、図１に示した第１の実施形態による音声認識装置１と一致する。したがって、ここでの説明は省略する。
図７は第２の実施形態による音声認識プログラム２ｂの構成を示す図である。音声認識プログラム２ｂの基本的な機能は、第１の実施形態による音声認識プログラム２ａと一致している。したがって、一致する部分については、図７に第１の実施形態による音声認識プログラム２ａと同一の符号を付している。
音声認識プログラム２ｂは、言語モデル３２ｂが、汎用言語モデル３２０および冗長語言語モデル３２２の他に、さらに句読点言語モデル３２３を備えている点で相違する。また、ベースフォーム・プール３４ｂは、句読点言語モデル３２３に対応し、音響モデルデータ中の空白部分（ポーズ部分；句読点「。、」に対応する部分）を検出する句読点部分とを有する点でも相違する。なお、図７において省略しているベースフォーム・プール３４ｂの内容は後述する。
【００３３】
また、言語復号部２２において、句読点自動挿入を行う場合には音声のポーズ部分を単語とみなして処理を行い、句読点自動挿入を行わない場合には音声のポーズ部分を単語としてみなさずに処理を行う。
【００３４】
言語モデル３２ｂにおいて、汎用言語モデル３２０および冗長語言語モデル３２２の機能は第１の実施形態と同様であるので、ここでは、句読点言語モデル３２３についてのみ説明する。
句読点言語モデル３２３は、句読点挿入のために特化したトピックであって、句読点挿入に必要な特定の単語・単語列の出現確率を、連続する３個の単語の組み合わせとし、出現確率と対応付けて表形式に記述する。
句読点言語モデル３２３は、汎用言語モデル３２０を、句読点を単語とみなすようにして、ベースフォーム・プール３４ｂによりポーズと判断された部分に句読点を自動的に挿入するために特化させ、データ量を少なくしたものであると考えることができる。
【００３５】
句読点言語モデル３２３には、句読点クラスとの相互情報量に基づいて選択された単語、例えば、以下に例示するような句点・読点の直前に位置する単語が含まれる。なお、以下の例示は、上位２０語を列挙するものであり、また、Ｈｍは句読点クラスとの相互情報量の値を示す。
なお、句読点言語モデル３２３は、内容を句読点挿入に必要な情報に限定するので、一般に、データ量を汎用言語モデル３２０の１／１００〜１／１０００程度とすることができる。
【００３６】

【００３７】
図８は、図７に示した音声認識プログラム２ｂ（言語復号部２２）の動作を示す図である。図８（ａ）は汎用言語モデル３２０のみを用いて音声認識が行われる場合を示し、（ｂ）は汎用言語モデル３２０および句読点言語モデル３２３を用いて音声認識が行われる場合を、（ｃ）は汎用言語モデル３２０および冗長語言語モデル３２２を用いて音声認識が行われる場合を、さらに（ｄ）は汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３を用いて音声認識が行われる場合を示す。
【００３８】
言語復号部２２は、音響処理部２０から入力された特徴ベクトルを、音響モデル３０、ベースフォーム・プール３４ｂおよび言語モデル３２ｂにより計算される確率が最大になる単語列（上記式（２）のＷ'）をテキスト・データとして、表示装置１４または記憶装置１６に対して出力し、これらに表示あるいは記憶する。
また、言語復号部２２は、図８（ａ）〜（ｄ）に例示するように、冗長語言語モデル３２２、句読点言語モデル３２３が用いられるか否かに応じて、図９〜図１３を参照して後述するように、冗長語の検出と削除、句読点の挿入を自動的に行う。
上記式（２）において、P(S|W)は、音響モデル３０およびベースフォーム・プール３４ｂによって与えられ、P(W)は言語モデル３２ｂによって与えられる。このP(W)は、上記式（１）により、汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３とがλの値に応じて加重平均され、求められる。λの値を変更することで、冗長語言語モデル３２２、句読点言語モデル３２３を単にＯＮ／ＯＦＦするのみならず、汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３のいずれのモデルをどの程度重視するかの制御が可能となる。一般にはシステム設計者が、事前の実験により、最適と考えられる値に設定するが、これについてもエンロール時の試験的な言語復号により、調整することが可能である。
【００３９】
以下、図９〜図１３を参照してＮ−ｇｒａｍとして３−ｇｒａｍを用いる場合を具体例として、言語復号部２２の動作を詳細に説明する。
図９は、図７に示した音声認識プログラム２ｂ（言語復号部２２）の処理を示すフローチャートである。
図１０は、図７に示した汎用言語モデル３２０のみを用いるため、冗長語の自動削除および句読点の自動挿入を行わない（２つのトピック・オフ）の場合の音声認識プログラム２ｂ（言語復号部２２）の動作を示す図である。
図１１は、図７に示した汎用言語モデル３２０と句読点言語モデル３２３を用いて句読点の自動挿入を行う（句読点トピック・オン）場合の音声認識プログラム２ｂ（言語復号部２２）の動作を示す図である。
図１２は、図７に示した汎用言語モデル３２０と冗長語言語モデル３２２を用いて冗長語の自動削除を行う（冗長語トピック・オン）場合の音声認識プログラム２ｂ（言語復号部２２）の動作を示す図である。
図１３は、図７に示した汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３を用いて、冗長語の自動削除（冗長語トピック・オン）および句読点の自動挿入（句読点トピック・オン）を行う場合の音声認識プログラム２ｂ（言語復号部２２）の動作を示す図である。
【００４０】
図９に示すように、ステップ２００（図中Ｓ２００、以下同様）において、音響処理部２０が、入力音声としての「これがえほん」を特徴ベクトルに変換し、言語復号部２２に対して出力する。
ステップ２０２（Ｓ２０２）において、図１０〜図１３に示すように、言語復号部２２は、入力された特徴ベクトル（s₁，s₂，．．．，s_k）を音響モデル３０に対して出力する。
音響モデル３０は、特徴ベクトルに対応する可能性がある音素列（/koegaehon/、/koregaehon/）に出現確率を付した音響データを作成し、言語復号部２２に返す。
【００４１】
ステップ２０４（Ｓ２０４）において、言語復号部２２は、ユーザが指定するか、またはエンロール時の試験復号により冗長語自動削除機能が設定されているか否か、つまり冗長語言語モデル３２２（冗長語トピック）がオンになっているか否かを判断し、自動削除が行われない設定になっている（冗長語トピックがオフになっている）場合には、λを１に設定してステップ２０８（Ｓ２０８）の判断に進み、そうでない場合は、０〜１λのあらかじめ決められた値に設定し、ステップ２０６（Ｓ２０６）の判断に進む。
ステップ２０６（Ｓ２０６）において、言語復号部２２は、ユーザが指定するか、またはエンロール時の試験復号により句読点自動挿入機能が設定されているか否か、つまり句読点言語モデル３２３（句読点トピック）がオンになっているか否かを判断し、自動挿入が行われない設定になっている（句読点トピックがオフになっている）場合には、λを１に設定してステップ２２０（Ｓ２２０）の処理に進み、そうでない場合は、０〜１λのあらかじめ決められた値に設定し、ステップ２１０（Ｓ２１０）の処理に進む。ステップ２１０は冗長語トピックおよび句読点トピックの両者がオンの場合の処理であり、ステップ２２０は冗長語トピックがオンの場合の処理である。
【００４２】
ステップ２０８（Ｓ２０８）において、言語復号部２２は、ステップ２０６（Ｓ２０６）と同様に、句読点言語モデル３２３（句読点トピック）がオンになっているか否かを判断し、自動挿入が行われない設定になっている（句読点トピックがオフになっている）場合には、λを１に設定してステップ２４０（Ｓ２４０）の処理に進み、そうでない場合は、０〜１λのあらかじめ決められた値に設定し、ステップ２３０（Ｓ２３０）の処理に進む。ステップ２３０は句読点トピックがオンの場合の処理であり、ステップ２４０は冗長語トピックおよび句読点トピックの両者がオフの場合の処理である。
【００４３】
ステップ２４０（Ｓ２４０）において、図１０に示すように、言語復号部２２は、ベースフォーム・プール３４ｂの汎用部分（汎用ベースフォーム・プール）のみを参照して、冗長語およびポーズを単語候補に含めずに、順次、音素列（/koegatenehon/,/koregatenehon/等）を単語列（声/が/、/絵本，これ/が/、/絵本等）に変換し、候補とする。すなわち/ehon/の部分はベースフォーム/ehon/に該当する通常単語、もしくは通常単語の組み合わせに変換されることになる。ただし、この段階での変換は音響モデル３０から得られる確率によってのみ行われる。
ステップ２４２（Ｓ２４２）において、図１０に示すように、言語復号部２２は、汎用言語モデル３２０のみを参照して、ステップ２２０（Ｓ２２０）の処理において得た候補単語列の出現確率を更新する。図１０の例においては、この処理の結果として、単語列「これ/が/、/絵本」の確率が０．０２、単語列「声/が/、/絵本」の確率が０．０１となる。
【００４４】
ステップ２３０（Ｓ２３０）において、図１１に示すように、言語復号部２２は、ベースフォーム・プール３４ｂの汎用ベースフォーム・プールおよびポーズを検出する句読点部分（句読点トピック）の両方を参照して、順次、ポーズを単語に含めて、音素列（/koegaehon/,/koregaehon/等）を単語列（/声/が/絵本/，/これ/が/え/本/，/声/が/、/絵本/，/これ/が/、/え/本/ 等）に変換する。
ステップ２３２（Ｓ２３２）において、図１１に示すように、言語復号部２２は、汎用言語モデル３２０および句読点言語モデル３２３を、λ≠１とした前記式（１）にしたがって重み付けして参照し、Ｓ２３０の処理において得た候補単語列の出現確率を更新する。図１１の例においては、この処理の結果として、単語列「/これ/が/、/え/本/」の確率が０．０２、その他の単語列の確率が０．０１となる。
【００４５】
ステップ２２０（Ｓ２２０）において、図１２に示すように、言語復号部２２は、ベースフォーム・プール３４ｂの汎用ベースフォーム・プールおよび冗長語の音に対応するよう記述された冗長語部分（冗長語トピック）の両方を参照して、順次、冗長語を単語候補に含めながら、音素列（/koegatenehon/,/koregatenehon/等）を単語列（声/が/、/絵本，これ/が/、/絵本，これ/が/、/<エ>/本等）に変換する。トピック・オフの場合と同様この段階での変換は音響モデル３０から得られる確率によってのみ行われる。
ステップ２２２（Ｓ２２２）において、図１２に示すように、言語復号部２２は、汎用言語モデル３２０および冗長語言語モデル３２２を、λ≠１とした前記式（１）にしたがって重み付けして参照し、Ｓ２２０の処理において得た候補単語列の出現確率を更新する。図１２の例においては、この処理の結果として、単語列「これ/が/、/<エ>/本」の確率が０．０２、その他の単語列の確率が０．０１となる。
【００４６】
ステップ２１０（Ｓ２１０）において、図１３に示すように、言語復号部２２は、ベースフォーム・プール３４ｂの汎用ベースフォーム・プール、冗長語部分（冗長語トピック）、および句読点部分（句読点トピック）の両方を参照して、順次、冗長語およびポーズを単語候補に含めながら、音素列（/koegaehon/,/koregaehon/等）を単語列（声/が/絵本，声/が/<エ>/本，これ/が/、/<エ>/本等）に変換する。
ステップ２１２（Ｓ２１２）において、図１３に示すように、言語復号部２２は、汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３を、λ≠１とした前記式（１）にしたがって重み付けして参照し、Ｓ２１０の処理において得た候補単語列の出現確率を更新する。図１３の例においては、この処理の結果として、単語列「これ/が/、/<エ>/本」の確率が０．０２、その他の単語列の確率が０．０１となる。
【００４７】
ステップ２２４（Ｓ２２４）において、図１０〜図１３に示すように、言語復号部２２は、順次、Ｓ２１２，Ｓ２２２，Ｓ２３２およびＳ２４２の処理において更新された出現確率が最も高い単語列を、音声認識結果を示すテキスト・データとして出力する。
【００４８】
以下、第２の実施形態による音声認識装置１（図１，図７）の動作を図８に基づき説明する。
図８（ａ）に示すように、冗長語言語モデル３２２および句読点言語モデル３２３を用いない場合（λ＝１）には、話者が、例えば、音声認識装置１の音声入力装置１２０（図１）から、「コレガ」・「ｐａｕｓｅ（無音を示す。以下、同じ）」・「テン」・「エ」・「ホンハツメイノ」・「ｐａｕｓｅ」・「ヨウテン」という音声を入力すると、音響処理部２０は、この音声を示す特徴ベクトルを言語復号部２２に対して出力する。
【００４９】
言語復号部２２（図２）は、図７および図１０に示したように、音響モデル３０と汎用言語モデル３２０のみを用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と汎用言語モデル３２０から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「ｐａｕｓｅ」に続く「テン」を読点「、」と識別する。つづいて、「エ」「ホン」を「絵本」と識別し、「ハツメイノ」を「発明の」と識別する。さらに、言語復号部２２は、「ホンハツメイノ」のあとの「ｐａｕｓｅ」には「テン」、「マル」が続いていないので、その後の「ヨウテン」を「要点」と識別して、「これが、絵本発明の要点」というテキスト・データを識別結果として出力する。
【００５０】
図８（ｂ）に示すように、冗長語言語モデル３２２を用いない場合（λ＝１）には、話者が、例えば、音声認識装置１の音声入力装置１２０（図１）から、「コレガ」・「ｐａｕｓｅ」・「エ」・「ホンハツメイノ」・「ｐａｕｓｅ」・「ヨウテン」という音声を入力すると、音響処理部２０は、この音声を示す音素で示す特徴ベクトルを言語復号部２２に対して出力する。
【００５１】
言語復号部２２（図２）は、図７および図１１に示したように、音響モデル３０、汎用言語モデル３２０、および句読点言語モデル３２３を用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と汎用言語モデル３２０および句読点言語モデル３２３から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「ガ」に続く「ｐａｕｓｅ」を読点「、」と識別する。つづいて、「エ」「ホン」を「絵本」と識別し、「ハツメイノ」を「発明の」と識別する。さらに、「ハツメイノ」には、「ｐａｕｓｅ」が続くが、「ノ」の後ろには通常、句読点は続かないので、言語復号部２２は、この「ｐａｕｓｅ」の部分には句読点を挿入せず、その後の「ヨウテン」を「要点」と識別して、「これが、絵本発明の要点」というテキスト・データを識別結果として出力する。
【００５２】
図８（ｃ）に示したように、句読点言語モデル３２３を用いない場合（λ＝１）には、話者が、例えば、音声認識装置１の音声入力装置１２０（図１）から、「コレガ」・「ｐａｕｓｅ」・「テン」・「エ」・「ホンハツメイノ」・「ｐａｕｓｅ」・「ヨウテン」という音声を入力すると、音響処理部２０は、この音声を示す特徴ベクトルを言語復号部２２に対して出力する。
【００５３】
言語復号部２２（図２）は、図７および図１２に示したように、汎用言語モデル３２０および冗長語言語モデル３２２を用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と汎用言語モデル３２０および冗長語言語モデル３２２から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「ｐａｕｓｅ」に続く「テン」を読点「、」と識別する。つづいて、「エ」「ホン」を「＜エ＞」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル３２ｂから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。さらに、言語復号部２２は、「ホンハツメイノ」のあとの「ｐａｕｓｅ」には「テン」、「マル」が続いていないので、その後の「ヨウテン」を「要点」と識別して、「これが、＜エ＞本発明の要点」というテキスト・データを識別結果として出力する。そして図８（ｃ）に示すような状況においては、「これ/が/、/絵本/発明」と「これ/が/、/<エ>/本/発明」という２つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。
【００５４】
図８（ｄ）に示したように、冗長語言語モデル３２２および句読点言語モデル３２３を用いる場合（λ≠1）、話者が、例えば、上述した場合とは異なり、「テン」という音声を省き、音声認識装置１の音声入力装置１２０（図１）から、「コレガ」・「ｐａｕｓｅ」・「エ」・「ホンハツメイノ」・「ｐａｕｓｅ」・「ヨウテン」という音声を入力すると、音響処理部２０は、この音声を示す音素で示す特徴ベクトルを言語復号部２２に対して出力する。
【００５５】
言語復号部２２（図２）は、図７および図１２に示したように、音響モデル３０、汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３を用いて音響処理部２０から入力された特徴ベクトルを処理し、音響モデル３０から得られた確率と汎用言語モデル３２０、冗長語言語モデル３２２および句読点言語モデル３２３から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「これが」の「ガ」に続く「ｐａｕｓｅ」を読点「、」と識別する。つづいて、「エ」「ホン」を「＜エ＞」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル３２ｂから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。そして図８（ｄ）に示すような状況においては、「これ/が/、/絵本/発明」と「これ/が/、/<エ>/本/発明」という２つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。さらに、「ハツメイノ」には、「ｐａｕｓｅ」が続くが、「ノ」の後ろには通常、句読点は続かないので、言語復号部２２は、この「ｐａｕｓｅ」の部分には句読点を挿入せず、句読点言語モデル３２３を用いない場合と同様に、入力された音声を「これが、＜エ＞本発明の要点」と正確に識別し、認識結果のテキスト・データとして出力する。
【００５６】
以上の第２の実施形態によれば、第１の実施形態による効果に加えて以下の効果を奏する。すなわち、句読点自動挿入のために、従来からの汎用システムにほとんど変更を加えることなく、句読点自動挿入機能を追加することができる。しかも、ユーザは、この句読点自動挿入用トピックを選択するか否かによって、プログラムの再起動を伴うことなく、句読点自動挿入機能をオン・オフすることができる。
また、文章の内容によって、句読点の挿入頻度を変更したいことがあるが、本実施の形態による句読点挿入方法においては、句読点の出現頻度を、汎用言語モデル３２０との線形補間時の重みの調整によって容易に制御することができる。
【００５７】
以上、２つの実施形態に基づいて本発明を説明してきた。２つの実施形態はいずれも日本語を例にしたものである。冗長語は日本語に限らず英語その他の外国語に適用することもできる。そこで、英語において冗長語が音声認識結果に影響を与える例を示しておく。例文は、She devised remedial measures．である。日本語に翻訳すると、「彼女は善後策を考え出した」となる。ところが、話者が"She"と"devised"との間に＜uh＞という冗長語を発したとする。すると、＜uh＞"devised"を"advised"と誤認識するおそれがある。そのような英文について、本実施の形態を適用することにより、冗長語言語モデル３２２がオフの場合にはShe advised remedial measures．と認識し、冗長語言語モデル３２２がオンの場合にはShe devised remedial measures．と認識することができる。
【００５８】
【発明の効果】
以上説明したように、本発明によれば、汎用的な言語モデルに加えて、冗長語、さらには句読点に特化した語彙・言語モデルを用いることにより、文章中の適切な位置から冗長語等を削除することができ、さらには句読点等の記号を挿入することができる。
【図面の簡単な説明】
【図１】第１の実施形態による音声認識装置の構成を示す図である。
【図２】第１の実施形態による音声認識プログラムの構成を示す図である。
【図３】図２に示した音声認識プログラムの動作を例示する図であって、（ａ）は汎用言語モデルのみを用いて音声認識が行われる場合場合を示し、（ｂ）は汎用言語モデルおよび冗長語言語モデルを用いて音声認識が行われる場合を示す。
【図４】図２に示した音声認識プログラム（言語復号部）の処理を示すフローチャートである。
【図５】図２に示した冗長語言語モデルを用いず、冗長語の自動削除を行わない（トピック・オフの）場合の音声認識プログラム（言語復号部）の動作を示す図である。
【図６】図２に示した冗長語言語モデルを用い、冗長語の自動削除を行う（トピック・オン）の場合の音声認識プログラム（言語復号部）の動作を示す図である。
【図７】第２の実施形態による音声認識プログラムの構成を示す図である。
【図８】図７に示した音声認識プログラムの動作を示す図であって、（ａ）は汎用言語モデルのみを用いて音声認識が行われる場合を示し、（ｂ）は汎用言語モデルおよび冗長語言語モデル用いて音声認識が行われる場合を、（ｃ）は汎用言語モデルおよび句読点言語モデルを用いて音声認識が行われる場合を、さらに（ｄ）は汎用言語モデル、冗長語言語モデルおよび句読点言語モデルを用いて音声認識が行われる場合を示す。
【図９】音声認識プログラム（言語復号部）の処理を示すフローチャートである。
【図１０】図７に示した汎用言語モデルのみを用いるため、冗長語の自動削除および句読点の自動挿入を行わない場合の音声認識プログラム（言語復号部）の動作を示す図である。
【図１１】図７に示した汎用言語モデルと句読点言語モデルを用いて句読点の自動挿入を行う場合の音声認識プログラム（言語復号部）の動作を示す図である。
【図１２】図７に示した汎用言語モデルと冗長語言語モデルを用いて冗長語の自動削除を行う場合の音声認識プログラム（言語復号部）の動作を示す図である。
【図１３】図７に示した汎用言語モデル、冗長語言語モデルおよび句読点言語モデルを用いて、冗長語の自動削除および句読点の自動挿入を行う場合の音声認識プログラム（言語復号部）の動作を示す図である。
【符号の説明】
１…音声認識装置、１０…ＣＰＵ、１２…入力装置、１２０…音声入力装置、１４…表示装置、１６…記憶装置、１８…記憶媒体、２ａ，２ｂ…音声認識プログラム、２０…音響処理部、２２…言語復号部、３０…音響モデル、３２ａ，３２ｂ…言語モデル、３２０…汎用言語モデル、３２２…冗長語言語モデル、３２３…句読点言語モデル、３４ａ，３４ｂ…ベースフォーム・プール

Claims

音声に含まれる音素列を１つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換手段と、
前記変換手段により得られた前記単語列それぞれに対応する言語モデルが示す当該単語列の出現確率を用いて更新用数値を算出し、前記変換手段により前記単語列に付与された出現確率を当該更新用数値に更新する更新手段と、
更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識手段と
を備え、
前記更新用数値を算出は、冗長語を含む単語列を要素とする冗長語言語モデルに記述された単語列の出現確率と、冗長語を含まない単語列を要素とする汎用言語モデルに記述された単語列の出現確率とを線形補間して前記更新用数値を算出することを特徴とする音声認識装置。
前記更新手段は、前記汎用言語モデルに記述された単語列の出現確率のみにより前記更新用数値を算出する第１のモードと、前記冗長語言語モデルに記述された単語列の出現確率および当該汎用言語モデルに記述された単語列の出現確率により当該更新用数値を算出する第２のモードとを有することを特徴とする請求項１に記載の音声認識装置。
自由発話特有の表現に含まれる所定の単語を音声認識の結果に含める場合には、
前記変換手段は前記音素列を前記所定の単語を含む単語列に変換し、
前記更新手段は、前記冗長語言語モデルに記述された単語列の出現確率および前記汎用言語モデルに記述された単語列の出現確率に基づいて、前記単語列それぞれの出現確率を更新する、
ことを特徴とする請求項１に記載の音声認識装置。
前記冗長語言語モデルおよび前記汎用言語モデルは、Ｎ−ｇｒａｍモデルであることを特徴とする請求項１に記載の音声認識装置。
請求項１〜４のいずれかに記載の音声認識装置を有するコンピュータ・システム。
音声に含まれる音素列を１つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換ステップと、
前記変換ステップにより得られた前記単語列が自由発話固有の単語を含む場合に、冗長語を含む単語列を要素とする冗長語言語モデルに記述された単語列の出現確率と、冗長語を含まない単語列を要素とする汎用言語モデルに記述された単語列の出現確率とを線形補間することにより当該単語列の出現確率を算出し、前記変換ステップにて付与された当該単語列それぞれに付された出現確率を前記算出された出現確率に更新を行う更新ステップと、
更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識ステップと、
を備えたことを特徴とする音声認識方法。
前記冗長語言語モデルは、冗長語を含む単語列の出現確率を、連続するＮ個の単語の組み合わせと対応付けて記述するものであることを特徴とする請求項６に記載の音声認識方法。
前記更新ステップにおいて、単語列に含まれることのある特定の記号を含む単語列を要素とする句読点言語モデルに記述された単語列の出現確率をさらに加えて線形補間することにより、前記単語列の出現確率を算出することを特徴とする請求項６に記載の音声認識方法。
音声データを解析して特徴ベクトルに変換する音響処理ステップと、
前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、
冗長語を単語候補に含めながら、前記音素列を単語列に変換する単語変換ステップと、
冗長語を含む単語列の出現する確率を連続するＮ個の単語の組み合わせと対応付けて記述する冗長語言語モデルに記述された単語列の出現確率と、音声認識にて汎用的に用いられる汎用言語モデルに記述された単語列の出現確率とを線形補間することにより前記単語列の出現確率を算出し、前記音響データ生成ステップにて付された前記出現確率を前記算出された出現確率に更新する更新ステップと、
更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実現させるためのプログラム。
前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換する請求項９に記載のプログラム。
前記認識ステップは、出現確率が最も高い前記単語列をテキスト・データとして出力する請求項９に記載のプログラム。
前記認識ステップは、出現確率が最も高い前記単語列から前記記号が付された前記単語を除外したテキスト・データとして出力する請求項１０に記載のプログラム。
前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、
前記更新ステップは、句読点挿入に限定した句読点言語モデルに記述された単語列の出現確率をさらに加えて線形補間することにより前記出現確率を更新する、請求項９に記載のプログラム。
音声データを解析して特徴ベクトルに変換する音響処理ステップと、
前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、
冗長語を認識結果に反映させる場合には冗長語を単語候補に含めながら前記音素列を単語列に変換し、冗長語を認識結果に反映させない場合には冗長語を単語候補に含めずに前記音素列を単語列に変換する単語変換ステップと、
冗長語を認識結果に反映させる場合に、冗長語を含む単語列の出現する確率を連続するＮ個の単語の組み合わせと対応付けて記述する冗長語言語モデルに記述された単語列の出現確率と、汎用的な言語モデルに記述された単語列の出現確率とを線形補間することにより当該単語列の出現確率を算出し、前記出現確率を前記算出された出現確率に更新する更新ステップ、又は冗長語を認識結果に反映させない場合に、汎用的な言語モデルに記述された単語列の出現確率を用いるステップと、
冗長語を認識結果に反映させる場合に、前記更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップ、又は冗長語を認識結果に反映させない場合に、前記汎用的な言語モデルに記述された単語列の出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換する請求項１４に記載の記録媒体。
前記冗長語言語モデルおよび前記汎用的な言語モデルはＮ−ｇｒａｍモデルである請求項１４に記載の記録媒体。
音声認識結果に句読点を自動的に挿入させる場合に、
前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、
前記更新ステップは、句読点挿入に限定した句読点言語モデルに記述された単語列の出現確率をさらに用いることにより前記出現確率を更新する、請求項１４に記載の記録媒体。