WO2010061507A1

WO2010061507A1 - 言語モデル作成装置

Info

Publication number: WO2010061507A1
Application number: PCT/JP2009/004341
Authority: WO
Inventors: 山本仁; 花沢健; 三木清一
Original assignee: 日本電気株式会社
Priority date: 2008-11-28
Filing date: 2009-09-03
Publication date: 2010-06-03
Also published as: US20110231183A1; JP5598331B2; US9043209B2; JPWO2010061507A1

Abstract

　この装置３０１は、第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶する。装置は音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる処理対象単語列が表す内容が第１の内容である確率を表す第１の確率パラメータと処理対象単語列が表す内容が第２の内容である確率を表す第２の確率パラメータと第１の内容別言語モデルと第２の内容別言語モデルとに基づいて上記音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する。

Description

言語モデル作成装置

　本発明は、音声に対応する単語列を認識する音声認識処理を行うために用いられる言語モデルを作成する言語モデル作成装置に関する。

　ユーザによって発せられた音声（発話）から、その音声が表す単語列を認識する音声認識装置が知られている。この種の音声認識装置の一つとして特許文献１に記載の音声認識装置は、予め記憶されている複数の内容別言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。

　内容別言語モデルは、特定の内容（話題、又は、キーワード等）を表す単語列において特定の単語が出現する確率を表すモデルである。例えば、テレビ番組を内容とする単語列においては、番組名、又は、タレント名が出現する確率が高くなり、スポーツを内容とする単語列においては、チーム名、運動用具名、又は、選手名が出現する確率が高くなる。

　ところで、ユーザによって発せられた一連の音声内において、内容が変化する場合がある。この場合、１つの内容別言語モデルのみに基づいて、音声認識処理を行った場合、単語列を認識する精度が過度に低下してしまう虞がある。

　そこで、上記音声認識装置は、１つの発話内において予め定めた区間毎に異なる内容別言語モデルを用いるように構成されている。

特開２００２－２２９５８９号公報

　しかしながら、上記音声認識装置においては、上記区間にて用いる内容別言語モデルに係る内容が、実際の発話の内容に一致していない場合、単語列を認識する精度が過度に低下してしまうという問題があった。

　また、上記音声認識装置においては、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う。従って、上記音声認識装置においては、いずれの内容別言語モデルを用いるかを決定するための処理負荷が過大であるという問題があった。

　このため、本発明の目的は、上述した課題である「言語モデルを作成するための計算負荷が過大となること、及び、高い精度にて音声から単語列を認識できない場合が生じること」を解決することが可能な言語モデル作成装置を提供することにある。

　かかる目的を達成するため本発明の一形態である言語モデル作成装置は、
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において上記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が上記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、上記記憶されている第１の内容別言語モデルと、上記記憶されている第２の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
　を備える。

　また、本発明の他の形態である音声認識装置は、
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において上記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が上記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、上記記憶されている第１の内容別言語モデルと、上記記憶されている第２の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
　上記言語モデル作成手段により作成された言語モデルに基づいて、入力された音声に対応する単語列を認識する音声認識処理を行う音声認識手段と、
　を備える。

　また、本発明の他の形態である言語モデル作成方法は、
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において上記特定の単語が出現する確率を表す第２の内容別言語モデルと、が記憶装置に記憶されている場合に、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が上記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、上記記憶されている第１の内容別言語モデルと、上記記憶されている第２の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する、方法である。

　また、本発明の他の形態である言語モデル作成プログラムは、
　情報処理装置に、
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において上記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶装置に記憶させる内容別言語モデル記憶処理手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が上記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が上記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、上記記憶されている第１の内容別言語モデルと、上記記憶されている第２の内容別言語モデルと、に基づいて、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成手段と、
　を実現させるためのプログラムである。

　本発明は、以上のように構成されることにより、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

本発明の第１実施形態に係る言語モデル作成装置の機能の概略を表すブロック図である。図１に示した言語モデル作成装置の作動を示したフローチャートである。音声認識仮説の単語列の例を概念的に示した説明図である。内容候補グラフの例を概念的に示した説明図である。内容に関する特徴の例を示した説明図である。内容モデルの一例であるＣＲＦにて用いられる素性の例を示した説明図である。処理対象単語列に対して取得されたスコアの一例を概念的に示した説明図である。処理対象単語列に対して取得されたスコアの一例を概念的に示した説明図である。本発明の第２実施形態に係る音声認識装置の機能の概略を表すブロック図である。図９に示した音声認識装置の作動を示したフローチャートである。本発明の第３実施形態に係る言語モデル作成装置の機能の概略を表すブロック図である。

　以下、本発明に係る、言語モデル作成装置、音声認識装置、言語モデル作成方法、及び、言語モデル作成プログラム、の各実施形態について図１～図１１を参照しながら説明する。

＜第１実施形態＞
（構成）
　図１を参照しながら、本発明の第１実施形態に係る言語モデル作成装置１０１について説明する。言語モデル作成装置１０１は、情報処理装置である。言語モデル作成装置１０１は、図示しない中央処理装置（ＣＰＵ；Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、記憶装置（メモリ及びハードディスク駆動装置（ＨＤＤ；Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ））、入力装置及び出力装置を備える。

　出力装置は、ディスプレイを有する。出力装置は、ＣＰＵにより出力された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示させる。

　入力装置は、マウス、キーボード及びマイクロホンを有する。言語モデル作成装置１０１は、キーボード及びマウスを介して、ユーザの操作に基づく情報が入力されるように構成されている。言語モデル作成装置１０１は、マイクロホンを介して、マイクロホンの周囲（即ち、言語モデル作成装置１０１の外部）の音声を表す入力音声情報が入力されるように構成されている。

　なお、本実施形態では、言語モデル作成装置１０１は、図示しない音声認識装置により出力される音声認識結果としての単語列を含む音声認識仮説（入力単語列）を受け付け、受け付けた音声認識仮説に応じた言語モデルを当該音声認識装置に出力するように構成されている。

（機能）
　次に、上記のように構成された言語モデル作成装置１０１の機能について説明する。
　この言語モデル作成装置１０１の機能は、図１に示したように、音声認識仮説入力部（言語モデル作成手段の一部）１１と、内容推定部（言語モデル作成手段の一部）１２と、言語モデル作成部（言語モデル作成手段の一部）１３と、内容モデル記憶部（言語モデル作成手段の一部）１４と、内容別言語モデル記憶部（内容別言語モデル記憶手段、内容別言語モデル記憶処理手段、内容別言語モデル記憶処理工程）１５と、を含む。この機能は、言語モデル作成装置１０１のＣＰＵが、記憶装置に記憶されているプログラムを実行することにより実現される。なお、この機能は、論理回路等のハードウェアにより実現されていてもよい。

　音声認識仮説入力部１１は、外部の音声認識装置（図示せず）により出力された音声認識結果としての単語列を含む音声認識仮説（入力単語列）を受け付け、受け付けた音声認識仮説を内容推定部１２へ出力する。音声認識仮説は、音声認識装置が音声に対応する単語列を認識する音声認識処理を行うことにより生成された情報である。本例では、音声認識仮説は、１つ以上の単語からなる単語列を表す情報である。また、音声認識仮説は、複数の単語列を表す情報（例えば、単語グラフ、又は、Ｎベスト単語列（最良のＮ個の単語列）等）であってもよい。

　内容推定部１２は、音声認識仮説入力部１１から出力された音声認識仮説を、音声認識処理によって認識された単語列の単語間の境界を境界として分割することにより少なくとも１つの処理対象単語列を音声認識仮説から抽出（生成）する。これによれば、言語モデルを作成する際に、音声認識処理を行う際に取得された情報を利用することができる。この結果、精度よく内容を推定することができ、迅速に言語モデルを作成することができる。

　また、内容推定部１２は、音声認識仮説を、音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として分割することにより少なくとも１つの処理対象単語列を音声認識仮説から抽出（生成）してもよい。これによれば、発話における実際の単語間の境界が、音声認識処理によって認識された単語列の単語間の境界と異なる場合であっても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　内容推定部１２は、生成した複数の処理対象単語列のそれぞれに対して、その処理対象単語列が表す内容が、特定の内容（第１の内容、又は、第２の内容等）である確率を表す確率パラメータ（第１の確率パラメータ、又は、第２の確率パラメータ等）を、内容モデル記憶部１４に記憶されている内容モデルに基づいて算出（取得）する。例えば、内容推定部１２は、処理対象単語列が表す内容が、第１の内容である確率を表す第１の確率パラメータを算出するとともに、第２の内容である確率を表す第２の確率パラメータを算出する。そして、内容推定部１２は、取得した確率パラメータを言語モデル作成部１３へ出力する。

　本例では、確率パラメータは、処理対象単語列が表す内容が特定の内容である確率の値である。なお、確率パラメータは、処理対象単語列が表す内容が特定の内容である確率が高くなるほど大きくなる値であればよい。即ち、確率パラメータは、処理対象単語列が表す内容が特定の内容である尤もらしさを表す、と言うこともできる。確率パラメータは、尤度パラメータ又は重みパラメータと呼ばれてもよい。

　ここで、内容は、話題とも呼ばれる。例えば、テレビ番組を検索するための検索条件として用いられる内容は、人名（タレント名、及び、グループ名、等）、番組名、番組ジャンル名（バラエティ、及び、スポーツ、等）、放送局名、及び、時間表現（夕方、及び、８時、等）、等である。内容が異なると、発話中に特定の単語列が出現（存在）する確率が異なる。

　このように、内容推定部１２は、発話中の区間（処理対象単語列）毎に、その区間内の単語列が表す内容が、特定の内容である確率を推定する。従って、発話の途中で内容が変化する場合でも、それぞれの区間毎に高い精度にて上記確率を推定することができる。

　内容モデル記憶部１４は、単語列と、その単語列が表す内容が、複数の内容のそれぞれである確率と、の関係を表す内容モデル（情報）を記憶装置に予め記憶させている。本例では、内容モデルは、条件付確率場（ＣＲＦ；Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ）の理論に基づく確率モデルである。内容モデルは、下記式（１）により表現される。

　ここで、“Ｘ”は、処理対象単語列であり、
“Ｙ”は、内容である。即ち、式（１）の右辺Ｐ（Ｙ｜Ｘ）は、処理対象単語列Ｘが表す内容が内容Ｙである確率を表す。
　また、“Φ（Ｘ，Ｙ）”は、処理対象単語列Ｘの特徴（素性）を表す情報であり、
“Λ”は、素性Φ（Ｘ，Ｙ）のそれぞれに対応するＣＲＦにおけるモデルパラメタ（重み値）である。また、“Ｚ”は正規化項である。なお、“ｅｘｐ（）”は、ｅを底とする数値のべき乗を求める関数を示している。

　従って、本例では、内容モデル記憶部１４は、素性Φ、及び、モデルパラメタΛ（重み値）を記憶装置に記憶させている。

　いま、音声認識仮説が単語列であり、且つ、内容モデルとしてＣＲＦを用いる場合に、内容推定部１２が音声認識仮説の各単語が表す（属する）内容を推定する方法の一例について説明する。

　内容推定部１２は、まず、音声認識仮説の単語列に含まれる各単語に対応する区間について、候補となる内容に展開して、グラフの形式（内容候補グラフ）で保持する。図３は、音声認識仮説の単語列の例示であり、図４は、内容候補グラフの例示である。

　例えば、「イナガキゴロウの出ているドラマを見たい」という発話の音声認識仮説が「田舎紀行の出ているドラマを見たい」であった場合を想定して説明する。図３は、その音声認識仮説の単語列の一部である。図４に示したように、内容推定部１２は、内容の候補として「人名」「番組名」「その他」の３種類を区間毎に展開して生成する。図４の円弧（アーク、エッジ）Ａは、音声認識仮説中の単語「田舎紀行」が表す内容が内容としての「人名」であることを示す。

　次に、内容推定部１２は、内容候補グラフが表す内容のパス（内容列）を所定の基準（例えば、内容モデルを参照して計算されるスコア）に基づいて、順位付けて出力する。具体的には、内容推定部１２は、グラフ中の各円弧において内容モデルを参照してスコアを求め、パスごとにそのスコアを蓄積する。

　内容推定部１２は、上記式（１）の左辺Ｐ（Ｙ｜Ｘ）が最大となるパスを、Ｖｉｔｅｒｂｉアルゴリズムを用いる探索により特定する。また、内容推定部１２は、順位付けられた上位のパスを、Ａ＊探索により特定する。なお、内容推定部１２は、特定したパスを表す情報を出力する際に、同一の内容が連続した場合にそれらをまとめる処理等を適用してもよい。

　内容候補グラフ中の各円弧におけるスコアは、各円弧に関する特徴（素性）と、ＣＲＦのモデルパラメタである各素性に対する重み値と、の積である。
　図４の内容候補グラフの円弧Ａを例として、該円弧におけるスコアを求める方法の一例を説明する。

　図５は円弧Ａに関する特徴の例示である。図６は、図５の特徴を内容モデルの素性として表現した例示である。例えば、ある円弧Ａの時間区間に相当する区間の音声認識仮説に、その内容が「人名」である場合に、「品詞＝名詞」、及び、「共起＝出」、等の特徴がある場合を想定する。このような場合、これらの特徴を、内容モデルにて用いる素性として用いる。

　いま、円弧Ａに対応する単語列が、図５に示したように、「品詞＝名詞」、「共起＝出」、等の特徴を有している場合を想定する。これらの特徴は、ＣＲＦの素性（Φ）として、図６に示したように表現される。これらの素性のとる値と、モデルパラメタのうちの円弧Ａに相当する「人名」の重みΛと、の積により、円弧Ａのスコアが算出される。このスコアが大きいほど、その内容らしさが高くなる。

　本例では、内容モデルの素性（Φ）として、スコアを求める対象円弧に相当する区間における言語的な特徴（単語表層、読み、品詞など）が用いられる。換言すると、内容推定部１２は、処理対象単語列に含まれる単語の属性を表す単語属性情報に基づいて確率パラメータを取得する。単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも１つを含む。

　なお、内容モデルの素性（Φ）として、音声認識処理に関する特徴（認識信頼度、継続時間長、先行無音の有無など）等を用いてもよい。換言すると、内容推定部１２は、処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報に基づいて確率パラメータを取得してもよい。ここで、音声認識処理情報は、音声認識処理による認識結果の信頼度である認識信頼度を表す情報、１つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも１つを含む。

　また、対象円弧の前後の区間、対象円弧と単語グラフ又はＮベスト単語列において重なる区間に関する、上記の特徴もあわせて用いることができる。

　また、対象区間に関する局所的な特徴だけでなく、音声認識仮説全体（発話全体）に関する大域的な特徴である、音声認識仮説内での位置情報（前半、後半、など）、発話内の共起単語情報、単語グラフの構造に関する情報（円弧の平均分岐数、など）、及び、内容の連接情報、等を、内容モデルの素性（Φ）として用いてもよい。換言すると、内容推定部１２は、入力単語列における処理対象単語列の位置を表す情報、入力単語列が１つの単語を複数含むことを表す情報、入力単語列における内容の連接状態を表す情報、及び、入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも１つに基づいて確率パラメータを取得してもよい。

　内容候補グラフの各円弧の事後的な出現確率（事後確率）ｐ（Ｙｉ＝ｃ｜Ｘ）は、ＦｏｒｗａｒｄアルゴリズムとＢａｃｋｗａｒｄアルゴリズムを用いた再帰的な計算により算出される。ここで、“Ｙｉ＝ｃ”はｉ番目の区間における単語列が表す内容が内容ｃ”であることを示す。内容推定部１２は、この確率ｐを、当該区間における、各内容の出現確率（確率パラメータ）として用いる。

　ＣＲＦのモデルパラメタは、予め対応付けられた入力（Ｘ：単語列）と出力（Ｙ：内容）との組を学習データとして、上記式（１）の対数尤度を最大化する基準に従って反復計算法等により最適化（学習）されてもよい。

　なお、上述した、ＣＲＦを用いた識別方法、識別結果の事後確率の計算方法、モデルパラメタの学習方法、に関する詳細は、例えば、非特許文献「Ｊ．Ｌａｆｆｅｒｔｙ，　Ａ．ＭｃＣａｌｌｕｍ，　Ｆ．Ｐｅｒｅｉｒａ，“Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ：　Ｐｒｏｂａｂｉｌｉｓｔｉｃ　Ｍｏｄｅｌｓ　ｆｏｒ　Ｓｅｇｍｅｎｔｉｎｇ　ａｎｄ　Ｌａｂｅｌｉｎｇ　Ｓｅｑｕｅｎｃｅ　Ｄａｔａ”，　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　１８ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｆ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，２００１年，ｐ．２８２－２８９」に記載されている。

　言語モデル作成部１３は、内容推定部１２から出力された確率パラメータ（例えば、第１の確率パラメータ、及び、第２の確率パラメータ等）を含む内容の推定結果と、内容別言語モデル記憶部１５に記憶されている内容別言語モデルと、に基づいて、入力単語列の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を、処理対象単語列のそれぞれに対して行う。そして、言語モデル作成部１３は、作成した言語モデルを出力する。本例では、内容別言語モデル、及び、言語モデルは、ある単語が出現する確率がその直前のＮ－１個の単語にのみ依存するとの仮定に基づいて構築されたモデルであるＮグラム言語モデルである。

　Ｎグラム言語モデルにおいて、ｉ番目の単語ｗ_ｉの出現確率はＰ（ｗ_ｉ｜Ｗ_{ｉ－Ｎ＋１} ^ｉ－１）により表される。ここで、条件部のＷ_{ｉ－Ｎ＋１} ^ｉ－１は（ｉ－Ｎ＋１）～（ｉ－１）番目の単語列を表す。なお、Ｎ＝２のモデルをバイグラム（ｂｉｇｒａｍ）モデル、Ｎ＝３のモデルをトライグラム（ｔｒｉｇｒａｍ）モデルと呼ぶ。また、直前の単語に影響されないとの仮定に基づいて構築されたモデルをユニグラム（ｕｎｉｇｒａｍ）モデルと呼ぶ。

　Ｎグラム言語モデルによれば、単語列Ｗ_１ ^ｎ＝（ｗ_１、ｗ_２、…、ｗ_ｎ）が出現する確率Ｐ（Ｗ_１ ^ｎ）は下記式（２）により表される。また、このような、Ｎグラム言語モデルにおいて用いられる、種々の単語の種々の条件付き確率からなるパラメタは、学習用テキストデータに対する最尤推定等により求められる。

　内容別言語モデル記憶部１５は、複数の内容別言語モデルを記憶装置に予め記憶させている。複数の内容別言語モデルは、互いに異なる内容を表す単語列において特定の単語が出現する確率を表すモデルである。即ち、複数の内容別言語モデルは、第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、を含む。本例では、各内容別言語モデルは、トライグラムモデルである。

　言語モデル作成部１３は、各区間での各内容に対するスコア（即ち、各処理対象単語列が表す内容が各内容である確率を表す確率パラメータ）と、内容別言語モデル記憶部１５に記憶されている複数の内容別言語モデルと、から下記式（３）に従って言語モデルを作成する。

　式（３）において、Ｐ_ｔ（ｗ_ｉ）は単語ｗ_ｉが区間“ｔ”において出現する確率であり、α_ｊ（ｔ）は、区間“ｔ”における単語列が表す内容が内容“ｊ”である確率（内容の出現確率）を表す確率パラメータ（スコア）であり、Ｐ_ｊ（ｗ_ｉ）は内容“ｊ”に対する内容別言語モデルにおける単語ｗ_ｉが出現する確率である。本例では、言語モデル作成部１３は、内容推定部１２により取得された確率パラメータ（発話内の各区間（処理対象単語列）における内容の出現確率）を、式（３）のα_ｊ（ｔ）として用いる。

　このように、言語モデル作成部１３は、算出された第１の確率パラメータが大きくなるほど大きくなる第１の係数（例えば、第１の確率パラメータ）を第１の内容別言語モデルが表す確率（上記式（３）におけるＰ_ｊ（ｗ_ｉ））に乗じた値と、算出された第２の確率パラメータが大きくなるほど大きくなる第２の係数（例えば、第２の確率パラメータ）を第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、入力単語列の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率が大きくなる言語モデルを作成する。

　ところで、式（３）の“ｔ”は、音声認識処理において用いられる時間フレームに対応する区間であってもよく、発話内の時点を表す時刻等であってもよい。

　なお、内容別言語モデル記憶部１５は、内容別言語モデルと、内容毎に出現する確率が高い単語のリスト（単語リスト）と、を記憶させていてもよい。この場合、言語モデル作成部１３は、発話内の各区間において、最もスコアが大きい内容に対する単語リストに含まれる単語が出現する確率を所定の値だけ増加させるように構成されていてもよい。

　内容推定部１２は、上述したスコア（内容出現スコア）として、区間ごとに推定された値を、そのまま用いることなく変更して用いてもよい。例えば、ある発話中の単語列がいずれの内容にも関連しない単語列を含む場合がある。このような場合、内容推定部１２は、例えば、３種類の内容と、「どの内容でもない」という内容と、の計４種類から、単語列が表す内容を推定する。そして、内容推定部１２は、単語列が表す内容が「どの内容でもない」という内容であると推定された区間において、他の３種類の内容のスコアを、所定の値（例えば、所定の比率（例えば、一定の比率）に応じた値）に変更してもよい。

　また、内容推定部１２は、算出された確率パラメータ（スコア）のすべてが、予め設定された下限閾値よりも小さい場合、算出された確率パラメータのすべてを同一の値に設定してもよい。

　例えば、図７の（Ａ）に示したように、ある区間ｔ２にて、算出された確率パラメータ（スコア）のすべてが、下限閾値よりも小さい場合を想定する。この場合、内容推定部１２は、図７の（Ｂ）に示したように、この区間ｔ２に対する確率パラメータのすべてを同一の値（本例では、下限閾値）に設定する。

　これによれば、処理対象単語列が表す内容を正確に特定できない区間において、いずれかの内容別言語モデルの影響のみが大きく反映された言語モデルが作成されることを防止することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　また、例えば、単語列が表す内容が、テレビ番組の検索条件に関連する内容「人名」である場合、その単語列に続いて、「出演している」又は「出ている」等の単語が出現する可能性が比較的高い。従って、単語列が表す内容が内容「人名」であると推定された区間に続く区間では、後続する単語列を高い精度にて認識するために、「人名」のスコアが直ちに低下することは望ましくない。

　従って、内容推定部１２は、ある処理対象単語列に対して取得された確率パラメータ（例えば、第１の確率パラメータ）が、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して取得された当該確率パラメータ（例えば、第１の確率パラメータ）を増加させるように補正してもよい。

　例えば、図８の（Ａ）に示したように、ある区間ｔ２にて、算出された確率パラメータ（スコア）が、予め設定された上限閾値よりも大きい場合を想定する。この場合、内容推定部１２は、図８の（Ｂ）に示したように、区間ｔ２に隣接する区間ｔ１及び区間ｔ３に対して取得されたスコアを増加させるように補正する。

　具体的には、内容推定部１２は、区間ｔ１において、区間ｔ２に近づくほど、スコアが、区間ｔ２に対して取得されたスコアに近づくように、スコアを補正する。同様に、内容推定部１２は、区間ｔ３において、区間ｔ２に近づくほど、スコアが、区間ｔ２に対して取得されたスコアに近づくように、スコアを補正する。

　これによれば、処理対象単語列が表す内容が比較的高い精度にて特定された区間に隣接する区間に対しても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　なお、言語モデル作成部１３は、作成した言語モデルを出力する際に、言語モデルに含まれる情報をすべて出力してもよいし、外部から指定された情報のみを出力してもよい。

（作動）
　次に、本発明の第１実施形態に係る言語モデル作成装置１０１の作動について、図２に示したフローチャートを参照しながら説明する。

　図２に示したように、言語モデル作成装置１０１は、起動されると、内容モデル記憶部１４及び内容別言語モデル記憶部１５を実現している記憶装置から内容モデル及び内容別言語モデルを読み出し、それぞれを、内容推定部１２及び言語モデル作成部１３から参照するための初期化処理を行う（ステップＳ１１）。

　一方、音声認識仮説入力部１１は、音声認識処理の終了を表す通知に応じて、外部の音声認識装置から音声認識仮説を受け付け、受け付けた音声認識仮説を内容推定部１２に出力する（ステップＳ１２、言語モデル作成工程の一部）。なお、音声認識仮説入力部１１は、ユーザにより入力された音声認識仮説を受け付けるように構成されていてもよい。

　音声認識仮説入力部１１を介して音声認識仮説が入力されると、内容推定部１２は、内容モデル記憶部１４により記憶されている内容モデルに基づいて、音声認識仮説内の各処理対象単語列（例えば、各単語）が表す内容が、特定の内容である確率を表す確率パラメータを算出する（ステップＳ１３、言語モデル作成工程の一部）。

　次に、言語モデル作成部１３は、内容推定部１２から出力された確率パラメータと、内容別言語モデル記憶部１５により記憶されている内容別言語モデルと、に基づいて、音声認識仮説の基となった音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成し、作成した言語モデルを出力する（ステップＳ１４、言語モデル作成工程の一部）。

　以上、説明したように、本発明による言語モデル作成装置の第１実施形態によれば、言語モデル作成装置１０１は、処理対象単語列が表す内容が第１の内容である確率と、処理対象単語列が表す内容が第２の内容である確率と、第１の内容別言語モデルと、第２の内容別言語モデルと、に基づいて言語モデルを作成する。

　これにより、処理対象単語列が表す内容と異なる内容に係る内容別言語モデルのみに基づいて言語モデルが作成されることを回避することができる。即ち、処理対象単語列が表す内容に係る内容別言語モデルを確実に用いて言語モデルを作成することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　更に、上記構成によれば、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う必要がないので、言語モデル作成装置１０１の処理負荷を軽減することができる。

　即ち、上記言語モデル作成装置１０１によれば、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　また、上記第１実施形態によれば、処理対象単語列が表す内容が第１の内容である確率が大きくなるほど、第１の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第２の内容である確率が大きくなるほど、第２の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

＜第２実施形態＞
　次に、図９を参照しながら、本発明の第２実施形態に係る音声認識装置について説明する。図９は、本発明の第２実施形態にかかる音声認識装置２０１の機能を示したブロック図である。

　音声認識装置２０１は、第１実施形態に係る言語モデル作成装置１０１と同様の構成を有する情報処理装置である。音声認識装置２０１の機能は、音声認識部（音声認識手段）２１と、音声認識モデル記憶部２２と、言語モデル更新部（言語モデル作成手段）２４と、を含む。

　音声認識装置２０１は、入力された音声に対応する単語列を認識する音声認識処理を行うことにより、入力単語列としての音声認識仮説を生成し、生成した音声認識仮説に基づいて、上記第１実施形態に係る言語モデル作成装置１０１と同様に、言語モデルを作成し、作成した言語モデルに基づいて音声認識処理を再度行う。

　音声認識部２１は、入力装置を介して入力された音声に対応する単語列を認識する前記音声認識処理を行うことにより、音声認識仮説（例えば、単語グラフ）として入力単語列を生成する。なお、音声認識部２１は、他の情報処理装置から音声を表す音声情報を受信することにより音声が入力されるように構成されていてもよい。音声認識部２１は、発話の全区間に対して、音声認識モデル記憶部２２に記憶されているモデル（音声認識処理を行うためのモデルであって、音響モデル、言語モデル及び単語辞書等を含む）に基づいて算出されるスコアに従って、音声に適合する単語列を探索することにより音声認識処理を行う。本例では、音響モデルは、隠れマルコフモデルであり、言語モデルは、単語トライグラムである。

　音声認識部２１は、音声認識処理を行う際、言語モデル更新部２４により出力された言語モデルを参照する。例えば、音声認識部２１は、音声認識処理中のある時間フレーム“ｆ”において、式（３）の言語モデルを参照して単語ｗ_ｉが出現する確率を算出する場合、その“ｆ”に対応する区間“ｔ”について、Ｐ_ｔ（ｗ_ｉ）を参照する。本例では、時間フレームは、認識対象の音声を認識用の特徴量に変換する際の単位を表す。

　なお、音声認識部２１は、言語モデル更新部２４により発話に応じた言語モデルが作成される前に音声認識処理を行う場合、音声認識モデル記憶部２２に記憶されている言語モデルを参照する。また、音声認識部２１は、内容別言語モデル記憶部２４５に記憶されている複数の内容別言語モデルが表す確率の和を、単語が出現する確率として用いるように構成されていてもよい。

　音声認識装置２０１は、言語モデル更新部２４によって作成された言語モデルに基づいて、音声認識部２１が入力された音声に対応する単語列を認識する前記音声認識処理と、音声認識部２１によって認識された単語列に基づいて、言語モデル更新部２４が言語モデルを作成する言語モデル作成処理と、を交互に繰り返す反復処理を実行する。

　入力単語列の精度（真の単語列と一致している程度）が高くなるほど、第１の確率パラメータ及び第２の確率パラメータを高い精度にて取得することができる。更に、第１の確率パラメータ及び第２の確率パラメータの精度が高くなるほど、より高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。従って、上記構成によれば、より一層高い精度にて音声に対応する単語列を認識することができる。

　音声認識部２１は、生成した音声認識仮説、又は、音声認識処理にて用いた言語モデルに基づいて、所定の終了条件が成立した場合、反復処理を終了する。音声認識部２１は、反復処理を終了すると、その時点にて取得された最新の音声認識仮説を音声認識結果として出力する。なお、音声認識部２１は、その時点までに蓄積された音声認識仮説から音声認識結果を選定して出力してもよい。

　終了条件は、前回の音声認識処理により認識された単語列と、今回の音声認識処理により認識された単語列と、が一致しているという条件である。なお、終了条件は、音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件であってもよい。また、終了条件は、言語モデル作成部２４３により作成された言語モデルのパラメタ、又は、内容推定部２４２により出力された推定結果又はそのスコアに基づいて定められた条件であってもよい。

　言語モデル更新部２４は、第１実施形態に係る言語モデル作成装置１０１と同様の機能を有する。
　言語モデル更新部２４は、音声認識仮説入力部１１と同様の音声認識仮説入力部２４１と、内容推定部１２と同様の内容推定部２４２と、言語モデル作成部１３と同様の言語モデル作成部２４３と、内容モデル記憶部１４と同様の内容モデル記憶部２４４と、内容別言語モデル記憶部１５と同様の内容別言語モデル記憶部（内容別言語モデル記憶手段、内容別言語モデル記憶処理手段、内容別言語モデル記憶処理工程）２４５と、を含む。

　言語モデル更新部２４は、終了条件が成立しないと音声認識部２１が判定した場合に、音声認識部２１から出力された音声認識仮説と、記憶されている内容モデルと、記憶されている内容別言語モデルと、に基づいて言語モデルを作成し、作成した言語モデルを出力する。

　本例では、内容別言語モデル記憶部２４５は、内容別言語モデルとして単語トライグラムを記憶装置に記憶させている。言語モデル作成部２４３は、処理対象単語列毎に、その処理対象単語列が表す内容が特定の内容である確率を表すスコアと、記憶されている内容別言語モデルと、上記式（３）と、に基づいて言語モデルを作成する。

　言語モデル更新部２４は、終了条件が成立したと音声認識部２１が判定するまでの間、音声認識部２１から音声認識仮説を受け付ける毎に、受け付けた音声認識仮説に基づいて言語モデルを作成する。ｋ回目に作成された言語モデルにおいて、単語ｗ_ｉが出現する確率をＰ_ｔ,ｋ（ｗ_ｉ）とする（下記式（４）を参照）。音声認識部２１は、この言語モデルを参照して（ｋ＋１）回目の音声認識処理を行い、音声認識仮説を出力する。

　そして、内容推定部２４２では、この音声認識仮説を入力し、（ｋ＋１）回目の内容推定結果として、各内容の出現スコアα_{ｊ,ｋ＋１}（ｔ）を出力する。言語モデル作成部２４３は、この出現スコアを用いて（ｋ＋１）回目の言語モデルＰ_{ｔ,ｋ＋１}（ｗ_ｉ）を作成する（下記式（５）を参照）。このように、音声認識仮説と内容推定結果とを繰り返し更新することにより、それぞれの精度を徐々に高める。

　なお、上記の反復処理において、音声認識部２１が２回目以降の処理を行う場合、音声認識部２１は、音声を入力とする音声認識処理の代わりに、前回の音声認識仮説（単語グラフ等）を入力とするリスコア処理を行ってもよい。

（作動）
　次に、本発明の第２実施形態に係る音声認識装置の作動について、図１０に示したフローチャートを参照しながら説明する。

　図１０に示したように、音声認識装置２０１は、起動されると、音声認識モデル記憶部２２、及び、内容別言語モデル記憶部２４５を実現している記憶装置から音声認識モデル及び言語モデルを読み出し、それぞれを、音声認識部２１、及び、言語モデル更新部２４から参照するための初期化処理を行う（ステップＳ２１）。

　一方、音声認識部２１は、音声の入力の終了を表す通知に応じて、入力装置を介して外部から入力された音声を受け付ける（ステップＳ２２）。

　音声認識部２１は、音声を受け付けると、受け付けた音声に対して、音声認識モデル記憶部２２により記憶されている音声認識モデルと、言語モデル更新部２４により作成された言語モデルと、に基づいて音声認識処理を行う（ステップＳ２３）。

　音声認識装置２０１は、音声認識部２１が音声認識処理を行うことによって出力された音声認識仮説に基づいて、終了条件が成立しているか否かを判定する（ステップＳ２４）。
　終了条件が成立している場合、音声認識装置２０１は、「Ｙｅｓ」と判定して、その時点にて取得された最新の音声認識仮説を音声認識結果として出力する（ステップＳ２７）。

　一方、終了条件が成立していない場合、音声認識装置２０１は、ステップＳ２４にて「Ｎｏ」と判定してステップＳ２５及びステップＳ２６の処理を実行することにより、言語モデルを作成する。この処理は、図２のステップＳ１３及びステップＳ１４の処理と同様の処理である。

　以上、説明したように、本発明による音声認識装置の第２実施形態によれば、音声認識装置２０１は、処理対象単語列が表す内容が第１の内容である確率と、処理対象単語列が表す内容が第２の内容である確率と、第１の内容別言語モデルと、第２の内容別言語モデルと、に基づいて言語モデルを作成する。そして、音声認識装置２０１は、作成した言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。これにより、音声認識装置２０１の計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することができる。

　更に、上記第２実施形態によれば、処理対象単語列が表す内容が第１の内容である確率が大きくなるほど、第１の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第２の内容である確率が大きくなるほど、第２の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することができる。

　加えて、音声認識装置２０１は、言語モデル更新部２４によって作成された言語モデルに基づいて、音声認識部２１が入力された音声に対応する単語列を認識する音声認識処理と、音声認識部２１によって認識された単語列に基づいて、言語モデル更新部２４が言語モデルを作成する言語モデル作成処理と、を交互に繰り返す反復処理を実行する。

　ところで、入力単語列の精度（真の単語列と一致している程度）が高くなるほど、第１の確率パラメータ及び第２の確率パラメータを高い精度にて取得することができる。更に、第１の確率パラメータ及び第２の確率パラメータの精度が高くなるほど、より高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。従って、上記構成によれば、より一層高い精度にて音声に対応する単語列を認識することができる。

＜第３実施形態＞
　次に、本発明の第３実施形態に係る言語モデル作成装置について図１１を参照しながら説明する。
　第３実施形態に係る言語モデル作成装置３０１の機能は、内容別言語モデル記憶部（内容別言語モデル記憶手段）３５と、言語モデル作成部（言語モデル作成手段）３３と、を含む。

　内容別言語モデル記憶部３５は、第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶装置に記憶させている。

　言語モデル作成部３３は、音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が第２の内容である確率を表す第２の確率パラメータと、を取得する。

　言語モデル作成部３３は、取得された第１の確率パラメータと、取得された第２の確率パラメータと、内容別言語モデル記憶部３５により記憶させられている第１の内容別言語モデルと、内容別言語モデル記憶部３５により記憶させられている第２の内容別言語モデルと、に基づいて、上記音声のうちの処理対象単語列に対応する部分に対応する単語列において特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う。

　これによれば、言語モデル作成装置３０１は、処理対象単語列が表す内容が第１の内容である確率と、処理対象単語列が表す内容が第２の内容である確率と、第１の内容別言語モデルと、第２の内容別言語モデルと、に基づいて言語モデルを作成する。

　更に、上記構成によれば、いずれの内容別言語モデルを用いるかを決定するために、各内容別言語モデルを用いた場合の認識結果を評価する処理を行う必要がないので、言語モデル作成装置３０１の処理負荷を軽減することができる。

　即ち、上記言語モデル作成装置３０１によれば、計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　この場合、上記言語モデル作成手段は、
　上記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を上記第１の内容別言語モデルが表す確率に乗じた値と、上記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を上記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。

　これによれば、処理対象単語列が表す内容が第１の内容である確率が大きくなるほど、第１の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第２の内容である確率が大きくなるほど、第２の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　この場合、上記言語モデル作成手段は、上記音声認識処理によって認識された単語列の単語間の境界を境界として上記入力単語列を分割した複数の上記処理対象単語列のそれぞれに対して、上記言語モデル作成処理を行うように構成されることが好適である。

　これによれば、言語モデルを作成する際に、音声認識処理を行う際に取得された情報を利用することができる。この結果、精度よく内容を推定することができ、迅速に言語モデルを作成することができる。

　また、上記言語モデル作成装置の他の態様において、
　上記言語モデル作成手段は、上記音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として上記入力単語列を分割した複数の上記処理対象単語列のそれぞれに対して、上記言語モデル作成処理を行うように構成されることが好適である。

　これによれば、発話における実際の単語間の境界が、音声認識処理によって認識された単語列の単語間の境界と異なる場合であっても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　この場合、上記言語モデル作成手段は、
　上記取得された第１の確率パラメータ及び上記取得された第２の確率パラメータの両方が、予め設定された下限閾値よりも小さい場合、上記取得された第１の確率パラメータ及び上記取得された第２の確率パラメータの両方を同一の値に設定するように構成されることが好適である。

　これによれば、内容を正確に特定できない処理対象単語列に対応する音声区間に対して、いずれかの内容別言語モデルの影響のみが大きく反映された言語モデルが作成されることを防止することができる。この結果、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　この場合、上記言語モデル作成手段は、
　ある処理対象単語列に対して上記取得された第１の確率パラメータが、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して上記取得された第１の確率パラメータを増加させるように補正するように構成されることが好適である。

　これによれば、内容が比較的高い精度にて特定された処理対象単語列に隣接する処理対象単語列に対応する音声区間に対しても、高い精度にて音声に対応する単語列を認識することを可能とする言語モデルを作成することができる。

　この場合、上記言語モデル作成手段は、条件付確率場の理論に基づいて上記第１の確率パラメータ及び上記第２の確率パラメータを取得するように構成されることが好適である。

　この場合、上記言語モデル作成手段は、上記処理対象単語列に含まれる単語の属性を表す単語属性情報、及び、上記処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報、の少なくとも１つに基づいて上記第１の確率パラメータ及び上記第２の確率パラメータを取得するように構成されることが好適である。

　この場合、上記単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも１つを含むことが好適である。

　この場合、上記音声認識処理情報は、上記音声認識処理による認識結果の信頼度である認識信頼度を表す情報、１つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも１つを含むことが好適である。

　この場合、上記言語モデル作成手段は、
　上記入力単語列における上記処理対象単語列の位置を表す情報、上記入力単語列が１つの単語を複数含むことを表す情報、上記入力単語列における内容の連接状態を表す情報、及び、上記入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも１つに基づいて上記第１の確率パラメータ及び上記第２の確率パラメータを取得するように構成されることが好適である。

　これによれば、音声認識装置は、処理対象単語列が表す内容が第１の内容である確率と、処理対象単語列が表す内容が第２の内容である確率と、第１の内容別言語モデルと、第２の内容別言語モデルと、に基づいて言語モデルを作成する。そして、音声認識装置は、作成した言語モデルに基づいて、音声に対応する単語列を認識する音声認識処理を行う。これにより、音声認識装置の計算負荷が過大となることを防止しながら高い精度にて音声に対応する単語列を認識することができる。

　これによれば、処理対象単語列が表す内容が第１の内容である確率が大きくなるほど、第１の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。同様に、処理対象単語列が表す内容が第２の内容である確率が大きくなるほど、第２の内容別言語モデルが表す確率が言語モデルに反映される程度を大きくすることができる。この結果、高い精度にて音声に対応する単語列を認識することができる。

　この場合、
　上記音声認識手段は、上記入力された音声に対応する単語列を認識する上記音声認識処理を行うことにより上記入力単語列を生成するように構成され、
　上記言語モデル作成手段は、上記音声認識手段により生成された上記入力単語列に基づいて上記言語モデルを作成するように構成され、
　上記音声認識手段は、上記言語モデル作成手段により作成された上記言語モデルに基づいて、上記入力された音声に対応する単語列を認識する上記音声認識処理を再度行うように構成されることが好適である。

　この場合、上記音声認識装置は、
　上記言語モデル作成手段によって作成された言語モデルに基づいて、上記音声認識手段が上記入力された音声に対応する単語列を認識する上記音声認識処理と、上記音声認識手段によって認識された単語列に基づいて、上記言語モデル作成手段が上記言語モデルを作成する上記言語モデル作成処理と、を交互に繰り返す反復処理を実行するように構成されることが好適である。

　この場合、上記音声認識装置は、所定の終了条件が成立した場合、上記反復処理を終了するように構成されることが好適である。

　この場合、上記終了条件は、前回の上記音声認識処理により認識された単語列と、今回の上記音声認識処理により認識された単語列と、が一致しているという条件であることが好適である。

　また、上記音声認識装置の他の態様において、
　上記終了条件は、上記音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件であることが好適である。

　この場合、上記言語モデル作成方法は、
　上記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を上記第１の内容別言語モデルが表す確率に乗じた値と、上記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を上記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、上記音声のうちの上記処理対象単語列に対応する部分に対応する単語列において上記特定の単語が出現する確率が大きくなる上記言語モデルを作成するように構成されることが好適である。

　上述した構成を有する、音声認識装置、言語モデル作成方法、又は、言語モデル作成プログラム、の発明であっても、上記言語モデル作成装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

　以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

　また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。

　また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、ＣＰＵが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

　なお、本発明は、日本国にて２００８年１１月２８日に出願された特願２００８－３０４５６４の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

　本発明は、音声からその音声が表す単語列を認識する音声認識処理を行う音声認識装置等に適用可能である。

１１　　　音声認識仮説入力部
１２　　　内容推定部
１３　　　言語モデル作成部
１４　　　内容モデル記憶部
１５　　　内容別言語モデル記憶部
２１　　　音声認識部
２２　　　音声認識モデル記憶部
２４　　　言語モデル更新部
３３　　　言語モデル作成部
３５　　　内容別言語モデル記憶部
１０１　　言語モデル作成装置
２０１　　音声認識装置
２４１　　音声認識仮説入力部
２４２　　内容推定部
２４３　　言語モデル作成部
２４４　　内容モデル記憶部
２４５　　内容別言語モデル記憶部
３０１　　言語モデル作成装置

Claims

　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が前記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、前記記憶されている第１の内容別言語モデルと、前記記憶されている第２の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
　を備える言語モデル作成装置。
　請求項１に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、
　前記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を前記第１の内容別言語モデルが表す確率に乗じた値と、前記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を前記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成装置。
　請求項１又は請求項２に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、前記音声認識処理によって認識された単語列の単語間の境界を境界として前記入力単語列を分割した複数の前記処理対象単語列のそれぞれに対して、前記言語モデル作成処理を行うように構成された言語モデル作成装置。
　請求項１又は請求項２に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、前記音声認識処理によって認識された単語列の単語間の境界と異なる位置を境界として前記入力単語列を分割した複数の前記処理対象単語列のそれぞれに対して、前記言語モデル作成処理を行うように構成された言語モデル作成装置。
　請求項３又は請求項４に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、
　前記取得された第１の確率パラメータ及び前記取得された第２の確率パラメータの両方が、予め設定された下限閾値よりも小さい場合、前記取得された第１の確率パラメータ及び前記取得された第２の確率パラメータの両方を同一の値に設定するように構成された言語モデル作成装置。
　請求項３乃至請求項５のいずれか一項に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、
　ある処理対象単語列に対して前記取得された第１の確率パラメータが、予め設定された上限閾値よりも大きい場合、その処理対象単語列に隣接する処理対象単語列に対して前記取得された第１の確率パラメータを増加させるように補正するように構成された言語モデル作成装置。
　請求項１乃至請求項６のいずれか一項に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、条件付確率場の理論に基づいて前記第１の確率パラメータ及び前記第２の確率パラメータを取得するように構成された言語モデル作成装置。
　請求項１乃至請求項７のいずれか一項に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、前記処理対象単語列に含まれる単語の属性を表す単語属性情報、及び、前記処理対象単語列を音声から認識する音声認識処理を行う際に取得された音声認識処理情報、の少なくとも１つに基づいて前記第１の確率パラメータ及び前記第２の確率パラメータを取得するように構成された言語モデル作成装置。
　請求項８に記載の言語モデル作成装置であって、
　前記単語属性情報は、単語表層を表す情報、読みを表す情報、及び、品詞を表す情報の少なくとも１つを含む言語モデル作成装置。
　請求項８又は請求項９に記載の言語モデル作成装置であって、
　前記音声認識処理情報は、前記音声認識処理による認識結果の信頼度である認識信頼度を表す情報、１つの音が継続する時間である継続時間長を表す情報、及び、先行する無音の有無を表す情報の少なくとも１つを含む言語モデル作成装置。
　請求項１乃至請求項１０のいずれか一項に記載の言語モデル作成装置であって、
　前記言語モデル作成手段は、
　前記入力単語列における前記処理対象単語列の位置を表す情報、前記入力単語列が１つの単語を複数含むことを表す情報、前記入力単語列における内容の連接状態を表す情報、及び、前記入力単語列が複数存在する場合における各入力単語列間の関係を表す情報、の少なくとも１つに基づいて前記第１の確率パラメータ及び前記第２の確率パラメータを取得するように構成された言語モデル作成装置。
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶する内容別言語モデル記憶手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が前記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、前記記憶されている第１の内容別言語モデルと、前記記憶されている第２の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成処理を行う言語モデル作成手段と、
　前記言語モデル作成手段により作成された言語モデルに基づいて、入力された音声に対応する単語列を認識する音声認識処理を行う音声認識手段と、
　を備える音声認識装置。
　請求項１２に記載の音声認識装置であって、
　前記言語モデル作成手段は、
　前記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を前記第１の内容別言語モデルが表す確率に乗じた値と、前記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を前記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された音声認識装置。
　請求項１２又は請求項１３に記載の音声認識装置であって、
　前記音声認識手段は、前記入力された音声に対応する単語列を認識する前記音声認識処理を行うことにより前記入力単語列を生成するように構成され、
　前記言語モデル作成手段は、前記音声認識手段により生成された前記入力単語列に基づいて前記言語モデルを作成するように構成され、
　前記音声認識手段は、前記言語モデル作成手段により作成された前記言語モデルに基づいて、前記入力された音声に対応する単語列を認識する前記音声認識処理を再度行うように構成された音声認識装置。
　請求項１２乃至請求項１４のいずれか一項に記載の音声認識装置であって、
　前記言語モデル作成手段によって作成された言語モデルに基づいて、前記音声認識手段が前記入力された音声に対応する単語列を認識する前記音声認識処理と、前記音声認識手段によって認識された単語列に基づいて、前記言語モデル作成手段が前記言語モデルを作成する前記言語モデル作成処理と、を交互に繰り返す反復処理を実行するように構成された音声認識装置。
　請求項１５に記載の音声認識装置であって、
　所定の終了条件が成立した場合、前記反復処理を終了するように構成された音声認識装置。
　請求項１６に記載の音声認識装置であって、
　前記終了条件は、前回の前記音声認識処理により認識された単語列と、今回の前記音声認識処理により認識された単語列と、が一致しているという条件である音声認識装置。
　請求項１６に記載の音声認識装置であって、
　前記終了条件は、前記音声認識処理を実行した回数が予め設定された閾値回数よりも大きいという条件である音声認識装置。
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、が記憶装置に記憶されている場合に、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が前記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、前記記憶されている第１の内容別言語モデルと、前記記憶されている第２の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する、言語モデル作成方法。
　請求項１９に記載の言語モデル作成方法であって、
　前記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を前記第１の内容別言語モデルが表す確率に乗じた値と、前記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を前記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成方法。
　情報処理装置に、
　第１の内容を表す単語列において特定の単語が出現する確率を表す第１の内容別言語モデルと、第２の内容を表す単語列において前記特定の単語が出現する確率を表す第２の内容別言語モデルと、を記憶装置に記憶させる内容別言語モデル記憶処理手段と、
　音声に対応する単語列を認識する音声認識処理を行うことにより生成された音声認識仮説に含まれる単語列であって入力された単語列である入力単語列の少なくとも一部である処理対象単語列が表す内容が前記第１の内容である確率を表す第１の確率パラメータと、当該処理対象単語列が表す内容が前記第２の内容である確率を表す第２の確率パラメータと、を取得するとともに、当該取得された第１の確率パラメータと、当該取得された第２の確率パラメータと、前記記憶されている第１の内容別言語モデルと、前記記憶されている第２の内容別言語モデルと、に基づいて、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率を表す言語モデルを作成する言語モデル作成手段と、
　を実現させるための言語モデル作成プログラム。
　請求項２１に記載の言語モデル作成プログラムであって、
　前記言語モデル作成手段は、
　前記取得された第１の確率パラメータが大きくなるほど大きくなる第１の係数を前記第１の内容別言語モデルが表す確率に乗じた値と、前記取得された第２の確率パラメータが大きくなるほど大きくなる第２の係数を前記第２の内容別言語モデルが表す確率に乗じた値と、の和が大きくなるほど、前記音声のうちの前記処理対象単語列に対応する部分に対応する単語列において前記特定の単語が出現する確率が大きくなる前記言語モデルを作成するように構成された言語モデル作成プログラム。