JP6312942B2

JP6312942B2 - 言語モデル生成装置、言語モデル生成方法とそのプログラム

Info

Publication number: JP6312942B2
Application number: JP2017544150A
Authority: JP
Inventors: 伍井　啓恭; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2018-04-18
Anticipated expiration: 2035-10-09
Also published as: CN108140019B; JPWO2017061027A1; WO2017061027A1; EP3349125A1; TW201714167A; TWI582754B; EP3349125B1; US10748528B2; EP3349125A4; CN108140019A; US20190080688A1

Description

本発明は、学習用の例文に加えて例文に含まれる語句の類義の語句（換言句）から学習したＮグラムを用いて言語モデルを生成する技術に関するものである。

音声認識により音声をテキスト化する技術は、医療や法律分野の書き起こし、放送字幕の作成など、多くの分野において有用である。音声をテキスト化することによりデータベースの検索が容易にできるようになる。
例えば、コールセンターにおいて通話音声をテキスト化し、音声をテキストと紐付けると、テキストを文字列検索することにより、テキストに紐付けされた音声を容易に検索することができる。これにより、通話音声の中に含まれる顧客名や品番などを検索キーワードとして絞り込み、ピンポイントにモニタリングチェックすることが可能となる。しかしながら、音声認識の結果には誤認識が含まれている場合があり、誤認識が検索精度の低下の原因となる。この誤認識をいかに低減するかが、課題である。

現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルとを用いるのが一般的である。音声を精度よく認識するための言語モデルとして、非特許文献１〜３に記載されているＮグラムモデルを用いる方式が注目されている。Ｎグラムモデルは、学習用の例文から学習することにより生成され、直前の（Ｎ−１）個の単語から、次に出現する単語を予測する確率的言語モデルである。

Ｎグラムモデルでは、学習用の例文に存在しない単語連鎖の出現確率は０となってしまう問題があり、この問題はスパースネスの問題と呼ばれる。この問題に対処するため、スムージングを用いるのが一般的である（下記非特許文献２参照）。

鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社，平成１３年５月１５日、ｐ．５３−１５５北研二、辻井潤一著、「確率的言語モデル」、東京大学出版会、１９９９年１１月２５日、ｐ．５７〜９９長尾真著、「自然言語処理」、岩波書店、１９９６年４月２６日、ｐ．１１８〜１３７

しかしながら、スムージングでは、現在のＮの値よりも小さい値の確率値を用いて予測するため、実際には起こり得ない単語連鎖が言語モデルに含まれるようになり、誤認識の可能性が高くなるという問題点があった。

本発明は上記のような問題点を解決するためになされたもので、学習用の例文に存在しない単語連鎖でも音声認識の誤認識を低減させるような言語モデルを生成する言語モデル生成装置を得ることを目的としている。

この発明の言語モデル生成装置は、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成部と、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出部と、学習用の例文から語句を含む原文を抽出し、出力する原文抽出部と、換言文抽出部から入力される換言文が原文抽出部から入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出部と、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出部と、換言句抽出部から抽出された換言句と学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成部と、を備えた。

この発明の言語モデル生成方法は、換言句生成部が、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、換言文抽出部が、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、原文抽出部が、学習用の例文から語句を含む原文を抽出し、出力する原文抽出ステップと、尤度算出部が、換言文抽出部から入力される換言文が原文抽出部から入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、換言句抽出部が、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、言語モデル生成部が、換言句抽出部から抽出された換言句と学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成ステップと、を有する。

この発明の言語モデル生成プログラムは、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、学習用の例文から語句を含む原文を抽出し、出力する原文抽出ステップと、換言文ステップにより入力される換言換言文が原文抽出ステップにより入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、換言句抽出ステップにより抽出された換言句と学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成ステップと、をコンピュータに実行させるものである。

本発明によれば、学習用の例文に加えて例文に含まれる語句の類義の語句である換言句から学習したＮグラムを用いて言語モデルを生成するので、学習用の例文に存在しない単語連鎖でも音声認識の誤認識を低減させる言語モデルを得ることができる。

実施の形態１に係るに係る言語モデル生成装置の構成を示すブロック図。実施の形態１に係る類義語辞書のデータの例を示す図。実施の形態１に係る学習例文に含まれる語句「いい音で聞く」を示す図。実施の形態１に係る換言句生成部の処理の流れを示すフローチャート。実施の形態１に係る形態素列を示す図。実施の形態１に係る類義語を付与した形態素を示す図。実施の形態１に係る換言句を示す図。実施の形態１に係る原文抽出部、Ｎグラム生成部、換言文抽出部、尤度算出部および換言句抽出部の処理の流れを示すフローチャート。実施の形態１に係る原文を示す図。実施の形態１に係る換言文を示す図。実施の形態１に係る換言文の尤度情報を示す図。実施の形態１に係る換言句とその平均尤度の一覧を示す図。実施の形態１に係る閾値より小さい平均尤度を有する換言句の一覧を示す図。実施の形態１に係る言語モデル生成装置のハードウェア構成を示すブロック図。実施の形態１に係る言語生成装置により生成された言語モデルを用いる音声認識装置の構成を示すブロック図。実施の形態１に係る言語生成装置により生成された言語モデルを用いる音声認識装置のハードウェア構成を示すブロック図。実施の形態１に係るに係る言語モデル生成装置の構成を示すブロック図。実施の形態２に係る言語モデル生成装置の構成を示すブロック図。実施の形態２に係る異表記記憶部が記憶するデータの例を示す図。実施の形態２に係る異表記を統一した換言句とその平均尤度の一覧を示す図。実施の形態２に係る閾値より小さい平均尤度を有する換言句の一覧を示す図。実施の形態３に係る原文を示す図。実施の形態３に係る換言句を示す図。実施の形態３に係る原文を形態素解析した形態素解析結果を示す図。実施の形態３に係る形態素解析結果から変換した原文．ｔｅｘｔファイルを示す図。実施の形態３に係る言語モデル作成ツールを用いて言語モデルを生成する手順を示す図。実施の形態３に係るＮグラム言語モデルの一例である原文．ａｒｐａファイルを示す図。実施の形態３に係る換言文を形態素解析した形態素解析結果を示す図。実施の形態３に係るＰＰおよびカバー率の算出結果を示す図。実施の形態３に係る換言文．ａｎｎｏファイルを示す図。

実施の形態１．
図１は、実施の形態１に係る言語モデル生成装置１００の構成を示すブロック図である。言語モデル生成装置１００は、語句入力部１０１、換言句生成部１０２、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６、換言句抽出部１０７および言語モデル生成部１０８から構成される。言語モデル生成装置１００は、学習例文記憶部１１０、類義語辞書１１１、コーパス１１２を入力として、言語モデル１１３を出力する。

学習例文記憶部１１０は、言語モデルを生成するための学習用の例文を記憶する記憶部である。学習例文は音声認識の対象の分野の例文を用いる。本実施の形態では、家電機器の問い合わせに対応するコールセンターにおいてやり取りされる音声を認識する場合を想定し、学習例文を家電機器の取扱説明書に掲載されている文章全体とする。取扱説明書には、例えば「いい音で聞くには、サラウンドモードにして・・・」といったように、家電機器の操作および設定の方法が記述されている。取扱説明書を学習例文として言語モデルに取り込むことにより、取扱説明書に記載されている単語連鎖の認識率を向上させることができる。

類義語辞書１１１は、類義語を掲載した辞書のデータである。
図２は、実施の形態１に係る類義語辞書１１１のデータの例を示す図である。原表記に対応付けて類義語を示している。「いい」の類義語は、「素晴らしい」、「正しい」、「可愛い」である。「音」の類義語は、「音調」、「声」である。「聞く」の類義語は、「聴く」、「差し出す」である。

コーパス１１２は、自然言語の文書を集積した大規模なデータである。コーパス１１２は、文書の各文を形態素に分解した上で、各形態素に品詞の情報を付与したタグ付きコーパスとする。

語句入力部１０１は、ユーザからの指示により学習例文記憶部１１０に記憶された学習例文から語句を順に読み出し、読み出した語句を換言句生成部１０２および原文抽出部１０３に出力する。
換言句生成部１０２は、類義語辞書１１１を参照し、語句入力部１０１から入力された語句の類義の語句である換言句を生成し、生成した換言句を換言文抽出部１０５に出力する。
原文抽出部１０３は、学習例文記憶部１１０を参照し、語句入力部１０１から入力された語句が含まれる文を学習例文からすべて抽出し、抽出した文を原文としてＮグラム生成部１０４に出力する。

Ｎグラム生成部１０４は、原文から学習してＮグラムを生成し、生成したＮグラムを尤度算出部１０６に出力する。
換言文抽出部１０５は、コーパス１１２を参照し、換言句生成部１０２から入力された換言句が含まれる文をコーパス１１２から抽出し、抽出した文を換言文として尤度算出部１０６に出力する。
尤度算出部１０６は、Ｎグラム生成部１０４から入力されたＮグラムと換言文抽出部１０５から入力された換言文とから、各換言文が原文の文脈に近いかどうかを示す尤度を算出し、換言文とその尤度を換言句抽出部１０７に出力する。

換言句抽出部１０７は、尤度算出部１０６から入力された換言文のうち、尤度が閾値以下の換言文を抽出し、抽出した換言文を言語モデル生成部１０８に出力する。本実施の形態における尤度は、値が小さいほうが原文の文脈に近いことを示す。
言語モデル生成部１０８は、換言句抽出部１０７から入力された換言句と学習例文記憶部１１０に記憶された学習例文とによりＮグラムを学習し、言語モデル１１３を生成し、生成した言語モデル１１３を出力する。

次に、語句入力部１０１が学習例文記憶部１１０から読み出した語句を「いい音で聞く」として、詳細な動作を説明する。
図３は、実施の形態１に係る学習例文に含まれる語句５０１「いい音で聞く」を示す図である。

まず、換言句生成部１０２の動作について図４〜７を用いて説明する。
図４は、実施の形態１に係る換言句生成部１０２の処理の流れを示すフローチャートである。
図５は、実施の形態１に係る形態素列５０２を示す図である。「／」は形態素の区切りを示す。
図６は、実施の形態１に係る類義語を付与した形態素５０３を示す図である。「，」は類義語の区切り、「［」、「］」は類義語の単語列を表現するリストの開始、終了を示す記号である。
図７は、実施の形態１に係る換言句５０４を示す図である。

換言句生成部１０２は、語句入力部１０１から入力された語句「いい音で聞く」を形態素解析する。形態素解析では、入力した語句を、意味を持つ最小の単位である形態素に分解する。「いい音で聞く」は形態素解析により、形態素列５０２「いい／音／で／聞く」となる。形態素列５０２を図５に示す（図３のステップＳ１１）。

次に、換言句生成部１０２は、類義語辞書１１１を参照し、助詞を除くすべての形態素について類義語を調べる。
換言句生成部１０２は、形態素列５０２の１番目の形態素「いい」を原表記とする類義語を類義語辞書１１１で検索し、「素晴らしい，正しい，可愛い」を読み出す。換言句生成部１０２は、原表記に類義語を追加した「［いい，素晴らしい，正しい，可愛い］」というリストを生成し、形態素列５０２の１番目の形態素「いい」と入れ替える。次に、換言句生成部１０２は、形態素列５０２の２番目の形態素「音」の類義語を類義語辞書１１１で検索し、「音調，声」を読み出す。換言句生成部１０２は、原表記に類義語を追加した「［音，音調，声］」というリストを生成し、形態素列５０２の２番目の形態素「音」と入れ替える。

形態素列５０２の３番目の形態素「で」は助詞のため、換言句生成部１０２は何もしない。次に、換言句生成部１０２は、形態素列５０２の４番目の形態素「聞く」の類義語を類義語辞書１１１で検索し、「聴く，差し出す」を読み出す。換言句生成部１０２は、原表記に類義語を追加した「［聞く，聴く，差し出す］」というリストを生成し、形態素列５０２の４番目の形態素「聞く」と入れ替える。このようにして、換言句生成部１０２は、形態素列５０２に類義語を付与した形態素列５０３「［いい，素晴らしい，正しい，可愛い］／［音，音調，声］／で／［聞く，聴く，差し出す］」を生成する。類義語を付与した形態素列５０３を図６に示す（図３のステップＳ１２）。

次に、換言句生成部１０２は、類義語を付与した形態素列５０３から各形態素を組み合わせた換言句５０４を生成し、換言句５０４を換言句抽出部１０５に出力する。但し、各形態素すべてを原表記とする組み合わせは換言句５０４に含めない。類義語を含めて「いい」は４通り、「音」は３通り、「聞く」は３通りの単語があるため、「いい音で聞く」の換言句５０４は、４×３×３−１＝３５通りの組み合わせとなる。換言句５０４は、語句５０１の複数の形態素のうち１以上の形態素を原表記の類義語に置き換えたものである。「いい音で聞く」の換言句５０４を図７に示す（図３のステップＳ１３）。

次に、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６および換言句抽出部１０７の動作について図８〜１２を用いて説明する。
図８は、実施の形態１に係る原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６および換言句抽出部１０７の処理の流れを示すフローチャートである。
図９は、実施の形態１に係る原文５０５を示す図である。
図１０は、実施の形態１に係る換言文５０６を示す図である。
図１１は、実施の形態１に係る換言文５０６の尤度情報を示す図である。
図１２は、実施の形態１に係る換言句５０４とその平均尤度の一覧５０８を示す図である。

原文抽出部１０３は、学習例文記憶部１１０が記憶する学習例文を参照し、学習例文のうち語句５０１「いい音で聞く」を含む文をすべて抽出する。本実施の形態において、抽出されたこれらの文を原文と呼ぶ。原文抽出部１０３は、原文をＮグラム生成部１０４に出力する。「いい音で聞く」を含む原文５０５を図９に示す（図８のステップＳ２１）。

次に、Ｎグラム生成部１０４は、原文抽出部１０３から入力された原文に基づいてＮグラム言語モデルを生成し、尤度算出部１０６に出力する。Ｎグラム言語モデルを生成する処理は、周知の方法を適用すればよい。Ｎグラム生成部１０４は、例えば非特許文献１のｐ．５３〜６５に記載されている方法でＮグラム言語モデルを生成する（図８のステップＳ２２）。

次に、換言文抽出部１０５は、コーパス１１２を参照し、換言句生成部１０２から入力された換言句５０４のうちいずれかが含まれる文をすべて抽出する。換言文抽出部１０５は、抽出した文を換言文として、尤度算出部１０６に出力する。換言文の例として、換言句「いい音で聴く」を含む換言文５０６を図１０に示す（図８のステップＳ２３）。

次に、尤度算出部１０６は、Ｎグラム生成部１０４から入力されたＮグラム言語モデルと換言文抽出部１０５から入力された換言文５０６とを用いて単語テストセットパープレキシティ（以降、ＰＰと称す）とカバー率（本実施の形態では単語カバー率）を算出する。ＰＰは、言語モデルを評価するための尺度であり、ある単語１個が出現する確率の相乗平均の逆数で定義される。ＰＰが低いと、その言語モデルは認識したい文とそうでない文を峻別する能力が高いことを意味する。カバー率は、言語モデルが単語連鎖をカバーしている割合を示す値である。ＰＰとカバー率は、Ｎグラム言語モデルと換言文５０６を用いて周知の方法で求められる。ＰＰとカバー率を求める方法の詳細を実施の形態３に記載する。
尤度算出部１０６は、ＰＰとカバー率Ｃを用いて数式（１）により尤度Ｌを求める。このとき、αは未知語補正定数で本実施の形態においては４とする。

換言文５０６の尤度情報を図１１に示す。「スピーカーでいい音で聴くためにオーディオを揃えるのもいいが・・・」はカバー率が１００．０％、ＰＰが１０８．７、尤度が２．０４である。「このいい音で聴くためにはいろいろな条件がありますがスピーカーに・・・」は、カバー率が１００．０％、ＰＰが１２８．２、尤度が２．１１である。尤度は、原文に対する各換言文５０６のクロスエントロピーをカバー率で補正した値であるといえる。尤度は、各換言文５０６の文脈と原文５０５全体との近さを表している（図８のステップＳ２４）。

次に、尤度算出部１０６は、各換言句５０４について平均尤度を算出する。平均尤度μは数式（２）で求められる。このとき、同一の換言句の数をｎ、同一の換言句の尤度をＴｎとする。

尤度算出部１０６は、換言句５０４とその平均尤度の一覧５０８を換言句抽出部１０７に出力する。換言句５０４とその平均尤度の一覧５０８を図１２に示す（図８のステップＳ２５）。

次に、換言句抽出部１０７は、換言句５０４のうち閾値より小さい平均尤度のものを抽出する。換言句抽出部１０７は、本実施の形態において、あらかじめ閾値２．６８を保持しているものとする。尤度が低いほどクロスエントロピーが低く、文脈が近いことから、換言句の意味が原文に類似している確率が高くなる。
図１３は、実施の形態１に係る閾値より小さい平均尤度を有する換言句の一覧５０９を示す図である。
換言句抽出部１０７は、閾値より小さい平均尤度を有する換言句の一覧５０９を言語モデル生成部１０８に出力する（図８のステップＳ２６）。

言語モデル生成部１０８は、換言句抽出部１０７から入力された換言句と学習例文記憶部１１０に記憶された学習例文を用いてＮグラムモデルの言語モデルを生成し、出力する。言語モデルは、例えば非特許文献１のｐ．５３〜６５に記載されている方法で生成する。

次に、本実施の形態の言語モデル生成装置のハードウェア構成について説明する。
図１４は、実施の形態１に係る言語モデル生成装置１００のハードウェア構成を示すブロック図である。言語モデル生成装置１００は、メモリ１２１およびプロセッサ１２２から構成される。
メモリ１２１は、語句入力部１０１、換言句生成部１０２、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６、換言句抽出部１０７および言語モデル生成部１０８の各機能を実現するためのプログラム及びデータを記憶する。メモリ１２１は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）で構成される。

プロセッサ１２２は、メモリ１２１に記憶されたプログラム及びデータを読み出し、語句入力部１０１、換言句生成部１０２、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６、換言句抽出部１０７および言語モデル生成部１０８の各機能を実現する。プロセッサ１２２は、メモリ１２１に記憶されたプログラムを実行するＣＰＵ、システムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の処理回路により、実現される。
なお、複数の処理回路が連携して、語句入力部１０１、換言句生成部１０２、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６、換言句抽出部１０７および言語モデル生成部１０８の機能を実行するように構成してもよい。また、語句入力部１０１、換言句生成部１０２、原文抽出部１０３、Ｎグラム生成部１０４、換言文抽出部１０５、尤度算出部１０６、換言句抽出部１０７および言語モデル生成部１０８の各機能は、メモリ１２１およびプロセッサ１２２で構成される処理回路によりハードウェアで実現するようにしてもよい。

次に、このようにして生成した言語モデル１１３を利用した音声認識装置について説明する。
図１５は、実施の形態１に係る言語生成装置１００により生成された言語モデル１１３を用いる音声認識装置２００の構成を示すブロック図である。音声認識装置２００は、音声入力部２０１、音声認識部２０２、言語モデル記憶部２０３、音響モデル記憶部２０４および表示部２０５から構成される。
音声入力部２０１は、ユーザが発した音声をデジタル処理可能なデジタル音声信号に変換する。音声入力部２０１が出力するデジタル音声信号は音声認識部２０２に入力される。

言語モデル記憶部２０３は、上述の言語モデル生成装置１００から出力される言語モデル１１３を記憶している。
音響モデル記憶部２０４は、音素の単位で音声の標準的な特徴量のパターンから成る音響モデルを記憶している。音響モデルは音声認識処理において入力音声の特徴量と照合され、音素単位での入力音声の認識に用いられるものである。
音声認識部２０２は、入力されたデジタル音声信号について、音響モデル記憶部２０３に記憶された音響モデルと言語モデル記憶部２０２に記憶された言語モデル１１３とを参照して、音声認識を行う。音声認識部２０２は、最尤の音声認識の結果の単語系列を表示部２０５に出力する。
表示部２０５は、音声認識部２０２から入力された単語系列を表示する。

次に、本実施の形態の音声認識装置２００のハードウェア構成について説明する。
図１６は、実施の形態１に係る言語生成装置１００により生成された言語モデル１１３を用いる音声認識装置２００のハードウェア構成を示すブロック図である。音声認識装置２００は、マイクロホン２１１、メモリ２１２、プロセッサ２１３およびディスプレイ２１４から構成される。
マイクロホン２１１は、音声入力部２０１の機能を実現する。
メモリ２１２は、音声認識部２０２、言語モデル記憶部２０３および音響モデル記憶部２０４の各機能を実現するためのプログラム及びデータを記憶する。メモリ２１２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）で構成される。

プロセッサ２１３は、メモリ２１２に記憶されたプログラム及びデータを読み出し、音声認識部２０２の各機能を実現する。プロセッサ２１３は、メモリ２１２に記憶されたプログラムを実行するＣＰＵ、システムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の処理回路により、実現される。
なお、複数の処理回路が連携して、音声認識部２０２の機能を実行するように構成してもよい。
ディスプレイ２１４は、表示部２０５の機能を実現する。

同じような意味であってもユーザによって「いい音で聞く」を「素晴らしい音で聞く」、「優れた音質で聴く」のように表現することもあり、家電機器の取扱説明書の文章を学習例文とするだけでは、音声認識部２０２が認識できない言い回しがあるが、本実施の形態により、音声認識部２０２はより広い言い回しを認識できるようになる。

本実施の形態において、「いい音で聞く」を例に換言句を抽出する処理を説明したが、言語モデル生成装置１００は、学習例文記憶部１１０に記憶される学習例文からすべての語句を読み出し、すべての語句について原文の文脈に近い換言句を抽出し、学習例文と抽出した換言句とから言語モデルを生成する。しかし、学習例文のすべての語句について処理を行うと計算量が多くなるため、例えば取扱説明書の章および節のタイトルに使われている語句に限定して本実施の形態の処理を行い、言語モデルを生成するようにしても音声認識の誤認識を低減させる効果がある。

また、本実施の形態において、換言句生成部１０２で生成した換言句５０４から尤度を用いて原文の文脈に近い換言句を換言句抽出部１０７にて抽出するようにしたが、換言句生成部１０２で生成した換言句と学習例文から言語モデルを作成するようにしてもよい。
図１７は、実施の形態１に係る言語モデル生成装置１２０の構成を示すブロック図である。換言句生成部１０２は、類義語辞書１１１を参照し、語句入力部１０１から入力された語句の類義の語句である換言句５０４を生成し、生成した換言句５０４を言語モデル生成部１０８に出力する。言語モデル生成部１０８は、換言句生成部１０２から入力された換言句５０４と学習例文記憶部１１０に記憶された学習例文とによりＮグラムモデルを生成し、生成したＮグラムモデルを言語モデルとして出力する。言語モデル生成装置１２０は、学習例文に加えて換言句５０４からＮグラムモデルを生成するので、学習例文に存在しない単語連鎖でも音声認識の誤認識を低減させる言語モデルを生成することができる。
なお、言語モデル生成装置１００は、換言句のうち原文の文脈に近い換言句と学習例文とから言語モデルを生成するので、言語モデル生成装置１２０と比較して言語モデル生成部１０８の処理量を削減した上で、さらに誤認識を低減させるような言語モデルを生成することができる。

したがって、本実施の形態では、学習例文に加えて原文の文脈に近い換言句から学習したＮグラムを用いて言語モデルを生成するので、学習例文に存在しない単語連鎖でも音声認識の誤認識を低減させるような言語モデルを生成することができる。また、音声認識装置２００は、このような言語モデルを用いて音声認識をすることにより、誤認識を低減することができる。
また、分野によっては学習例文を多く用意できない場合がある。そのような場合でも本実施の形態は学習例文に加えて原文の文脈に近い換言句から学習したＮグラムを用いて言語モデルを生成するので、音声認識の誤認識を低減させる言語モデルを生成することができる。

実施の形態２．
以上の実施の形態１では、各換言句について平均尤度を求めるようにしたものであるが、本実施の形態においては、換言句に含まれる単語の異表記を統一した後に平均尤度を求める実施の形態を示す。これにより、換言句の尤度のばらつきを抑制し、より高精度に尤度を推定できる効果を奏する。

図１８は、実施の形態２に係る言語モデル生成装置１００の構成を示すブロック図である。言語モデル生成装置１００の構成は、尤度算出部１０６が異表記記憶部１１４を参照するようにした以外は実施の形態１と同じである。
図１９は、実施の形態２に係る異表記記憶部１１４が記憶するデータの例を示す図である。異表記記憶部１１４は、同じ意味で異なる表記である単語を対応付けて記憶している。「いい」、「よい」および「良い」、「かわいい」および「可愛い」はいずれも同じ意味の異なる表記である。

尤度算出部１０６は、図８のステップＳ２５において、各換言句について平均尤度を算出するときに、異表記記憶部１１４を参照し、同じ表記の換言句に加えて異表記の換言句の尤度をすべて相加平均し、平均尤度を求める。
図２０は、実施の形態２に係る異表記を統一した換言句とその平均尤度の一覧６０１を示す図である。図２０では、実施の形態１の図１２と比較して、「いい音で聴く」、「良い音で聴く」、および「よい音で聴く」を「いい音で聴く」に統一している。また、「かわいい声で聞く」、「可愛い声で聞く」を「かわいい声で聞く」に統一している。
尤度算出部１０６は、異表記を統一した換言句とその平均尤度の一覧６０１を換言句抽出部１０７に出力する。

換言句抽出部１０７は、図８のステップＳ２６において、換言句のうち閾値より小さい平均尤度のものを抽出する。閾値は実施の形態１と同様に２．６８である。
図２１は、実施の形態２に係る閾値より小さい平均尤度を有する換言句の一覧６０２を示す図である。
換言句抽出部１０７は、閾値より小さい平均尤度を有する換言句の一覧６０２を言語モデル生成部１０８に出力する。

なお、本実施の形態において、異表記記憶部１１４があらかじめ同じ意味で異なる表記である単語を対応付けて記憶し、尤度算出部１０６が異表記記憶部１１４を参照して異表記の換言句を統一するようにしたが、異表記記憶部１１４を設けず、異表記の換言句をユーザが指示し、その指示にしたがって尤度算出部１０６が異表記の換言句を統一するようにしてもよい。

したがって、本実施の形態では、異なる表記の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出するので、異なる表記による換言句の尤度のばらつきを抑制し、より高精度に尤度を推定することができる。また、異表記が統一されるため、音声認識でも言語モデルの尤度のばらつきを抑制するという効果を奏する。

実施の形態３．
上述の実施の形態１に、ＰＰとカバー率は、Ｎグラム言語モデルと換言文を用いて周知の方法で求められると記載した。本実施の形態において、ＰＰとカバー率を求める方法の詳細を説明する。
本実施の形態では、ＰＰとカバー率を求める方法について、日本語のＮグラム言語モデルと換言文を用いて説明する。
Ｎグラム言語モデルは、非特許文献１のｐ．１４７〜１５５に記載されている「ＣＭＵ−ＣａｍｂｒｉｄｇｅＳＬＭＴｏｏｌｋｉｔ」（以下、言語モデル生成ツールと称す）を用いて生成されたものである。形態素解析は、非特許文献１のｐ．１３５に記載されている形態素解析器「茶筅」を用いて行われる。形態素解析では、文頭、文末は＜ｓ＞の表記で表される。また、ＰＰとカバー率は、非特許文献１のｐ．１５３〜１５４に記載されている言語モデルの評価方法により求められる。

図２２は、実施の形態３に係る原文７０１を示す図である。
図２３は、実施の形態３に係る換言句７０２を示す図である。
図２４は、実施の形態３に係る原文７０１を形態素解析した形態素解析結果７０３を示す図である。各行が１つの形態素を示しており、それぞれの列が形態素の表記、読み、原型、品詞を示す。ＥＯＳは文末を示す。
図２５は、実施の形態３に係る形態素解析結果７０３から変換した原文．ｔｅｘｔファイル７０４を示す図である。原文．ｔｅｘｔファイル７０４では、各形態素が「表記＋読み＋品詞」で示され、次の形態素との区切りは空白で示されている。

図２６は、実施の形態３に係る言語モデル作成ツールを用いて言語モデルを生成する手順７０５を示す図である。
図２７は、実施の形態３に係るＮグラム言語モデルの一例である原文．ａｒｐａファイル７０６を示す図である。
図２８は、実施の形態３に係る換言文７０２を形態素解析した形態素解析結果７０７を示す図である。
図２９は、実施の形態３に係るＰＰおよびカバー率の算出結果７０８を示す図である。
図３０は、実施の形態３に係る換言文．ａｎｎｏファイル７０９を示す図である。

以下、詳細を説明する。原文は図２２の原文７０１、換言文は図２３の換言文７０２を用いる。Ｎグラム生成部１０４は、原文抽出部１０３から入力された原文７０１を形態素解析器「茶筅」で形態素解析し、形態素解析結果７０３を得る。次に、Ｎグラム生成部１０４は、形態素解析結果７０３から原文．ｔｅｘｔファイル７０４に変換する。次に、Ｎグラム生成部１０４は、図２６に示す言語モデル生成手順により、原文．ｔｅｘｔファイル７０４から原文．ａｒｐａファイル７０６を生成し、原文．ａｒｐａファイル７０６をＮグラム言語モデルとして尤度算出部１０６に出力する。図２７に示す原文．ａｒｐａファイル７０６では、ディスカウント手法としてＧｏｏｄ−Ｔｕｒｉｎｇのパラメータ値、Ｎグラムのエントリ数、１−ｇｒａｍ、２−ｇｒａｍ、３−ｇｒａｍのそれぞれの対数尤度とバックオフ計数が示されている。

さらに、Ｎグラム生成部１０４は、原文７０１と同様の手順で換言文７０２を形態素解析器「茶筅」で形態素解析し、形態素解析結果７０７を得る。次に、Ｎグラム生成部１０４は、形態素解析結果７０７を換言文．ｔｅｘｔ７０７に変換し、換言文．ｔｅｘｔ７０７を尤度算出部１０６に出力する。

尤度算出部１０６は、原文．ａｒｐａファイル７０６と換言文．ｔｅｘｔ７０７から言語モデル生成ツールを用いてＰＰとカバー率を算出する。原文．ａｒｐａファイル７０６は、Ｎグラム生成部１０４から出力されたＮグラム言語モデルである。ＰＰおよびカバー率の算出結果７０８を図２９に示す。言語モデル生成ツールにおいて、ｅｖａｌｌｍコマンドで原文．ａｒｐａファイルが入力され、続いてｐｅｒｐｌｅｘｉｔｙコマンドで、換言文．ｔｅｘｔが入力されることにより、Ｐｅｒｐｌｅｘｉｔｙ＝９．０７、ＯＯＶｓ（５０．００％）が得られる。ＯＯＶは未知語率を表し、この結果からＰＰ＝９．０７、カバー率＝１００．０−５０．０＝５０．０％が得られる。この計算過程は換言文．ａｎｎｏファイル７０９として出力される。

換言文．ａｎｎｏファイル７０９の各行が、Ｎグラム言語モデルで計数可能な単語の生起確率を示している。換言文．ｔｅｘｔ７０７の１２単語に対して計算可能な単語が６行の６単語であるから、カバー率は６÷１２×１００＝５０で５０％となる。また、計算可能な単語が６単語であるから、ＰＰはＰＰ＝（０．０７６９３０８×０．０７６９３０８×０．０７６９３０８×０．６６６６５３×０．０７６９３０８×０．０７６９３０８）＾（−１÷６））＝９．０６９８４４０となり、小数点以下第３位を四捨五入して９．０７となる。なお、計算の簡単のため、対数確率であるｌｏｇｐｒｏｂを用いても良い。
このようにして、原文と換言文とを用いて、ＰＰとカバー率を算出することができる。

したがって、本実施の形態では、尤度算出部１０６は、原文と換言文とを用いてＰＰとカバー率を算出するので、換言文が原文の文脈に近いかどうかを示す尤度を算出することができる。

１００、１２０言語モデル生成装置
１０１語句入力部
１０２換言句生成部
１０３原文抽出部
１０４Ｎグラム生成部
１０５換言文抽出部
１０６尤度算出部
１０７換言句抽出部
１０８言語モデル生成部
１１０学習例文記憶部
１１１類義語辞書
１１２コーパス
１１３言語モデル
２００音声認識装置
２０１音声入力部
２０２音声認識部
２０３言語モデル記憶部
２０４音響モデル記憶部
２０５表示部
１２１、２１２メモリ
１２２、２１３プロセッサ
２１１マイクロホン
２１４ディスプレイ
５０１語句
５０２、５０３形態素列
５０４換言句
５０５、７０１原文
５０６、７０２換言文
５０７尤度の一覧
５０８、５０９平均尤度の一覧
７０３、７０７形態素解析結果
７０４原文．ｔｅｘｔファイル
７０５手順
７０６原文．ａｒｐａファイル
７０８ＰＰおよびカバー率の算出結果
７０９換言文．ａｎｎｏファイル

Claims

複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成部と、
複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出部と、
前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出部と、
前記換言文抽出部から入力される前記換言文が前記原文抽出部から入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出部と、
前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出部と、
前記換言句抽出部から抽出された換言句と前記学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成部と、
を備えることを特徴とする言語モデル生成装置。
前記尤度算出部は、同一の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出し、
前記換言句抽出部は、前記平均尤度が前記閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出することを特徴とする請求項１に記載の言語モデル生成装置。
前記尤度算出部は、異なる表記の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出し、異なる表記を統一した換言句の尤度とすることを特徴とする請求項２に記載の言語モデル生成装置。
換言句生成部が、複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、
換言文抽出部が、複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、
原文抽出部が、前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出ステップと、
尤度算出部が、前記換言文抽出部から入力される前記換言文が前記原文抽出部から入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、
換言句抽出部が、前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、
言語モデル生成部が、前記換言句抽出部から抽出された換言句と前記学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成ステップと、
を有する言語モデル生成方法。
複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、
複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、
前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出ステップと、
前記換言文ステップにより入力される前記換言換言文が前記原文抽出ステップにより入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、
前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、
前記換言句抽出ステップにより抽出された換言句と前記学習用の例文とからＮグラムモデルの言語モデルを生成する言語モデル生成ステップと、
をコンピュータに実行させるためのプログラム。