JP5755603B2

JP5755603B2 - 言語モデル作成装置、言語モデル作成方法、プログラム

Info

Publication number: JP5755603B2
Application number: JP2012133632A
Authority: JP
Inventors: 亮増村; 高橋　敏; 敏高橋; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2015-07-29
Anticipated expiration: 2032-06-13
Also published as: JP2013257451A

Description

本発明は音声認識に用いる言語モデルを作成する言語モデル作成装置、言語モデル作成方法、プログラムに関する。

音声認識では、言語的に認識結果を予測するために、文脈ごとに言語現象（基本的には単語）の生起確率を定義した言語モデルが使用される。言語モデルは、大量のテキストから学習することができる。高精度な音声認識を実現する方法として、認識したい音声のタスクに特化した言語モデルを使うことが有効であることが知られている。特化するとは、そのタスクでよく使われる言語現象に高い生起確率を与えることである。つまり、ニュース音声を認識する際は、ニュース音声に特化した言語モデル、コールセンター音声を認識する際は、コールセンター音声に特化した言語モデルが有効である。この特定のタスクに特化した言語モデルは、そのタスクの音声を人手により書き起こすことで得られたテキスト（書き起こしテキスト）を用いて学習するのが一般的な方法である。しかしながら、書き起こしテキストを大量に集めることは、時間や人件費といったコストの面が大きく困難である。これに対して、書き起こしテキストとは別の言語リソース（Ｗｅｂや新聞などのテキスト情報）を用いて、タスクに関連するテキストを集めて使用する方法がある。非特許文献１や非特許文献２にあるように、別の言語リソースから収集したタスクに関連するテキスト（タスク内テキスト）と書き起こしテキストとを組み合わせることで、新たな書き起こしを行うことなしに、言語モデルを拡張することができる。言語モデルの拡張方法としては、非特許文献３のように、新たなテキスト内の言語現象を元のテキストに対して頻度レベルで足し合わせてから確率モデル化する方法と、非特許文献４のように、新たなテキストに対して生起確率を算出してから生成確率レベルで足し合わる方法がある。

これらの従来技術においては、別の言語リソースからタスク内テキストをどのように選択するかが重要な問題となる。タスクに関して使える情報は、書き起こしテキスト内の言語現象の情報のみであり、この情報を用いてどのように選択を行うかが言語モデルの性能を大きく左右する。

例えば特許文献１には、書き起こしテキストから言語モデルを作成し、その言語モデルを用いて、他の言語リソースに含まれる各テキストのパープレキシティを計算し、パープレキシティが小さいテキストから優先的にタスク内テキストとして利用するアプローチが示されている。パープレキシティとは、情報理論的な意味での単語の平均分岐数のことである。あるテキストのある言語モデルに対するパープレキシティが小さいほど、当該テキストと当該言語モデルの学習テキストとが互いに近い言語現象であると考えられる。特許文献１では、パープレキシティが小さいテキストに対して、重みを付与して言語モデルの学習に利用するというアプローチが用いられている。

特開２００２−０８２６９０号公報

M.Mahajan, D.Beeferman and X.D.Huang, " Improved topic-dependent language modeling using information retrieval techniques ", In Proceedings of International Conference on Acoustics Speech and Signal Processing, 1999. D.Klakow, " Selecting articles from the language model training corpus ", In Proceedings of International Conferenceon Acoustics Speech and Signal Processing, Vol.3, pp.1695-1698, 2000. Ryo Masumura, Seongjun Hahm, and Akinori Ito "Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition" R.Iyer and M.Ostendorf, " Modeling long distance dependence in language: topic mixtures vs. dynamic cache models ", IEEE Transactions on Speech and Audio Processing, vol.7, no.1, pp.30-39, 1996.

従来技術では、書き起こしテキストから作成した言語モデルとのパープレキシティに基づき別の言語リソースからタスク内テキストを選択しているため、書き起こしテキストに似たテキストばかりが収集されてしまう。つまり、このように収集されたテキストには書き起こしテキストに含まれる単語連鎖ばかりが含まれる可能性が高い。このように書き起こしテキストに含まれる単語連鎖のみが含まれるテキストのことをタスク内既知テキストと呼ぶことにする。タスク内既知テキストと書き起こしテキストと組み合わせることで言語モデルの拡張を行うと、既知でかつ生起確率がもともと高い言語現象の生成確率がさらに上昇し、音声認識の際はタスクにおいて頻出の言語現象のみ高精度で認識でき、タスクにおいてあまり出現しない言語現象や予め用意した書き起こしテキスト内において未観測の言語現象に対しては認識誤りを起こしてしまうといった問題が発生してしまう。

上述の課題を解決するためには、既知の単語連鎖のみを含むタスク内既知テキストではなく、未知の単語連鎖を含むタスク内未知テキストを選択する必要がある。タスク内未知テキストとは、タスクにおいて起こり得ると考えられるが、予め用意した書き起こしテキスト内において未観測の言語事象を含むテキストのことである。しかしながら、あるテキスト内に書き起こしテキスト内未観測の言語現象を多く含みすぎる場合は、当該テキストがタスクに対して無関係な言語現象で構成されたテキスト（タスク外テキスト）である場合もある。タスク外テキストはタスクに対する言語モデルの作成に有効でない。従って、タスク内既知テキストでもタスク外テキストでもなく、タスク内未知テキストを集めるためには、書き起こしテキストからタスク内未知テキストの特徴を何らかの手段で捉えることが重要となる。

そこで、本発明では、書き起こしテキストから得られる言語現象の生起確率分布を大きく変化させることなく、未知の単語連鎖を多く含む言語モデルを学習できる言語モデル作成装置を提供することを目的とする。

本発明の言語モデル作成装置は、タスク内未知モデル生成部と、タスク内未知テキスト選択部と、言語モデル拡張部とを備える。タスク内未知モデル生成部は、書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布（以下、タスク内未知モデルという）を生成する。タスク内未知テキスト選択部は、タスク内未知モデルと、書き起こしテキストとを用いて、書き起こしテキストとは別の予め用意した言語リソース（以下、別の言語リソースという）からタスク内未知テキストを選択する。言語モデル拡張部は、書き起こしテキストとタスク内未知テキストから言語モデルを作成する。なお、タスク内未知テキストとは、予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ書き起こしテキスト内で未観測の言語現象を含むテキストを意味する。

本発明の言語モデル作成装置によれば、書き起こしテキストから得られる言語現象の生起確率分布を大きく変化させることなく、未知の単語連鎖を多く含む言語モデルを学習できる。

本発明の実施例１の言語モデル作成装置の構成を示すブロック図。本発明の実施例１の言語モデル作成装置の動作を示すフローチャート。タスク内未知モデル生成部の構成を示すブロック図。タスク内未知モデル生成部の動作を示すフローチャート。第１タスク内未知らしさ特徴量生成手段の構成を示すブロック図。第１タスク内未知らしさ特徴量生成手段の動作を示すフローチャート。タスク内未知テキスト選択部の構成を示すブロック図。タスク内未知テキスト選択部の動作を示すフローチャート。第２タスク内未知らしさ特徴量生成手段の構成を示すブロック図。第２タスク内未知らしさ特徴量生成手段の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜用語の説明＞
［タスク］
ある認識対象のスタイルや話題の傾向のこと。例えば、「コールセンター音声タスク」や「ニュース音声タスク」、「会議音声タスク」のように使う。

［書き起こしテキスト］
タスクに関する音声の書き起こしによって得られたテキスト、またはテキスト群を意味する。

［タスク内テキスト］
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象で構成されたテキスト、またはテキスト群を意味する。

［タスク内既知テキスト］
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象であってかつ予め用意した書き起こしテキストで観測された言語現象のみで構成されるテキスト、またはテキスト群を意味する。

［タスク内未知テキスト］
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象であってかつ予め用意した書き起こしテキストでは未観測の言語現象を含むテキスト、またはテキスト群を意味する。

［タスク外テキスト］
タスクに対して関係ない言語現象で構成されたテキスト、またはテキスト群を意味する。

［別の言語リソース］
タスクの書き起こしテキストとは別の利用可能なテキスト群（Ｗｅｂや新聞などのテキスト情報）を意味する。本明細書では予め用意した別の言語リソースを単に別の言語リソースとも表記する。

［言語モデル］
ある文脈における単語や単語連鎖が生成する確率が定義したものである。代表的な言語モデルとしては、Ｎグラムモデル、隠れマルコフモデル、最大エントロピーモデルなどがある。音声認識においては３−ｇｒａｍモデルが最も頻繁に用いられる。本発明では言語モデルを音声認識において言語的に認識結果を予測するために用いる。言語モデルは大量のテキストから学習できる。

［言語モデルの拡張］
言語モデルの性能を高めるために、別の言語リソースから得られたテキストを用いて、学習テキストを増やすことでタスクに対する言語モデルを作成することを意味する。

［タスク内未知モデル］
対象タスクにおけるタスク内未知らしさを表したモデルである。任意のテキストに対して、タスク内未知らしさのスコアを与える確率分布を意味する。

＜本発明のポイント＞
本発明では、別の言語リソースからタスク内未知テキストを優先的に選択するために、書き起こしテキストを用いて、タスク内未知らしさのスコアを任意のテキストに対して与えることができる言語モデル作成装置、言語モデル作成方法、プログラムを実現した。本発明では、書き起こしテキストを用いてタスク内未知のモデル化を行う。このモデルをタスク内未知モデルと呼ぶことにする。そして、別の言語リソースの各テキストに対して、タスク内未知らしいかどうかのスコアを計算し、各テキストに順位づけを行う。その順位付けに従って、よりタスク内未知らしいテキストを用いて言語モデルを拡張する。本発明は、従来のパープレキシティを利用する方法と同様に、タスクの書き起こしテキストと別の言語リソースがあれば、実行することができる。

以下、図１、図２を参照して実施例１の言語モデル作成装置の構成および動作の概要について説明する。図１は本実施例の言語モデル作成装置１の構成を示すブロック図である。図２は本実施例の言語モデル作成装置１の動作を示すフローチャートである。図１に示すように、本実施例の言語モデル作成装置１は、タスク内未知モデル生成部１１と、タスク内未知モデル記憶部１２と、タスク内未知テキスト選択部１３と、言語モデル拡張部１４と、言語モデル記憶部１５とを備える。

＜タスク内未知モデル生成部１１＞
入力：書き起こしテキスト２
出力：タスク内未知モデル
タスク内未知モデル生成部１１は、予め用意した書き起こしテキスト２を学習テキストとして用いて、タスク内未知モデルを生成する（Ｓ１１）。タスク内未知モデル生成部１１は生成したタスク内未知モデルをタスク内未知モデル記憶部１２に記憶する。タスク内未知モデルとは前述したように対象タスクにおけるタスク内未知らしさを表したものである。具体的には、タスク内未知モデルとは書き起こしテキスト２をタスクの典型的なテキストとした場合に、任意のテキストに対して当該タスクにおけるタスク内未知らしさのスコアを与える確率分布を意味する。タスク内未知モデル生成部１１の構成、および動作については詳細を後述する。

＜タスク内未知テキスト選択部１３＞
入力：タスク内未知モデル、別の言語リソース３、書き起こしテキスト２
出力：タスク内未知テキスト４
タスク内未知テキスト選択部１３は、タスク内未知モデルと、書き起こしテキスト２とを用いて、書き起こしテキスト２とは別の予め用意した言語リソース３（以下、単に別の言語リソース３という）からタスク内未知テキストを選択する（Ｓ１３）。つまり、タスク内未知テキスト４は、別の言語リソース３の部分集合である。書き起こしテキスト２は、別の言語リソース３の各テキストに対してタスク内未知らしさに関する特徴量（以下、タスク内未知らしさ特徴量という）を生成する際に利用される。タスク内未知テキスト選択部１３の構成、および動作については詳細を後述する。

＜言語モデル拡張部１４＞
入力：書き起こしテキスト２、タスク内未知テキスト４
出力：拡張された言語モデル
言語モデル拡張部１４は、書き起こしテキスト２とタスク内未知テキスト４から拡張された言語モデルを作成する（Ｓ１４）。つまり、言語モデル拡張部１４は音声認識のための確率モデルを作成する。言語モデル拡張部１４は、書き起こしテキスト２とタスク内未知テキスト４に対して、両テキストを単純に結合し、一般的な言語モデルの生成方法を適用することで、拡張された言語モデルを生成する。言語モデル拡張部１４は、生成した言語モデルを言語モデル記憶部１５に記憶する。

以下、図３、図４を参照してタスク内未知モデル生成部１１の構成、および動作について詳述する。図３はタスク内未知モデル生成部１１の構成を示すブロック図である。図４はタスク内未知モデル生成部１１の動作を示すフローチャートである。図３に示す通り、タスク内未知モデル生成部１１は、第１サブセット分割手段１１１と、第１タスク内未知らしさ特徴量生成手段１１２と、タスク内未知モデル学習手段１１３とを備える。

＜第１サブセット分割手段１１１＞
入力：書き起こしテキスト２
出力：書き起こしテキスト２のサブセット（Ｍ個：Ｍ≧２、例えばＭは１０００程度とすることができる）
第１サブセット分割手段１１１は、タスクの書き起こしテキスト２を、Ｍ個のサブセットに分割する（ＳＳ１１１）。サブセットとは、書き起こしテキスト２の構成単位のことである。サブセットを例えば文書単位（１サブセット＝１文書）とすることができる。サブセットを文書単位とした場合、例えば合計Ｍ個の文書からなる書き起こしテキスト２は合計Ｍ個のサブセットに分割される。本明細書では、Ｍ分割した書き起こしテキスト２のサブセットをＤ_１、．．．、Ｄ_ｍ、…、Ｄ_Ｍ（ｍは１≦ｍ≦Ｍを充たす整数）と記載する。

＜第１タスク内未知らしさ特徴量生成手段１１２＞
入力：書き起こしテキスト２のサブセット（Ｍ個）
出力：書き起こしテキスト２の各サブセットのタスク内未知らしさ特徴量（Ｍ個）
第１タスク内未知らしさ特徴量生成手段１１２は、Ｍ個の書き起こしテキスト２のサブセットそれぞれに対して、タスク内未知らしさ特徴量を生成する（ＳＳ１１２）。従って、第１タスク内未知らしさ特徴量生成手段１１２は、合計Ｍ個のタスク内未知らしさ特徴量ｓ_１、…、ｓ_ｍ、…、ｓ_Ｍを生成する。第１タスク内未知らしさ特徴量生成手段１１２の構成、および動作については詳細を後述する。

＜タスク内未知モデル学習手段１１３＞
入力：書き起こしテキスト２の各サブセットのタスク内未知らしさ特徴量ｓ_１、…、ｓ_ｍ、…、ｓ_Ｍ
出力：タスク内未知モデル
タスク内未知モデル学習手段１１３は、書き起こしテキスト２の各サブセットのタスク内未知らしさ特徴量からタスク内未知モデルを学習する（ＳＳ１１３）。具体的には、タスク内未知モデル学習手段１１３は、各サブセットのタスク内未知らしさ特徴量の分布を確率分布ｐ（ｓ）として近似することでタスク内未知モデルを学習する。各タスク内未知らしさ特徴量がある正規分布に従うと仮定した場合は、次のようなパラメトリックなモデルとして、タスク内未知モデルを求めることができる。まず、タスク内未知らしさ特徴量ｓ_１、…、ｓ_ｍ、…、ｓ_Ｍに対する平均μ_Ｓと、分散σ_Ｓ ^２は次の式に従う。

平均μ_Ｓと、分散σ_Ｓ ^２から、ｐ（ｓ）は次式に従い求めることができる。

ｐ（ｓ）を、タスク内未知テキスト４に対するモデル（タスク内未知モデル）とみなす。

以下、図５、図６を参照して、第１タスク内未知らしさ特徴量生成手段１１２の構成、および動作について詳述する。図５は第１タスク内未知らしさ特徴量生成手段１１２の構成を示すブロック図である。図６は第１タスク内未知らしさ特徴量生成手段１１２の動作を示すフローチャートである。図５に示す通り、第１タスク内未知らしさ特徴量生成手段１１２は、第１全体言語モデル学習部１１２１と、第１全体言語モデル記憶部１１２２と、第１部分言語モデル学習部１１２３と、第１部分言語モデル記憶部１１２４と、第１特徴量計算部１１２５とを備える。

＜第１全体言語モデル学習部１１２１＞
入力：書き起こしテキスト２全体
出力：第１全体言語モデル
第１全体言語モデル学習部１１２１は、書き起こしテキスト２全体を学習テキストとしてＮ−ｇｒａｍ言語モデルＬ_ａｌｌを学習する（ＳＳ１１２１）。言語モデルＬ_ａｌｌを、第１全体言語モデルと呼ぶことにする。第１全体言語モデル学習部１１２１は、学習した第１全体言語モデルを第１全体言語モデル記憶部１１２２に記憶する。

＜第１部分言語モデル学習部１１２３＞
入力：ｍ番目のサブセットを除いたその他のサブセット（Ｍ−１個）
出力：ｍ番目の第１部分言語モデル
第１部分言語モデル学習部１１２３は、ｍ番目のサブセットを除いたその他のサブセットを用いて、Ｎ−ｇｒａｍ言語モデルＬ_ｍを学習する（ＳＳ１１２３）。言語モデルＬ_ｍをｍ番目の第１部分言語モデルと呼ぶことにする。なお第１部分言語モデル学習部１１２３は、ｍ＝１、２、３、…、ＭのそれぞれについてサブステップＳＳ１１２３を繰り返し実行して（サブステップＳＳ１１２Ａ、ＳＳ１１２Ｂ、ＳＳ１１２Ｃ）、合計Ｍ個の第１部分言語モデルＬ_１、…、Ｌ_ｍ、…、Ｌ_Ｍを作成する。第１部分言語モデル学習部１１２３は、学習したＭ個の第１部分言語モデルを第１部分言語モデル記憶部１１２４に記憶する。

＜第１特徴量計算部１１２５＞
入力：第１全体言語モデル、ｍ番目の第１部分言語モデル、書き起こしテキスト２のｍ番目のサブセット
出力：ｍ番目タスク内未知らしさ特徴量ｓ_ｍ
第１特徴量計算部１１２５は、第１全体言語モデル、ｍ番目の第１部分言語モデル、および書き起こしテキスト２のｍ番目のサブセットを用いて、ｍ番目のタスク内未知らしさ特徴量を計算する（ＳＳ１１２５）。処理としては、Ｌ_ａｌｌ（第１全体言語モデル）を用いて、書き起こしテキスト２のｍ番目のサブセットＤ_ｍに対する対数生起確率ｌｏｇＰ（Ｄ_ｍ｜Ｌ_ａｌｌ）を得る。さらに、Ｌ_ｍ（ｍ番目の第１部分言語モデル）を用いて、サブセットＤ_ｍに対する対数生起確率ｌｏｇＰ（Ｄ_ｍ｜Ｌ_ｍ）を得る。この値は、Ｄ_ｍをｗ₁、…、ｗ_ｉ、…、ｗ_|Ｄｍ|と単語単位に分割することで得ることができる。|Ｄ_ｍ|はＤ_ｍに含まれる総単語数(延べ語数)であり、ｗ_ｉはi番目の単語である。Ｌ_ａｌｌ、Ｌ_ｍをＬと表記して一般化すれば、これらの対数生起確率は以下の式に従う。

Ｐ（ｗ_ｉ｜ｗ_ｉ−２ｗ_ｉ−１；Ｌ）は言語モデルＬから求められる確率である。そして、２つの対数生起確率の差分を求め、サブセットの大きさで平均化する。この値をｓ_ｍと置くと、

と表現できる。この差は、タスク内の未知テキストＤ_ｍに対して得られる値であり、タスク内未知らしさの特徴と考えることができる。なお第１特徴量計算部１１２５は、ｍ＝１、２、３、…、ＭのそれぞれについてサブステップＳＳ１１２５を繰り返し実行し（サブステップＳＳ１１２Ａ、ＳＳ１１２Ｂ、ＳＳ１１２Ｃ）、ｓ_１、…、ｓ_ｍ、…、ｓ_ＭのＭ個のスコアを得る。これらのスコアｓ_１、…、ｓ_ｍ、…、ｓ_Ｍをタスク内未知らしさ特徴量と呼ぶ。

以下、図７、図８を参照して、タスク内未知テキスト選択部１３の構成、および動作について詳述する。図７はタスク内未知テキスト選択部１３の構成を示すブロック図である。図８はタスク内未知テキスト選択部１３の動作を示すフローチャートである。図７に示す通り、タスク内未知テキスト選択部１３は、第２サブセット分割手段１３１と、第２タスク内未知らしさ特徴量生成手段１３２と、タスク内未知らしさ計算手段１３３と、タスク内未知テキスト決定手段１３４とを備える。

＜第２サブセット分割手段１３１＞
入力：別の言語リソース３
出力：別の言語リソース３のサブセット（Ｋ個：Ｋ≧２、例えばＫは１０００程度とすることができる）
第２サブセット分割手段１３１は、別の言語リソース３をＫ個のサブセットＲ_１、…、Ｒ_ｋ、…、Ｒ_Ｋ（ｋは１≦ｋ≦Ｋを充たす整数）に分割する（ＳＳ１３１）。

＜第２タスク内未知らしさ特徴量生成手段１３２＞
入力：別の言語リソース３のサブセット（Ｋ個）、書き起こしテキスト２
出力：別の言語リソース３の各サブセットのタスク内未知らしさ特徴量（Ｋ個）
第２タスク内未知らしさ特徴量生成手段１３２は、別の言語リソース３のサブセット（Ｋ個）と、書き起こしテキスト２とを用いて、別の言語リソース３の各サブセットのタスク内未知らしさ特徴量ｓ^ｏ _１、…、ｓ^ｏ _ｋ、…、ｓ^ｏ _Ｋを計算する（ＳＳ１３２）。従って、第２タスク内未知らしさ特徴量生成手段１３２は、合計Ｋ個のタスク内未知らしさ特徴量を生成する。第２タスク内未知らしさ特徴量生成手段１３２の構成、および動作については詳細を後述する。

＜タスク内未知らしさ計算手段１３３＞
入力：別の言語リソース３の各サブセットのタスク内未知らしさ特徴量（Ｋ個）、タスク内未知モデル
出力：各サブセットのタスク内未知らしさ（Ｋ個）
タスク内未知らしさ計算手段１３３は、別の言語リソース３の各サブセットのタスク内未知らしさ特徴量（Ｋ個）と、タスク内未知モデルとを用いて、別の言語リソース３の各サブセットのタスク内未知らしさを計算する（ＳＳ１３３）。具体的には、タスク内未知らしさ計算手段１３３は、サブステップＳＳ１１３において予め正規分布としてモデル化したｐ（ｓ）から生成確率を求める。つまり、タスク内未知らしさ計算手段１３３は、別の言語リソース３のｋ番目のサブセットの生成確率ｐ（ｓ^ｏ _ｋ）を次式により求める。

これにより、各サブセットの生成確率が求められるので、後述するサブステップＳＳ１３４において生成確率が高い順に順位付けを行う。順位が高いほど、タスク内未知テキスト４として、タスクに対する言語モデルの学習に有効なテキストであると考えられる。生成確率ｐ（ｓ^ｏ _ｋ）をｋ番目のサブセットのタスク内未知らしさと呼ぶ。

＜タスク内未知テキスト決定手段１３４＞
入力：各サブセットのタスク内未知らしさ（Ｋ個）
出力：タスク内未知テキスト４
タスク内未知テキスト決定手段１３４は、別の言語リソース３の各サブセットのタスク内未知らしさを用いて別の言語リソース３の各サブセットの順位付けを行い、タスク内未知テキスト４を決定する（ＳＳ１３４）。例えば、タスク内未知テキスト決定手段１３４は、決定された順位の上位から順にタスク内未知テキスト４を決定する。この決定の際、例えばタスク内未知らしさに対して閾値θを設けてもよい。この場合、タスク内未知テキスト決定手段１３４はタスク内未知らしさが閾値θを超えるサブセットをタスク内未知テキスト４として決定する。閾値θは例えば５０程度とすることができる。

以下、図９、図１０を参照して、第２タスク内未知らしさ特徴量生成手段１３２の構成、および動作について詳述する。図９は第２タスク内未知らしさ特徴量生成手段１３２の構成を示すブロック図である。図１０は第２タスク内未知らしさ特徴量生成手段１３２の動作を示すフローチャートである。図９に示す通り、第２タスク内未知らしさ特徴量生成手段１３２は、第２全体言語モデル学習部１３２１と、第２全体言語モデル記憶部１３２２と、第２部分言語モデル学習部１３２３と、第２部分言語モデル記憶部１３２４と、第２特徴量計算部１３２５とを備える。

＜第２部分言語モデル学習部１３２３＞
入力：書き起こしテキスト２
出力：第２部分言語モデル
第２部分言語モデル学習部１３２３は、書き起こしテキスト２全体を学習テキストとして、第２部分言語モデルを学習する（ＳＳ１３２３）。第２部分言語モデル学習部１３２３は、学習した第２部分言語モデルを第２部分言語モデル記憶部１３２４に記憶する。第２部分言語モデルは、前述の書き起こしテキスト２を用いて学習した第１全体言語モデルであるＬ_ａｌｌと同じである。従って、第１全体言語モデル記憶部１１２２と、第２部分言語モデル記憶部１３２４を共通のメモリとしておけば、第２言語モデル学習部１３２３およびサブステップＳＳ１３２３は省略可能である。

＜第２全体言語モデル学習部１３２１＞
入力：書き起こしテキスト２、別の言語リソース３のｋ番目のサブセット
出力：ｋ番目の第２全体言語モデル
第２全体言語モデル学習部１３２１は、書き起こしテキスト２と、ｋ番目の別の言語リソース３のサブセットとを用いて、ｋ番目の言語モデルＬ_{ａｌｌ＋ｋ}を学習する（ＳＳ１３２１）。言語モデルＬ_{ａｌｌ＋ｋ}をｋ番目の第２全体言語モデルと呼ぶことにする。なお第２全体言語モデル学習部１３２１は、ｋ＝１、２、３、…、ＫのそれぞれについてサブステップＳＳ１３２１を繰り返し実行し（サブステップＳＳ１３２Ａ、ＳＳ１３２Ｂ、ＳＳ１３２Ｃ）、合計Ｋ個の第２全体言語モデルＬ_{ａｌｌ＋１}、…、Ｌ_{ａｌｌ＋ｋ}、…、Ｌ_{ａｌｌ＋Ｋ}を作成する。第２全体言語モデル学習部１３２１は、学習したＫ個の第２全体言語モデルを第２全体言語モデル記憶部１３２２に記憶する。

＜第２特徴量計算部１３２５＞
入力：第２部分言語モデル、ｋ番目の第２全体言語モデル、ｋ番目の別の言語リソース３のサブセットＲ_ｋ
出力：ｋ番目のタスク内未知らしさ特徴量ｓ^ｏ _ｋ
第２特徴量計算部１３２５は、第２部分言語モデルＬ_ａｌｌと、ｋ番目の第２全体言語モデルＬ_{ａｌｌ＋ｋ}、およびｋ番目の別の言語リソース３のサブセットＲ_ｋから、ｋ番目のタスク内未知らしさ特徴量を計算する（ＳＳ１３２５）。処理としては、Ｌ_{ａｌｌ＋ｋ}の言語モデル（ｋ番目の第２全体言語モデル）を用いて、ｋ番目の別の言語リソース３のサブセットＲ_ｋに対する対数生起確率ｌｏｇＰ（Ｒ_ｋ｜Ｌ_{ａｌｌ＋ｋ}）を得る。さらに、Ｌ_ａｌｌの言語モデル（第２部分言語モデル）を用いて、サブセットＲ_ｋに対する対数生起確率ｌｏｇＰ（Ｒ_ｋ｜Ｌ_ａｌｌ）を得る。そして、２つの対数生起確率の差分を求め、サブセットの大きさで平均化する。この値をｓ^ｏ _ｋと置くと、

と表現できる。｜Ｒ_ｋ｜は、サブセットＲ_ｋに含まれる総単語数である。第２特徴量計算部１３２５は、ｋ＝１、２、３、…、ＫのそれぞれについてサブステップＳＳ１３２５を繰り返し実行し（サブステップＳＳ１３２Ａ、ＳＳ１３２Ｂ、ＳＳ１３２Ｃ）、ｓ^ｏ _１、…、ｓ^ｏ _ｋ、…、ｓ^ｏ _ＫのＫ個のスコア（タスク内未知らしさ特徴量）を得る。

以下、上述したサブステップＳＳ１３３、ＳＳ１３４、ステップＳ１４が実行され言語モデルが拡張される。

このように本実施例の言語モデル作成装置１によれば、タスク内未知テキスト４を優先的に集め、タスクの書き起こしテキスト２と組み合わせて言語モデルを拡張することで、書き起こしテキスト２から得られる言語現象の生起確率分布と大きく分布を変化させることなしに、未知の単語連鎖を多く含む言語モデルを学習できる。これにより、未知のタスクの音声に対する高精度な音声認識が期待できる。

なお、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ前記書き起こしテキスト内で未観測の言語現象を含むテキストをタスク内未知テキストというものとし、
前記書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布（以下、タスク内未知モデルという）を生成するタスク内未知モデル生成部と、
前記タスク内未知モデルと、前記書き起こしテキストとを用いて、前記書き起こしテキストとは別の予め用意した言語リソース（以下、別の言語リソースという）からタスク内未知テキストを選択するタスク内未知テキスト選択部と、
前記書き起こしテキストと前記タスク内未知テキストから言語モデルを作成する言語モデル拡張部と、
を備えることを特徴とする言語モデル作成装置。
請求項１に記載の言語モデル作成装置であって、
前記タスク内未知モデル生成部は、
前記書き起こしテキストを、Ｍ個（Ｍは２以上の整数）のサブセットに分割する第１サブセット分割手段と、
前記書き起こしテキストの各サブセットに対して、タスク内未知らしさに関する特徴量（以下、タスク内未知らしさ特徴量という）を生成する第１タスク内未知らしさ特徴量生成手段と、
前記書き起こしテキストの各サブセットのタスク内未知らしさ特徴量から前記タスク内未知モデルを学習するタスク内未知モデル学習手段とを備え、
前記タスク内未知テキスト選択部は、
前記別の言語リソースをＫ個（Ｋは２以上の整数）のサブセットに分割する第２サブセット分割手段と、
前記別の言語リソースの各サブセットと、前記書き起こしテキストとを用いて、前記別の言語リソースの各サブセットのタスク内未知らしさ特徴量を計算する第２タスク内未知らしさ特徴量生成手段と、
前記別の言語リソースの各サブセットのタスク内未知らしさ特徴量と、前記タスク内未知モデルとを用いて、前記別の言語リソースの各サブセットのタスク内未知らしさを計算するタスク内未知らしさ計算手段と、
前記別の言語リソースの各サブセットのタスク内未知らしさを用いて前記別の言語リソースの各サブセットの順位付けを行い、前記タスク内未知テキストを決定するタスク内未知テキスト決定手段とを備えること
を特徴とする言語モデル作成装置。
請求項２に記載の言語モデル作成装置であって、
前記第１タスク内未知らしさ特徴量生成手段は、
前記書き起こしテキスト全体を学習テキストとして第１全体言語モデルを学習する第１全体言語モデル学習部と、
前記書き起こしテキストのサブセットのうちｍ番目（ｍは１≦ｍ≦Ｍを充たす整数）のサブセットを除いたその他のサブセット用いて、ｍ番目の第１部分言語モデルを学習する処理をｍ＝１、２、３、…、Ｍのそれぞれについて実行する第１部分言語モデル学習部と、
前記第１全体言語モデル、前記ｍ番目の第１部分言語モデル、および前記書き起こしテキストのｍ番目のサブセットを用いて、ｍ番目のタスク内未知らしさ特徴量を計算する処理をｍ＝１、２、３、…、Ｍのそれぞれについて実行する第１特徴量計算部とを備え、
前記第２タスク内未知らしさ特徴量生成手段は、
前記書き起こしテキスト全体を学習テキストとして第２部分言語モデルを学習する第２部分言語モデル学習部と、
前記書き起こしテキストと、ｋ番目（ｋは１≦ｋ≦Ｍを充たす整数）の別の言語リソースのサブセットとを用いて、ｋ番目の第２全体言語モデルを学習する処理をｋ＝１、２、３、…、Ｋのそれぞれについて実行する第２全体言語モデル学習部と、
前記第２部分言語モデル、前記ｋ番目の第２全体言語モデル、および前記ｋ番目の別の言語リソースのサブセットから、ｋ番目のタスク内未知らしさ特徴量を計算する処理をｋ＝１、２、３、…、Ｋのそれぞれについて実行する第２特徴量計算部とを備えること
を特徴とする言語モデル作成装置。
請求項３に記載の言語モデル作成装置であって、
前記第１特徴量計算部は、
前記第１全体言語モデルを用いて計算した前記書き起こしテキストのｍ番目のサブセットに対する対数生起確率と、前記ｍ番目の第１部分言語モデルを用いて計算した前記書き起こしテキストのｍ番目のサブセットに対する対数生起確率との差分を前記ｍ番目のタスク内未知らしさ特徴量として計算し、
前記第２特徴量計算部は、
前記ｋ番目の第２全体言語モデルを用いて計算した前記別の言語リソースのｋ番目のサブセットに対する対数生起確率と、前記第２部分言語モデルを用いて計算した前記別の言語リソースのｋ番目のサブセットに対する対数生起確率との差分を前記ｋ番目のタスク内未知らしさ特徴量として計算すること
を特徴とする言語モデル作成装置。
請求項２から４の何れかに記載の言語モデル作成装置であって、
前記タスク内未知モデル学習手段は、
前記第１タスク内未知らしさ特徴量生成手段が生成したタスク内未知らしさ特徴量の分布を正規分布として近似した確率分布を前記タスク内未知モデルとして生成すること
を特徴とする言語モデル作成装置。
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ前記書き起こしテキスト内で未観測の言語現象を含むテキストをタスク内未知テキストというものとし、
前記書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布（以下、タスク内未知モデルという）を生成するタスク内未知モデル生成ステップと、
前記タスク内未知モデルと、前記書き起こしテキストとを用いて、前記書き起こしテキストとは別の予め用意した言語リソース（以下、別の言語リソースという）からタスク内未知テキストを選択するタスク内未知テキスト選択ステップと、
前記書き起こしテキストと前記タスク内未知テキストから言語モデルを作成する言語モデル拡張ステップと、
を有することを特徴とする言語モデル作成方法。
コンピュータを、請求項１から５の何れかに記載の言語モデル作成装置として機能させるためのプログラム。