JP5755603B2 - 言語モデル作成装置、言語モデル作成方法、プログラム - Google Patents

言語モデル作成装置、言語モデル作成方法、プログラム Download PDF

Info

Publication number
JP5755603B2
JP5755603B2 JP2012133632A JP2012133632A JP5755603B2 JP 5755603 B2 JP5755603 B2 JP 5755603B2 JP 2012133632 A JP2012133632 A JP 2012133632A JP 2012133632 A JP2012133632 A JP 2012133632A JP 5755603 B2 JP5755603 B2 JP 5755603B2
Authority
JP
Japan
Prior art keywords
task
text
unknown
language model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012133632A
Other languages
English (en)
Other versions
JP2013257451A (ja
Inventor
亮 増村
亮 増村
高橋 敏
敏 高橋
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012133632A priority Critical patent/JP5755603B2/ja
Publication of JP2013257451A publication Critical patent/JP2013257451A/ja
Application granted granted Critical
Publication of JP5755603B2 publication Critical patent/JP5755603B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は音声認識に用いる言語モデルを作成する言語モデル作成装置、言語モデル作成方法、プログラムに関する。
音声認識では、言語的に認識結果を予測するために、文脈ごとに言語現象(基本的には単語)の生起確率を定義した言語モデルが使用される。言語モデルは、大量のテキストから学習することができる。高精度な音声認識を実現する方法として、認識したい音声のタスクに特化した言語モデルを使うことが有効であることが知られている。特化するとは、そのタスクでよく使われる言語現象に高い生起確率を与えることである。つまり、ニュース音声を認識する際は、ニュース音声に特化した言語モデル、コールセンター音声を認識する際は、コールセンター音声に特化した言語モデルが有効である。この特定のタスクに特化した言語モデルは、そのタスクの音声を人手により書き起こすことで得られたテキスト(書き起こしテキスト)を用いて学習するのが一般的な方法である。しかしながら、書き起こしテキストを大量に集めることは、時間や人件費といったコストの面が大きく困難である。これに対して、書き起こしテキストとは別の言語リソース(Webや新聞などのテキスト情報)を用いて、タスクに関連するテキストを集めて使用する方法がある。非特許文献1や非特許文献2にあるように、別の言語リソースから収集したタスクに関連するテキスト(タスク内テキスト)と書き起こしテキストとを組み合わせることで、新たな書き起こしを行うことなしに、言語モデルを拡張することができる。言語モデルの拡張方法としては、非特許文献3のように、新たなテキスト内の言語現象を元のテキストに対して頻度レベルで足し合わせてから確率モデル化する方法と、非特許文献4のように、新たなテキストに対して生起確率を算出してから生成確率レベルで足し合わる方法がある。
これらの従来技術においては、別の言語リソースからタスク内テキストをどのように選択するかが重要な問題となる。タスクに関して使える情報は、書き起こしテキスト内の言語現象の情報のみであり、この情報を用いてどのように選択を行うかが言語モデルの性能を大きく左右する。
例えば特許文献1には、書き起こしテキストから言語モデルを作成し、その言語モデルを用いて、他の言語リソースに含まれる各テキストのパープレキシティを計算し、パープレキシティが小さいテキストから優先的にタスク内テキストとして利用するアプローチが示されている。パープレキシティとは、情報理論的な意味での単語の平均分岐数のことである。あるテキストのある言語モデルに対するパープレキシティが小さいほど、当該テキストと当該言語モデルの学習テキストとが互いに近い言語現象であると考えられる。特許文献1では、パープレキシティが小さいテキストに対して、重みを付与して言語モデルの学習に利用するというアプローチが用いられている。
特開2002−082690号公報
M.Mahajan, D.Beeferman and X.D.Huang, " Improved topic-dependent language modeling using information retrieval techniques ", In Proceedings of International Conference on Acoustics Speech and Signal Processing, 1999. D.Klakow, " Selecting articles from the language model training corpus ", In Proceedings of International Conferenceon Acoustics Speech and Signal Processing, Vol.3, pp.1695-1698, 2000. Ryo Masumura, Seongjun Hahm, and Akinori Ito "Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition" R.Iyer and M.Ostendorf, " Modeling long distance dependence in language: topic mixtures vs. dynamic cache models ", IEEE Transactions on Speech and Audio Processing, vol.7, no.1, pp.30-39, 1996.
従来技術では、書き起こしテキストから作成した言語モデルとのパープレキシティに基づき別の言語リソースからタスク内テキストを選択しているため、書き起こしテキストに似たテキストばかりが収集されてしまう。つまり、このように収集されたテキストには書き起こしテキストに含まれる単語連鎖ばかりが含まれる可能性が高い。このように書き起こしテキストに含まれる単語連鎖のみが含まれるテキストのことをタスク内既知テキストと呼ぶことにする。タスク内既知テキストと書き起こしテキストと組み合わせることで言語モデルの拡張を行うと、既知でかつ生起確率がもともと高い言語現象の生成確率がさらに上昇し、音声認識の際はタスクにおいて頻出の言語現象のみ高精度で認識でき、タスクにおいてあまり出現しない言語現象や予め用意した書き起こしテキスト内において未観測の言語現象に対しては認識誤りを起こしてしまうといった問題が発生してしまう。
上述の課題を解決するためには、既知の単語連鎖のみを含むタスク内既知テキストではなく、未知の単語連鎖を含むタスク内未知テキストを選択する必要がある。タスク内未知テキストとは、タスクにおいて起こり得ると考えられるが、予め用意した書き起こしテキスト内において未観測の言語事象を含むテキストのことである。しかしながら、あるテキスト内に書き起こしテキスト内未観測の言語現象を多く含みすぎる場合は、当該テキストがタスクに対して無関係な言語現象で構成されたテキスト(タスク外テキスト)である場合もある。タスク外テキストはタスクに対する言語モデルの作成に有効でない。従って、タスク内既知テキストでもタスク外テキストでもなく、タスク内未知テキストを集めるためには、書き起こしテキストからタスク内未知テキストの特徴を何らかの手段で捉えることが重要となる。
そこで、本発明では、書き起こしテキストから得られる言語現象の生起確率分布を大きく変化させることなく、未知の単語連鎖を多く含む言語モデルを学習できる言語モデル作成装置を提供することを目的とする。
本発明の言語モデル作成装置は、タスク内未知モデル生成部と、タスク内未知テキスト選択部と、言語モデル拡張部とを備える。タスク内未知モデル生成部は、書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布(以下、タスク内未知モデルという)を生成する。タスク内未知テキスト選択部は、タスク内未知モデルと、書き起こしテキストとを用いて、書き起こしテキストとは別の予め用意した言語リソース(以下、別の言語リソースという)からタスク内未知テキストを選択する。言語モデル拡張部は、書き起こしテキストとタスク内未知テキストから言語モデルを作成する。なお、タスク内未知テキストとは、予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ書き起こしテキスト内で未観測の言語現象を含むテキストを意味する。
本発明の言語モデル作成装置によれば、書き起こしテキストから得られる言語現象の生起確率分布を大きく変化させることなく、未知の単語連鎖を多く含む言語モデルを学習できる。
本発明の実施例1の言語モデル作成装置の構成を示すブロック図。 本発明の実施例1の言語モデル作成装置の動作を示すフローチャート。 タスク内未知モデル生成部の構成を示すブロック図。 タスク内未知モデル生成部の動作を示すフローチャート。 第1タスク内未知らしさ特徴量生成手段の構成を示すブロック図。 第1タスク内未知らしさ特徴量生成手段の動作を示すフローチャート。 タスク内未知テキスト選択部の構成を示すブロック図。 タスク内未知テキスト選択部の動作を示すフローチャート。 第2タスク内未知らしさ特徴量生成手段の構成を示すブロック図。 第2タスク内未知らしさ特徴量生成手段の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<用語の説明>
[タスク]
ある認識対象のスタイルや話題の傾向のこと。例えば、「コールセンター音声タスク」や「ニュース音声タスク」、「会議音声タスク」のように使う。
[書き起こしテキスト]
タスクに関する音声の書き起こしによって得られたテキスト、またはテキスト群を意味する。
[タスク内テキスト]
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象で構成されたテキスト、またはテキスト群を意味する。
[タスク内既知テキスト]
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象であってかつ予め用意した書き起こしテキストで観測された言語現象のみで構成されるテキスト、またはテキスト群を意味する。
[タスク内未知テキスト]
予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に、当該タスクにおいて起こり得る言語現象であってかつ予め用意した書き起こしテキストでは未観測の言語現象を含むテキスト、またはテキスト群を意味する。
[タスク外テキスト]
タスクに対して関係ない言語現象で構成されたテキスト、またはテキスト群を意味する。
[別の言語リソース]
タスクの書き起こしテキストとは別の利用可能なテキスト群(Webや新聞などのテキスト情報)を意味する。本明細書では予め用意した別の言語リソースを単に別の言語リソースとも表記する。
[言語モデル]
ある文脈における単語や単語連鎖が生成する確率が定義したものである。代表的な言語モデルとしては、Nグラムモデル、隠れマルコフモデル、最大エントロピーモデルなどがある。音声認識においては3−gramモデルが最も頻繁に用いられる。本発明では言語モデルを音声認識において言語的に認識結果を予測するために用いる。言語モデルは大量のテキストから学習できる。
[言語モデルの拡張]
言語モデルの性能を高めるために、別の言語リソースから得られたテキストを用いて、学習テキストを増やすことでタスクに対する言語モデルを作成することを意味する。
[タスク内未知モデル]
対象タスクにおけるタスク内未知らしさを表したモデルである。任意のテキストに対して、タスク内未知らしさのスコアを与える確率分布を意味する。
<本発明のポイント>
本発明では、別の言語リソースからタスク内未知テキストを優先的に選択するために、書き起こしテキストを用いて、タスク内未知らしさのスコアを任意のテキストに対して与えることができる言語モデル作成装置、言語モデル作成方法、プログラムを実現した。本発明では、書き起こしテキストを用いてタスク内未知のモデル化を行う。このモデルをタスク内未知モデルと呼ぶことにする。そして、別の言語リソースの各テキストに対して、タスク内未知らしいかどうかのスコアを計算し、各テキストに順位づけを行う。その順位付けに従って、よりタスク内未知らしいテキストを用いて言語モデルを拡張する。本発明は、従来のパープレキシティを利用する方法と同様に、タスクの書き起こしテキストと別の言語リソースがあれば、実行することができる。
以下、図1、図2を参照して実施例1の言語モデル作成装置の構成および動作の概要について説明する。図1は本実施例の言語モデル作成装置1の構成を示すブロック図である。図2は本実施例の言語モデル作成装置1の動作を示すフローチャートである。図1に示すように、本実施例の言語モデル作成装置1は、タスク内未知モデル生成部11と、タスク内未知モデル記憶部12と、タスク内未知テキスト選択部13と、言語モデル拡張部14と、言語モデル記憶部15とを備える。
<タスク内未知モデル生成部11>
入力:書き起こしテキスト2
出力:タスク内未知モデル
タスク内未知モデル生成部11は、予め用意した書き起こしテキスト2を学習テキストとして用いて、タスク内未知モデルを生成する(S11)。タスク内未知モデル生成部11は生成したタスク内未知モデルをタスク内未知モデル記憶部12に記憶する。タスク内未知モデルとは前述したように対象タスクにおけるタスク内未知らしさを表したものである。具体的には、タスク内未知モデルとは書き起こしテキスト2をタスクの典型的なテキストとした場合に、任意のテキストに対して当該タスクにおけるタスク内未知らしさのスコアを与える確率分布を意味する。タスク内未知モデル生成部11の構成、および動作については詳細を後述する。
<タスク内未知テキスト選択部13>
入力:タスク内未知モデル、別の言語リソース3、書き起こしテキスト2
出力:タスク内未知テキスト4
タスク内未知テキスト選択部13は、タスク内未知モデルと、書き起こしテキスト2とを用いて、書き起こしテキスト2とは別の予め用意した言語リソース3(以下、単に別の言語リソース3という)からタスク内未知テキストを選択する(S13)。つまり、タスク内未知テキスト4は、別の言語リソース3の部分集合である。書き起こしテキスト2は、別の言語リソース3の各テキストに対してタスク内未知らしさに関する特徴量(以下、タスク内未知らしさ特徴量という)を生成する際に利用される。タスク内未知テキスト選択部13の構成、および動作については詳細を後述する。
<言語モデル拡張部14>
入力:書き起こしテキスト2、タスク内未知テキスト4
出力:拡張された言語モデル
言語モデル拡張部14は、書き起こしテキスト2とタスク内未知テキスト4から拡張された言語モデルを作成する(S14)。つまり、言語モデル拡張部14は音声認識のための確率モデルを作成する。言語モデル拡張部14は、書き起こしテキスト2とタスク内未知テキスト4に対して、両テキストを単純に結合し、一般的な言語モデルの生成方法を適用することで、拡張された言語モデルを生成する。言語モデル拡張部14は、生成した言語モデルを言語モデル記憶部15に記憶する。
以下、図3、図4を参照してタスク内未知モデル生成部11の構成、および動作について詳述する。図3はタスク内未知モデル生成部11の構成を示すブロック図である。図4はタスク内未知モデル生成部11の動作を示すフローチャートである。図3に示す通り、タスク内未知モデル生成部11は、第1サブセット分割手段111と、第1タスク内未知らしさ特徴量生成手段112と、タスク内未知モデル学習手段113とを備える。
<第1サブセット分割手段111>
入力:書き起こしテキスト2
出力:書き起こしテキスト2のサブセット(M個:M≧2、例えばMは1000程度とすることができる)
第1サブセット分割手段111は、タスクの書き起こしテキスト2を、M個のサブセットに分割する(SS111)。サブセットとは、書き起こしテキスト2の構成単位のことである。サブセットを例えば文書単位(1サブセット=1文書)とすることができる。サブセットを文書単位とした場合、例えば合計M個の文書からなる書き起こしテキスト2は合計M個のサブセットに分割される。本明細書では、M分割した書き起こしテキスト2のサブセットをD、...、D、…、D(mは1≦m≦Mを充たす整数)と記載する。
<第1タスク内未知らしさ特徴量生成手段112>
入力:書き起こしテキスト2のサブセット(M個)
出力:書き起こしテキスト2の各サブセットのタスク内未知らしさ特徴量(M個)
第1タスク内未知らしさ特徴量生成手段112は、M個の書き起こしテキスト2のサブセットそれぞれに対して、タスク内未知らしさ特徴量を生成する(SS112)。従って、第1タスク内未知らしさ特徴量生成手段112は、合計M個のタスク内未知らしさ特徴量s、…、s、…、sを生成する。第1タスク内未知らしさ特徴量生成手段112の構成、および動作については詳細を後述する。
<タスク内未知モデル学習手段113>
入力:書き起こしテキスト2の各サブセットのタスク内未知らしさ特徴量s、…、s、…、s
出力:タスク内未知モデル
タスク内未知モデル学習手段113は、書き起こしテキスト2の各サブセットのタスク内未知らしさ特徴量からタスク内未知モデルを学習する(SS113)。具体的には、タスク内未知モデル学習手段113は、各サブセットのタスク内未知らしさ特徴量の分布を確率分布p(s)として近似することでタスク内未知モデルを学習する。各タスク内未知らしさ特徴量がある正規分布に従うと仮定した場合は、次のようなパラメトリックなモデルとして、タスク内未知モデルを求めることができる。まず、タスク内未知らしさ特徴量s、…、s、…、sに対する平均μと、分散σ は次の式に従う。
Figure 0005755603
平均μと、分散σ から、p(s)は次式に従い求めることができる。
Figure 0005755603
p(s)を、タスク内未知テキスト4に対するモデル(タスク内未知モデル)とみなす。
以下、図5、図6を参照して、第1タスク内未知らしさ特徴量生成手段112の構成、および動作について詳述する。図5は第1タスク内未知らしさ特徴量生成手段112の構成を示すブロック図である。図6は第1タスク内未知らしさ特徴量生成手段112の動作を示すフローチャートである。図5に示す通り、第1タスク内未知らしさ特徴量生成手段112は、第1全体言語モデル学習部1121と、第1全体言語モデル記憶部1122と、第1部分言語モデル学習部1123と、第1部分言語モデル記憶部1124と、第1特徴量計算部1125とを備える。
<第1全体言語モデル学習部1121>
入力:書き起こしテキスト2全体
出力:第1全体言語モデル
第1全体言語モデル学習部1121は、書き起こしテキスト2全体を学習テキストとしてN−gram言語モデルLallを学習する(SS1121)。言語モデルLallを、第1全体言語モデルと呼ぶことにする。第1全体言語モデル学習部1121は、学習した第1全体言語モデルを第1全体言語モデル記憶部1122に記憶する。
<第1部分言語モデル学習部1123>
入力:m番目のサブセットを除いたその他のサブセット(M−1個)
出力:m番目の第1部分言語モデル
第1部分言語モデル学習部1123は、m番目のサブセットを除いたその他のサブセットを用いて、N−gram言語モデルLを学習する(SS1123)。言語モデルLをm番目の第1部分言語モデルと呼ぶことにする。なお第1部分言語モデル学習部1123は、m=1、2、3、…、MのそれぞれについてサブステップSS1123を繰り返し実行して(サブステップSS112A、SS112B、SS112C)、合計M個の第1部分言語モデルL、…、L、…、Lを作成する。第1部分言語モデル学習部1123は、学習したM個の第1部分言語モデルを第1部分言語モデル記憶部1124に記憶する。
<第1特徴量計算部1125>
入力:第1全体言語モデル、m番目の第1部分言語モデル、書き起こしテキスト2のm番目のサブセット
出力:m番目タスク内未知らしさ特徴量s
第1特徴量計算部1125は、第1全体言語モデル、m番目の第1部分言語モデル、および書き起こしテキスト2のm番目のサブセットを用いて、m番目のタスク内未知らしさ特徴量を計算する(SS1125)。処理としては、Lall(第1全体言語モデル)を用いて、書き起こしテキスト2のm番目のサブセットDに対する対数生起確率logP(D|Lall)を得る。さらに、L(m番目の第1部分言語モデル)を用いて、サブセットDに対する対数生起確率logP(D|L)を得る。この値は、Dをw1、…、w、…、w|Dm|と単語単位に分割することで得ることができる。|D|はDに含まれる総単語数(延べ語数)であり、wはi番目の単語である。Lall、LをLと表記して一般化すれば、これらの対数生起確率は以下の式に従う。
Figure 0005755603
P(w|wi−2i−1;L)は言語モデルLから求められる確率である。そして、2つの対数生起確率の差分を求め、サブセットの大きさで平均化する。この値をsと置くと、
Figure 0005755603
と表現できる。この差は、タスク内の未知テキストDに対して得られる値であり、タスク内未知らしさの特徴と考えることができる。なお第1特徴量計算部1125は、m=1、2、3、…、MのそれぞれについてサブステップSS1125を繰り返し実行し(サブステップSS112A、SS112B、SS112C)、s、…、s、…、sのM個のスコアを得る。これらのスコアs、…、s、…、sをタスク内未知らしさ特徴量と呼ぶ。
以下、図7、図8を参照して、タスク内未知テキスト選択部13の構成、および動作について詳述する。図7はタスク内未知テキスト選択部13の構成を示すブロック図である。図8はタスク内未知テキスト選択部13の動作を示すフローチャートである。図7に示す通り、タスク内未知テキスト選択部13は、第2サブセット分割手段131と、第2タスク内未知らしさ特徴量生成手段132と、タスク内未知らしさ計算手段133と、タスク内未知テキスト決定手段134とを備える。
<第2サブセット分割手段131>
入力:別の言語リソース3
出力:別の言語リソース3のサブセット(K個:K≧2、例えばKは1000程度とすることができる)
第2サブセット分割手段131は、別の言語リソース3をK個のサブセットR、…、R、…、R(kは1≦k≦Kを充たす整数)に分割する(SS131)。
<第2タスク内未知らしさ特徴量生成手段132>
入力:別の言語リソース3のサブセット(K個)、書き起こしテキスト2
出力:別の言語リソース3の各サブセットのタスク内未知らしさ特徴量(K個)
第2タスク内未知らしさ特徴量生成手段132は、別の言語リソース3のサブセット(K個)と、書き起こしテキスト2とを用いて、別の言語リソース3の各サブセットのタスク内未知らしさ特徴量s 、…、s 、…、s を計算する(SS132)。従って、第2タスク内未知らしさ特徴量生成手段132は、合計K個のタスク内未知らしさ特徴量を生成する。第2タスク内未知らしさ特徴量生成手段132の構成、および動作については詳細を後述する。
<タスク内未知らしさ計算手段133>
入力:別の言語リソース3の各サブセットのタスク内未知らしさ特徴量(K個)、タスク内未知モデル
出力:各サブセットのタスク内未知らしさ(K個)
タスク内未知らしさ計算手段133は、別の言語リソース3の各サブセットのタスク内未知らしさ特徴量(K個)と、タスク内未知モデルとを用いて、別の言語リソース3の各サブセットのタスク内未知らしさを計算する(SS133)。具体的には、タスク内未知らしさ計算手段133は、サブステップSS113において予め正規分布としてモデル化したp(s)から生成確率を求める。つまり、タスク内未知らしさ計算手段133は、別の言語リソース3のk番目のサブセットの生成確率p(s )を次式により求める。
Figure 0005755603
これにより、各サブセットの生成確率が求められるので、後述するサブステップSS134において生成確率が高い順に順位付けを行う。順位が高いほど、タスク内未知テキスト4として、タスクに対する言語モデルの学習に有効なテキストであると考えられる。生成確率p(s )をk番目のサブセットのタスク内未知らしさと呼ぶ。
<タスク内未知テキスト決定手段134>
入力:各サブセットのタスク内未知らしさ(K個)
出力:タスク内未知テキスト4
タスク内未知テキスト決定手段134は、別の言語リソース3の各サブセットのタスク内未知らしさを用いて別の言語リソース3の各サブセットの順位付けを行い、タスク内未知テキスト4を決定する(SS134)。例えば、タスク内未知テキスト決定手段134は、決定された順位の上位から順にタスク内未知テキスト4を決定する。この決定の際、例えばタスク内未知らしさに対して閾値θを設けてもよい。この場合、タスク内未知テキスト決定手段134はタスク内未知らしさが閾値θを超えるサブセットをタスク内未知テキスト4として決定する。閾値θは例えば50程度とすることができる。
以下、図9、図10を参照して、第2タスク内未知らしさ特徴量生成手段132の構成、および動作について詳述する。図9は第2タスク内未知らしさ特徴量生成手段132の構成を示すブロック図である。図10は第2タスク内未知らしさ特徴量生成手段132の動作を示すフローチャートである。図9に示す通り、第2タスク内未知らしさ特徴量生成手段132は、第2全体言語モデル学習部1321と、第2全体言語モデル記憶部1322と、第2部分言語モデル学習部1323と、第2部分言語モデル記憶部1324と、第2特徴量計算部1325とを備える。
<第2部分言語モデル学習部1323>
入力:書き起こしテキスト2
出力:第2部分言語モデル
第2部分言語モデル学習部1323は、書き起こしテキスト2全体を学習テキストとして、第2部分言語モデルを学習する(SS1323)。第2部分言語モデル学習部1323は、学習した第2部分言語モデルを第2部分言語モデル記憶部1324に記憶する。第2部分言語モデルは、前述の書き起こしテキスト2を用いて学習した第1全体言語モデルであるLallと同じである。従って、第1全体言語モデル記憶部1122と、第2部分言語モデル記憶部1324を共通のメモリとしておけば、第2言語モデル学習部1323およびサブステップSS1323は省略可能である。
<第2全体言語モデル学習部1321>
入力:書き起こしテキスト2、別の言語リソース3のk番目のサブセット
出力:k番目の第2全体言語モデル
第2全体言語モデル学習部1321は、書き起こしテキスト2と、k番目の別の言語リソース3のサブセットとを用いて、k番目の言語モデルLall+kを学習する(SS1321)。言語モデルLall+kをk番目の第2全体言語モデルと呼ぶことにする。なお第2全体言語モデル学習部1321は、k=1、2、3、…、KのそれぞれについてサブステップSS1321を繰り返し実行し(サブステップSS132A、SS132B、SS132C)、合計K個の第2全体言語モデルLall+1、…、Lall+k、…、Lall+Kを作成する。第2全体言語モデル学習部1321は、学習したK個の第2全体言語モデルを第2全体言語モデル記憶部1322に記憶する。
<第2特徴量計算部1325>
入力:第2部分言語モデル、k番目の第2全体言語モデル、k番目の別の言語リソース3のサブセットR
出力:k番目のタスク内未知らしさ特徴量s
第2特徴量計算部1325は、第2部分言語モデルLallと、k番目の第2全体言語モデルLall+k、およびk番目の別の言語リソース3のサブセットRから、k番目のタスク内未知らしさ特徴量を計算する(SS1325)。処理としては、Lall+kの言語モデル(k番目の第2全体言語モデル)を用いて、k番目の別の言語リソース3のサブセットRに対する対数生起確率logP(R|Lall+k)を得る。さらに、Lallの言語モデル(第2部分言語モデル)を用いて、サブセットRに対する対数生起確率logP(R|Lall)を得る。そして、2つの対数生起確率の差分を求め、サブセットの大きさで平均化する。この値をs と置くと、
Figure 0005755603
と表現できる。|R|は、サブセットRに含まれる総単語数である。第2特徴量計算部1325は、k=1、2、3、…、KのそれぞれについてサブステップSS1325を繰り返し実行し(サブステップSS132A、SS132B、SS132C)、s 、…、s 、…、s のK個のスコア(タスク内未知らしさ特徴量)を得る。
以下、上述したサブステップSS133、SS134、ステップS14が実行され言語モデルが拡張される。
このように本実施例の言語モデル作成装置1によれば、タスク内未知テキスト4を優先的に集め、タスクの書き起こしテキスト2と組み合わせて言語モデルを拡張することで、書き起こしテキスト2から得られる言語現象の生起確率分布と大きく分布を変化させることなしに、未知の単語連鎖を多く含む言語モデルを学習できる。これにより、未知のタスクの音声に対する高精度な音声認識が期待できる。
なお、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ前記書き起こしテキスト内で未観測の言語現象を含むテキストをタスク内未知テキストというものとし、
    前記書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布(以下、タスク内未知モデルという)を生成するタスク内未知モデル生成部と、
    前記タスク内未知モデルと、前記書き起こしテキストとを用いて、前記書き起こしテキストとは別の予め用意した言語リソース(以下、別の言語リソースという)からタスク内未知テキストを選択するタスク内未知テキスト選択部と、
    前記書き起こしテキストと前記タスク内未知テキストから言語モデルを作成する言語モデル拡張部と、
    を備えることを特徴とする言語モデル作成装置。
  2. 請求項1に記載の言語モデル作成装置であって、
    前記タスク内未知モデル生成部は、
    前記書き起こしテキストを、M個(Mは2以上の整数)のサブセットに分割する第1サブセット分割手段と、
    前記書き起こしテキストの各サブセットに対して、タスク内未知らしさに関する特徴量(以下、タスク内未知らしさ特徴量という)を生成する第1タスク内未知らしさ特徴量生成手段と、
    前記書き起こしテキストの各サブセットのタスク内未知らしさ特徴量から前記タスク内未知モデルを学習するタスク内未知モデル学習手段とを備え、
    前記タスク内未知テキスト選択部は、
    前記別の言語リソースをK個(Kは2以上の整数)のサブセットに分割する第2サブセット分割手段と、
    前記別の言語リソースの各サブセットと、前記書き起こしテキストとを用いて、前記別の言語リソースの各サブセットのタスク内未知らしさ特徴量を計算する第2タスク内未知らしさ特徴量生成手段と、
    前記別の言語リソースの各サブセットのタスク内未知らしさ特徴量と、前記タスク内未知モデルとを用いて、前記別の言語リソースの各サブセットのタスク内未知らしさを計算するタスク内未知らしさ計算手段と、
    前記別の言語リソースの各サブセットのタスク内未知らしさを用いて前記別の言語リソースの各サブセットの順位付けを行い、前記タスク内未知テキストを決定するタスク内未知テキスト決定手段とを備えること
    を特徴とする言語モデル作成装置。
  3. 請求項2に記載の言語モデル作成装置であって、
    前記第1タスク内未知らしさ特徴量生成手段は、
    前記書き起こしテキスト全体を学習テキストとして第1全体言語モデルを学習する第1全体言語モデル学習部と、
    前記書き起こしテキストのサブセットのうちm番目(mは1≦m≦Mを充たす整数)のサブセットを除いたその他のサブセット用いて、m番目の第1部分言語モデルを学習する処理をm=1、2、3、…、Mのそれぞれについて実行する第1部分言語モデル学習部と、
    前記第1全体言語モデル、前記m番目の第1部分言語モデル、および前記書き起こしテキストのm番目のサブセットを用いて、m番目のタスク内未知らしさ特徴量を計算する処理をm=1、2、3、…、Mのそれぞれについて実行する第1特徴量計算部とを備え、
    前記第2タスク内未知らしさ特徴量生成手段は、
    前記書き起こしテキスト全体を学習テキストとして第2部分言語モデルを学習する第2部分言語モデル学習部と、
    前記書き起こしテキストと、k番目(kは1≦k≦Mを充たす整数)の別の言語リソースのサブセットとを用いて、k番目の第2全体言語モデルを学習する処理をk=1、2、3、…、Kのそれぞれについて実行する第2全体言語モデル学習部と、
    前記第2部分言語モデル、前記k番目の第2全体言語モデル、および前記k番目の別の言語リソースのサブセットから、k番目のタスク内未知らしさ特徴量を計算する処理をk=1、2、3、…、Kのそれぞれについて実行する第2特徴量計算部とを備えること
    を特徴とする言語モデル作成装置。
  4. 請求項3に記載の言語モデル作成装置であって、
    前記第1特徴量計算部は、
    前記第1全体言語モデルを用いて計算した前記書き起こしテキストのm番目のサブセットに対する対数生起確率と、前記m番目の第1部分言語モデルを用いて計算した前記書き起こしテキストのm番目のサブセットに対する対数生起確率との差分を前記m番目のタスク内未知らしさ特徴量として計算し、
    前記第2特徴量計算部は、
    前記k番目の第2全体言語モデルを用いて計算した前記別の言語リソースのk番目のサブセットに対する対数生起確率と、前記第2部分言語モデルを用いて計算した前記別の言語リソースのk番目のサブセットに対する対数生起確率との差分を前記k番目のタスク内未知らしさ特徴量として計算すること
    を特徴とする言語モデル作成装置。
  5. 請求項2から4の何れかに記載の言語モデル作成装置であって、
    前記タスク内未知モデル学習手段は、
    前記第1タスク内未知らしさ特徴量生成手段が生成したタスク内未知らしさ特徴量の分布を正規分布として近似した確率分布を前記タスク内未知モデルとして生成すること
    を特徴とする言語モデル作成装置。
  6. 予め用意した書き起こしテキストをタスクの典型的なテキストとした場合に当該タスクにおいて起こり得る言語現象であってかつ前記書き起こしテキスト内で未観測の言語現象を含むテキストをタスク内未知テキストというものとし、
    前記書き起こしテキストを学習テキストとして用いて、任意のテキストに対してタスク内未知らしさのスコアを与える確率分布(以下、タスク内未知モデルという)を生成するタスク内未知モデル生成ステップと、
    前記タスク内未知モデルと、前記書き起こしテキストとを用いて、前記書き起こしテキストとは別の予め用意した言語リソース(以下、別の言語リソースという)からタスク内未知テキストを選択するタスク内未知テキスト選択ステップと、
    前記書き起こしテキストと前記タスク内未知テキストから言語モデルを作成する言語モデル拡張ステップと、
    を有することを特徴とする言語モデル作成方法。
  7. コンピュータを、請求項1から5の何れかに記載の言語モデル作成装置として機能させるためのプログラム。
JP2012133632A 2012-06-13 2012-06-13 言語モデル作成装置、言語モデル作成方法、プログラム Expired - Fee Related JP5755603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012133632A JP5755603B2 (ja) 2012-06-13 2012-06-13 言語モデル作成装置、言語モデル作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012133632A JP5755603B2 (ja) 2012-06-13 2012-06-13 言語モデル作成装置、言語モデル作成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2013257451A JP2013257451A (ja) 2013-12-26
JP5755603B2 true JP5755603B2 (ja) 2015-07-29

Family

ID=49953933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012133632A Expired - Fee Related JP5755603B2 (ja) 2012-06-13 2012-06-13 言語モデル作成装置、言語モデル作成方法、プログラム

Country Status (1)

Country Link
JP (1) JP5755603B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305575B (zh) * 2016-04-25 2021-01-26 北京京东尚科信息技术有限公司 人机智能问答***的断句识别方法和装置

Also Published As

Publication number Publication date
JP2013257451A (ja) 2013-12-26

Similar Documents

Publication Publication Date Title
US8504367B2 (en) Speech retrieval apparatus and speech retrieval method
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11210470B2 (en) Automatic text segmentation based on relevant context
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
Chen et al. Learning semantic hierarchy with distributed representations for unsupervised spoken language understanding.
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150527

R150 Certificate of patent or registration of utility model

Ref document number: 5755603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees