JP2010238043A - テキスト解析学習装置 - Google Patents

テキスト解析学習装置 Download PDF

Info

Publication number
JP2010238043A
JP2010238043A JP2009086407A JP2009086407A JP2010238043A JP 2010238043 A JP2010238043 A JP 2010238043A JP 2009086407 A JP2009086407 A JP 2009086407A JP 2009086407 A JP2009086407 A JP 2009086407A JP 2010238043 A JP2010238043 A JP 2010238043A
Authority
JP
Japan
Prior art keywords
learning data
label
feature
likelihood
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009086407A
Other languages
English (en)
Inventor
Koichi Tanigaki
宏一 谷垣
Yasuhiro Takayama
泰博 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009086407A priority Critical patent/JP2010238043A/ja
Publication of JP2010238043A publication Critical patent/JP2010238043A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ラベル付き学習データ及びラベル無し学習データの双方を効率よく利用した学習により高精度なテキスト解析を実現できるテキスト解析学習装置を提供する。
【解決手段】ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出し、ラベル無し学習データに対する解析結果と同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出し、尤度及び整合性の評価値に基づく目標関数が最大化するように素性データに対応するモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行して、所定の収束条件を満たしたモデルパラメータ、素性データ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する。
【選択図】図2

Description

この発明は、テキスト解析学習装置に関するものである。
一般にテキスト解析と呼ばれる処理の中には、入力データに対して構造化ラベルを付与する問題と見なすことができる処理がある。例えば、日本語文の単語区切り処理は、入力データである文字列に対し、単語区切り位置の有無を示すラベルを付与する問題と捉えることができる。
図14は、ラベル付与による日本語単語区切り処理の例を示す図である。図14では、入力文が「アイビーキャリアカレッジ」であり、ラベル「1」は、当該文字の直後が単語区切り位置であることを示している。反対に、ラベル「0」は、単語区切り位置ではないことを示している。従って、当該入力文は「アイビー」「キャリア」「カレッジ」と3つの単語に分割される。
このようなテキスト解析処理は、従来、人手で記述した解析規則により実現されてきたが、記述のスケーラビリティ(網羅性やメンテナンス性)に限界があるために、近年は、統計的な手法により、図14のようなラベル付き学習データを用意し、解析規則を自動的に獲得する場合が多い。
統計的な手法では、個々の解析規則の抽出や、解析規則間の依存性の問題を機械が自動処理してくれるため、対象分野を十分カバーするラベル付き学習データを大量に用意さえすれば、自動的に高精度なテキスト解析器を得られるという利点がある。
従って、統計的な手法においては、従来のルール記述の問題が、十分な量のラベル付き学習データの確保という問題に置き換わっている。しかし、ラベル付与作業においても、対象ドメイン、文法双方の専門知識が必要である点では変わらず、高コストな作業となっているため、構築しようとするテキスト解析器の対象分野に合わせて、十分な量のラベル付き学習データを用意することは難しい。
統計的手法によるテキスト解析器の構築において、学習に要するラベル付き学習データの確保は大きな課題となっている。このようなラベル付き学習データの問題に対しては、正解ラベルを付与していない学習データ(ラベル無し学習データ)を併用する半教師付き学習のアプローチがあり、本発明も半教師付き学習の一種である。
前述の単語区切りの例において、ラベル無し学習データとは、単語区切りを与えていないプレーンな生データである。例えば、「アーツカレッジヨコハマ」「アートカレッジ専門学校」「アートガレージかわさき」といった、テキスト解析器への入力文を列挙したリストに相当する。こうした生データは、ラベル付き学習データと比較して低コストで大量に入手・利用可能である。
このようなラベル無し学習データを利用する従来の技術として、例えば特許文献1に開示されるものがある。
特開2008−225907号公報
ラベル無し学習データを利用する従来の技術では、性質の異なる2種類のモデル(識別モデルと生成モデル)を学習に使った一種のハイブリッド学習法により、一方のモデルによるラベル無し学習データの解析結果を、他方のモデルの教師付き学習に利用している。このように、本質的にモデルの補間特性の違いから生じる尤度差を利用するため、解析タスクやデータに対して一般性が高いという利点がある。
しかしながら、先験的な知識に頼らない上記従来の手法では、ラベル無し学習データの利用効率が悪く、精度が上がりにくいという課題があった。
この発明は、上記のような課題を解決するためになされたもので、ラベル付き学習データ及びラベル無し学習データの双方を効率よく利用した学習により高精度なテキスト解析を実現できるテキスト解析学習装置を得ることを目的とする。
この発明に係るテキスト解析学習装置は、テキスト解析器に対する入力文、入力文の正しい解析結果を示すラベル及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル付き学習データとして格納するラベル付き学習データ格納部と、テキスト解析器に対する入力文及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル無し学習データとして格納するラベル無し学習データ格納部と、ラベルの一覧を格納するラベル格納部と、入力文に対する照合条件と当該入力文のラベルとの組み合わせを、当該入力文に対応する素性データとして格納する素性データ格納部と、照合条件の一部及びラベルを変数とした素性テンプレートを格納する素性テンプレート格納部と、ラベル付き学習データ、ラベル無し学習データ、ラベルの一覧及び素性テンプレートを入力し、ラベル付き学習データ及びラベル無し学習データとラベルの一覧とから照合条件の一部及びラベルにそれぞれ対応する文字列及びラベルを抽出して素性テンプレートの変数を書き換えることにより、素性データを生成する素性生成部と、素性データに対応するモデルパラメータを格納するモデルパラメータ格納部と、ラベル付き学習データの入力文を、素性データ、モデルパラメータ及びラベルの一覧に基づいて解析し、当該ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出する尤度評価手段と、ラベル無し学習データの入力文を、素性データ、モデルパラメータ及びラベルの一覧に基づいて解析し、当該ラベル無し学習データに対する解析結果と、同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出する整合性評価手段と、尤度評価手段で算出された尤度及び整合性評価手段で算出された評価値に基づく目標関数が最大化するようにモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行する更新手段と、素性データ、所定の収束条件を満たしたモデルパラメータ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する解析辞書出力手段とを備えるものである。
この発明によれば、ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出し、ラベル無し学習データに対する解析結果と同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出し、尤度及び整合性の評価値に基づく目標関数が最大化するように素性データに対応するモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行して、所定の収束条件を満たしたモデルパラメータ、素性データ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する。このようにすることで、ラベル付き学習データにおけるラベルの尤度に加え、同じカテゴリのデータが互いに類似したラベルを持つ傾向があることも考慮してラベル無し学習データからも効率的に知識を獲得でき、これにより生成された解析辞書を利用することにより、テキスト解析器の解析精度を向上させることができるという効果がある。
この発明によるテキスト解析学習処理の概要を示す図である。 この発明の実施の形態1によるテキスト解析学習装置の構成を示すブロック図である。 実施の形態1による素性生成処理の流れを示すフローチャートである。 ラベル付き学習データの一例を示す図である。 素性テンプレートの一例を示す図である。 素性テンプレートの変数値を置き換えた結果の一例を示す図である。 素性データの一例を示す図である。 ラベル無し学習データの一例を示す図である。 実施の形態1による尤度評価処理の流れを示すフローチャートである。 単語区切り仮説グラフの一例を示す図である。 図10中の単語区切り仮説グラフに部分グラフを明記した場合を示す図である。 整合性評価処理の流れを示すフローチャートである。 テキスト解析用辞書の一例を示す図である。 ラベル付与による日本語単語区切り処理の例を示す図である。
実施の形態1.
以降では、テキスト解析処理の一例として、施設名相当の日本語文字列(入力文)を、単語単位に分割する解析処理を取り上げ、この解析処理を学習する場合における、この発明によるテキスト解析学習装置の構成及び動作について説明する。ただし、この発明は、学習対象が単語分割処理に限定されるものではなく、品詞同定を含む形態素解析や、固有表現抽出、構文解析等、多様なテキスト解析にも適用可能である。
図1は、この発明によるテキスト解析学習処理の概要を示す図である。この発明によるテキスト解析学習処理で最終的に生成されるものは、テキスト解析用の確率的な規則が記述されたテキスト解析用辞書である。なお、この実施の形態1では、確率推定モデルとしてCRF(Conditional Random Fields)(参考文献1参照)を用いるが、これに限定するものではなく、最大エントロピー法やベイジアンネットワークなど、他の確率モデルを用いても構わない。
参考文献1;
Lafferty, J., et al., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proc. of ICML-2001, pp. 282-289 (2001).
テキスト解析器は、この発明によるテキスト解析学習装置で生成されたテキスト解析用辞書を用いると、図1に示すように、入力文が「アイビーキャリアカレッジ」であると、この入力文を適切に単語単位に分割し、解析結果として「アイビー/キャリア/カレッジ」を出力する。
また、図1において、テキスト解析学習処理に用いた学習データは、施設名リスト(元データ)である。このリストの一部に対し、人手で正しい単語区切り位置を付与する(単語分割タグ付け)ことで、ラベル付き学習データが生成される。なお、図1中のラベル付き学習データのスラッシュ「/」は単語区切り位置を示している。ラベル付け作業は人手を要するため、構築可能なラベル付き学習データの量(少量)が限定される。一方、ラベルを付与していない元データは大量にあるため、この発明のテキスト解析学習装置では、これを学習データ(ラベル無し学習データ)として利用する。
施設名リストには、図1に示すように、元のアプリケーションが利用している属性情報(業種、住所など)が付与されている。ここでは、業種を施設名のカテゴリ情報として、ラベル無し学習データから単語分割規則を抽出する際の手がかりとされる。なお、本発明によるカテゴリ情報とは、アプリケーションから取得可能な学習データの属性情報や、データの抽出元に関する情報等である。
図2は、この発明の実施の形態1によるテキスト解析学習装置の構成を示すブロック図である。図2において、実施の形態1によるテキスト解析学習装置1は、ラベル付き学習データ格納部2、素性テンプレート格納部3、ラベル無し学習データ格納部4、素性生成部5、素性データ格納部6、ラベル格納部7、モデルパラメータ格納部8、正解ラベル尤度評価手段(尤度評価手段)9、カテゴリ内整合性評価手段(整合性評価手段)10、パラメータ更新手段(更新手段)11及び解析辞書出力手段12を備える。
ラベル付き学習データ格納部2は、テキスト解析器に入力される入力文のサンプル、この入力文のカテゴリ及びこの入力文の正しい単語区切り位置(ラベル)の複数の組み合わせが予め与えられ、ラベル付き学習データとして格納する記憶部である。図1の例では、施設名の入力文サンプル、この入力文のカテゴリ(業種)及びこの入力文の単語区切り位置(ラベル)の組み合わせが格納される。
素性テンプレート格納部3は、予め与えられた素性を生成するためのひな形となる素性テンプレートを格納する記憶部である。ここで、素性とは、テキスト解析器に入力される入力文に対する照合条件とラベルとの組み合わせであり、正解ラベル尤度評価手段9及びカテゴリ内整合性評価手段10が内部的に生成する単語区切り位置仮説の特徴(どんなところで切ろうとしているか)を表す。また、素性テンプレートには、図7を用いて後述するように、入力文に対する照合条件の一部及びラベルが変数として定義されている。
ラベル無し学習データ格納部4は、テキスト解析器に入力される入力文のサンプルと、この入力文のカテゴリとの組み合わせが予め与えられ、ラベル無し学習データとして格納する記憶部である。図1の例では、施設名の入力文サンプルとこの入力文のカテゴリ(業種)との組み合わせが格納される。このラベル無し学習データには、正しい単語区切り位置を示すラベルが付与されていない。
素性生成部5は、ラベル付き学習データ、ラベル無し学習データ、及びラベル格納部7から読み出したラベルの一覧表を用いて、素性テンプレートの変数を書き換えることで、素性を生成する手段である。素性データ格納部6は、素性生成部5により生成された素性を格納して保持する記憶部である。
ラベル格納部7は、単語区切り位置の有無を示すラベル(テキスト解析器での正しい解析結果を示すラベル)の一覧を格納する記憶部であり、このラベル一覧はテキスト解析器が解析結果を出力する際に使用される。モデルパラメータ格納部8は、パラメータ更新手段11による処理の開始時には初期値を保持し、処理開始以降はパラメータ更新手段11によって逐次更新されるモデルパラメータ(素性に対応する実数値パラメータ)を保持する記憶部である。
正解ラベル尤度評価手段9は、素性、モデルパラメータ及びラベルの一覧に基づいて、ラベル付き学習データの入力文を解析し、このラベル付き学習データに付与されたラベルが示す単語区切り位置の尤度(入力サンプルの正しい解析結果の尤度)を計算する手段である。
カテゴリ内整合性評価手段10は、素性、モデルパラメータ及びラベルの一覧に基づいて、ラベル無し学習データの入力文の単語区切りを解析し、このラベル無し学習データに対する単語区切り解析結果(ラベル無し学習データに対する解析結果)が、同じカテゴリに属するラベル無し学習データ(入力サンプル)に対する解析結果と、どの程度整合しているかを評価する手段である。
パラメータ更新手段11は、ラベル付き学習データに付与されたラベルが示す単語区切り位置の尤度(入力サンプルの正しい解析結果の尤度)と、ラベル無し学習データにおける単語区切り解析結果(ラベル無し学習データに対する解析結果)の同一カテゴリ内での整合性とに基づいて、モデルパラメータを更新する手段である。ここで、更新したモデルパラメータが所定の収束条件を満たしていない場合、このモデルパラメータを反復して用いて、正解ラベル尤度評価手段9でラベル付き学習データの解析結果の尤度計算を行い、カテゴリ内整合性評価手段10で整合性計算を行い、これらの結果に基づいてパラメータ更新手段11が、上記モデルパラメータを更新する。
解析辞書出力手段12は、素性データ格納部6から読み出した素性、モデルパラメータ格納部8から読み出したモデルパラメータ、及びラベル格納部7から読み出したラベルの一覧を用いて、テキスト解析用の確率的な規則が記述されたテキスト解析用辞書を生成し出力する手段である。
次に動作について説明する。
実施の形態1によるテキスト解析学習装置は、三段階の処理で目的とするテキスト解析用辞書を生成する。第一段階は学習の前処理であり、素性生成部5によって、素性データが生成される。第二段階は実際の学習処理であり、正解ラベル尤度評価手段9、カテゴリ内整合性評価手段10及びパラメータ更新手段11によって、モデルパラメータが生成される。第三段階は学習の後処理であり、解析辞書出力手段12によって、モデルパラメータがフォーマット変換され、テキスト解析用辞書が生成される。
(1)学習の前処理(第一段階)
図3は、実施の形態1による素性生成処理の流れを示すフローチャートであり、この図に沿って処理の詳細を説明する。
先ず、素性生成部5は、ラベル付き学習データ格納部2から未処理のラベル付き学習データを1つ取り出す(ステップST1)。ここでは、図4に示すようなラベル付き学習データが取り出されたものとする。図4の例では、入力文(施設名)である文字列「アースビジネスカレッジ」と、その正しい単語区切り位置「/」が複数格納されている。また、各エントリには、副次的な情報として「各種学校」、「自動車整備」等の施設のカテゴリ情報が付与されている。この後、素性生成部5は、取り出したラベル付き学習データにおける未処理の文字位置を区切り注目点とする(ステップST2)。ラベル付き学習データでは、ラベルで特定される単語区切り位置が単語区切り注目点と規定される。
次に、素性生成部5は、素性テンプレート格納部3から素性テンプレートを取り出し、当該素性テンプレートを使って現在の注目点で素性を生成する(ステップST3)。ここでは、例えば、図5に示す素性テンプレートが取り出される。この素性テンプレートは、テキスト解析器の設計者などが予め定義して素性テンプレート格納部3に保持しておく。
図5において、最も左端の列に記載される数値1,2,・・・は、各素性テンプレートに付与された通し番号に相当する素性テンプレート番号である。図5の例では、26種類の素性テンプレートが定義されている。また、%l[0]等のように、「%」で始まっている部分は素性テンプレートの変数部分であり、[ ]内の数値は注目点となる単語からの相対位置(字数単位)を示している。%l[ ]は、単語区切りの有無を表すラベルである。%c[ ]は[ ]内の数値で特定される位置の文字を表している。%s[ ]は[ ]内の数値で特定される位置の文字の字種を表す変数である。素性生成部5は、これら素性テンプレートの変数部分をラベル付き学習データから抽出した値で置き換えることにより、素性を生成する。
例えば、図4に示した2番目のラベル付き学習データである「アート/PC/教室」において、アートの「ト」の直後の単語区切りを注目点とした場合、素性生成部5は、図5で示した素性テンプレートの変数部分の値を、上記の学習データ「アート/PC/教室」から抽出された値で、図6に示すように置き換える。図6において、tは単語区切り注目点からの相対位置(字数単位)である。%l[t]は単語区切りの有無を表すラベルであり、%l[t]=1は単語区切りがあることを表し、%l[t]=0は単語区切りがないことを表している。また、%c[t]は位置tの文字を表している。%s[t]は位置tの文字の字種を表す変数であって、「カ」はカタカナを示しており、「A」はアルファベットを示し、「漢」は漢字を示している。
素性生成部5は、図6に示すように素性テンプレートの変数値を置き換えることで、図5に示した素性テンプレートから、図7に示す素性データを生成する。図7において、変数である%l[ ](ラベル)、%c[ ]、%s[ ](照合条件の一部)が、図6で示した学習データ「アート/PC/教室」から抽出した値で置換されている。
素性生成部5は、上述した手順で素性を生成する度に、ラベル付き学習データにおける全ての文字位置(単語区切り)で素性生成処理を完了したか否かを判定する(ステップST4)。ここで、全ての文字位置で処理が完了していなければ、ステップST2の処理に戻って、未処理の文字位置に対しステップST2及びステップST3の処理を繰り返す。
ステップST4で全ての文字位置での処理完了を判定した場合、素性生成部5は、ラベル付き学習データ格納部2に格納される全ての未処理のラベル付き学習データを処理したか否かを判定する(ステップST5)。このとき、未処理のラベル付き学習データがあれば、ステップST1の処理に戻り、未処理のラベル付き学習データに対しステップST1からステップST4までの処理を繰り返す。
全ての未処理のラベル付き学習データを処理した場合、素性生成部5は、生成した全ての素性データに対して使用頻度による予備選択を行い、頻度上位20%までの素性を採用し、素性集合F1として保持する(ステップST6)。
続いて、素性生成部5は、ラベル無し学習データ格納部4から未処理のラベル無し学習データを1つ取り出す(ステップST7)。ここでは、図8に示すようなラベル付き学習データが取り出されたものとする。図8の例では、入力文(施設名)である文字列と、各エントリのカテゴリ情報が付与されている。ただし、図4で示したラベル付き学習データと異なり、単語区切り位置「/」は付与されていない。
素性生成部5は、取り出したラベル無し学習データにおける未処理の文字位置を区切り注目点とする(ステップST8)。ラベル無し学習データでは、ラベルが付与されていないため、ラベル無し学習データの文字列における単語を順次区切り注目点とする。
次に、素性生成部5は、素性テンプレート格納部3から素性テンプレートを取り出し、当該素性テンプレートを使って現在の注目点で素性を生成する(ステップST9)。ここで、ラベル無し学習データにはラベルが付与されていないため、0、1の両ラベルを使って素性を生成する。つまり、注目点に対応するラベル%l[ ]が0である場合と、1である場合の双方がアサインされ、それぞれの素性データが生成される。
この後、素性生成部5は、上述した手順で素性を生成する度に、ラベル無し学習データにおける全ての文字位置で素性生成を完了したか否かを判定する(ステップST10)。ここで、全ての文字位置で処理が完了していなければ、ステップST8の処理に戻って、未処理の文字位置に対しステップST8及びステップST9の処理を繰り返す。
一方、全ての文字位置での処理が完了した場合、素性生成部5は、ラベル無し学習データ格納部4に格納される全ての未処理のラベル無し学習データを処理したか否かを判定する(ステップST11)。このとき、未処理のラベル無し学習データがあれば、ステップST7の処理に戻り、未処理のラベル無し学習データに対してステップST7からステップST10までの処理を繰り返す。
全ての未処理のラベル無し学習データを処理した場合、素性生成部5は、ラベル無し学習データから生成した全ての素性データに対し頻度による予備選択を行い、頻度上位20%までの素性を採用して、素性集合F2として保持する(ステップST12)。
最後に、素性生成部5は、ステップST6で保持した素性集合F1とステップST12で保持した素性集合F2とを合わせ、素性データとして素性データ格納部6に格納する(ステップST13)。
(2)学習処理(第二段階)
この学習処理では、正解ラベル尤度評価手段9による尤度評価処理と、カテゴリ内整合性評価手段10による整合性評価処理とが行われ、これらの結果に応じてパラメータ更新手段11が、第1段階で生成された各素性に対応する実数値パラメータであるモデルパラメータを生成する。
(2−1)尤度評価処理
図9は、実施の形態1による尤度評価処理の流れを示すフローチャートであり、この図に沿って尤度評価の詳細を説明する。
先ず、正解ラベル尤度評価手段9は、ラベル付き学習データ格納部2から未処理のラベル付き学習データを1つ取り出す(ステップST1a)。ここでは、図4に示すラベル付き学習データが取り出されたものとする。続いて、正解ラベル尤度評価手段9は、取り出したラベル付き学習データに対応する単語区切り仮説グラフを生成する(ステップST2a)。
図10は、単語区切り仮説グラフの一例を示す図であり、図4に示した2番目のラベル付き学習データである「アートPC教室」に関する単語区切り仮説グラフを示している。ここで、図10中の黒丸ノードは入力であり、文中の文字を示している。左端と右端の「#」はそれぞれ文頭及び文末を示す疑似入力文字である。また、白丸ノードは、入力文字位置に対応した単語区切り仮説であり、Sは開始位置に対応する疑似ラベルであり、Eは終了位置に対応する疑似ラベルである。太線のパスは、正解仮説「アート/PC/教室」を表している。
なお、入力文字の黒丸ノードと出力ラベルの白丸ノードとを繋ぐリンクは、その位置でのラベルの値を推定する際に考慮される入力文字を表している。図10の例では、表記上の都合により、ラベルの値が0である白丸ノードとのリンクを記載していないが、ラベルの値が1である白丸ノードと同様のリンクが存在する。
正解ラベル尤度評価手段9は、生成した単語区切り仮説グラフ上の出力側の各白丸ノード(各出力ノード)及び白丸ノード間(出力ノード間)のリンクに対して、素性の照合を行いながら、CRF確率計算式に従って尤度を算出する(ステップST3a)。尤度の計算には、動的計画法の一種であるフォワード・バックワードアルゴリズムを用いる。CRFによる確率計算式は、下記式(1)で与えられる。
ここで、pΛ(y|x)は、入力x(例えば「アートPC教室」)が与えられるとき、その単語区切りが、出力y(例えば0010101、つまりアート/PC/教室)であるときの条件付き確率(モデルパラメータΛのときの推定値)を表している。
また、cはcliqueと呼ばれる仮説グラフの部分グラフであり、ここでは出力y(=パス)を構成する全ての辺E及び頂点Vを表している。fは素性データであり、条件に一致するときは値1となり、一致しないときは値0となる関数である。y|cは、出力ラベル系列の中でc(ある頂点又は辺)に該当するラベルである。さらに、λは、i番目の素性に対応する実数値重みであって、Λ={λ,・・・,λ,・・・}は、モデルパラメータ(ベクトル)である。このモデルパラメータの値は、パラメータ更新手段11により逐次更新されるが、最初は初期値∀λ=0を用いる。Z(x)は、下記式(2)で表される。
Figure 2010238043
Figure 2010238043
図11は、図10中の単語区切り仮説グラフに部分グラフを明記した場合を示す図である。図11において、辺c1,c3,・・・,や、頂点c2,c4,・・・は、太線で示したパスの部分グラフである。図11に示す太線のパスは、入力「アートPC教室」における正しい単語区切りを表している。このパスの尤度(正解ラベル尤度)は、部分グラフc1,c2,・・・,c14において発火する(値1を取る)素性fを調べ、その素性に対応する実数値重みλを上記式(1)に従って足し込むことにより求められる。
例えば、図7で示した26種類の素性がある場合、部分グラフの辺c5で発火する素性は、左端の素性番号が2,8,9,13,14,20の6種類となる。また、部分グラフの頂点c6で発火する素性は、素性番号が1,3,4,5,6,9,10,11,12,15,16,18,19,21,22,23,24,25,26の20種類となる。このようにして、正解ラベル尤度評価手段9が、現在のモデルパラメータΛによる、入力xに対応する正解ラベル系列yの尤度pΛ(y|x)を算出する。
ステップST4aでは、正解ラベル尤度評価手段9が、ラベル付き学習データ格納部2に格納される全てのラベル付き学習データに対して、上述した正解ラベル尤度の計算処理を実施したか調べる。ここで、実施していたらステップST5aの処理に移行する。実施が未完の場合は、ステップST1aに戻って、未処理の学習データに対する処理を継続する。
ステップST5aでは、正解ラベル尤度評価手段9が、下記式(3)を用いて、全てのラベル付き学習データd∈Dに対する対数尤度の総和を算出する。なお、pΛ(y|x)は上記式(1)で定義される尤度である。
Figure 2010238043
(2−2)整合性評価処理
図12は、整合性評価処理の流れを示すフローチャートであり、この図に沿って処理の詳細を説明する。
先ず、カテゴリ内整合性評価手段10は、ラベル無し学習データ格納部4から未処理のラベル無し学習データを1つ取り出す(ステップST1b)。続いて、カテゴリ内整合性評価手段10は、取り出したラベル無し学習データに対応する単語区切り仮説グラフを生成する(ステップST2b)。
カテゴリ内整合性評価手段10は、生成された単語区切り仮説グラフ上の各出力ノード及び出力ノード間のリンクに対し素性の照合を行いながら、上述した尤度評価処理と同様に、CRF確率計算式に従って尤度を算出する(ステップST3b)。
ステップST4bでは、カテゴリ内整合性評価手段10が、ラベル無し学習データ格納部4に格納される全てのラベル無し学習データに対して、上述した正解ラベル尤度の計算処理を実施したか調べる。ここで、実施していたらステップST5bの処理に移行する。実施が未完の場合は、ステップST1bに戻って、未処理の学習データに対する処理を継続する。
次に、カテゴリ内整合性評価手段10は、正解ラベルが付与されていないラベル無し学習データに対して、モデルパラメータΛによる推定の「よさ」を評価するため、下記式(4)で得られるエントロピーを評価値として算出する(ステップST5b)。なお、この式(4)は、各カテゴリκ∈Kにおけるラベル無し学習データd∈Dに対して、部分グラフcを推定するときの条件付きエントロピーを表している。ただし、pチルダは、学習データにおける観測確率であり、pΛは、モデルパラメータΛを用いた推定確率である。
Figure 2010238043
(2−3)モデルパラメータ更新処理
パラメータ更新手段11は、正解ラベル尤度評価手段9が上記式(3)で算出した、ラベル付き学習データに対する尤度LDL(Λ)と、カテゴリ内整合性評価手段10が上記式(4)で算出した部分グラフのエントロピーHΛ(c|D,K)とを用いて、下記式(5)で表される目標関数G(Λ)が最大化するようにモデルパラメータΛを更新する。下記式(5)において、α、βは実験的に定める定数である。また、右辺第2項は、モデルパラメータΛの大きさに応じたペナルティを与える項であり、過学習を防ぐために導入している。なお、||Λ||は、下記式(6)で与えられるユークリッドノルムである。
Figure 2010238043
Figure 2010238043
目標関数G(Λ)を最大化するモデルパラメータΛは、公知の山登り法によって求めることができる。すなわち、正解ラベル尤度評価手段9によるLDLの計算、カテゴリ内整合性評価手段10によるHΛ(c|D,K)の計算とともに反復して、モデルパラメータΛを逐次更新し、モデルパラメータΛの更新量が所定値以下となったら収束と見なし、処理を完了する。
なお、目標関数G(Λ)は微分可能であるから勾配を求めて、上記山登り法の代わりに準ニュートン法(例えば、BFGS法)を適用すれば、収束までの反復処理の回数を減らすことが可能である。
目標関数G(Λ)を最大化するパラメータ推定では、ラベル付き学習データに対しては上記式(5)の右辺第1項の尤度の最大化が基準とされ、ラベル無し学習データに対しては上記式(5)の右辺第3項のエントロピーが小さくなる構造推定(カテゴリ内で一貫性のある構造推定)が増えるように学習される。後者では人手でタグ付け作業をする際の指針に直観的に近いため、教師なし学習において有用な規則獲得が可能となっている。
このようにして得られたモデルパラメータΛは、パラメータ更新手段11によりモデルパラメータ格納部8に格納される。
(3)学習の後処理(第三段階)
解析辞書出力手段12は、パラメータ更新手段11によるモデルパラメータ推定処理が完了すると、当該モデルパラメータと、素性データ格納部6に格納される素性データと、ラベル格納部7に格納されるラベルの一覧表とを統合し、テキスト解析用辞書として所定のフォーマットで出力する。
図13は、テキスト解析用辞書の一例を示す図である。図13に示すデータフォーマットは、@LABELS、@FEATURES、@WEIGHTSの3つのセクションから構成されている。@LABELSのセクションには、ラベル格納部7が保持するラベルが列挙される。@FEATURESのセクションには、素性データ格納部6が保持する素性が列挙される。図13に示す例では、各行が素性番号i及び素性fの定義から構成されている。なお、図13においては、素性番号27番目以降の素性の記載を省略している。@WEIGHTSのセクションには、モデルパラメータ格納部8に保持されるモデルパラメータの値が列挙される。図13では、各行が素性番号i及び当該素性fの重みパラメータλから構成されている。重みパラメータについても素性と同様に素性番号26までの一部のみを例示し、省略部分を「・・・」で示している。
解析辞書出力手段12から出力されたテキスト解析用辞書は、図1に示すように、電子ファイル等のデータとして保存され、テキスト解析器に読み込まれてテキスト解析に利用される。
以上のように、この実施の形態1によれば、ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出し、ラベル無し学習データに対する解析結果と同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出し、尤度及び整合性の評価値に基づく目標関数が最大化するように素性データに対応するモデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された尤度及び評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行して、所定の収束条件を満たしたモデルパラメータ、素性データ及びラベルの一覧を用いて、テキスト解析器が使用する解析用辞書を生成する。
このように、ラベル付き学習データとラベル無し学習データを併用する半教師付き学習の枠組みにおいて、データソースやアプリケーションから容易に取得可能なデータの副次的属性(カテゴリ情報)を利用することにより、ラベル付き学習データに対しては一般的な最尤推定を実施しつつ、ラベル無し学習データに対してはカテゴリ内で可能な限り一貫した推定を行うように学習される。ここで、この発明におけるラベル無し学習データに対する学習指針は、カテゴリ内のデータの類似性やラベルの共通性を仮定するものであるが、この仮定は、コーパス作成時に人手でラベル付け作業を行う際の明示的若しくは暗黙的な指針に直観的に近く、自然な仮定と考えられる。従って、このような先験的な知識を学習基準に取り込むことにより、ラベル無し学習データから効率的な学習を行うことができ、解析精度を向上させることが可能である。
1 テキスト解析学習装置、2 ラベル付き学習データ格納部、3 素性テンプレート格納部、4 ラベル無し学習データ格納部、5 素性生成部、6 素性データ格納部、7 ラベル格納部、8 モデルパラメータ格納部、9 正解ラベル尤度評価手段(尤度評価手段)、10 カテゴリ内整合性評価手段(整合性評価手段)、11 パラメータ更新手段(更新手段)、12 解析辞書出力手段。

Claims (1)

  1. テキスト解析器に対する入力文、前記入力文の正しい解析結果を示すラベル及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル付き学習データとして格納するラベル付き学習データ格納部と、
    テキスト解析器に対する入力文及び当該入力文が属するカテゴリを示すカテゴリ情報の組み合わせを、ラベル無し学習データとして格納するラベル無し学習データ格納部と、
    前記ラベルの一覧を格納するラベル格納部と、
    入力文に対する照合条件と当該入力文の前記ラベルとの組み合わせを、当該入力文に対応する素性データとして格納する素性データ格納部と、
    前記照合条件の一部及び前記ラベルを変数とした素性テンプレートを格納する素性テンプレート格納部と、
    前記ラベル付き学習データ、前記ラベル無し学習データ、前記ラベルの一覧及び前記素性テンプレートを入力し、前記ラベル付き学習データ及び前記ラベル無し学習データと前記ラベルの一覧とから前記照合条件の一部及び前記ラベルにそれぞれ対応する文字列及びラベルを抽出して前記素性テンプレートの変数を書き換えることにより、前記素性データを生成する素性生成部と、
    前記素性データに対応するモデルパラメータを格納するモデルパラメータ格納部と、
    前記ラベル付き学習データの入力文を、前記素性データ、前記モデルパラメータ及び前記ラベルの一覧に基づいて解析し、当該ラベル付き学習データに付与されたラベルで示される解析結果の尤度を算出する尤度評価手段と、
    前記ラベル無し学習データの入力文を、前記素性データ、前記モデルパラメータ及び前記ラベルの一覧に基づいて解析し、当該ラベル無し学習データに対する解析結果と、同じカテゴリに属する入力文に対する解析結果との整合性の度合を示す評価値を算出する整合性評価手段と、
    前記尤度評価手段で算出された尤度及び前記整合性評価手段で算出された評価値に基づく目標関数が最大化するように前記モデルパラメータの値を更新し、当該モデルパラメータの更新値を用いて算出された前記尤度及び前記評価値に基づく当該モデルパラメータの更新を、当該モデルパラメータの更新値が所定の収束条件を満たすまで実行する更新手段と、
    前記素性データ、前記所定の収束条件を満たしたモデルパラメータ及び前記ラベルの一覧を用いて、前記テキスト解析器が使用する解析用辞書を生成する解析辞書出力手段とを備えたテキスト解析学習装置。
JP2009086407A 2009-03-31 2009-03-31 テキスト解析学習装置 Pending JP2010238043A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009086407A JP2010238043A (ja) 2009-03-31 2009-03-31 テキスト解析学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009086407A JP2010238043A (ja) 2009-03-31 2009-03-31 テキスト解析学習装置

Publications (1)

Publication Number Publication Date
JP2010238043A true JP2010238043A (ja) 2010-10-21

Family

ID=43092290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009086407A Pending JP2010238043A (ja) 2009-03-31 2009-03-31 テキスト解析学習装置

Country Status (1)

Country Link
JP (1) JP2010238043A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134751A (ja) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
WO2018174000A1 (ja) * 2017-03-24 2018-09-27 日本電気株式会社 構成管理装置、構成管理方法および記録媒体
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN109783604A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 基于少量样本的信息提取方法、装置和计算机设备
CN112528628A (zh) * 2020-12-18 2021-03-19 北京一起教育科技有限责任公司 一种文本处理的方法、装置及电子设备
WO2022134592A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134751A (ja) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
WO2018174000A1 (ja) * 2017-03-24 2018-09-27 日本電気株式会社 構成管理装置、構成管理方法および記録媒体
JPWO2018174000A1 (ja) * 2017-03-24 2020-01-23 日本電気株式会社 構成管理装置、構成管理方法および構成管理プログラム
JP7172986B2 (ja) 2017-03-24 2022-11-16 日本電気株式会社 構成管理装置、構成管理方法および構成管理プログラム
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN109783604A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 基于少量样本的信息提取方法、装置和计算机设备
CN109783604B (zh) * 2018-12-14 2024-03-19 平安科技(深圳)有限公司 基于少量样本的信息提取方法、装置和计算机设备
CN112528628A (zh) * 2020-12-18 2021-03-19 北京一起教育科技有限责任公司 一种文本处理的方法、装置及电子设备
CN112528628B (zh) * 2020-12-18 2024-02-02 北京一起教育科技有限责任公司 一种文本处理的方法、装置及电子设备
WO2022134592A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Pang et al. Generalising fine-grained sketch-based image retrieval
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN111159454A (zh) 基于Actor-Critic生成式对抗网络的图片描述生成方法及***
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN111737511A (zh) 基于自适应局部概念嵌入的图像描述方法
JP2010238043A (ja) テキスト解析学習装置
US11176417B2 (en) Method and system for producing digital image features
CN111581954B (zh) 一种基于语法依存信息的文本事件抽取方法及装置
Maniparambil et al. Enhancing clip with gpt-4: Harnessing visual descriptions as prompts
CN103425686B (zh) 一种信息发布方法和装置
CN105718256A (zh) 用于通过本体模型的比较进行一致性检查的方法和装置
CN110413790B (zh) 一种场景分类方法及装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112926337B (zh) 一种结合重构句法信息的端到端方面级情感分析方法
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
JP2016170636A (ja) 接続関係推定装置、方法、及びプログラム
CN116611443A (zh) 知识交互图指导的事件因果关系识别***及方法
CN117313850A (zh) 一种信息抽取及知识图谱构建***及方法
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
US20230132770A1 (en) Learning apparatus, learning method, object detection apparatus, object detection method, learning support system and learning support method
CN112183095A (zh) 一种事件抽取方法和装置
CN113553844B (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法