JP6127778B2

JP6127778B2 - モデル学習方法、モデル学習プログラム及びモデル学習装置

Info

Publication number: JP6127778B2
Application number: JP2013136647A
Authority: JP
Inventors: 友哉岩倉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2017-05-17
Anticipated expiration: 2033-06-28
Also published as: JP2015011535A; US20150006151A1; US9348810B2

Description

本発明は、機械学習の技術に関する。

最初に、構造予測を行う自然言語処理のタスクの例として、単語列から品詞列へのマッピング、単語列からフレーズ列へのマッピング及び単語列から固有名詞列へのマッピングについて、順次説明する。

図１に、単語列から品詞列へのマッピングの様子を示す。この例における単語列１１は、「Ｔａｒｏ」、「Ｙａｍａｄａ」及び「ｓｉｎｇｓ」の単語を順に含んでいる。そして、この図は、これらの単語に名詞（図中、「Ｎ」と記す）あるいは動詞（図中、「Ｖ」と記す）のような品詞が対応付けられる様子を示している。この例では、単語列１１に含まれる各単語に対して、品詞列１３に含まれる「名詞」、「名詞」及び「動詞」が対応付けられている。

図２に、単語列からフレーズ列へのマッピングの様子を示す。単語列１１は、図１の場合と同様である。そして、この図は、これらの単語列からフレーズ群を抽出し、それらのフレーズ群に名詞句（図中、「ＮＰ」と記す）あるいは動詞句（図中、「ＶＰ」と記す）のような品詞句が対応付けられる様子を示している。この例では、フレーズ列２１中の「ＴａｒｏＹａｍａｄａ」の第１フレーズと「ｓｉｎｇｓ」の第２フレーズとが抽出され、それぞれのフレーズに「名詞句」と「動詞句」とが対応付けられている。

図３に、単語列から固有名詞列へのマッピングの様子を示す。単語列１１は、図１の場合と同様である。そして、この図は、これらの単語列に含まれる単語あるいはフレーズに、人名（図中、「Ｐ」と記す）あるいはそれ以外（図中、「Ｏ」と記す）が対応付けられる様子を示している。この例では、固有名詞列３１に示すように「ＴａｒｏＹａｍａｄａ」のフレーズが人名であると判定され、「ｓｉｎｇｓ」が人名以外であると判定されている。

これらのタスクの実現方法として、教師有り学習手法が適用されてきた。教師有り学習手法では、上述のような単語列とその正解構造（たとえば、ラベル列）とが学習データとして与えられ、この学習データを用いて単語列から構造を正しくマッピングできるように学習する。例えば、分類器を組み合わせる方法の場合には、各単語にラベルを付与することで、最終的な出力を決定できるようにする。

図４に、分類器によるマッピングの様子を示す。単語列１１は、図１の場合と同様である。この例では、学習によって、単語に対してラベルを付与する分類器の組み合わせを得て、その分類器の組み合わせによって、判定対象である単語列に含まれる各単語にラベルを対応付ける。

この例では、「名詞句の先頭」（図中、「Ｂ−ＮＰ」と記す）、「名詞句の先頭以外」（図中、「Ｉ−ＮＰ」と記す）、「動詞句の先頭」（図中、「Ｂ−ＶＰ」と記す）及び「動詞句の先頭以外」（図中、「Ｉ−ＶＰ」と記す）の４種類のラベルを用いる。

「名詞句の先頭」の後に、「名詞句の先頭」又は「動詞句の先頭」が続く場合には、先の「名詞句の先頭」に対応する単語が、単独で名詞句に相当することを意味する。

「名詞句の先頭」の後に、一つあるいは複数の「名詞句の先頭以外」が続く場合には、その「名詞句の先頭」に対応する単語から、最後尾の「名詞句の先頭以外」に対応する単語までの単語列からなるフレーズが、名詞句に相当することを意味する。

「動詞句の先頭」の後に、「名詞句の先頭」又は「動詞句の先頭」が続く場合には、先の「動詞句の先頭」に対応する単語が、単独で動詞句に相当することを意味する。

「動詞句の先頭」の後に、一つあるいは複数の「動詞句の先頭以外」が続く場合には、その「動詞句の先頭」に対応する単語から、最後尾の「動詞句の先頭以外」に対応する単語までの単語列からなるフレーズが、動詞句に相当することを意味する。

この例では、ラベル列４１に示すように、「Ｔａｒｏ」に「名詞句の先頭」が付与され、「Ｙａｍａｄａ」に「名詞句の先頭以外」が付与され、「ｓｉｎｇｓ」に「動詞句の先頭」が付与されている。その結果、フレーズ列４３に示すように、「ＴａｒｏＹａｍａｄａ」が名詞句であると判定され、「ｓｉｎｇｓ」が動詞句であると判定される。

また近年は、直接的に構造を予測する構造学習手法も用いられている。図５に、構造学習手法によるマッピングの様子を示す。この例では、各単語に対する４種類のラベルを選択的に組み合わせたラベル列の候補群５１の中から、正しいラベル列を直接選択する仕組みを学習する。ラベル列の選択は、図示するように各単語に対するラベル同士を結ぶパス群から、正しいパスを選択することに相当する。

この例では、「Ｔａｒｏ」に対する「名詞句の先頭」と、「Ｙａｍａｄａ」に対する「名詞句の先頭以外」と、「ｓｉｎｇｓ」に対する「動詞句の先頭」とからなるラベル列が選択され、その結果、フレーズ列５３に示すように、「ＴａｒｏＹａｍａｄａ」が名詞句であると判定され、「ｓｉｎｇｓ」が動詞句であると判定される。

また、図６に、別の構造学習手法によるマッピングの様子を示す。単語列１１は、図１の場合と同様である。この例は、単語の塊であるチャンクを単位としている。単語列を構成するチャンクに対する４種類のラベルを選択的に組み合わせたラベル列の候補群６１の中から、正しいラベル列を直接選択する仕組みを学習する。つまり、ラベル列の選択は、図示するように各チャンクに対するラベル同士を結ぶパス群から、正しいパスを選択することに相当する。また、単語列が１つのチャンクとなることを想定して、そのチャンクのラベルを選択することもある。

この例では、フレーズ列６３に示すように、「ＴａｒｏＹａｍａｄａ」に対する名詞句と、「ｓｉｎｇｓ」に対する動詞句とからなるラベル列が選択される。

これらの学習手法に加えて、更に判定精度を高めることを目的として、アンサンブル学習手法を採用している例もある。アンサンブル学習手法の一種であるブースティング手法では、複数のモデル（規則ともいう。）を学習し、それらのモデルを組み合わせることで精度の高い統合モデルを生成する。複数のモデルを学習するための学習器は、弱学習器と呼ばれ、その弱学習器で学習されたモデルは、弱仮説と呼ばれる。

ブースティング手法では、学習データに含まれる各学習事例に対して重みを設定する。そして、弱仮説によって正しい予測結果が得られる簡単な学習事例に対しては、その重みを小さくし、弱仮説によって正しい予測結果が得られない難しい学習事例に対しては、その重みを大きくするように調整する。このように各学習事例の重みを調整することによって、多様な学習事例へ適応した統合モデルを得られることが期待される。

構造予測にブースティング手法を採用するある例によれば、弱学習器として、前述したようにラベルを付与する分類器が用いられている。

特開２０１０−３３２１３号公報

Schapire, R. E. and Singer, Y.: BoosTexter: A boosting-based system for text categorization, Machine Learning, Vol. 39(2/3), pp. 135-168 (2000) Nagata, M.: A Stochastic Japanese Morphological Analyzer Using a Forward-DP Backward-A* N-Best Search Algorithm, COLING, pp. 201-207 (1994) Schapire, R. E. and Singer, Y.: Improved Boosting Algorithms Using Confidence-rated Predictions, Machine Learning, Vol. 37, No. 3, pp. 297-336 (1999) Cohen, W. W. and Sarawagi, S.: Exploiting dictionaries in named entity extraction: combining semi-Markov extraction processes and data integration methods, Proc. of KDD’04, pp. 89-98 (2004) Sarawagi, S. and Cohen, W. W.: Semi-Markov Conditional Random Fields for Information Extraction, Proc. of NIPS’04 (2004)

本発明の目的は、一側面では、構造学習の精度を高めることである。

一態様に係るモデル学習方法は、（Ａ）各学習事例の重みに基づいて、重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、（Ｂ）各学習事例について、当該学習事例から導かれる複数の候補構造のうち正解構造以外の候補構造の各々に対して、モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の正解構造に対してモデルにより付与される第２スコアと最大スコアとの差を求めると共に、各学習事例における当該差により定義されるエラーの上限値に基づいて、モデルの確信度を算出する第２ステップと、（Ｃ）確信度と各学習事例における上記差とに基づいて、各学習事例の重みを更新する第３ステップと、（Ｄ）第１ステップと、第２ステップと、第３ステップとを繰り返すステップとを含む。

一側面としては、構造学習の精度を高めることができる。

図１は、単語列から品詞列へのマッピングの様子を示す図である。図２は、単語列からフレーズ列へのマッピングの様子を示す図である。図３は、単語列から固有名詞列へのマッピングの様子を示す図である。図４は、分類器によるマッピングの様子を示す図である。図５は、構造学習手法によるマッピングの様子を示す図である。図６は、構造学習手法によるマッピングの様子を示す図である。図７は、公知技術のメイン処理フローを示す図である。図８は、公知技術における学習データと規則の例を示す図である。図９は、学習事例の例を示す図である。図１０は、正解構造の例を示す図である。図１１は、初期状態における学習事例の重みの例を示す図である。図１２は、初期状態における構造予測モデルの例を示す図である。図１３は、構造学習の様子を示す図である。図１４は、構造予測モデルを更新する様子を示す図である。図１５は、構造学習の様子を示す図である。図１６は、構造予測モデルを更新する様子を示す図である。図１７は、構造学習の様子を示す図である。図１８は、構造予測モデルを更新する様子を示す図である。図１９は、第２スコア算出の様子を示す図である。図２０は、第２スコア算出の様子を示す図である。図２１は、第２スコア算出の様子を示す図である。図２２は、学習事例の重みの例を示す図である。図２３は、構造学習の様子を示す図である。図２４は、構造予測モデルを更新する様子を示す図である。図２５は、構造学習の様子を示す図である。図２６は、構造予測モデルを更新する様子を示す図である。図２７は、構造学習の様子を示す図である。図２８は、構造予測モデルを更新する様子を示す図である。図２９は、モデル学習装置の機能ブロックを示す図である。図３０は、モデル学習部の構成を示す図である。図３１は、本発明のメイン処理フローを示す図である。図３２は、初期状態における結合モデルの例を示す図である。図３３は、構造学習処理フローを示す図である。図３４は、構造予測モデル更新処理フローを示す図である。図３５は、確信度算出処理フローを示す図である。図３６は、コンピュータの機能ブロック図である。

まず、本稿で用いるブースティング手法であるＡｄａＢｏｏｓｔ（非特許文献１）について説明する。学習の目的は、与えられた学習事例Ｘからラベル集合ＹへのマッピングＦ、

を導出することである。ここでのラベルは、｛−１，＋１｝である。

図７に、ＡｄａＢｏｏｓｔのメイン処理フローを示す。学習システムは、学習データＳと、ブースティング繰り返し数Ｔとを受け付ける（Ｓ１）。学習データＳは、学習事例とラベルとのセットをｎ個含み、｛（ｘ₁，ｙ₁），．．．（ｘ_n，ｙ_n）｝と表される。

は、ｉ番目のセットに係る学習事例を表し、

は、ｉ番目のセットに係るラベルを表している。

ブースティング繰り返し数Ｔは、ブースティングにおける繰り返しの回数である。

学習システムは、学習事例の重み（ｗ_1,1，．．．ｗ_1,n）を初期化する（Ｓ３）。学習事例の重みｗ_1,iは、学習事例ｘ_iに対応している。各学習事例の重みｗ_1,i（１≦ｉ≦ｎ）に、初期値１／ｎが設定される。つまり、各初期の学習事例の重みは、均等とする。

そして、カウンタｔを１に初期化する（Ｓ５）。

学習システムは、弱学習器に弱仮説ｈ_tを求めさせる（Ｓ７）。弱学習器は、上述の学習データＳと学習事例の重み（ｗ_1,1，．．．ｗ_1,n）から弱仮説ｈ_tを学習する。ｈ_tは、ｔ回目のブースティングラウンドで求めた弱仮説を表している。

次に、学習システムは、求めた弱仮説ｈ_tに対する確信度α_tを算出する（Ｓ９）。

更に、学習システムは、次の式に従って、学習事例の重みを更新する（Ｓ１１）。

式中のｈ_t（ｘ_i）は、学習事例ｘ_iに対するｈ_ｔによる分類結果であり、ｅは、ネイピア数である。また、

は、

のための正規化項である。

学習システムは、カウンタｔに１を加え（Ｓ１３）、カウンタｔがブースティング繰り返し数Ｔを越えたか否かを判定する（Ｓ１５）。カウンタｔがブースティング繰り返し数Ｔを越えていないと判定した場合には、学習システムは、Ｓ７に戻り、上述した一連の処理を繰り返す。

カウンタｔがブースティング繰り返し数Ｔを越えたと判定した場合には、学習システムは、最終仮説Ｆを求める（Ｓ１７）。学習システムは、上述のループ処理により求めたＴ種類の弱仮説を、以下の式に従って結合することによって、最終仮説Ｆを求める。

式中のｓｉｇｎは、入力値が正の場合には１を返し、それ以外の場合には−１を返す関数である。

図８に、ＡｄａＢｏｏｓｔにおける学習データと学習される規則との例を示す。図８の上側のテーブルは、ＡｄａＢｏｏｓｔに与えられる学習データの例である。この例で、ラベルが「＋１」の場合には、名詞句の一部であることを示し、ラベルが「−１」の場合には、名詞句以外であることを示している。ここでの素性とは、規則の候補である。第１レコードは、素性「Ｙａｍａｄａ」が名詞句の一部であることに重み「１／３」が与えられたことを示している。第２レコードは、素性「ｓｉｎｇｓ」が名詞句以外であることに重み「１／３」が与えられたことを示している。第３レコードは、素性「Ｔａｒｏ」が名詞句の一部であることに重み「１／３」が与えられたことを示している。このような学習データから図８の下側のテーブルに示すような規則が学習される。ここで、正の値は名詞句であることを意味し、負の値は名詞句でないことを意味している。

尚、ＡｄａＢｏｏｓｔでは、Ｔ種類の弱仮説で構成される最終仮説Ｆにおいて、以下に示す学習エラーの上限値を持つことが証明されている。

[[π]] は、ある命題πが成り立つ場合に１となり、ある命題πが成り立たない場合に０となることを意味している。

式（１）と式（３）によって、各ブースティングラウンドｔにおけるｈ_tに対して、以下の式の条件を満たす確信度α_tを選択すれば、ＡｄａＢｏｏｓｔによる学習は収束することが導かれる。
Ｚ_t（α_t）＜１

［実施の形態の具体的内容］
本実施の形態では、構造予測モデルを規定するスコアと、構造を評価するスコアとの２種類のスコアを用いる。以下、構造予測モデルを規定するスコアを第１スコアと呼び、構造を評価するスコアを第２スコアと呼び、両者を区別する。

上述したブースティング手法では、正例と負例が与えられることを想定しているが、構造学習手法においては明示的に負例が与えられるわけではない。従って、ブースティング手法にそのまま構造学習手法を適用するわけには行かない。

そこで、本実施の形態では、学習事例に対する正解構造における第２スコアと、正解構造以外の構造群における最高の第２スコアとの差を利用する。更に、上述の第２スコアの差で定義されるエラーの上限値に基づき、学習事例の重みを更新する。具体的には、正解構造の第２スコアが最高の第２スコアより低い場合は、不適を意味するので、その学習事例の重みを増加させる。正解構造の第２スコアが最高の第２スコアより高く、あるいは等しい場合は、好適を意味するので、その学習事例の重みを減少させる。

以下で処理の概要を説明する。まず、学習データについて述べる。図９に、学習データに含まれる学習事例の例を示す。この例における学習事例は、単語列である。ここでは説明を簡単にするために、第３単語までの単語列の例を示しているが、単語数はもっと多くてもよい。

また、学習事例の数についても、説明を簡単にするために３つとしているが、実際に学習を行う場合には、もっと多くの学習事例を用意する。

第１学習事例：Ｘ₁は、第１単語「Ｙａｍａｄａ」と第２単語「ｓｉｎｇｓ」とからなる単語列である。第２学習事例：Ｘ₂は、第１単語「Ｔａｒｏ」と第２単語「ｓｉｎｇｓ」とからなる単語列である。第３学習事例：Ｘ₃は、第１単語「Ｔａｒｏ」と第２単語「Ｙａｍａｄａ」と第３単語「ｓｉｎｇｓ」とからなる単語列である。

学習データは、学習事例である単語列に対する正解構造も有している。この例で、図６に例示したように、正解構造は、チャンクとそのチャンクに対するラベルの組み合わせの列である。

図１０に示した正解構造の例では、図４で説明した「名詞句の先頭」（Ｂ−ＮＰ）、「名詞句の先頭以外」（Ｉ−ＮＰ）、「動詞句の先頭」（Ｂ−ＶＰ）及び「動詞句の先頭以外」（Ｉ−ＶＰ）の４種類のラベルを用いて、チャンクと品詞句とを特定する。但し、チャンクと品詞句との組み合わせを特定する構造であれば、図１０以外の形式であってもよい。

本実施の形態では、各学習事例に重みが付与される。図１１に、初期状態における学習事例の例を示す。初期状態では、重みの合計が１であり、また各重みが均等になるようにする。この例では、学習事例の数が３であるので、各重みは１／３とする。

次に、本実施の形態に係る構造予測モデルについて説明する。構造学習手法として、非特許文献４に示した手法あるいは非特許文献５に示した手法などを利用してもよい。ここでは、非特許文献４における構造学習手法に対してブースティングを適用する例について説明する。図１２に、初期状態における構造予測モデルの例を示す。構造予測モデルは、正解構造を予測する各手掛かりに対応する第１スコアを有している。この例における手掛かりは、素性に相当する。初期状態において、各第１スコアには初期値０が設定される。

この例で、第１レコードは、チャンク「Ｔａｒｏ」のラベルが名詞句（ＮＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第２レコードは、チャンク「Ｙａｍａｄａ」のラベルが名詞句（ＮＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第３レコードは、チャンク「Ｔａｒｏ」のラベルが動詞句（ＶＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第４レコードは、チャンク「Ｙａｍａｄａ」のラベルが動詞句（ＶＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第５レコードは、チャンク「ｓｉｎｇｓ」のラベルが動詞句（ＶＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第６レコードは、チャンク「Ｙａｍａｄａｓｉｎｇｓ」のラベルが名詞句（ＮＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。第７レコードは、チャンク「ＴａｒｏＹａｍａｄａ」のラベルが名詞句（ＮＰ）であるという手掛かりに対応する第１スコアに０が設定されていることを示している。手掛かりを特定する条件は、この例に限定されない。例えば、当該チャンクの前の単語あるいは後の単語に対する条件を含んでいてもよい。

図１３に、構造学習の様子を示す。この図は、第１学習事例Ｘ₁の単語列１３０１に対する候補構造Ｙ群１３０３から、図１２に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₁１３０５を抽出する様子を示している。図１２に示した構造予測モデルでは、第１スコアがすべて０であるので、各候補構造Ｙにおける第２スコアは等しく０となる。その場合には、いずれの候補構造Ｙが抽出されてもよいが、この例ではチャンク「Ｙａｍａｄａｓｉｎｇｓ」とそのラベルの名詞句（ＮＰ）との組み合わせである構造Ｙが選択される。

第１学習事例Ｘ₁の正解構造Ｙ₁１３０７は、第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせの列であるので、ここで抽出された最大スコア構造Ｙ^* ₁１３０５は、正解構造Ｙ₁１３０７と一致しないと判定される。

この図で、最大スコア構造Ｙ^* ₁１３０５に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₁１３０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図１４に、図１３の判定結果に基づいて、構造予測モデルを更新する様子を示す。本実施の形態では、最大スコア構造が正解構造と一致しないと判定された場合に、最大スコア構造に対応する各手掛かりの第１スコアから学習事例の重みだけ減算する。更に、正解構造に対応する各手掛かりの第１スコアに学習事例の重みを加算する。

このように減算する値と加算する値とは、学習率と呼ばれる。つまり、学習事例の重みを学習率に適用して、最大スコア構造に対応する各手掛かりの第１スコアに対する減算を行うとともに、正解構造に対応する各手掛かりの第１スコアに対する加算を行う。

最大スコア構造Ｙ^* ₁１３０５に含まれるチャンク「Ｙａｍａｄａｓｉｎｇｓ」とそのラベルである名詞句（ＮＰ）との組み合わせは、構造予測モデルの第６レコードの手掛かりに合致するので、第６レコードの第１スコアを減算する。このとき、図１１に示した第１学習事例の重みＷ_1,1に相当する「１／３」を引くようにする。

更に、正解構造Ｙ₁１３０７に含まれる第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第２レコードの手掛かりに合致するので、第２レコードの第１スコアを加算する。同じく正解構造Ｙ₁１３０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図１１に示した第１学習事例の重みＷ_1,1に相当する「１／３」を加えるようにする。以上で、第１学習事例に対する１回目の構造学習を終える。

続いて、図１５に、第２学習事例に対する１回目の構造学習の様子を示す。この図は、第２学習事例Ｘ₂の単語列１５０１に対する候補構造Ｙ群１５０３から、図１４に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₂１５０５を抽出する様子を示している。ここでは、チャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

第２学習事例Ｘ₂については、ここで抽出された最大スコア構造Ｙ^* ₂１５０５は、正解構造Ｙ₂１５０７と一致しないと判定される。

この図でも、最大スコア構造Ｙ^* ₂１５０５に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₂１５０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図１６に、図１５の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Ｙ^* ₂１５０５に含まれるチャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第３レコードの手掛かりに合致するので、第３レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₂１５０５に含まれるチャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを減算する。このとき、いずれも、図１１に示した第２学習事例の重みＷ_1,2に相当する「１／３」を引くようにする。

更に、正解構造Ｙ₂１５０７に含まれる第１チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第１レコードの手掛かりに合致するので、第１レコードの第１スコアを加算する。同じく正解構造Ｙ₂１５０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図１１に示した第１学習事例の重みＷ_1,2に相当する「１／３」を加えるようにする。第５レコードの第１スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第２学習事例に対する１回目の構造学習を終える。

続いて、図１７に、第３学習事例に対する１回目の構造学習の様子を示す。この図は、第３学習事例Ｘ₃の単語列１７０１に対する候補構造Ｙ群１７０３から、図１６に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₃１７０５を抽出する様子を示している。ここでは、チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

第３学習事例Ｘ₃の正解構造Ｙ₃１７０７は、第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせの列であるので、ここで抽出された最大スコア構造Ｙ^* ₃１７０５は、正解構造Ｙ₃１７０７と一致しないと判定される。

この図でも、最大スコア構造Ｙ^* ₃１７０５に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₃１７０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図１８に、図１７の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Ｙ^* ₃１７０５に含まれるチャンク「Ｔａｒｏ」とそのラベルである名詞句（ＮＰ）との組み合わせは、構造予測モデルの第１レコードの手掛かりに合致するので、第１レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₃１７０５に含まれるチャンク「Ｙａｍａｄａ」とそのラベル名詞句（ＮＰ）との組み合わせは、構造予測モデルの第２レコードの手掛かりに合致するので、第２レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₃１７０５に含まれるチャンク「ｓｉｎｇｓ」とそのラベル動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを減算する。このとき、いずれも、図１１に示した第３学習事例の重みＷ_1,3に相当する「１／３」を引くようにする。

更に、正解構造Ｙ₃１７０７に含まれる第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第７レコードの手掛かりに合致するので、第７レコードの第１スコアを加算する。同じく正解構造Ｙ₃１７０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図１１に示した第１学習事例の重みＷ_1,3に相当する「１／３」を加えるようにする。第５レコードの第１スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第３学習事例に対する１回目の構造学習を終える。

通常は、上述した構造学習を複数回繰り返すが、ここでは説明を簡単にするために、繰り返しは行わずに、構造学習を一旦終了する。

このようにして、構造予測モデルが得られると、次に構造予測モデルに対する確信度を算出する。本実施の形態では、正解構造を除く候補構造群に対する第２スコアのうち最大スコアと、正解構造に対する第２スコアである正解スコアとの差に基づいて、確信度を算出する。尚、第２スコアは、その時点における構造予測モデルに基づいて算出される。

図１９に、第１学習事例に対する１回目の第２スコア算出の様子を示す。この図は、第１学習事例Ｘ₁の単語列１３０１に対する候補構造Ｙ群１３０３から、図１８に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^t ₁１９０１（正解構造Ｙ₁１３０７を除く）を抽出する様子を示している。ここではチャンク「Ｙａｍａｄａ」とそのラベルの動詞句（ＶＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

最も第２スコアの大きい構造Ｙ^t ₁１９０１に対する第２スコアｓ₁（Ｘ₁，Ｙ^t ₁）は、チャンク「Ｙａｍａｄａ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。チャンク「Ｙａｍａｄａ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第４レコードに設定されている第１スコアを用いる。つまり、０となる。チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、最も第２スコアの大きい構造Ｙ^t ₁１９０１に対する最大スコアｓ₁（Ｘ₁，Ｙ^t ₁）は、１／３となる。

更に、正解構造Ｙ₁１３０７の第２スコアである正解スコアも算出する。正解構造Ｙ₁１３０７に対する第２スコアｓ₁（Ｘ₁，Ｙ₁）は、第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第２レコードに設定されている第１スコアを用いる。つまり、０となる。第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、正解構造Ｙ₁１３０７の第２スコアである正解スコアｓ₁（Ｘ₁，Ｙ₁）は、１／３となる。

そのため、第１学習事例Ｘ₁については、正解スコアと最大スコアとの差は、０となる。

図２０に、第２学習事例に対する１回目の第２スコア算出の様子を示す。この図は、第２学習事例Ｘ₂の単語列１５０１に対する候補構造Ｙ群１５０３から、図１８に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^t ₂２００１（正解構造Ｙ₂１５０７を除く）を抽出する様子を示している。ここではチャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

最も第２スコアの大きい構造Ｙ^t ₂２００１に対する第２スコアｓ₁（Ｘ₂，Ｙ^t ₂）は、チャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。チャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第３レコードに設定されている第１スコアを用いる。つまり、−１／３となる。チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、最も第２スコアの大きい構造Ｙ^t ₂２００１に対する最大スコアｓ₁（Ｘ₂，Ｙ^t ₂）は、０となる。

更に、正解構造Ｙ₂１５０７の第２スコアである正解スコアも算出する。正解構造Ｙ₂１５０７に対する第２スコアｓ₁（Ｘ₂，Ｙ₂）は、第１チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。第１チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第１レコードに設定されている第１スコアを用いる。つまり、０となる。第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、正解構造Ｙ₂１５０７の第２スコアである正解スコアｓ₁（Ｘ₂，Ｙ₂）は、１／３となる。

そのため、第２学習事例Ｘ₂について、正解スコアと最大スコアとの差は、１／３となる。

図２１に、第３学習事例に対する１回目のスコア算出の様子を示す。この図は、第３学習事例Ｘ₃の単語列１７０１に対する候補構造Ｙ群１７０３から、図１８に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^t ₃２１０１（正解構造Ｙ₃１７０７を除く）を抽出する様子を示している。ここではチャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

最も第２スコアの大きい構造Ｙ^t ₃２１０１に対する第２スコアｓ₁（Ｘ₃，Ｙ^t ₃）は、チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアと、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第１レコードに設定されている第１スコアを用いる。つまり、０となる。チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第２レコードに設定されている第１スコアを用いる。つまり、０となる。チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、最も第２スコアの大きい構造Ｙ^t ₃２１０１に対する最大スコアｓ₁（Ｘ₃，Ｙ^t ₃）は、１／３となる。

更に、正解構造Ｙ₃１７０７の第２スコアである正解スコアも算出する。正解構造Ｙ₃１７０７に対する第２スコアｓ₁（Ｘ₃，Ｙ₃）は、第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアとの合計となる。第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第７レコードに設定されている第１スコアを用いる。つまり、１／３となる。第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせに対するスコアの算出には、図１８に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第５レコードに設定されている第１スコアを用いる。つまり、１／３となる。従って、正解構造Ｙ₃１７０７の第２スコアである正解スコアｓ₁（Ｘ₃，Ｙ₃）は、２／３となる。

そのため、第３学習事例Ｘ₃について、正解スコアと最大スコアとの差は、１／３となる。

これらの差に基づいて、後述する式（４）を満たす確信度を特定する。この例では、後述する式（５）により、
Ｚ^~ ₁（α₁）（^~は、Ｚの上のハットを意味する。）
＝１／３ｅｘｐ（−α＊（０）））＋１／３ｅｘｐ（−α＊（１／３）））＋１／３ｅｘｐ（−α＊（１／３）））
＝１／３＋２／３ｅｘｐ（−α／３）＜１
となるα₁を見つける。

この例では、０＜確信度α₁であれば足りるので、確信度α₁を１とする。従って、
Ｚ^~ ₁（１）＝０．８１１０２
となる。

そして、後述する式（６）により、以下の通り第２学習事例の重みを算出する。
Ｗ_2,1＝Ｗ_1,1ｅｘｐ（−（０））／Ｚ^~ ₁（１）
＝（１／３）／Ｚ^~ ₁（１）＝０．４１１
Ｗ_2,2＝Ｗ_1,2ｅｘｐ（−（１／３））／Ｚ^~ ₁（１）
＝（１／３）ｅｘｐ（−（１／３））／Ｚ^~ ₁（１）＝０．２９４４９
Ｗ_2,3＝Ｗ_1,3ｅｘｐ（−（１／３））／Ｚ^~ ₁（１）
＝（１／３）ｅｘｐ（−（１／３））／Ｚ^~ ₁（１）＝０．２９４４９

図２２に、更新された学習事例の重みの例を示す。このように、学習事例の重みを更新した上で、更に構造学習を繰り返す。

図２３に、第１学習事例に対する２回目の構造学習の様子を示す。２回目の構造学習において、構造予測モデルは初期化され、図１２の状態に戻る。この図は、第１学習事例Ｘ₁の単語列１３０１に対する候補構造Ｙ群１３０３から、図１２に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₁２３０１を抽出する様子を示している。ここでは、チャンク「Ｙａｍａｄａｓｉｎｇｓ」とそのラベルの名詞句（ＮＰ）との組み合わせが選択される。

第１学習事例Ｘ₁の正解構造Ｙ₁１３０７は、第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせの列であるので、ここで抽出された最大スコア構造Ｙ^* ₁２３０１は、正解構造Ｙ₁１３０７と一致しないと判定される。

この図でも、最大スコア構造Ｙ^* ₁２３０１に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₁１３０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図２４に、図２３の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Ｙ^* ₁２３０１に含まれるチャンク「Ｙａｍａｄａｓｉｎｇｓ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第６レコードの手掛かりに合致するので、第６レコードの第１スコアを減算する。このとき、図２２に示した第１学習事例の重みＷ_2,1に相当する「０．４１１」を引くようにする。１回目に比べて、重みが増している。

更に、正解構造Ｙ₁１３０７に含まれる第１チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第２レコードの手掛かりに合致するので、第２レコードの第１スコアを加算する。同じく正解構造Ｙ₁１３０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図２２に示した第１学習事例の重みＷ_2,1に相当する「０．４１１」を加えるようにする。１回目に比べて、重みが増している。以上で、第１学習事例に対する２回目の構造学習を終える。

続いて、図２５に、第２学習事例に対する２回目の構造学習の様子を示す。この図は、第２学習事例Ｘ₂の単語列１５０１に対する候補構造Ｙ群１５０３から、図２４に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₂２５０１を抽出する様子を示している。ここでは、チャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

第２学習事例Ｘ₂の正解構造Ｙ₂１５０７は、第１チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせの列であるので、ここで抽出された最大スコア構造Ｙ^* ₂２５０１は、正解構造Ｙ₂１５０７と一致しないと判定される。

この図でも、最大スコア構造Ｙ^* ₂２５０１に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₂１５０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図２６に、図２５の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Ｙ^* ₂２５０１に含まれるチャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第３レコードの手掛かりに合致するので、第３レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₂２５０１に含まれるチャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを減算する。このとき、いずれも、図２２に示した第２学習事例の重みＷ_2,2に相当する「０．２９４４９」を引くようにする。１回目に比べて、重みが減っている。

更に、正解構造Ｙ₂１５０７に含まれる第１チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第１レコードの手掛かりに合致するので、第１レコードの第１スコアを加算する。同じく正解構造Ｙ₂１５０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図２２に示した第２学習事例の重みＷ_2,2に相当する「０．２９４４９」を加えるようにする。１回目に比べて、重みが減っている。第５レコードの第１スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第２学習事例に対する２回目の構造学習を終える。

続いて、図２７に、第３学習事例に対する２回目の構造学習の様子を示す。この図は、第３学習事例Ｘ₃の単語列１７０１に対する候補構造Ｙ群１７０３から、図２６に示した構造予測モデルに従って、最も第２スコアの大きい構造Ｙ^* ₃２７０１を抽出する様子を示している。ここでは、チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせとの列が選択される。

第３学習事例Ｘ₃の正解構造Ｙ₃１７０７は、第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせと、第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせの列であるので、ここで抽出された最大スコア構造Ｙ^* ₃２７０１は、正解構造Ｙ₃１７０７と一致しないと判定される。

この図でも、最大スコア構造Ｙ^* ₃２７０１に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Ｙ₃１７０７に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。

図２８に、図２７の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Ｙ^* ₃２７０１に含まれるチャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第１レコードの手掛かりに合致するので、第１レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₃２７０１に含まれるチャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第２レコードの手掛かりに合致するので、第２レコードの第１スコアを減算する。同じく最大スコア構造Ｙ^* ₃２７０１に含まれるチャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを減算する。このとき、いずれも、図２２に示した第３学習事例の重みＷ_2,3に相当する「０．２９４４９」を引くようにする。１回目に比べて、重みが減っている。

更に、正解構造Ｙ₃１７０７に含まれる第１チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせは、構造予測モデルの第７レコードの手掛かりに合致するので、第７レコードの第１スコアを加算する。同じく正解構造Ｙ₃１７０７に含まれる第２チャンク「ｓｉｎｇｓ」とそのラベルの動詞句（ＶＰ）との組み合わせは、構造予測モデルの第５レコードの手掛かりに合致するので、第５レコードの第１スコアを加算する。このとき、いずれも、図２２に示した第３学習事例の重みＷ_2,3に相当する「０．２９４４９」を加えるようにする。１回目に比べて、重みが減っている。第５レコードの第１スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第３学習事例に対する２回目の構造学習を終える。

そして、２回目の構造予測モデルについても確信度を算出する。図２８に示した２回目の構造予測モデルは、図１８に示した１回目の構造予測モデルよりも構造を予測する精度が向上している。

例えば、チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに合致する手掛りに対応する第１レコードの第１スコア「０」は、チャンク「Ｔａｒｏ」とそのラベルの動詞句（ＶＰ）との組み合わせに合致する手掛りに対応する第３レコードの第１スコア「−０．２９４４９」よりも大きい。従って、チャンク「Ｔａｒｏ」について、正しいラベルである名詞句（ＮＰ）を導くようになっている。

例えば、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに合致する手掛りに対応する第２レコードの第１スコア「０．１１６５１」は、チャンク「Ｙａｍａｄａ」とそのラベルの動詞句（ＶＰ）との組み合わせに合致する手掛りに対応する第４レコードの第１スコア「０」よりも大きい。従って、チャンク「Ｙａｍａｄａ」についても、正しいラベルである名詞句（ＮＰ）を導くようになっている。

例えば、チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせに合致する手掛りに対応する第７レコードの第１スコア「０．２９４４９」は、チャンク「Ｔａｒｏ」とそのラベルの名詞句（ＮＰ）との組み合わせに合致する手掛りに対応する第１レコードの第１スコア「０」と、チャンク「Ｙａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせとの列に合致する手掛りに対応する第２レコードの第１スコア「０．１１６５１」との合計「０．１１６５１」よりも大きい。従って、チャンク「ＴａｒｏＹａｍａｄａ」とそのラベルの名詞句（ＮＰ）との組み合わせを正しく導くようになっている。

尚、後述するように、それぞれの構造予測モデルに基づいて、結合モデルを求める。以上で、処理の概要についての説明を終える。

以下、具体的なシステムの構成及び動作について説明する。図２９に、モデル学習装置の機能ブロックを示す。本システムは、学習データなどの入力を行うための学習データ入力部１０１と、学習データ入力部１０１によって入力された学習データなどを格納する学習データ格納部１０３と、学習データ格納部１０３に格納されているデータを用いて本実施の形態における主要な処理を実施するモデル学習部１０５とを有する。

更に、本システムは、モデル学習部１０５で算出する第２スコアの差データを格納する差データ格納部１０６と、モデル学習部１０５で算出する重みデータを格納する重みデータ格納部１０７と、モデル学習部１０５で算出する確信度データを格納する確信度格納部１０８と、モデル学習部１０５の処理結果であるモデルデータ（例えば、構造予測モデル及び統合モデル）を格納するモデルデータ格納部１０９とを有する。

更に、本システムは、生成されたモデルを適用して分類を行う対象である分類データを入力するための分類データ入力部１１１と、分類データ入力部１１１によって入力された分類データを格納する分類データ格納部１１３と、モデルデータ格納部１０９に格納されているモデルデータを、分類データ格納部１１３に格納されている処理対象データに適用して、分類を行うモデル適用部１１５と、モデル適用部１１５の処理結果を格納する処理結果格納部１１７とを有する。

図３０に、モデル学習部１０５の構成を示す。モデル学習部１０５は、ブースティング部２０１と構造学習部２０３とを有する。ブースティング部２０１は、ブースティング処理を行う。構造学習部２０３は、構造学習処理を行う。

ブースティング部２０１は、初期化部２０５、確信度算出部２０７、結合モデル更新部２０９及び重み更新部２１１を有する。初期化部２０５は、データの初期化を行う。確信度算出部２０７は、構造予測モデルに対する確信度を算出する。結合モデル更新部２０９は、結合モデルを更新する。重み更新部２１１は、学習事例の重みを更新する。

学習データ格納部１０３、差データ格納部１０６、重みデータ格納部１０７、確信度格納部１０８、モデルデータ格納部１０９、分類データ格納部１１３及び処理結果格納部１１７は、例えば後述する図３６に示されたメモリ２５０１、ＨＤＤ（Hard Disk Drive）２５０５あるいはドライブ装置２５１３を用いる。

学習データ入力部１０１、モデル学習部１０５、分類データ入力部１１１、モデル適用部１１５、ブースティング部２０１、構造学習部２０３、初期化部２０５、確信度算出部２０７、結合モデル更新部２０９及び重み更新部２１１は、その処理の一部又は全部を、例えば後述する図３６に示されたメモリ２５０１に格納されたプログラムに含まれる命令をＣＰＵ（Central Processing Unit）２５０３で読み込み、実行することによって実現されるようにしてもよい。

次に、図３１乃至図３５を用いて、本実施の形態におけるモデル学習部１０５等の処理内容について説明する。

図３１に、本発明のメイン処理フローを示す。まず、学習データ入力部１０１は、例えばユーザからの指示に従って、学習データＳ＝｛（Ｘ₁，Ｙ₁），．．．，（Ｘ_n，Ｙ_n）｝と、ブースティング繰り返し数Ｔとについての入力を受け付ける（Ｓ１０１）。

学習データ入力部１０１は、例えば、図９に示した学習事例と、図１０に示した正解構造とを受け付ける。ブースティング繰り返し数Ｔは、ブースティングにおける繰り返しの回数である。

モデル学習部１０５は、モデルデータ格納部１０９に初期の結合モデルＭ₀を設定する（Ｓ１０３）。具体的には、ブースティング部２０１の初期化部２０５がこの処理を行う。図３２に、初期状態における結合モデルの例を示す。初期化部２０５は、各手掛かりに対する第１スコアに０を設定する。

モデル学習部１０５は、重みデータ格納部１０７に格納されている学習事例の重み（ｗ_1,1，．．．ｗ_1,n）を初期化する（Ｓ１０５）。具体的には、ブースティング部２０１の初期化部２０５がこの処理を行う。各重みに、等しく１／ｎの値が設定される。

モデル学習部１０５のブースティング部２０１は、パラメータｔを１に初期化する（Ｓ１０７）。

モデル学習部１０５は、構造学習処理を実施する（Ｓ１０９）。具体的には、構造学習部２０３がこの処理を行う。

図３３に、構造学習処理フローを示す。構造学習部２０３は、以下の式に示すように、学習事例の重み（ｗ_t,1，．．．ｗ_t,n）を学習事例の学習率（ε₁，．．．ε_n）にセットする（Ｓ２０１）。学習事例の学習率（ε₁，．．．ε_n）は、構造学習処理における内部パラメータである。

ここでは、非特許文献４に示した手法を利用する場合の例を示しているが、非特許文献５に示した手法を利用する場合にも、同様に学習事例の重みを学習事例の学習率にセットするようにしてもよい。

構造学習部２０３は、モデルデータ格納部１０９に格納されている構造予測モデルｍを初期化する（Ｓ２０３）。このとき、構造学習部２０３は、モデルデータ格納部１０９に格納されている構造予測モデルｍに含まれる各スコアを０にする。これにより、構造予測モデルｍは、図１２に示した状態となる。

構造学習部２０３は、パラメータｐを１に初期化する（Ｓ２０５）。

構造学習部２０３は、パラメータｉを１に初期化する（Ｓ２０７）。

構造学習部２０３は、以下の式に従って、学習事例Ｘ_iについての候補構造Ｙ群のうち、最大スコアを得る構造Ｙ^* _iを特定する（Ｓ２０９）。以下で説明する構造は、例えば前述したチャンクとラベルとの組み合わせの列に相当する。

Φ（Ｘ，Ｙ）は、学習事例Ｘの単語列と構造Ｙとを、Ｄ次元ベクトルへマッピングする関数であり、以下の式のように定義される。

Ｄは、構造予測モデルｍにおける手掛かりの数に相当する。｜Ｙ｜は、構造Ｙに含まれるチャンクの数である。Ｙ（_j）は、構造Ｙに含まれるj番目のチャンクとそのラベルｌ（Ｙ（_j））との組み合わせである。

また、φ_d（Ｘ，Ｙ（_j））は、学習事例である単語列Ｘと組み合わせＹ（_j）を受け取り、Ｄ次元のベクトルを返す関数である。単語列Ｘと組み合わせＹ（_j）とが、ｄ番目の手掛かりに相当する素性を満たす場合には、ｄ次元目の値に１が設定され、他の値に０が設定されたベクトルが返される。単語列Ｘと組み合わせＹ（_j）とが、ｄ番目の手掛かりに相当する素性を満たさない場合には、ｄ次元目の値に０が設定され、更に他の値にも０が設定されたベクトルが返される。

素性には、例えば「Ｙ（_j）のチャンクが『Ｍｒ．』であり、且つそのラベルが名詞句である」、「Ｙ（_j）のチャンクにおける先頭の単語の前に出現する単語が『Ｍｒ．』であり、且つそのチャンクのラベルｌ（Ｙ（_j））が動詞句である」、あるいは「Ｙ（_j）のチャンクにおける最後の単語の後に出現する単語が『ｉｎ』であり、且つそのチャンクのラベルｌ（Ｙ（_j））が名詞句である」のようなものを用いてもよい。

繰り返しによって、構造予測モデルｍは随時更新されるが、構造学習部２０３は、Ｓ２０９の処理時点における構造予測モデルｍを用いる。ｗφ_d（Ｘ，Ｙ）は、学習事例Ｘと構造Ｙの組み合わせに与えられるスコアである。

最大スコア構造Ｙ^* _iが、正解構造Ｙ_iと異なる場合には、以下の式に従って、構造予測モデルｍは更新される。

そのため、構造学習部２０３は、最大スコア構造Ｙ^* _iは正解構造Ｙ_iと一致するか否かを判定する。（Ｓ２１１）。最大スコア構造Ｙ^* _iは正解構造Ｙ_iと一致すると判定した場合には、そのままＳ２１５の処理へ移る。

他方、最大スコア構造Ｙ^* _iは正解構造Ｙ_iと一致しないと判定した場合には、構造学習部２０３は、構造予測モデル更新処理を実施する（Ｓ２１３）。

図３４に、構造予測モデル更新処理フローを示す。構造学習部２０３は、最大スコア構造Ｙ^* _iに対応する各手掛かりの第１スコアを、学習率ε_iに従って減算する（Ｓ３０１）。構造学習部２０３は、図１４、図１６、図１８、図２４、図２６及び図２８における太い実線枠の例のように、最大スコア構造Ｙ^* _iに含まれる各チャンクとそのラベルの組み合わせと合致する各手掛かりを特定し、その手掛かりの第１スコアに学習率ε_iの値を減算する。

更に、構造学習部２０３は、正解構造Ｙ_iに対応する各手掛かりの第１スコアを、学習率ε_iに従って加算する（Ｓ３０３）。構造学習部２０３は、図１４、図１６、図１８、図２４、図２６及び図２８における太い破線枠の例のように、正解構造Ｙ_iに含まれる各チャンクとそのラベルの組み合わせと合致する各手掛かりを特定し、その手掛かりの第１スコアに学習率ε_iの値を加算する。そして、図３３のＳ２１５の処理に戻る。

図３３の処理に戻って、構造学習部２０３は、パラメータｉに１を加え（Ｓ２１５）、パラメータｉが学習事例の数ｎを越えたか否かを判定する（Ｓ２１７）。パラメータｉが学習事例の数ｎを越えていないと判定した場合には、Ｓ２０９に戻って一連の処理を繰り返す。パラメータｉが学習事例の数ｎを越えたと判定した場合には、Ｓ２１９に移って、構造学習部２０３は、パラメータｐに１を加え（Ｓ２１９）、パラメータｐが構造学習の繰り返し数Ｐを越えたか否かを判定する（Ｓ２１７）。パラメータｐが構造学習の繰り返し数Ｐを越えていないと判定した場合には、Ｓ２０７に戻って一連の処理を繰り返す。パラメータｐが構造学習の繰り返し数Ｐを越えたと判定した場合には、構造学習処理を終え、図３１のＳ１１１に戻る。

図３１の説明に戻る。モデル学習部１０５は、確信度算出処理を実施する（Ｓ１１１）。具体的には、ブースティング部２０１の確信度算出部２０７がこの処理を行う。

図３５に、確信度算出処理フローを示す。確信度算出部２０７は、パラメータｉに１を設定する（Ｓ４０１）。パラメータｉは、Ｓ４０３からＳ４０７までのルーチンを計数し、学習事例を特定する。

確信度算出部２０７は、候補構造Ｙ群のうち、正解構造Ｙ_iを除き最大スコアを得る構造Ｙ^t _iを特定する（Ｓ４０３）。最大スコアを得る構造Ｙ^t _iを特定するための式を、以下に示す。

上記のｓ_t（Ｘ_i，Ｙ）は、以下の式に示すように、ｔ番目のブースティングラウンドにおける学習事例Ｘ_iに対する構造Ｙのスコアを意味する。

ｍ_tは、ｔ番目のブースティングラウンドにおける構造予測モデルである。

上述の通り正解構造Ｙ_iは除かれるので、候補構造Ｙ群のスコアうち、正解構造Ｙ_iのスコアが最も大きい場合には、２番目に大きいスコアを得た構造をＹ^t _iとする。このとき、例えばforward-DP backward-A* N-best search algorithm（非特許文献２）の技術を用いるようにしてもよい。

確信度算出部２０７は、以下の式に従って、正解構造Y_iに対する第２スコアから最大スコア構造Ｙ^t _iに対する第２スコアを引いて差ｄ_t（Ｘ_i）を求める（Ｓ４０５）。確信度算出部２０７は、求めた差を差データ格納部１０６に格納する。

この差を用いることによって、誤ってチャンキングされた学習事例、あるいは誤ってラベル付けされた学習事例に対する重みが高くなるように調整される。

確信度算出部２０７は、パラメータｉに１を加え（Ｓ４０７）、パラメータｉが学習事例の数ｎを越えたか否かを判定する（Ｓ４０９）。パラメータｉが学習事例の数ｎを越えていないと判定した場合には、Ｓ４０３へ戻り一連の処理を繰り返す。

パラメータｉが学習事例の数ｎを越えたと判定した場合には、確信度算出部２０７は、学習モデルＭ_tに対する確信度α_tを算出する。具体的には、確信度算出部２０７は、差データ格納部１０６に格納されている各学習事例における差に基づき、以下の式で示される収束条件を満たす確信度α_tを特定する（Ｓ４１１）。

このとき、

である。

この式によれば、構造学習処理（Ｓ１０９）によって各学習事例に与えられる実数値であるスコアを指数として扱うことになる。従って、収束条件を満たす確信度α_tを解析的に計算することは、難しい場合もある。

確信度α_tを計算する方法として、ＢｉｓｅｃｔｉｏｎＳｅａｒｃｈを利用するようにしてもよい。｛−１，＋１｝の二値を予測する弱仮説ｈ_tを用いた場合の確信度の計算（ＡｄａＢｏｏｓｔ：非特許文献１）に合わせるために、本実施の形態では、弱仮説ｈ_tをｓｉｇｎ（ｄ_t（Ｘ_i））と定義する。そして、式(２)におけるＺ_t（α_t）を最小化するときの値α_tを求め、それを確信度とする。そのため、以下の式に示すように、Ｚ_tに対するα_tによる微分を行う。

そして、上記式が０となる条件を解くことで、以下の式に示すように確信度を求める。

最後に、以下の範囲で、式（５）を最小化する値をＢｉｓｅｃｔｉｏｎＳｅａｒｃｈによって選択し、それを確信度とする。

このように探索の範囲を広くすることによって、より正確な確信度が得られると期待される。確信度算出部２０７は、算出した確信度を確信度格納部１０８に格納する。以上で、確信度算出処理についての説明を終える。

図３１の説明に戻る。モデル学習部１０５は、モデルデータ格納部１０９に格納されている構造予測モデルに基づき、モデルデータ格納部１０９に格納されている結合モデルを更新する（Ｓ１１３）。具体的には、ブースティング部２０１の結合モデル更新部２０９が、以下の式に従って、前回のブースティングラウンドｔ−１における結合モデルＭ_t-1、今回のブースティングラウンドｔで求めた構造予測モデルｍ_t及び確信度α_tに基づいて、今回のブースティングラウンドｔにおける結合モデルＭ_tを算出する。このとき、結合モデル更新部２０９は、確信度格納部１０８から確信度α_tを読み取る。

続いて、モデル学習部１０５は、重みデータ格納部１０７に格納されている学習事例の重みを更新する（Ｓ１１５）。具体的には、ブースティング部２０１の重み更新部２１１が、以下の式に従って、今回のブースティングラウンドｔにおける学習事例の重み（ｗ_t,1，．．．ｗ_t,n）から、次回のブースティングラウンドｔにおける学習事例の重み（ｗ_t+1,1，．．．ｗ_t+1,n）を求める。

正解構造Ｙiのスコアｓ_t（Ｘ_i，Ｙ_i) が、最大スコアｓ_t（Ｘ_i，Ｙ^t _i）より大きい場合、つまり０＜ｄ_t（Ｘ_i）の場合には、正しく解析されたことを意味する。従って、次回に用いる学習事例の重みを減少させる。

他方、正解構造Ｙiのスコアｓ_t（Ｘ_i，Ｙ_i) が、最大スコアｓ_t（Ｘ_i，Ｙ^t _i）より小さい場合、つまり０＞ｄ_t（Ｘ_i）の場合には、正しく解析されなかったことを意味する。従って、次回に用いる学習事例の重みを増加させる。

モデル学習部１０５のブースティング部２０１は、パラメータｔを１インクリメントする（Ｓ１１７）。

続いて、モデル学習部１０５のブースティング部２０１は、パラメータｔがブースティング繰り返し数Ｔを越えたか否かを判定する（Ｓ１１９）。パラメータｔがブースティング繰り返し数Ｔを越えていないと判定した場合には、Ｓ１０９に戻って一連の処理を繰り返す。パラメータｔがブースティング繰り返し数Ｔを越えたと判定した場合には、図３１の処理を終了する。

最後に、モデル適用部１１５におけるモデル適用処理について説明する。モデル適用部１１５は、従来の構造学習におけるマッピングを実施する。モデル適用部１１５の処理内容は、モデルデータ格納部１０９に格納されるモデルデータ（この例では、結合データ）と、分類データ入力部１１１によって入力され分類データ格納部１１３に格納されている分類データ（この例では、単語列）とを用いて、従来通りに実行される。この例では、以下の式に従って、分類データの単語列Ｘにおける候補構造Ｙ群のうち、最終の結合モデルＭ_Tに基づいて算出したスコアが最大となる構造Ｙ^*を特定する。

そして、処理結果（この例では、構造Ｙ^*）が、処理結果格納部１１７に格納される。

［付録］
本実施の形態に係る学習方法は、各ブースティングラウンドｔで、０＜α_tを満たし、且つ式（４）を満たす確信度α_tを計算できれば、本発明の前提と同様に収束することを示す。

本実施の形態に係る学習方法では、以下に示す学習エラーの上限値が得られることを証明する。

尚、

である。

まず、式（６）を展開することにより、次の式が得られる。

従って、Ｙ^* _i≠Ｙ_iの場合には、

となる。

これは、１からＴまでの範囲のｔに対して、以下の式を満たすからである。

更に、Ｙ^* _i≠Ｙ_iの場合には、次の式が満たされる。

よって、

となる。

これらの結果から、以下に示すように、上述した学習エラーの上限値が得られる。

以上のように、従来のブースティング手法と同様、本実施の形態も収束性を備える。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

なお、上で述べたモデル学習装置は、コンピュータ装置であって、図３６に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態に係るモデル学習方法は、（Ａ）各学習事例の重みに基づいて、重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、（Ｂ）各学習事例について、当該学習事例から導かれる複数の候補構造のうち正解構造以外の候補構造の各々に対して、モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の正解構造に対してモデルにより付与される第２スコアと最大スコアとの差を求めると共に、各学習事例における当該差により定義されるエラーの上限値に基づいて、モデルの確信度を算出する第２ステップと、（Ｃ）確信度と各学習事例における上記差とに基づいて、各学習事例の重みを更新する第３ステップと、（Ｄ）第１ステップと、第２ステップと、第３ステップとを繰り返すステップとを含む。

このようにすれば、構造学習で得られたモデルの確信度を正解構造の第２スコアと他の候補構造の最大スコアとの差で表すことによって、次の構造学習に用いる学習事例の重みを更新できるようになる。更に、エラーの上限値に基づいて構造学習におけるトレーニングエラーを収束させることができる。例えば、学習事例の重みに基づくブースティング手法を構造学習に適用して、構造学習の精度を高めることができる。

更に、上記第１ステップにおいて、重みデータ格納部に格納されている各学習事例の重みの各々を、学習事例の学習率に設定して、上記第１スコアを更新するようにしてもよい。

このようにすれば、学習事例の重みを直接的に構造学習によるモデルに反映できる。

なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータが、
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第２ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第３ステップと、
前記第１ステップと、前記第２ステップと、前記第３ステップとを繰り返すステップと、
を実行するモデル学習方法。

（付記２）
前記第１ステップにおいて、前記各学習事例の前記重みの各々を、当該学習事例の学習率に設定して、前記第１スコアを更新する
付記１記載のモデル学習方法。

（付記３）
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第２ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第３ステップと、
前記第１ステップと、前記第２ステップと、前記第３ステップとを繰り返すステップと、
を含み、コンピュータに実行させるためのモデル学習プログラム。

（付記４）
重みデータ格納部に格納されている各学習事例の重みに基づいて、学習データ格納部に格納されている前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出し、当該モデルをモデルデータ格納部に格納する第１算出手段と、
前記学習データ格納部に格納されている前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルデータ格納部に格納されている前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求め、当該差を差データ格納部に格納すると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出し、当該確信度を確信度データ格納部に格納する第２算出手段と、
前記確信度データ格納部に格納されている前記確信度と前記差データ格納部に格納されている前記各学習事例における前記差とに基づいて、前記重みデータ格納部に格納されている前記各学習事例の前記重みを更新する更新手段と、
を有し、
前記第１算出手段による処理と前記第２算出手段による処理と前記更新手段による処理とを繰り返させるモデル学習装置。

１０１学習データ入力部１０３学習データ格納部
１０５モデル学習部１０６差データ格納部
１０７重みデータ格納部１０８確信度格納部
１０９モデルデータ格納部１１１分類データ入力部
１１３分類データ格納部１１５モデル適用部
１１７処理結果格納部２０１ブースティング部
２０３構造学習部２０５初期化部
２０７確信度算出部２０９結合モデル更新部
２１１重み更新部

Claims

コンピュータが、
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第２ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第３ステップと、
前記第１ステップと、前記第２ステップと、前記第３ステップとを繰り返すステップと、
を実行するモデル学習方法。
前記第１ステップにおいて、前記各学習事例の前記重みの各々を、当該学習事例の学習率に設定して、前記第１スコアを更新する
請求項１記載のモデル学習方法。
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出する第１ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第２ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第３ステップと、
前記第１ステップと、前記第２ステップと、前記第３ステップとを繰り返すステップと、
を含み、コンピュータに実行させるためのモデル学習プログラム。
重みデータ格納部に格納されている各学習事例の重みに基づいて、学習データ格納部に格納されている前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第１スコアを更新することによって、当該第１スコアの各々により規定されるモデルを算出し、当該モデルをモデルデータ格納部に格納する第１算出手段と、
前記学習データ格納部に格納されている前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルデータ格納部に格納されている前記モデルにより付与される第２スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第２スコアと前記最大スコアとの差を求め、当該差を差データ格納部に格納すると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出し、当該確信度を確信度データ格納部に格納する第２算出手段と、
前記確信度データ格納部に格納されている前記確信度と前記差データ格納部に格納されている前記各学習事例における前記差とに基づいて、前記重みデータ格納部に格納されている前記各学習事例の前記重みを更新する更新手段と、
を有し、
前記第１算出手段による処理と前記第２算出手段による処理と前記更新手段による処理とを繰り返させるモデル学習装置。