JP6127778B2 - モデル学習方法、モデル学習プログラム及びモデル学習装置 - Google Patents

モデル学習方法、モデル学習プログラム及びモデル学習装置 Download PDF

Info

Publication number
JP6127778B2
JP6127778B2 JP2013136647A JP2013136647A JP6127778B2 JP 6127778 B2 JP6127778 B2 JP 6127778B2 JP 2013136647 A JP2013136647 A JP 2013136647A JP 2013136647 A JP2013136647 A JP 2013136647A JP 6127778 B2 JP6127778 B2 JP 6127778B2
Authority
JP
Japan
Prior art keywords
learning
score
model
case
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013136647A
Other languages
English (en)
Other versions
JP2015011535A (ja
Inventor
友哉 岩倉
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013136647A priority Critical patent/JP6127778B2/ja
Priority to US14/312,789 priority patent/US9348810B2/en
Publication of JP2015011535A publication Critical patent/JP2015011535A/ja
Application granted granted Critical
Publication of JP6127778B2 publication Critical patent/JP6127778B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は、機械学習の技術に関する。
最初に、構造予測を行う自然言語処理のタスクの例として、単語列から品詞列へのマッピング、単語列からフレーズ列へのマッピング及び単語列から固有名詞列へのマッピングについて、順次説明する。
図1に、単語列から品詞列へのマッピングの様子を示す。この例における単語列11は、「Taro」、「Yamada」及び「sings」の単語を順に含んでいる。そして、この図は、これらの単語に名詞(図中、「N」と記す)あるいは動詞(図中、「V」と記す)のような品詞が対応付けられる様子を示している。この例では、単語列11に含まれる各単語に対して、品詞列13に含まれる「名詞」、「名詞」及び「動詞」が対応付けられている。
図2に、単語列からフレーズ列へのマッピングの様子を示す。単語列11は、図1の場合と同様である。そして、この図は、これらの単語列からフレーズ群を抽出し、それらのフレーズ群に名詞句(図中、「NP」と記す)あるいは動詞句(図中、「VP」と記す)のような品詞句が対応付けられる様子を示している。この例では、フレーズ列21中の「Taro Yamada」の第1フレーズと「sings」の第2フレーズとが抽出され、それぞれのフレーズに「名詞句」と「動詞句」とが対応付けられている。
図3に、単語列から固有名詞列へのマッピングの様子を示す。単語列11は、図1の場合と同様である。そして、この図は、これらの単語列に含まれる単語あるいはフレーズに、人名(図中、「P」と記す)あるいはそれ以外(図中、「O」と記す)が対応付けられる様子を示している。この例では、固有名詞列31に示すように「Taro Yamada」のフレーズが人名であると判定され、「sings」が人名以外であると判定されている。
これらのタスクの実現方法として、教師有り学習手法が適用されてきた。教師有り学習手法では、上述のような単語列とその正解構造(たとえば、ラベル列)とが学習データとして与えられ、この学習データを用いて単語列から構造を正しくマッピングできるように学習する。例えば、分類器を組み合わせる方法の場合には、各単語にラベルを付与することで、最終的な出力を決定できるようにする。
図4に、分類器によるマッピングの様子を示す。単語列11は、図1の場合と同様である。この例では、学習によって、単語に対してラベルを付与する分類器の組み合わせを得て、その分類器の組み合わせによって、判定対象である単語列に含まれる各単語にラベルを対応付ける。
この例では、「名詞句の先頭」(図中、「B−NP」と記す)、「名詞句の先頭以外」(図中、「I−NP」と記す)、「動詞句の先頭」(図中、「B−VP」と記す)及び「動詞句の先頭以外」(図中、「I−VP」と記す)の4種類のラベルを用いる。
「名詞句の先頭」の後に、「名詞句の先頭」又は「動詞句の先頭」が続く場合には、先の「名詞句の先頭」に対応する単語が、単独で名詞句に相当することを意味する。
「名詞句の先頭」の後に、一つあるいは複数の「名詞句の先頭以外」が続く場合には、その「名詞句の先頭」に対応する単語から、最後尾の「名詞句の先頭以外」に対応する単語までの単語列からなるフレーズが、名詞句に相当することを意味する。
「動詞句の先頭」の後に、「名詞句の先頭」又は「動詞句の先頭」が続く場合には、先の「動詞句の先頭」に対応する単語が、単独で動詞句に相当することを意味する。
「動詞句の先頭」の後に、一つあるいは複数の「動詞句の先頭以外」が続く場合には、その「動詞句の先頭」に対応する単語から、最後尾の「動詞句の先頭以外」に対応する単語までの単語列からなるフレーズが、動詞句に相当することを意味する。
この例では、ラベル列41に示すように、「Taro」に「名詞句の先頭」が付与され、「Yamada」に「名詞句の先頭以外」が付与され、「sings」に「動詞句の先頭」が付与されている。その結果、フレーズ列43に示すように、「Taro Yamada」が名詞句であると判定され、「sings」が動詞句であると判定される。
また近年は、直接的に構造を予測する構造学習手法も用いられている。図5に、構造学習手法によるマッピングの様子を示す。この例では、各単語に対する4種類のラベルを選択的に組み合わせたラベル列の候補群51の中から、正しいラベル列を直接選択する仕組みを学習する。ラベル列の選択は、図示するように各単語に対するラベル同士を結ぶパス群から、正しいパスを選択することに相当する。
この例では、「Taro」に対する「名詞句の先頭」と、「Yamada」に対する「名詞句の先頭以外」と、「sings」に対する「動詞句の先頭」とからなるラベル列が選択され、その結果、フレーズ列53に示すように、「Taro Yamada」が名詞句であると判定され、「sings」が動詞句であると判定される。
また、図6に、別の構造学習手法によるマッピングの様子を示す。単語列11は、図1の場合と同様である。この例は、単語の塊であるチャンクを単位としている。単語列を構成するチャンクに対する4種類のラベルを選択的に組み合わせたラベル列の候補群61の中から、正しいラベル列を直接選択する仕組みを学習する。つまり、ラベル列の選択は、図示するように各チャンクに対するラベル同士を結ぶパス群から、正しいパスを選択することに相当する。また、単語列が1つのチャンクとなることを想定して、そのチャンクのラベルを選択することもある。
この例では、フレーズ列63に示すように、「Taro Yamada」に対する名詞句と、「sings」に対する動詞句とからなるラベル列が選択される。
これらの学習手法に加えて、更に判定精度を高めることを目的として、アンサンブル学習手法を採用している例もある。アンサンブル学習手法の一種であるブースティング手法では、複数のモデル(規則ともいう。)を学習し、それらのモデルを組み合わせることで精度の高い統合モデルを生成する。複数のモデルを学習するための学習器は、弱学習器と呼ばれ、その弱学習器で学習されたモデルは、弱仮説と呼ばれる。
ブースティング手法では、学習データに含まれる各学習事例に対して重みを設定する。そして、弱仮説によって正しい予測結果が得られる簡単な学習事例に対しては、その重みを小さくし、弱仮説によって正しい予測結果が得られない難しい学習事例に対しては、その重みを大きくするように調整する。このように各学習事例の重みを調整することによって、多様な学習事例へ適応した統合モデルを得られることが期待される。
構造予測にブースティング手法を採用するある例によれば、弱学習器として、前述したようにラベルを付与する分類器が用いられている。
特開2010−33213号公報
Schapire, R. E. and Singer, Y.: BoosTexter: A boosting-based system for text categorization, Machine Learning, Vol. 39(2/3), pp. 135-168 (2000) Nagata, M.: A Stochastic Japanese Morphological Analyzer Using a Forward-DP Backward-A* N-Best Search Algorithm, COLING, pp. 201-207 (1994) Schapire, R. E. and Singer, Y.: Improved Boosting Algorithms Using Confidence-rated Predictions, Machine Learning, Vol. 37, No. 3, pp. 297-336 (1999) Cohen, W. W. and Sarawagi, S.: Exploiting dictionaries in named entity extraction: combining semi-Markov extraction processes and data integration methods, Proc. of KDD’04, pp. 89-98 (2004) Sarawagi, S. and Cohen, W. W.: Semi-Markov Conditional Random Fields for Information Extraction, Proc. of NIPS’04 (2004)
本発明の目的は、一側面では、構造学習の精度を高めることである。
一態様に係るモデル学習方法は、(A)各学習事例の重みに基づいて、重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、(B)各学習事例について、当該学習事例から導かれる複数の候補構造のうち正解構造以外の候補構造の各々に対して、モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の正解構造に対してモデルにより付与される第2スコアと最大スコアとの差を求めると共に、各学習事例における当該差により定義されるエラーの上限値に基づいて、モデルの確信度を算出する第2ステップと、(C)確信度と各学習事例における上記差とに基づいて、各学習事例の重みを更新する第3ステップと、(D)第1ステップと、第2ステップと、第3ステップとを繰り返すステップとを含む。
一側面としては、構造学習の精度を高めることができる。
図1は、単語列から品詞列へのマッピングの様子を示す図である。 図2は、単語列からフレーズ列へのマッピングの様子を示す図である。 図3は、単語列から固有名詞列へのマッピングの様子を示す図である。 図4は、分類器によるマッピングの様子を示す図である。 図5は、構造学習手法によるマッピングの様子を示す図である。 図6は、構造学習手法によるマッピングの様子を示す図である。 図7は、公知技術のメイン処理フローを示す図である。 図8は、公知技術における学習データと規則の例を示す図である。 図9は、学習事例の例を示す図である。 図10は、正解構造の例を示す図である。 図11は、初期状態における学習事例の重みの例を示す図である。 図12は、初期状態における構造予測モデルの例を示す図である。 図13は、構造学習の様子を示す図である。 図14は、構造予測モデルを更新する様子を示す図である。 図15は、構造学習の様子を示す図である。 図16は、構造予測モデルを更新する様子を示す図である。 図17は、構造学習の様子を示す図である。 図18は、構造予測モデルを更新する様子を示す図である。 図19は、第2スコア算出の様子を示す図である。 図20は、第2スコア算出の様子を示す図である。 図21は、第2スコア算出の様子を示す図である。 図22は、学習事例の重みの例を示す図である。 図23は、構造学習の様子を示す図である。 図24は、構造予測モデルを更新する様子を示す図である。 図25は、構造学習の様子を示す図である。 図26は、構造予測モデルを更新する様子を示す図である。 図27は、構造学習の様子を示す図である。 図28は、構造予測モデルを更新する様子を示す図である。 図29は、モデル学習装置の機能ブロックを示す図である。 図30は、モデル学習部の構成を示す図である。 図31は、本発明のメイン処理フローを示す図である。 図32は、初期状態における結合モデルの例を示す図である。 図33は、構造学習処理フローを示す図である。 図34は、構造予測モデル更新処理フローを示す図である。 図35は、確信度算出処理フローを示す図である。 図36は、コンピュータの機能ブロック図である。
まず、本稿で用いるブースティング手法であるAdaBoost(非特許文献1)について説明する。学習の目的は、与えられた学習事例Xからラベル集合YへのマッピングF、
Figure 0006127778
を導出することである。ここでのラベルは、{−1,+1}である。
図7に、AdaBoostのメイン処理フローを示す。学習システムは、学習データSと、ブースティング繰り返し数Tとを受け付ける(S1)。学習データSは、学習事例とラベルとのセットをn個含み、{(x1,y1),...(xn,yn)}と表される。
Figure 0006127778
は、i番目のセットに係る学習事例を表し、
Figure 0006127778
は、i番目のセットに係るラベルを表している。
ブースティング繰り返し数Tは、ブースティングにおける繰り返しの回数である。
学習システムは、学習事例の重み(w1,1,...w1,n)を初期化する(S3)。学習事例の重みw1,iは、学習事例xiに対応している。各学習事例の重みw1,i(1≦i≦n)に、初期値1/nが設定される。つまり、各初期の学習事例の重みは、均等とする。
そして、カウンタtを1に初期化する(S5)。
学習システムは、弱学習器に弱仮説htを求めさせる(S7)。弱学習器は、上述の学習データSと学習事例の重み(w1,1,...w1,n)から弱仮説htを学習する。htは、t回目のブースティングラウンドで求めた弱仮説を表している。
次に、学習システムは、求めた弱仮説htに対する確信度αtを算出する(S9)。
更に、学習システムは、次の式に従って、学習事例の重みを更新する(S11)。
Figure 0006127778
式中のht(xi)は、学習事例xiに対するhによる分類結果であり、eは、ネイピア数である。また、
Figure 0006127778
は、
Figure 0006127778
のための正規化項である。
学習システムは、カウンタtに1を加え(S13)、カウンタtがブースティング繰り返し数Tを越えたか否かを判定する(S15)。カウンタtがブースティング繰り返し数Tを越えていないと判定した場合には、学習システムは、S7に戻り、上述した一連の処理を繰り返す。
カウンタtがブースティング繰り返し数Tを越えたと判定した場合には、学習システムは、最終仮説Fを求める(S17)。学習システムは、上述のループ処理により求めたT種類の弱仮説を、以下の式に従って結合することによって、最終仮説Fを求める。
Figure 0006127778
式中のsignは、入力値が正の場合には1を返し、それ以外の場合には−1を返す関数である。
図8に、AdaBoostにおける学習データと学習される規則との例を示す。図8の上側のテーブルは、AdaBoostに与えられる学習データの例である。この例で、ラベルが「+1」の場合には、名詞句の一部であることを示し、ラベルが「−1」の場合には、名詞句以外であることを示している。ここでの素性とは、規則の候補である。第1レコードは、素性「Yamada」が名詞句の一部であることに重み「1/3」が与えられたことを示している。第2レコードは、素性「sings」が名詞句以外であることに重み「1/3」が与えられたことを示している。第3レコードは、素性「Taro」が名詞句の一部であることに重み「1/3」が与えられたことを示している。このような学習データから図8の下側のテーブルに示すような規則が学習される。ここで、正の値は名詞句であることを意味し、負の値は名詞句でないことを意味している。
尚、AdaBoostでは、T種類の弱仮説で構成される最終仮説Fにおいて、以下に示す学習エラーの上限値を持つことが証明されている。
Figure 0006127778
[[π]] は、ある命題πが成り立つ場合に1となり、ある命題πが成り立たない場合に0となることを意味している。
式(1) と式(3)によって、各ブースティングラウンドtにおけるhtに対して、以下の式の条件を満たす確信度αtを選択すれば、AdaBoostによる学習は収束することが導かれる。
t(αt)<1
[実施の形態の具体的内容]
本実施の形態では、構造予測モデルを規定するスコアと、構造を評価するスコアとの2種類のスコアを用いる。以下、構造予測モデルを規定するスコアを第1スコアと呼び、構造を評価するスコアを第2スコアと呼び、両者を区別する。
上述したブースティング手法では、正例と負例が与えられることを想定しているが、構造学習手法においては明示的に負例が与えられるわけではない。従って、ブースティング手法にそのまま構造学習手法を適用するわけには行かない。
そこで、本実施の形態では、学習事例に対する正解構造における第2スコアと、正解構造以外の構造群における最高の第2スコアとの差を利用する。更に、上述の第2スコアの差で定義されるエラーの上限値に基づき、学習事例の重みを更新する。具体的には、正解構造の第2スコアが最高の第2スコアより低い場合は、不適を意味するので、その学習事例の重みを増加させる。正解構造の第2スコアが最高の第2スコアより高く、あるいは等しい場合は、好適を意味するので、その学習事例の重みを減少させる。
以下で処理の概要を説明する。まず、学習データについて述べる。図9に、学習データに含まれる学習事例の例を示す。この例における学習事例は、単語列である。ここでは説明を簡単にするために、第3単語までの単語列の例を示しているが、単語数はもっと多くてもよい。
また、学習事例の数についても、説明を簡単にするために3つとしているが、実際に学習を行う場合には、もっと多くの学習事例を用意する。
第1学習事例:X1は、第1単語「Yamada」と第2単語「sings」とからなる単語列である。第2学習事例:X2は、第1単語「Taro」と第2単語「sings」とからなる単語列である。第3学習事例:X3は、第1単語「Taro」と第2単語「Yamada」と第3単語「sings」とからなる単語列である。
学習データは、学習事例である単語列に対する正解構造も有している。この例で、図6に例示したように、正解構造は、チャンクとそのチャンクに対するラベルの組み合わせの列である。
図10に示した正解構造の例では、図4で説明した「名詞句の先頭」(B−NP)、「名詞句の先頭以外」(I−NP)、「動詞句の先頭」(B−VP)及び「動詞句の先頭以外」(I−VP)の4種類のラベルを用いて、チャンクと品詞句とを特定する。但し、チャンクと品詞句との組み合わせを特定する構造であれば、図10以外の形式であってもよい。
本実施の形態では、各学習事例に重みが付与される。図11に、初期状態における学習事例の例を示す。初期状態では、重みの合計が1であり、また各重みが均等になるようにする。この例では、学習事例の数が3であるので、各重みは1/3とする。
次に、本実施の形態に係る構造予測モデルについて説明する。構造学習手法として、非特許文献4に示した手法あるいは非特許文献5に示した手法などを利用してもよい。ここでは、非特許文献4における構造学習手法に対してブースティングを適用する例について説明する。図12に、初期状態における構造予測モデルの例を示す。構造予測モデルは、正解構造を予測する各手掛かりに対応する第1スコアを有している。この例における手掛かりは、素性に相当する。初期状態において、各第1スコアには初期値0が設定される。
この例で、第1レコードは、チャンク「Taro」のラベルが名詞句(NP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第2レコードは、チャンク「Yamada」のラベルが名詞句(NP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第3レコードは、チャンク「Taro」のラベルが動詞句(VP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第4レコードは、チャンク「Yamada」のラベルが動詞句(VP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第5レコードは、チャンク「sings」のラベルが動詞句(VP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第6レコードは、チャンク「Yamada sings」のラベルが名詞句(NP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。第7レコードは、チャンク「Taro Yamada」のラベルが名詞句(NP)であるという手掛かりに対応する第1スコアに0が設定されていることを示している。手掛かりを特定する条件は、この例に限定されない。例えば、当該チャンクの前の単語あるいは後の単語に対する条件を含んでいてもよい。
図13に、構造学習の様子を示す。この図は、第1学習事例X1の単語列1301に対する候補構造Y群1303から、図12に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 11305を抽出する様子を示している。図12に示した構造予測モデルでは、第1スコアがすべて0であるので、各候補構造Yにおける第2スコアは等しく0となる。その場合には、いずれの候補構造Yが抽出されてもよいが、この例ではチャンク「Yamada sings」とそのラベルの名詞句(NP)との組み合わせである構造Yが選択される。
第1学習事例X1の正解構造Y11307は、第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせの列であるので、ここで抽出された最大スコア構造Y* 11305は、正解構造Y11307と一致しないと判定される。
この図で、最大スコア構造Y* 11305に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y11307に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図14に、図13の判定結果に基づいて、構造予測モデルを更新する様子を示す。本実施の形態では、最大スコア構造が正解構造と一致しないと判定された場合に、最大スコア構造に対応する各手掛かりの第1スコアから学習事例の重みだけ減算する。更に、正解構造に対応する各手掛かりの第1スコアに学習事例の重みを加算する。
このように減算する値と加算する値とは、学習率と呼ばれる。つまり、学習事例の重みを学習率に適用して、最大スコア構造に対応する各手掛かりの第1スコアに対する減算を行うとともに、正解構造に対応する各手掛かりの第1スコアに対する加算を行う。
最大スコア構造Y* 11305に含まれるチャンク「Yamada sings」とそのラベルである名詞句(NP)との組み合わせは、構造予測モデルの第6レコードの手掛かりに合致するので、第6レコードの第1スコアを減算する。このとき、図11に示した第1学習事例の重みW1,1に相当する「1/3」を引くようにする。
更に、正解構造Y11307に含まれる第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第2レコードの手掛かりに合致するので、第2レコードの第1スコアを加算する。同じく正解構造Y11307に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図11に示した第1学習事例の重みW1,1に相当する「1/3」を加えるようにする。以上で、第1学習事例に対する1回目の構造学習を終える。
続いて、図15に、第2学習事例に対する1回目の構造学習の様子を示す。この図は、第2学習事例X2の単語列1501に対する候補構造Y群1503から、図14に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 21505を抽出する様子を示している。ここでは、チャンク「Taro」とそのラベルの動詞句(VP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
第2学習事例X2については、ここで抽出された最大スコア構造Y* 21505は、正解構造Y21507と一致しないと判定される。
この図でも、最大スコア構造Y* 21505に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y21507に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図16に、図15の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Y* 21505に含まれるチャンク「Taro」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第3レコードの手掛かりに合致するので、第3レコードの第1スコアを減算する。同じく最大スコア構造Y* 21505に含まれるチャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを減算する。このとき、いずれも、図11に示した第2学習事例の重みW1,2に相当する「1/3」を引くようにする。
更に、正解構造Y21507に含まれる第1チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第1レコードの手掛かりに合致するので、第1レコードの第1スコアを加算する。同じく正解構造Y21507に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図11に示した第1学習事例の重みW1,2に相当する「1/3」を加えるようにする。第5レコードの第1スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第2学習事例に対する1回目の構造学習を終える。
続いて、図17に、第3学習事例に対する1回目の構造学習の様子を示す。この図は、第3学習事例X3の単語列1701に対する候補構造Y群1703から、図16に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 31705を抽出する様子を示している。ここでは、チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせと、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
第3学習事例X3の正解構造Y31707は、第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせの列であるので、ここで抽出された最大スコア構造Y* 31705は、正解構造Y31707と一致しないと判定される。
この図でも、最大スコア構造Y* 31705に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y31707に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図18に、図17の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Y* 31705に含まれるチャンク「Taro」とそのラベルである名詞句(NP)との組み合わせは、構造予測モデルの第1レコードの手掛かりに合致するので、第1レコードの第1スコアを減算する。同じく最大スコア構造Y* 31705に含まれるチャンク「Yamada」とそのラベル名詞句(NP)との組み合わせは、構造予測モデルの第2レコードの手掛かりに合致するので、第2レコードの第1スコアを減算する。同じく最大スコア構造Y* 31705に含まれるチャンク「sings」とそのラベル動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを減算する。このとき、いずれも、図11に示した第3学習事例の重みW1,3に相当する「1/3」を引くようにする。
更に、正解構造Y31707に含まれる第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第7レコードの手掛かりに合致するので、第7レコードの第1スコアを加算する。同じく正解構造Y31707に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図11に示した第1学習事例の重みW1,3に相当する「1/3」を加えるようにする。第5レコードの第1スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第3学習事例に対する1回目の構造学習を終える。
通常は、上述した構造学習を複数回繰り返すが、ここでは説明を簡単にするために、繰り返しは行わずに、構造学習を一旦終了する。
このようにして、構造予測モデルが得られると、次に構造予測モデルに対する確信度を算出する。本実施の形態では、正解構造を除く候補構造群に対する第2スコアのうち最大スコアと、正解構造に対する第2スコアである正解スコアとの差に基づいて、確信度を算出する。尚、第2スコアは、その時点における構造予測モデルに基づいて算出される。
図19に、第1学習事例に対する1回目の第2スコア算出の様子を示す。この図は、第1学習事例X1の単語列1301に対する候補構造Y群1303から、図18に示した構造予測モデルに従って、最も第2スコアの大きい構造Yt 11901(正解構造Y11307を除く)を抽出する様子を示している。ここではチャンク「Yamada」とそのラベルの動詞句(VP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
最も第2スコアの大きい構造Yt 11901に対する第2スコアs1(X1,Yt 1)は、チャンク「Yamada」とそのラベルの動詞句(VP)との組み合わせに対するスコアと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。チャンク「Yamada」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第4レコードに設定されている第1スコアを用いる。つまり、0となる。チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、最も第2スコアの大きい構造Yt 11901に対する最大スコアs1(X1,Yt 1)は、1/3となる。
更に、正解構造Y11307の第2スコアである正解スコアも算出する。正解構造Y11307に対する第2スコアs1(X1,Y1)は、第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第2レコードに設定されている第1スコアを用いる。つまり、0となる。第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、正解構造Y11307の第2スコアである正解スコアs1(X1,Y1)は、1/3となる。
そのため、第1学習事例X1については、正解スコアと最大スコアとの差は、0となる。
図20に、第2学習事例に対する1回目の第2スコア算出の様子を示す。この図は、第2学習事例X2の単語列1501に対する候補構造Y群1503から、図18に示した構造予測モデルに従って、最も第2スコアの大きい構造Yt 22001(正解構造Y21507を除く)を抽出する様子を示している。ここではチャンク「Taro」とそのラベルの動詞句(VP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
最も第2スコアの大きい構造Yt 22001に対する第2スコアs1(X2,Yt 2)は、チャンク「Taro」とそのラベルの動詞句(VP)との組み合わせに対するスコアと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。チャンク「Taro」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第3レコードに設定されている第1スコアを用いる。つまり、−1/3となる。チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、最も第2スコアの大きい構造Yt 22001に対する最大スコアs1(X2,Yt 2)は、0となる。
更に、正解構造Y21507の第2スコアである正解スコアも算出する。正解構造Y21507に対する第2スコアs1(X2,Y2)は、第1チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに対するスコアと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。第1チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第1レコードに設定されている第1スコアを用いる。つまり、0となる。第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、正解構造Y21507の第2スコアである正解スコアs1(X2,Y2)は、1/3となる。
そのため、第2学習事例X2について、正解スコアと最大スコアとの差は、1/3となる。
図21に、第3学習事例に対する1回目のスコア算出の様子を示す。この図は、第3学習事例X3の単語列1701に対する候補構造Y群1703から、図18に示した構造予測モデルに従って、最も第2スコアの大きい構造Yt 32101(正解構造Y31707を除く)を抽出する様子を示している。ここではチャンク「Taro」とそのラベルの名詞句(NP)との組み合わせと、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
最も第2スコアの大きい構造Yt 32101に対する第2スコアs1(X3,Yt 3)は、チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに対するスコアと、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第1レコードに設定されている第1スコアを用いる。つまり、0となる。チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第2レコードに設定されている第1スコアを用いる。つまり、0となる。チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、最も第2スコアの大きい構造Yt 32101に対する最大スコアs1(X3,Yt 3)は、1/3となる。
更に、正解構造Y31707の第2スコアである正解スコアも算出する。正解構造Y31707に対する第2スコアs1(X3,Y3)は、第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアとの合計となる。第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第7レコードに設定されている第1スコアを用いる。つまり、1/3となる。第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせに対するスコアの算出には、図18に示した構造予測モデルでこの組み合わせに合致する手掛かりを示す第5レコードに設定されている第1スコアを用いる。つまり、1/3となる。従って、正解構造Y31707の第2スコアである正解スコアs1(X3,Y3)は、2/3となる。
そのため、第3学習事例X3について、正解スコアと最大スコアとの差は、1/3となる。
これらの差に基づいて、後述する式(4)を満たす確信度を特定する。この例では、後述する式(5)により、
~ 1(α1)(~は、Zの上のハットを意味する。)
=1/3exp(−α*(0)))+1/3exp(−α*(1/3)))+1/3exp(−α*(1/3)))
=1/3+2/3exp(−α/3)<1
となるα1を見つける。
この例では、0<確信度α1であれば足りるので、確信度α1を1とする。従って、
~ 1(1)=0.81102
となる。
そして、後述する式(6)により、以下の通り第2学習事例の重みを算出する。
2,1=W1,1exp(−(0))/Z~ 1(1)
=(1/3)/Z~ 1(1)=0.411
2,2=W1,2exp(−(1/3))/Z~ 1(1)
=(1/3)exp(−(1/3))/Z~ 1(1)=0.29449
2,3=W1,3exp(−(1/3))/Z~ 1(1)
=(1/3)exp(−(1/3))/Z~ 1(1)=0.29449
図22に、更新された学習事例の重みの例を示す。このように、学習事例の重みを更新した上で、更に構造学習を繰り返す。
図23に、第1学習事例に対する2回目の構造学習の様子を示す。2回目の構造学習において、構造予測モデルは初期化され、図12の状態に戻る。この図は、第1学習事例X1の単語列1301に対する候補構造Y群1303から、図12に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 12301を抽出する様子を示している。ここでは、チャンク「Yamada sings」とそのラベルの名詞句(NP)との組み合わせが選択される。
第1学習事例X1の正解構造Y11307は、第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせの列であるので、ここで抽出された最大スコア構造Y* 12301は、正解構造Y11307と一致しないと判定される。
この図でも、最大スコア構造Y* 12301に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y11307に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図24に、図23の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Y* 12301に含まれるチャンク「Yamada sings」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第6レコードの手掛かりに合致するので、第6レコードの第1スコアを減算する。このとき、図22に示した第1学習事例の重みW2,1に相当する「0.411」を引くようにする。1回目に比べて、重みが増している。
更に、正解構造Y11307に含まれる第1チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第2レコードの手掛かりに合致するので、第2レコードの第1スコアを加算する。同じく正解構造Y11307に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図22に示した第1学習事例の重みW2,1に相当する「0.411」を加えるようにする。1回目に比べて、重みが増している。以上で、第1学習事例に対する2回目の構造学習を終える。
続いて、図25に、第2学習事例に対する2回目の構造学習の様子を示す。この図は、第2学習事例X2の単語列1501に対する候補構造Y群1503から、図24に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 22501を抽出する様子を示している。ここでは、チャンク「Taro」とそのラベルの動詞句(VP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
第2学習事例X2の正解構造Y21507は、第1チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせの列であるので、ここで抽出された最大スコア構造Y* 22501は、正解構造Y21507と一致しないと判定される。
この図でも、最大スコア構造Y* 22501に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y21507に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図26に、図25の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Y* 22501に含まれるチャンク「Taro」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第3レコードの手掛かりに合致するので、第3レコードの第1スコアを減算する。同じく最大スコア構造Y* 22501に含まれるチャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを減算する。このとき、いずれも、図22に示した第2学習事例の重みW2,2に相当する「0.29449」を引くようにする。1回目に比べて、重みが減っている。
更に、正解構造Y21507に含まれる第1チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第1レコードの手掛かりに合致するので、第1レコードの第1スコアを加算する。同じく正解構造Y21507に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図22に示した第2学習事例の重みW2,2に相当する「0.29449」を加えるようにする。1回目に比べて、重みが減っている。第5レコードの第1スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第2学習事例に対する2回目の構造学習を終える。
続いて、図27に、第3学習事例に対する2回目の構造学習の様子を示す。この図は、第3学習事例X3の単語列1701に対する候補構造Y群1703から、図26に示した構造予測モデルに従って、最も第2スコアの大きい構造Y* 32701を抽出する様子を示している。ここでは、チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせと、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせと、チャンク「sings」とそのラベルの動詞句(VP)との組み合わせとの列が選択される。
第3学習事例X3の正解構造Y31707は、第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせと、第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせの列であるので、ここで抽出された最大スコア構造Y* 32701は、正解構造Y31707と一致しないと判定される。
この図でも、最大スコア構造Y* 32701に含まれるチャンクとそのラベルとの組み合わせを太い実線の枠で囲み、正解構造Y31707に含まれるチャンクとそのラベルとの組み合わせを太い破線の枠で囲んでいる。
図28に、図27の判定結果に基づいて、構造予測モデルを更新する様子を示す。最大スコア構造Y* 32701に含まれるチャンク「Taro」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第1レコードの手掛かりに合致するので、第1レコードの第1スコアを減算する。同じく最大スコア構造Y* 32701に含まれるチャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第2レコードの手掛かりに合致するので、第2レコードの第1スコアを減算する。同じく最大スコア構造Y* 32701に含まれるチャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを減算する。このとき、いずれも、図22に示した第3学習事例の重みW2,3に相当する「0.29449」を引くようにする。1回目に比べて、重みが減っている。
更に、正解構造Y31707に含まれる第1チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせは、構造予測モデルの第7レコードの手掛かりに合致するので、第7レコードの第1スコアを加算する。同じく正解構造Y31707に含まれる第2チャンク「sings」とそのラベルの動詞句(VP)との組み合わせは、構造予測モデルの第5レコードの手掛かりに合致するので、第5レコードの第1スコアを加算する。このとき、いずれも、図22に示した第3学習事例の重みW2,3に相当する「0.29449」を加えるようにする。1回目に比べて、重みが減っている。第5レコードの第1スコアは、減算と加算とが重なるため、結果的に値が変動しない。以上で、第3学習事例に対する2回目の構造学習を終える。
そして、2回目の構造予測モデルについても確信度を算出する。図28に示した2回目の構造予測モデルは、図18に示した1回目の構造予測モデルよりも構造を予測する精度が向上している。
例えば、チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに合致する手掛りに対応する第1レコードの第1スコア「0」は、チャンク「Taro」とそのラベルの動詞句(VP)との組み合わせに合致する手掛りに対応する第3レコードの第1スコア「−0.29449」よりも大きい。従って、チャンク「Taro」について、正しいラベルである名詞句(NP)を導くようになっている。
例えば、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせに合致する手掛りに対応する第2レコードの第1スコア「0.11651」は、チャンク「Yamada」とそのラベルの動詞句(VP)との組み合わせに合致する手掛りに対応する第4レコードの第1スコア「0」よりも大きい。従って、チャンク「Yamada」についても、正しいラベルである名詞句(NP)を導くようになっている。
例えば、チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせに合致する手掛りに対応する第7レコードの第1スコア「0.29449」は、チャンク「Taro」とそのラベルの名詞句(NP)との組み合わせに合致する手掛りに対応する第1レコードの第1スコア「0」と、チャンク「Yamada」とそのラベルの名詞句(NP)との組み合わせとの列に合致する手掛りに対応する第2レコードの第1スコア「0.11651」との合計「0.11651」よりも大きい。従って、チャンク「Taro Yamada」とそのラベルの名詞句(NP)との組み合わせを正しく導くようになっている。
尚、後述するように、それぞれの構造予測モデルに基づいて、結合モデルを求める。以上で、処理の概要についての説明を終える。
以下、具体的なシステムの構成及び動作について説明する。図29に、モデル学習装置の機能ブロックを示す。本システムは、学習データなどの入力を行うための学習データ入力部101と、学習データ入力部101によって入力された学習データなどを格納する学習データ格納部103と、学習データ格納部103に格納されているデータを用いて本実施の形態における主要な処理を実施するモデル学習部105とを有する。
更に、本システムは、モデル学習部105で算出する第2スコアの差データを格納する差データ格納部106と、モデル学習部105で算出する重みデータを格納する重みデータ格納部107と、モデル学習部105で算出する確信度データを格納する確信度格納部108と、モデル学習部105の処理結果であるモデルデータ(例えば、構造予測モデル及び統合モデル)を格納するモデルデータ格納部109とを有する。
更に、本システムは、生成されたモデルを適用して分類を行う対象である分類データを入力するための分類データ入力部111と、分類データ入力部111によって入力された分類データを格納する分類データ格納部113と、モデルデータ格納部109に格納されているモデルデータを、分類データ格納部113に格納されている処理対象データに適用して、分類を行うモデル適用部115と、モデル適用部115の処理結果を格納する処理結果格納部117とを有する。
図30に、モデル学習部105の構成を示す。モデル学習部105は、ブースティング部201と構造学習部203とを有する。ブースティング部201は、ブースティング処理を行う。構造学習部203は、構造学習処理を行う。
ブースティング部201は、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211を有する。初期化部205は、データの初期化を行う。確信度算出部207は、構造予測モデルに対する確信度を算出する。結合モデル更新部209は、結合モデルを更新する。重み更新部211は、学習事例の重みを更新する。
学習データ格納部103、差データ格納部106、重みデータ格納部107、確信度格納部108、モデルデータ格納部109、分類データ格納部113及び処理結果格納部117は、例えば後述する図36に示されたメモリ2501、HDD(Hard Disk Drive)2505あるいはドライブ装置2513を用いる。
学習データ入力部101、モデル学習部105、分類データ入力部111、モデル適用部115、ブースティング部201、構造学習部203、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211は、その処理の一部又は全部を、例えば後述する図36に示されたメモリ2501に格納されたプログラムに含まれる命令をCPU(Central Processing Unit)2503で読み込み、実行することによって実現されるようにしてもよい。
次に、図31乃至図35を用いて、本実施の形態におけるモデル学習部105等の処理内容について説明する。
図31に、本発明のメイン処理フローを示す。まず、学習データ入力部101は、例えばユーザからの指示に従って、学習データS={(X1,Y1),...,(Xn,Yn)}と、ブースティング繰り返し数Tとについての入力を受け付ける(S101)。
学習データ入力部101は、例えば、図9に示した学習事例と、図10に示した正解構造とを受け付ける。ブースティング繰り返し数Tは、ブースティングにおける繰り返しの回数である。
モデル学習部105は、モデルデータ格納部109に初期の結合モデルM0を設定する(S103)。具体的には、ブースティング部201の初期化部205がこの処理を行う。図32に、初期状態における結合モデルの例を示す。初期化部205は、各手掛かりに対する第1スコアに0を設定する。
モデル学習部105は、重みデータ格納部107に格納されている学習事例の重み(w1,1,...w1,n)を初期化する(S105)。具体的には、ブースティング部201の初期化部205がこの処理を行う。各重みに、等しく1/nの値が設定される。
モデル学習部105のブースティング部201は、パラメータtを1に初期化する(S107)。
モデル学習部105は、構造学習処理を実施する(S109)。具体的には、構造学習部203がこの処理を行う。
図33に、構造学習処理フローを示す。構造学習部203は、以下の式に示すように、学習事例の重み(wt,1,...wt,n)を学習事例の学習率(ε1,...εn)にセットする(S201)。学習事例の学習率(ε1,...εn)は、構造学習処理における内部パラメータである。
Figure 0006127778
ここでは、非特許文献4に示した手法を利用する場合の例を示しているが、非特許文献5に示した手法を利用する場合にも、同様に学習事例の重みを学習事例の学習率にセットするようにしてもよい。
構造学習部203は、モデルデータ格納部109に格納されている構造予測モデルmを初期化する(S203)。このとき、構造学習部203は、モデルデータ格納部109に格納されている構造予測モデルmに含まれる各スコアを0にする。これにより、構造予測モデルmは、図12に示した状態となる。
構造学習部203は、パラメータpを1に初期化する(S205)。
構造学習部203は、パラメータiを1に初期化する(S207)。
構造学習部203は、以下の式に従って、学習事例Xiについての候補構造Y群のうち、最大スコアを得る構造Y* iを特定する(S209)。以下で説明する構造は、例えば前述したチャンクとラベルとの組み合わせの列に相当する。
Figure 0006127778
Φ(X,Y)は、学習事例Xの単語列 と構造Yとを、D次元ベクトルへマッピングする関数であり、以下の式のように定義される。
Figure 0006127778
Dは、構造予測モデルmにおける手掛かりの数に相当する。|Y|は、構造Yに含まれるチャンクの数である。Y(j)は、構造Yに含まれるj番目のチャンクとそのラベルl(Y(j))との組み合わせである。
また、φd(X,Y(j))は、学習事例である単語列Xと組み合わせY(j)を受け取り、D次元のベクトルを返す関数である。単語列Xと組み合わせY(j)とが、d番目の手掛かりに相当する素性を満たす場合には、d次元目の値に1が設定され、他の値に0が設定されたベクトルが返される。単語列Xと組み合わせY(j)とが、d番目の手掛かりに相当する素性を満たさない場合には、d次元目の値に0が設定され、更に他の値にも0が設定されたベクトルが返される。
素性には、例えば「Y(j)のチャンクが『Mr.』であり、且つそのラベルが名詞句である」、「Y(j)のチャンクにおける先頭の単語の前に出現する単語が『Mr.』であり、且つそのチャンクのラベルl(Y(j))が動詞句である」、あるいは「Y(j)のチャンクにおける最後の単語の後に出現する単語が『in』であり、且つそのチャンクのラベルl(Y(j))が名詞句である」のようなものを用いてもよい。
繰り返しによって、構造予測モデルmは随時更新されるが、構造学習部203は、S209の処理時点における構造予測モデルmを用いる。wφd(X,Y)は、学習事例Xと構造Yの組み合わせに与えられるスコアである。
最大スコア構造Y* iが、正解構造Yiと異なる場合には、以下の式に従って、構造予測モデルmは更新される。
Figure 0006127778
そのため、構造学習部203は、最大スコア構造Y* iは正解構造Yiと一致するか否かを判定する。(S211)。最大スコア構造Y* iは正解構造Yiと一致すると判定した場合には、そのままS215の処理へ移る。
他方、最大スコア構造Y* iは正解構造Yiと一致しないと判定した場合には、構造学習部203は、構造予測モデル更新処理を実施する(S213)。
図34に、構造予測モデル更新処理フローを示す。構造学習部203は、最大スコア構造Y* iに対応する各手掛かりの第1スコアを、学習率εiに従って減算する(S301)。構造学習部203は、図14、図16、図18、図24、図26及び図28における太い実線枠の例のように、最大スコア構造Y* iに含まれる各チャンクとそのラベルの組み合わせと合致する各手掛かりを特定し、その手掛かりの第1スコアに学習率εiの値を減算する。
更に、構造学習部203は、正解構造Yiに対応する各手掛かりの第1スコアを、学習率εiに従って加算する(S303)。構造学習部203は、図14、図16、図18、図24、図26及び図28における太い破線枠の例のように、正解構造Yiに含まれる各チャンクとそのラベルの組み合わせと合致する各手掛かりを特定し、その手掛かりの第1スコアに学習率εiの値を加算する。そして、図33のS215の処理に戻る。
図33の処理に戻って、構造学習部203は、パラメータiに1を加え(S215)、パラメータiが学習事例の数nを越えたか否かを判定する(S217)。パラメータiが学習事例の数nを越えていないと判定した場合には、S209に戻って一連の処理を繰り返す。パラメータiが学習事例の数nを越えたと判定した場合には、S219に移って、構造学習部203は、パラメータpに1を加え(S219)、パラメータpが構造学習の繰り返し数Pを越えたか否かを判定する(S217)。パラメータpが構造学習の繰り返し数Pを越えていないと判定した場合には、S207に戻って一連の処理を繰り返す。パラメータpが構造学習の繰り返し数Pを越えたと判定した場合には、構造学習処理を終え、図31のS111に戻る。
図31の説明に戻る。モデル学習部105は、確信度算出処理を実施する(S111)。具体的には、ブースティング部201の確信度算出部207がこの処理を行う。
図35に、確信度算出処理フローを示す。確信度算出部207は、パラメータiに1を設定する(S401)。パラメータiは、S403からS407までのルーチンを計数し、学習事例を特定する。
確信度算出部207は、候補構造Y群のうち、正解構造Yiを除き最大スコアを得る構造Yt iを特定する(S403)。最大スコアを得る構造Yt iを特定するための式を、以下に示す。
Figure 0006127778
上記のst(Xi,Y)は、以下の式に示すように、t番目のブースティングラウンドにおける学習事例Xiに対する構造Yのスコアを意味する。
Figure 0006127778
tは、t番目のブースティングラウンドにおける構造予測モデルである。
上述の通り正解構造Yiは除かれるので、候補構造Y群のスコアうち、正解構造Yiのスコアが最も大きい場合には、2番目に大きいスコアを得た構造をYt iとする。このとき、例えばforward-DP backward-A* N-best search algorithm(非特許文献2) の技術を用いるようにしてもよい。
確信度算出部207は、以下の式に従って、正解構造Yiに対する第2スコアから最大スコア構造Yt iに対する第2スコアを引いて差dt(Xi)を求める(S405)。確信度算出部207は、求めた差を差データ格納部106に格納する。
Figure 0006127778
この差を用いることによって、誤ってチャンキングされた学習事例、あるいは誤ってラベル付けされた学習事例に対する重みが高くなるように調整される。
確信度算出部207は、パラメータiに1を加え(S407)、パラメータiが学習事例の数nを越えたか否かを判定する(S409)。パラメータiが学習事例の数nを越えていないと判定した場合には、S403へ戻り一連の処理を繰り返す。
パラメータiが学習事例の数nを越えたと判定した場合には、確信度算出部207は、学習モデルMtに対する確信度αtを算出する。具体的には、確信度算出部207は、差データ格納部106に格納されている各学習事例における差に基づき、以下の式で示される収束条件を満たす確信度αtを特定する(S411)。
Figure 0006127778
このとき、
Figure 0006127778
である。
この式によれば、構造学習処理(S109)によって各学習事例に与えられる実数値であるスコアを指数として扱うことになる。従って、収束条件を満たす確信度αtを解析的に計算することは、難しい場合もある。
確信度αtを計算する方法として、Bisection Searchを利用するようにしてもよい。{−1,+1}の二値を予測する弱仮説htを用いた場合の確信度の計算(AdaBoost:非特許文献1)に合わせるために、本実施の形態では、弱仮説htをsign(dt(Xi))と定義する。そして、式(2)におけるZt(αt)を最小化するときの値αtを求め、それを確信度とする。そのため、以下の式に示すように、Ztに対するαtによる微分を行う。
Figure 0006127778
そして、上記式が0となる条件を解くことで、以下の式に示すように確信度を求める。
Figure 0006127778
最後に、以下の範囲で、式(5)を最小化する値をBisection Searchによって選択し、それを確信度とする。
Figure 0006127778
このように探索の範囲を広くすることによって、より正確な確信度が得られると期待される。確信度算出部207は、算出した確信度を確信度格納部108に格納する。以上で、確信度算出処理についての説明を終える。
図31の説明に戻る。モデル学習部105は、モデルデータ格納部109に格納されている構造予測モデルに基づき、モデルデータ格納部109に格納されている結合モデルを更新する(S113)。具体的には、ブースティング部201の結合モデル更新部209が、以下の式に従って、前回のブースティングラウンドt−1における結合モデルMt-1、今回のブースティングラウンドtで求めた構造予測モデルmt及び確信度αtに基づいて、今回のブースティングラウンドtにおける結合モデルMtを算出する。このとき、結合モデル更新部209は、確信度格納部108から確信度αtを読み取る。
Figure 0006127778
続いて、モデル学習部105は、重みデータ格納部107に格納されている学習事例の重みを更新する(S115)。具体的には、ブースティング部201の重み更新部211が、以下の式に従って、今回のブースティングラウンドtにおける学習事例の重み(wt,1,...wt,n)から、次回のブースティングラウンドtにおける学習事例の重み(wt+1,1,...wt+1,n)を求める。
Figure 0006127778
正解構造Yiのスコアst(Xi,Yi) が、最大スコアst(Xi,Yt i)より大きい場合、つまり0<dt(Xi)の場合には、正しく解析されたことを意味する。従って、次回に用いる学習事例の重みを減少させる。
他方、正解構造Yiのスコアst(Xi,Yi) が、最大スコアst(Xi,Yt i)より小さい場合、つまり0>dt(Xi)の場合には、正しく解析されなかったことを意味する。従って、次回に用いる学習事例の重みを増加させる。
モデル学習部105のブースティング部201は、パラメータtを1インクリメントする(S117)。
続いて、モデル学習部105のブースティング部201は、パラメータtがブースティング繰り返し数Tを越えたか否かを判定する(S119)。パラメータtがブースティング繰り返し数Tを越えていないと判定した場合には、S109に戻って一連の処理を繰り返す。パラメータtがブースティング繰り返し数Tを越えたと判定した場合には、図31の処理を終了する。
最後に、モデル適用部115におけるモデル適用処理について説明する。モデル適用部115は、従来の構造学習におけるマッピングを実施する。モデル適用部115の処理内容は、モデルデータ格納部109に格納されるモデルデータ(この例では、結合データ)と、分類データ入力部111によって入力され分類データ格納部113に格納されている分類データ(この例では、単語列)とを用いて、従来通りに実行される。この例では、以下の式に従って、分類データの単語列Xにおける候補構造Y群のうち、最終の結合モデルMTに基づいて算出したスコアが最大となる構造Y*を特定する。
Figure 0006127778
そして、処理結果(この例では、構造Y*)が、処理結果格納部117に格納される。
[付録]
本実施の形態に係る学習方法は、各ブースティングラウンドtで、0<αtを満たし、且つ式(4)を満たす確信度αtを計算できれば、本発明の前提と同様に収束することを示す。
本実施の形態に係る学習方法では、以下に示す学習エラーの上限値が得られることを証明する。
Figure 0006127778
尚、
Figure 0006127778
である。
まず、式(6) を展開することにより、次の式が得られる。
Figure 0006127778
従って、Y* i≠Yiの場合には、
Figure 0006127778
となる。
これは、1からTまでの範囲のtに対して、以下の式を満たすからである。
Figure 0006127778
更に、Y* i≠Yiの場合には、次の式が満たされる。
Figure 0006127778
よって、
Figure 0006127778
となる。
これらの結果から、以下に示すように、上述した学習エラーの上限値が得られる。
Figure 0006127778
以上のように、従来のブースティング手法と同様、本実施の形態も収束性を備える。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べたモデル学習装置は、コンピュータ装置であって、図36に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係るモデル学習方法は、(A)各学習事例の重みに基づいて、重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、(B)各学習事例について、当該学習事例から導かれる複数の候補構造のうち正解構造以外の候補構造の各々に対して、モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の正解構造に対してモデルにより付与される第2スコアと最大スコアとの差を求めると共に、各学習事例における当該差により定義されるエラーの上限値に基づいて、モデルの確信度を算出する第2ステップと、(C)確信度と各学習事例における上記差とに基づいて、各学習事例の重みを更新する第3ステップと、(D)第1ステップと、第2ステップと、第3ステップとを繰り返すステップとを含む。
このようにすれば、構造学習で得られたモデルの確信度を正解構造の第2スコアと他の候補構造の最大スコアとの差で表すことによって、次の構造学習に用いる学習事例の重みを更新できるようになる。更に、エラーの上限値に基づいて構造学習におけるトレーニングエラーを収束させることができる。例えば、学習事例の重みに基づくブースティング手法を構造学習に適用して、構造学習の精度を高めることができる。
更に、上記第1ステップにおいて、重みデータ格納部に格納されている各学習事例の重みの各々を、学習事例の学習率に設定して、上記第1スコアを更新するようにしてもよい。
このようにすれば、学習事例の重みを直接的に構造学習によるモデルに反映できる。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータが、
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第2ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第3ステップと、
前記第1ステップと、前記第2ステップと、前記第3ステップとを繰り返すステップと、
を実行するモデル学習方法。
(付記2)
前記第1ステップにおいて、前記各学習事例の前記重みの各々を、当該学習事例の学習率に設定して、前記第1スコアを更新する
付記1記載のモデル学習方法。
(付記3)
各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、
前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第2ステップと、
前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第3ステップと、
前記第1ステップと、前記第2ステップと、前記第3ステップとを繰り返すステップと、
を含み、コンピュータに実行させるためのモデル学習プログラム。
(付記4)
重みデータ格納部に格納されている各学習事例の重みに基づいて、学習データ格納部に格納されている前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出し、当該モデルをモデルデータ格納部に格納する第1算出手段と、
前記学習データ格納部に格納されている前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルデータ格納部に格納されている前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求め、当該差を差データ格納部に格納すると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出し、当該確信度を確信度データ格納部に格納する第2算出手段と、
前記確信度データ格納部に格納されている前記確信度と前記差データ格納部に格納されている前記各学習事例における前記差とに基づいて、前記重みデータ格納部に格納されている前記各学習事例の前記重みを更新する更新手段と、
を有し、
前記第1算出手段による処理と前記第2算出手段による処理と前記更新手段による処理とを繰り返させるモデル学習装置。
101 学習データ入力部 103 学習データ格納部
105 モデル学習部 106 差データ格納部
107 重みデータ格納部 108 確信度格納部
109 モデルデータ格納部 111 分類データ入力部
113 分類データ格納部 115 モデル適用部
117 処理結果格納部 201 ブースティング部
203 構造学習部 205 初期化部
207 確信度算出部 209 結合モデル更新部
211 重み更新部

Claims (4)

  1. コンピュータが、
    各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、
    前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第2ステップと、
    前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第3ステップと、
    前記第1ステップと、前記第2ステップと、前記第3ステップとを繰り返すステップと、
    を実行するモデル学習方法。
  2. 前記第1ステップにおいて、前記各学習事例の前記重みの各々を、当該学習事例の学習率に設定して、前記第1スコアを更新する
    請求項1記載のモデル学習方法。
  3. 各学習事例の重みに基づいて、前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出する第1ステップと、
    前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求めると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出する第2ステップと、
    前記確信度と前記各学習事例における前記差とに基づいて、前記各学習事例の前記重みを更新する第3ステップと、
    前記第1ステップと、前記第2ステップと、前記第3ステップとを繰り返すステップと、
    を含み、コンピュータに実行させるためのモデル学習プログラム。
  4. 重みデータ格納部に格納されている各学習事例の重みに基づいて、学習データ格納部に格納されている前記重みに対応する各学習事例から夫々の正解構造を抽出する際の手掛かりとなる素性の各々に対応する第1スコアを更新することによって、当該第1スコアの各々により規定されるモデルを算出し、当該モデルをモデルデータ格納部に格納する第1算出手段と、
    前記学習データ格納部に格納されている前記各学習事例について、当該学習事例から導かれる複数の候補構造のうち前記正解構造以外の前記候補構造の各々に対して、前記モデルデータ格納部に格納されている前記モデルにより付与される第2スコアのうち最大スコアを特定し、当該学習事例の前記正解構造に対して前記モデルにより付与される第2スコアと前記最大スコアとの差を求め、当該差を差データ格納部に格納すると共に、前記各学習事例における前記差により定義されるエラーの上限値に基づいて、前記モデルの確信度を算出し、当該確信度を確信度データ格納部に格納する第2算出手段と、
    前記確信度データ格納部に格納されている前記確信度と前記差データ格納部に格納されている前記各学習事例における前記差とに基づいて、前記重みデータ格納部に格納されている前記各学習事例の前記重みを更新する更新手段と、
    を有し、
    前記第1算出手段による処理と前記第2算出手段による処理と前記更新手段による処理とを繰り返させるモデル学習装置。
JP2013136647A 2013-06-28 2013-06-28 モデル学習方法、モデル学習プログラム及びモデル学習装置 Active JP6127778B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013136647A JP6127778B2 (ja) 2013-06-28 2013-06-28 モデル学習方法、モデル学習プログラム及びモデル学習装置
US14/312,789 US9348810B2 (en) 2013-06-28 2014-06-24 Model learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013136647A JP6127778B2 (ja) 2013-06-28 2013-06-28 モデル学習方法、モデル学習プログラム及びモデル学習装置

Publications (2)

Publication Number Publication Date
JP2015011535A JP2015011535A (ja) 2015-01-19
JP6127778B2 true JP6127778B2 (ja) 2017-05-17

Family

ID=52116444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013136647A Active JP6127778B2 (ja) 2013-06-28 2013-06-28 モデル学習方法、モデル学習プログラム及びモデル学習装置

Country Status (2)

Country Link
US (1) US9348810B2 (ja)
JP (1) JP6127778B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474967B2 (en) * 2017-05-23 2019-11-12 International Business Machines Corporation Conversation utterance labeling
CN109871896B (zh) * 2019-02-26 2022-03-25 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN112529024A (zh) * 2019-09-17 2021-03-19 株式会社理光 一种样本数据的生成方法、装置及计算机可读存储介质
CN113743426A (zh) * 2020-05-27 2021-12-03 华为技术有限公司 一种训练方法、装置、设备以及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5206197B2 (ja) * 2008-07-28 2013-06-12 富士通株式会社 規則学習方法、プログラム及び装置
JP5206196B2 (ja) 2008-07-28 2013-06-12 富士通株式会社 規則学習方法、プログラム及び装置

Also Published As

Publication number Publication date
JP2015011535A (ja) 2015-01-19
US20150006151A1 (en) 2015-01-01
US9348810B2 (en) 2016-05-24

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
Luan et al. Scientific information extraction with semi-supervised neural tagging
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US20240013055A1 (en) Adversarial pretraining of machine learning models
Kim et al. Two-stage multi-intent detection for spoken language understanding
US20200311207A1 (en) Automatic text segmentation based on relevant context
WO2018051841A1 (ja) モデル学習装置、その方法、及びプログラム
WO2019081979A1 (en) SEQUENCE SEQUENCE PREDICTION USING NEURAL NETWORK MODEL
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
US11934781B2 (en) Systems and methods for controllable text summarization
WO2016167779A1 (en) Speech recognition device and rescoring device
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
US20220351634A1 (en) Question answering systems
JP6127778B2 (ja) モデル学習方法、モデル学習プログラム及びモデル学習装置
Olabenjo Applying naive bayes classification to *** play apps categorization
WO2023071581A1 (zh) 用于确定响应语句的方法、设备、装置和介质
Cai et al. Slim: Explicit slot-intent mapping with bert for joint multi-intent detection and slot filling
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
Li et al. Adversarial discrete sequence generation without explicit neuralnetworks as discriminators
CN117390450A (zh) 一种大语言模型训练方法、装置及相关设备
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Liu et al. Latent attribute based hierarchical decoder for neural machine translation
Yang et al. Task independent fine tuning for word embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170327

R150 Certificate of patent or registration of utility model

Ref document number: 6127778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150