JP5225219B2

JP5225219B2 - 述語項構造解析方法、その装置及びプログラム

Info

Publication number: JP5225219B2
Application number: JP2009155317A
Authority: JP
Inventors: 賢治今村; 邦子齋藤; 朋子泉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2013-07-03
Anticipated expiration: 2029-06-30
Also published as: JP2011013776A

Description

本発明は、複数の文からなる文書に対し、その中に含まれる述語と名詞句との関係を、格の観点から解析する技術に関するものである。

＜タスクの説明＞
述語項構造解析とは、自然言語で記述された文の意味解析を行うものである。具体的には、文における「どうした」などの「述語」に対応する「格」、即ち「誰が／何が」などの「ガ格」、「何を」などの「ヲ格」、「どこに」などの「ニ格」等、に該当する部分（項）を特定するものである。

例えば、複数の文からなる文書として、図１に示すような文書１「昨日彼女はカレーを作った。そしてお昼にも食べた。」があったとする。この文書１の第１文には、述語「作る（標準形）」が存在する。述語項構造解析では、この述語「作る」に対応するガ格の項は「彼女」であり、ヲ格の項は「カレー」であることを特定する。

しかし、特に日本語文においては、項となるべき単語（単語が複数の場合もあるため、以下、単語１つの場合も含めて名詞句と呼ぶ。）が省略される場合が頻繁にある。これをゼロ代名詞と呼ぶ。文書１の第２文はその例である。

文書１の第２文には述語として「食べる（標準形）」がある。この述語に対応するガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「お昼」である。しかし、第２文中には、実際には項となるべき名詞句は「お昼」しか現れていない。このような文の述語項構造解析を行うには、第１文から名詞句「彼女」や「カレー」を補わなければならない。

＜従来技術による述語項構造解析＞
従来技術では、一文中に述語とその項の両者が存在するものだけを対象に解析を行っていた。従来の述語項構造解析装置の一例を図２に、従来の述語項構造解析装置における処理の流れを図３にそれぞれ示す。

〈形態素解析・係り受け解析〉
まず、制御部７に入力された文書に対し、形態素解析・係り受け解析部１により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部１により、前記形態素解析結果（単語列）を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造（どの文節がどの文節に係るか）を特定して文節係り受け関係（係り先文節番号）を得る（ｓ１）。文節とは、日本語において、１個以上の内容語（名詞、動詞、形容詞、副詞等）と、０個以上の機能語（助詞、助動詞等）とから成り立つ句のことである。なお、形態素解析・係り受け解析部１は、既存の形態素解析器及び係り受け解析器を用いて構成することができる。

この際、例えば入力文書（解析すべき対象）が前述した文書１であれば、図４に示すような結果が得られる。

〈述語同定〉
次に、述語同定部２により、処理対象文の述語を全て同定（抽出）する（ｓ２）。具体的には、処理対象文の各単語の品詞を元に、用言性の部分単語列を抽出して述語とする。例えば、「動詞」、「形容詞」、「直後に動詞『する』が後続しているサ変名詞」、「直後に助動詞『だ』が後続している形容名詞」を述語とする。

文書１の例では、第１文の述語は「作る（標準形）」、第２文の述語は「食べる」となる。以下、第１文の述語「作る」を対象にした処理を説明する。

〈候補名詞句抽出〉
次に、候補名詞句抽出部３により、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語ｖは除く。名詞句かどうかは、通常、品詞を元に判断される。例えば、文節の内容語列の最後尾（内容語主辞）の品詞が名詞、代名詞、名詞接尾辞のいずれかであれば、当該文節の内容語列を名詞句とみなす。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする（ｓ３）。

この特殊名詞句NULLは、後述する項同定において、その述語に対応する格（に該当する項）がないことを示すための名詞句である。

第１文の述語「作る」に対応する候補名詞句は、「昨日」、「彼女」、「カレー」及び「NULL」の４つとなる。

〈素性選択〉
次に、素性選択部４により、候補名詞句中の各候補ｎについて、述語ｖ、候補ｎ、形態素・係り受け解析結果（解析済み文）から、素性を選択して素性集合を作成する（ｓ４）。素性としては、例えば図５に示すように、述語ｖに関する素性（述語関連）、候補ｎに関する素性（候補関連）、述語ｖと候補ｎの関係に関する素性（述語・候補相対位置関係）が考えられる。

このように、第１文の述語「作る」に関して、候補名詞句の各候補「昨日」、「彼女」、「カレー」及び「NULL」の素性を選択すると、図６に示す通りになる。

〈項同定〉
次に、項同定部５により、前記選択された素性を用い、格毎に予め学習された項同定モデル（の記憶部）６を参照して、候補ｎが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する（ｓ５）。項同定モデル６は、述語項構造の正解データ（コーパス）から、最大事後確率推定法等を用いて、予め学習されたものである。項同定モデルの一例を図７に示す。

述語ｖ、候補ｎ、格ｃに対応する項スコアscore は、以下の式（１）を用いて算出する。これは、識別モデル（discriminative models）を用いた分類器のスコア算出法と同じで、score が高いほど、候補ｎが述語ｖの格ｃとして尤もらしいことを表す。

但し、ｄ_c(n)は候補ｎが格ｃの項となった時のみ１、それ以外は０となる関数である。Ｘは素性集合、ｆ_k（ｄ_c(n)＝１，Ｘ）は素性関数で、素性が引数の条件を満たすときのみ１、それ以外は０となる関数であるが、素性がその値に実数値を有する場合は、引数の条件を満たしたときのみ、素性の値そのものを返す。また、

は、素性関数ｆ_kの、格ｃに関する重みである。

例えば、第１文の述語ｖ「作る」、候補ｎ「彼女」に関して、各素性の素性関数の重みと、部分スコア

を算出すると、図８に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.568、ヲ格の項スコアは1.967、ニ格の項スコアは0.802となる。

項同定部５により、全ての候補ｎについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補ｎ_max を取得し、述語ｖの項とする（ｓ６）。但し、候補NULLが取得された場合、その格は「空」とする。

第１文の述語「作る」に関する全候補の項スコアは、図９に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。

以上述べた処理が全ての文について繰り返され、最後に、制御部７より全ての文の述語項構造がリストとして出力される（ｓ７）。

Christopher D. Manning and Hinrich Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, 1999, pp.217-223

このように、従来技術では、一文中に述語とその項が存在するものに関しては、述語と名詞句の係り受け関係などを素性に用いることで述語項構造解析が可能である。しかし、日本語文にはゼロ代名詞が存在するため、一文だけの解析では述語に対応する項が特定できない場合がある。例えば、文書１の第２文では、名詞句として「お昼」しか現れていないため、述語「食べる」に対応するガ格の項として「彼女」、ヲ格の項として「カレー」を特定することができない。

一つの解決方法として、候補名詞句抽出ステップで、処理中の文の名詞句だけでなく、処理済の文（処理対象文より前の文）の名詞句も候補名詞句に追加する方法がある。しかし、文が異なると述語と候補との間に直接の文法的係り受け関係がないため、述語と異なる文に出現した名詞句は、述語との係り受け関係等、文法的特徴を利用した素性のみで項として同定することは非常に困難である。例えば、図５に示した素性を用いる場合、「依存関係」素性は、述語と異なる文に出現した名詞句に関してはどれも空になるため、これのみを利用して項を同定することはできない。

本発明では、以下の方法により、上記問題点を解決する。

・素性として、述語ｖが与えられたときの候補ｎの格ｃにおける生成確率を用いる。例えば、「食べる」のヲ格を考えた場合、「カレーを食べる」は日本語として妥当な句であるが、「昨日を食べる」は日本語ではほとんど言われない。このように、日本語では述語と格が決まると、両者の文法的関係を見なくても、項として取り得る名詞句がある程度、推定できるという特徴を利用する。

・同様に、処理対象文より前の文で述語の項として使われたか否かという素性を用いる。これは、一度、項として使われた名詞句は、ゼロ代名詞として繰り返し使用される傾向があるという特性を利用する。

・候補名詞句抽出ステップで、処理対象文中の名詞句だけでなく、処理対象文より前の文の名詞句も候補とする。しかし、全ての名詞句を対象とした場合、文書の長さが長くなると、候補数が増大し、項同定の精度が低下するという問題が生じる。この問題を回避するため、全ての文の全ての名詞句を候補とするのではなく、処理対象文のＮ（Ｎは１以上の整数）個前までの文（以下、直前Ｎ文）に含まれる述語について項として使われた名詞句のみを候補とする。このことにより、候補数を少なく制限しながら、精度の高い項同定が可能となる。

本発明によれば、処理中の述語が存在する文とは異なる文に項が存在しても、特定することができる。また、候補名詞句を、直前Ｎ文の述語について項として使われたものに限ることで、少ない候補から正しい項を特定することが可能となる。

入力文書の一例をその述語項構造とともに示す説明図従来の述語項構造解析装置の一例を示す構成図従来の述語項構造解析装置における処理を示す流れ図形態素解析及び係り受け解析結果の一例を示す説明図選択対象の素性の例を示す説明図素性集合の一例を示す説明図項同定モデルの一例を示す説明図候補ｎの各格の部分スコアの一例を示す説明図候補毎の各格の項スコアの一例を示す説明図本発明の述語項構造解析装置の実施の形態の一例を示す構成図言語モデル構築処理の一例を示す流れ図形態素解析及び係り受け解析結果の他の例を示す説明図言語モデルの一例を示す説明図本発明の述語項構造解析装置における処理を示す流れ図選択対象に追加する素性の例を示す説明図本発明による素性集合の一例を示す説明図本発明における項同定モデルの一例を示す説明図本発明における候補ｎの各格の部分スコアの一例を示す説明図本発明における候補毎の各格の項スコアの一例を示す説明図本発明による素性集合の他の例を示す説明図本発明における候補毎の各格の項スコアの他の例を示す説明図

以下、本発明を図示の実施の形態により詳細に説明する。

図１０は本発明の述語項構造解析装置の実施の形態の一例を示すもので、図中、従来例と同一構成要素は同一符号をもって表す。即ち、１は形態素解析・係り受け解析部、２は述語同定部、１１は項スタック、１２は候補名詞句抽出部、１３は言語モデル（の記憶部）、１４は素性選択部、１５は項同定モデル（の記憶部）、１６は項同定部、１７は制御部である。

項スタック１１は、処理対象文より前の文で処理された述語の項を、文番号とともに保存する。

候補名詞句抽出部１２は、処理対象文から全ての名詞句を抽出するとともに、項スタック１１から直前Ｎ文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする。

言語モデル（の記憶部）１３は、述語ｖと格ｃが与えられたときの名詞句ｎの生成確率Ｐ(n|c,v) を保持する。

素性選択部１４は、候補名詞句中の各候補ｎについて、述語ｖ、候補ｎ、形態素・係り受け解析結果（解析済み文）から、述語ｖに関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、処理中の文より前の文（前方文）の述語の項として使われたかどうかの素性、並びに言語モデル１３から算出される各格ｃのときの候補ｎの述語ｖに関する言語モデルスコアを選択して素性集合を作成する。

項同定モデル（の記憶部）１５は、素性が与えられたときの各格ｃの重みを保持する。

項同定部１６は、前記選択された素性を用い、項同定モデル１５を参照して、候補ｎが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語ｖの項とする。

制御部１７は、前述した各部を制御して、入力された文書中の全ての文について述語項構造の解析を行い、文中の述語とこれに対応する項の一覧とからなる述語項構造リストを文毎に出力する。

本実施の形態では、述語に対応する格として「ガ格」、「ヲ格」、「ニ格」を同定することとするが、他の格を含めても良い。

まず、本発明で使用する言語モデル１３の構築について説明し、次に本発明による述語項構造解析について説明する。

＜言語モデル構築＞
言語モデルを構築する際の処理の流れの一例を図１１に示す。名詞句の生成確率Ｐ(n|c,v) が算出できれば、他の手順で構築しても良い。

まず、複数の文（一般的には数万、数十万といった大量の文）を集める。これを平文コーパスと呼ぶ。平文コーパス中の各文について、従来技術の〈形態素解析・係り受け解析〉と同様な方法で形態素解析及び係り受け解析を行い、単語列、文節列、文節係り受け関係を得て（ｓ１１）、さらに、従来技術の〈述語同定〉と同様な方法で処理対象文の述語を全て同定（抽出）する（ｓ１２）。

次に、各述語について、述語に直接係る文節を、文節係り受け関係から取得し（ｓ１３）、その文節から名詞句と格助詞を取得する（ｓ１４）。名詞句の抽出は、従来技術の〈候補名詞句抽出〉で述べた方法と同様に行い、格助詞の特定は、品詞および単語表記を元に行う。

この際、文節に格助詞が含まれていなければ（ｓ１５：ＮＯ）、何もしない。一方、文節に格助詞が含まれている場合（ｓ１５：ＹＥＳ）は、名詞句、格助詞、述語を三つ組みにして、平文コーパス上での三つ組みの頻度（出現回数）をカウントする（ｓ１６）。これを平文コーパス中の全ての文について繰り返す。

例えば、平文コーパス中に「お昼にカレーを作った人がいた。」という文があったとする。これを形態素解析及び係り受け解析すると、図１２に示すような単語列、文節列、文節係り受け関係が得られる。この文から述語を同定すると、「作る」と「いる」が同定される。まず、述語「作る」に直接係る文節を取り出すと、「お昼に」及び「カレーを」が得られる。「お昼に」については、名詞句は「お昼」、格助詞は「に」となる。従って、名詞句、格助詞、述語の三つ組みは［お昼，に，作る］となる。これを文節「カレーを」についても同様に行うと、三つ組み［カレー，を，作る］が得られる。このような三つ組みを、平文コーパス全体に対して作成し、出現回数をカウントする。

次に、得られた三つ組みのカウントを元に、バックオフスムージング法（非特許文献１参照）を用いて、述語ｖと格助詞ｃが決まったときの名詞句ｎの生成確率（トライグラム確率）を保持する言語モデルを推定する（ｓ１７）。バックオフスムージング法を用いると、トライグラム確率Ｐ(n|c,v) の他に、同時にバイグラム確率Ｐ(n|c) も得られる。

最後に、バイグラム確率に、格ｃ毎の特殊名詞句NULLの生成確率Ｐ(NULL|c) を追加して（ｓ１８）、言語モデルを出力する（ｓ１９）。NULLの生成確率は、様々な述語がNULLを生成する確率を格ｃ毎に与えたもので、述語項構造の正解データがある場合、述語に対応する格に該当する項が存在しない確率である。作成された言語モデルの一例を図１３に示す。

＜本発明の述語項構造解析＞
図１４は図１０の述語項構造解析装置における処理の流れを示すもので、以下、各部の構成及び動作の詳細を具体的な例に沿って説明する。

本発明の目的は、ゼロ代名詞を含む日本語文における述語項構造解析なので、入力は複数の文からなる文書である。本例では、従来技術で説明した文書１「昨日彼女はカレーを作った。そしてお昼にも食べた。」を用いて説明する。

〈初期化〉
まず、項スタック１１を空にする（ｓ２１）。そして、制御部７に入力された文書に対し、先頭から一文毎に以下の処理を行う。

〈形態素解析・係り受け解析〉
従来技術の場合と同様に、形態素解析・係り受け解析部１により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部１により、前記形態素解析結果を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造を特定して文節係り受け関係を得る（ｓ２２）。文書１の形態素解析及び係り受け解析結果は、図４に示した通りである。

〈述語同定〉
次に、従来技術の場合と同様に、述語同定部２により、処理対象文の述語を全て同定（抽出）する（ｓ２３）。

文書１の例では、第１文の述語は「作る」、第２文の述語は「食べる」となる。以下、まず、第１文の述語「作る」を対象にした処理を説明し、第２文の述語「食べる」を対象にした処理については後述する。

〈候補名詞句抽出〉
次に、候補名詞句抽出部１２により、従来技術の場合と同様に、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語ｖは除く。なお、名詞句かどうかは、従来技術の場合と同様に、品詞を元に判断される。また、候補名詞句抽出部１２により、項スタック１１から、直前Ｎ文（本例ではＮ＝１とする。）の述語の項として使われた名詞句を取り出して両者を合わせる。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする（ｓ２４）。

この特殊名詞句NULLは、後述する項同定において、その述語に対応する格がない、又は格に該当する項となるべき名詞句が文書中に存在しない（これを外界照応と呼ぶ。）ことを示すための名詞句である。

第１文の述語「作る」に対する候補名詞句は、項スタック１１が空であり、処理対象文から得られるもののみであるから、「昨日」、「彼女」、「カレー」及び「NULL」の４つとなる。

〈素性選択〉
次に、素性選択部１４により、候補名詞句中の各候補ｎについて、素性を選択して素性集合を作成する（ｓ２５）。この際、従来技術の場合と同様に、述語ｖ、候補ｎ、形態素・係り受け解析結果（解析済み文）から、述語ｖに関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、図１５に示すような、処理中の文より前の文（前方文）の述語の項として使われたかどうかの素性と、言語モデルスコアに関する素性とを追加して選択する。

ここで、言語モデルスコアの素性に関しては、言語モデル１３を参照して、述語ｖが与えられたときの、候補ｎが各格、即ちガ格、ヲ格、ニ格であるときの言語モデルスコアを算出して用いる。言語モデル１３の例は図１３に示した通りである。

ここで、トライグラムＰ(n|c,v) が言語モデル１３上に存在していれば、その対数確率logＰ(n|c,v) を言語モデルスコアとする。また、存在していなければ、バイグラムの対数確率logＰ(n|c) とバックオフの対数確率log bo(c,v)を言語モデル１３から取得し、両者の和を言語モデルスコアとする。例えば、述語ｖ「作る」、候補ｎ「昨日」のガ格の言語モデルスコアを算出する場合、図１３の言語モデルでは、トライグラムは存在しない。従って、log bo(ガ,作る)＋logＰ(昨日|ガ)＝−0.33＋−5.00 を計算し、-5.33を言語モデルスコアとする。

このように、第１文の述語「作る」に関して、候補名詞句の各候補の素性を選択すると、図１６に示す通りとなる。

〈項同定〉
次に、項同定部１６により、項同定モデル１５を参照し、前記選択された素性を用いて、候補ｎが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する（ｓ２６）。項同定モデル１５は、述語項構造の正解データ（コーパス）から、最大事後確率推定法等を用いて学習されたものである。本発明における項同定モデルの一例を図１７に示す。

従来技術における項同定モデルとの違いは、「使用（Used:0，Used:1）」に関する素性重みと、「言語モデルスコア（LM ガ，LM ヲ，LM ニ）」に関する素性重みが追加されたことである。これらは学習過程で最適化されているため、その他の素性重みに関しても値は異なっている。

これらの素性重みを元に、前述した式（１）を用いて項スコアscore を算出する。

を算出すると、図１８に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.031、ヲ格の項スコアは0.391、ニ格の項スコアは0.345となる。

項同定では、全ての候補ｎについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補ｎ_max を取得し、述語ｖの項とする（ｓ２７）。但し、候補NULLが取得された場合、その格は「空」とする。

第１文の述語「作る」に関する全候補の項スコアは、図１９に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。

なお、項として認定された名詞句「彼女」及び「カレー」は、項スタック１１に文番号１とともに記録される（ｓ２８）。

《第２文以降の処理》
第２文以降は、まず前述した〈形態素・係り受け解析〉及び〈述語同定〉を行う。

文書１の形態素解析及び係り受け解析結果は、図４に示した通りである。また、文書１の第２文には、述語として「食べる」がある。以下、前記〈候補名詞句抽出〉、〈素性選択〉、〈項同定〉の処理を、第２文の述語「食べる」に焦点を当てて説明する。

〈候補名詞句抽出〉では、第２文中の名詞句として、「お昼」が抽出される。さらに、項スタック１１からは、直前Ｎ文（Ｎ＝１）の述語で項として使用された名詞句が抽出される。第１文の述語で項として使われたのは、「彼女」及び「カレー」の２つである。また、NULLも追加されるため、候補名詞句は「お昼」、「彼女」、「カレー」及び「NULL」の４つとなる。

〈素性選択〉では、上記４つの候補ｎに関し、言語モデル１３を用いて、前記同様の方法で素性を選択する。すると、図２０に示すような素性集合が得られる。

続いて、〈項同定〉では、項同定モデル１５を参照し、前記選択された素性を用いて、候補ｎの格毎の項スコアを算出する。上記素性の場合、各候補ｎの項スコアは図２１に示す通りとなる。

その結果、第２文の述語「食べる」については、ガ格の項として「彼女」、ヲ格の項として「カレー」、ニ格の項として「お昼」が特定され、述語項構造が完成する。また、項として認定された名詞句「彼女」、「カレー」及び「お昼」は、項スタック１１に文番号２とともに記録される。

入力された文書には、これ以上文が存在しないため、最後に、制御部１７より全ての文の述語項構造がリストとして出力される（ｓ２９）。

＜他の実施の形態＞
なお、前述した実施の形態では、項スタックから直前Ｎ文の述語の項として使われた名詞句を加えるようにしたが、このような制限をせず、項スタックに保存されている全ての名詞句を対象として用いるようにしても良い。また、追加する素性として、言語モデルスコアに関する素性のみを用い、処理対象文より前の文の述語の項として使われたかどうかの素性については省略するようにしても良い。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１０の構成図に示された機能を実現するプログラムあるいは図１４のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

１：形態素解析・係り受け解析部、２：述語同定部、１１：項スタック、１２：候補名詞句抽出部、１３：言語モデル（の記憶部）、１４：素性選択部、１５：項同定モデル（の記憶部）、１６：項同定部、１７：制御部。

Claims

入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する方法であって、
候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップと、
素性選択部が、候補名詞句中の各候補ｎについて、述語に関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、述語ｖと格ｃが与えられたときの名詞句ｎの生成確率を保持する言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成するステップと、
項同定部が、選択された素性を用い、素性が与えられたときの各格ｃの重みを保持する項同定モデルを参照して、候補ｎが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語ｖの項とするステップとを含む、
ことを特徴とする述語項構造解析方法。
素性選択部が、候補名詞句中の各候補ｎについて、述語に関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに述語ｖと格ｃが与えられたときの名詞句ｎの生成確率を保持する言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成するステップを含む
ことを特徴とする請求項１に記載の述語項構造解析方法。
候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから直前Ｎ文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップを含む
ことを特徴とする請求項１または２に記載の述語項構造解析方法。
入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する装置であって、
処理対象文より前の文で処理された述語の項を保存する項スタックと、
処理対象文から全ての名詞句を抽出するとともに、項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部と、
述語ｖと格ｃが与えられたときの名詞句ｎの生成確率を保持する言語モデルと、
候補名詞句中の各候補ｎについて、述語に関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成する素性選択部と、
素性が与えられたときの各格ｃの重みを保持する項同定モデルと、
選択された素性を用い、項同定モデルを参照して、候補ｎが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語ｖの項とする項同定部とを備えた、
ことを特徴とする述語項構造解析装置。
候補名詞句中の各候補ｎについて、述語に関する素性、候補ｎに関する素性、述語ｖと候補ｎの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成する素性選択部を備えた
ことを特徴とする請求項４に記載の述語項構造解析装置。
処理対象文から全ての名詞句を抽出するとともに、項スタックから直前Ｎ文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部を備えた
ことを特徴とする請求項４または５に記載の述語項構造解析装置。
コンピュータを、請求項４乃至６のいずれかに記載の装置の各手段として機能させるためのプログラム。