JP5225219B2 - 述語項構造解析方法、その装置及びプログラム - Google Patents

述語項構造解析方法、その装置及びプログラム Download PDF

Info

Publication number
JP5225219B2
JP5225219B2 JP2009155317A JP2009155317A JP5225219B2 JP 5225219 B2 JP5225219 B2 JP 5225219B2 JP 2009155317 A JP2009155317 A JP 2009155317A JP 2009155317 A JP2009155317 A JP 2009155317A JP 5225219 B2 JP5225219 B2 JP 5225219B2
Authority
JP
Japan
Prior art keywords
predicate
term
candidate
feature
noun phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009155317A
Other languages
English (en)
Other versions
JP2011013776A (ja
Inventor
賢治 今村
邦子 齋藤
朋子 泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009155317A priority Critical patent/JP5225219B2/ja
Publication of JP2011013776A publication Critical patent/JP2011013776A/ja
Application granted granted Critical
Publication of JP5225219B2 publication Critical patent/JP5225219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複数の文からなる文書に対し、その中に含まれる述語と名詞句との関係を、格の観点から解析する技術に関するものである。
<タスクの説明>
述語項構造解析とは、自然言語で記述された文の意味解析を行うものである。具体的には、文における「どうした」などの「述語」に対応する「格」、即ち「誰が/何が」などの「ガ格」、「何を」などの「ヲ格」、「どこに」などの「ニ格」等、に該当する部分(項)を特定するものである。
例えば、複数の文からなる文書として、図1に示すような文書1「昨日彼女はカレーを作った。そしてお昼にも食べた。」があったとする。この文書1の第1文には、述語「作る(標準形)」が存在する。述語項構造解析では、この述語「作る」に対応するガ格の項は「彼女」であり、ヲ格の項は「カレー」であることを特定する。
しかし、特に日本語文においては、項となるべき単語(単語が複数の場合もあるため、以下、単語1つの場合も含めて名詞句と呼ぶ。)が省略される場合が頻繁にある。これをゼロ代名詞と呼ぶ。文書1の第2文はその例である。
文書1の第2文には述語として「食べる(標準形)」がある。この述語に対応するガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「お昼」である。しかし、第2文中には、実際には項となるべき名詞句は「お昼」しか現れていない。このような文の述語項構造解析を行うには、第1文から名詞句「彼女」や「カレー」を補わなければならない。
<従来技術による述語項構造解析>
従来技術では、一文中に述語とその項の両者が存在するものだけを対象に解析を行っていた。従来の述語項構造解析装置の一例を図2に、従来の述語項構造解析装置における処理の流れを図3にそれぞれ示す。
〈形態素解析・係り受け解析〉
まず、制御部7に入力された文書に対し、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果(単語列)を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造(どの文節がどの文節に係るか)を特定して文節係り受け関係(係り先文節番号)を得る(s1)。文節とは、日本語において、1個以上の内容語(名詞、動詞、形容詞、副詞等)と、0個以上の機能語(助詞、助動詞等)とから成り立つ句のことである。なお、形態素解析・係り受け解析部1は、既存の形態素解析器及び係り受け解析器を用いて構成することができる。
この際、例えば入力文書(解析すべき対象)が前述した文書1であれば、図4に示すような結果が得られる。
〈述語同定〉
次に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s2)。具体的には、処理対象文の各単語の品詞を元に、用言性の部分単語列を抽出して述語とする。例えば、「動詞」、「形容詞」、「直後に動詞『する』が後続しているサ変名詞」、「直後に助動詞『だ』が後続している形容名詞」を述語とする。
文書1の例では、第1文の述語は「作る(標準形)」、第2文の述語は「食べる」となる。以下、第1文の述語「作る」を対象にした処理を説明する。
〈候補名詞句抽出〉
次に、候補名詞句抽出部3により、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。名詞句かどうかは、通常、品詞を元に判断される。例えば、文節の内容語列の最後尾(内容語主辞)の品詞が名詞、代名詞、名詞接尾辞のいずれかであれば、当該文節の内容語列を名詞句とみなす。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s3)。
この特殊名詞句NULLは、後述する項同定において、その述語に対応する格(に該当する項)がないことを示すための名詞句である。
第1文の述語「作る」に対応する候補名詞句は、「昨日」、「彼女」、「カレー」及び「NULL」の4つとなる。
〈素性選択〉
次に、素性選択部4により、候補名詞句中の各候補nについて、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、素性を選択して素性集合を作成する(s4)。素性としては、例えば図5に示すように、述語vに関する素性(述語関連)、候補nに関する素性(候補関連)、述語vと候補nの関係に関する素性(述語・候補相対位置関係)が考えられる。
このように、第1文の述語「作る」に関して、候補名詞句の各候補「昨日」、「彼女」、「カレー」及び「NULL」の素性を選択すると、図6に示す通りになる。
〈項同定〉
次に、項同定部5により、前記選択された素性を用い、格毎に予め学習された項同定モデル(の記憶部)6を参照して、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s5)。項同定モデル6は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて、予め学習されたものである。項同定モデルの一例を図7に示す。
述語v、候補n、格cに対応する項スコアscore は、以下の式(1)を用いて算出する。これは、識別モデル(discriminative models) を用いた分類器のスコア算出法と同じで、score が高いほど、候補nが述語vの格cとして尤もらしいことを表す。
Figure 0005225219
但し、dc(n)は候補nが格cの項となった時のみ1、それ以外は0となる関数である。Xは素性集合、fk(dc(n)=1,X) は素性関数で、素性が引数の条件を満たすときのみ1、それ以外は0となる関数であるが、素性がその値に実数値を有する場合は、引数の条件を満たしたときのみ、素性の値そのものを返す。また、
Figure 0005225219
は、素性関数fkの、格cに関する重みである。
例えば、第1文の述語v「作る」、候補n「彼女」に関して、各素性の素性関数の重みと、部分スコア
Figure 0005225219
を算出すると、図8に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.568、ヲ格の項スコアは1.967、ニ格の項スコアは0.802となる。
項同定部5により、全ての候補nについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補nmax を取得し、述語vの項とする(s6)。但し、候補NULLが取得された場合、その格は「空」とする。
第1文の述語「作る」に関する全候補の項スコアは、図9に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。
以上述べた処理が全ての文について繰り返され、最後に、制御部7より全ての文の述語項構造がリストとして出力される(s7)。
Christopher D. Manning and Hinrich Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, 1999, pp.217-223
このように、従来技術では、一文中に述語とその項が存在するものに関しては、述語と名詞句の係り受け関係などを素性に用いることで述語項構造解析が可能である。しかし、日本語文にはゼロ代名詞が存在するため、一文だけの解析では述語に対応する項が特定できない場合がある。例えば、文書1の第2文では、名詞句として「お昼」しか現れていないため、述語「食べる」に対応するガ格の項として「彼女」、ヲ格の項として「カレー」を特定することができない。
一つの解決方法として、候補名詞句抽出ステップで、処理中の文の名詞句だけでなく、処理済の文(処理対象文より前の文)の名詞句も候補名詞句に追加する方法がある。しかし、文が異なると述語と候補との間に直接の文法的係り受け関係がないため、述語と異なる文に出現した名詞句は、述語との係り受け関係等、文法的特徴を利用した素性のみで項として同定することは非常に困難である。例えば、図5に示した素性を用いる場合、「依存関係」素性は、述語と異なる文に出現した名詞句に関してはどれも空になるため、これのみを利用して項を同定することはできない。
本発明では、以下の方法により、上記問題点を解決する。
・素性として、述語vが与えられたときの候補nの格cにおける生成確率を用いる。例えば、「食べる」のヲ格を考えた場合、「カレーを食べる」は日本語として妥当な句であるが、「昨日を食べる」は日本語ではほとんど言われない。このように、日本語では述語と格が決まると、両者の文法的関係を見なくても、項として取り得る名詞句がある程度、推定できるという特徴を利用する。
・同様に、処理対象文より前の文で述語の項として使われたか否かという素性を用いる。これは、一度、項として使われた名詞句は、ゼロ代名詞として繰り返し使用される傾向があるという特性を利用する。
・候補名詞句抽出ステップで、処理対象文中の名詞句だけでなく、処理対象文より前の文の名詞句も候補とする。しかし、全ての名詞句を対象とした場合、文書の長さが長くなると、候補数が増大し、項同定の精度が低下するという問題が生じる。この問題を回避するため、全ての文の全ての名詞句を候補とするのではなく、処理対象文のN(Nは1以上の整数)個前までの文(以下、直前N文)に含まれる述語について項として使われた名詞句のみを候補とする。このことにより、候補数を少なく制限しながら、精度の高い項同定が可能となる。
本発明によれば、処理中の述語が存在する文とは異なる文に項が存在しても、特定することができる。また、候補名詞句を、直前N文の述語について項として使われたものに限ることで、少ない候補から正しい項を特定することが可能となる。
入力文書の一例をその述語項構造とともに示す説明図 従来の述語項構造解析装置の一例を示す構成図 従来の述語項構造解析装置における処理を示す流れ図 形態素解析及び係り受け解析結果の一例を示す説明図 選択対象の素性の例を示す説明図 素性集合の一例を示す説明図 項同定モデルの一例を示す説明図 候補nの各格の部分スコアの一例を示す説明図 候補毎の各格の項スコアの一例を示す説明図 本発明の述語項構造解析装置の実施の形態の一例を示す構成図 言語モデル構築処理の一例を示す流れ図 形態素解析及び係り受け解析結果の他の例を示す説明図 言語モデルの一例を示す説明図 本発明の述語項構造解析装置における処理を示す流れ図 選択対象に追加する素性の例を示す説明図 本発明による素性集合の一例を示す説明図 本発明における項同定モデルの一例を示す説明図 本発明における候補nの各格の部分スコアの一例を示す説明図 本発明における候補毎の各格の項スコアの一例を示す説明図 本発明による素性集合の他の例を示す説明図 本発明における候補毎の各格の項スコアの他の例を示す説明図
以下、本発明を図示の実施の形態により詳細に説明する。
図10は本発明の述語項構造解析装置の実施の形態の一例を示すもので、図中、従来例と同一構成要素は同一符号をもって表す。即ち、1は形態素解析・係り受け解析部、2は述語同定部、11は項スタック、12は候補名詞句抽出部、13は言語モデル(の記憶部)、14は素性選択部、15は項同定モデル(の記憶部)、16は項同定部、17は制御部である。
項スタック11は、処理対象文より前の文で処理された述語の項を、文番号とともに保存する。
候補名詞句抽出部12は、処理対象文から全ての名詞句を抽出するとともに、項スタック11から直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする。
言語モデル(の記憶部)13は、述語vと格cが与えられたときの名詞句nの生成確率P(n|c,v) を保持する。
素性選択部14は、候補名詞句中の各候補nについて、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、述語vに関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理中の文より前の文(前方文)の述語の項として使われたかどうかの素性、並びに言語モデル13から算出される各格cのときの候補nの述語vに関する言語モデルスコアを選択して素性集合を作成する。
項同定モデル(の記憶部)15は、素性が与えられたときの各格cの重みを保持する。
項同定部16は、前記選択された素性を用い、項同定モデル15を参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とする。
制御部17は、前述した各部を制御して、入力された文書中の全ての文について述語項構造の解析を行い、文中の述語とこれに対応する項の一覧とからなる述語項構造リストを文毎に出力する。
本実施の形態では、述語に対応する格として「ガ格」、「ヲ格」、「ニ格」を同定することとするが、他の格を含めても良い。
まず、本発明で使用する言語モデル13の構築について説明し、次に本発明による述語項構造解析について説明する。
<言語モデル構築>
言語モデルを構築する際の処理の流れの一例を図11に示す。名詞句の生成確率P(n|c,v) が算出できれば、他の手順で構築しても良い。
まず、複数の文(一般的には数万、数十万といった大量の文)を集める。これを平文コーパスと呼ぶ。平文コーパス中の各文について、従来技術の〈形態素解析・係り受け解析〉と同様な方法で形態素解析及び係り受け解析を行い、単語列、文節列、文節係り受け関係を得て(s11)、さらに、従来技術の〈述語同定〉と同様な方法で処理対象文の述語を全て同定(抽出)する(s12)。
次に、各述語について、述語に直接係る文節を、文節係り受け関係から取得し(s13)、その文節から名詞句と格助詞を取得する(s14)。名詞句の抽出は、従来技術の〈候補名詞句抽出〉で述べた方法と同様に行い、格助詞の特定は、品詞および単語表記を元に行う。
この際、文節に格助詞が含まれていなければ(s15:NO)、何もしない。一方、文節に格助詞が含まれている場合(s15:YES)は、名詞句、格助詞、述語を三つ組みにして、平文コーパス上での三つ組みの頻度(出現回数)をカウントする(s16)。これを平文コーパス中の全ての文について繰り返す。
例えば、平文コーパス中に「お昼にカレーを作った人がいた。」という文があったとする。これを形態素解析及び係り受け解析すると、図12に示すような単語列、文節列、文節係り受け関係が得られる。この文から述語を同定すると、「作る」と「いる」が同定される。まず、述語「作る」に直接係る文節を取り出すと、「お昼に」及び「カレーを」が得られる。「お昼に」については、名詞句は「お昼」、格助詞は「に」となる。従って、名詞句、格助詞、述語の三つ組みは[お昼,に,作る]となる。これを文節「カレーを」についても同様に行うと、三つ組み[カレー,を,作る]が得られる。このような三つ組みを、平文コーパス全体に対して作成し、出現回数をカウントする。
次に、得られた三つ組みのカウントを元に、バックオフスムージング法(非特許文献1参照)を用いて、述語vと格助詞cが決まったときの名詞句nの生成確率(トライグラム確率)を保持する言語モデルを推定する(s17)。バックオフスムージング法を用いると、トライグラム確率P(n|c,v) の他に、同時にバイグラム確率P(n|c) も得られる。
最後に、バイグラム確率に、格c毎の特殊名詞句NULLの生成確率P(NULL|c) を追加して(s18)、言語モデルを出力する(s19)。NULLの生成確率は、様々な述語がNULLを生成する確率を格c毎に与えたもので、述語項構造の正解データがある場合、述語に対応する格に該当する項が存在しない確率である。作成された言語モデルの一例を図13に示す。
<本発明の述語項構造解析>
図14は図10の述語項構造解析装置における処理の流れを示すもので、以下、各部の構成及び動作の詳細を具体的な例に沿って説明する。
本発明の目的は、ゼロ代名詞を含む日本語文における述語項構造解析なので、入力は複数の文からなる文書である。本例では、従来技術で説明した文書1「昨日彼女はカレーを作った。そしてお昼にも食べた。」を用いて説明する。
〈初期化〉
まず、項スタック11を空にする(s21)。そして、制御部7に入力された文書に対し、先頭から一文毎に以下の処理を行う。
〈形態素解析・係り受け解析〉
従来技術の場合と同様に、形態素解析・係り受け解析部1により、一文毎に形態素解析を行って単語に分割し、各単語の品詞を特定して単語列を得る。次に、同じく形態素解析・係り受け解析部1により、前記形態素解析結果を元に各文を文節に分割して文節列を得て、さらに文節同士の係り受け構造を特定して文節係り受け関係を得る(s22)。文書1の形態素解析及び係り受け解析結果は、図4に示した通りである。
〈述語同定〉
次に、従来技術の場合と同様に、述語同定部2により、処理対象文の述語を全て同定(抽出)する(s23)。
文書1の例では、第1文の述語は「作る」、第2文の述語は「食べる」となる。以下、まず、第1文の述語「作る」を対象にした処理を説明し、第2文の述語「食べる」を対象にした処理については後述する。
〈候補名詞句抽出〉
次に、候補名詞句抽出部12により、従来技術の場合と同様に、処理対象文から全ての名詞句を抽出する。但し、当該処理対象文における、その時点で処理中の述語vは除く。なお、名詞句かどうかは、従来技術の場合と同様に、品詞を元に判断される。また、候補名詞句抽出部12により、項スタック11から、直前N文(本例ではN=1とする。)の述語の項として使われた名詞句を取り出して両者を合わせる。また、このようにして抽出した名詞句に特殊名詞句NULLを追加し、これらを候補名詞句とする(s24)。
この特殊名詞句NULLは、後述する項同定において、その述語に対応する格がない、又は格に該当する項となるべき名詞句が文書中に存在しない(これを外界照応と呼ぶ。)ことを示すための名詞句である。
第1文の述語「作る」に対する候補名詞句は、項スタック11が空であり、処理対象文から得られるもののみであるから、「昨日」、「彼女」、「カレー」及び「NULL」の4つとなる。
〈素性選択〉
次に、素性選択部14により、候補名詞句中の各候補nについて、素性を選択して素性集合を作成する(s25)。この際、従来技術の場合と同様に、述語v、候補n、形態素・係り受け解析結果(解析済み文)から、述語vに関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、図15に示すような、処理中の文より前の文(前方文)の述語の項として使われたかどうかの素性と、言語モデルスコアに関する素性とを追加して選択する。
ここで、言語モデルスコアの素性に関しては、言語モデル13を参照して、述語vが与えられたときの、候補nが各格、即ちガ格、ヲ格、ニ格であるときの言語モデルスコアを算出して用いる。言語モデル13の例は図13に示した通りである。
ここで、トライグラムP(n|c,v) が言語モデル13上に存在していれば、その対数確率logP(n|c,v) を言語モデルスコアとする。また、存在していなければ、バイグラムの対数確率logP(n|c) とバックオフの対数確率log bo(c,v)を言語モデル13から取得し、両者の和を言語モデルスコアとする。例えば、述語v「作る」、候補n「昨日」のガ格の言語モデルスコアを算出する場合、図13の言語モデルでは、トライグラムは存在しない。従って、log bo(ガ,作る)+logP(昨日|ガ)=−0.33+−5.00 を計算し、-5.33を言語モデルスコアとする。
このように、第1文の述語「作る」に関して、候補名詞句の各候補の素性を選択すると、図16に示す通りとなる。
〈項同定〉
次に、項同定部16により、項同定モデル15を参照し、前記選択された素性を用いて、候補nが各格、即ちガ格、ヲ格、ニ格であるときの項スコアを算出する(s26)。項同定モデル15は、述語項構造の正解データ(コーパス)から、最大事後確率推定法等を用いて学習されたものである。本発明における項同定モデルの一例を図17に示す。
従来技術における項同定モデルとの違いは、「使用(Used:0,Used:1)」に関する素性重みと、「言語モデルスコア(LM ガ,LM ヲ,LM ニ)」に関する素性重みが追加されたことである。これらは学習過程で最適化されているため、その他の素性重みに関しても値は異なっている。
これらの素性重みを元に、前述した式(1)を用いて項スコアscore を算出する。
例えば、第1文の述語v「作る」、候補n「彼女」に関して、各素性の素性関数の重みと、部分スコア
Figure 0005225219
を算出すると、図18に示す通りとなる。これを、各格毎に総和を算出すると、ガ格の項スコアは6.031、ヲ格の項スコアは0.391、ニ格の項スコアは0.345となる。
項同定では、全ての候補nについて、項スコアの算出を繰り返す。そして、各格毎に項スコア最大の候補nmax を取得し、述語vの項とする(s27)。但し、候補NULLが取得された場合、その格は「空」とする。
第1文の述語「作る」に関する全候補の項スコアは、図19に示す通りであるため、結果、ガ格の項は「彼女」、ヲ格の項は「カレー」、ニ格の項は「空」となり、述語項構造が完成する。
なお、項として認定された名詞句「彼女」及び「カレー」は、項スタック11に文番号1とともに記録される(s28)。
《第2文以降の処理》
第2文以降は、まず前述した〈形態素・係り受け解析〉及び〈述語同定〉を行う。
文書1の形態素解析及び係り受け解析結果は、図4に示した通りである。また、文書1の第2文には、述語として「食べる」がある。以下、前記〈候補名詞句抽出〉、〈素性選択〉、〈項同定〉の処理を、第2文の述語「食べる」に焦点を当てて説明する。
〈候補名詞句抽出〉では、第2文中の名詞句として、「お昼」が抽出される。さらに、項スタック11からは、直前N文(N=1)の述語で項として使用された名詞句が抽出される。第1文の述語で項として使われたのは、「彼女」及び「カレー」の2つである。また、NULLも追加されるため、候補名詞句は「お昼」、「彼女」、「カレー」及び「NULL」の4つとなる。
〈素性選択〉では、上記4つの候補nに関し、言語モデル13を用いて、前記同様の方法で素性を選択する。すると、図20に示すような素性集合が得られる。
続いて、〈項同定〉では、項同定モデル15を参照し、前記選択された素性を用いて、候補nの格毎の項スコアを算出する。上記素性の場合、各候補nの項スコアは図21に示す通りとなる。
その結果、第2文の述語「食べる」については、ガ格の項として「彼女」、ヲ格の項として「カレー」、ニ格の項として「お昼」が特定され、述語項構造が完成する。また、項として認定された名詞句「彼女」、「カレー」及び「お昼」は、項スタック11に文番号2とともに記録される。
入力された文書には、これ以上文が存在しないため、最後に、制御部17より全ての文の述語項構造がリストとして出力される(s29)。
<他の実施の形態>
なお、前述した実施の形態では、項スタックから直前N文の述語の項として使われた名詞句を加えるようにしたが、このような制限をせず、項スタックに保存されている全ての名詞句を対象として用いるようにしても良い。また、追加する素性として、言語モデルスコアに関する素性のみを用い、処理対象文より前の文の述語の項として使われたかどうかの素性については省略するようにしても良い。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図10の構成図に示された機能を実現するプログラムあるいは図14のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
1:形態素解析・係り受け解析部、2:述語同定部、11:項スタック、12:候補名詞句抽出部、13:言語モデル(の記憶部)、14:素性選択部、15:項同定モデル(の記憶部)、16:項同定部、17:制御部。

Claims (7)

  1. 入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する方法であって、
    候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップと、
    素性選択部が、候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成するステップと、
    項同定部が、選択された素性を用い、素性が与えられたときの各格cの重みを保持する項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とするステップとを含む、
    ことを特徴とする述語項構造解析方法。
  2. 素性選択部が、候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成するステップを含む
    ことを特徴とする請求項1に記載の述語項構造解析方法。
  3. 候補名詞句抽出部が、処理対象文から全ての名詞句を抽出するとともに、処理対象文より前の文で処理された述語の項を保存する項スタックから直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とするステップを含む
    ことを特徴とする請求項1または2に記載の述語項構造解析方法。
  4. 入力文書中の各文から、形態素解析及び係り受け解析を経て抽出された述語に対応する格に該当する名詞句である項を特定する装置であって、
    処理対象文より前の文で処理された述語の項を保存する項スタックと、
    処理対象文から全ての名詞句を抽出するとともに、項スタックから名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部と、
    述語vと格cが与えられたときの名詞句nの生成確率を保持する言語モデルと、
    候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成する素性選択部と、
    素性が与えられたときの各格cの重みを保持する項同定モデルと、
    選択された素性を用い、項同定モデルを参照して、候補nが各格であるときの項スコアを算出し、各格毎に項スコア最大の候補を取得して述語vの項とする項同定部とを備えた、
    ことを特徴とする述語項構造解析装置。
  5. 候補名詞句中の各候補nについて、述語に関する素性、候補nに関する素性、述語vと候補nの関係に関する素性を選択するとともに、処理対象文より前の文の述語の項として使われたかどうかの素性、並びに言語モデルを利用し、トライグラム確率が当該言語モデルに存在していれば当該トライグラム確率から得られる値を言語モデルスコアに関する素性とし、トライグラム確率が当該言語モデルに存在していなければバイグラム確率とバックオフ確率から得られる値を言語モデルスコアに関する素性とし、素性集合を作成する素性選択部を備えた
    ことを特徴とする請求項4に記載の述語項構造解析装置。
  6. 処理対象文から全ての名詞句を抽出するとともに、項スタックから直前N文の述語の項として使われた名詞句を得て両者を合わせ、さらに特殊名詞句NULLを追加して候補名詞句とする候補名詞句抽出部を備えた
    ことを特徴とする請求項4または5に記載の述語項構造解析装置。
  7. コンピュータを、請求項4乃至6のいずれかに記載の装置の各手段として機能させるためのプログラム。
JP2009155317A 2009-06-30 2009-06-30 述語項構造解析方法、その装置及びプログラム Active JP5225219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009155317A JP5225219B2 (ja) 2009-06-30 2009-06-30 述語項構造解析方法、その装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009155317A JP5225219B2 (ja) 2009-06-30 2009-06-30 述語項構造解析方法、その装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011013776A JP2011013776A (ja) 2011-01-20
JP5225219B2 true JP5225219B2 (ja) 2013-07-03

Family

ID=43592627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009155317A Active JP5225219B2 (ja) 2009-06-30 2009-06-30 述語項構造解析方法、その装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5225219B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5823441B2 (ja) * 2013-04-26 2015-11-25 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
JP5755698B2 (ja) * 2013-09-09 2015-07-29 日本電信電話株式会社 述語項構造解析方法、モデル学習方法、装置、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2008204010A (ja) * 2007-02-16 2008-09-04 Toyota Motor Corp 質問内容抽出装置と質問内容抽出方法

Also Published As

Publication number Publication date
JP2011013776A (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
US10902041B2 (en) Systems and methods for learning semantic patterns from textual data
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
US20060253273A1 (en) Information extraction using a trainable grammar
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Zhang et al. Natural language processing: a machine learning perspective
WO2017198031A1 (zh) 解析语义的方法和装置
Agarwal et al. Frame semantic tree kernels for social network extraction from text
Van Der Goot MoNoise: A multi-lingual and easy-to-use lexical normalization tool
CN103678318B (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
Schraagen et al. Extraction of semantic relations in noisy user-generated law enforcement data
Erk et al. Paraphrase assessment in structured vector space: Exploring parameters and datasets
Nguyen et al. Vietnamese treebank construction and entropy-based error detection
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
CN113743090A (zh) 一种关键词提取方法及装置
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
Channell et al. Automated grammatical tagging of child language samples
JP2010102521A (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2008021139A (ja) 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム
Mehta et al. Promptly Predicting Structures: The Return of Inference
WO2018025317A1 (ja) 自然言語処理装置及び自然言語処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130312

R150 Certificate of patent or registration of utility model

Ref document number: 5225219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350