JP6461832B2 - オラクル要約探索装置、方法、及びプログラム - Google Patents

オラクル要約探索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6461832B2
JP6461832B2 JP2016013437A JP2016013437A JP6461832B2 JP 6461832 B2 JP6461832 B2 JP 6461832B2 JP 2016013437 A JP2016013437 A JP 2016013437A JP 2016013437 A JP2016013437 A JP 2016013437A JP 6461832 B2 JP6461832 B2 JP 6461832B2
Authority
JP
Japan
Prior art keywords
oracle
input document
constraint
dependency structure
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016013437A
Other languages
English (en)
Other versions
JP2017134588A (ja
Inventor
平尾 努
努 平尾
正彬 西野
正彬 西野
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016013437A priority Critical patent/JP6461832B2/ja
Publication of JP2017134588A publication Critical patent/JP2017134588A/ja
Application granted granted Critical
Publication of JP6461832B2 publication Critical patent/JP6461832B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、オラクル要約探索装置、方法、及びプログラムに係り、特に、要約候補からオラクル要約を探索するためのオラクル要約探索装置、方法、及びプログラムに関する。
要約の品質を評価手法として、人間が生成した要約(以降、参照要約と記載する)とシステム要約との間で共通するNグラム(以降、NグラムとはN個の連続した単語列をさす)数に着目した評価法であるRougeスコア(非特許文献1参照)が広く用いられる。
Rを参照要約、Sをシステム要約、Gを参照要約に出現するNグラム集合とする。
C(g ,R),C(g ,S)をそれぞれG中のj番目のNグラムg の参照要約R、及びシステム要約Sの各々における頻度とすると、RとSとの間のRougeスコアは、以下の(1)式で定義される。
単語抽出のオラクル要約とは、ある長さの制約(要約長の制約)のもと上記(1)式を最大化するように文の文法性を損なうことなく文書から単語を抽出することで生成した要約である。
一方、ある長さ制約のもと上記(1)式を最大化するように文を抽出することで生成した要約である文抽出のオラクル要約に関しては非特許文献2にて解法が提案されている。
Lin Chin-Yew. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Proc. of Workshop on Text Summarization Branches Out, pages 7481. 平尾努,西野正彬,鈴木潤,永田昌明, "オラクル要約の列挙", 第20回言語処理学会年次大会, pp.650-653(2014)
しかし、単語抽出のオラクル要約を求める問題はNP困難であり、これまでに解を求める手法は提案されていない。
また、非特許文献2において、文抽出と単語抽出では文書から抜き出す単位が異なるため、文抽出オラクルを単語抽出による要約システムのエラー分析やパラメタチューニング用の訓練データに用いることは適切でない。
近年、自動要約の研究分野では文抽出による要約生成から単語抽出による要約生成へとパラダイムが変化しつつある。他の自然言語処理分野と同様、自動要約の研究分野でもシステムのパラメタのチューニングにはいわゆる訓練データが欠かせない。たとえば、要約システムのパラメタチューニングにおいては現在のパラメタで出力したシステム要約とオラクル要約との間のRougeスコアの差を損失スコアして用いる。しかし、システムが単語抽出であるにもかかわらず、文抽出のオラクル要約を用いて計算した損失スコアが適切であるとは言いがたい。さらに、単語抽出型のシステムのエラー分析に文抽出のオラクル要約を利用することも適切とは言いがたい。
本発明は、上記問題点を解決するために成されたものであり、文の文法性を損なうことなく、文に含まれる単語又は文節を抽出することにより生成したオラクル要約を探索することができるオラクル要約探索装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るオラクル要約探索装置は、入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの単語を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置であって、前記入力文書の単語間の依存構造を解析する依存構造解析部と、前記入力文書及び前記参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成する目的関数生成部と、前記依存構造解析部によって解析された前記単語間の依存構造に基づいて、前記要約候補に含まれる単語間の制約を生成する制約生成部と、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するオラクル要約探索部と、を含んで構成されている。
第2の発明に係るオラクル要約探索装置は、入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの文節を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置であって、前記入力文書の文節間の依存構造を解析する依存構造解析部と、前記入力文書及び前記参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成する目的関数生成部と、前記依存構造解析部によって解析された前記文節間の依存構造に基づいて、前記要約候補に含まれる文節間の制約を生成する制約生成部と、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するオラクル要約探索部と、を含んで構成されている。
また、第1及び第2の発明に係るオラクル要約探索装置において、前記オラクル要約探索部は、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である要約候補を探索する問題を、整数計画問題として解くことにより、前記オラクル要約を探索するようにしてもよい。
また、第1の発明に係るオラクル要約探索装置において、前記制約生成部は、前記要約候補に含まれる単語間の制約として、前記要約候補に含まれる単語の、前記依存構造解析部によって解析された前記単語間の依存構造を表す依存構造木における親の単語が含まれる制約を生成し、前記入力文書及び前記参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、前記Nグラムg の前記要約候補における頻度が、前記入力文書における前記Nグラムg の頻度以下となる制約を生成し、前記要約候補に含まれる前記入力文書のu番目のNグラムに対応する、前記入力文書の各単語を、前記要約候補に含める制約を生成し、前記要約候補が、前記要約長以下となる制約を生成するようにしてもよい。
また、第2の発明に係るオラクル要約探索装置において、前記制約生成部は、前記要約候補に含まれる文節間の制約として、前記要約候補に含まれる文節の、前記依存構造解析部によって解析された前記文節間の依存構造を表す依存構造木における親の文節が含まれる制約を生成し、前記入力文書及び前記参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、前記Nグラムg の前記要約候補における頻度が、前記入力文書における前記Nグラムg の頻度以下となる制約を生成し、前記要約候補に含まれる前記入力文書のu番目のNグラムに対応する、前記入力文書の各文節を、前記要約候補に含める制約を生成し、前記要約候補が、前記要約長以下となる制約を生成するようにしてもよい。
第3の発明に係るオラクル要約探索方法は、入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの単語を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置におけるオラクル要約探索方法であって、依存構造解析部が、前記入力文書の単語間の依存構造を解析するステップと、目的関数生成部が、前記入力文書及び前記参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成するステップと、制約生成部が、前記依存構造解析部によって解析された前記単語間の依存構造に基づいて、前記要約候補に含まれる単語間の制約を生成するステップと、オラクル要約探索部が、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するステップと、を含んで実行することを特徴とする。
第4の発明に係るオラクル要約探索方法は、入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの文節を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置におけるオラクル要約探索方法であって、依存構造解析部が、前記入力文書の文節間の依存構造を解析するステップと、目的関数生成部が、前記入力文書及び前記参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成するステップと、制約生成部が、前記依存構造解析部によって解析された前記文節間の依存構造に基づいて、前記要約候補に含まれる文節間の制約を生成するステップと、オラクル要約探索部が、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、上記第1又は第2のオラクル要約探索装置の各部として機能させるためのプログラムである。
本発明のオラクル要約探索装置、方法、及びプログラムによれば、文の文法性を損なうことなく、文に含まれる単語又は文節を抽出することにより生成したオラクル要約を探索することができる、という効果が得られる。
本発明の第1の実施の形態に係るオラクル要約探索装置の構成を示すブロック図である。 本発明の第1の実施の形態に係るオラクル要約探索装置におけるオラクル要約探索処理ルーチンを示すフローチャートである。 文分割、及び単語分割された入力文書の一例を示す図である。 入力文書の文書中の文に対する依存構造木の一例を示す図である。 文分割、及び単語分割された参照要約の一例を示す図である。 オラクル要約の一例を示す図である。 本発明の第2の実施の形態に係るオラクル要約探索装置の構成を示すブロック図である。 本発明の第2の実施の形態に係るオラクル要約探索装置におけるオラクル要約探索処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明の第1の実施の形態は、参照要約とその元となった文書又は文書群が与えられた時、文書から文の文法性を損なうことなく単語を抽出することで要約を生成する手法に基づき、要約の品質を評価する関数であるRougeを最大化する単語抽出要約(単語抽出のオラクル要約)を探索する技術に関する。また、第2の実施の形態は文節抽出要約(文節抽出のオラクル要約)を探索する技術に関する。本実施の形態の技術は、たとえば、自動要約システムのパラメタチューニング用訓練データや自動要約システムのエラー分析などに用いられる。
<本発明の第1の実施の形態に係るオラクル要約探索装置の構成>
まず、本発明の第1の実施の形態に係るオラクル要約探索装置の構成について説明する。
本発明の第1の実施の形態に係るオラクル要約探索装置は、以下に説明する構成により、入力文書について人間が予め生成した参照要約と、入力文書とに基づいて、入力文書から少なくとも1つの単語を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置である。
図1に示すように、本発明の第1の実施の形態に係るオラクル要約探索装置100は、CPUと、RAMと、後述するオラクル要約探索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このオラクル要約探索装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、入力文書と、入力文書について人間が予め生成した参照要約とを受け付ける。なお、入力文書群と、入力文書群のそれぞれの入力文書について予め生成された参照要約群を受け付けるようにしてもよい。
演算部20は、文分割部30と、単語分割部32と、Nグラム抽出部34と、依存構造解析部36と、解探索部38とを含んで構成されている。
文分割部30は、入力文書と参照要約との各々を文に分割する。既存の文分割器を利用すればよい。英語の場合にはピリオド、日本語の場合には句点を手がかりとするだけでもよい。
単語分割部32は、文分割部30で分割された、入力文書と参照要約との各々の文を入力として受け取り、文の各々を単語へと分割する。英語の場合にはスペース区切りで単語へ分割、日本語の場合には既存のわかち書きツールを利用すればよい。
Nグラム抽出部34は、単語分割部32で単語に分割された文を受け取り、各文から文を超えない範囲で、N個の連続する単語であるNグラムを抽出する。
依存構造解析部36は、単語分割部32で単語に分割された入力文書を受け取り、入力文書の各文の単語間の依存構造を解析する。ここで、依存構造解析には既存の解析器を用いて、わかち書きされた文を受け取り単語間の依存構造を反映した木を生成する。なお、依存構造解析部36によって、入力文書中の単語には先頭から末尾かけてインデックスが割りあてられているものとする。また、入力文書中のNグラムに対しても同様にインデックスが割りあてられているものとする。
解探索部38は、目的関数生成部40と、制約生成部42と、オラクル要約探索部44とを含んで構成されている。
解探索部38は、まず、目的関数生成部40において、Nグラム抽出部34で抽出した、入力文書及び参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、要約候補の評価スコアを表す目的関数を生成する。次に、依存構造解析部36によって解析された単語間の依存構造に基づいて、要約候補に含まれる単語間の制約を生成する。そして、オラクル要約探索部44において、制約生成部42によって生成された制約を満たし、かつ、目的関数生成部40によって生成された目的関数の値を最大化する、要約長以下である要約候補を探索する問題を、整数計画問題として解くことにより、オラクル要約を探索する。
目的関数生成部40と、制約生成部42と、オラクル要約探索部44とは、具体的には以下に説明する処理を行う。
まず、目的関数生成部40における目的関数の生成処理を説明する。
入力文書と参照要約とに共通するNグラムの集合を
とし、ZをNグラムg の要約候補における頻度とする。上記(1)式より、分母は参照要約のNグラム数であるので、Rが与えられた時点で決定する定数であることに注意すると、Rougeを最大化するためには分子を最大化すればよいことがわかる。よって、目的関数を以下(2)式に従って生成する。
ただし、Zはゼロ以上の整数である。
次に、制約生成部42の制約生成処理について説明する。制約生成部42は、次の第1〜第4の制約を生成する。
まず、上記(1)式の分子を最大化するには、(1)式より、Nグラムg の参照要約における頻度、又は要約候補における頻度のどちらか小さい方の値の和を最大化しなければならない。
そこで、制約生成部42は、第1の制約として、依存構造解析部36で解析された単語間の依存構造に基づいて、入力文書及び参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、Nグラムg の要約候補における頻度が、入力文書におけるNグラムg の頻度以下となる制約を表す、以下の(3)式に示す制約条件を生成する。
ただし、入力文書中でj番目のNグラムg が出現する文番号とg の位置をあらわすインデックスのタプル集合を
とする。そして、i番目の文のv番目のNグラムを要約候補に含めるか否かをあらわす0又は1の変数をmi,vとする。上記(3)式の制約条件により、要約候補のNグラムg の頻度は参照要約における頻度C(g ,R)以下となり、また、文集合全体でとることのできる最大頻度は
以下となる。
上記制約条件はNグラムに関するものであるが、要約は単語の抽出により生成するため、単語とNグラムの関係を制約として記述しなければならない。また、i番目の文のv番目のNグラムをオラクル要約に選択する場合には、そのNグラムに含まれるすべての単語もオラクル要約に含めなければならない。
そこで、制約生成部42は、第2の制約として、要約候補に含まれる入力文書のu番目のNグラムに対応する、入力文書の各単語を、要約候補に含める制約を表す、以下(4)式に示す制約条件を生成する。
ここで、ti,uは、i番目文のu番目の単語を要約に含めるか否かをあらわす0又は1値変数であり、left(i,v)は、i番目の文のv番目のNグラムの左端の単語インデックスを返し、right(i,v)は右端の単語インデックスを返す関数である。
このままでは、単語を要約候補に含めるか否かを他の単語とは無関係に決定できるため、抽出した単語列が文法に適合するとは限らない。
そこで、制約生成部42は、依存構造解析部36で解析された単語間の依存構造に基づいて、第3の制約として、要約候補に含まれる単語の、依存構造解析部36によって解析された単語間の依存構造を表す依存構造木における親の単語が含まれる制約を表す以下(5)式に示す制約条件を生成し、要約候補に含まれる単語間に依存関係が成立するようにする。
ただし、parent(i)は、i番目の文のu番目の単語の依存構造木における親の単語のインデックスをあらわす。i番目の文のu番目の単語が依存構造木のルートである場合には上記制約は考慮しない。
さらに、制約生成部42は、依存構造解析部36で解析された単語間の依存構造に基づいて、第4の制約として、要約候補が、要約長以下となる制約を表す以下(6)式に示す制約条件を生成する。一般的に長さの制約は参照要約の単語数Lに設定する。
E(i)は、i番目の文の最終単語の単語インデックス、li,uはi番目の文のu番目の単語の長さを表す。要約長を単語数で与える場合にはli,uは常に1となり、文字数やバイト数で与える場合にはそれぞれの単位で与える。
なお、制約生成部42において、本実施の形態の拡張として、抽出する単語の数をある数K以上にしたい場合、以下(7)〜(9)式の制約条件を更に生成すればよい。
i,1、ai,2は0又は1の変数であり、(7)式は、ai,1=1のとき、i番目の文から抽出する単語数がK以上であることを保証する制約である。(8)式は、ai,2=1のとき、i番目の文からは単語を抽出しないことを保証する制約である。(9)式は、ai,1,ai,2のどちらか一方が必ず1をとることで、i番目の文から単語を抽出する際その数がK以上であることを保証する制約である。
次に、オラクル要約探索部44におけるオラクル要約の探索処理を説明する。
上記(2)式の目的関数と上記(3)〜(6)式の制約条件とをまとめると、以下の(10)式に示す整数計画問題となる。
上記(3)〜(6)式により生成した制約条件を満たし、かつ、上記(2)式により求めた目的関数の値を最大化する、要約候補のNグラムg の頻度の集合Z、i番目の文のv番目のNグラムを要約候補に含めるか否かを表す変数の集合m、i番目の文のu番目の単語を要約候補に含めるか否かを表す変数の集合tを、整数計画ソルバを用いて求める。整数計画ソルバは既存技術を利用する。Zより、目的関数スコアが決定され、要約候補であるオラクル要約のRougeスコアが決定される。変数の集合tより、オラクル要約そのものが決定される。
<本発明の第1の実施の形態に係るオラクル要約探索装置の作用>
次に、本発明の第1の実施の形態に係るオラクル要約探索装置100の作用について説明する。入力部10において入力文書と、入力文書について予め生成された参照要約を受け付けると、オラクル要約探索装置100は、図2に示すオラクル要約探索処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた入力文書と参照要約との各々を文に分割する。
次に、ステップS102では、ステップS100で分割された、入力文書、及び参照要約の文の各々を、単語へと分割する。
ステップS104では、ステップS102で単語に分割された入力文書及び参照要約の各々について、各文から文を超えない範囲で、N個の連続する単語であるNグラムを抽出する。
ステップS106では、ステップS102で単語に分割された入力文書について、入力文書の各文の単語間の依存構造を解析し、依存構造を反映した木を生成する。
ステップS108では、ステップS104で抽出した、入力文書及び参照要約に共通する、N個の連続する単語であるNグラムの集合Gに基づいて、上記(2)式に従って、要約候補の評価スコアを表す目的関数を生成する。
ステップS110では、上記(3)式に従って、入力文書及び参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、Nグラムg の要約候補における頻度が、入力文書におけるNグラムg の頻度以下となる制約を生成する。
ステップS112では、上記(4)式に従って、要約候補に含まれる入力文書のu番目のNグラムに対応する、入力文書の各単語を、要約候補に含める制約を生成する。
ステップS114では、ステップS106で解析された単語間の依存構造に基づいて、上記(5)式に従って、要約候補に含まれる単語の、依存構造解析部36によって解析された単語間の依存構造を表す依存構造木における親の単語が含まれる制約を生成する。
ステップS116では、上記(6)式に従って、要約候補が、要約長以下となる制約を生成する。
ステップS118では、ステップS110〜S116によって生成された制約を満たし、かつ、ステップS108によって生成された目的関数の値を最大化する要約候補を探索する問題を、整数計画問題として解くことにより、オラクル要約を探索する。
ステップS120では、ステップS118で探索されたオラクル要約を出力部50に出力し、処理を終了する。
<第1の実施の形態に係る具体的な実験例>
第1の実施の形態に係る実験結果を説明する。文分割、及び単語分割された入力文書(図3)、入力文書の文書中の文に対する依存構造木(図4)、文分割、及び単語分割された参照要約(図5)が与えられたとする。いま、Nグラムの長さを2とする(バイグラム) と、入力文書と参照要約に共通して出現するバイグラム集合はG={aa,ab,bb,bc}となる。よって、目的関数生成部40によって生成される目的関数は次式となる。
また、図3より、単語と単語のインデックスとの関係は以下の表1のとおりとなる。
バイグラムとバイグラムのインデックスとの関係は以下の表2のとおりとなる。
次に制約生成部42によって生成される制約を説明する。上記バイグラム「aa」の参照要約における頻度は2、入力文書での出現位置(バイグラムインデックス)は(2,1)、「ab」の参照要約における頻度は1、入力文書での出現位置は(1,1)と(1,4)、「bb」の参照要約における頻度は1、入力文書での出現位置は(2,4)と(3,2)、「bc」の参照要約における頻度は1、入力文書での出現位置は(1,2)と(2,5)であることから、上記(3)式に従って、以下の制約条件を生成する。
さらに、上記(4)式に従って単語とバイグラムに関する以下の制約条件を生成する。
また、図4より上記(5)式に従って単語間の依存関係に関する以下の制約条件を生成する。
さらに、参照要約の単語数が8単語であることから、上記(6)式に従って以下の制約条件を生成する。
以上の制約を満たすように、上記(11)式に従って生成した目的関数の値を整数計画ソルバを用いて求めると、Z=1、Z=1、Z=1となり、図6に示すように単語はt1,4、t1,5、t2,1、t2,2、t2,4、t2,5、t2,6がオラクル要約として選択される。なお、オラクル要約のRougeスコアは、参照要約のバイグラム数が6であることから、3/6となる。
以上説明したように、第1の実施の形態に係るオラクル要約探索装置によれば、入力文書の単語間の依存構造を解析し、入力文書及び参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、要約候補の評価スコアを表す目的関数を生成し、単語間の依存構造に基づいて、要約候補に含まれる単語間の制約を生成し、生成された制約を満たし、かつ、目的関数の値を最大化する、要約長以下である要約候補を、オラクル要約として探索することにより、文の文法性を損なうことなく、文に含まれる単語を抽出することにより生成したオラクル要約を探索することができる。
<本発明の第2の実施の形態に係るオラクル要約探索装置の構成>
次に、本発明の第2の実施の形態に係るオラクル要約探索装置の構成について説明する。文節を選択してオラクル要約を探索する点が第1の実施の形態と異なっている。日本語の場合、単語間ではなく文節間に依存関係を定義する場合もあり、文節抽出によるオラクル要約を求めるための整数計画問題を示す必要がある。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
図7に示すように、本発明の第2の実施の形態に係るオラクル要約探索装置200は、CPUと、RAMと、後述するオラクル要約探索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このオラクル要約探索装置200は、機能的には図7に示すように入力部10と、演算部220と、出力部50とを備えている。
演算部220は、文分割部30と、文節分割部232と、Nグラム抽出部234と、依存構造解析部236と、解探索部238とを含んで構成されている。
文節分割部232は、文分割部30で分割された、入力文書と参照要約との各々の文を入力として受け取り、文の各々を文節へと分割する。
Nグラム抽出部234は、文節分割部232で文節に分割された文を受け取り、各文から文を超えない範囲で、N個の連続する文節であるNグラムを抽出する。
依存構造解析部236は、文節分割部232で文節に分割された入力文書を受け取り、入力文書の各文の文節間の依存構造を解析する。
解探索部238は、目的関数生成部240と、制約生成部242と、オラクル要約探索部244とを含んで構成されている。
解探索部238は、まず、目的関数生成部40において、Nグラム抽出部34で抽出した、入力文書及び参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、要約候補の評価スコアを表す目的関数を生成する。次に、依存構造解析部236によって解析された文節間の依存構造に基づいて、要約候補に含まれる文節間の制約を生成する。そして、オラクル要約探索部44において、制約生成部42によって生成された制約を満たし、かつ、目的関数生成部40によって生成された目的関数の値を最大化する、要約長以下である要約候補を探索する問題を、整数計画問題として解くことにより、オラクル要約を探索する。
目的関数生成部240は、第1の実施の形態と同様の処理により、目的関数を上記(2)式に従って生成する。
制約生成部242と、オラクル要約探索部244とは、具体的には以下に説明する処理を行う。
制約生成部242は、第1の実施の形態と同様に、第1〜第4の制約を生成する。ここでは第1の実施の形態と異なる箇所についてのみ述べる。
次に、制約生成部242は、第2の制約として、上記(4)式と同様に、要約候補に含まれる入力文書のu番目のNグラムに対応する、入力文書の各文節を、要約候補に含める制約を表す制約条件を生成する。ここで、上記(4)式におけるti,uをbi,uに置き換える。bi,uは入力文書中のi番目の文のu番目の文節を要約候補に選択するか否かをあらわす2値変数である。第3、第4の制約についても同様にti,uをbi,uに置き換える。
次に、制約生成部242は、依存構造解析部236で解析された文節間の依存構造に基づいて、上記(5)式と同様に、第3の制約として、要約候補に含まれる文節の、依存構造解析部236によって解析された文節間の依存構造を表す依存構造木における親の文節が含まれる制約を表す制約条件を生成し、要約候補に含まれる文節間に依存関係が成立するようにする。
次に、オラクル要約探索部44におけるオラクル要約の探索処理を説明する。
第2の実施の形態において、上記(2)式の目的関数と上記第1の制約〜第4の制約を示す制約条件とをまとめると、以下の(12)式に示す整数計画問題となる。
ここで、li,uはi番目の文のu番目の文節の単語数である。第1の実施の形態の上記(10)式との違いは単語ではなく文節を選択して要約を生成することから長さ制約がbを用いて表されていること(制約1行目)、文節間の依存関係がbの間に定義されること(制約2行目)、NグラムインデックスとNグラムg が出現する文節インデックスの間の関係(制約5行目)が制約となっていることである。B_left(i,v)は、i番目の文のv番目のNグラムの左端の単語を含む文節のインデックス、B_right(i,v)は、i番目の文のv番目のNグラムの右端の単語を含む文節のインデックスを返す。よって、i番目の文のv番目のNグラムをオラクル要約に選択する際、そのNグラムが出現するすべての文節を選択しなければならないことを示す。
<本発明の実施の形態に係るオラクル要約探索装置の作用>
次に、本発明の第2の実施の形態に係るオラクル要約探索装置200の作用について説明する。なお、第1の実施の形態と同様の作用となる箇所については、同一符号を付して説明を省略する。
入力部10において入力文書と、入力文書について予め生成された参照要約を受け付けると、オラクル要約探索装置200は、図8に示すオラクル要約探索処理ルーチンを実行する。
ステップS202では、ステップS100で分割された、入力文書、及び参照要約の文の各々を、文節へと分割する。
ステップS204では、ステップS202で文節に分割された入力文書及び参照要約の各々について、各文から文を超えない範囲で、N個の連続する単語であるNグラムを抽出する。
ステップS206では、ステップS202で文節に分割された入力文書について、入力文書の各文の文節間の依存構造を解析し、依存構造を反映した木を生成する。
ステップS208では、ステップS204で抽出した、入力文書及び参照要約に共通する、N個の連続する単語であるNグラムの集合Gに基づいて、上記(2)式に従って、要約候補の評価スコアを表す目的関数を生成する。
ステップS210では、上記(3)式に従って、入力文書及び参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、Nグラムg の要約候補における頻度が、入力文書におけるNグラムg の頻度以下となる制約を生成する。
ステップS212では、上記(4)式に従って、要約候補に含まれる入力文書のu番目のNグラムに対応する、入力文書の各文節を、要約候補に含める制約を生成する。
ステップS214では、ステップS206で解析された文節間の依存構造に基づいて、上記(5)式に従って、要約候補に含まれる文節の、依存構造解析部236によって解析された文節間の依存構造を表す依存構造木における親の文節が含まれる制約を生成する。
ステップS216では、上記(6)式に従って、要約候補が、要約長以下となる制約を生成する。
ステップS218では、ステップS210〜S216によって生成された制約を満たし、かつ、ステップS208によって生成された目的関数の値を最大化する要約候補を探索する問題を、整数計画問題として解くことにより、オラクル要約を探索する。
ステップS220では、ステップS218で探索されたオラクル要約を出力部50に出力し、処理を終了する。
以上説明したように、第2の実施の形態に係るオラクル要約探索装置によれば、入力文書の文節間の依存構造を解析し、入力文書及び参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、要約候補の評価スコアを表す目的関数を生成し、文節間の依存構造に基づいて、要約候補に含まれる文節間の制約を生成し、生成された制約を満たし、かつ、目的関数の値を最大化する、要約長以下である要約候補を、オラクル要約として探索することにより、文の文法性を損なうことなく、文に含まれる文節を抽出することにより生成したオラクル要約を探索することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、文分割部と、単語分割部又は文節分割部との各部の処理を行う場合を例に説明したが、予め入力文書、及び参照要約を文を分割し、更に単語又は文節に分割したものを入力部10で受け付けるようにしてもよい。この場合には、文分割部と、単語分割部又は文節分割部とを省略することができる。
10 入力部
20、220 演算部
30 文分割部
32 単語分割部
34、234 Nグラム抽出部
36、236 依存構造解析部
38、238 解探索部
40、240 目的関数生成部
42、242 制約生成部
44、244 オラクル要約探索部
50 出力部
100、200 オラクル要約探索装置
232 文節分割部

Claims (8)

  1. 入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの単語を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置であって、
    前記入力文書の単語間の依存構造を解析する依存構造解析部と、
    前記入力文書及び前記参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成する目的関数生成部と、
    前記依存構造解析部によって解析された前記単語間の依存構造に基づいて、前記要約候補に含まれる単語間の制約を生成する制約生成部と、
    前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するオラクル要約探索部と、
    を含むオラクル要約探索装置。
  2. 入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの文節を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置であって、
    前記入力文書の文節間の依存構造を解析する依存構造解析部と、
    前記入力文書及び前記参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成する目的関数生成部と、
    前記依存構造解析部によって解析された前記文節間の依存構造に基づいて、前記要約候補に含まれる文節間の制約を生成する制約生成部と、
    前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するオラクル要約探索部と、
    を含むオラクル要約探索装置。
  3. 前記オラクル要約探索部は、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である要約候補を探索する問題を、整数計画問題として解くことにより、前記オラクル要約を探索する請求項1又は2記載のオラクル要約探索装置。
  4. 前記制約生成部は、前記要約候補に含まれる単語間の制約として、前記要約候補に含まれる単語の、前記依存構造解析部によって解析された前記単語間の依存構造を表す依存構造木における親の単語が含まれる制約を生成し、
    前記入力文書及び前記参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、前記Nグラムg の前記要約候補における頻度が、前記入力文書における前記Nグラムg の頻度以下となる制約を生成し、
    前記要約候補に含まれる前記入力文書のu番目のNグラムに対応する、前記入力文書の各単語を、前記要約候補に含める制約を生成し、
    前記要約候補が、前記要約長以下となる制約を生成する請求項1に記載のオラクル要約探索装置。
  5. 前記制約生成部は、前記要約候補に含まれる文節間の制約として、前記要約候補に含まれる文節の、前記依存構造解析部によって解析された前記文節間の依存構造を表す依存構造木における親の文節が含まれる制約を生成し、
    前記入力文書及び前記参照要約に共通するNグラムの集合に含まれるNグラムg の各々について、前記Nグラムg の前記要約候補における頻度が、前記入力文書における前記Nグラムg の頻度以下となる制約を生成し、
    前記要約候補に含まれる前記入力文書のu番目のNグラムに対応する、前記入力文書の各文節を、前記要約候補に含める制約を生成し、
    前記要約候補が、前記要約長以下となる制約を生成する請求項2に記載のオラクル要約探索装置。
  6. 入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの単語を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置におけるオラクル要約探索方法であって、
    依存構造解析部が、前記入力文書の単語間の依存構造を解析するステップと、
    目的関数生成部が、前記入力文書及び前記参照要約に共通する、N個の連続する単語であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成するステップと、
    制約生成部が、前記依存構造解析部によって解析された前記単語間の依存構造に基づいて、前記要約候補に含まれる単語間の制約を生成するステップと、
    オラクル要約探索部が、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するステップと、
    を含むオラクル要約探索方法。
  7. 入力文書について予め生成された参照要約と、前記入力文書とに基づいて、前記入力文書から少なくとも1つの文節を選択して生成される、予め定められた要約長以下であって、評価スコアが最高値となる要約候補であるオラクル要約を探索するオラクル要約探索装置におけるオラクル要約探索方法であって、
    依存構造解析部が、前記入力文書の文節間の依存構造を解析するステップと、
    目的関数生成部が、前記入力文書及び前記参照要約に共通する、N個の連続する文節であるNグラムの集合に基づいて、前記要約候補の前記評価スコアを表す目的関数を生成するステップと、
    制約生成部が、前記依存構造解析部によって解析された前記文節間の依存構造に基づいて、前記要約候補に含まれる文節間の制約を生成するステップと、
    オラクル要約探索部が、前記制約生成部によって生成された制約を満たし、かつ、前記目的関数生成部によって生成された前記目的関数の値を最大化する、前記要約長以下である前記要約候補を、前記オラクル要約として探索するステップと、
    を含むオラクル要約探索方法。
  8. コンピュータを、請求項1〜請求項5のいずれか1項に記載のオラクル要約探索装置の各部として機能させるためのプログラム。
JP2016013437A 2016-01-27 2016-01-27 オラクル要約探索装置、方法、及びプログラム Active JP6461832B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016013437A JP6461832B2 (ja) 2016-01-27 2016-01-27 オラクル要約探索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016013437A JP6461832B2 (ja) 2016-01-27 2016-01-27 オラクル要約探索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017134588A JP2017134588A (ja) 2017-08-03
JP6461832B2 true JP6461832B2 (ja) 2019-01-30

Family

ID=59504878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016013437A Active JP6461832B2 (ja) 2016-01-27 2016-01-27 オラクル要約探索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6461832B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6958417B2 (ja) * 2018-02-20 2021-11-02 日本電信電話株式会社 文書要約装置、方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3682529B2 (ja) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
US7725442B2 (en) * 2007-02-06 2010-05-25 Microsoft Corporation Automatic evaluation of summaries
JP5964791B2 (ja) * 2013-08-28 2016-08-03 日本電信電話株式会社 オラクル要約探索装置、方法、及びプログラム
JP6021079B2 (ja) * 2014-03-07 2016-11-02 日本電信電話株式会社 文書要約装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2017134588A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
Mori et al. A machine learning approach to recipe text processing
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP2005352888A (ja) 表記揺れ対応辞書作成システム
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
JP2015088064A (ja) テキスト要約装置、方法、及びプログラム
Pande et al. Application of natural language processing tools in stemming
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Indhuja et al. Text based language identification system for indian languages following devanagiri script
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP6461832B2 (ja) オラクル要約探索装置、方法、及びプログラム
JP4005343B2 (ja) 情報検索システム
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
KR101092363B1 (ko) 중한자동번역을 위한 한국어 연결어미 생성 방법 및 그 장치
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Kaur et al. A rule-based stemmer for Punjabi adjectives
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
JP5800206B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
WO2019163643A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
JP3919720B2 (ja) 換言装置及びコンピュータプログラム
Abainia et al. Topic Identification of Noisy Arabic Texts Using Graph Approaches

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181226

R150 Certificate of patent or registration of utility model

Ref document number: 6461832

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150