JP6726638B2

JP6726638B2 - 含意認識装置、方法、及びプログラム

Info

Publication number: JP6726638B2
Application number: JP2017094854A
Authority: JP
Inventors: 克人別所; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2020-07-22
Anticipated expiration: 2037-05-11
Also published as: JP2018190339A

Description

本発明は、２つのテキストｔ１、ｔ２の間の含意関係を認識する含意認識装置、方法、及びプログラムに関する。

２つのテキストｔ１，ｔ２が与えられたとき、「ｔ１ならばｔ２」が成り立つかどうかを判定する含意認識技術として、非特許文献1の手法がある。非特許文献１の手法では、集合Ｅを例えば単語集合としたとき、ｔ１とｔ２において、集合Ｅの要素がいくつ共通して現れるかを、次式によって定義する。

ここで、ｆ（ｘ，ｔ）は、集合Ｅの要素ｘが、ｔ中に出現する回数を表す。この式を用いて、「ｔ１ならばｔ２」の含意関係の度合いを表す類似度を以下の式で算出する。

服部昇平, 佐藤理史, 駒谷知範,"表層類似度に基づく日本語テキスト含意認識,"人工知能学会論文誌, Vol.29, No.4, pp.416-426, 2014.

上記従来手法では、以下に述べる課題がある。

ｔ２，ｔ１に出現するＥ中の２つの要素ｊｕ，ｊｖに対し、以下のａ），ｂ），ｃ），ｄ）のいずれかが成り立つ。ここで、部分文とは、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる文のことである。あるいは、そのような部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる文のことである。

ａ）要素ｊｕ，ｊｖが、ｔ２において同一部分文にあり、ｔ１において同一部分文にある。
ｂ）要素ｊｕ，ｊｖが、ｔ２において同一部分文にあり、ｔ１において同一部分文にない。
ｃ）要素ｊｕ，ｊｖが、ｔ２において同一部分文になく、ｔ１において同一部分文にある。
ｄ）要素ｊｕ，ｊｖが、ｔ２において同一部分文になく、ｔ１において同一部分文にない。

ａ）の例として、ｔ２：「雀は水田を荒らす。」、ｔ１：「毎年、雀は水田を荒らす。」としたとき、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ２において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ１において、「荒らす。」を起点とする部分文「毎年、雀は水田を荒らす。」にあり、同一部分文にある。また、「ｔ１ならばｔ２」の含意関係が成り立つ。

ｂ）の例として、ｔ２：「雀は水田を荒らす。」、ｔ１：「雀を駆除することが水田を荒らす。」としたとき、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ２において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、ｊｕ：「雀」は、ｔ１において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、ｊｖ：「水田」は、ｔ１において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ１において同一部分文にない。また、「ｔ１ならばｔ２」の含意関係が成り立たない。

ｃ）の例として、ｔ２：「雀を駆除することが水田を荒らす。」、ｔ１：「雀は水田を荒らす。」としたとき、ｊｕ：「雀」は、ｔ２において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、ｊｖ:「水田」は、ｔ２において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ｊｕ:「雀」、ｊｖ:「水田」は、ｔ２において同一部分文にない。また、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ１において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、「ｔ１ならばｔ２」の含意関係が成り立たない。

ｄ）の例として、ｔ２：「定期的に雀を駆除することが水田を荒らす。」、ｔ１：「雀を駆除することが水田を荒らす。」としたとき、ｊｕ：「雀」は、ｔ２において、「駆除する」を起点とする部分文「定期的に雀を駆除することが」にあり、ｊｖ：「水田」は、ｔ２において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ２において同一部分文にない。また、ｊｕ：「雀」は、ｔ１において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、ｊｖ：「水田」は、ｔ１において、「荒らす」を起点とする部分文「ことが水田を荒らす。」にあり、ｊｕ：「雀」、ｊｖ：「水田」は、ｔ１において同一部分文にない。また、「ｔ１ならばｔ２」の含意関係が成り立つ。

ｔ２、ｔ１に出現するＥ中の２つの要素ｊｕ、ｊｖが常にａ）またはｄ）を満たす場合、「ｔ１ならばｔ２」の含意関係が成り立つ可能性は高くなる。逆に、あるｊｕ，ｊｖが、ａ）もｄ）も満たさず、ｂ）またはｃ）に該当する場合、「ｔ１ならばｔ２」の含意関係が成り立つ可能性は低くなる。このように、ｔ２，ｔ１に出現するＥ中の２つの要素ｊｕ，ｊｖがａ），ｂ），ｃ），ｄ）のいずれであるかによって、含意関係のある程度の予測ができる。

しかしながら、上記従来手法では、類似度算出式におけるｊｕ，ｊｖに関する値に全く変化がないため、ｊｕ，ｊｖがａ），ｂ），ｃ），ｄ）のいずれに該当しているかの情報を、含意関係の認識に全く活用できていないという課題があった。

本発明の目的は、Ｅ中の２つの要素ｊｕ，ｊｖが、対象とする各テキストにおいて、同一部分文にあるか否かの情報を含意関係の認識に活用することにより、この課題を解決し、含意認識の精度を向上させる含意認識装置、方法、及びプログラムを提供することにある。

上記課題を解決するため、第１の発明に係る含意認識装置は、２つのテキストｔ１，ｔ２の間の含意関係を認識する含意認識装置であって、ｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出する部分文抽出手段と、ｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出する類義自立部抽出手段と、ｔ２中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するアライメント選択手段と、選択したアライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するアライメント類似度算出手段と、選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するアライメント類似度補正手段と、各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出するテキスト間類似度算出手段と、を含んで構成されている。

第２の発明に係る含意認識装置は、テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１,ｔ２が含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを入力とし、処理対象とするテキストｔ１，ｔ２の組を選択するテキストｔ１，ｔ２の組選択手段と、選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する正解アライメント類似度算出手段と、該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する正解アライメント類似度補正手段と、各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する重回帰分析手段と、を含んで構成されている。

また、第３の発明に係る含意認識方法は、部分文抽出手段と、類義自立部抽出手段と、アライメント選択手段と、アライメント類似度算出手段と、アライメント類似度補正手段と、テキスト間類似度算出手段とを含み、２つのテキストｔ１，ｔ２の間の含意関係を認識する含意認識装置における含意認識方法であって、前記部分文抽出手段が、ｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出するステップと、前記類義自立部抽出手段が、ｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出するステップと、前記アライメント選択手段が、ｔ２中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するステップと、前記アライメント類似度算出手段が、選択したアライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するステップと、前記アライメント類似度補正手段が、選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するステップと、前記テキスト間類似度算出手段が、各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出するステップと、を含んで構成されている。

また、第４の発明に係る含意認識方法は、テキストｔ１，ｔ２の組選択手段と、正解アライメント類似度算出手段と、正解アライメント類似度補正手段と、重回帰分析手段とを含む含意認識装置における含意認識方法であって、テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１,ｔ２が含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを入力とし、前記テキストｔ１，ｔ２の組選択手段が、処理対象とするテキストｔ１，ｔ２の組を選択するステップと、前記正解アライメント類似度算出手段が、選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出するステップと、前記正解アライメント類似度補正手段が、該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出するステップと、前記重回帰分析手段が、各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出するステップと、を含んで構成されている。

また、本発明のプログラムは、コンピュータを、本発明の含意認識装置の各手段として機能させるためのプログラムである。

第１の発明に係る含意認識装置は、入力する２つのテキストｔ１，ｔ２に対し、「ｔ１ならばｔ２」の含意関係の度合いを、ｔ１，ｔ２間の類似度として算出することによって、ｔ１，ｔ２間の含意関係を認識する含意認識装置である。

また第２の発明に係る含意認識装置は、含意認識を行う前に、含意認識で用いる類似度補正率データベース中に記述すべき最適な類似度補正率を学習データから獲得するための装置である。

本発明の含意認識装置、方法、及びプログラムは、含意認識の精度が向上するという効果がある。

本発明の第１の実施の形態に係る含意認識装置の機能的構成を示すブロック図である。テキストの係り受け解析結果の一例を示す図である。テキストｔ２中の各自立部と、該自立部に対して抽出されたテキストｔ１中の類義自立部のリストの各要素との対応関係の一例を示す図である。シソーラスの一例を示す図である。単語概念ベースの一例を示す図である。テキストｔ２中の各自立部と対応する類義自立部リストから、選択したアライメントの一例を示す図である。自立部重みデータベースの一例を示す図である。類似度補正率データベースの一例を示す図である。本発明の第１の実施の形態に係る含意認識装置の含意認識処理ルーチンを示すフローチャート図である。本発明の第２の実施の形態に係る含意認識装置の機能的構成を示すブロック図である。類似度補正率データベースの一例を示す図である。本発明の第２の実施の形態に係る含意認識装置の含意認識処理ルーチンを示すフローチャート図である。

以下、図面とともに本発明の実施の形態を説明する。

＜第１の実施の形態＞
図１は、本発明の請求項１の一例を示す含意認識装置の構成例である。図１に示すように、本発明の第１の実施の形態に係る含意認識装置１００は、ＣＰＵと、ＲＡＭと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この含意認識装置１００は、機能的には図１に示すように入力手段１０と、演算手段２０と、出力手段４０とを備えている。

入力手段１０は、２つのテキストｔ１，ｔ２を受け付ける。

演算手段２０は、部分文抽出手段２２と、類義自立部抽出手段２４と、自立部データベース２５と、アライメント選択手段２６と、アライメント類似度算出手段２８と、自立部重みデータベース２９と、アライメント類似度補正手段３０と、類似度補正率データベース３１と、テキスト間類似度算出手段３２とを含んで構成されている。

部分文抽出手段２２は、入力手段１０により受け付けた２つのテキストｔ１,ｔ２を入力として、ｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる部分文を抽出し、部分文のリストを抽出する。

図２は、対象テキスト「木造の建造物の賃貸に住む老人の数」の係り受け解析結果を示す図である。係り受け解析によって、このテキストは、６つの文節「木造の」、「建造物の」、「賃貸に」、「住む」、「老人の」、「数」に分割され、さらに、各文節内において、自立部と付属部に分割される。文節「木造の」の自立部は「木造」で、付属部は「の」である。文節「住む」の自立部は「住む」で、付属部はＮＵＬＬである。係り受け解析により、文節間の係り受け関係が導出され、「木造の」が「建造物の」に係り、「建造物の」が「賃貸に」に係り、「賃貸に」が「住む」に係り、「住む」が「老人の」に係り、「老人の」が「数」に係る。

部分文抽出手段２２では、用言文節「住む」を起点として、該用言文節「住む」と、該用言文節「住む」に係る非用言文節「賃貸に」と、非用言文節「賃貸に」に係る非用言文節「建造物の」と、非用言文節「建造物の」に係る非用言文節「木造の」と、該用言文節「住む」が係る非用言文節「老人の」とを連結して得られる部分文「木造の建造物の賃貸に住む老人の」を抽出する。この対象テキストでは、用言文節は１つだが、他にもあれば、用言文節ごとに同様にして部分文を抽出する。対象テキストから、抽出した部分文を除いた文節群の中の非用言文節「数」とそれに係る非用言文節「老人の」とを連結して得られる部分文「老人の数」を抽出する。このようにして、部分文のリスト「木造の建造物の賃貸に住む老人の」，「老人の数」を抽出する。

類義自立部抽出手段２４は、ｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出する。以下、具体的に説明する。

ｔ２中の自立部を、ｊ１，ｊ２，…，ｊｍとする。このリスト中の各ｊｉは、出現位置が異なる自立部であり、リスト中に同一文字列の自立部が複数ある場合もある。各ｊｉに対し、ｔ１中の自立部の中で、ｊｉと同義または類義の自立部である類義自立部のリストｒｉ１，ｒｉ２，…，ｒｉｎ_ｉを抽出し、ｊｉに対応付ける。このリスト中の各ｒｉｋは、出現位置が異なる自立部であり、リスト中に同一文字列の自立部が複数ある場合もある。また、ｔ２中の異なる自立部に、共通の類義自立部が対応している場合もある。ｊｉに対し、ｔ１中の自立部の中で、ｊｉと同義または類義の自立部が存在しない場合は、ｊｉに、空であることを表すＮＵＬＬを対応付ける。

図３は、ｔ２中の各自立部と、該自立部に対して抽出されたｔ１中の類義自立部のリストの各要素との対応関係を示した図である。ｔ２の自立部ｊ１に対し、ｔ１中の類義自立部リストｒ１１，ｒ１２，ｒ１３が対応し、ｔ２の自立部ｊ２に対し、ｔ１中の類義自立部リストｒ２１，ｒ２２が対応し、ｔ２の自立部ｊ３に対し、ｔ１中の類義自立部リストｒ３１，ｒ３２，ｒ３３が対応し、ｔ２の自立部ｊ４に対しＮＵＬＬが対応する。

ｔ２中の自立部ｊｉと同一文字列であるｔ１中の自立部は、ｊｉの類義自立部となる（但し、別途意味解析を行い、ｔ１中の該自立部の意味がｊｉの意味と異なった場合は、この限りではない）。ｊｉとｔ１中の該自立部との類似度を１．０とし、ｊｉとｔ１中の該自立部との対に対応付ける。

文字列として必ずしも同一でない２つの自立部が同義または類義であるか否かを例えば図４のようなシソーラスを用いて判断する。対象とする２つの自立部のシソーラス上のノードの間の距離が、ある値以下の場合に、同義または類義であると判断する。また、ノード間の距離をもとに、対象とする２つの自立部の間の類似度を算出し、対象とする２つの自立部に対応付ける。

文字列として必ずしも同一でない２つの自立部が同義または類義であるか否かを例えば、非特許文献２で挙げられている単語概念ベースを用いて判断する。単語概念ベースは、単語と該単語の概念を表す単語概念ベクトルとの対のリストである。図５は単語概念ベースの例を示す図である。各単語の単語概念ベクトルはｄ次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。

［非特許文献2］別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.

各自立部の概念ベクトルを、該自立部を構成する単語の単語概念ベクトルを合成することにより生成する。対象とする２つの自立部に対し、それぞれの概念ベクトルの例えばコサイン類似度が、ある値以上の場合に、同義または類義であると判断する。また、算出したコサイン類似度を、対象とする２つの自立部に対応付ける。

上記のシソーラスや単語概念ベース等の、自立部が同義または類義であるか否かを判断するためのデータベースを総称して自立部データベース２５と呼ぶ。類義自立部抽出手段２４は、ｔ２中の自立部を任意に固定したとき、ｔ１中の各自立部に対し、自立部データベース２５を参照することにより、ｔ２中の該自立部とｔ１中の該自立部との類似度を算出し、その類似度がある値以上の場合に、ｔ１中の該自立部を類義自立部と認定し、ｔ２中の該自立部とｔ１中の該類義自立部との対に、算出した類似度を対応付ける。ｔ２中の自立部に対し、対応するｔ１中の類義自立部が存在しない場合は、ｔ２中の該自立部に、空であることを表すＮＵＬＬを対応付け、ｔ２中の該自立部とＮＵＬＬとの対に、類似度０．０を対応付ける。図３では、ｔ２中の各自立部と、該自立部に対応するｔ１中の類義自立部との対のリンクに、対応する類似度を付けて表示している。

アライメント選択手段２６は、ｔ２中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択する。以下、具体的に説明する。

ｔ２中の各自立部ｊｉに対し、対応する類義自立部リストｒｉ１，ｒｉ２，…，ｒｉｎ_ｉから一つの類義自立部を選択しｒｉｋ_ｉとする。類義自立部リストがＮＵＬＬの場合は、類義自立部リストがｒｉ１で、ｒｉ１＝＝ＮＵＬＬと考え、ｒｉ１を選択する。これにより、自立部間のアライメント（ｊ１，ｒ１ｋ_１），（ｊ２，ｒ２ｋ_２），…，（ｊｍ，ｒｍｋ_ｍ）が得られる。アライメント中の各（ｊｉ，ｒｉｋ_ｉ）には、類義自立部抽出手段２４で算出し対応付けた類似度が対応している。この自立部間のアライメントは、ｎ_１×ｎ_２×…×ｎ_ｍ個ある。

アライメント選択手段２６は、これまで選択されていないアライメントが存在する場合、その中から１つのアライメントを以後の処理対象として選択し、アライメント類似度算出手段２８の処理に移る。これまで選択されていないアライメントが存在しない場合、処理対象のアライメントは存在しないものとして、テキスト間類似度算出手段３２の処理に移る。

図６は、図３のｔ２中の各自立部と対応する類義自立部リストから、選択したアライメントの例を示す図である。図６のアライメントは、（ｊ１，ｒ１１），（ｊ２，ｒ２１），（ｊ３，ｒ３１），（ｊ４，ＮＵＬＬ）であり、各（ｊｉ，ｒｉｋ_ｉ）には類似度が対応している。

アライメント類似度算出手段２８は、選択したアライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出する。以下、具体的に説明する。

当該アライメントＡを（ｊ１，ｒ１ｋ_１），（ｊ２，ｒ２ｋ_２），…，（ｊｍ，ｒｍｋ_ｍ）とする。各（ｊｉ，ｒｉｋ_ｉ）に対応する類似度をｓｉとする。ｔ２中の自立部ｊｉの重みｗｉを、自立部重みデータベース２９から取得する。

図７は、自立部重みデータベース２９の例を示す図である。各レコードは、自立部とその重みの実数値から構成されている。図３、図６では、ｔ２中の各自立部に、自立部重みデータベース２９から取得した該自立部の重みを付けて表示している。

当該アライメントＡの類似度ｓＡを次式で算出する。

このアライメント類似度は、ｔ２中の自立部が、ｔ１において類義自立部まで許容した上で出現している度合いを意味し、「ｔ１ならばｔ２」の含意関係の度合いのベースとなる値である。

自立部の重みについて、例えばＱ＆Ａ集における質問テキスト同士の含意認識を行う場合、質問テキストにおける「教える」や「願う」のような自立部は、「教える」や「願う」ことが内容の前提となっているので、あまり重要な意味を持たない。このような自立部の有無によりアライメント類似度が大きく影響されるのは好ましくない。そこで自立部重みデータベース２９において、例えば図７のように、このような自立部の重みを０．１に設定し、それ以外の自立部の重みを１．０に設定する。こうすることにより、「教える」や「願う」といった自立部の有無によってアライメント類似度が大きく影響されることは殆どなくなる。自立部重みデータベース２９に設定する重みとして、他に自立部のＩＤＦ値も考えられる。

アライメント類似度補正手段３０は、選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベース３１より取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出する。以下、具体的に説明する。

当該アライメントＡを（ｊ１，ｒ１ｋ_１），（ｊ２，ｒ２ｋ_２），…，（ｊｍ，ｒｍｋ_ｍ）とする。ｔ２中の自立部ｊ１，ｊ２，…，ｊｍからとったペア（ｊｕ，ｊｖ）はｕ＜ｖであり、ペアのリストは、（ｊ１，ｊ２），（ｊ１，ｊ３），…，（ｊ１，ｊｍ），（ｊ２，ｊ３），（ｊ２，ｊ４），…（ｊ２，ｊｍ），（ｊ３，ｊ４），…（ｊ（ｍ−１），ｊｍ）であり、ペアの数はｍ（ｍ−１）／２である。

各ペア（ｊｕ，ｊｖ）に対し、該ペアの各自立部に対応する類義自立部のペア（ｒｕｋ_ｕ，ｒｖｋ_ｖ）が定まり、（ｒｕｋ_ｕ，ｒｖｋ_ｖ）を簡単に（ｒｕ，ｒｖ）と表す。

図８は、類似度補正率データベース３１の例を示す図である。ｔ２中のペア（ｊｕ，ｊｖ）と、対応するｔ１中のペア（ｒｕ，ｒｖ）の区分ごとの類似度補正率を記載している。（ｊｕ，ｊｖ）がｔ２中の同一部分文にあるか否か、（ｒｕ，ｒｖ）がｔ１中の同一部分文にあるか否かによって区分している。区分１），６）のｒｕ＝ｒｖは、ｒｕ，ｒｖが、ｔ１中の出現位置が同一の自立部であることを意味する。区分２），７）のｒｕ≠ｒｖは、ｒｕ，ｒｖが、ｔ１中の出現位置の異なる自立部であることを意味する（同一文字列の場合はある）。ｔ２中のペア（ｊｕ，ｊｖ）に対し、（ｊｕ，ｊｖ）と（ｒｕ，ｒｖ）が類似度補正率データベース３１中のいずれの区分に該当するかが定まり、それによって類似度補正率ｈｕｖが定まる。

ｔ２中のペア（ｊｕ，ｊｖ）に対し、ｊｕの重みｗｕと、ｊｖの重みｗｖの内、大きくない方を、該ペアの重みｗｕｖとする。

当該アライメントＡの類似度補正率ｈＡを次式で算出する。

当該アライメントＡの類似度をｓＡとしたとき、Ａの補正類似度ｈｓＡを次式で算出する。

類似度補正率データベース３１に記載された類似度補正率について、発明が解決しようとする課題で挙げたａ），ｄ）の場合に対応する区分２），８）は、アライメント類似度を下げる必要はないので、類似度補正率を１．０としている。発明が解決しようとする課題で挙げたｂ），ｃ）の場合に対応する区分３），７）は、アライメント類似度を下げる必要があるので、類似度補正率を０．１としている。

ｔ２中のペア（ｊｕ，ｊｖ）の重みについて、ｊｕ，ｊｖの一方が、重みの小さい自立部の場合、（ｊｕ，ｊｖ），（ｒｕ，ｒｖ）それぞれが、同一部分文にあるか否かは、アライメントの類似度補正率に影響を与えるものではないと考えられる。このためｊｕ，ｊｖの重みの内、大きくない方を、該ペアの重みとして、ペアを構成する自立部の重みに応じた影響を類似度補正率に与えるようにしている。

アライメント類似度補正手段３０の処理が終了すると、アライメント選択手段２６の処理に移る。

テキスト間類似度算出手段３２は、各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出する。

補正類似度が高いアライメントほど正解であると考えられるので、補正類似度が最大値をとるアライメントを正解として採用し、その最大値をテキストｔ１，ｔ２間の類似度としている。

出力手段４０は、テキスト間類似度算出手段３２によって算出された、テキストｔ１，ｔ２間の類似度を結果として出力する。出力手段４０により出力されるテキストｔ１，ｔ２間の類似度は、「ｔ１ならばｔ２」の含意関係の度合いを表す。

図９は、含意認識装置１００の処理フローの一例である。入力手段１０が２つのテキストｔ１，ｔ２を受け付けると、図９に示す含意認識処理ルーチンが実行される。

まず、ステップＳ１００において、部分文抽出手段２２は、入力手段１０により受け付けた２つのテキストｔ１,ｔ２を取得する。

そして、ステップＳ１０２において、部分文抽出手段２２は、上記ステップＳ１００で受け付けたテキストｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる部分文を抽出し、部分文のリストを抽出する。

ステップＳ１０４において、類義自立部抽出手段２４は、上記ステップＳ１００で受け付けたテキストｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出する。具体的には、類義自立部抽出手段２４は、ｔ２中の自立部を任意に固定したとき、ｔ１中の各自立部に対し、自立部データベース２５を参照することにより、ｔ２中の該自立部とｔ１中の該自立部との類似度を算出し、その類似度がある値以上の場合に、ｔ１中の該自立部を類義自立部と認定する。そして、類義自立部抽出手段２４は、ｔ２中の該自立部とｔ１中の該類義自立部との対に、算出した類似度を対応付ける。

ステップＳ１０６において、アライメント選択手段２６は、ｔ１中の自立部とｔ２中の自立部との間の自立部間のアライメントのうち、これまで選択されていないアライメントが存在するか否かを判定する。これまで選択されていないアライメントが存在する場合、ステップＳ１０８へ移行する。これまで選択されていないアライメントが存在しない場合、処理対象のアライメントは存在しないものとして、ステップＳ１１４へ移行する。

ステップＳ１０８において、アライメント選択手段２６は、これまで選択されていないアライメントの中から１つのアライメントを以後の処理対象として選択する。

ステップＳ１１０において、アライメント類似度算出手段２８は、上記ステップＳ１０８で選択したアライメントにおいて、自立部重みデータベース２９を参照して、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出する。

ステップＳ１１２において、アライメント類似度補正手段３０は、上記ステップＳ１０８で選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベース３１より取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出する。そして、アライメント類似度補正手段３０は、上記ステップＳ１１０で得られた該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出する。

ステップＳ１１４において、テキスト間類似度算出手段３２は、上記ステップＳ１１２で得られた各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出し、含意認識処理ルーチンを終了する。

出力手段４０は、テキスト間類似度算出手段３２によって算出された、テキストｔ１，ｔ２間の類似度を結果として出力する。

以上説明したように、本発明の実施の形態に係る含意認識装置によれば、対象テキスト間で自立部がどれだけオーバーラップしているかを表すアライメント類似度を算出するのみならず、自立部のペアが、一方のテキストで同一部分文にあり、他方のテキストで同一部分文にない場合（すなわち、発明が解決しようとする課題で挙げたｂ），ｃ)の場合）は、類似度補正率を低くすることによって、アライメント類似度を下げ、含意関係の度合いを下げる。このようにして、本発明により含意認識の精度が向上するという効果がある。

＜第２の実施の形態＞
図１０は、本発明の請求項２の一例を示す含意認識装置の構成例である。図１０に示すように、本発明の第２の実施の形態に係る含意認識装置２００は、ＣＰＵと、ＲＡＭと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この含意認識装置２００は、機能的には図１０に示すように入力手段２１０と、演算手段２２０と、出力手段２４０とを備えている。

請求項２の一例である含意認識装置２００は、テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１，ｔ２が「ｔ１ならばｔ２」の含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを入力とする。各ｔ１，ｔ２の組に番号

を付与する。

入力手段２１０は、テキストｔ１，ｔ２の組のリストを受け付ける。テキストｔ１，ｔ２の組のリストには、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１，ｔ２が「ｔ１ならばｔ２」の含意関係にあるか否かの正解ラベルが付与されている。

演算手段２２０は、テキストｔ１，ｔ２の組選択手段２２４と、正解アライメント類似度算出手段２２８と、自立部データベース２５と、自立部重みデータベース２９と、正解アライメント類似度補正手段２３２と、重回帰分析手段２３６とを含んで構成されている。

テキストｔ１，ｔ２の組選択手段２２４は、処理対象とするテキストｔ１，ｔ２の組を選択する。

すなわち、テキストｔ１，ｔ２の組選択手段２２４は、これまで選択されていないｔ１，ｔ２の組が存在する場合、その中から１つのｔ１，ｔ２の組ｐを以後の処理対象として選択し、正解アライメント類似度算出手段２２８の処理に移る。これまで選択されていないｔ１，ｔ２の組が存在しない場合、処理対象のｔ１，ｔ２の組は存在しないものとして、重回帰分析手段２３６の処理に移る。

正解アライメント類似度算出手段２２８は、選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する。以下、具体的に説明する。

ｔ２中の自立部を、ｊ１，ｊ２，…，ｊｍとし、当該正解アライメントＡを（ｊ１，ｒ１），（ｊ２，ｒ２），…，（ｊｍ，ｒｍ）とする。

自立部データベース２５を参照して、各（ｊｉ，ｒｉ）に対応する類似度ｓｉを算出する。例えば自立部データベース２５が図４のようなシソーラスの場合、ｊｉ，ｒｉそれぞれのシソーラス上のノードの間の距離をもとに類似度ｓｉを算出する。あるいは、自立部データベース２５が図５のような単語概念ベースの場合、ｊｉ，ｒｉそれぞれの概念ベクトルを、構成単語の単語概念ベクトルを合成することにより生成し、生成した概念ベクトル間のコサイン類似度を類似度ｓｉとする。ｒｉがＮＵＬＬの場合は、類似度ｓｉを０．０とする。

自立部重みデータベース２９を参照して、各ｊｉの重みｗｉを取得する。

当該正解アライメントＡの類似度ｓＡを次式で算出する。

正解アライメント類似度補正手段２３２は、該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する。以下、具体的に説明する。

当該正解アライメントＡを（ｊ１，ｒ１），（ｊ２，ｒ２），…，（ｊｍ，ｒｍ）としたとき、ｔ２中の自立部の各ペア（ｊｕ，ｊｖ）に対し、該ペアの各自立部に対応する類義自立部のペア（ｒｕ，ｒｖ）が定まる。

図１１は、第１の実施の形態の類似度補正率データベース３１の各区分ｇ）に対応する類似度補正率を未知数ａ_ｇと置くことを示す図である。ｔ２中のペア（ｊｕ，ｊｖ）に対し、（ｊｕ，ｊｖ）と（ｒｕ，ｒｖ）が類似度補正率データベース３１中のいずれの区分に該当するかが定まり、それによって類似度補正率ｈｕｖが定まる。ｈｕｖは、ａ_１，ａ_２，…，ａ_１０のいずれかとなる。

当該正解アライメントＡの類似度補正率の式ｈＡを以下のように導出する。

当該正解アライメントＡの類似度をｓＡとしたとき、Ａの補正類似度の式ｈｓＡを以下のように導出する。以下の式では、未知数ａ_ｇごとに、ａ_ｇの項をまとめたときの係数をｘ_ｐｇと置いている。ｘ_ｐｇは、ｔ１，ｔ２の組ｐごとに計算される具体的な実数値である。

このようにして、ｔ１，ｔ２の組ｐに対し、正解アライメントの補正類似度の式ａ_１ｘ_ｐ１＋ａ_２ｘ_ｐ２＋…＋ａ_１０ｘ_ｐ１０を導出する。

正解アライメント類似度補正手段２３２の処理が終了すると、テキストｔ１，ｔ２の組選択手段２２４の処理に移る。

重回帰分析手段２３６は、各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する。以下、具体的に説明する。

ｔ１，ｔ２の組ｐの正解ラベルが「含意関係あり」の場合、ｙ_ｐ＝１とし、「含意関係なし」の場合、ｙ_ｐ＝０とする。

各

に対し、以下の式を置く。ａ_１１は未知数の定数項である。

上記ｑ個の式に対し重回帰分析を行い、左辺の実測値

とｙ_ｐとの残差平方和が最も小さくなる係数ａ_１，ａ_２，…，ａ_１０，ａ_１１を求める。求めた係数ａ_１，ａ_２，…，ａ_１０に対し、各ｔ１，ｔ２の組ｐの正解アライメントの補正類似度ａ_１ｘ_ｐ１＋ａ_２ｘ_ｐ２＋…＋ａ_１０ｘ_ｐ１０は、「含意関係あり」の場合、大きくなり、「含意関係なし」の場合、小さくなる。

このようにして、入力の学習データにフィットする最適な類似度補正率ａ_１，ａ_２，…，ａ_１０が求まる。求めた最適な類似度補正率ａ_１，ａ_２，…，ａ_１０を、類似度補正率データベース３１に格納して、請求項1の含意認識装置の処理を行うことにより、新規の入力テキストｔ１，ｔ２に対しても、的確なアライメント補正類似度を算出することができる。

出力手段２４０は、重回帰分析手段２３６によって算出された係数ａ_１，ａ_２，…，ａ_１０を結果として出力する。係数ａ_１，ａ_２，…，ａ_１０は、類似度補正率データベース３１に格納される。

図１２は、含意認識装置２００の処理フローの一例である。入力手段２１０が、テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１，ｔ２が「ｔ１ならばｔ２」の含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを受け付けると、図１２に示す含意認識処理ルーチンが実行される。

ステップＳ２００において、テキストｔ１，ｔ２の組選択手段２２４は、入力手段２１０により受け付けたｔ１，ｔ２の組のリストを取得する。

ステップＳ２０２において、テキストｔ１，ｔ２の組選択手段２２４は、上記ステップＳ２００で取得したｔ１，ｔ２の組のリストのうち、これまで選択されていないｔ１，ｔ２の組が存在するか否かを判定する。これまで選択されていないｔ１，ｔ２の組が存在する場合、ステップＳ２０４へ移行する。これまで選択されていないｔ１，ｔ２の組が存在しない場合、処理対象のｔ１，ｔ２の組は存在しないものとして、ステップＳ２１０へ移行する。

ステップＳ２０４において、テキストｔ１，ｔ２の組選択手段２２４は、これまで選択されていないｔ１，ｔ２の組の中から１つのｔ１，ｔ２の組を以後の処理対象として選択する。

ステップＳ２０６において、正解アライメント類似度算出手段２２８は、上記ステップＳ２０４で選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する。

ステップＳ２０８において、正解アライメント類似度補正手段２３２は、上記ステップＳ２０４で選択したｔ１，ｔ２の組の該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する。

ステップＳ２１０において、重回帰分析手段２３６は、上記ステップＳ２０８で得られた各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出し、含意認識処理ルーチンを終了する。

出力手段２４０は、重回帰分析手段２３６によって算出された各類似度補正率の最適値を類似度補正率データベース３１へ格納する。

これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、２つのテキストｔ１，ｔ２の間の含意関係を認識する含意認識技術に適用可能である。

１０，２１０入力手段
２０，２２０演算手段
２２部分文抽出手段
２４類義自立部抽出手段
２５自立部データベース
２６アライメント選択手段
２８アライメント類似度算出手段
２９自立部重みデータベース
３０アライメント類似度補正手段
３１類似度補正率データベース
３２テキスト間類似度算出手段
４０，２４０出力手段
１００，２００含意認識装置
２２４テキストｔ１，ｔ２の組選択手段
２２８正解アライメント類似度算出手段
２３２正解アライメント類似度補正手段
２３６重回帰分析手段

Claims

２つのテキストｔ１，ｔ２の間の含意関係を認識する含意認識装置であって、
ｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出する部分文抽出手段と、
ｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出する類義自立部抽出手段と、
ｔ２中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するアライメント選択手段と、
選択したアライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するアライメント類似度算出手段と、
選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するアライメント類似度補正手段と、
各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出するテキスト間類似度算出手段とを含むことを特徴とする含意認識装置。
テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１,ｔ２が含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを入力とし、
処理対象とするテキストｔ１，ｔ２の組を選択するテキストｔ１，ｔ２の組選択手段と、
選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する正解アライメント類似度算出手段と、
該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する正解アライメント類似度補正手段と、
各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する重回帰分析手段とを含むことを特徴とする含意認識装置。
部分文抽出手段と、類義自立部抽出手段と、アライメント選択手段と、アライメント類似度算出手段と、アライメント類似度補正手段と、テキスト間類似度算出手段とを含み、２つのテキストｔ１，ｔ２の間の含意関係を認識する含意認識装置における含意認識方法であって、
前記部分文抽出手段が、ｔ１，ｔ２それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出するステップと、
前記類義自立部抽出手段が、ｔ２中の各自立部に対し、該自立部と同義または類義のｔ１中の類義自立部のリストを抽出するステップと、
前記アライメント選択手段が、ｔ２中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するステップと、
前記アライメント類似度算出手段が、選択したアライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するステップと、
前記アライメント類似度補正手段が、選択したアライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するステップと、
前記テキスト間類似度算出手段が、各アライメントの補正類似度の最大値を、テキストｔ１，ｔ２間の類似度として算出するステップとを含むことを特徴とする含意認識方法。
テキストｔ１，ｔ２の組選択手段と、正解アライメント類似度算出手段と、正解アライメント類似度補正手段と、重回帰分析手段とを含む含意認識装置における含意認識方法であって、
テキストｔ１，ｔ２の組のリストであって、各組に対し、ｔ１，ｔ２それぞれの正解部分文のリストと、ｔ２中の各自立部と該自立部に対応するｔ１中の正解の１類義自立部との対のリストである正解アライメントと、ｔ１,ｔ２が含意関係にあるか否かの正解ラベルが付与されているｔ１，ｔ２の組のリストを入力とし、
前記テキストｔ１，ｔ２の組選択手段が、処理対象とするテキストｔ１，ｔ２の組を選択するステップと、
前記正解アライメント類似度算出手段が、選択したｔ１，ｔ２の組の正解アライメントにおいて、ｔ２中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出するステップと、
前記正解アライメント類似度補正手段が、該正解アライメントにおいて、ｔ２中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出するステップと、
前記重回帰分析手段が、各ｔ１，ｔ２の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出するステップとを含むことを特徴とする含意認識方法。
コンピュータを、請求項１又は請求項２記載の含意認識装置の各手段として機能させるためのプログラム。