JP6726638B2 - 含意認識装置、方法、及びプログラム - Google Patents

含意認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP6726638B2
JP6726638B2 JP2017094854A JP2017094854A JP6726638B2 JP 6726638 B2 JP6726638 B2 JP 6726638B2 JP 2017094854 A JP2017094854 A JP 2017094854A JP 2017094854 A JP2017094854 A JP 2017094854A JP 6726638 B2 JP6726638 B2 JP 6726638B2
Authority
JP
Japan
Prior art keywords
similarity
alignment
pair
self
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017094854A
Other languages
English (en)
Other versions
JP2018190339A (ja
Inventor
克人 別所
克人 別所
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017094854A priority Critical patent/JP6726638B2/ja
Publication of JP2018190339A publication Critical patent/JP2018190339A/ja
Application granted granted Critical
Publication of JP6726638B2 publication Critical patent/JP6726638B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、2つのテキストt1、t2の間の含意関係を認識する含意認識装置、方法、及びプログラムに関する。
2つのテキストt1,t2が与えられたとき、「t1ならばt2」が成り立つかどうかを判定する含意認識技術として、非特許文献1の手法がある。非特許文献1の手法では、集合Eを例えば単語集合としたとき、t1とt2において、集合Eの要素がいくつ共通して現れるかを、次式によって定義する。
ここで、f(x,t)は、集合Eの要素xが、t中に出現する回数を表す。この式を用いて、「t1ならばt2」の含意関係の度合いを表す類似度を以下の式で算出する。
服部昇平, 佐藤理史, 駒谷知範,"表層類似度に基づく日本語テキスト含意認識,"人工知能学会論文誌, Vol.29, No.4, pp.416-426, 2014.
上記従来手法では、以下に述べる課題がある。
t2,t1に出現するE中の2つの要素ju,jvに対し、以下のa),b),c),d)のいずれかが成り立つ。ここで、部分文とは、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる文のことである。あるいは、そのような部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる文のことである。
a)要素ju,jvが、t2において同一部分文にあり、t1において同一部分文にある。
b)要素ju,jvが、t2において同一部分文にあり、t1において同一部分文にない。
c)要素ju,jvが、t2において同一部分文になく、t1において同一部分文にある。
d)要素ju,jvが、t2において同一部分文になく、t1において同一部分文にない。
a)の例として、t2:「雀は水田を荒らす。」、t1:「毎年、雀は水田を荒らす。」としたとき、ju:「雀」、jv:「水田」は、t2において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、ju:「雀」、jv:「水田」は、t1において、「荒らす。」を起点とする部分文「毎年、雀は水田を荒らす。」にあり、同一部分文にある。また、「t1ならばt2」の含意関係が成り立つ。
b)の例として、t2:「雀は水田を荒らす。」、t1:「雀を駆除することが水田を荒らす。」としたとき、ju:「雀」、jv:「水田」は、t2において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、ju:「雀」は、t1において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、jv:「水田」は、t1において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ju:「雀」、jv:「水田」は、t1において同一部分文にない。また、「t1ならばt2」の含意関係が成り立たない。
c)の例として、t2:「雀を駆除することが水田を荒らす。」、t1:「雀は水田を荒らす。」としたとき、ju:「雀」は、t2において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、jv:「水田」は、t2において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ju:「雀」、jv:「水田」は、t2において同一部分文にない。また、ju:「雀」、jv:「水田」は、t1において、「荒らす。」を起点とする部分文「雀は水田を荒らす。」にあり、同一部分文にある。また、「t1ならばt2」の含意関係が成り立たない。
d)の例として、t2:「定期的に雀を駆除することが水田を荒らす。」、t1:「雀を駆除することが水田を荒らす。」としたとき、ju:「雀」は、t2において、「駆除する」を起点とする部分文「定期的に雀を駆除することが」にあり、jv:「水田」は、t2において、「荒らす。」を起点とする部分文「ことが水田を荒らす。」にあり、ju:「雀」、jv:「水田」は、t2において同一部分文にない。また、ju:「雀」は、t1において、「駆除する」を起点とする部分文「雀を駆除することが」にあり、jv:「水田」は、t1において、「荒らす」を起点とする部分文「ことが水田を荒らす。」にあり、ju:「雀」、jv:「水田」は、t1において同一部分文にない。また、「t1ならばt2」の含意関係が成り立つ。
t2、t1に出現するE中の2つの要素ju、jvが常にa)またはd)を満たす場合、「t1ならばt2」の含意関係が成り立つ可能性は高くなる。逆に、あるju,jvが、a)もd)も満たさず、b)またはc)に該当する場合、「t1ならばt2」の含意関係が成り立つ可能性は低くなる。このように、t2,t1に出現するE中の2つの要素ju,jvがa),b),c),d)のいずれであるかによって、含意関係のある程度の予測ができる。
しかしながら、上記従来手法では、類似度算出式におけるju,jvに関する値に全く変化がないため、ju,jvがa),b),c),d)のいずれに該当しているかの情報を、含意関係の認識に全く活用できていないという課題があった。
本発明の目的は、E中の2つの要素ju,jvが、対象とする各テキストにおいて、同一部分文にあるか否かの情報を含意関係の認識に活用することにより、この課題を解決し、含意認識の精度を向上させる含意認識装置、方法、及びプログラムを提供することにある。
上記課題を解決するため、第1の発明に係る含意認識装置は、2つのテキストt1,t2の間の含意関係を認識する含意認識装置であって、t1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出する部分文抽出手段と、t2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出する類義自立部抽出手段と、t2中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するアライメント選択手段と、選択したアライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するアライメント類似度算出手段と、選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するアライメント類似度補正手段と、各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出するテキスト間類似度算出手段と、を含んで構成されている。
第2の発明に係る含意認識装置は、テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを入力とし、処理対象とするテキストt1,t2の組を選択するテキストt1,t2の組選択手段と、選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する正解アライメント類似度算出手段と、該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する正解アライメント類似度補正手段と、各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する重回帰分析手段と、を含んで構成されている。
また、第3の発明に係る含意認識方法は、部分文抽出手段と、類義自立部抽出手段と、アライメント選択手段と、アライメント類似度算出手段と、アライメント類似度補正手段と、テキスト間類似度算出手段とを含み、2つのテキストt1,t2の間の含意関係を認識する含意認識装置における含意認識方法であって、前記部分文抽出手段が、t1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出するステップと、前記類義自立部抽出手段が、t2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出するステップと、前記アライメント選択手段が、t2中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するステップと、前記アライメント類似度算出手段が、選択したアライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するステップと、前記アライメント類似度補正手段が、選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するステップと、前記テキスト間類似度算出手段が、各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出するステップと、を含んで構成されている。
また、第4の発明に係る含意認識方法は、テキストt1,t2の組選択手段と、正解アライメント類似度算出手段と、正解アライメント類似度補正手段と、重回帰分析手段とを含む含意認識装置における含意認識方法であって、テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを入力とし、前記テキストt1,t2の組選択手段が、処理対象とするテキストt1,t2の組を選択するステップと、前記正解アライメント類似度算出手段が、選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出するステップと、前記正解アライメント類似度補正手段が、該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出するステップと、前記重回帰分析手段が、各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出するステップと、を含んで構成されている。
また、本発明のプログラムは、コンピュータを、本発明の含意認識装置の各手段として機能させるためのプログラムである。
第1の発明に係る含意認識装置は、入力する2つのテキストt1,t2に対し、「t1ならばt2」の含意関係の度合いを、t1,t2間の類似度として算出することによって、t1,t2間の含意関係を認識する含意認識装置である。
また第2の発明に係る含意認識装置は、含意認識を行う前に、含意認識で用いる類似度補正率データベース中に記述すべき最適な類似度補正率を学習データから獲得するための装置である。
本発明の含意認識装置、方法、及びプログラムは、含意認識の精度が向上するという効果がある。
本発明の第1の実施の形態に係る含意認識装置の機能的構成を示すブロック図である。 テキストの係り受け解析結果の一例を示す図である。 テキストt2中の各自立部と、該自立部に対して抽出されたテキストt1中の類義自立部のリストの各要素との対応関係の一例を示す図である。 シソーラスの一例を示す図である。 単語概念ベースの一例を示す図である。 テキストt2中の各自立部と対応する類義自立部リストから、選択したアライメントの一例を示す図である。 自立部重みデータベースの一例を示す図である。 類似度補正率データベースの一例を示す図である。 本発明の第1の実施の形態に係る含意認識装置の含意認識処理ルーチンを示すフローチャート図である。 本発明の第2の実施の形態に係る含意認識装置の機能的構成を示すブロック図である。 類似度補正率データベースの一例を示す図である。 本発明の第2の実施の形態に係る含意認識装置の含意認識処理ルーチンを示すフローチャート図である。
以下、図面とともに本発明の実施の形態を説明する。
<第1の実施の形態>
図1は、本発明の請求項1の一例を示す含意認識装置の構成例である。図1に示すように、本発明の第1の実施の形態に係る含意認識装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この含意認識装置100は、機能的には図1に示すように入力手段10と、演算手段20と、出力手段40とを備えている。
入力手段10は、2つのテキストt1,t2を受け付ける。
演算手段20は、部分文抽出手段22と、類義自立部抽出手段24と、自立部データベース25と、アライメント選択手段26と、アライメント類似度算出手段28と、自立部重みデータベース29と、アライメント類似度補正手段30と、類似度補正率データベース31と、テキスト間類似度算出手段32とを含んで構成されている。
部分文抽出手段22は、入力手段10により受け付けた2つのテキストt1,t2を入力として、t1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる部分文を抽出し、部分文のリストを抽出する。
図2は、対象テキスト「木造の建造物の賃貸に住む老人の数」の係り受け解析結果を示す図である。係り受け解析によって、このテキストは、6つの文節「木造の」、「建造物の」、「賃貸に」、「住む」、「老人の」、「数」に分割され、さらに、各文節内において、自立部と付属部に分割される。文節「木造の」の自立部は「木造」で、付属部は「の」である。文節「住む」の自立部は「住む」で、付属部はNULLである。係り受け解析により、文節間の係り受け関係が導出され、「木造の」が「建造物の」に係り、「建造物の」が「賃貸に」に係り、「賃貸に」が「住む」に係り、「住む」が「老人の」に係り、「老人の」が「数」に係る。
部分文抽出手段22では、用言文節「住む」を起点として、該用言文節「住む」と、該用言文節「住む」に係る非用言文節「賃貸に」と、非用言文節「賃貸に」に係る非用言文節「建造物の」と、非用言文節「建造物の」に係る非用言文節「木造の」と、該用言文節「住む」が係る非用言文節「老人の」とを連結して得られる部分文「木造の建造物の賃貸に住む老人の」を抽出する。この対象テキストでは、用言文節は1つだが、他にもあれば、用言文節ごとに同様にして部分文を抽出する。対象テキストから、抽出した部分文を除いた文節群の中の非用言文節「数」とそれに係る非用言文節「老人の」とを連結して得られる部分文「老人の数」を抽出する。このようにして、部分文のリスト「木造の建造物の賃貸に住む老人の」,「老人の数」を抽出する。
類義自立部抽出手段24は、t2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出する。以下、具体的に説明する。
t2中の自立部を、j1,j2,…,jmとする。このリスト中の各jiは、出現位置が異なる自立部であり、リスト中に同一文字列の自立部が複数ある場合もある。各jiに対し、t1中の自立部の中で、jiと同義または類義の自立部である類義自立部のリストri1,ri2,…,rinを抽出し、jiに対応付ける。このリスト中の各rikは、出現位置が異なる自立部であり、リスト中に同一文字列の自立部が複数ある場合もある。また、t2中の異なる自立部に、共通の類義自立部が対応している場合もある。jiに対し、t1中の自立部の中で、jiと同義または類義の自立部が存在しない場合は、jiに、空であることを表すNULLを対応付ける。
図3は、t2中の各自立部と、該自立部に対して抽出されたt1中の類義自立部のリストの各要素との対応関係を示した図である。t2の自立部j1に対し、t1中の類義自立部リストr11,r12,r13が対応し、t2の自立部j2に対し、t1中の類義自立部リストr21,r22が対応し、t2の自立部j3に対し、t1中の類義自立部リストr31,r32,r33が対応し、t2の自立部j4に対しNULLが対応する。
t2中の自立部jiと同一文字列であるt1中の自立部は、jiの類義自立部となる(但し、別途意味解析を行い、t1中の該自立部の意味がjiの意味と異なった場合は、この限りではない)。jiとt1中の該自立部との類似度を1.0とし、jiとt1中の該自立部との対に対応付ける。
文字列として必ずしも同一でない2つの自立部が同義または類義であるか否かを例えば図4のようなシソーラスを用いて判断する。対象とする2つの自立部のシソーラス上のノードの間の距離が、ある値以下の場合に、同義または類義であると判断する。また、ノード間の距離をもとに、対象とする2つの自立部の間の類似度を算出し、対象とする2つの自立部に対応付ける。
文字列として必ずしも同一でない2つの自立部が同義または類義であるか否かを例えば、非特許文献2で挙げられている単語概念ベースを用いて判断する。単語概念ベースは、単語と該単語の概念を表す単語概念ベクトルとの対のリストである。図5は単語概念ベースの例を示す図である。各単語の単語概念ベクトルはd次元ベクトルであり、概念的に近い単語の概念ベクトルは、近くに配置されている。
[非特許文献2]別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
各自立部の概念ベクトルを、該自立部を構成する単語の単語概念ベクトルを合成することにより生成する。対象とする2つの自立部に対し、それぞれの概念ベクトルの例えばコサイン類似度が、ある値以上の場合に、同義または類義であると判断する。また、算出したコサイン類似度を、対象とする2つの自立部に対応付ける。
上記のシソーラスや単語概念ベース等の、自立部が同義または類義であるか否かを判断するためのデータベースを総称して自立部データベース25と呼ぶ。類義自立部抽出手段24は、t2中の自立部を任意に固定したとき、t1中の各自立部に対し、自立部データベース25を参照することにより、t2中の該自立部とt1中の該自立部との類似度を算出し、その類似度がある値以上の場合に、t1中の該自立部を類義自立部と認定し、t2中の該自立部とt1中の該類義自立部との対に、算出した類似度を対応付ける。t2中の自立部に対し、対応するt1中の類義自立部が存在しない場合は、t2中の該自立部に、空であることを表すNULLを対応付け、t2中の該自立部とNULLとの対に、類似度0.0を対応付ける。図3では、t2中の各自立部と、該自立部に対応するt1中の類義自立部との対のリンクに、対応する類似度を付けて表示している。
アライメント選択手段26は、t2中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択する。以下、具体的に説明する。
t2中の各自立部jiに対し、対応する類義自立部リストri1,ri2,…,rinから一つの類義自立部を選択しrikとする。類義自立部リストがNULLの場合は、類義自立部リストがri1で、ri1==NULLと考え、ri1を選択する。これにより、自立部間のアライメント(j1,r1k),(j2,r2k),…,(jm,rmk)が得られる。アライメント中の各(ji,rik)には、類義自立部抽出手段24で算出し対応付けた類似度が対応している。この自立部間のアライメントは、n×n×…×n個ある。
アライメント選択手段26は、これまで選択されていないアライメントが存在する場合、その中から1つのアライメントを以後の処理対象として選択し、アライメント類似度算出手段28の処理に移る。これまで選択されていないアライメントが存在しない場合、処理対象のアライメントは存在しないものとして、テキスト間類似度算出手段32の処理に移る。
図6は、図3のt2中の各自立部と対応する類義自立部リストから、選択したアライメントの例を示す図である。図6のアライメントは、(j1,r11),(j2,r21),(j3,r31),(j4,NULL)であり、各(ji,rik)には類似度が対応している。
アライメント類似度算出手段28は、選択したアライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出する。以下、具体的に説明する。
当該アライメントAを(j1,r1k),(j2,r2k),…,(jm,rmk)とする。各(ji,rik)に対応する類似度をsiとする。t2中の自立部jiの重みwiを、自立部重みデータベース29から取得する。
図7は、自立部重みデータベース29の例を示す図である。各レコードは、自立部とその重みの実数値から構成されている。図3、図6では、t2中の各自立部に、自立部重みデータベース29から取得した該自立部の重みを付けて表示している。
当該アライメントAの類似度sAを次式で算出する。
このアライメント類似度は、t2中の自立部が、t1において類義自立部まで許容した上で出現している度合いを意味し、「t1ならばt2」の含意関係の度合いのベースとなる値である。
自立部の重みについて、例えばQ&A集における質問テキスト同士の含意認識を行う場合、質問テキストにおける「教える」や「願う」のような自立部は、「教える」や「願う」ことが内容の前提となっているので、あまり重要な意味を持たない。このような自立部の有無によりアライメント類似度が大きく影響されるのは好ましくない。そこで自立部重みデータベース29において、例えば図7のように、このような自立部の重みを0.1に設定し、それ以外の自立部の重みを1.0に設定する。こうすることにより、「教える」や「願う」といった自立部の有無によってアライメント類似度が大きく影響されることは殆どなくなる。自立部重みデータベース29に設定する重みとして、他に自立部のIDF値も考えられる。
アライメント類似度補正手段30は、選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベース31より取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出する。以下、具体的に説明する。
当該アライメントAを(j1,r1k),(j2,r2k),…,(jm,rmk)とする。t2中の自立部j1,j2,…,jmからとったペア(ju,jv)はu<vであり、ペアのリストは、(j1,j2),(j1,j3),…,(j1,jm),(j2,j3),(j2,j4),…(j2,jm),(j3,j4),…(j(m−1),jm)であり、ペアの数はm(m−1)/2である。
各ペア(ju,jv)に対し、該ペアの各自立部に対応する類義自立部のペア(ruk,rvk)が定まり、(ruk,rvk)を簡単に(ru,rv)と表す。
図8は、類似度補正率データベース31の例を示す図である。t2中のペア(ju,jv)と、対応するt1中のペア(ru,rv)の区分ごとの類似度補正率を記載している。(ju,jv)がt2中の同一部分文にあるか否か、(ru,rv)がt1中の同一部分文にあるか否かによって区分している。区分1),6)のru=rvは、ru,rvが、t1中の出現位置が同一の自立部であることを意味する。区分2),7)のru≠rvは、ru,rvが、t1中の出現位置の異なる自立部であることを意味する(同一文字列の場合はある)。t2中のペア(ju,jv)に対し、(ju,jv)と(ru,rv)が類似度補正率データベース31中のいずれの区分に該当するかが定まり、それによって類似度補正率huvが定まる。
t2中のペア(ju,jv)に対し、juの重みwuと、jvの重みwvの内、大きくない方を、該ペアの重みwuvとする。
当該アライメントAの類似度補正率hAを次式で算出する。
当該アライメントAの類似度をsAとしたとき、Aの補正類似度hsAを次式で算出する。
類似度補正率データベース31に記載された類似度補正率について、発明が解決しようとする課題で挙げたa),d)の場合に対応する区分2),8)は、アライメント類似度を下げる必要はないので、類似度補正率を1.0としている。発明が解決しようとする課題で挙げたb),c)の場合に対応する区分3),7)は、アライメント類似度を下げる必要があるので、類似度補正率を0.1としている。
t2中のペア(ju,jv)の重みについて、ju,jvの一方が、重みの小さい自立部の場合、(ju,jv),(ru,rv)それぞれが、同一部分文にあるか否かは、アライメントの類似度補正率に影響を与えるものではないと考えられる。このためju,jvの重みの内、大きくない方を、該ペアの重みとして、ペアを構成する自立部の重みに応じた影響を類似度補正率に与えるようにしている。
アライメント類似度補正手段30の処理が終了すると、アライメント選択手段26の処理に移る。
テキスト間類似度算出手段32は、各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出する。
補正類似度が高いアライメントほど正解であると考えられるので、補正類似度が最大値をとるアライメントを正解として採用し、その最大値をテキストt1,t2間の類似度としている。
出力手段40は、テキスト間類似度算出手段32によって算出された、テキストt1,t2間の類似度を結果として出力する。出力手段40により出力されるテキストt1,t2間の類似度は、「t1ならばt2」の含意関係の度合いを表す。
図9は、含意認識装置100の処理フローの一例である。入力手段10が2つのテキストt1,t2を受け付けると、図9に示す含意認識処理ルーチンが実行される。
まず、ステップS100において、部分文抽出手段22は、入力手段10により受け付けた2つのテキストt1,t2を取得する。
そして、ステップS102において、部分文抽出手段22は、上記ステップS100で受け付けたテキストt1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、部分文を除いた文節群の中の非用言文節とそれに係る非用言文節とを連結して得られる部分文を抽出し、部分文のリストを抽出する。
ステップS104において、類義自立部抽出手段24は、上記ステップS100で受け付けたテキストt2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出する。具体的には、類義自立部抽出手段24は、t2中の自立部を任意に固定したとき、t1中の各自立部に対し、自立部データベース25を参照することにより、t2中の該自立部とt1中の該自立部との類似度を算出し、その類似度がある値以上の場合に、t1中の該自立部を類義自立部と認定する。そして、類義自立部抽出手段24は、t2中の該自立部とt1中の該類義自立部との対に、算出した類似度を対応付ける。
ステップS106において、アライメント選択手段26は、t1中の自立部とt2中の自立部との間の自立部間のアライメントのうち、これまで選択されていないアライメントが存在するか否かを判定する。これまで選択されていないアライメントが存在する場合、ステップS108へ移行する。これまで選択されていないアライメントが存在しない場合、処理対象のアライメントは存在しないものとして、ステップS114へ移行する。
ステップS108において、アライメント選択手段26は、これまで選択されていないアライメントの中から1つのアライメントを以後の処理対象として選択する。
ステップS110において、アライメント類似度算出手段28は、上記ステップS108で選択したアライメントにおいて、自立部重みデータベース29を参照して、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出する。
ステップS112において、アライメント類似度補正手段30は、上記ステップS108で選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベース31より取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出する。そして、アライメント類似度補正手段30は、上記ステップS110で得られた該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出する。
ステップS114において、テキスト間類似度算出手段32は、上記ステップS112で得られた各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出し、含意認識処理ルーチンを終了する。
出力手段40は、テキスト間類似度算出手段32によって算出された、テキストt1,t2間の類似度を結果として出力する。
以上説明したように、本発明の実施の形態に係る含意認識装置によれば、対象テキスト間で自立部がどれだけオーバーラップしているかを表すアライメント類似度を算出するのみならず、自立部のペアが、一方のテキストで同一部分文にあり、他方のテキストで同一部分文にない場合(すなわち、発明が解決しようとする課題で挙げたb),c)の場合)は、類似度補正率を低くすることによって、アライメント類似度を下げ、含意関係の度合いを下げる。このようにして、本発明により含意認識の精度が向上するという効果がある。
<第2の実施の形態>
図10は、本発明の請求項2の一例を示す含意認識装置の構成例である。図10に示すように、本発明の第2の実施の形態に係る含意認識装置200は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この含意認識装置200は、機能的には図10に示すように入力手段210と、演算手段220と、出力手段240とを備えている。
請求項2の一例である含意認識装置200は、テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が「t1ならばt2」の含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを入力とする。各t1,t2の組に番号
を付与する。
入力手段210は、テキストt1,t2の組のリストを受け付ける。テキストt1,t2の組のリストには、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が「t1ならばt2」の含意関係にあるか否かの正解ラベルが付与されている。
演算手段220は、テキストt1,t2の組選択手段224と、正解アライメント類似度算出手段228と、自立部データベース25と、自立部重みデータベース29と、正解アライメント類似度補正手段232と、重回帰分析手段236とを含んで構成されている。
テキストt1,t2の組選択手段224は、処理対象とするテキストt1,t2の組を選択する。
すなわち、テキストt1,t2の組選択手段224は、これまで選択されていないt1,t2の組が存在する場合、その中から1つのt1,t2の組pを以後の処理対象として選択し、正解アライメント類似度算出手段228の処理に移る。これまで選択されていないt1,t2の組が存在しない場合、処理対象のt1,t2の組は存在しないものとして、重回帰分析手段236の処理に移る。
正解アライメント類似度算出手段228は、選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する。以下、具体的に説明する。
t2中の自立部を、j1,j2,…,jmとし、当該正解アライメントAを(j1,r1),(j2,r2),…,(jm,rm)とする。
自立部データベース25を参照して、各(ji,ri)に対応する類似度siを算出する。例えば自立部データベース25が図4のようなシソーラスの場合、ji,riそれぞれのシソーラス上のノードの間の距離をもとに類似度siを算出する。あるいは、自立部データベース25が図5のような単語概念ベースの場合、ji,riそれぞれの概念ベクトルを、構成単語の単語概念ベクトルを合成することにより生成し、生成した概念ベクトル間のコサイン類似度を類似度siとする。riがNULLの場合は、類似度siを0.0とする。
自立部重みデータベース29を参照して、各jiの重みwiを取得する。
当該正解アライメントAの類似度sAを次式で算出する。
正解アライメント類似度補正手段232は、該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する。以下、具体的に説明する。
当該正解アライメントAを(j1,r1),(j2,r2),…,(jm,rm)としたとき、t2中の自立部の各ペア(ju,jv)に対し、該ペアの各自立部に対応する類義自立部のペア(ru,rv)が定まる。
図11は、第1の実施の形態の類似度補正率データベース31の各区分g)に対応する類似度補正率を未知数aと置くことを示す図である。t2中のペア(ju,jv)に対し、(ju,jv)と(ru,rv)が類似度補正率データベース31中のいずれの区分に該当するかが定まり、それによって類似度補正率huvが定まる。huvは、a,a,…,a10のいずれかとなる。
t2中のペア(ju,jv)に対し、juの重みwuと、jvの重みwvの内、大きくない方を、該ペアの重みwuvとする。
当該正解アライメントAの類似度補正率の式hAを以下のように導出する。
当該正解アライメントAの類似度をsAとしたとき、Aの補正類似度の式hsAを以下のように導出する。以下の式では、未知数aごとに、aの項をまとめたときの係数をxpgと置いている。xpgは、t1,t2の組pごとに計算される具体的な実数値である。
このようにして、t1,t2の組pに対し、正解アライメントの補正類似度の式ap1+ap2+…+a10p10を導出する。
正解アライメント類似度補正手段232の処理が終了すると、テキストt1,t2の組選択手段224の処理に移る。
重回帰分析手段236は、各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する。以下、具体的に説明する。
t1,t2の組pの正解ラベルが「含意関係あり」の場合、y=1とし、「含意関係なし」の場合、y=0とする。
に対し、以下の式を置く。a11は未知数の定数項である。
上記q個の式に対し重回帰分析を行い、左辺の実測値
とyとの残差平方和が最も小さくなる係数a,a,…,a10,a11を求める。求めた係数a,a,…,a10に対し、各t1,t2の組pの正解アライメントの補正類似度ap1+ap2+…+a10p10は、「含意関係あり」の場合、大きくなり、「含意関係なし」の場合、小さくなる。
このようにして、入力の学習データにフィットする最適な類似度補正率a,a,…,a10が求まる。求めた最適な類似度補正率a,a,…,a10を、類似度補正率データベース31に格納して、請求項1の含意認識装置の処理を行うことにより、新規の入力テキストt1,t2に対しても、的確なアライメント補正類似度を算出することができる。
出力手段240は、重回帰分析手段236によって算出された係数a,a,…,a10を結果として出力する。係数a,a,…,a10は、類似度補正率データベース31に格納される。
図12は、含意認識装置200の処理フローの一例である。入力手段210が、テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が「t1ならばt2」の含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを受け付けると、図12に示す含意認識処理ルーチンが実行される。
ステップS200において、テキストt1,t2の組選択手段224は、入力手段210により受け付けたt1,t2の組のリストを取得する。
ステップS202において、テキストt1,t2の組選択手段224は、上記ステップS200で取得したt1,t2の組のリストのうち、これまで選択されていないt1,t2の組が存在するか否かを判定する。これまで選択されていないt1,t2の組が存在する場合、ステップS204へ移行する。これまで選択されていないt1,t2の組が存在しない場合、処理対象のt1,t2の組は存在しないものとして、ステップS210へ移行する。
ステップS204において、テキストt1,t2の組選択手段224は、これまで選択されていないt1,t2の組の中から1つのt1,t2の組を以後の処理対象として選択する。
ステップS206において、正解アライメント類似度算出手段228は、上記ステップS204で選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する。
ステップS208において、正解アライメント類似度補正手段232は、上記ステップS204で選択したt1,t2の組の該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する。
ステップS210において、重回帰分析手段236は、上記ステップS208で得られた各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出し、含意認識処理ルーチンを終了する。
出力手段240は、重回帰分析手段236によって算出された各類似度補正率の最適値を類似度補正率データベース31へ格納する。
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、2つのテキストt1,t2の間の含意関係を認識する含意認識技術に適用可能である。
10,210 入力手段
20,220 演算手段
22 部分文抽出手段
24 類義自立部抽出手段
25 自立部データベース
26 アライメント選択手段
28 アライメント類似度算出手段
29 自立部重みデータベース
30 アライメント類似度補正手段
31 類似度補正率データベース
32 テキスト間類似度算出手段
40,240 出力手段
100,200 含意認識装置
224 テキストt1,t2の組選択手段
228 正解アライメント類似度算出手段
232 正解アライメント類似度補正手段
236 重回帰分析手段

Claims (5)

  1. 2つのテキストt1,t2の間の含意関係を認識する含意認識装置であって、
    t1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出する部分文抽出手段と、
    t2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出する類義自立部抽出手段と、
    t2中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するアライメント選択手段と、
    選択したアライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するアライメント類似度算出手段と、
    選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するアライメント類似度補正手段と、
    各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出するテキスト間類似度算出手段とを含むことを特徴とする含意認識装置。
  2. テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを入力とし、
    処理対象とするテキストt1,t2の組を選択するテキストt1,t2の組選択手段と、
    選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出する正解アライメント類似度算出手段と、
    該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出する正解アライメント類似度補正手段と、
    各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出する重回帰分析手段とを含むことを特徴とする含意認識装置。
  3. 部分文抽出手段と、類義自立部抽出手段と、アライメント選択手段と、アライメント類似度算出手段と、アライメント類似度補正手段と、テキスト間類似度算出手段とを含み、2つのテキストt1,t2の間の含意関係を認識する含意認識装置における含意認識方法であって、
    前記部分文抽出手段が、t1,t2それぞれに対し、係り受け解析し、用言文節を起点として、該用言文節と、該用言文節に係るまたは該用言文節が係る非用言文節と、非用言文節に係る非用言文節とを連結して得られる部分文を抽出し、前記部分文を除いた文節群の中の非用言文節と該非用言文節に係る非用言文節とを連結して得られる部分文を抽出することにより、部分文のリストを抽出するステップと、
    前記類義自立部抽出手段が、t2中の各自立部に対し、該自立部と同義または類義のt1中の類義自立部のリストを抽出するステップと、
    前記アライメント選択手段が、t2中の各自立部に対し、対応する類義自立部リストから一つの類義自立部を選択することにより、自立部間のアライメントを選択するステップと、
    前記アライメント類似度算出手段が、選択したアライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該アライメントの類似度を算出するステップと、
    前記アライメント類似度補正手段が、選択したアライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の部分文にあるか否かによって定まる類似度の補正率を、類似度補正率データベースより取得し、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該アライメントの類似度の補正率を算出し、該アライメントの類似度に、該補正率を乗じることにより、該アライメントの補正類似度を算出するステップと、
    前記テキスト間類似度算出手段が、各アライメントの補正類似度の最大値を、テキストt1,t2間の類似度として算出するステップとを含むことを特徴とする含意認識方法。
  4. テキストt1,t2の組選択手段と、正解アライメント類似度算出手段と、正解アライメント類似度補正手段と、重回帰分析手段とを含む含意認識装置における含意認識方法であって、
    テキストt1,t2の組のリストであって、各組に対し、t1,t2それぞれの正解部分文のリストと、t2中の各自立部と該自立部に対応するt1中の正解の1類義自立部との対のリストである正解アライメントと、t1,t2が含意関係にあるか否かの正解ラベルが付与されているt1,t2の組のリストを入力とし、
    前記テキストt1,t2の組選択手段が、処理対象とするテキストt1,t2の組を選択するステップと、
    前記正解アライメント類似度算出手段が、選択したt1,t2の組の正解アライメントにおいて、t2中の各自立部と該自立部に対応する類義自立部との類似度の、該自立部の重みを付けた平均をとることにより、該正解アライメントの類似度を算出するステップと、
    前記正解アライメント類似度補正手段が、該正解アライメントにおいて、t2中の自立部の各ペアに対し、該ペアが同一の正解部分文にあるか否かと、該ペアの各自立部に対応する類義自立部が同一の正解部分文にあるか否かによって定まる類似度の補正率を未知数とし、各ペアの類似度補正率の、該ペアの各自立部の重みから定まる該ペアの重みをつけた平均をとることにより、該正解アライメントの類似度の補正率の式を導出し、該正解アライメントの類似度に、該補正率の式を乗じることにより、該正解アライメントの補正類似度の式を導出するステップと、
    前記重回帰分析手段が、各t1,t2の組の正解アライメントの補正類似度の式と、該組の正解ラベルとの対のリストに対し、重回帰分析を適用することにより、未知数である各類似度補正率の最適値を導出するステップとを含むことを特徴とする含意認識方法。
  5. コンピュータを、請求項1又は請求項2記載の含意認識装置の各手段として機能させるためのプログラム。
JP2017094854A 2017-05-11 2017-05-11 含意認識装置、方法、及びプログラム Active JP6726638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017094854A JP6726638B2 (ja) 2017-05-11 2017-05-11 含意認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017094854A JP6726638B2 (ja) 2017-05-11 2017-05-11 含意認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018190339A JP2018190339A (ja) 2018-11-29
JP6726638B2 true JP6726638B2 (ja) 2020-07-22

Family

ID=64480401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017094854A Active JP6726638B2 (ja) 2017-05-11 2017-05-11 含意認識装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6726638B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753147A (zh) * 2020-06-27 2020-10-09 百度在线网络技术(北京)有限公司 相似度处理方法、装置、服务器及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG188994A1 (en) * 2011-10-20 2013-05-31 Nec Corp Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium
JP6327799B2 (ja) * 2013-05-22 2018-05-23 大学共同利用機関法人情報・システム研究機構 自然言語推論システム、自然言語推論方法及びプログラム
JP2015225412A (ja) * 2014-05-26 2015-12-14 日本電信電話株式会社 文書要約装置、方法、及びプログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム

Also Published As

Publication number Publication date
JP2018190339A (ja) 2018-11-29

Similar Documents

Publication Publication Date Title
JP6846469B2 (ja) インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
US8255412B2 (en) Boosting algorithm for ranking model adaptation
US8401847B2 (en) Speech recognition system and program therefor
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
JP5537649B2 (ja) データ検索およびインデクシングの方法および装置
US20100205198A1 (en) Search query disambiguation
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN107391614A (zh) 一种基于wmd的中文问答匹配方法
CN105808530B (zh) 一种统计机器翻译中的翻译方法和装置
US20120143790A1 (en) Relevance of search results determined from user clicks and post-click user behavior obtained from click logs
US20080208836A1 (en) Regression framework for learning ranking functions using relative preferences
JP2015062117A (ja) 実体のリンク付け方法及び実体のリンク付け装置
US8438080B1 (en) Learning characteristics for extraction of information from web pages
CN111368094A (zh) 实体知识图谱建立、属性信息获取、门诊分诊方法及装置
CN110472062B (zh) 识别命名实体的方法及装置
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
JP2018147392A (ja) モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム
KR101089163B1 (ko) 학습 콘텐츠 제공 장치 및 그 방법
CN105243053B (zh) 提取文档关键句的方法及装置
JP6726638B2 (ja) 含意認識装置、方法、及びプログラム
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN114385930A (zh) 一种兴趣点推荐方法及***
CN112559691A (zh) 语义相似度的确定方法及确定装置、电子设备
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R150 Certificate of patent or registration of utility model

Ref document number: 6726638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150