JP7178848B2

JP7178848B2 - 類義語判定装置および類義語判定方法

Info

Publication number: JP7178848B2
Application number: JP2018180949A
Authority: JP
Inventors: 高明春名; 理竹内; 琢也小田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2022-11-28
Anticipated expiration: 2038-09-26
Also published as: JP2020052690A; US20200097552A1

Description

本発明は、単語同士が類義語かどうかを判定可能な類義語判定装置および類義語判定方法に関する。

医療等の現場では、例えば、レセプトの記入ミスや不正請求のチェックが、コンピュータを補助的に使用しながら、膨大なマンパワーをかけて行われている。このようなチェックでは、文書のキーワード検索が行われることがある。文書の検索精度を上げるには、ユーザが指定した検索語だけでなく、その検索語に類義する類義語も検索キーワードに含めることが重要である。

特許文献１には、文書内に出現する単語を高次元空間内の数値的表現(出現確率)で結び付けるための学習を行わせる方法が開示されている。特許文献２には、各データ間の類似度や相関係数、共起度などの値をもとにデータ集合に含まれるデータを階層的に抽象化し、分類(クラスタリング)する方法が開示されている。

米国特許第９０３７４６４号明細書特開２０１１－３１５６号公報

しかしながら、特許文献１に開示された方法では、類義語の判定精度を向上させるには、文書内に出現する単語を出現確率で結び付けるための膨大なデータを用いた学習が必要だった。

特許文献２に開示された方法では、共通の上位概念を持つ下位概念を類義語として抽出するため、類義性のない単語も類義語として抽出され、類義語の抽出精度を向上させるには、類義語判定に十分な属性を付与するために要する人的な作業量が大きくなっていた。

本発明は、上記事情に鑑みなされたものであり、その目的は、データ量および人的な作業量を低減しつつ、類義語の判定精度を向上させることが可能な類義語判定装置および類義語判定方法を提供することにある。

上記目的を達成するため、第１の観点に係る類義語判定装置は、第１属性を持つ単語と、前記第１属性と関連する第２属性を持つ単語との間の共起指数に基づいて、前記第２属性を共通に持つ単語間の類義性を判定する。

本発明によれば、データ量および人的な作業量を低減しつつ、類義語の判定精度を向上させることができる。

図１は、第１実施形態に係る文書検索システムの構成を示すブロック図である。図２は、図１の単語－属性対応表の具体例を示す図である。図３は、図１の属性関係表の具体例を示す図である。図４は、図１の属性関係表から選択された属性を持つ単語に属性タグを付与した結果の具体例を示す図である。図５は、図１の文書－属性タグ対応表の具体例を示す図である。図６は、図１の関連単語対応表の具体例を示す図である。図７は、図１の単語共起指数計算結果から抽出された類義語候補の具体例を示す図である。図８は、図１の類義語辞書の具体例を示す図である。図９は、図１の類義語除外リストの具体例を示す図である。図１０は、図１の文書検索システムの類義語辞書更新処理を示すフローチャートである。図１１は、図１の文書検索システムの属性タグ付与処理を示すフローチャートである。図１２は、図１の文書検索システムの属性関連単語検索処理を示すフローチャートである。図１３は、図１の文書検索システムの類義語登録処理を示すフローチャートである。図１４は、図１の文書検索システムの文書検索処理を示すフローチャートである。図１５は、図１の端末に表示される属性関係選択画面の具体例を示す図である。図１６は、図１の端末に表示される探索条件設定画面および探索結果画面の具体例を示す図である。図１７は、第２実施形態に係る文書検索システムの構成を示すブロック図である。図１８は、図１７の原文リンク表の具体例を示す図である。図１９は、図１７の文書検索システムで用いられる原文書および加工文書の具体例を示す図である。図２０は、図１７の文書検索システムの類義語辞書更新処理を示すフローチャートである。図２１は、第３実施形態に係る文書検索システムの構成を示すブロック図である。図２２は、図２１の論理関係辞書の具体例を示す図である。図２３は、図２１の文書検索システムの類義語辞書更新処理を示すフローチャートである。図２４は、図２１の文書検索システムの共起指数補正処理を示すフローチャートである。図２５は、第４実施形態に係る文書検索システムの類義語候補の抽出例を示す図である。

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、第１実施形態に係る文書検索システムの構成を示すブロック図である。
図１において、管理拠点１は、文書検索システムを備える。管理拠点１と遠隔拠点５、６は、ネットワーク７を介して接続されている。ネットワーク７は、インターネットなどのＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であってもよいし、イーサーネットまたはＷｉＦｉなどのＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってもよいし、ＷＡＮとＬＡＮが混在していてもよい。

文書検索システムは、サーバ２Ａおよび端末４を備える。サーバ２Ａは、文書から抽出した単語が類義語かどうかを判定したり、文書に対するキーワード検索を実施したりする。文書から抽出した単語が類義語かどうかを判定する場合、サーバ２Ａは、単語が持つ属性と、単語間の共起指数を参照する。共起指数は、ある単語が文章中に現れたとき、その文章中に別の単語がどの程度頻繁に現れるかを示す指標である。共起指数として、例えば、ｗｏｒｄ２ｖｅｃで提供される単語ベクトル距離を用いるようにしてもよい。

単語間の共起指数を参照する場合、サーバ２Ａは、互いに関連する属性をそれぞれ持つ単語間の共起指数を計算する。そして、共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。

端末４は、サーバ２Ａが抽出した類義語候補をユーザ３に提示したり、ユーザ３からの類義語の登録指示を受け付けたり、ユーザ３が入力した検索キーワードを受け付けたり、検索キーワードに基づく検索結果を表示したりする。

サーバ２Ａは、ＣＰＵ１１、主記憶装置１２、表示インタフェース１３、ネットワークインタフェース１４および二次記憶装置１５を備える。ＣＰＵ１１は、サーバ２Ａ全体の動作制御を司るハードウェアである。主記憶装置１２は、例えば、ＳＲＡＭまたはＤＲＡＭなどの半導体メモリから構成することができる。主記憶装置１２には、ＣＰＵ１１が実行中のプログラムを格納したり、ＣＰＵ１１がプログラムを実行するためのワークエリアを設けたりすることができる。

表示インタフェース１３は、端末４での表示を制御する機能を有するハードウェアである。ネットワークインタフェース１４は、外部との通信を制御する機能を有するハードウェアである。二次記憶装置１５は、大容量の記憶容量を有する記憶デバイスであり、例えば、ハードディスク装置やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。二次記憶装置１５は、各種プログラムの実行ファイルやプログラムの実行に用いられるデータを保持することができる。

主記憶装置１２は、類義語辞書更新処理プログラム１６Ａ、データ管理通信プログラム２０、検索キーワード生成プログラム２５、文書検索プログラム２６、文書－属性タグ対応表２７、関連単語対応表２８および単語共起指数計算結果２９を保持する。類義語辞書更新処理プログラム１６Ａは、属性タグ付与プログラム２１、単語共起指数計算プログラム２２、属性関連単語検索プログラム２３および類義語登録プログラム２４を備える。

類義語辞書更新処理プログラム１６Ａは、単語が持つ属性と、単語間の共起指数に基づいて、単語の組の類義性を判定させる。そして、類義性があると判定された単語を類義語候補としてユーザ３に提示させ、ユーザ３による登録指示に基づいて、その単語を類義語辞書に登録させる。

属性タグ付与プログラム２１は、文書データ３１から抽出した単語に、その属性を示す属性タグを付与させる。単語共起指数計算プログラム２２は、互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算させる。属性関連単語検索プログラム２３は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定させる。類義語登録プログラム２４は、類義性があると判定された単語を類義語候補としてユーザ３に提示させ、ユーザ３による登録指示に基づいて、その単語を類義語辞書に登録させる。

文書－属性タグ対応表２７には、文書データ３１のどの単語に属性タグが付与されたかを示す情報が登録される。関連単語対応表２８には、互いに関連する属性をそれぞれ持つ単語の対応関係が登録される。単語共起指数計算結果２９は、互いに関連する属性を持つ単語間の共起指数の計算結果を保持する。

データ管理通信プログラム２０は、サーバ２Ａとの間で授受されるデータの通信管理を行わせる。検索キーワード生成プログラム２５は、類義語辞書３４に登録された類義語に基づいて、文書検索に用いられる検索キーワードを生成させる。文書検索プログラム２６は、ユーザ３から入力された検索語の類義語が追加された検索キーワードに基づいて文書検索を行わせる。

二次記憶装置１５は、文書データ３１、属性関係表３２、単語－属性対応表３３、類義語辞書３４および類義語除外リスト３５を保持する。

文書データ３１は、例えば、文章が記述されたテキストデータである。文書データ３１のデータ形式は、単語の検索が可能であれば、どのような形式でもよい。属性関係表３２には、単語－属性対応表３３に登録された属性間の関連性が登録される。単語－属性対応表３３には、単語と属性との対応関係が登録される。類義語辞書３４には、類義語と判定された単語が登録される。類義語除外リスト３５には、文章中で同じような場面で出現するが、実際には類義性のない単語が登録される。

遠隔拠点５は、データ管理通信部４１および文書データ４２を備える。遠隔拠点６は、データ管理通信部５１および文書データ５２を備える。サーバ２Ａは、ネットワーク７を介して各遠隔拠点５、６のデータ管理通信部４１、５１にアクセスすることができる。そして、サーバ２Ａは、各遠隔拠点５、６が保持する文書データ４２、５２を取得し、二次記憶装置１５に格納することができる。

ＣＰＵ１１は、類義語辞書更新処理プログラム１６Ａを実行することにより、第１属性を持つ単語と、第１属性と関連する第２属性を持つ単語との間の共起指数に基づいて、第２属性を共通に持つ単語間の類義性を判定する。

例えば、ＣＰＵ１１は、類義語辞書更新処理プログラム１６Ａを実行することにより、第１単語が持つ第１属性と、第２単語および第３単語が持ち、第１属性に関連する第２属性が与えられたときに、第１単語と第２単語との間の第１共起指数と、第１単語と第３単語との間の第２共起指数に基づいて、第２単語と第３単語との類義性を判定する。

このとき、ＣＰＵ１１は、属性関係表３２を参照することにより、第１属性と関連する第２属性を決定することができる。ＣＰＵ１１は、単語－属性対応表３３を参照することにより、第１単語が持つ第１属性を決定し、第２単語および第３単語が持つ第２属性を決定することができる。

ここで、第１単語は、第１共起指数および第２共起指数に基づいて、第２単語と第３単語とを結び付けることができる。このため、第１共起指数および第２共起指数に基づいて第２単語と第３単語との類義性を判定することにより、第２単語と第３単語との間の第３共起指数からでは、第２単語と第３単語との類義性を精度よく判定することができない場合においても、第２単語と第３単語との類義性の判定精度を向上させることができる。

具体的には、ＣＰＵ１１は、属性タグ付与プログラム２１を実行することにより、文書データ３１から抽出した単語に属性タグを付与し、属性タグが付与された単語の位置を文書－属性タグ対応表２７に登録する。

また、ＣＰＵ１１は、単語共起指数計算プログラム２２を実行することにより、互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算し、単語共起指数計算結果２９に格納する。

また、ＣＰＵ１１は、属性関連単語検索プログラム２３を実行することにより、互いに関連する属性をそれぞれ持つ単語を組として関連単語対応表２８に格納する。そして、ＣＰＵ１１は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。

また、ＣＰＵ１１は、類義語登録プログラム２４を実行することにより、類義性があると判定した単語を類義語候補としてユーザ３に提示させる。そして、ＣＰＵ１１は、ユーザ３による登録指示があると、類義語候補として提示させた単語を類義語辞書３４に登録する。一方、ＣＰＵ１１は、ユーザ３による未登録指示があると、類義語候補として提示させた単語を類義語除外リスト３５に登録する。

ここで、単語－属性対応表３３の属性は、単語の一般的な属性を設定することができる。例えば、数千から数万に及ぶ病名に対して病気という属性を対応させ、数千から数万に及ぶ医薬品名に対して医薬品という属性を対応させることができる。このため、数千から数万に及ぶ病名および医薬品名に対して、類義語の判定に必要な十分な属性を詳細に設定する必要がなくなり、類義語の判定に必要な十分な属性を単語に付与するための人的な作業量を低減することができる。また、互いに関連する属性をそれぞれ持つ単語間の共起指数を類義語の判定に用いることで、類義性がない単語が類義性があると誤判定されるのを低減することができ、類義語の判定精度を向上させることができる。

なお、属性タグ付与プログラム２１、単語共起指数計算プログラム２２、属性関連単語検索プログラム２３および類義語登録プログラム２４の実行は、複数のＣＰＵやコンピュータに分担させてもよい。あるいは、ＣＰＵ１１は、ネットワーク７を介してクラウドコンピュータなどに属性タグ付与プログラム２１、単語共起指数計算プログラム２２、属性関連単語検索プログラム２３および類義語登録プログラム２４の全部または一部の実行を指示し、その実行結果を受け取るようにしてもよい。

図２は、図１の単語－属性対応表の具体例を示す図である。
図２において、単語－属性対応表３３には、単語と属性との対応関係が登録される。例えば、糖尿病、脂質異常症および高脂血症などの病名を示す単語に対応させて、病気という属性が登録される。また、例えば、インスリンおよびメバロチンなどの医薬品名を示す単語に対応させて、医薬品という属性が登録される。

図３は、図１の属性関係表の具体例を示す図である。
図３において、属性関係表３２には、属性Ｐに関連する属性Ｐｒが登録される。例えば、病気という属性Ｐに関連する属性Ｐｒとして、医薬品および症状などが登録される。また、医薬品という属性Ｐに関連する属性Ｐｒとして、病気、症状および作用などが登録される。

図４は、図１の属性関係表から選択された属性を持つ単語に属性タグを付与した結果の具体例を示す図である。
図４において、医療分野における類義語を判定するために、文書データ１０１～１０３が与えられたものとする。このとき、ＣＰＵ１１は、図２の単語－属性対応表３３を参照し、単語－属性対応表３３に登録されている単語を文書データ１０１～１０３から抽出する。そして、ＣＰＵ１１は、文書データ１０１～１０３から抽出した単語に対し、単語－属性対応表３３に登録されている属性を示す属性タグを付与することにより、属性タグ付き文書データ１１１～１１３を生成する。

例えば、属性タグ付き文書データ１１１において、糖尿病という単語には、病気という属性を示す属性タグＴＡ１が付与され、インスリンという単語には、医薬品という属性を示す属性タグＴＢ１が付与される。属性タグ付き文書データ１１２において、脂質異常症という単語には、病気という属性を示す属性タグＴＡ２が付与され、メバロチンという単語には、医薬品という属性を示す属性タグＴＢ２が付与される。属性タグ付き文書データ１１３において、高脂血症という単語には、病気という属性を示す属性タグＴＡ３が付与され、メバロチンという単語には、医薬品という属性を示す属性タグＴＢ３が付与される。

属性タグ付き文書データ１１１～１１３は、図１の文書－属性タグ対応表２７の形式で保持することができる。

図５は、図１の文書－属性タグ対応表の具体例を示す図である。
図５において、文書－属性タグ対応表２７には、単語が抽出された文書を識別する文書ＩＤ、その文書中の単語の位置、文書から抽出された単語を識別する単語ＩＤ、文書から抽出された単語およびその単語の属性が登録される。

次に、ＣＰＵ１１は、図４の属性タグ付き文書データ１１１～１１３から、属性タグＴＡ１～ＴＡ３、ＴＢ１～ＴＢ３が付与されていない単語を削除した削除済属性タグ付き文書データ１２１～１２３を生成する。

削除済属性タグ付き文書データ１２１～１２３は、図１の関連単語対応表２８の形式で保持することができる。

図６は、図１の関連単語対応表の具体例を示す図である。
図６において、関連単語対応表２８には、単語を識別する単語ＩＤ、単語、関連単語を識別する関連単語ＩＤ、関連単語および属性関係適用回数（ホップ回数）が登録される。関連単語は、単語が持つ属性に関連する属性を持つ単語である。属性関係適用回数は、図３の属性関係表３２に登録された属性関係を適用する回数である。

図７は、図１の単語共起指数計算結果から抽出された類義語候補の具体例を示す図である。
図７において、図１のＣＰＵ１１は、図４の削除済属性タグ付き文書データ１２１～１２３に対して、例えば、ｗｏｒｄ２ｖｅｃを適用することにより、互いに関連する属性を持つ単語Ｔ１、Ｔ２間の共起指数を計算する。例えば、脂質異常症という単語Ｔ１とインスリンという単語Ｔ２との間の共起指数は、０．２０、脂質異常症という単語Ｔ１とメバロチンという単語Ｔ２との間の共起指数は、０．７５と計算される。

ここで、図４の削除済属性タグ付き文書データ１２１～１２３に対して単語Ｔ１、Ｔ２間の共起指数を計算することにより、文書データ１１１～１１３に対して単語Ｔ１、Ｔ２間の共起指数を計算する方法に比べて、計算にかかる負荷を低減することができる。

次に、ＣＰＵ１１は、互いに関連する属性をそれぞれ持つ単語Ｔ１、Ｔ２間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語Ｔ２の組がある場合、その単語Ｔ２の組は、類義性があると判定する。

例えば、共起指数の下限値が０．７であるものとする。そして、脂質異常症および高脂血症という各単語Ｔ２の属性は病気、メバロチンという単語Ｔ１の属性は医薬品である。図３の属性関係表３２を参照することにより、病気と医薬品は互いに関連する属性と判断される。また、メバロチンという単語Ｔ１と脂質異常症という単語Ｔ２との間の共起指数は、０．７５、メバロチンという単語Ｔ１と高脂血症という単語Ｔ２との間の共起指数は、０．７６である。このため、脂質異常症および高脂血症という各単語Ｔ２に対して、メバロチンという単語Ｔ１との間で計算された共起指数は、下限値以上であり、かつ、脂質異常症および高脂血症という各単語Ｔ２は、病気という同一属性を持っている。このため、ＣＰＵ１１は、脂質異常症と高脂血症は、類義性があると判定し、類義語候補とすることができる。

次に、ＣＰＵ１１は、高脂血症という単語を脂質異常症という単語の類義語候補としてユーザ３に提示する。そして、ユーザ３は、高脂血症という単語が脂脂質異常症という単語の類義語であると判断し、登録指示を行うと、ＣＰＵ１１は、高脂血症という単語を脂脂質異常症という単語の類義語として類義語辞書３４に登録する。

図８は、図１の類義語辞書の具体例を示す図である。
図８において、類義語辞書３４には、類義語を代表する代表語、代表語に類義する単語、単語の属性および類義語辞書を識別する辞書ＩＤが登録される。例えば、脂脂質異常症という単語の類義語として、高脂血症、高トリグリセライド血症、高コレステロール血症、高リポ蛋白血症、食事性高脂血症および本能性高脂血症という単語が登録される。また、歯周病という単語の類義語として、歯周疾患、ペリオおよび歯槽膿漏という単語が登録される。

一方、ＣＰＵ１１は、例えば、かぜという単語と、インフルエンザという単語は、類義性があると判定し、類義語候補としてユーザに提示したものとする。そして、ユーザ３は、かぜという単語がインフルエンザという単語の類義語でないと判断し、未登録指示を行うと、ＣＰＵ１１は、インフルエンザという単語をかぜという単語の未類義語として類義語除外リスト３５に登録する。

図９は、図１の類義語除外リストの具体例を示す図である。
図９において、類義語除外リスト３５には、互いに未類義語である単語Ｔ１、Ｔ２およびそれらの単語Ｔ１、Ｔ２の属性が登録される。例えば、例えば、かぜという単語Ｔ１の未類義語として、インフルエンザおよびおたふくかぜという単語Ｔ２が登録され、はしかという単語Ｔ１の未類義語として、三日ばしかという単語Ｔ２が登録され、ぜんそくという単語Ｔ１の未類義語として、慢性気管支炎およびアレルギー性鼻炎という単語Ｔ２が登録されている。

図１０は、図１の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図１０において、図１のＣＰＵ１１は、類義語判定に用いる属性関係表３２を読み込む（Ｓ１１）。そして、ＣＰＵ１１は、属性関係表３２に登録された属性関係を図１の端末４に表示させる。

次に、ユーザ３は、端末４に表示された属性関係から、今回の類義語判定に適用する属性関係を選択する（Ｓ１２）。次に、ユーザ３は、今回の類義語判定に適用する属性関係の適用回数ｋ（ｋは正の整数）および単語共起指数下限値Ｌを端末４上で指定する（Ｓ１３）。

次に、ＣＰＵ１１は、全ての文書データを処理したかどうかを判断する（Ｓ１４）。ＣＰＵ１１は、全ての文書データを処理した場合、類義語辞書更新処理を終了する。一方、ＣＰＵ１１は、全ての文書データを処理してない場合、次の文書データＤを選択する（Ｓ１５）。

次に、ＣＰＵ１１は、類義語判定に適用する全ての属性Ｐについて、図１の単語－属性対応表３３を参照し、文書データＤ上の属性Ｐを持つ単語に属性タグを付与する（Ｓ１６）。このとき、ＣＰＵ１１は、属性タグが付与された文書データＤ上の単語の位置を図５の文書－属性タグ対応表２７に登録する。

次に、ＣＰＵ１１は、属性タグが付与されていない単語を文書データＤから削除する（Ｓ１７）。

次に、ＣＰＵ１１は、例えば、ｗｏｒｄ２ｖｅｃを用いることにより、属性タグが付与されていない単語が削除された文書データＤ内の残りの単語について共起指数を計算する（Ｓ１８）。

次に、ＣＰＵ１１は、文書データＤ上の属性Ｐを持つ全ての単語について共起指数を計算したかどうかを判断する（Ｓ１９）。ＣＰＵ１１は、文書データＤ上の属性Ｐを持つ全ての単語について共起指数を計算した場合、Ｓ１４に戻る。一方、ＣＰＵ１１は、文書データＤ上の属性Ｐを持つ全ての単語について共起指数を計算してない場合、属性関係を適用回数ｋだけ適用したかどうかを判断する（Ｓ２０）。ＣＰＵ１１は、属性関係を適用回数ｋだけ適用した場合、Ｓ１９に戻る。一方、ＣＰＵ１１は、属性関係を適用回数ｋだけ適用していない場合、次の単語Ｗｉについて、属性Ｐとの属性関連単語検索処理を実行し（Ｓ２１）、Ｓ２０に戻る。

図１１は、図１の文書検索システムの属性タグ付与処理を示すフローチャートである。ＣＰＵ１１は、図１０のＳ１６で図１１の属性タグ付与処理を呼び出すことができる。
図１１において、ＣＰＵ１１は、図１のユーザ３が選択した属性関係の組Ｒ_１、Ｒ_２、・・・Ｒ_ｅ（ｅは正の整数）に含まれる属性の集まりをＳ_Ｐとする（Ｓ２２）。

次に、ＣＰＵ１１は、属性の集まりＳ_Ｐに含まれる属性全てについて属性タグ付与処理が完了したかどうかを判断する（Ｓ２３）。ＣＰＵ１１は、属性の集まりＳ_Ｐに含まれる属性全てについて属性タグ付与処理が完了した場合、属性タグ付与処理を終了する。一方、ＣＰＵ１１は、属性の集まりＳ_Ｐに含まれる属性全てについて属性タグ付与処理が完了していない場合、属性の集まりＳ_Ｐから次の属性Ｐを取り出す（Ｓ２４）。

次に、ＣＰＵ１１は、図１の単語－属性対応表３３から、属性Ｐを持つ単語の集まりＳ_Ｔを抽出する（Ｓ２５）。

次に、ＣＰＵ１１は、単語の集まりＳ_Ｔの要素全てについて属性タグ付与処理が完了したかどうかを判断する（Ｓ２６）。ＣＰＵ１１は、単語の集まりＳ_Ｔの要素全てについて属性タグ付与処理が完了した場合、Ｓ２３に戻る。一方、ＣＰＵ１１は、単語の集まりＳ_Ｔの要素全てについて属性タグ付与処理が完了してない場合、単語の集まりＳ_Ｔから次の単語Ｔを取り出す（Ｓ２７）。

次に、ＣＰＵ１１は、図１０のＳ１５で選択した文書データＤに単語Ｔが含まれるかどうかを判断する（Ｓ２８）。ＣＰＵ１１は、単語Ｔが文書データＤに含まれない場合、Ｓ２６に戻る。一方、ＣＰＵ１１は、単語Ｔが文書データＤに含まれる場合、文書データＤの文書ＩＤ、文書データＤ内の単語Ｔの出現位置、単語Ｔの単語ＩＤ、単語Ｔの属性ＰのＩＤからなるレコードを文書－属性タグ対応表２７に登録し（Ｓ２９）、Ｓ２６に戻る。

図１２は、図１の文書検索システムの属性関連単語検索処理を示すフローチャートである。ＣＰＵ１１は、図１０のＳ２１で図１２の性関連単語検索処理を呼び出すことができる
図１２において、ＣＰＵ１１は、図１の単語－属性対応表３３を参照することにより、図１０のＳ２１で与えられた単語Ｗｉの属性Ｐを取得する（Ｓ３１）。

次に、ＣＰＵ１１は、図１の属性関係表３２内でユーザ３が選択した属性関係から、属性Ｐと関連する属性Ｐｒを取得する（Ｓ３２）。

次に、ＣＰＵ１１は、全ての属性Ｐｒについて属性関連単語検索処理が完了したかどうかを判断する（Ｓ３３）。ＣＰＵ１１は、全ての属性Ｐｒについて属性関連単語検索処理が完了した場合、属性関連単語検索処理を終了する。一方、ＣＰＵ１１は、全ての属性Ｐｒについて属性関連単語検索処理が完了してない場合、次の属性Ｐｒを取得する（Ｓ３４）。

次に、ＣＰＵ１１は、属性Ｐｒを持つ単語Ｗｊを文書データＤから抽出する（Ｓ３５）。このとき、ＣＰＵ１１は、文書データＤから抽出できる単語Ｗｊがあるかどうかを判断する（Ｓ３６）。ＣＰＵ１１は、文書データＤから抽出できる単語Ｗｊがない場合、Ｓ３３に戻る。一方、ＣＰＵ１１は、文書データＤから抽出できる単語Ｗｊがある場合、次の抽出単語Ｗｊを選択する（Ｓ３７）。

次に、ＣＰＵ１１は、単語Ｗｉと単語Ｗｊとの共起指数を図１の単語共起指数計算結果２９から取得する（Ｓ３８）。

次に、ＣＰＵ１１は、単語Ｗｉと単語Ｗｊとの間の共起指数が下限値Ｌ以上かどうかを判断する（Ｓ３９）。ＣＰＵ１１は、単語Ｗｉと単語Ｗｊとの間の共起指数が下限値Ｌ以上でない場合、Ｓ３５に戻る。一方、ＣＰＵ１１は、単語Ｗｉと単語Ｗｊとの間の共起指数が下限値Ｌ以上である場合、単語Ｗｉと単語Ｗｊとの組を図１の関連単語対応表２８に登録する（Ｓ４０）。

次に、ＣＰＵ１１は、単語Ｗｉと属性が関連する単語Ｗｊ中の単語の組Ｗｊ１、Ｗｊ２について類義語確認処理を実行する（Ｓ４１）。

次に、ＣＰＵ１１は、ＷｊをＷｉとし、ＰｒをＰとして、Ｓ３１に戻る（Ｓ４２）。

図１３は、図１の文書検索システムの類義語登録処理を示すフローチャートである。ＣＰＵ１１は、図１２のＳ４１で図１３の類義語登録処理を呼び出すことができる。
図１３において、ＣＰＵ１１は、単語の組Ｗｊ１、Ｗｊ２の組が図１の類義語辞書３４に登録済かどうか判断する（Ｓ５１）。ＣＰＵ１１は、単語の組Ｗｊ１、Ｗｊ２の組が類義語辞書３４に登録済の場合、類義語登録処理を終了する。

一方、ＣＰＵ１１は、単語の組Ｗｊ１、Ｗｊ２が類義語辞書３４に登録済でない場合、単語の組Ｗｊ１、Ｗｊ２が図１の類義語除外リスト３５に登録済かどうか判断する（Ｓ５２）。単語の組Ｗｊ１、Ｗｊ２が図１の類義語除外リスト３５に登録済の場合、類義語登録処理を終了する。

一方、ＣＰＵ１１は、単語の組Ｗｊ１、Ｗｊ２が図１の類義語除外リスト３５に登録済でない場合、単語の組Ｗｊ１、Ｗｊ２の組を類義語候補としてユーザ３に提示する（Ｓ５３）。

次に、ユーザ３は、単語の組Ｗｊ１、Ｗｊ２が類義語かどうかを判断する（Ｓ５４）。ＣＰＵ１１は、ユーザ３が単語の組Ｗｊ１、Ｗｊ２を類義語と判断すると、単語の組Ｗｊ１、Ｗｊ２を類義語として類義語辞書３４に登録する（Ｓ５５）。一方、ＣＰＵ１１は、ユーザ３が単語の組Ｗｊ１、Ｗｊ２を類義語でないと判断すると、単語の組Ｗｊ１、Ｗｊ２を類義語でないとして類義語除外リスト３５に登録する（Ｓ５６）。

図１４は、図１の文書検索システムの文書検索処理を示すフローチャートである。
図１４において、図１のＣＰＵ１１は、属性関係表３２が更新されているかどうか判断する（Ｓ１０１）。ＣＰＵ１１は、属性関係表３２が更新されていない場合、Ｓ１０３に進む。一方、ＣＰＵ１１は、属性関係表３２が更新されている場合、図１０の類義語辞書更新処理を実行する（Ｓ１０２）。

次に、ＣＰＵ１１は、ユーザ３から検索語入力を受け付けると（Ｓ１０３）、検索語の類義語を類義語辞書３４から取得する（Ｓ１０４）。

次に、ＣＰＵ１１は、類義語辞書３４から取得した類義語を検索用に追加したキーワードとしてユーザ３に提示する（Ｓ１０５）。

次に、ＣＰＵ１１は、ユーザ３による類義語辞書３４の更新要求があるかどうか判断する（Ｓ１０６）。ＣＰＵ１１は、ユーザ３による類義語辞書３４の更新要求がある場合、図１０の類義語辞書更新処理を実行し（Ｓ１０７）、Ｓ１０４に戻る。一方、ＣＰＵ１１は、ユーザ３による類義語辞書３４の更新要求がない場合、ユーザ３によるキーワードの確認および編集が行われるまで待機する（Ｓ１０８）。

次に、ＣＰＵ１１は、ユーザ３によるキーワードの確認および編集が行われると、文書データ３１のキーワード検索を実行し（Ｓ１０９）、文書データ３１の検索結果をユーザ３に提示する。

次に、ユーザ３は、文書データ３１の検索結果を確認する（Ｓ１１０）。そして、ユーザ３は、検索結果がＯＫかどうかを判断し（Ｓ１１１）、ユーザ３が検索結果ＯＫという指示を出すと、ＣＰＵ１１は、文書検索処理を終了する。一方、ＣＰＵ１１は、ユーザ３が検索結果ＯＫでないという指示を出すと、Ｓ１０６に戻る。

図１５は、図１の端末に表示される属性関係選択画面の具体例を示す図である。なお、この属性関係選択画面２０２は、ユーザ３が図１０のＳ１２の操作を実施する時に端末４の表示画面２０１に表示される。
図１５において、属性関係選択画面２０２には、属性関係を識別する識別番号２０３、属性Ｐと属性Ｐに関連する属性Ｐｒの組の表示欄２０４、２０５および属性関係を選択するチェックボックス２０６が表示される。

そして、例えば、ユーザ３が病気という属性Ｐに関連する属性Ｐｒとして医薬品を選択するものとすると、識別番号２０３が１に対応するチェックボックス２０６にチェックを入れる。チェックボックス２０６にチェックが入ると、ＣＰＵ１１は、選択確認画面２０７を表示画面２０１に表示させる。そして、ユーザ３が選択確認画面２０７上で「はい」を選択し、確認ボタンを押下すると、ＣＰＵ１１は、図１０の類義語辞書更新処理において、この属性関係を適用する。

図１６は、図１の端末に表示される探索条件設定画面および探索結果画面の具体例を示す図である。なお、この探索条件設定画面２１６は、ユーザ３が図１０のＳ１３の操作を実施する時に端末４の表示画面２０１に表示される。探索結果画面２１９は、ＣＰＵ１１が図１３のＳ５３の処理を実行する時に端末４の表示画面２０１に表示される。

図１６において、識別番号２０３が１と６に対応する属性関係をユーザ３が図１５の属性関係選択画面２０２で選択したものとすると、識別番号２０３が１と６に対応する属性関係を示す属性関係選択結果画面２１２が表示画面２０１に表示される。

また、属性関係選択結果画面２１２とともに探索条件設定画面２１６が表示画面２０１に表示される。探索条件設定画面２１６には、単語共起指数下限値の入力欄２１７および属性関係適用回数の入力欄２１８が表示される。そして、ユーザ３は、例えば、探索条件設定画面２１６上で単語共起指数下限値を０．７、属性関係適用回数を２に設定することができる。

ＣＰＵ１１は、単語共起指数下限値および属性関係適用回数が設定されると、図１０の類義語辞書更新処理において、ある単語に対する類語語候補を探索する。そして、ＣＰＵ１１は、図１３のＳ５３の処理において、類語語探索結果画面２１９を表示画面２０１に表示させることで、ある単語に対する類語語候補をユーザ３に提示する。類語語探索結果画面２１９には、ある単語と類語語候補の組を識別する識別番号２２０およびある単語と類語語候補の組の表示欄２２１、２２２が表示される。

そして、例えば、ユーザ３が類語語探索結果画面２１９上で「脂質異常症」と「肥満」という組を選択し、削除ボタンを押下すると、ＣＰＵ１１は、削除確認画面２２３を表示画面２０１に表示させる。そして、ユーザ３が削除確認画面２２３上で「はい」を選択すると、ＣＰＵ１１は、「脂質異常症」と「肥満」という組を類義語辞書３４から削除する。

図１７は、第２実施形態に係る文書検索システムの構成を示すブロック図である。
図１７において、この文書検索システムは、図１のサーバ２Ａの代わりにサーバ２Ｂを備える。サーバ２Ｂは、サーバ２Ａと同様の構成を持つ。

ただし、サーバ２Ｂの主記憶装置１２は、図１の類義語辞書更新処理プログラム１６Ａの代わりに類義語辞書更新処理プログラム１６Ｂを保持する。類義語辞書更新処理プログラム１６Ｂは、類義語辞書更新処理プログラム１６Ａと同様の処理を実現する。ただし、類義語辞書更新処理プログラム１６Ｂは、図１０のＳ１７で属性タグが付与されていない単語を文書データＤから削除させる場合、その単語を削除する前の原文のアクセス先を保持させる。また、サーバ２Ｂの二次記憶装置１５は、サーバ２Ａの二次記憶装置１５の記憶内容に加え、加工文書データ３６および原文リンク表３７を保持する。

図１８は、図１７の原文リンク表の具体例を示す図である。
図１８において、原文リンク表３７には、加工文書を識別する加工文書ＩＤ、加工文書が格納された文書場所、加工文書の格納開始位置、加工文書の格納終了位置、原文書を識別する原文書ＩＤ、原文書が格納された文書場所、原文書の格納開始位置および原文書の格納終了位置が登録される。文書場所は、データを格納する装置名で指定することができ、例えば、中央サーバ、ディスク装置Ｄ１とすることができる。

図１９は、図１７の文書検索システムで用いられる原文書および加工文書の具体例を示す図である。
図１９において、ＣＰＵ１１は、例えば、文書データ１０２から削除済属性タグ付き文書データ１２２を生成したものとする。このとき、ＣＰＵ１１は、例えば、文書データ１０２に原文書ＩＤ＝２４１を付与し、中央サーバ、ディスク装置Ｄ１の開始位置＝４から終了位置＝６に文書データ１０２が保存されているという情報を原文リンク表３７に登録する。また、ＣＰＵ１１は、例えば、削除済属性タグ付き文書データ１２２に加工文書ＩＤ＝１０５３を付与し、中央サーバ、ディスク装置Ｄ１の開始位置＝１から終了位置＝３に削除済属性タグ付き文書データ１２２が保存されているという情報を原文リンク表３７に登録する。

図２０は、図１７の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図２０の類義語辞書更新処理は、図１０の類義語辞書更新処理のＳ１５およびＳ１７の代わりにＳ１５ＡおよびＳ１７Ａを備える。

Ｓ１５Ａでは、Ｓ１５の次の文書データＤを選択する処理に、文書データＤの内容を加工文書データＤｍにコピーする処理が追加される。Ｓ１７Ａでは、Ｓ１７の属性タグが付与されていない単語を文書データＤから削除する処理に、図１７の原文リンク表３７を更新する処理が追加される。

ここで、サーバ２Ｂは、原文リンク表３７を保持することにより、属性タグが付与されていない単語を文書データＤから削除した場合においても、属性タグが付与されていない単語が削除される前の文書データＤにアクセスすることができる。

図２１は、第３実施形態に係る文書検索システムの構成を示すブロック図である。
図２１において、この文書検索システムは、図１のサーバ２Ａの代わりにサーバ２Ｃを備える。サーバ２Ｃは、サーバ２Ａと同様の構成を持つ。

ただし、サーバ２Ｃの主記憶装置１２は、図１の類義語辞書更新処理プログラム１６Ａの代わりに類義語辞書更新処理プログラム１６Ｃを保持する。類義語辞書更新処理プログラム１６Ｃは、類義語辞書更新処理プログラム１６Ａと同様の処理を実現する。ただし、類義語辞書更新処理プログラム１６Ｃは、文書から抽出した単語が類義語かどうかを判定させる場合、単語が持つ属性と、単語間の共起指数と、単語間の論理関係を参照させる。単語間の論理関係は、例えば、単語間の従属関係（ｐａｒｔｏｆ）または単語間の同義関係（ｉｓａ）である。

この場合、類義語辞書更新処理プログラム１６Ｃには、共起指数補正プログラム３０を追加することができる。共起指数補正プログラム３０は、単語間の論理関係に基づいて、単語間の共起指数を補正させる。また、サーバ２Ｃの二次記憶装置１５は、サーバ２Ｂの二次記憶装置１５の記憶内容に加え、論理関係辞書３８を保持する。論理関係辞書３８は、論理関係を持つ単語の組を登録する。

図２２は、図２１の論理関係辞書の具体例を示す図である。
図２２において、論理関係辞書３８には、論理関係を持つ単語Ｔ１、Ｔ２の組が登録される。例えば、論理関係辞書３８には、脂肪肝という単語Ｔ１と肝疾患という単語Ｔ２に対し、ｉｓ－ａという論理関係が登録され、食道という単語Ｔ１と消化器系という単語Ｔ２に対し、ｐａｒｔ－ｏｆという論理関係が登録されている。

図２３は、図２１の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図２３の類義語辞書更新処理は、図１０の類義語辞書更新処理のＳ１７が除去され、図１０の類義語辞書更新処理のＳ１８の代わりにＳ１８ＡおよびＳ１８Ｂを備える。

図１０の類義語辞書更新処理のＳ１８では、属性タグが付与されていない単語が削除された文書データＤ内の残りの単語について共起指数を計算するが、図２３の類義語辞書更新処理のＳ１８Ａでは、属性タグが付与されていない単語が削除される前の文書データＤ内の単語について共起指数を計算する。

ここで、属性タグが付与されていない単語が削除される前の文書データＤ内の単語について共起指数を計算することにより、属性タグが付与されている単語の共起指数の計算において、属性タグが付与されていない単語との間の共起指数を反映させることができ、属性タグが付与されている単語の共起指数の計算精度を向上させることができる。

次に、ＣＰＵ１１は、論理関係辞書３８を参照し、文書データＤ内の単語について計算された共起指数を補正する（Ｓ１８Ｂ）。

図２４は、図２１の文書検索システムの共起指数補正処理を示すフローチャートである。
図２４において、図２１のＣＰＵ１１は、図２３のＳ１８Ａで共起指数を計算した全ての単語の組について共起指数補正処理を実行したかどうかを判断する（Ｓ６１）。ＣＰＵ１１は、全ての単語の組について共起指数補正処理を実行した場合、共起指数補正処理を終了する。一方、ＣＰＵ１１は、全ての単語の組について共起指数補正処理を実行していない場合、ＣＰＵ１１は、共起指数を計算した次の単語の組およびその単語の組の共起指数を単語共起指数計算結果２９から取り出す（Ｓ６２）。

次に、ＣＰＵ１１は、Ｓ６２で取り出したどちらの単語も属性タグを持つかどうかを判断する（Ｓ６３）。ＣＰＵ１１は、どちらの単語も属性タグを持つ場合、Ｓ６６に進む。一方、ＣＰＵ１１は、どちらの単語も属性タグを持つという条件を満たさない場合、属性タグを持たない単語との間の共起指数に所定の係数ｎ（０＜ｎ＜１）を乗じ（Ｓ６４）、Ｓ６４の計算結果の値で単語共起指数計算結果２９の値を置き換える（Ｓ６５）。

次に、ＣＰＵ１１は、Ｓ６２で取り出した単語の組が論理関係辞書３８に登録されているかどうかを判断する（Ｓ６６）。ＣＰＵ１１は、単語の組が論理関係辞書３８に登録されている場合、Ｓ６１に戻る。一方、ＣＰＵ１１は、単語の組が論理関係辞書３８に登録されていない場合、単語の組の共起指数に所定の係数ｍ（１＜ｍ）を乗じ（Ｓ６７）、Ｓ６７の計算結果の値で単語共起指数計算結果２９の値を置き換える（Ｓ６８）。

なお、上述した第３実施形態では、図２３の類義語辞書更新処理のＳ１８Ａにおいて、属性タグが付与されていない単語が削除される前の文書データＤ内の単語について共起指数を計算する方法について説明したが、図１０および図２０の類義語辞書更新処理のＳ１８と同様に、属性タグが付与されていない単語が削除された文書データＤ内の残りの単語について共起指数を計算するようにしてもよい。この場合、図２４の共起指数補正処理において、Ｓ６３からＳ６５までの処理を省略することができる。

また、上述した第１実施形態および第２実施形態では、図１０および図２０の類義語辞書更新処理のＳ１８において、属性タグが付与されていない単語が削除された文書データＤ内の残りの単語について共起指数を計算する方法について説明したが、図２３の類義語辞書更新処理のＳ１８Ａと同様に、属性タグが付与されていない単語が削除される前の文書データＤ内の単語について共起指数を計算するようにしてもよい。

さらに、上述した第３実施形態では、単語が持つ属性と、単語間の共起指数と、単語間の論理関係に基づいて、単語間の類義性を判定する方法について説明したが、単語間の共起指数と、単語間の論理関係に基づいて、単語間の類義性を判定するようにしてもよい。このとき、論理関係を持つ単語間の共起指数が下限値以上の場合、それらの単語間に類義性があると判定することができる。

以上の説明では、医療分野における文書の検索方法を例にとって説明したが、本発明は、設備保守などの医療分野以外の文書の検索方法に適用してもよい。

図２５は、第４実施形態に係る文書検索システムの類義語候補の抽出例を示す図である。
図２５において、単語－属性対応表３３Ａには、紙幣ジャム、札詰まりおよびクシャクシャなどの症状名を示す単語に対応させて、症状という属性が登録される。また、単語－属性対応表３３Ａには、紙片除去およびカセット交換などの対策名を示す単語に対応させて、対策という属性が登録される。属性関係表３２Ａには、互いに関連する属性として症状と対策が登録される。

設備保守の分野における類義語を判定するために、文書データ３０１～３０３が与えられたものとする。このとき、ＣＰＵ１１は、単語－属性対応表３３Ａを参照し、単語－属性対応表３３Ａに登録されている単語を文書データ３０１～３０３から抽出する。そして、ＣＰＵ１１は、文書データ３０１～３０３から抽出した単語に対し、単語－属性対応表３３Ａに登録されている属性を示す属性タグを付与することにより、属性タグ付き文書データ３１１～３１３を生成する。

例えば、属性タグ付き文書データ３１１において、紙幣ジャムという単語には、症状という属性を示す属性タグＴＡ４が付与され、紙片除去という単語には、対策という属性を示す属性タグＴＢ４が付与される。属性タグ付き文書データ３１２において、札詰まりという単語には、症状という属性を示す属性タグＴＡ５が付与され、紙片除去という単語には、対策という属性を示す属性タグＴＢ５が付与される。グ付き文書データ３１３において、クシャクシャという単語には、症状という属性を示す属性タグＴＡ６が付与され、カセット交換という単語には、対策という属性を示す属性タグＴＢ６が付与される。

次に、ＣＰＵ１１は、属性タグ付き文書データ３１１～３１３から、属性タグＴＡ４～ＴＡ６、ＴＢ４～ＴＢ６が付与されていない単語を削除した削除済属性タグ付き文書データ３２１～３２３を生成する。

次に、ＣＰＵ１１は、削除済属性タグ付き文書データ３２１～３２３に対して、例えば、ｗｏｒｄ２ｖｅｃを適用することにより、互いに関連する属性を持つ単語間の共起指数を計算し、単語共起指数計算結果２９Ａに格納する。例えば、紙幣ジャムという単語とカセット交換という単語との間の共起指数は、０．２０、紙幣ジャムという単語と紙片除去という単語との間の共起指数は、０．７５と計算される。

次に、ＣＰＵ１１は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。

例えば、共起指数の下限値が０．７であるものとする。そして、紙幣ジャムおよび札詰まりという各単語の属性は症状、紙片除去という単語の属性は対策である。属性関係表３２Ａを参照することにより、症状と対策は互いに関連する属性と判断される。また、紙片除去という単語と紙幣ジャムという単語との間の共起指数は、０．７５、紙片除去という単語と札詰まりという単語との間の共起指数は、０．７６である。このため、紙幣ジャムおよび札詰まりという各単語に対して、紙片除去という単語との間で計算された共起指数は、下限値以上であり、かつ、紙幣ジャムおよび札詰まりという各単語は、症状という同一属性を持っている。このため、ＣＰＵ１１は、紙幣ジャムと札詰まりは、類義性があると判定し、類義語候補とすることができる。

１６Ａ類義語辞書更新処理プログラム、２０データ管理通信プログラム、２１属性タグ付与プログラム、２２単語共起指数計算プログラム、２３属性関連単語検索プログラム、２４類義語登録プログラム、２５検索キーワード生成プログラム、２６文書検索プログラム

Claims

文書データを入力とし、該文書データに含まれる単語について、意味的な属性である第１属性を持つ単語と、前記第１属性と関連する意味的な属性である第２属性を持つ単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を取得し、前記第２属性を共通に持つ単語の対の両方の前記第１属性を持つ単語との共起指数が下限値以上であれば、該対の単語同士に類義性があると判定する類義語判定装置。
前記第１属性を持つ第１単語と、前記第２属性を持つ第２単語との間の第１共起指数を計算し、
前記第１属性を持つ前記第１単語と、前記第２属性を持つ第３単語との間の第２共起指数を計算し、
前記第１共起指数および前記第２共起指数に基づいて、前記第２単語と前記第３単語との類義性を判定する請求項１に記載の類義語判定装置。
前記第１属性と関連する前記第２属性が登録された属性関係表と、
単語と属性との対応関係が登録された単語－属性対応表とを備え、
前記属性関係表に基づいて、前記第１属性と前記第２属性とが関連していることを特定し、
前記単語－属性対応表に基づいて、前記第１属性を持つ単語と、前記第２属性を持つ単語とを特定する、
請求項１に記載の類義語判定装置。
前記第１共起指数および前記第２共起指数が下限値以上の場合、前記第３単語を前記第２単語の類義語候補として提示し、
前記第３単語を前記第２単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第３単語を前記第２単語の類義語として登録する請求項２に記載の類義語判定装置。
文書データから抽出した単語に前記単語の属性を示す属性タグを付与し、
互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算する請求項１に記載の類義語判定装置。
前記属性タグが付与されていない単語が削除された前記文書データの残りの単語について前記共起指数を計算する請求項５に記載の類義語判定装置。
前記属性タグが付与されていない単語が削除されていない前記文書データの単語について前記共起指数を計算する請求項５に記載の類義語判定装置。
単語間の論理関係が登録された論理関係辞書を備え、前記文書データから抽出した単語間の論理関係の有無を前記論理関係辞書に基づいて特定し、前記単語間に論理関係が無ければ、前記単語間の共起指数を値が小さくなるように補正する請求項５に記載の類義語判定装置。
単語間の論理関係が登録された論理関係辞書を備え、
文書データを入力とし、該文書データに含まれる単語について、前記論理関係辞書に基づき論理関係を持つ第１単語と第２単語とを特定し、前記第１単語と前記第２単語の間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を計算し、
前記共起指数が下限値以上であれば、前記第１単語と前記第２単語とに類義性があると判定する類義語判定装置。
ＣＰＵを備える類義語判定方法であって、
前記ＣＰＵは、文書データを入力とし、該文書データに含まれる単語のうち、第１単語が持つ意味的な属性である第１属性と、第２単語および第３単語が持つ意味的な属性である第２属性が関連しているときに、前記第１単語と前記第２単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である第１共起指数と、前記第１単語と前記第３単語との間の前記指標である第２共起指数とを取得し、前記第１共起指数と前記第２共起指数が下限値以上であれば、前記第２単語と前記第３単語とに類義性があると判定する類義語判定方法。
前記ＣＰＵは、前記第３単語を前記第２単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第３単語を前記第２単語の類義語として登録する請求項１０に記載の類義語判定方法。