JP7178848B2 - 類義語判定装置および類義語判定方法 - Google Patents

類義語判定装置および類義語判定方法 Download PDF

Info

Publication number
JP7178848B2
JP7178848B2 JP2018180949A JP2018180949A JP7178848B2 JP 7178848 B2 JP7178848 B2 JP 7178848B2 JP 2018180949 A JP2018180949 A JP 2018180949A JP 2018180949 A JP2018180949 A JP 2018180949A JP 7178848 B2 JP7178848 B2 JP 7178848B2
Authority
JP
Japan
Prior art keywords
word
attribute
words
synonym
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018180949A
Other languages
English (en)
Other versions
JP2020052690A (ja
Inventor
高明 春名
理 竹内
琢也 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018180949A priority Critical patent/JP7178848B2/ja
Priority to US16/524,403 priority patent/US20200097552A1/en
Publication of JP2020052690A publication Critical patent/JP2020052690A/ja
Application granted granted Critical
Publication of JP7178848B2 publication Critical patent/JP7178848B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Toxicology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語同士が類義語かどうかを判定可能な類義語判定装置および類義語判定方法に関する。
医療等の現場では、例えば、レセプトの記入ミスや不正請求のチェックが、コンピュータを補助的に使用しながら、膨大なマンパワーをかけて行われている。このようなチェックでは、文書のキーワード検索が行われることがある。文書の検索精度を上げるには、ユーザが指定した検索語だけでなく、その検索語に類義する類義語も検索キーワードに含めることが重要である。
特許文献1には、文書内に出現する単語を高次元空間内の数値的表現(出現確率)で結び付けるための学習を行わせる方法が開示されている。特許文献2には、各データ間の類似度や相関係数、共起度などの値をもとにデータ集合に含まれるデータを階層的に抽象化し、分類(クラスタリング)する方法が開示されている。
米国特許第9037464号明細書 特開2011-3156号公報
しかしながら、特許文献1に開示された方法では、類義語の判定精度を向上させるには、文書内に出現する単語を出現確率で結び付けるための膨大なデータを用いた学習が必要だった。
特許文献2に開示された方法では、共通の上位概念を持つ下位概念を類義語として抽出するため、類義性のない単語も類義語として抽出され、類義語の抽出精度を向上させるには、類義語判定に十分な属性を付与するために要する人的な作業量が大きくなっていた。
本発明は、上記事情に鑑みなされたものであり、その目的は、データ量および人的な作業量を低減しつつ、類義語の判定精度を向上させることが可能な類義語判定装置および類義語判定方法を提供することにある。
上記目的を達成するため、第1の観点に係る類義語判定装置は、第1属性を持つ単語と、前記第1属性と関連する第2属性を持つ単語との間の共起指数に基づいて、前記第2属性を共通に持つ単語間の類義性を判定する。
本発明によれば、データ量および人的な作業量を低減しつつ、類義語の判定精度を向上させることができる。
図1は、第1実施形態に係る文書検索システムの構成を示すブロック図である。 図2は、図1の単語-属性対応表の具体例を示す図である。 図3は、図1の属性関係表の具体例を示す図である。 図4は、図1の属性関係表から選択された属性を持つ単語に属性タグを付与した結果の具体例を示す図である。 図5は、図1の文書-属性タグ対応表の具体例を示す図である。 図6は、図1の関連単語対応表の具体例を示す図である。 図7は、図1の単語共起指数計算結果から抽出された類義語候補の具体例を示す図である。 図8は、図1の類義語辞書の具体例を示す図である。 図9は、図1の類義語除外リストの具体例を示す図である。 図10は、図1の文書検索システムの類義語辞書更新処理を示すフローチャートである。 図11は、図1の文書検索システムの属性タグ付与処理を示すフローチャートである。 図12は、図1の文書検索システムの属性関連単語検索処理を示すフローチャートである。 図13は、図1の文書検索システムの類義語登録処理を示すフローチャートである。 図14は、図1の文書検索システムの文書検索処理を示すフローチャートである。 図15は、図1の端末に表示される属性関係選択画面の具体例を示す図である。 図16は、図1の端末に表示される探索条件設定画面および探索結果画面の具体例を示す図である。 図17は、第2実施形態に係る文書検索システムの構成を示すブロック図である。 図18は、図17の原文リンク表の具体例を示す図である。 図19は、図17の文書検索システムで用いられる原文書および加工文書の具体例を示す図である。 図20は、図17の文書検索システムの類義語辞書更新処理を示すフローチャートである。 図21は、第3実施形態に係る文書検索システムの構成を示すブロック図である。 図22は、図21の論理関係辞書の具体例を示す図である。 図23は、図21の文書検索システムの類義語辞書更新処理を示すフローチャートである。 図24は、図21の文書検索システムの共起指数補正処理を示すフローチャートである。 図25は、第4実施形態に係る文書検索システムの類義語候補の抽出例を示す図である。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、第1実施形態に係る文書検索システムの構成を示すブロック図である。
図1において、管理拠点1は、文書検索システムを備える。管理拠点1と遠隔拠点5、6は、ネットワーク7を介して接続されている。ネットワーク7は、インターネットなどのWAN(Wide Area Network)であってもよいし、イーサーネットまたはWiFiなどのLAN(Local Area Network)であってもよいし、WANとLANが混在していてもよい。
文書検索システムは、サーバ2Aおよび端末4を備える。サーバ2Aは、文書から抽出した単語が類義語かどうかを判定したり、文書に対するキーワード検索を実施したりする。文書から抽出した単語が類義語かどうかを判定する場合、サーバ2Aは、単語が持つ属性と、単語間の共起指数を参照する。共起指数は、ある単語が文章中に現れたとき、その文章中に別の単語がどの程度頻繁に現れるかを示す指標である。共起指数として、例えば、word2vecで提供される単語ベクトル距離を用いるようにしてもよい。
単語間の共起指数を参照する場合、サーバ2Aは、互いに関連する属性をそれぞれ持つ単語間の共起指数を計算する。そして、共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。
端末4は、サーバ2Aが抽出した類義語候補をユーザ3に提示したり、ユーザ3からの類義語の登録指示を受け付けたり、ユーザ3が入力した検索キーワードを受け付けたり、検索キーワードに基づく検索結果を表示したりする。
サーバ2Aは、CPU11、主記憶装置12、表示インタフェース13、ネットワークインタフェース14および二次記憶装置15を備える。CPU11は、サーバ2A全体の動作制御を司るハードウェアである。主記憶装置12は、例えば、SRAMまたはDRAMなどの半導体メモリから構成することができる。主記憶装置12には、CPU11が実行中のプログラムを格納したり、CPU11がプログラムを実行するためのワークエリアを設けたりすることができる。
表示インタフェース13は、端末4での表示を制御する機能を有するハードウェアである。ネットワークインタフェース14は、外部との通信を制御する機能を有するハードウェアである。二次記憶装置15は、大容量の記憶容量を有する記憶デバイスであり、例えば、ハードディスク装置やSSD(Solid State Drive)である。二次記憶装置15は、各種プログラムの実行ファイルやプログラムの実行に用いられるデータを保持することができる。
主記憶装置12は、類義語辞書更新処理プログラム16A、データ管理通信プログラム20、検索キーワード生成プログラム25、文書検索プログラム26、文書-属性タグ対応表27、関連単語対応表28および単語共起指数計算結果29を保持する。類義語辞書更新処理プログラム16Aは、属性タグ付与プログラム21、単語共起指数計算プログラム22、属性関連単語検索プログラム23および類義語登録プログラム24を備える。
類義語辞書更新処理プログラム16Aは、単語が持つ属性と、単語間の共起指数に基づいて、単語の組の類義性を判定させる。そして、類義性があると判定された単語を類義語候補としてユーザ3に提示させ、ユーザ3による登録指示に基づいて、その単語を類義語辞書に登録させる。
属性タグ付与プログラム21は、文書データ31から抽出した単語に、その属性を示す属性タグを付与させる。単語共起指数計算プログラム22は、互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算させる。属性関連単語検索プログラム23は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定させる。類義語登録プログラム24は、類義性があると判定された単語を類義語候補としてユーザ3に提示させ、ユーザ3による登録指示に基づいて、その単語を類義語辞書に登録させる。
文書-属性タグ対応表27には、文書データ31のどの単語に属性タグが付与されたかを示す情報が登録される。関連単語対応表28には、互いに関連する属性をそれぞれ持つ単語の対応関係が登録される。単語共起指数計算結果29は、互いに関連する属性を持つ単語間の共起指数の計算結果を保持する。
データ管理通信プログラム20は、サーバ2Aとの間で授受されるデータの通信管理を行わせる。検索キーワード生成プログラム25は、類義語辞書34に登録された類義語に基づいて、文書検索に用いられる検索キーワードを生成させる。文書検索プログラム26は、ユーザ3から入力された検索語の類義語が追加された検索キーワードに基づいて文書検索を行わせる。
二次記憶装置15は、文書データ31、属性関係表32、単語-属性対応表33、類義語辞書34および類義語除外リスト35を保持する。
文書データ31は、例えば、文章が記述されたテキストデータである。文書データ31のデータ形式は、単語の検索が可能であれば、どのような形式でもよい。属性関係表32には、単語-属性対応表33に登録された属性間の関連性が登録される。単語-属性対応表33には、単語と属性との対応関係が登録される。類義語辞書34には、類義語と判定された単語が登録される。類義語除外リスト35には、文章中で同じような場面で出現するが、実際には類義性のない単語が登録される。
遠隔拠点5は、データ管理通信部41および文書データ42を備える。遠隔拠点6は、データ管理通信部51および文書データ52を備える。サーバ2Aは、ネットワーク7を介して各遠隔拠点5、6のデータ管理通信部41、51にアクセスすることができる。そして、サーバ2Aは、各遠隔拠点5、6が保持する文書データ42、52を取得し、二次記憶装置15に格納することができる。
CPU11は、類義語辞書更新処理プログラム16Aを実行することにより、第1属性を持つ単語と、第1属性と関連する第2属性を持つ単語との間の共起指数に基づいて、第2属性を共通に持つ単語間の類義性を判定する。
例えば、CPU11は、類義語辞書更新処理プログラム16Aを実行することにより、第1単語が持つ第1属性と、第2単語および第3単語が持ち、第1属性に関連する第2属性が与えられたときに、第1単語と第2単語との間の第1共起指数と、第1単語と第3単語との間の第2共起指数に基づいて、第2単語と第3単語との類義性を判定する。
このとき、CPU11は、属性関係表32を参照することにより、第1属性と関連する第2属性を決定することができる。CPU11は、単語-属性対応表33を参照することにより、第1単語が持つ第1属性を決定し、第2単語および第3単語が持つ第2属性を決定することができる。
ここで、第1単語は、第1共起指数および第2共起指数に基づいて、第2単語と第3単語とを結び付けることができる。このため、第1共起指数および第2共起指数に基づいて第2単語と第3単語との類義性を判定することにより、第2単語と第3単語との間の第3共起指数からでは、第2単語と第3単語との類義性を精度よく判定することができない場合においても、第2単語と第3単語との類義性の判定精度を向上させることができる。
具体的には、CPU11は、属性タグ付与プログラム21を実行することにより、文書データ31から抽出した単語に属性タグを付与し、属性タグが付与された単語の位置を文書-属性タグ対応表27に登録する。
また、CPU11は、単語共起指数計算プログラム22を実行することにより、互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算し、単語共起指数計算結果29に格納する。
また、CPU11は、属性関連単語検索プログラム23を実行することにより、互いに関連する属性をそれぞれ持つ単語を組として関連単語対応表28に格納する。そして、CPU11は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。
また、CPU11は、類義語登録プログラム24を実行することにより、類義性があると判定した単語を類義語候補としてユーザ3に提示させる。そして、CPU11は、ユーザ3による登録指示があると、類義語候補として提示させた単語を類義語辞書34に登録する。一方、CPU11は、ユーザ3による未登録指示があると、類義語候補として提示させた単語を類義語除外リスト35に登録する。
ここで、単語-属性対応表33の属性は、単語の一般的な属性を設定することができる。例えば、数千から数万に及ぶ病名に対して病気という属性を対応させ、数千から数万に及ぶ医薬品名に対して医薬品という属性を対応させることができる。このため、数千から数万に及ぶ病名および医薬品名に対して、類義語の判定に必要な十分な属性を詳細に設定する必要がなくなり、類義語の判定に必要な十分な属性を単語に付与するための人的な作業量を低減することができる。また、互いに関連する属性をそれぞれ持つ単語間の共起指数を類義語の判定に用いることで、類義性がない単語が類義性があると誤判定されるのを低減することができ、類義語の判定精度を向上させることができる。
なお、属性タグ付与プログラム21、単語共起指数計算プログラム22、属性関連単語検索プログラム23および類義語登録プログラム24の実行は、複数のCPUやコンピュータに分担させてもよい。あるいは、CPU11は、ネットワーク7を介してクラウドコンピュータなどに属性タグ付与プログラム21、単語共起指数計算プログラム22、属性関連単語検索プログラム23および類義語登録プログラム24の全部または一部の実行を指示し、その実行結果を受け取るようにしてもよい。
図2は、図1の単語-属性対応表の具体例を示す図である。
図2において、単語-属性対応表33には、単語と属性との対応関係が登録される。例えば、糖尿病、脂質異常症および高脂血症などの病名を示す単語に対応させて、病気という属性が登録される。また、例えば、インスリンおよびメバロチンなどの医薬品名を示す単語に対応させて、医薬品という属性が登録される。
図3は、図1の属性関係表の具体例を示す図である。
図3において、属性関係表32には、属性Pに関連する属性Prが登録される。例えば、病気という属性Pに関連する属性Prとして、医薬品および症状などが登録される。また、医薬品という属性Pに関連する属性Prとして、病気、症状および作用などが登録される。
図4は、図1の属性関係表から選択された属性を持つ単語に属性タグを付与した結果の具体例を示す図である。
図4において、医療分野における類義語を判定するために、文書データ101~103が与えられたものとする。このとき、CPU11は、図2の単語-属性対応表33を参照し、単語-属性対応表33に登録されている単語を文書データ101~103から抽出する。そして、CPU11は、文書データ101~103から抽出した単語に対し、単語-属性対応表33に登録されている属性を示す属性タグを付与することにより、属性タグ付き文書データ111~113を生成する。
例えば、属性タグ付き文書データ111において、糖尿病という単語には、病気という属性を示す属性タグTA1が付与され、インスリンという単語には、医薬品という属性を示す属性タグTB1が付与される。属性タグ付き文書データ112において、脂質異常症という単語には、病気という属性を示す属性タグTA2が付与され、メバロチンという単語には、医薬品という属性を示す属性タグTB2が付与される。属性タグ付き文書データ113において、高脂血症という単語には、病気という属性を示す属性タグTA3が付与され、メバロチンという単語には、医薬品という属性を示す属性タグTB3が付与される。
属性タグ付き文書データ111~113は、図1の文書-属性タグ対応表27の形式で保持することができる。
図5は、図1の文書-属性タグ対応表の具体例を示す図である。
図5において、文書-属性タグ対応表27には、単語が抽出された文書を識別する文書ID、その文書中の単語の位置、文書から抽出された単語を識別する単語ID、文書から抽出された単語およびその単語の属性が登録される。
次に、CPU11は、図4の属性タグ付き文書データ111~113から、属性タグTA1~TA3、TB1~TB3が付与されていない単語を削除した削除済属性タグ付き文書データ121~123を生成する。
削除済属性タグ付き文書データ121~123は、図1の関連単語対応表28の形式で保持することができる。
図6は、図1の関連単語対応表の具体例を示す図である。
図6において、関連単語対応表28には、単語を識別する単語ID、単語、関連単語を識別する関連単語ID、関連単語および属性関係適用回数(ホップ回数)が登録される。関連単語は、単語が持つ属性に関連する属性を持つ単語である。属性関係適用回数は、図3の属性関係表32に登録された属性関係を適用する回数である。
図7は、図1の単語共起指数計算結果から抽出された類義語候補の具体例を示す図である。
図7において、図1のCPU11は、図4の削除済属性タグ付き文書データ121~123に対して、例えば、word2vecを適用することにより、互いに関連する属性を持つ単語T1、T2間の共起指数を計算する。例えば、脂質異常症という単語T1とインスリンという単語T2との間の共起指数は、0.20、脂質異常症という単語T1とメバロチンという単語T2との間の共起指数は、0.75と計算される。
ここで、図4の削除済属性タグ付き文書データ121~123に対して単語T1、T2間の共起指数を計算することにより、文書データ111~113に対して単語T1、T2間の共起指数を計算する方法に比べて、計算にかかる負荷を低減することができる。
次に、CPU11は、互いに関連する属性をそれぞれ持つ単語T1、T2間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語T2の組がある場合、その単語T2の組は、類義性があると判定する。
例えば、共起指数の下限値が0.7であるものとする。そして、脂質異常症および高脂血症という各単語T2の属性は病気、メバロチンという単語T1の属性は医薬品である。図3の属性関係表32を参照することにより、病気と医薬品は互いに関連する属性と判断される。また、メバロチンという単語T1と脂質異常症という単語T2との間の共起指数は、0.75、メバロチンという単語T1と高脂血症という単語T2との間の共起指数は、0.76である。このため、脂質異常症および高脂血症という各単語T2に対して、メバロチンという単語T1との間で計算された共起指数は、下限値以上であり、かつ、脂質異常症および高脂血症という各単語T2は、病気という同一属性を持っている。このため、CPU11は、脂質異常症と高脂血症は、類義性があると判定し、類義語候補とすることができる。
次に、CPU11は、高脂血症という単語を脂質異常症という単語の類義語候補としてユーザ3に提示する。そして、ユーザ3は、高脂血症という単語が脂脂質異常症という単語の類義語であると判断し、登録指示を行うと、CPU11は、高脂血症という単語を脂脂質異常症という単語の類義語として類義語辞書34に登録する。
図8は、図1の類義語辞書の具体例を示す図である。
図8において、類義語辞書34には、類義語を代表する代表語、代表語に類義する単語、単語の属性および類義語辞書を識別する辞書IDが登録される。例えば、脂脂質異常症という単語の類義語として、高脂血症、高トリグリセライド血症、高コレステロール血症、高リポ蛋白血症、食事性高脂血症および本能性高脂血症という単語が登録される。また、歯周病という単語の類義語として、歯周疾患、ペリオおよび歯槽膿漏という単語が登録される。
一方、CPU11は、例えば、かぜという単語と、インフルエンザという単語は、類義性があると判定し、類義語候補としてユーザに提示したものとする。そして、ユーザ3は、かぜという単語がインフルエンザという単語の類義語でないと判断し、未登録指示を行うと、CPU11は、インフルエンザという単語をかぜという単語の未類義語として類義語除外リスト35に登録する。
図9は、図1の類義語除外リストの具体例を示す図である。
図9において、類義語除外リスト35には、互いに未類義語である単語T1、T2およびそれらの単語T1、T2の属性が登録される。例えば、例えば、かぜという単語T1の未類義語として、インフルエンザおよびおたふくかぜという単語T2が登録され、はしかという単語T1の未類義語として、三日ばしかという単語T2が登録され、ぜんそくという単語T1の未類義語として、慢性気管支炎およびアレルギー性鼻炎という単語T2が登録されている。
図10は、図1の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図10において、図1のCPU11は、類義語判定に用いる属性関係表32を読み込む(S11)。そして、CPU11は、属性関係表32に登録された属性関係を図1の端末4に表示させる。
次に、ユーザ3は、端末4に表示された属性関係から、今回の類義語判定に適用する属性関係を選択する(S12)。次に、ユーザ3は、今回の類義語判定に適用する属性関係の適用回数k(kは正の整数)および単語共起指数下限値Lを端末4上で指定する(S13)。
次に、CPU11は、全ての文書データを処理したかどうかを判断する(S14)。CPU11は、全ての文書データを処理した場合、類義語辞書更新処理を終了する。一方、CPU11は、全ての文書データを処理してない場合、次の文書データDを選択する(S15)。
次に、CPU11は、類義語判定に適用する全ての属性Pについて、図1の単語-属性対応表33を参照し、文書データD上の属性Pを持つ単語に属性タグを付与する(S16)。このとき、CPU11は、属性タグが付与された文書データD上の単語の位置を図5の文書-属性タグ対応表27に登録する。
次に、CPU11は、属性タグが付与されていない単語を文書データDから削除する(S17)。
次に、CPU11は、例えば、word2vecを用いることにより、属性タグが付与されていない単語が削除された文書データD内の残りの単語について共起指数を計算する(S18)。
次に、CPU11は、文書データD上の属性Pを持つ全ての単語について共起指数を計算したかどうかを判断する(S19)。CPU11は、文書データD上の属性Pを持つ全ての単語について共起指数を計算した場合、S14に戻る。一方、CPU11は、文書データD上の属性Pを持つ全ての単語について共起指数を計算してない場合、属性関係を適用回数kだけ適用したかどうかを判断する(S20)。CPU11は、属性関係を適用回数kだけ適用した場合、S19に戻る。一方、CPU11は、属性関係を適用回数kだけ適用していない場合、次の単語Wiについて、属性Pとの属性関連単語検索処理を実行し(S21)、S20に戻る。
図11は、図1の文書検索システムの属性タグ付与処理を示すフローチャートである。CPU11は、図10のS16で図11の属性タグ付与処理を呼び出すことができる。
図11において、CPU11は、図1のユーザ3が選択した属性関係の組R、R、・・・R(eは正の整数)に含まれる属性の集まりをSとする(S22)。
次に、CPU11は、属性の集まりSに含まれる属性全てについて属性タグ付与処理が完了したかどうかを判断する(S23)。CPU11は、属性の集まりSに含まれる属性全てについて属性タグ付与処理が完了した場合、属性タグ付与処理を終了する。一方、CPU11は、属性の集まりSに含まれる属性全てについて属性タグ付与処理が完了していない場合、属性の集まりSから次の属性Pを取り出す(S24)。
次に、CPU11は、図1の単語-属性対応表33から、属性Pを持つ単語の集まりSを抽出する(S25)。
次に、CPU11は、単語の集まりSの要素全てについて属性タグ付与処理が完了したかどうかを判断する(S26)。CPU11は、単語の集まりSの要素全てについて属性タグ付与処理が完了した場合、S23に戻る。一方、CPU11は、単語の集まりSの要素全てについて属性タグ付与処理が完了してない場合、単語の集まりSから次の単語Tを取り出す(S27)。
次に、CPU11は、図10のS15で選択した文書データDに単語Tが含まれるかどうかを判断する(S28)。CPU11は、単語Tが文書データDに含まれない場合、S26に戻る。一方、CPU11は、単語Tが文書データDに含まれる場合、文書データDの文書ID、文書データD内の単語Tの出現位置、単語Tの単語ID、単語Tの属性PのIDからなるレコードを文書-属性タグ対応表27に登録し(S29)、S26に戻る。
図12は、図1の文書検索システムの属性関連単語検索処理を示すフローチャートである。CPU11は、図10のS21で図12の性関連単語検索処理を呼び出すことができる
図12において、CPU11は、図1の単語-属性対応表33を参照することにより、図10のS21で与えられた単語Wiの属性Pを取得する(S31)。
次に、CPU11は、図1の属性関係表32内でユーザ3が選択した属性関係から、属性Pと関連する属性Prを取得する(S32)。
次に、CPU11は、全ての属性Prについて属性関連単語検索処理が完了したかどうかを判断する(S33)。CPU11は、全ての属性Prについて属性関連単語検索処理が完了した場合、属性関連単語検索処理を終了する。一方、CPU11は、全ての属性Prについて属性関連単語検索処理が完了してない場合、次の属性Prを取得する(S34)。
次に、CPU11は、属性Prを持つ単語Wjを文書データDから抽出する(S35)。このとき、CPU11は、文書データDから抽出できる単語Wjがあるかどうかを判断する(S36)。CPU11は、文書データDから抽出できる単語Wjがない場合、S33に戻る。一方、CPU11は、文書データDから抽出できる単語Wjがある場合、次の抽出単語Wjを選択する(S37)。
次に、CPU11は、単語Wiと単語Wjとの共起指数を図1の単語共起指数計算結果29から取得する(S38)。
次に、CPU11は、単語Wiと単語Wjとの間の共起指数が下限値L以上かどうかを判断する(S39)。CPU11は、単語Wiと単語Wjとの間の共起指数が下限値L以上でない場合、S35に戻る。一方、CPU11は、単語Wiと単語Wjとの間の共起指数が下限値L以上である場合、単語Wiと単語Wjとの組を図1の関連単語対応表28に登録する(S40)。
次に、CPU11は、単語Wiと属性が関連する単語Wj中の単語の組Wj1、Wj2について類義語確認処理を実行する(S41)。
次に、CPU11は、WjをWiとし、PrをPとして、S31に戻る(S42)。
図13は、図1の文書検索システムの類義語登録処理を示すフローチャートである。CPU11は、図12のS41で図13の類義語登録処理を呼び出すことができる。
図13において、CPU11は、単語の組Wj1、Wj2の組が図1の類義語辞書34に登録済かどうか判断する(S51)。CPU11は、単語の組Wj1、Wj2の組が類義語辞書34に登録済の場合、類義語登録処理を終了する。
一方、CPU11は、単語の組Wj1、Wj2が類義語辞書34に登録済でない場合、単語の組Wj1、Wj2が図1の類義語除外リスト35に登録済かどうか判断する(S52)。単語の組Wj1、Wj2が図1の類義語除外リスト35に登録済の場合、類義語登録処理を終了する。
一方、CPU11は、単語の組Wj1、Wj2が図1の類義語除外リスト35に登録済でない場合、単語の組Wj1、Wj2の組を類義語候補としてユーザ3に提示する(S53)。
次に、ユーザ3は、単語の組Wj1、Wj2が類義語かどうかを判断する(S54)。CPU11は、ユーザ3が単語の組Wj1、Wj2を類義語と判断すると、単語の組Wj1、Wj2を類義語として類義語辞書34に登録する(S55)。一方、CPU11は、ユーザ3が単語の組Wj1、Wj2を類義語でないと判断すると、単語の組Wj1、Wj2を類義語でないとして類義語除外リスト35に登録する(S56)。
図14は、図1の文書検索システムの文書検索処理を示すフローチャートである。
図14において、図1のCPU11は、属性関係表32が更新されているかどうか判断する(S101)。CPU11は、属性関係表32が更新されていない場合、S103に進む。一方、CPU11は、属性関係表32が更新されている場合、図10の類義語辞書更新処理を実行する(S102)。
次に、CPU11は、ユーザ3から検索語入力を受け付けると(S103)、検索語の類義語を類義語辞書34から取得する(S104)。
次に、CPU11は、類義語辞書34から取得した類義語を検索用に追加したキーワードとしてユーザ3に提示する(S105)。
次に、CPU11は、ユーザ3による類義語辞書34の更新要求があるかどうか判断する(S106)。CPU11は、ユーザ3による類義語辞書34の更新要求がある場合、図10の類義語辞書更新処理を実行し(S107)、S104に戻る。一方、CPU11は、ユーザ3による類義語辞書34の更新要求がない場合、ユーザ3によるキーワードの確認および編集が行われるまで待機する(S108)。
次に、CPU11は、ユーザ3によるキーワードの確認および編集が行われると、文書データ31のキーワード検索を実行し(S109)、文書データ31の検索結果をユーザ3に提示する。
次に、ユーザ3は、文書データ31の検索結果を確認する(S110)。そして、ユーザ3は、検索結果がOKかどうかを判断し(S111)、ユーザ3が検索結果OKという指示を出すと、CPU11は、文書検索処理を終了する。一方、CPU11は、ユーザ3が検索結果OKでないという指示を出すと、S106に戻る。
図15は、図1の端末に表示される属性関係選択画面の具体例を示す図である。なお、この属性関係選択画面202は、ユーザ3が図10のS12の操作を実施する時に端末4の表示画面201に表示される。
図15において、属性関係選択画面202には、属性関係を識別する識別番号203、属性Pと属性Pに関連する属性Prの組の表示欄204、205および属性関係を選択するチェックボックス206が表示される。
そして、例えば、ユーザ3が病気という属性Pに関連する属性Prとして医薬品を選択するものとすると、識別番号203が1に対応するチェックボックス206にチェックを入れる。チェックボックス206にチェックが入ると、CPU11は、選択確認画面207を表示画面201に表示させる。そして、ユーザ3が選択確認画面207上で「はい」を選択し、確認ボタンを押下すると、CPU11は、図10の類義語辞書更新処理において、この属性関係を適用する。
図16は、図1の端末に表示される探索条件設定画面および探索結果画面の具体例を示す図である。なお、この探索条件設定画面216は、ユーザ3が図10のS13の操作を実施する時に端末4の表示画面201に表示される。探索結果画面219は、CPU11が図13のS53の処理を実行する時に端末4の表示画面201に表示される。
図16において、識別番号203が1と6に対応する属性関係をユーザ3が図15の属性関係選択画面202で選択したものとすると、識別番号203が1と6に対応する属性関係を示す属性関係選択結果画面212が表示画面201に表示される。
また、属性関係選択結果画面212とともに探索条件設定画面216が表示画面201に表示される。探索条件設定画面216には、単語共起指数下限値の入力欄217および属性関係適用回数の入力欄218が表示される。そして、ユーザ3は、例えば、探索条件設定画面216上で単語共起指数下限値を0.7、属性関係適用回数を2に設定することができる。
CPU11は、単語共起指数下限値および属性関係適用回数が設定されると、図10の類義語辞書更新処理において、ある単語に対する類語語候補を探索する。そして、CPU11は、図13のS53の処理において、類語語探索結果画面219を表示画面201に表示させることで、ある単語に対する類語語候補をユーザ3に提示する。類語語探索結果画面219には、ある単語と類語語候補の組を識別する識別番号220およびある単語と類語語候補の組の表示欄221、222が表示される。
そして、例えば、ユーザ3が類語語探索結果画面219上で「脂質異常症」と「肥満」という組を選択し、削除ボタンを押下すると、CPU11は、削除確認画面223を表示画面201に表示させる。そして、ユーザ3が削除確認画面223上で「はい」を選択すると、CPU11は、「脂質異常症」と「肥満」という組を類義語辞書34から削除する。
図17は、第2実施形態に係る文書検索システムの構成を示すブロック図である。
図17において、この文書検索システムは、図1のサーバ2Aの代わりにサーバ2Bを備える。サーバ2Bは、サーバ2Aと同様の構成を持つ。
ただし、サーバ2Bの主記憶装置12は、図1の類義語辞書更新処理プログラム16Aの代わりに類義語辞書更新処理プログラム16Bを保持する。類義語辞書更新処理プログラム16Bは、類義語辞書更新処理プログラム16Aと同様の処理を実現する。ただし、類義語辞書更新処理プログラム16Bは、図10のS17で属性タグが付与されていない単語を文書データDから削除させる場合、その単語を削除する前の原文のアクセス先を保持させる。また、サーバ2Bの二次記憶装置15は、サーバ2Aの二次記憶装置15の記憶内容に加え、加工文書データ36および原文リンク表37を保持する。
図18は、図17の原文リンク表の具体例を示す図である。
図18において、原文リンク表37には、加工文書を識別する加工文書ID、加工文書が格納された文書場所、加工文書の格納開始位置、加工文書の格納終了位置、原文書を識別する原文書ID、原文書が格納された文書場所、原文書の格納開始位置および原文書の格納終了位置が登録される。文書場所は、データを格納する装置名で指定することができ、例えば、中央サーバ、ディスク装置D1とすることができる。
図19は、図17の文書検索システムで用いられる原文書および加工文書の具体例を示す図である。
図19において、CPU11は、例えば、文書データ102から削除済属性タグ付き文書データ122を生成したものとする。このとき、CPU11は、例えば、文書データ102に原文書ID=241を付与し、中央サーバ、ディスク装置D1の開始位置=4から終了位置=6に文書データ102が保存されているという情報を原文リンク表37に登録する。また、CPU11は、例えば、削除済属性タグ付き文書データ122に加工文書ID=1053を付与し、中央サーバ、ディスク装置D1の開始位置=1から終了位置=3に削除済属性タグ付き文書データ122が保存されているという情報を原文リンク表37に登録する。
図20は、図17の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図20の類義語辞書更新処理は、図10の類義語辞書更新処理のS15およびS17の代わりにS15AおよびS17Aを備える。
S15Aでは、S15の次の文書データDを選択する処理に、文書データDの内容を加工文書データDmにコピーする処理が追加される。S17Aでは、S17の属性タグが付与されていない単語を文書データDから削除する処理に、図17の原文リンク表37を更新する処理が追加される。
ここで、サーバ2Bは、原文リンク表37を保持することにより、属性タグが付与されていない単語を文書データDから削除した場合においても、属性タグが付与されていない単語が削除される前の文書データDにアクセスすることができる。
図21は、第3実施形態に係る文書検索システムの構成を示すブロック図である。
図21において、この文書検索システムは、図1のサーバ2Aの代わりにサーバ2Cを備える。サーバ2Cは、サーバ2Aと同様の構成を持つ。
ただし、サーバ2Cの主記憶装置12は、図1の類義語辞書更新処理プログラム16Aの代わりに類義語辞書更新処理プログラム16Cを保持する。類義語辞書更新処理プログラム16Cは、類義語辞書更新処理プログラム16Aと同様の処理を実現する。ただし、類義語辞書更新処理プログラム16Cは、文書から抽出した単語が類義語かどうかを判定させる場合、単語が持つ属性と、単語間の共起指数と、単語間の論理関係を参照させる。単語間の論理関係は、例えば、単語間の従属関係(part of)または単語間の同義関係(is a)である。
この場合、類義語辞書更新処理プログラム16Cには、共起指数補正プログラム30を追加することができる。共起指数補正プログラム30は、単語間の論理関係に基づいて、単語間の共起指数を補正させる。また、サーバ2Cの二次記憶装置15は、サーバ2Bの二次記憶装置15の記憶内容に加え、論理関係辞書38を保持する。論理関係辞書38は、論理関係を持つ単語の組を登録する。
図22は、図21の論理関係辞書の具体例を示す図である。
図22において、論理関係辞書38には、論理関係を持つ単語T1、T2の組が登録される。例えば、論理関係辞書38には、脂肪肝という単語T1と肝疾患という単語T2に対し、is-aという論理関係が登録され、食道という単語T1と消化器系という単語T2に対し、part-ofという論理関係が登録されている。
図23は、図21の文書検索システムの類義語辞書更新処理を示すフローチャートである。
図23の類義語辞書更新処理は、図10の類義語辞書更新処理のS17が除去され、図10の類義語辞書更新処理のS18の代わりにS18AおよびS18Bを備える。
図10の類義語辞書更新処理のS18では、属性タグが付与されていない単語が削除された文書データD内の残りの単語について共起指数を計算するが、図23の類義語辞書更新処理のS18Aでは、属性タグが付与されていない単語が削除される前の文書データD内の単語について共起指数を計算する。
ここで、属性タグが付与されていない単語が削除される前の文書データD内の単語について共起指数を計算することにより、属性タグが付与されている単語の共起指数の計算において、属性タグが付与されていない単語との間の共起指数を反映させることができ、属性タグが付与されている単語の共起指数の計算精度を向上させることができる。
次に、CPU11は、論理関係辞書38を参照し、文書データD内の単語について計算された共起指数を補正する(S18B)。
図24は、図21の文書検索システムの共起指数補正処理を示すフローチャートである。
図24において、図21のCPU11は、図23のS18Aで共起指数を計算した全ての単語の組について共起指数補正処理を実行したかどうかを判断する(S61)。CPU11は、全ての単語の組について共起指数補正処理を実行した場合、共起指数補正処理を終了する。一方、CPU11は、全ての単語の組について共起指数補正処理を実行していない場合、CPU11は、共起指数を計算した次の単語の組およびその単語の組の共起指数を単語共起指数計算結果29から取り出す(S62)。
次に、CPU11は、S62で取り出したどちらの単語も属性タグを持つかどうかを判断する(S63)。CPU11は、どちらの単語も属性タグを持つ場合、S66に進む。一方、CPU11は、どちらの単語も属性タグを持つという条件を満たさない場合、属性タグを持たない単語との間の共起指数に所定の係数n(0<n<1)を乗じ(S64)、S64の計算結果の値で単語共起指数計算結果29の値を置き換える(S65)。
次に、CPU11は、S62で取り出した単語の組が論理関係辞書38に登録されているかどうかを判断する(S66)。CPU11は、単語の組が論理関係辞書38に登録されている場合、S61に戻る。一方、CPU11は、単語の組が論理関係辞書38に登録されていない場合、単語の組の共起指数に所定の係数m(1<m)を乗じ(S67)、S67の計算結果の値で単語共起指数計算結果29の値を置き換える(S68)。
なお、上述した第3実施形態では、図23の類義語辞書更新処理のS18Aにおいて、属性タグが付与されていない単語が削除される前の文書データD内の単語について共起指数を計算する方法について説明したが、図10および図20の類義語辞書更新処理のS18と同様に、属性タグが付与されていない単語が削除された文書データD内の残りの単語について共起指数を計算するようにしてもよい。この場合、図24の共起指数補正処理において、S63からS65までの処理を省略することができる。
また、上述した第1実施形態および第2実施形態では、図10および図20の類義語辞書更新処理のS18において、属性タグが付与されていない単語が削除された文書データD内の残りの単語について共起指数を計算する方法について説明したが、図23の類義語辞書更新処理のS18Aと同様に、属性タグが付与されていない単語が削除される前の文書データD内の単語について共起指数を計算するようにしてもよい。
さらに、上述した第3実施形態では、単語が持つ属性と、単語間の共起指数と、単語間の論理関係に基づいて、単語間の類義性を判定する方法について説明したが、単語間の共起指数と、単語間の論理関係に基づいて、単語間の類義性を判定するようにしてもよい。このとき、論理関係を持つ単語間の共起指数が下限値以上の場合、それらの単語間に類義性があると判定することができる。
以上の説明では、医療分野における文書の検索方法を例にとって説明したが、本発明は、設備保守などの医療分野以外の文書の検索方法に適用してもよい。
図25は、第4実施形態に係る文書検索システムの類義語候補の抽出例を示す図である。
図25において、単語-属性対応表33Aには、紙幣ジャム、札詰まりおよびクシャクシャなどの症状名を示す単語に対応させて、症状という属性が登録される。また、単語-属性対応表33Aには、紙片除去およびカセット交換などの対策名を示す単語に対応させて、対策という属性が登録される。属性関係表32Aには、互いに関連する属性として症状と対策が登録される。
設備保守の分野における類義語を判定するために、文書データ301~303が与えられたものとする。このとき、CPU11は、単語-属性対応表33Aを参照し、単語-属性対応表33Aに登録されている単語を文書データ301~303から抽出する。そして、CPU11は、文書データ301~303から抽出した単語に対し、単語-属性対応表33Aに登録されている属性を示す属性タグを付与することにより、属性タグ付き文書データ311~313を生成する。
例えば、属性タグ付き文書データ311において、紙幣ジャムという単語には、症状という属性を示す属性タグTA4が付与され、紙片除去という単語には、対策という属性を示す属性タグTB4が付与される。属性タグ付き文書データ312において、札詰まりという単語には、症状という属性を示す属性タグTA5が付与され、紙片除去という単語には、対策という属性を示す属性タグTB5が付与される。グ付き文書データ313において、クシャクシャという単語には、症状という属性を示す属性タグTA6が付与され、カセット交換という単語には、対策という属性を示す属性タグTB6が付与される。
次に、CPU11は、属性タグ付き文書データ311~313から、属性タグTA4~TA6、TB4~TB6が付与されていない単語を削除した削除済属性タグ付き文書データ321~323を生成する。
次に、CPU11は、削除済属性タグ付き文書データ321~323に対して、例えば、word2vecを適用することにより、互いに関連する属性を持つ単語間の共起指数を計算し、単語共起指数計算結果29Aに格納する。例えば、紙幣ジャムという単語とカセット交換という単語との間の共起指数は、0.20、紙幣ジャムという単語と紙片除去という単語との間の共起指数は、0.75と計算される。
次に、CPU11は、互いに関連する属性をそれぞれ持つ単語間で計算された共起指数が下限値以上の単語のうち、同一属性を持つ単語の組がある場合、その単語の組は、類義性があると判定する。
例えば、共起指数の下限値が0.7であるものとする。そして、紙幣ジャムおよび札詰まりという各単語の属性は症状、紙片除去という単語の属性は対策である。属性関係表32Aを参照することにより、症状と対策は互いに関連する属性と判断される。また、紙片除去という単語と紙幣ジャムという単語との間の共起指数は、0.75、紙片除去という単語と札詰まりという単語との間の共起指数は、0.76である。このため、紙幣ジャムおよび札詰まりという各単語に対して、紙片除去という単語との間で計算された共起指数は、下限値以上であり、かつ、紙幣ジャムおよび札詰まりという各単語は、症状という同一属性を持っている。このため、CPU11は、紙幣ジャムと札詰まりは、類義性があると判定し、類義語候補とすることができる。
16A 類義語辞書更新処理プログラム、20 データ管理通信プログラム、21 属性タグ付与プログラム、22 単語共起指数計算プログラム、23 属性関連単語検索プログラム、24 類義語登録プログラム、25 検索キーワード生成プログラム、26 文書検索プログラム

Claims (11)

  1. 文書データを入力とし、該文書データに含まれる単語について、意味的な属性である第1属性を持つ単語と、前記第1属性と関連する意味的な属性である第2属性を持つ単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を取得し、前記第2属性を共通に持つ単語の対の両方の前記第1属性を持つ単語との共起指数が下限値以上であれば、該対の単語同士に類義性があると判定する類義語判定装置。
  2. 前記第1属性を持つ第1単語と、前記第2属性を持つ第2単語との間の第1共起指数を計算し、
    前記第1属性を持つ前記第1単語と、前記第2属性を持つ第3単語との間の第2共起指数を計算し、
    前記第1共起指数および前記第2共起指数に基づいて、前記第2単語と前記第3単語との類義性を判定する請求項1に記載の類義語判定装置。
  3. 前記第1属性と関連する前記第2属性が登録された属性関係表と、
    単語と属性との対応関係が登録された単語-属性対応表とを備え、
    前記属性関係表に基づいて、前記第1属性と前記第2属性とが関連していることを特定し、
    前記単語-属性対応表に基づいて、前記第1属性を持つ単語と、前記第2属性を持つ単語とを特定する、
    請求項1に記載の類義語判定装置。
  4. 前記第1共起指数および前記第2共起指数が下限値以上の場合、前記第3単語を前記第2単語の類義語候補として提示し、
    前記第3単語を前記第2単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第3単語を前記第2単語の類義語として登録する請求項2に記載の類義語判定装置。
  5. 文書データから抽出した単語に前記単語の属性を示す属性タグを付与し、
    互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算する請求項1に記載の類義語判定装置。
  6. 前記属性タグが付与されていない単語が削除された前記文書データの残りの単語について前記共起指数を計算する請求項5に記載の類義語判定装置。
  7. 前記属性タグが付与されていない単語が削除されていない前記文書データの単語について前記共起指数を計算する請求項5に記載の類義語判定装置。
  8. 単語間の論理関係が登録された論理関係辞書を備え、前記文書データから抽出した単語間の論理関係の有無を前記論理関係辞書に基づいて特定し、前記単語間に論理関係が無ければ、前記単語間の共起指数を値が小さくなるように補正する請求項5に記載の類義語判定装置。
  9. 単語間の論理関係が登録された論理関係辞書を備え、
    文書データを入力とし、該文書データに含まれる単語について、前記論理関係辞書に基づき論理関係を持つ第1単語と第2単語とを特定し、前記第1単語と前記第2単語の間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を計算し、
    前記共起指数が下限値以上であれば、前記第1単語と前記第2単語とに類義性があると判定する類義語判定装置。
  10. CPUを備える類義語判定方法であって、
    前記CPUは、文書データを入力とし、該文書データに含まれる単語のうち、第1単語が持つ意味的な属性である第1属性と、第2単語および第3単語が持つ意味的な属性である第2属性が関連しているときに、前記第1単語と前記第2単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である第1共起指数と、前記第1単語と前記第3単語との間の前記指標である第2共起指数とを取得し、前記第1共起指数と前記第2共起指数が下限値以上であれば、前記第2単語と前記第3単語とに類義性があると判定する類義語判定方法。
  11. 前記CPUは、前記第3単語を前記第2単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第3単語を前記第2単語の類義語として登録する請求項10に記載の類義語判定方法。
JP2018180949A 2018-09-26 2018-09-26 類義語判定装置および類義語判定方法 Active JP7178848B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018180949A JP7178848B2 (ja) 2018-09-26 2018-09-26 類義語判定装置および類義語判定方法
US16/524,403 US20200097552A1 (en) 2018-09-26 2019-07-29 Synonym determination device and synonym determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018180949A JP7178848B2 (ja) 2018-09-26 2018-09-26 類義語判定装置および類義語判定方法

Publications (2)

Publication Number Publication Date
JP2020052690A JP2020052690A (ja) 2020-04-02
JP7178848B2 true JP7178848B2 (ja) 2022-11-28

Family

ID=69883164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018180949A Active JP7178848B2 (ja) 2018-09-26 2018-09-26 類義語判定装置および類義語判定方法

Country Status (2)

Country Link
US (1) US20200097552A1 (ja)
JP (1) JP7178848B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12026157B2 (en) 2021-05-27 2024-07-02 International Business Machines Corporation Narrowing synonym dictionary results using document attributes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109597A (ja) 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109597A (ja) 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Also Published As

Publication number Publication date
JP2020052690A (ja) 2020-04-02
US20200097552A1 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
US8671112B2 (en) Methods and apparatus for automated image classification
US9990422B2 (en) Contextual analysis engine
US8548969B2 (en) System and method for clustering content according to similarity
Zhu et al. Unsupervised entity resolution on multi-type graphs
US20180107654A1 (en) Method and apparatus for managing synonymous items based on similarity analysis
US20110282855A1 (en) Scoring relationships between objects in information retrieval
US10303704B2 (en) Processing a data set that is not organized according to a schema being used for organizing data
US20190266158A1 (en) System and method for optimizing search query to retreive set of documents
US10713425B2 (en) System and method for generating a proposal based on a request for proposal (RFP)
US11244109B2 (en) Information processing device and information processing method
JP7178848B2 (ja) 類義語判定装置および類義語判定方法
JP6092493B1 (ja) データベース管理装置およびその方法
JP5392120B2 (ja) 情報処理装置、判定プログラム及び判定方法
KR102547033B1 (ko) 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법
JP2020064482A (ja) 属性抽出装置および属性抽出方法
JP2012003603A (ja) 情報検索システム
US7865488B2 (en) Method for discovering design documents
US11138174B2 (en) Electronic database and method for forming same
US7865489B2 (en) System and computer program product for discovering design documents
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP4825504B2 (ja) データ登録・検索システムおよびデータ登録・検索方法
US20220366714A1 (en) Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method
WO2023132341A1 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体
KR102282721B1 (ko) 의료 기기 및 약품 정보 제공 시스템 및 방법
JP2009015511A (ja) メタデータ管理装置、プログラムおよびメタデータ管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221115

R150 Certificate of patent or registration of utility model

Ref document number: 7178848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150