JP7178848B2 - 類義語判定装置および類義語判定方法 - Google Patents
類義語判定装置および類義語判定方法 Download PDFInfo
- Publication number
- JP7178848B2 JP7178848B2 JP2018180949A JP2018180949A JP7178848B2 JP 7178848 B2 JP7178848 B2 JP 7178848B2 JP 2018180949 A JP2018180949 A JP 2018180949A JP 2018180949 A JP2018180949 A JP 2018180949A JP 7178848 B2 JP7178848 B2 JP 7178848B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- attribute
- words
- synonym
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Toxicology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1において、管理拠点1は、文書検索システムを備える。管理拠点1と遠隔拠点5、6は、ネットワーク7を介して接続されている。ネットワーク7は、インターネットなどのWAN(Wide Area Network)であってもよいし、イーサーネットまたはWiFiなどのLAN(Local Area Network)であってもよいし、WANとLANが混在していてもよい。
図2において、単語-属性対応表33には、単語と属性との対応関係が登録される。例えば、糖尿病、脂質異常症および高脂血症などの病名を示す単語に対応させて、病気という属性が登録される。また、例えば、インスリンおよびメバロチンなどの医薬品名を示す単語に対応させて、医薬品という属性が登録される。
図3において、属性関係表32には、属性Pに関連する属性Prが登録される。例えば、病気という属性Pに関連する属性Prとして、医薬品および症状などが登録される。また、医薬品という属性Pに関連する属性Prとして、病気、症状および作用などが登録される。
図4において、医療分野における類義語を判定するために、文書データ101~103が与えられたものとする。このとき、CPU11は、図2の単語-属性対応表33を参照し、単語-属性対応表33に登録されている単語を文書データ101~103から抽出する。そして、CPU11は、文書データ101~103から抽出した単語に対し、単語-属性対応表33に登録されている属性を示す属性タグを付与することにより、属性タグ付き文書データ111~113を生成する。
図5において、文書-属性タグ対応表27には、単語が抽出された文書を識別する文書ID、その文書中の単語の位置、文書から抽出された単語を識別する単語ID、文書から抽出された単語およびその単語の属性が登録される。
図6において、関連単語対応表28には、単語を識別する単語ID、単語、関連単語を識別する関連単語ID、関連単語および属性関係適用回数(ホップ回数)が登録される。関連単語は、単語が持つ属性に関連する属性を持つ単語である。属性関係適用回数は、図3の属性関係表32に登録された属性関係を適用する回数である。
図7において、図1のCPU11は、図4の削除済属性タグ付き文書データ121~123に対して、例えば、word2vecを適用することにより、互いに関連する属性を持つ単語T1、T2間の共起指数を計算する。例えば、脂質異常症という単語T1とインスリンという単語T2との間の共起指数は、0.20、脂質異常症という単語T1とメバロチンという単語T2との間の共起指数は、0.75と計算される。
図8において、類義語辞書34には、類義語を代表する代表語、代表語に類義する単語、単語の属性および類義語辞書を識別する辞書IDが登録される。例えば、脂脂質異常症という単語の類義語として、高脂血症、高トリグリセライド血症、高コレステロール血症、高リポ蛋白血症、食事性高脂血症および本能性高脂血症という単語が登録される。また、歯周病という単語の類義語として、歯周疾患、ペリオおよび歯槽膿漏という単語が登録される。
図9において、類義語除外リスト35には、互いに未類義語である単語T1、T2およびそれらの単語T1、T2の属性が登録される。例えば、例えば、かぜという単語T1の未類義語として、インフルエンザおよびおたふくかぜという単語T2が登録され、はしかという単語T1の未類義語として、三日ばしかという単語T2が登録され、ぜんそくという単語T1の未類義語として、慢性気管支炎およびアレルギー性鼻炎という単語T2が登録されている。
図10において、図1のCPU11は、類義語判定に用いる属性関係表32を読み込む(S11)。そして、CPU11は、属性関係表32に登録された属性関係を図1の端末4に表示させる。
図11において、CPU11は、図1のユーザ3が選択した属性関係の組R1、R2、・・・Re(eは正の整数)に含まれる属性の集まりをSPとする(S22)。
図12において、CPU11は、図1の単語-属性対応表33を参照することにより、図10のS21で与えられた単語Wiの属性Pを取得する(S31)。
図13において、CPU11は、単語の組Wj1、Wj2の組が図1の類義語辞書34に登録済かどうか判断する(S51)。CPU11は、単語の組Wj1、Wj2の組が類義語辞書34に登録済の場合、類義語登録処理を終了する。
図14において、図1のCPU11は、属性関係表32が更新されているかどうか判断する(S101)。CPU11は、属性関係表32が更新されていない場合、S103に進む。一方、CPU11は、属性関係表32が更新されている場合、図10の類義語辞書更新処理を実行する(S102)。
図15において、属性関係選択画面202には、属性関係を識別する識別番号203、属性Pと属性Pに関連する属性Prの組の表示欄204、205および属性関係を選択するチェックボックス206が表示される。
図17において、この文書検索システムは、図1のサーバ2Aの代わりにサーバ2Bを備える。サーバ2Bは、サーバ2Aと同様の構成を持つ。
図18において、原文リンク表37には、加工文書を識別する加工文書ID、加工文書が格納された文書場所、加工文書の格納開始位置、加工文書の格納終了位置、原文書を識別する原文書ID、原文書が格納された文書場所、原文書の格納開始位置および原文書の格納終了位置が登録される。文書場所は、データを格納する装置名で指定することができ、例えば、中央サーバ、ディスク装置D1とすることができる。
図19において、CPU11は、例えば、文書データ102から削除済属性タグ付き文書データ122を生成したものとする。このとき、CPU11は、例えば、文書データ102に原文書ID=241を付与し、中央サーバ、ディスク装置D1の開始位置=4から終了位置=6に文書データ102が保存されているという情報を原文リンク表37に登録する。また、CPU11は、例えば、削除済属性タグ付き文書データ122に加工文書ID=1053を付与し、中央サーバ、ディスク装置D1の開始位置=1から終了位置=3に削除済属性タグ付き文書データ122が保存されているという情報を原文リンク表37に登録する。
図20の類義語辞書更新処理は、図10の類義語辞書更新処理のS15およびS17の代わりにS15AおよびS17Aを備える。
図21において、この文書検索システムは、図1のサーバ2Aの代わりにサーバ2Cを備える。サーバ2Cは、サーバ2Aと同様の構成を持つ。
図22において、論理関係辞書38には、論理関係を持つ単語T1、T2の組が登録される。例えば、論理関係辞書38には、脂肪肝という単語T1と肝疾患という単語T2に対し、is-aという論理関係が登録され、食道という単語T1と消化器系という単語T2に対し、part-ofという論理関係が登録されている。
図23の類義語辞書更新処理は、図10の類義語辞書更新処理のS17が除去され、図10の類義語辞書更新処理のS18の代わりにS18AおよびS18Bを備える。
図24において、図21のCPU11は、図23のS18Aで共起指数を計算した全ての単語の組について共起指数補正処理を実行したかどうかを判断する(S61)。CPU11は、全ての単語の組について共起指数補正処理を実行した場合、共起指数補正処理を終了する。一方、CPU11は、全ての単語の組について共起指数補正処理を実行していない場合、CPU11は、共起指数を計算した次の単語の組およびその単語の組の共起指数を単語共起指数計算結果29から取り出す(S62)。
図25において、単語-属性対応表33Aには、紙幣ジャム、札詰まりおよびクシャクシャなどの症状名を示す単語に対応させて、症状という属性が登録される。また、単語-属性対応表33Aには、紙片除去およびカセット交換などの対策名を示す単語に対応させて、対策という属性が登録される。属性関係表32Aには、互いに関連する属性として症状と対策が登録される。
Claims (11)
- 文書データを入力とし、該文書データに含まれる単語について、意味的な属性である第1属性を持つ単語と、前記第1属性と関連する意味的な属性である第2属性を持つ単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を取得し、前記第2属性を共通に持つ単語の対の両方の前記第1属性を持つ単語との共起指数が下限値以上であれば、該対の単語同士に類義性があると判定する類義語判定装置。
- 前記第1属性を持つ第1単語と、前記第2属性を持つ第2単語との間の第1共起指数を計算し、
前記第1属性を持つ前記第1単語と、前記第2属性を持つ第3単語との間の第2共起指数を計算し、
前記第1共起指数および前記第2共起指数に基づいて、前記第2単語と前記第3単語との類義性を判定する請求項1に記載の類義語判定装置。 - 前記第1属性と関連する前記第2属性が登録された属性関係表と、
単語と属性との対応関係が登録された単語-属性対応表とを備え、
前記属性関係表に基づいて、前記第1属性と前記第2属性とが関連していることを特定し、
前記単語-属性対応表に基づいて、前記第1属性を持つ単語と、前記第2属性を持つ単語とを特定する、
請求項1に記載の類義語判定装置。 - 前記第1共起指数および前記第2共起指数が下限値以上の場合、前記第3単語を前記第2単語の類義語候補として提示し、
前記第3単語を前記第2単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第3単語を前記第2単語の類義語として登録する請求項2に記載の類義語判定装置。 - 文書データから抽出した単語に前記単語の属性を示す属性タグを付与し、
互いに関連する属性を示す属性タグが付与された単語の間の共起指数を計算する請求項1に記載の類義語判定装置。 - 前記属性タグが付与されていない単語が削除された前記文書データの残りの単語について前記共起指数を計算する請求項5に記載の類義語判定装置。
- 前記属性タグが付与されていない単語が削除されていない前記文書データの単語について前記共起指数を計算する請求項5に記載の類義語判定装置。
- 単語間の論理関係が登録された論理関係辞書を備え、前記文書データから抽出した単語間の論理関係の有無を前記論理関係辞書に基づいて特定し、前記単語間に論理関係が無ければ、前記単語間の共起指数を値が小さくなるように補正する請求項5に記載の類義語判定装置。
- 単語間の論理関係が登録された論理関係辞書を備え、
文書データを入力とし、該文書データに含まれる単語について、前記論理関係辞書に基づき論理関係を持つ第1単語と第2単語とを特定し、前記第1単語と前記第2単語の間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である共起指数を計算し、
前記共起指数が下限値以上であれば、前記第1単語と前記第2単語とに類義性があると判定する類義語判定装置。 - CPUを備える類義語判定方法であって、
前記CPUは、文書データを入力とし、該文書データに含まれる単語のうち、第1単語が持つ意味的な属性である第1属性と、第2単語および第3単語が持つ意味的な属性である第2属性が関連しているときに、前記第1単語と前記第2単語との間の、ある単語が前記文書データに含まれる文章中に現れたときその文章中に別の単語がどの程度頻繁に現れるかを示す指標である第1共起指数と、前記第1単語と前記第3単語との間の前記指標である第2共起指数とを取得し、前記第1共起指数と前記第2共起指数が下限値以上であれば、前記第2単語と前記第3単語とに類義性があると判定する類義語判定方法。 - 前記CPUは、前記第3単語を前記第2単語の類義語候補として提示した時に、前記類義語候補の登録指示に基づいて、前記第3単語を前記第2単語の類義語として登録する請求項10に記載の類義語判定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018180949A JP7178848B2 (ja) | 2018-09-26 | 2018-09-26 | 類義語判定装置および類義語判定方法 |
US16/524,403 US20200097552A1 (en) | 2018-09-26 | 2019-07-29 | Synonym determination device and synonym determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018180949A JP7178848B2 (ja) | 2018-09-26 | 2018-09-26 | 類義語判定装置および類義語判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020052690A JP2020052690A (ja) | 2020-04-02 |
JP7178848B2 true JP7178848B2 (ja) | 2022-11-28 |
Family
ID=69883164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018180949A Active JP7178848B2 (ja) | 2018-09-26 | 2018-09-26 | 類義語判定装置および類義語判定方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200097552A1 (ja) |
JP (1) | JP7178848B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12026157B2 (en) | 2021-05-27 | 2024-07-02 | International Business Machines Corporation | Narrowing synonym dictionary results using document attributes |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013109597A (ja) | 2011-11-21 | 2013-06-06 | Panasonic Corp | 医用同義語辞書作成装置および医用同義語辞書作成方法 |
-
2018
- 2018-09-26 JP JP2018180949A patent/JP7178848B2/ja active Active
-
2019
- 2019-07-29 US US16/524,403 patent/US20200097552A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013109597A (ja) | 2011-11-21 | 2013-06-06 | Panasonic Corp | 医用同義語辞書作成装置および医用同義語辞書作成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020052690A (ja) | 2020-04-02 |
US20200097552A1 (en) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8671112B2 (en) | Methods and apparatus for automated image classification | |
US9990422B2 (en) | Contextual analysis engine | |
US8548969B2 (en) | System and method for clustering content according to similarity | |
Zhu et al. | Unsupervised entity resolution on multi-type graphs | |
US20180107654A1 (en) | Method and apparatus for managing synonymous items based on similarity analysis | |
US20110282855A1 (en) | Scoring relationships between objects in information retrieval | |
US10303704B2 (en) | Processing a data set that is not organized according to a schema being used for organizing data | |
US20190266158A1 (en) | System and method for optimizing search query to retreive set of documents | |
US10713425B2 (en) | System and method for generating a proposal based on a request for proposal (RFP) | |
US11244109B2 (en) | Information processing device and information processing method | |
JP7178848B2 (ja) | 類義語判定装置および類義語判定方法 | |
JP6092493B1 (ja) | データベース管理装置およびその方法 | |
JP5392120B2 (ja) | 情報処理装置、判定プログラム及び判定方法 | |
KR102547033B1 (ko) | 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법 | |
JP2020064482A (ja) | 属性抽出装置および属性抽出方法 | |
JP2012003603A (ja) | 情報検索システム | |
US7865488B2 (en) | Method for discovering design documents | |
US11138174B2 (en) | Electronic database and method for forming same | |
US7865489B2 (en) | System and computer program product for discovering design documents | |
JP2011086156A (ja) | 漏洩情報追跡システムおよび漏洩情報追跡プログラム | |
JP4825504B2 (ja) | データ登録・検索システムおよびデータ登録・検索方法 | |
US20220366714A1 (en) | Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method | |
WO2023132341A1 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体 | |
KR102282721B1 (ko) | 의료 기기 및 약품 정보 제공 시스템 및 방법 | |
JP2009015511A (ja) | メタデータ管理装置、プログラムおよびメタデータ管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178848 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |