JP2016110441A - 用語抽出装置、方法、及びプログラム - Google Patents
用語抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2016110441A JP2016110441A JP2014248131A JP2014248131A JP2016110441A JP 2016110441 A JP2016110441 A JP 2016110441A JP 2014248131 A JP2014248131 A JP 2014248131A JP 2014248131 A JP2014248131 A JP 2014248131A JP 2016110441 A JP2016110441 A JP 2016110441A
- Authority
- JP
- Japan
- Prior art keywords
- term
- character string
- candidate character
- technical
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
20 演算部
30 辞書用語抽出部
32 分類器用語抽出部
34 調整部
36 反復判定部
40 用語辞書
42 分類器
50 出力部
100 用語抽出装置
Claims (7)
- 入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、
複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、
あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、
前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、
前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、
前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
用語抽出装置。 - 前記専門用語を、医療分野における病状に関する用語とした請求項1に記載の用語抽出装置。
- 前記反復判定部は、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力する請求項1又は請求項2に記載の用語抽出装置。
ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。 - 辞書用語抽出部、分類器用語抽出部、調整部、及び反復判定部を含み、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置における、用語抽出方法であって、
前記辞書用語抽出部が、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
前記分類器用語抽出部が、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
前記調整部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出するステップと、
前記反復判定部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すステップと、を含み、
前記辞書用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
前記分類器用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
用語抽出方法。 - 前記専門用語を、医療分野における病状に関する用語とした請求項4に記載の用語抽出方法。
- 前記反復判定部において前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び調整部による算出を繰り返すステップは、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力する請求項4又は請求項5に記載の用語抽出方法。
ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。 - コンピュータを、請求項1〜3のいずれか1項に記載の用語抽出装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014248131A JP6220767B2 (ja) | 2014-12-08 | 2014-12-08 | 用語抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014248131A JP6220767B2 (ja) | 2014-12-08 | 2014-12-08 | 用語抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016110441A true JP2016110441A (ja) | 2016-06-20 |
JP6220767B2 JP6220767B2 (ja) | 2017-10-25 |
Family
ID=56124193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014248131A Active JP6220767B2 (ja) | 2014-12-08 | 2014-12-08 | 用語抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6220767B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020154790A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2021022186A (ja) * | 2019-07-29 | 2021-02-18 | 株式会社日立製作所 | ヘルスケアデータ分析装置及び分析方法 |
WO2021145146A1 (ja) * | 2020-01-16 | 2021-07-22 | 株式会社テンクー | 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム |
CN116150382A (zh) * | 2023-04-19 | 2023-05-23 | 北京亚信数据有限公司 | 一种确定标准化医疗专业名词的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320392A (ja) * | 1997-05-19 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 日本語形態素解析方法及び装置及び日本語形態素解析プログラムを格納した記憶媒体 |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2008293070A (ja) * | 2007-05-22 | 2008-12-04 | Fuji Xerox Co Ltd | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
JP2009086911A (ja) * | 2007-09-28 | 2009-04-23 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法、プログラム及び記録媒体 |
-
2014
- 2014-12-08 JP JP2014248131A patent/JP6220767B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320392A (ja) * | 1997-05-19 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 日本語形態素解析方法及び装置及び日本語形態素解析プログラムを格納した記憶媒体 |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2008293070A (ja) * | 2007-05-22 | 2008-12-04 | Fuji Xerox Co Ltd | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
JP2009086911A (ja) * | 2007-09-28 | 2009-04-23 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法、プログラム及び記録媒体 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020154790A (ja) * | 2019-03-20 | 2020-09-24 | ヤフー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7139271B2 (ja) | 2019-03-20 | 2022-09-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2021022186A (ja) * | 2019-07-29 | 2021-02-18 | 株式会社日立製作所 | ヘルスケアデータ分析装置及び分析方法 |
JP7171522B2 (ja) | 2019-07-29 | 2022-11-15 | 株式会社日立製作所 | ヘルスケアデータ分析装置及び分析方法 |
WO2021145146A1 (ja) * | 2020-01-16 | 2021-07-22 | 株式会社テンクー | 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム |
JP2021114057A (ja) * | 2020-01-16 | 2021-08-05 | 株式会社テンクー | 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム |
CN116150382A (zh) * | 2023-04-19 | 2023-05-23 | 北京亚信数据有限公司 | 一种确定标准化医疗专业名词的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6220767B2 (ja) | 2017-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109564589B (zh) | 使用手动用户反馈进行实体识别和链接***和方法 | |
US11790171B2 (en) | Computer-implemented natural language understanding of medical reports | |
US11687719B2 (en) | Post-filtering of named entities with machine learning | |
US11341417B2 (en) | Method and apparatus for completing a knowledge graph | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
US20200242444A1 (en) | Knowledge-graph-embedding-based question answering | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
US20160117295A1 (en) | Method and apparatus for forming a structured document from unstructured information | |
US20190171792A1 (en) | Interaction network inference from vector representation of words | |
US8560477B1 (en) | Graph-based semi-supervised learning of structured tagging models | |
CN106874643A (zh) | 基于词向量自动构建知识库实现辅助诊疗的方法和*** | |
US11182395B2 (en) | Similarity matching systems and methods for record linkage | |
JP6220767B2 (ja) | 用語抽出装置、方法、及びプログラム | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
JP2018170008A (ja) | エンティティの属性をマッピングする方法及びシステム | |
WO2021174923A1 (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN116776884A (zh) | 一种用于医学命名实体识别的数据增强方法及*** | |
CN116186223A (zh) | 一种金融文本处理方法、装置、设备和存储介质 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
US20160196266A1 (en) | Inferring seniority based on canonical titles | |
US11436529B1 (en) | Method, apparatus, and computer program product for natural language processing | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
Lee et al. | Model selection for the rate problem: A comparison of significance testing, Bayesian, and minimum description length statistical inference | |
JP2018025717A (ja) | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6220767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |