JP2016110441A - 用語抽出装置、方法、及びプログラム - Google Patents

用語抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016110441A
JP2016110441A JP2014248131A JP2014248131A JP2016110441A JP 2016110441 A JP2016110441 A JP 2016110441A JP 2014248131 A JP2014248131 A JP 2014248131A JP 2014248131 A JP2014248131 A JP 2014248131A JP 2016110441 A JP2016110441 A JP 2016110441A
Authority
JP
Japan
Prior art keywords
term
character string
candidate character
technical
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014248131A
Other languages
English (en)
Other versions
JP6220767B2 (ja
Inventor
潤 鈴木
Jun Suzuki
潤 鈴木
昭典 藤野
Akinori Fujino
昭典 藤野
努 平尾
Tsutomu Hirao
努 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014248131A priority Critical patent/JP6220767B2/ja
Publication of JP2016110441A publication Critical patent/JP2016110441A/ja
Application granted granted Critical
Publication of JP6220767B2 publication Critical patent/JP6220767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の専門分野に関する文書から専門用語を抽出することができる。【解決手段】辞書用語抽出部30が、用語辞書40に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、調整部34でペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、分類器用語抽出部32が、分類器42に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、調整部34で算出したペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、抽出された病状に関する用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを算出することを、反復判定部36により病状に関する用語の候補文字列が一致するまで繰り返す。【選択図】図2

Description

本発明は、用語抽出装置、方法、及びプログラムに係り、特に、特定の専門分野に関する文書から専門用語を抽出するための用語抽出装置、方法、及びプログラムに関する。
電子カルテといった自然言語で書かれた医療分野に関する文書から機械的に病名や病状を表す文字列を抽出することができれば、より多くの人の症状を統計データとして活用することが容易になり、どのような状況、生活習慣、既往症などがあると、ある特定の病気になりやすい、といった分析を行うことが可能となる。こういった分析は、予防医療や、病名を推測し適切な処置をする上で非常に有益な情報となり得る。よって、こういった病名や病状といった専門用語を、文書から機械的に抽出できるシステムの開発は社会的な価値があると言える。以下、病名及び病状を総称して「病状」と表記する。
ここで課題となるのが、いかにして自然言語で記述された文書から専門用語を機械的に精度よく抽出するか、である。医療分野であれば、最も単純には、図5に示すように、カルテ等の医療分野に関する文書から病状を抽出するために、病状をリストアップした「病状に関する用語辞書」を事前に作成しておき、その辞書に登録されている病状がカルテ中に出現する部分を漏れ無く抽出する方法が挙げられる。このように、事前に辞書を準備し、その辞書中の文字列が医療分野に関する文書に出現した箇所を病状として抽出する方法を総称して、「病状に関する用語辞書に基づく病状抽出法」と呼ぶ。
また、病状が人手により付与された医療分野に関する文書が一定量存在するなら、機械学習手法を使って、病状の分類器を作成することが可能である。この場合は、例えば、図6に示すように、周囲の文脈等を特徴として利用しつつ、各文字が病状を表す文字列の一部に「なる」か「ならない」かの二クラスに分類する問題を文章全体に対して行うことにより病状となる文字列を抽出することが可能である。このような分類器を用いて病状を抽出する方法を総称して、「分類器に基づく病状抽出法」と呼ぶ。また、分類器を用いた方法は、固有表現抽出や専門用語抽出などと同じ解き方であり、その分野では古くから用いられている方法である(非特許文献1参照)。このように、データマイニング、或いは、機械学習の基本的な方法論を用いて病状抽出システムを構築することができる。
齋藤邦子,鈴木潤,今村賢治,「CRFを用いたブログからの固有表現抽出」,言語処理学会年次大会, 2007
しかし、医療の分野において、実際のカルテでは、実質は同じ症状を表す病名だったとしても、ひらがな、カタカナ、漢字などの異なる文字を用いた表記、略語や省略など、或いは、同義語、類義語のような表記揺れが非常に多い。また、病状の表現はバリエーションが多く、カルテを記述する人によって多種多様にわたる。さらに、病名や病状は時間とともに増加する可能性があるものである。このように、病状抽出システムを実際に使う場面では、こういった状況に対応する必要がある。
病状抽出システムでの抽出誤りは、大きく2種類に大別できる。一つは本来抽出すべき病状の抽出に失敗する場合であり、もう一方は、本来病状ではないのに病状だと誤って抽出してしまう場合である。例えば、前述した、病状に関する用語辞書に基づく病状抽出法の場合、本来抽出すべき病状の抽出に失敗する典型的な例として、カルテを書く人による略記や微妙な表記揺れなどによりマッチングに失敗することが容易に考えられる。また、本来病状ではないのに病状として誤って抽出してしまう例として、病状にあたる「リウマチ」に対する「リウマチ科」や、病状「高血圧」に対する「高血圧撲滅運動」のように、必ずしも字面が一致しても、それが症状を表しているとは限らない、といった例があげられる。このように、単純な辞書中の病状の文字列とのマッチングでは、カルテ等の医療分野に関する文書からの病状抽出を行うのは不十分であると言える。
一方、分類器に基づく病状抽出法の場合は、各文字が病状として判別できるかを周囲の情報を基に決定していく方法であるため、周囲の情報を活用している分だけ辞書マッチングに基づく方法より多様な表現に対応した結果が得られる場合が多い。ただし、どのような文字列が病状と判別されるかといった情報を獲得するには、分類器の学習データとなる、正解がついた医療分野に関する文書をある程度の量は準備する必要がある。正解データの作成は基本的に人手により行われるため、時間的、及び金銭的なコストが非常に高くなる。また、前述のように、時間変化による病名の新たな登録等に対しては、正解データの作成のみならず分類器の再学習といったコストの高い処理も必要とするため、こういった要因が分類器による方法の最も大きな課題となる。
このように、これらの従来法には一長一短がある。病状に関する用語辞書に基づく病状抽出法は、病名が新たに追加されるような場面でも、辞書登録のみで対応可能なため非常に低コストで更新できる。一方、抽出精度は、分類器に基づく病状抽出法と比べて相対的に低いという課題がある。分類器に基づく病状抽出法は、辞書に基づく病状抽出法より抽出精度を相対的に高くなるが、それは正解データの作成コストに依存した抽出精度であり、仮に正解データが限定的な量しかなければ、方法論としては良い分類器に基づく病状抽出法でも、辞書に基づく病状抽出法より抽出精度が低くなることもあり得る。また、新しい病名などが追加された際には、再学習のコストを支払わなくてはいけないという課題がある。
本発明は、上記問題点を解決するために成されたものであり、専門用語を精度よく抽出することができる用語抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る用語抽出装置は、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するように構成されている。
また、第1の発明に係る用語抽出装置において、前記専門用語を、医療分野における病状に関する用語としてもよい。
また、第1の発明に係る用語抽出装置において、前記反復判定部は、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力するようにしてもよい。
ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。
第1の発明に係る用語抽出方法は、辞書用語抽出部、分類器用語抽出部、調整部、及び反復判定部を含み、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置における、用語抽出方法であって前記辞書用語抽出部が、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、前記分類器用語抽出部が、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、前記調整部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出するステップと、前記反復判定部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すステップと、を含んで実行し、前記辞書用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、前記分類器用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出することを特徴とする。
また、第1の発明に係る用語抽出方法において、前記専門用語を、医療分野における病状に関する用語としてもよい。
また、第1の発明に係る用語抽出方法において、前記反復判定部において前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び調整部による算出を繰り返すステップは、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力するようにしてもよい。
ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。
第1の発明に係るプログラムは、コンピュータを、上記第1の発明として記載した用語抽出装置を構成する各部として機能させるためのプログラムである。
本発明の用語抽出装置、方法、及びプログラムによれば、用語辞書に基づいて、専門用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、専門用語の候補文字列の各々を抽出し、分類器に基づいて、専門用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、専門用語の候補文字列の各々を抽出し、抽出された専門用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを算出することを、専門用語の候補文字列が一致するまで繰り返すことにより、専門用語を精度よく抽出することができる、という効果が得られる。
病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法とを組み合わせた例を示す抽象図である。 本実施の形態に係る用語抽出装置の機能的構成を示すブロック図である。 本実施の形態に係る用語抽出装置における用語抽出処理ルーチンを示すフローチャートである。 本実施の形態に係る手法の効果の一例を示すグラフ図である。 病状に関する用語辞書に基づく病状抽出法の例を示す抽象図である。 分類器に基づく病状抽出法の例を示す抽象図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、医療分野の文書から、病状に関する専門用語を抽出する用語抽出装置を例に説明するが、特定の専門分野に関する文書であれば、どのような専門分野に関する文書であっても、専門用語を抽出することができることは言うまでもない。また、専門用語とは、特定の専門分野において唯一の意味が定義された用語である。
<本発明の実施の形態に係る原理>
まず、本発明の実施の形態における原理を説明する。
最初に、病状に関する用語辞書に基づく病状抽出法によって、病状に関する専門用語を抽出する方法について述べる。本実施の形態では、病状に関する用語辞書と、人手により病状の正解がついた医療分野に関する文書が存在するとする。
本実施の形態に係る、病状に関する用語辞書に基づく病状抽出法では、前処理として、辞書中に登録されている各病状の部分文字列に対してそれぞれスコアを与える。スコアは、医療分野に関する文書中に出現した際に病状として使われる可能性の高い部分文字列である程、スコアがより高くなるように設定すればよい。特に基準となる統計量がなければ、文字列長をスコアとして用いればよい。つまり、長い部分文字列ほど、より病状として使われる確率が高いという簡単な事前知識を使うことに相当する。一例として、病状を表す文字列dに対して以下(1)式でスコアを計算する。
s(d)=min(M,|d|/δ) ・・・(1)
例えば、スコアの最大値M=10、スケールδ=10等を使う。この設定であれば、長さ1でスコア0.1、長さ10以上ならスコア10という事になる。辞書中の各病状の文字列に対して与えられたスコアを、以下(2)式で表される、医療分野に関する文書中のi番目からj番目までの部分文字列が病状として抽出すべきかを判定するための辞書スコアsi,jとして利用する。
つまり、文書中のi番目からj番目までの部分文字列が辞書中に存在すれば、前述の事前に設定した辞書中の病状の部分文字列に対するスコアを代入し、辞書中に存在しない場合は辞書スコアを0とする。
ここで、yi,jを、文書中のi番目からj番目の部分文字列が病状に関する用語辞書に基づく病状抽出法により病状として抽出される候補文字列であるかを表す変数とする。また、この変数は、0または1のみを取る二値変数とする。もしyi,j=1なら文書中のi番目からj番目の部分文字列が病状として抽出される候補文字列であり、yi,j=0なら抽出されないことを意味すると定義する。
次に、分類器に基づく病状抽出法について述べる。正解がついた医療分野に関する文書を用いて、文書中で各文字が病状として使われているか使われていないかを判定する分類器を、機械学習法を用いて構築する。この際に、各文字の周囲の文脈を分類器の特徴として用いる。
病状に関する用語辞書に基づく病状抽出法とは違い、全ての部分文字列に対してスコアを計算するのは計算が無駄になる場合が多いので、計算量を抑えるために、IOBタグ法またはその亜種を用いて病状の部分文字列を抽出する問題を、各文字に対してIOBタグを付与する問題へ変換する。ただし、この変換は可逆変換なので、IOBタグ列から病状として選択された範囲を容易に獲得できる。例えば、BIESOの5種類のタグを用いて問題を変換する。Bタグは、病状の部分文字列の開始を意味し、Eタグは、病状の部分文字列の終了を意味する。また、Sタグは開始および終了を意味するので、一文字で病状を表す場合に用いられる。最後にOタグは病状ではない範囲の部分文字列全てに付与され、IタグはBとEの中間に必ず付与される。例えば、文書中のi番目からj番目までが病状として抽出されたと仮定すると、それはi番目の文字にはBタグが選択され、j番目の文字にはEタグが選択され、i+1からj−1番目の各文字にはIタグが付与されている場合である。
この場合、分類器のスコアは各文字の各IOBタグ毎に与えられる設定となるので、医療分野に関する文書中のi番目からj番目までの部分文字列が病状として抽出すべきかを判定する分類器スコアti,jは、i番目からj番目までの部分文字列が丁度病状として抽出される際のスコアの総和と、iからjまで全て抽出されないスコアの総和との差分を用いる。前述のBIESOのタグを用いる場合は、以下(3)式のようになる。
ただし、~θi,L=θi,L−θi,Oとし、θi,Lをi番目の文字にIOBタグ中のタグL(Bタグ、Iタグ、又はEタグ)に与えられたスコアとする。これは、全てのiについて必ず~θi,O=0となることから各文字が病状の部分文字列(の一部)として抽出されないスコアを0に正規化する意図がある。よって、ti,j<0なら、i番目からj番目の部分文字列は病状として抽出されることはないことを意味する。
このスコアを決定するために用いる学習法は、部分文字列に対してラベル系列を返す問題なので、条件付確率場のような出力系列全体の整合性を加味して最適化する学習法を用いることが望ましいが、各文字に対して一般的な多クラス分類器を学習する方法でも構わない。学習法の満たすべき条件は、判定に対して前述のスコアに相当するものを出力することができる方法であることである。
ここで、zi,jを、文書中のi番目からj番目の部分文字列が分類器により病状として抽出される候補文字列であるかどうかを表す変数とする。また、この変数は、0または1のみを取る二値変数とする。もしzi,j=1なら文書中のi番目からj番目の部分文字列が病状として抽出される候補文字列であり、zi,j=0なら抽出されないことを意味すると定義する。
以上の手法により作成した分類器及びスコア付きの病状に関する用語辞書を用いて病状抽出問題を以下(4)式の最適化問題として定式化する。
ただし、^yは、医療分野に関する文書に含まれる部分文字列の各々が、病状に関する用語辞書によって病状に関する用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、病状に関する用語の候補文字列の辞書スコアの総和である。また、R={(i,j)|1≦i≦j≦N}とする。つまり、Rは医療分野に関する文書中の全ての文字列の範囲を表す組み合わせの集合である。このとき、^y=(yi,j)(i,j)∈R、^z = (zi,j)(i,j)∈R、及び^λ=(λi,j)(i,j)∈Rとする。よって、各ベクトルの要素は文字列長Nの文章に対しては、個の変数が存在することになる。なお、ベクトルを表す記号には、記号の前に「^」を付して表現する。
また、^zは、文書に含まれる部分文字列の各々が、分類器によって病状に関する用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、病状に関する用語の候補文字列の分類器スコアの総和である。
また、Yは、病状に関する用語辞書に基づく病状抽出法によって生成される可能性のある病状に関する用語の候補文字列^yの集合であり、Zは、分類器に基づく病状抽出法によって生成される可能性のある病状に関する用語の候補文字列^zの集合である。すなわち、Yは、病状に関する用語の候補文字列が、他の候補文字列と重ならない^yの集合であり、Zは、病状に関する用語の候補文字列が、他の候補文字列と重ならない^zの集合である。なお、重ならないというのは、例えば、y1,3=1とy2,5=1は同時に満たすことができないため、こういった重なりがあるような抽出は解の集合Yに含まれていないことを意味する。Zについても同様である。各YとZを満たす解は動的計画法で容易に求めることができるので、解の整合性を考慮するのに大きな問題は発生しない。
上記(4)式は、用語辞書40に基づく任意のスコア関数fと分類器に基づくスコア関数gにより定義されるスコアが最大になる最適化変数^yと^zを求めることを意味する。ただし、図1に示すように、用語辞書40に基づく抽出結果^yと分類器に基づく抽出結果^zは一致するという条件を満たした中で、という制約がついている。
上記(4)式の効率的な解法としては、整数計画問題を効率的に解くために、まずラグランジュ緩和法を用いて以下(5)式の制約なし最適化問題の目的関数を得る。
次に、非特許文献2(Andre F. T. Martins, Mario A. T. Figueiredo, Pedro M. Q. Aguiar, Noah A. Smith, Eric P. Xing “An Augmented Lagrangian Approach to Constrained MAP Inference” Proc. of ICML, 2011.)、及び非特許文献3(Stephen Boyd, Neal Parikh, Eric Chu, Borja Peleato, and Jonathan Eckstein. “Distributed optimization and statistical learning via the alternating direction method of multipliers.”Foundations and Trends in Machine Learning, 2011.)に記載されている手法により、以下(6)式のようにaugmented Lagrangianの項を追加して問題を2次式の形に変形することで問題をより解きやすい形とする。
この目的関数は、最適値で
となるので、項を追加する前の状態と最適値は不変である。最終的に上記(6)式の目的関数の最適値を得る変数の集合を見つける問題を解くことで、病状に関する用語の抽出を行うことができる。
以上、病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法とを組み合わせることで、病状に関する用語を精度よく抽出することができる。
<本発明の実施の形態に係る用語抽出装置の構成>
次に、本発明の実施の形態に係る用語抽出装置の構成について説明する。
図2に示すように、本発明の実施の形態に係る用語抽出装置100は、CPUと、RAMと、後述する用語抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語抽出装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、医療分野に関する文書を受け付ける。
演算部20は、辞書用語抽出部30と、分類器用語抽出部32と、調整部34と、反復判定部36と、用語辞書40と、分類器42とを含んで構成されている。
用語辞書40には、複数の病状に関する用語が格納されている。
分類器42は、上述した病状の正解がついた文書に基づいてあらかじめ学習された、病状に関する用語か否かを識別するための分類器である。
辞書用語抽出部30は、用語辞書40に基づいて、入力部10で受け付けた医療分野に関する文書に含まれる部分文字列であって、病状に関する用語辞書40に格納された病状に関する用語と一致する部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す辞書スコアを算出し、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
また、辞書用語抽出部30は、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアを、後述する調整部34により候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
本実施の形態では、辞書用語抽出部30は、医療分野に関する文書中の全ての部分文字列xi,j(ただし、1≦i≦j≦N)に対して、病状に関する用語辞書40中の病状の部分文字列とマッチングを行い、完全一致し、かつ、補正後辞書スコア(~si,j)が正の値の場合は、その文字列を病状の候補文字列として捉える。ただし、同じ文字位置に複数の候補文字列がある場合には、同じ文字位置で高々一つの病状となる条件下で文書全体の補正後辞書スコアの総和が最も高くなる候補文字列集合を動的計画法により一つ選択する。
辞書用語抽出部30は、具体的には、以下の処理を行う。
辞書用語抽出部30では、まず、f(^y)は以下(8)式であると仮定する。なお、^yの初期値は0である。
f(^y)=^s・^y ・・・(8)
ただし変数同様にスコアも^s=(si,j)( i,j)∈Rである。
次に、辞書用語抽出部30における病状に関する用語辞書に基づく病状抽出法では、目的関数の上記(6)式から、式変換をかけた以下(9)式を用いて、病状に関する用語辞書に基づく病状抽出法のマッチングによる抽出結果を示す^yに関する項のみを抽出する。
ただし、
である。このときk番目の反復計算の時点で、^λと^zを固定したとき^yの最適解は、目的関数L^y(^y|^z(k−1),^λ(k−1))を最大にする^yを見つける、下記(10)式で表される問題である。なお、kは、後述する反復判定部36での繰り返しを管理する変数である。
つまり、yi,jは、他の制約がない前提では、zi,j+ (si,j+λi,j)/ρ が0.5より小さければ0を選択し、0.5より大きければ1を選択する場合に、L^y(^y|^z,^λ)が最大になる。ただし、実際には、同じ文字位置に存在する複数の病状に関する用語を選択しないように抽出するので、動的計画法を用いて他の候補文字列と重なり合わない条件下で値が最大になるように抽出する。
分類器用語抽出部32は、分類器42に基づいて、入力部10で受け付けた医療分野に関する文書に含まれる部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す分類器スコアを算出し、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
また、分類器用語抽出部32は、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアを、後述する調整部34により候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
本実施の形態では、分類器用語抽出部32は、医療分野に関する文書中の全ての部分文字列xi,jに対して、学習済みの分類器42を用いてスコア付けを行い、補正後分類器スコア(~ti,j)が正の値をとる部分文字列を対象として文書全体で最も補正後分類器スコアの総和が高くなる候補文字列集合を動的計画法により一つ選択する。
分類器用語抽出部32は、具体的には、以下の処理を行う。
分類器用語抽出部32では、まず、g(^z)は以下(11)式であると仮定する。なお、^zの初期値は0である。
g(^y)=^t・^z ・・・(11)
ただし変数同様にスコアも^t=(ti,j)( i,j)∈Rである。
次に、分類器用語抽出部32における分類器に基づく病状抽出法では、辞書用語抽出部30の病状に関する用語辞書に基づく抽出法と同様に、(6)式から、式変換をかけた以下(12)式を用いて、分類器に基づく病状抽出結果となる^zに関する項のみを抽出する。
ただし、
である。k番目の反復計算の時点で、^λと^yを固定したとき^zの最適解は、目的関数L^z(^z|^y(k−1),^λ(k−1)k)を最大にする^zを見つける、下記(13)式で表される問題である。
分類器用語抽出部32において、分類器42を用いる場合は、zi,jからIOBタグ形式に変換する必要があるが、その場合であっても、病状に関する用語辞書に基づく病状抽出法のマッチングと同様に動的計画法によって効率的に解ける。
調整部34は、辞書用語抽出部30により抽出された病状に関する用語の候補文字列と、分類器用語抽出部32により抽出された病状に関する用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する。
調整部34は、具体的には、補正後のスコア~sと~tを更新するために、文書に含まれる各部分文字列に対するペナルティスコアを表す^λを更新する。^zと^uを固定したとき個々の^λの最適値の方向は、以下(14)式で表される目的関数L (^y,^z,^λ)の^λに関する偏微分方向である。
この関係からk番目の反復計算における^λの更新式は以下(15)式のようになる。
調整部34では、^λの各要素λi,jの初期値を必ず0にする。つまり、全ての(i,j)∈Rに対して
とする。
このようにすることによって反復計算中yi,j=0及びzi,j=0のまま不変の(i,j) に関して、全ての反復計算kに対して、
で固定される。ただしこれは、前述したように、病状に関する用語辞書に基づく病状抽出法であっても、分類器に基づく病状抽出法であっても、病状として抽出されない任意の部分文字列のスコアが必ず0になるように調整してあることが条件となっている。この意味するところは、反復計算中のそれぞれの辞書マッチングまたは分類器の病状抽出で候補文字列として選択されないi番目からj番目の部分文字列に関しては、全く考慮する必要がないことを意味する。つまり前述の通りλi,j、yi,j、i,jは,それぞれ最大個の変数を必要とするが、実際の計算では、反復計算中に
となった際に、その出現をトリガーとして、
が出現した場合に、zi,j及びλi,jを生成し、
が出現した場合に、yi,j及びλi,jを生成すればよい。よって、実際の計算では非常に少数の変数のみで計算が可能である。
反復判定部36は、辞書用語抽出部30により抽出された病状に関する用語の候補文字列と、分類器用語抽出部32により抽出された病状に関する用語の候補文字列とが一致しているか否かを判定し、一致していると判定されるまで、辞書用語抽出部30による抽出、分類器用語抽出部32による抽出、及び調整部34による算出を繰り返すことにより、上記の(4)式で表わされる最適化問題を解き、解^z’を、病状に関する用語の抽出結果として出力部50により出力する。
<本発明の実施の形態に係る用語抽出装置の作用>
次に、本発明の実施の形態に係る用語抽出装置100の作用について説明する。入力部10において医療分野に関する文書を受け付けると、用語抽出装置100は、図3に示す用語抽出処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた医療分野に関する文書を取得する。
次に、ステップS102では、繰り返しを管理する変数kを0、ペナルティスコア^λを0、文書中のi番目からj番目の部分文字列が病状に関する用語辞書に基づく病状抽出法により病状として抽出される候補文字列であるかを表す変数^yを0、及び文書中のi番目からj番目の部分文字列が分類器により病状として抽出される候補文字列であるかどうかを表す変数^zを0とした初期値を設定する。
次に、ステップS104では、用語辞書40に基づいて、ステップS100で取得した医療分野に関する文書に含まれる部分文字列であって、病状に関する用語辞書40に格納された病状に関する用語と一致する部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す辞書スコアを算出し、上記(10)式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
ステップS106では、分類器42に基づいて、ステップS100で取得した医療分野に関する文書に含まれる部分文字列の各々について、当該部分文字列が病状に関する用語として抽出される度合いを表す分類器スコアを算出し、上記(13)式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
ステップS108では、ステップS104又はステップS112で抽出された病状に関する用語の候補文字列と、ステップS106又はステップS114で抽出された病状に関する用語の候補文字列とが一致しているかを判定し、一致していない場合には、ステップS109で、k=k+1としてステップS110へ移行する。一方、上記のステップS108によって、一致すると判定された場合には、ステップS116へ移行する。
ステップS110では、上記ステップS104又は前回のステップS112による抽出結果と、上記ステップS106又は前回のステップS114による抽出結果とに基づいて、上記(15)式に従って、ペナルティスコア^λを算出する。
ステップS112では、上記(10)式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の辞書スコアを、ステップS108により算出されたペナルティスコア^λに基づいて補正した補正後辞書スコア(~si,j)の総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
ステップS114では、上記(14)式に従って、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、病状に関する用語の候補文字列の分類器スコアを、ステップS108により算出されたペナルティスコアに基づいて補正した補正後分類器スコア(~ti,j)の総和が最大となるように、病状に関する用語の候補文字列の各々を抽出する。
そして、ステップS116では、ステップS114の計算により最終的に得られた変数^zを、病状に関する用語の抽出結果^z’として出力部50により出力し、処理を終了する。
以上説明したように、本実施の形態に係る用語抽出装置によれば、用語辞書40に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、分類器42に基づいて、病状に関する用語の候補文字列が、他の候補文字列と重ならず、かつ、ペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、病状に関する用語の候補文字列の各々を抽出し、抽出された病状に関する用語の候補文字列を比較して、一致していない候補文字列の各々に対してペナルティスコアを更新することを、病状に関する用語の候補文字列が一致するまで繰り返すことにより、病状に関する用語を精度よく抽出することができる。
また、本実施の形態に係る手法を用いることで、病状に関する用語辞書に基づく病状抽出法と、分類器に基づく病状抽出法の双方の長所を合わせた抽出システムを構築することが可能となる。
また、例えば、新しい病名などが追加された場合は、辞書に登録するだけで対応可能であり、分類器に基づく方法単体の抽出システムのように正解データを作成するなどのコストをかける必要性を大幅に軽減することができる。
また、図4に示すように、病状に関する用語辞書に基づく病状抽出法や分類器に基づく病状抽出法、それぞれ単体の時の抽出精度よりも全体の抽出精度を向上させることが可能である。これは、二つの違う情報を融合することで、単体では捉えきれなかったものを捉えることができる可能性が広がったことに起因する。
また、従来よりも、より高精度かつ柔軟な病状抽出システムを構築することができるようになる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 辞書用語抽出部
32 分類器用語抽出部
34 調整部
36 反復判定部
40 用語辞書
42 分類器
50 出力部
100 用語抽出装置

Claims (7)

  1. 入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置であって、
    複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する辞書用語抽出部と、
    あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する分類器用語抽出部と、
    前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出する調整部と、
    前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返す反復判定部と、を含み、
    前記辞書用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
    前記分類器用語抽出部は、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
    用語抽出装置。
  2. 前記専門用語を、医療分野における病状に関する用語とした請求項1に記載の用語抽出装置。
  3. 前記反復判定部は、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力する請求項1又は請求項2に記載の用語抽出装置。

    ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。
  4. 辞書用語抽出部、分類器用語抽出部、調整部、及び反復判定部を含み、入力された、特定の専門分野に関する文書から、前記特定の専門分野において唯一の意味が定義されている専門用語を抽出する用語抽出装置における、用語抽出方法であって、
    前記辞書用語抽出部が、複数の専門用語を格納した用語辞書に基づいて、前記文書に含まれる部分文字列であって、前記用語辞書に格納された専門用語と一致する部分文字列の各々について、前記部分文字列が専門用語として抽出される度合いを表す辞書スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
    前記分類器用語抽出部が、あらかじめ学習された、前記専門用語であるか否かを識別するための分類器に基づいて、前記文書に含まれる部分文字列の各々について、前記部分文字列が前記専門用語として抽出される度合いを表す分類器スコアを算出し、前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出するステップと、
    前記調整部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とを比較して、一致していない候補文字列の各々に対してペナルティスコアを算出するステップと、
    前記反復判定部が、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すステップと、を含み、
    前記辞書用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
    前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の辞書スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後辞書スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出し、
    前記分類器用語抽出部において前記専門用語の候補文字列の各々を抽出するステップは、
    前記専門用語の候補文字列が、他の候補文字列と重ならず、かつ、前記専門用語の候補文字列の分類器スコアを、前記調整部により前記候補文字列に対して算出されたペナルティスコアに基づいて補正した補正後分類器スコアの総和が最大となるように、前記専門用語の候補文字列の各々を抽出する
    用語抽出方法。
  5. 前記専門用語を、医療分野における病状に関する用語とした請求項4に記載の用語抽出方法。
  6. 前記反復判定部において前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び調整部による算出を繰り返すステップは、前記辞書用語抽出部により抽出された前記専門用語の候補文字列と、前記分類器用語抽出部により抽出された前記専門用語の候補文字列とが一致するまで、前記辞書用語抽出部による抽出、前記分類器用語抽出部による抽出、及び前記調整部による算出を繰り返すことにより、以下の式で表わされる最適化問題を解き、解^z’を、前記専門用語の抽出結果として出力する請求項4又は請求項5に記載の用語抽出方法。

    ただし、^yは、前記文書に含まれる部分文字列の各々が、前記辞書用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、f(^y)は、前記専門用語の候補文字列の前記辞書スコアの総和であり、^zは、前記文書に含まれる部分文字列の各々が、前記分類器用語抽出部によって前記専門用語の候補文字列として抽出されたか否かを表すベクトルであり、g(^z)は、前記専門用語の候補文字列の前記分類器スコアの総和であり、Yは、前記辞書用語抽出部によって生成される可能性のある前記専門用語の候補文字列^yの集合であり、Zは、前記分類器用語抽出部によって生成される可能性のある前記専門用語の候補文字列^zの集合である。
  7. コンピュータを、請求項1〜3のいずれか1項に記載の用語抽出装置を構成する各部として機能させるためのプログラム。
JP2014248131A 2014-12-08 2014-12-08 用語抽出装置、方法、及びプログラム Active JP6220767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248131A JP6220767B2 (ja) 2014-12-08 2014-12-08 用語抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248131A JP6220767B2 (ja) 2014-12-08 2014-12-08 用語抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016110441A true JP2016110441A (ja) 2016-06-20
JP6220767B2 JP6220767B2 (ja) 2017-10-25

Family

ID=56124193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248131A Active JP6220767B2 (ja) 2014-12-08 2014-12-08 用語抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6220767B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154790A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021022186A (ja) * 2019-07-29 2021-02-18 株式会社日立製作所 ヘルスケアデータ分析装置及び分析方法
WO2021145146A1 (ja) * 2020-01-16 2021-07-22 株式会社テンクー 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
CN116150382A (zh) * 2023-04-19 2023-05-23 北京亚信数据有限公司 一种确定标准化医疗专业名词的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320392A (ja) * 1997-05-19 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法及び装置及び日本語形態素解析プログラムを格納した記憶媒体
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2008293070A (ja) * 2007-05-22 2008-12-04 Fuji Xerox Co Ltd 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2009086911A (ja) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、その方法、プログラム及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320392A (ja) * 1997-05-19 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法及び装置及び日本語形態素解析プログラムを格納した記憶媒体
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2008293070A (ja) * 2007-05-22 2008-12-04 Fuji Xerox Co Ltd 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2009086911A (ja) * 2007-09-28 2009-04-23 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、その方法、プログラム及び記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154790A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
JP7139271B2 (ja) 2019-03-20 2022-09-20 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021022186A (ja) * 2019-07-29 2021-02-18 株式会社日立製作所 ヘルスケアデータ分析装置及び分析方法
JP7171522B2 (ja) 2019-07-29 2022-11-15 株式会社日立製作所 ヘルスケアデータ分析装置及び分析方法
WO2021145146A1 (ja) * 2020-01-16 2021-07-22 株式会社テンクー 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
JP2021114057A (ja) * 2020-01-16 2021-08-05 株式会社テンクー 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
CN116150382A (zh) * 2023-04-19 2023-05-23 北京亚信数据有限公司 一种确定标准化医疗专业名词的方法及装置

Also Published As

Publication number Publication date
JP6220767B2 (ja) 2017-10-25

Similar Documents

Publication Publication Date Title
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接***和方法
US11790171B2 (en) Computer-implemented natural language understanding of medical reports
US11687719B2 (en) Post-filtering of named entities with machine learning
US11341417B2 (en) Method and apparatus for completing a knowledge graph
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
US20200242444A1 (en) Knowledge-graph-embedding-based question answering
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
US20160117295A1 (en) Method and apparatus for forming a structured document from unstructured information
US20190171792A1 (en) Interaction network inference from vector representation of words
US8560477B1 (en) Graph-based semi-supervised learning of structured tagging models
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和***
US11182395B2 (en) Similarity matching systems and methods for record linkage
JP6220767B2 (ja) 用語抽出装置、方法、及びプログラム
JP6172317B2 (ja) 混合モデル選択の方法及び装置
JP2018170008A (ja) エンティティの属性をマッピングする方法及びシステム
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN116776884A (zh) 一种用于医学命名实体识别的数据增强方法及***
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
US20160196266A1 (en) Inferring seniority based on canonical titles
US11436529B1 (en) Method, apparatus, and computer program product for natural language processing
JP6368633B2 (ja) 用語意味学習装置、用語意味判定装置、方法、及びプログラム
Lee et al. Model selection for the rate problem: A comparison of significance testing, Bayesian, and minimum description length statistical inference
JP2018025717A (ja) 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6220767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150