JP6172694B1 - レポートの分類システム - Google Patents

レポートの分類システム Download PDF

Info

Publication number
JP6172694B1
JP6172694B1 JP2016221111A JP2016221111A JP6172694B1 JP 6172694 B1 JP6172694 B1 JP 6172694B1 JP 2016221111 A JP2016221111 A JP 2016221111A JP 2016221111 A JP2016221111 A JP 2016221111A JP 6172694 B1 JP6172694 B1 JP 6172694B1
Authority
JP
Japan
Prior art keywords
report
phrase
feature
words
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016221111A
Other languages
English (en)
Other versions
JP2018081334A (ja
Inventor
政和 植村
政和 植村
能雅 長尾
能雅 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2016221111A priority Critical patent/JP6172694B1/ja
Application granted granted Critical
Publication of JP6172694B1 publication Critical patent/JP6172694B1/ja
Publication of JP2018081334A publication Critical patent/JP2018081334A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】 インシデントレポートの文章を解析して、所定の区分に該当するか否かを精度良く分類する。【解決手段】 インシデントレポートに含まれる単語に対して、予め設定された特徴度の平均値によるタームスコアを算出する。また、予め登録された特徴フレーズがインシデントレポートに存在するか否かを検出する。そして、タームスコアが第1の閾値(1.0)よりも小さい場合は、特徴フレーズの有無に関わらず非該当と判断し、タームスコアが第2の閾値(8.5)以上の場合は、特徴フレーズの有無に関わらず非該当と判断する。その他の場合は、特徴フレーズの有無を考慮して分類を行う。このようにタームスコアと特徴フレーズの双方を組み合わせて用いることにより、精度よく分類を行うことが可能となる。【選択図】 図3

Description

本発明は、レポートが所定の区分に該当するか否かを自動で判断する技術に関し、詳しくは、レポートに含まれる文章を解析して、かかる判断を行う技術に関する。
医療機関においては、インシデントレポートと呼ばれる報告書が作成される。ここにおけるインシデントとは、日常の診療現場における医療事故・医療過誤、またはそれらにつながりかねない事象を言う。インシデントレポートは、インシデントを分析し、類似するインシデントの再発を防ぐとともに、医療事故・医療過誤の発生を未然に防止するために活用される。
かかる分析のために、インシデントレポートには、「患者誤認」「患者の転倒」などの区分が付されており、報告者が自己申告できるようになっていることが通常である。しかしながら、報告者による申告は、必ずしも正確とは言えない。例えば、「患者誤認」という区分について考えれば、報告者が、あるインシデントを患者誤認に該当するものと認識していないこともある。また、直接に患者誤認に該当しない事象であっても、患者誤認に結びつくおそれがある事象は、「患者誤認」に該当すると判断されるべきであるが、インシデントレポートの分類に習熟していない者には、かかる判断は困難である。
かかる事情により、インシデントレポートは、専門に取り扱う管理者が、その内容を精査し、分類しているのが現状である。
こうした人力による分類の負担を軽減するために、コンピュータの活用が提案されている。特許文献1は、キーワードや例外語句などを用いることによりインシデント情報として利用価値が高いであろう情報を、効率的に収集し、蓄積するための技術を開示している。非特許文献1は、インシデントレポートの事例の自由入力文について形態素解析を行い、抽出された名詞・動詞について、TF・IDF重み付けによって、各区分における重要度を算出することにより、各区分を特徴付ける索引語を設定する技術を開示している。
特開2011−210187号公報
岩橋佑佳外1名著、インシデント自由入力文からのインシデント種別の自動分類の試み、第24回医療情報学連合大会 2004年11月
上述の通り、インシデントレポートの分類には、非常に大きな労力を要していた。また、コンピュータを利用した技術も提案されてはいるものの、十分な分類精度が確保できておらず、未だ改善の余地が残されていた。
このようにレポートに含まれる文章を解析して精度良く分類するという課題は、医療現場におけるインシデントレポートに限られるものではなく、交通、建設現場など種々の現場におけるインシデントレポートについても同様である。また、インシデントレポートに限らず、技術論文やニュース記事など種々の文章の分類についても同様である。
本発明は、これらの課題に鑑み、文章を解析して、所定の区分に該当するか否かを精度良く判断可能とする技術を提供することを目的とする。
本発明は、
レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかを判断する分類システムであって、
複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースと、
前記区分に該当する事象を表現する複数の単語の組み合わせからなる特徴フレーズを記憶する特徴フレーズデータベースと、
前記レポートを読み込むレポート読み込み部と、
前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出部と、
前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出部と、
前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理部と
を備える分類システムとして構成することができる。
本発明によれば、タームスコア、即ち単語に基づく判断と特徴フレーズの有無という2種類の方法を併用してレポートの判断を行う。こうすることにより、いずれか一方の方法を用いる場合に比較して、判断の精度を向上させることができる。
例えば、「患者誤認」という区分に該当するか否かを判断する場合、タームスコアに基づく判断では、「患者」「誤認」など、特徴度の高い単語が含まれているか否かの評価に基づいて判断が行われる。一方、特徴フレーズの有無による判断では、「患者を取り違えた」などの特徴フレーズがレポートに含まれているか否かに基づいて判断が行われる。
発明者は、タームスコアのみによる判断を種々の条件で行った結果、その精度には限界があることを見いだした。一方、これに特徴フレーズに基づく判断を組み合わせることにより、飛躍的に精度が向上することを確認した。本発明は、かかる試験に基づいてなされたものである。両者の組み合わせによって精度が向上する原理は、必ずしも明らかになってはいないが、単語は多様な文脈で用いられるためタームスコアによる判断精度には限界があるが、特徴フレーズに基づく判断によって文脈の多様性を抑制することができることが一つの理由として挙げられる。
本発明において、対象とするレポートには、医療現場等で作成されるインシデントレポート、技術論文、ニュース記事など、種々の報告内容を含む文章が含まれる。書式も問わない。
また、区分は、レポートの種類に応じて任意に設定可能である。例えば、インシデントレポートを対象とする場合には、「患者誤認」、「患者の転倒」などを区分として設定することができる。
タームスコアと特徴フレーズの併用は、種々の態様をとることができる。全てのレポートの判断において両者を併用するようにしてもよい。また、タームスコアを優先的に用いる方法、即ち、タームスコアにおいて一次の判断を行い、判断を確定できない場合に、特徴フレーズを用いるという方法をとってもよい。逆に、特徴フレーズを優先的に用いる方法をとってもよい。
特徴度データベースおよび特徴フレーズデータベースは、区分に応じて用意すればよい。例えば、「患者誤認」「転倒」など複数の区分について判断するためには、「患者誤認」のためのデータベース、「転倒」のためのデータベースというように区分ごとに特徴度データベース、特徴フレーズデータベースを用意することになる。
特徴度データベースおよび特徴フレーズデータベースは、予め特徴度や特徴フレーズを格納したものとしてもよいし、既存の該当レポート、非該当レポートを教師データとして、特徴度データベースまたは特徴フレーズデータベースを生成してもよい。このように生成可能としておくことにより、これらのデータベースをアップデートすることができ、データの蓄積に伴って精度向上を図ることができる。
本発明の分類システムにおいて、
前記分類処理部は、
前記タームスコアと第1の閾値との大小関係に基づいて前記レポートを該当レポートと判断し、
前記タームスコアと第2の閾値との大小関係に基づいて前記レポートを非該当レポートと判断し、
前記第1の閾値および第2の閾値との大小関係に基づいて判断できないものについて、前記特徴フレーズの有無を考慮して、前記レポートが前記該当レポートか非該当レポートかを判断するものとしてもよい。
かかる態様は、タームスコアを優先的に用いる方法に相当する。タームスコアのみによって、明らかに該当レポートである、または非該当レポートであると判断される場合に、特徴フレーズによる判断を用いると、かえって精度を損ねてしまう場合も生じ得る。上記態様によれば、タームスコアのみによって明らかに該当レポートか否かの判断ができる場合を除いて特徴フレーズを用いることにより、さらに精度向上を図ることができる。
上記態様において、第1の閾値、第2の閾値の値は、タームスコアの内容に応じて定まるものであり、明らかに該当レポートまたは非該当レポートであると判断できる範囲を試験または解析に基づいて設定すればよい。
また、上記態様においては、必ずしも全てのレポートについて特徴フレーズの有無を検出する必要はなく、タームスコアと第1の閾値、第2の閾値との大小関係で判断できる場合には、特徴フレーズの有無の検出を省略するようにしてもよい。
本発明の分類システムにおいて、特徴度は、種々の定義が可能であり、例えば、
前記特徴度は、前記単語が、既存の前記該当レポートに用いられる出現率(=出現回数/総単語数)と、既存の前記非該当レポートに用いられる出現率との比に基づいて算出された値であるものとしてもよい。
該当レポートに多用される単語の中には、非該当レポートにも多用されるものも存在するため、特徴度は、該当レポート、非該当レポートの双方における出現率に基づいて算出することが好ましい。双方の出現率を考慮した特徴度としては、カイ二乗統計量など種々の定義が可能である。発明者が、これら種々の定義を用いて該当レポートか否かの判断精度を算出したところ、上述の通り、出現率の比に基づいて設定された特徴量を用いた場合に精度が高くなることが確認された。
上記態様は、特徴量として出現率の比のみを用いる場合に限定されるものではなく、カイ二乗統計量など比以外の値と比とを組み合わせて用いてもよい。
本発明の分類システムにおいて、特徴フレーズも種々の形式をとることができ、例えば、
前記特徴フレーズは、前記単語の組み合わせと、各単語間の距離で定義されているものとしてもよい。
距離とは、単語間に挿入される文字数を意味する。距離は、挿入される文字数の範囲としてもよい。上記態様によれば、多様な特徴フレーズを簡易に定義することが可能となる。例えば、「患者を取り違えた」という特徴フレーズについては、「患者」「取り違え」という2つの単語と、その間の距離で定義することができる。距離を0〜3文字と設定したときは、「患者」{0,3}「取り違え」({0,3}は、前後の単語間の文字数が0文字以上3文字以下のものを含むという意味である)というように定義できる。かかる方法によれば、一つの定義文で、「患者を取り違えた」、「患者の取り違え」、「患者同士を取り違えた」などの特徴フレーズを包含することが可能となる。
さらに、各単語について、「患者、患児」のように、いくつかの選択肢を設けるようにしてもよい。
また、特徴フレーズに該当しないことを表す例外語句を設定可能としてもよい。例えば、「なかった」という例外語句を設定しておくことにより、「患者を取り違えなかった」というようなフレーズは、たとえ「患者」「取り違え」という単語を含んでいても特徴フレーズに該当しないものとして扱うことができる。
本発明の分類システムにおいては、さらに、
前記特徴フレーズの候補となる試行フレーズを設定し、既存の前記該当レポートおよび前記非該当レポートを教師データとして該試行フレーズを用いることにより、前記該当レポートか前記非該当レポートかを判断する精度を評価し、所定以上の精度を示す試行フレーズを特徴フレーズとして前記特徴フレーズデータベースに格納する特徴フレーズ設定部を備えるものとしてもよい。
上述の態様によれば、試行フレーズの精度を評価し、所定以上の精度のものを特徴フレーズとして利用することが可能となる。従って、精度が低い特徴フレーズを排除することができ、特徴フレーズを用いた判断の精度を向上することができる。
上記態様において、試行フレーズは、オペレータが手動で設定するものとしてもよいし、自動で設定するようにしてもよい。
また、前記特徴フレーズ設定部は、
前記試行フレーズに用いられるべき単語の選択、単語の順序、単語間の距離の優先順位でそれぞれを設定することにより試行フレーズを設定し、
前記評価の結果、前記特徴フレーズとして登録されない試行フレーズに対しては、前記精度が低い場合には、該精度が高い場合よりも前記優先順位が高い要素を変更することにより次の試行フレーズを設定するものとしてもよい。
上記態様では、試行フレーズを自動で設定することができる。また、試行フレーズが登録されないときは、単語の選択、単語の順序、単語間の距離の各要素を変更して次の試行フレーズを設定することができる。試行フレーズによって、単語間の距離を調整することにより精度向上を図ることができるものも存在するため、上記態様のように試行フレーズの要素を変更して繰り返し精度を算出することにより、利用可能な特徴フレーズを多数見いだすことが可能となる。
また、上記態様では、試行フレーズを用いた判断の精度が低い場合には、優先順位が高い要素を変更させる。つまり、精度が低いときには、単語間の距離を変更しても精度向上を図ることができないと推測し、単語の順序または単語の選択を変更するのである。このように優先順位が低い要素を変更することを断念することにより、無駄な試行フレーズの評価を回避でき、効率的に有用な特徴フレーズを見いだすことが可能となる。
優先順位が低い要素の変更を断念する基準となる精度や、いずれの要素を変更させるかという態様は、任意に設定可能である。例えば、精度>閾値1の場合は単語間の距離を変更し、閾値1≧精度>閾値2の場合は単語の順序を変更し、閾値2≧精度の場合は単語の選択を変更するというようにしてもよい。要素を変更させる態様は、この他にも、種々の設定が可能である。
特徴フレーズ設定部を備えるか否かに関わらず、
本発明において、前記レポートは、インシデントレポートであるものとすることが好ましい。
インシデントレポートは、インシデントの報告であるため、技術論文やニュース記事などに比較すれば、典型的な単語や文章が用いられる傾向にあり、本発明による精度を確保しやすい。
また、インシデントレポートは、その目的からして、分類することの要請が強いため、本発明の有用性が高い。
本発明は、上述した種々の特徴の全てを必ずしも備えている必要はなく、適宜、その一部を省略したり組み合わせたりして構成することができる。
また、本発明は、上述した分類システムとしての態様に限らず、コンピュータによって分類を行う分類方法として構成することもできる。さらに、かかる分類をコンピュータに行わせるためのコンピュータプログラム、およびかかるプログラムを記録したコンピュータ読み取り可能な記録媒体として構成することもできる。ここでコンピュータ読み取り可能な記録媒体としては、フラッシュメモリ、ハードディスク、光ディスクなど種々の媒体を用いることができる。
分類システムの構成を示す説明図である。 特徴度設定処理のフローチャートである。 分類処理のフローチャートである。 タームスコア算出処理のフローチャートである。 患者誤認についてタームスコアの算出例を示すグラフである。 転倒転落についてタームスコアの算出例を示すグラフである。 MRI室への金属持込についてタームスコアの算出例を示すグラフである。 特徴フレーズの構造を示す説明図である。 特徴フレーズ設定処理のフローチャートである。 タームスコアのみによる分類精度を示すグラフである。 分類精度を示すグラフである。
以下、本発明の実施例について、医療現場で作成されるインシデントレポートを分類するための分類システムとして構成した場合を例にとって説明する。本発明は、かかる場合に限定されず、交通、建設現場など種々の現場におけるインシデントレポート、技術論文やニュース記事など種々の文章の分類に適用可能である。
A.システム構成:
図1は、分類システムの構成を示す説明図である。実施例の分類システム100は、CPU、ROM、RAMなどを備えるコンピュータに図示する各機能ブロックを実現するためのコンピュータプログラムをインストールすることによりソフトウェア的に構築されている。図中の各機能ブロックの少なくとも一部をハードウェア的に構成しても構わない。また、実施例では、スタンドアロンで稼働するシステムを例示するが、サーバ/クライアントシステムとして構成してもよい。また、ネットワークで接続された複数台のサーバ、コンピュータによる分散システムとして構成することもできる。
図中の各機能ブロックについて説明する。
レポート読み込み部10は、分類すべきインシデントレポートのデータを文章の解析可能な電子データとして読み込む機能を奏する。テキストデータとして読み込んでもよいし、テキスト部分をOCR等によってイメージデータとして読み込み、OCR機能などによってテキストデータ化してもよい。
コマンド入力部11は、インシデントレポートを分類する際のオペレータの指示を入力する。指示内容としては、分類すべき区分の指定などが挙げられる。本実施例では、予め区分として、「患者誤認」、「(患者の)転倒転落」、「MRI室への金属持込」が設定されているものとする。区分は、新たに設定可能としてもよい。
分類処理部20は、読み込んだインシデントレポートが、指示された区分に該当するか否かの分類を行う。区分に該当するレポートを「該当レポート」と呼び、該当しないレポートを「非該当レポート」と呼ぶものとする。
出力部12は、分類の結果を出力する。出力内容は種々の設定が可能であり、インシデントレポートが該当レポートか否かの他、その判断過程を示すデータなどを併せて出力してもよい。
上述の分類を実行するため、分類処理部20には、次の各機能ブロックが用意されている。
解析部21は、インシデントレポートの文章を解析し、単語の抽出などを行う。解析は、形態素解析における種々の技術を適用可能である。
タームスコア算出部22は、インシデントレポートに含まれる単語の特徴度に基づいて、インシデントレポートが該当レポートか非該当レポートかを判断するためのタームスコアを算出する。特徴度は、単語ごとに予め特徴度データベース13に格納されているものを参照する。
特徴フレーズ検出部23は、インシデントレポートから特徴フレーズを検出する。特徴フレーズとは、インシデントレポートが該当レポートか非該当レポートかを判断するために用意された語句であり、予め特徴フレーズデータベース14に格納されているものを参照する。
分類システム100には、さらに、特徴度データベース13および特徴フレーズデータベース14を設定するための学習機能部30も用意されている。予め学習された特徴度データベース13、特徴フレーズデータベース14を組み込む場合には、分類システム100は、学習機能部30を省略した構成とすることも可能である。
また、特徴度データベース13または特徴フレーズデータベース14を設定するため、学習機能部30のみを分類システム100から切り離した独立のシステムとして構成してもよい。
学習機能部30には、次の機能ブロックが含まれる。
教師データベース33は、分類すべき区分ごとに、既存の該当レポートおよび非該当レポートを格納している。つまり、「患者誤認」という区分についての該当レポート、非該当レポート、「転倒転落」という区分についての該当レポート、非該当レポートというように格納されているのである。一つのインシデントレポートが複数の区分に該当する場合もある。インシデントレポート自体のデータを複数の区分で重複して保持することを回避するため、インシデントレポートについて、「患者区分」「転倒転落」などの各区分に該当するか否かの情報を設定する方法をとってもよい。また、教師データベース33は、新設の区分に対する教師データを追加可能な構成としてもよい。
特徴度設定部31は、教師データベース33を参照してインシデントレポートに使用される複数の単語について、特徴度を設定する。特徴度とは、それぞれの単語がインシデントレポートに含まれている場合に、そのインシデントレポートを該当レポートか非該当レポートかを判断できる可能性を表す指標である。具体的な算出方法については後述する。
特徴フレーズ設定部32は、教師データベース33を参照して、特徴フレーズを自動設定する。特徴フレーズとは、区分に該当する事象を表現する複数の単語の組み合わせからなる語句であり、単語の選択、単語の順序、単語間の距離などの要素によって定義される。特徴フレーズの設定方法についても後述する。
学習処理部34は、出力部12の結果を受けて、教師データベース33を充実化させる機能を奏する。即ち、分類がなされたインシデントレポートを、分類結果とともに教師データベース33に追加するのである。さらに、学習処理部34は、教師データベースを更新することによって、分類システム100の運用とともに教師データベース33を充実させることができ、分類精度の向上を図ることができる。もっとも、学習処理部34は必須のものではなく、分類システム100に学習機能部30を備える構成をとる場合でも、インシデントレポートを教師データベース33に追加しない場合には、学習処理部34を省略してもよい。
B.特徴度の設定:
次に、特徴度の設定について説明する。
図2は、特徴度設定処理のフローチャートである。この処理は、インシデントレポートで用いられる単語に対して特徴度を算出する処理であり、主として図1の特徴度設定部31によって実行される。
処理を開始すると、分類システム100は、教師データを読み込む(ステップS1)。図の右側に教師データのイメージを示した。教師データは、区分に応じて用意された該当レポート、非該当レポートのデータである。図中には、「患者誤認」に対する教師データ例を示したが、「転倒転落」など区分ごとに同様のデータが用意されている。
分類システムは、該当レポート群、非該当レポート群から単語出現リストを作成する(ステップS2)。それぞれのレポートから単語を抽出する方法は、形態素解析を適用することができる。この時点では、区分に特徴的な単語であるか否かは問わずに単語を抽出する。インシデントレポートの分類に活用するための単語リストであるから、名詞、動詞などの品詞に限定することが好ましい。
図中に単語出現リストの例を示した。「名前」、「名」、「氏名」などの単語が抽出されている。ここで、「名前」とは、患者の氏名という意味ではない。「名前を取り違えた」などの文章のようにレポート内で「名前」という単語が用いられていることを示している。そして、図の例では、「名前」という単語は、該当レポート群(総単語数30206)においては318回出現し、非該当レポート群(総単語数655193)においては147回出現していることとされている。本実施例では、一つのレポート内で「名前」という単語が複数回用いられている場合も単純に出現回数をカウントした。こうした重複を避け、「名前」という単語が用いられているレポート数を出現回数としてカウントしてもよい。
また、「名」という単語は、「名前」という単語中にも含まれているが、形態素解析によれば、両者は別単語として区別することが可能であるため、本実施例では、別の単語としてカウントした。従って、「名」という単語の出現回数は、「名前」、「氏名」などの単語において重複してカウントされている訳ではない。かかる区別をせず、重複してカウントすることを認めてもよい。
分類システム100は、次に、単語の出現リストに基づいて特徴度を設定する(ステップS3)。特徴度は、それぞれの単語がインシデントレポートに含まれていることで該当レポートか非該当レポートかを判断できる可能性を表す指標である。本実施例では、各単語が、非該当レポートに比べて、どれだけ該当レポートに出現しやすいか、という観点で特徴度を設定した。かかる観点を表す指標は、種々設定可能であるが、本実施例では、
特徴度=該当レポートにおける出現率/非該当レポートにおける出現率
のように定義した。ここで出現率=出現回数/総単語数である。例えば、「名前」という単語の場合、特徴度は46.9(=(318/30206)/(147/655193))と算出される。他の単語についても同様である。
このように定義すると、特徴度は0以上の値をとる評価値となり、値に応じて次の意味を持つことになる。
特徴度<1.0…その単語は、該当レポートよりも非該当レポートで多用される傾向にある;
特徴度=1.0…その単語は、該当レポートと非該当レポートで同等に用いられる傾向にある;
特徴度>1.0…その単語は、非該当レポートよりも該当レポートで多用される傾向にある;
従って、特徴度が大きい単語ほど、該当レポートを分類するのに有用であることとなる。
分類システム100は、以上で設定された特徴度を特徴度データベースに格納し(ステップS4)、特徴度設定処理を終了する。本実施例では、特徴度の値に関わらず、特徴度を算出した全ての結果を特徴度データベースに格納している。特徴度が小さい単語は、非該当レポートを判断するのに有用と考えるからである。もっとも、必ず全ての結果を格納する必要性はなく、例えば、特徴度が所定値以上の単語に絞って特徴度データベースに登録するようにしてもよい。
C.分類処理:
次にインシデントレポートを分類する分類処理について説明する。この処理は、インシデントレポートの内容を解析し、指定された区分に該当するか否かを判断する処理である。図1の分類処理部20が実行する処理である。
図3は、分類処理のフローチャートである。
処理を開始すると分類システム100は、区分指示を入力する(ステップS10)。例えば、インシデントレポートが、「患者誤認」など、いずれの区分に該当するかの指示である。オペレータが指示するものとしてもよいし、分類システム100に予め用意されている複数の区分を順次用いるなどの方法で自動的に設定されるようにしてもよい。
次に分類システム100は、分類すべき対象レポートを読み込む(ステップS11)。1件のみを読み込むようにしてもよいし、複数のインシデントレポートを読み込むようにしてもよい。
そして、分類システム100は、これらの対象レポートについてタームスコア算出処理を実行する(ステップS12)。タームスコア算出処理とは、対象レポート内に現れる単語について、特徴度データベースに格納された特徴度に基づいて、対象レポートが指示された区分に該当する可能性を示すタームスコアを算出する処理である。処理の内容については後述する。
また、分類システム100は、特徴フレーズの検出を行う(ステップS13)。特徴フレーズデータベース14に登録された特徴フレーズが、対象レポート内にあるか否かを検出する処理である。特徴フレーズは、後述する通り、複数の単語、単語の順序、および単語間の距離で定義されているため、この処理では、かかる条件に該当する文字列を検出すればよい。
分類システム100は、タームスコアと、特徴フレーズの有無に基づいて、分類判定を行い(ステップS14)、結果を出力する(ステップS15)。図中に分類判定の方法を示した。
本実施例では、タームスコア(TS)と第1の閾値1.0、第2の閾値8.5との大小関係、および特徴フレーズの有無に基づいて、図示する6つの場合に分ける。
タームスコア(TS)<1.0(第1の閾値)の場合は、特徴フレーズの有無に関わらず、対象レポートは区分に該当しないと判定される(図中の×印)。
タームスコア(TS)≧8.5(第2の閾値)の場合は、特徴フレーズの有無に関わらず、対象レポートは区分に該当すると判定される(図中の〇印)。
1.0≦タームスコア(TS)<8.5の場合は、特徴フレーズ「有り」であれば、対象レポートは区分に該当し(図中の〇印)、特徴フレーズ「無し」であれば、対象レポートは区分に該当しない(図中の×印)と判定される。
このように本実施例では、タームスコアが第1の閾値、第2の閾値の間にある場合にのみ、特徴フレーズの有無を考慮して分類することになる。上述の第1の閾値、第2の閾値は、それぞれ例示であり、任意に設定可能である。それぞれ、特徴フレーズを考慮しなくとも、区分に該当するか否かを精度良く判定できる範囲で、試験または解析に基づいて設定すれば良い。
また、図3では、特徴フレーズ検出(ステップS13)を行った後、分類判定(ステップS14)を行う例を示したが、特徴フレーズの検出に先だってタームスコアに基づいて分類判定を行っても良い。タームスコアが第1の閾値、第2の閾値の間にある場合にのみ特徴フレーズの有無を検出すればよい。こうすることにより、無用な特徴フレーズの検出処理を抑制でき、分類処理の効率化を図ることができる。
実施例では、1.0≦タームスコア<8.5の範囲において、特徴フレーズの有無で該当、非該当を判断する例を示した(ステップS14)。かかる範囲においても、例えば、インシデントレポート中に用いられている特徴フレーズの数などに基づいて特徴フレーズを点数化し、タームスコアと特徴フレーズの点数とを考慮して該当、非該当を判断するようにしてもよい。
次に、タームスコアの算出について説明する。この処理は、図1のタームスコア算出部22によって実行される処理である。
図4は、タームスコア算出処理のフローチャートである。処理を開始すると、分類システム100は、区分指示の入力(ステップS20)、対象レポートの読み込み(ステップS21)を行う。これらは分類処理(図3)のステップS10、S11の処理と同じである。
分類システム100は、対象レポートから単語を抽出する(ステップS22)。対象レポートの文章を形態素解析すればよい。抽出する単語は、特徴度データベース13に登録されている単語に限らない。
次に分類システム100は、タームスコアを算出する(ステップS23)。図中にタームスコアの算出方法を示した。図中の「単語数」は、対象レポートから抽出された単語ごとの対象レポート内の出現数である。図の例では、「名前」という単語が対象レポート内にN1回、現れていることを示している。
そして、それぞれの単語について、特徴度データベース13を参照して特徴度を求め、単語ごとの特徴度の値、即ち単語別特徴度を算出する。図の例では、「名前」という単語について、単語数N1、特徴度R1であるから、単語別特徴度は、両者の積でN1×R1と求まる。同様に単語「名」については、単語数N2、特徴度R2の積により単語別特徴度はN2×R2と求める。他の単語も同様である。
次に単語数の合計ΣN、および単語別特徴度の合計ΣNRを求め、タームスコアを「タームスコア=ΣNR/ΣN」で求める。
即ち、タームスコアは、特徴度の合計値を単語数で割った平均値である。上述の説明は、算出方法の一例に過ぎず、タームスコアの算出は、種々の方法で行うことができる。
図5は、患者誤認についてタームスコアの算出例を示すグラフである。破線は非該当レポートを対象としてタームスコアを算出した例を示している。グラフは、それぞれのタームスコアに対応する非該当レポートの数(左側の縦軸)を示した。実線は該当レポートを対象としてタームスコアを算出した例であり、それぞれのタームスコアに対応する該当レポートの数(右側の縦軸)を示している。
破線の非該当レポートによれば、タームスコアが0.7付近でピークを形成していることが分かる。また、タームスコア<1.0の範囲では、該当レポートはほとんど存在しないことが分かる。従って、タームスコア<1.0の範囲では、タームスコアに基づいて安定的に非該当レポートと該当レポートとを判定できることが分かる。
同様に、非該当レポート数は、タームスコア>1.0の範囲では急激に減少し値0に近づくことが分かる。図5の例では、タームスコアが8.5付近で、小さな山が現れるものの、8.5≦タームスコアの範囲では、ほぼ0となる。従って、8.5≦タームスコアの範囲では、タームスコアに基づいて安定的に非該当レポートと該当レポートとを判定できることが分かる。
分類処理(図3)の分類判定(ステップS14)における第1の閾値、第2の閾値は、このようにタームスコアの算出結果に基づいて設定することができる。
図6は、転倒転落についてタームスコアの算出例を示すグラフである。また、図7は、MRI室への金属持込についてタームスコアの算出例を示すグラフである。それぞれ図5と同様、破線は非該当レポート、実線は該当レポートについてのタームスコアの算出例を示している。
図6、7に示されている通り、区分によって非該当レポート、該当レポートの分布は異なっているが、それぞれの分布に基づいて第1の閾値、第2の閾値を設定すれば、タームスコア<第1の閾値となる範囲、および第2の閾値≦タームスコアとなる範囲で、該当レポートと非該当レポートを精度良く判別できることが分かる。
D.特徴フレーズの設定:
次に特徴フレーズの構造およびその設定について説明する。特徴フレーズは、対象レポートの分類処理(図3)の分類判定で用いられる語句である。特徴フレーズは、例えば、「患者を取り違えた」というような文章の形式で特徴フレーズデータベース14に格納することもできるが、本実施例では、用いられる単語、その順序、および単語間の距離によって特徴フレーズを定義するものとした。
図8は、特徴フレーズの構造を示す説明図である。この例では、最初の単語W1として、「*、他、別、違」などが登録されている。「*」は空文字、つまり単語W1が存在しない場合を意味する。同様に、2番目の単語W2として、「患者、患児、PT」などの単語、3番目の単語W3として「取り違え、誤認」などの単語が登録されている。また、単語W1、W2の距離d1として{0,3}と登録されており、これは、両単語の間に挿入される文字数が0文字〜3文字であることを意味している。同様に単語W2、W3の距離d2として{0,5}と登録されている。
フレーズS1「患者を取り違えた」は、単語W2に登録されている「患者」という単語、単語W3に登録されている「取り違え」という単語を含み、両者の距離は1であるから、上述の特徴フレーズに該当する。図8の例では、単語W1として空文字を許容しているため、フレーズS1のように単語W1に登録されている単語は現れていない場合でも特徴フレーズに該当することになるのである。
一方、フレーズS2「他患者の対応に追われ、朝と昼の薬を取り違えた」については、「他」「患者」「取り違え」という単語W1〜W3に登録されている単語をそれぞれ含んでいるものの、「患者」と「取り違え」の距離が14文字であり、距離d2の{0,5}を外れるため、特徴フレーズには該当しない。
本実施例では、さらに単語W4として例外語句を登録している。例外語句とは、「なかった、避けた、気づいた」などの単語であり、これが存在することにより特徴フレーズに該当しない扱いをする語句である。図中のフレーズS3「患者誤認はなかった」は、「患者」「誤認」という単語W2、W3を含んでおり、両者の距離も0文字だから距離d2の条件を満たしているが、最後の「なかった」が例外語句である単語W4に該当するため、特徴フレーズには該当しない。
例外語句については、必ずしも特徴フレーズの最後に位置づける必要はなく、先頭や単語W1〜W3の間に設定してもよい。また、例外語句とその他の語句との間の距離を設定してもよい。
本実施例では、図8で説明した通り、単語、順序、距離で特徴フレーズを定義するため、多様なフレーズを包含した定義とすることができ、特徴フレーズデータベース14の容量を抑制することができる利点がある。
特徴フレーズは、オペレータが、手動で設定してもよいし、後述する特徴フレーズ設定処理によって自動的に設定するようにしてもよい。手動で設定する場合でも、特徴フレーズを用いて教師データに対する分類処理を試行した上で、所定以上の精度が確保できるものを登録しておくことが好ましい。
図9は、特徴フレーズ設定処理のフローチャートである。図8で示した特徴フレーズを教師データに基づいて自動設定する処理であり、図1の特徴フレーズ設定部32が主として行う処理である。
処理を開始すると分類システム100は、教師データを読み込む(ステップS30)。教師データは、区分ごとに該当レポートおよび非該当レポートを集めたデータである。
分類システム100は、これらの中から、特徴度の高い単語を抽出する(ステップS31)。特徴度が高い単語とは、即ち、非該当レポートよりも該当レポートに用いられる可能性が高い単語であり、該当レポートを分類するために有用性の高い単語である。特徴度の高い単語は、特徴度設定処理(図2)と同様の処理によって求めても良いし、既に特徴度データベース13が設定されている場合は、それに基づいて求めても良い。
本実施例において特徴度の高い単語を抽出したのは、これらを用いて特徴フレーズを設定するためである。特徴度に関わらず広汎な単語を用いて特徴フレーズを設定する場合には、ステップS31は特徴度に関わらず単語を抽出する処理として実行すればよい。この段階で特徴度を無視したとしても、特徴フレーズによる精度の評価は、後述する処理の過程で行うため、支障はない。
次に、分類システム100は、試行フレーズを設定する(ステップS32)。試行フレーズは、ステップS31で抽出した単語からいくつかを選択し、その順序を決め、距離を決めるという方法で設定する。優先度は、単語の選択、順序、距離の順である。
図中の例では、「他」「患者」「誤認」という単語を選択し、この順序に並べ、距離を{0,3}と設定した試行フレーズの例を示している。単語の選択数はいくつでもよい。また、順序も、単語を選択した順など任意に設定可能である。距離も任意に設定可能である。例えば、図の例と同じ単語を用いても、順序によっては、「誤認」{0,3}「患者」{0,3}「他」というような試行フレーズが設定されることもある。
分類システム100は、教師データに基づき試行フレーズの該当率を算出する(ステップS33)。該当率とは、試行フレーズにより抽出されたレポートにおける該当レポートの割合である。試行フレーズにより抽出されたレポート中のから該当レポート数を、抽出されたレポート数で割ることにより該当率を算出することができる。
そして、分類システム100は、該当率の値に応じて、それぞれ以下の処理を行う。
まず、該当率が0.8以上の場合は、その試行フレーズは該当レポートの分類に有用であると判断されるため、分類システム100は、その試行フレーズを特徴フレーズとして特徴フレーズデータベース14に登録する(ステップS35)。そして、次の特徴フレーズを策定するためのモードとしてモード1を設定する(ステップS36)。モードの意味は後述する。
一方、該当率が0.4以下の場合は、試行フレーズを登録することなく、次の特徴フレーズを策定するためのモードとしてモード2を設定する(ステップS38)。また、該当率が0.4〜0.8の場合は、試行フレーズを登録することなく、次の特徴フレーズを策定するためのモードとしてモード3を設定する(ステップS37)。
ここで、モードの意味を説明する。本実施例では、試行フレーズを設定し、その精度を評価し、該当率が低い場合には、優先度の低い要素から順に変更して再度精度を評価するという処理を繰り返すことで、該当率が高いフレーズを策定する方法をとる。つまり、試行フレーズの該当率が低い場合には、まず最も優先度の低い単語間の距離を変化させた試行フレーズを再試行し、該当率が0.8以上となる試行フレーズができないかを策定するのである。距離を変化させても該当率が0.8を超えない場合には、次の優先度である単語の順序を変化させた試行フレーズを再試行する。そして、それでも見つからない場合には、さらに単語の選択を変化させた試行フレーズを再試行する。
また、該当率が高い特徴フレーズが登録された場合も、新たな単語の組み合わせからなる試行フレーズを用いて再試行する。
ただし、上述の手順で、要素を変化させる場合、特徴フレーズを見いだすまでに多大な試行フレーズに対して該当率を算出する必要が生じる。
従って、本実施例では、試行フレーズについて該当率が0.4以下の場合には、優先度の低い単語の距離を調整する程度では精度は向上しないものと判断し、2番目の優先度である単語の順序を変更して新たな試行フレーズを設定するものとした。かかる設定方法をモード2と呼ぶ。
また、該当率が0.8以上となり、特徴フレーズとして登録された場合には、優先度が一番高い単語の組み合わせを変更し、新たな単語を用いて試行フレーズを設定する。かかる設定方法をモード1と呼ぶ。
そして、該当率が0.4〜0.8の場合は、優先度が3番目である単語の距離を調整するものとした。かかる設定方法をモード3と呼ぶ。
以上がそれぞれステップS36〜S38におけるモード設定の意味である。このように、該当率の値に応じて、調整する要素を切り替えることにより、該当率を評価する試行フレーズの数を抑制することができ、処理の効率化を図ることができる。モード設定の基準となる0.4,0.8などの閾値は、それぞれ任意に設定可能である。本実施例では、3つのモードを使い分けているが、2つのモードを使い分けるようにしてもよいし、さらに多くのモード設定を設けるようにしてもよい。
分類システム100は、処理を終了すべきか否かを判断し(ステップS39)、継続する場合には、モード設定に応じて新たな試行フレーズを設定してステップS32以降の処理を実行する。即ち、モード1に設定されている場合は新たな単語を選択して試行フレーズを設定し、モード2に設定されている場合には選択済みの単語の順序を変更して試行フレーズを設定し、モード3に設定されている場合には単語間の距離を変更して試行フレーズを設定するのである。
処理を終了すべきか否かの判断は(ステップS39)、種々の終了条件に基づいて行うことができる。終了条件としては、例えば、新たに登録された特徴フレーズが所定数に達した場合に処理を終了する;処理開始時からの経過時間が所定時間を超えたときに終了する;抽出した全単語について試行フレーズの設定を完了したときに終了するなどの条件が考えられる。
E.効果:
以上で説明した実施例の分類システム100によれば、インシデントレポートを高い精度で分類することが可能となる。
図10は、タームスコアのみによる分類精度を示すグラフである。本実施例に対する比較例として示した。この例では、患者誤認という区分の教師データについてタームスコアのみを用いて該当レポートか否かを分類した場合のカッパ値を示している。教師データの各レポートのタームスコアを算出し、ある閾値よりも小さければ非該当レポート、閾値以上であれば該当レポートと分類した。カッパ値は、判断結果が教師データの回答にどれだけ一致しているかを表している。
図示する通り、閾値を1.0から増大させるとカッパ値は増大し、タームスコア2.5を閾値とするときにカッパ値は最大となるが、その値は0.672に過ぎない。
図11は、分類精度を示すグラフである。図10で用いたのと同じ教師データに対して、本実施例による分類、即ちタームスコアと特徴フレーズを用いた分類を行ったときの結果を示している。上の表に示すように、患者誤認の教師データのうち該当レポート(患者誤認レポート524件)に対して「該当」と判断したもの、即ち正解であったものは481件(91.8%)となった。一方、αエラーと呼ばれるもの、即ち非該当レポート(非患者誤認レポート)に対して「該当」と誤判断したものは100件(20.1%)となった。また、βエラーと呼ばれるもの、即ち該当レポート(患者誤認レポート)に対して「非該当」と誤判断したものは43件(8.2%)となった。また、非該当レポート(非患者誤認レポート11204件)に対して「非該当」と判断したものは11104件(99.1%)となった。
中段には、これらの結果をグラフで示した。βエラーはαエラーよりも少なくなっており、また両者を合わせたエラーは正解に比較して十分に小さいことが分かる。この結果に対するカッパ値は0.864であった。
特徴フレーズを併用しない場合、該当レポートに対して「該当」と判断したものは400件(76.3%)、αエラーは239件(45.6%)、βエラーは124件(23.6%)、非該当レポートに対して「非該当」と判断したものは10965件(97.8%)で、カッパ値0.672(図10参照)であった。本実施例により分類の精度を大きく向上させることが示されている。
以上、実施例の分類システムについて説明した。上述の実施例で説明した種々の特徴は、分類システムは、必ずしも全てを備えている必要はなく、適宜、その一部を省略したり組み合わせたりして構成することもできる。また、本発明は、実施例の構成に限らず、種々の変形例を構成することもできる。
例えば、本実施例において、既存の区分に加えて新たな区分に対する分類を可能としてもよい。具体的には、新たな区分を設定するとともに、その区分に対する教師データを用意し、特徴度データベース、特徴フレーズデータベースを設定すればよい。
本発明は、レポートに含まれる文章を解析して、所定の区分に該当するか否かを自動で判断するために利用することができる。
10 :レポート読み込み部
11 :コマンド入力部
12 :出力部
13 :特徴度データベース
14 :特徴フレーズデータベース
20 :分類処理部
21 :解析部
22 :タームスコア算出部
23 :特徴フレーズ検出部
30 :学習機能部
31 :特徴度設定部
32 :特徴フレーズ設定部
33 :教師データベース
34 :学習処理部
100 :分類システム

Claims (9)

  1. レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかを判断する分類システムであって、
    複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースと、
    前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースと、
    前記レポートを読み込むレポート読み込み部と、
    前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出部と、
    前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出部と、
    前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理部と
    を備える分類システム。
  2. 請求項1記載の分類システムであって、
    前記分類処理部は、
    前記タームスコアと第1の閾値との大小関係に基づいて前記レポートを該当レポートと判断し、
    前記タームスコアと第2の閾値との大小関係に基づいて前記レポートを非該当レポートと判断し、
    前記第1の閾値および第2の閾値との大小関係に基づいて判断できないものについて、前記特徴フレーズの有無を考慮して、前記レポートが前記該当レポートか非該当レポートかを判断する分類システム。
  3. 請求項1または2記載の分類システムであって、
    前記特徴度は、前記単語が、既存の前記該当レポートに用いられる出現率と、既存の前記非該当レポートに用いられる出現率との比に基づいて算出された値である分類システム。
  4. 請求項1〜3いずれか記載の分類システムであって、
    前記特徴フレーズは、前記単語の組み合わせと、各単語間の距離で定義されている分類システム。
  5. 請求項1〜4いずれか記載の分類システムであって、さらに、
    前記特徴フレーズの候補となる試行フレーズを設定し、既存の前記該当レポートおよび前記非該当レポートを教師データとして該試行フレーズを用いることにより、前記該当レポートか前記非該当レポートかを判断する精度を評価し、所定以上の精度を示す試行フレーズを特徴フレーズとして前記特徴フレーズデータベースに格納する特徴フレーズ設定部を備える分類システム。
  6. 請求項5記載の分類システムであって、
    前記特徴フレーズ設定部は、
    前記試行フレーズに用いられるべき単語の選択、単語の順序、単語間の距離の優先順位でそれぞれを設定することにより試行フレーズを設定し、
    前記評価の結果、前記特徴フレーズとして登録されない試行フレーズに対しては、前記精度が低い場合には、該精度が高い場合よりも前記優先順位が高い要素を変更することにより次の試行フレーズを設定する分類システム。
  7. 請求項1〜6いずれか記載の分類システムであって、
    前記レポートは、インシデントレポートである分類システム。
  8. レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかをコンピュータによって判断する分類方法であって、
    前記コンピュータが実行する工程として、
    前記レポートを読み込むレポート読み込み工程と、
    複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースにアクセスする工程と、
    前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースにアクセスする工程と、
    前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出工程と、
    前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出工程と、
    前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理工程と
    を備える分類方法。
  9. レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかをコンピュータによって判断するためのコンピュータプログラムであって、
    前記レポートを読み込むレポート読み込み機能と、
    複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースにアクセスする機能と、
    前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースにアクセスする機能と、
    前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出機能と、
    前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出機能と、
    前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理機能と
    をコンピュータに実現させるコンピュータプログラム。
JP2016221111A 2016-11-14 2016-11-14 レポートの分類システム Active JP6172694B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016221111A JP6172694B1 (ja) 2016-11-14 2016-11-14 レポートの分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016221111A JP6172694B1 (ja) 2016-11-14 2016-11-14 レポートの分類システム

Publications (2)

Publication Number Publication Date
JP6172694B1 true JP6172694B1 (ja) 2017-08-02
JP2018081334A JP2018081334A (ja) 2018-05-24

Family

ID=59505276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016221111A Active JP6172694B1 (ja) 2016-11-14 2016-11-14 レポートの分類システム

Country Status (1)

Country Link
JP (1) JP6172694B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021085364A1 (ja) * 2019-10-30 2021-05-06 国立大学法人東海国立大学機構 リスク評価システム、リスク評価方法およびコンピュータプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182218A (ja) * 2003-12-17 2005-07-07 Ishikawa Pref Gov 辞書編集装置、文書分類装置及びそのプログラム
JP2008243074A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 文書検索装置、方法及びプログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
WO2015194140A1 (ja) * 2014-06-18 2015-12-23 日本電気株式会社 文書データ処理装置、文書データ処理方法、及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182218A (ja) * 2003-12-17 2005-07-07 Ishikawa Pref Gov 辞書編集装置、文書分類装置及びそのプログラム
JP2008243074A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 文書検索装置、方法及びプログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
WO2015194140A1 (ja) * 2014-06-18 2015-12-23 日本電気株式会社 文書データ処理装置、文書データ処理方法、及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021085364A1 (ja) * 2019-10-30 2021-05-06 国立大学法人東海国立大学機構 リスク評価システム、リスク評価方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JP2018081334A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
US10489502B2 (en) Document processing
Klein et al. Can humans detect errors in data? Impact of base rates, incentives, and goals
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
Martin et al. The app sampling problem for app store mining
US20160239500A1 (en) System and methods for extracting facts from unstructured text
CN108595657B (zh) His***的数据表分类映射方法和装置
KR102019207B1 (ko) 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법
Shah et al. Using app reviews for competitive analysis: tool support
CN105843889A (zh) 基于可信度面向大数据及普通数据的数据采集方法和***
US11816135B2 (en) Method, system, and computer program product for retrieving relevant documents
Sheikha et al. Learning to classify documents according to formal and informal style
US20200175041A1 (en) Method, device, and system for clustering document objects based on information content
US20060101014A1 (en) System and method for minimally predictive feature identification
WO2020177463A1 (zh) 信息处理方法、装置、存储介质和电子设备
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
JP6172694B1 (ja) レポートの分類システム
JP6885506B2 (ja) 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム
Xu et al. Extracting subject demographic information from abstracts of randomized clinical trial reports
Landsheer Impact of the prevalence of cognitive impairment on the accuracy of the Montreal Cognitive Assessment: The advantage of using two MoCA thresholds to identify error-prone test scores
Dhar et al. Learning to predict novel noun-noun compounds
US20180196799A1 (en) A method and system for processing data using an augmented natural language processing engine
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
CN105843890A (zh) 基于知识库面向大数据及普通数据的数据采集方法和***
CN115169328A (zh) 一种高准确性的中文拼写检查方法、***及介质
CN111444315A (zh) 纠错词组候选项的筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170627

R150 Certificate of patent or registration of utility model

Ref document number: 6172694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250