JP6172694B1 - レポートの分類システム - Google Patents
レポートの分類システム Download PDFInfo
- Publication number
- JP6172694B1 JP6172694B1 JP2016221111A JP2016221111A JP6172694B1 JP 6172694 B1 JP6172694 B1 JP 6172694B1 JP 2016221111 A JP2016221111 A JP 2016221111A JP 2016221111 A JP2016221111 A JP 2016221111A JP 6172694 B1 JP6172694 B1 JP 6172694B1
- Authority
- JP
- Japan
- Prior art keywords
- report
- phrase
- feature
- words
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 68
- 230000008569 process Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000000877 morphologic effect Effects 0.000 description 5
- 239000002184 metal Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Description
かかる分析のために、インシデントレポートには、「患者誤認」「患者の転倒」などの区分が付されており、報告者が自己申告できるようになっていることが通常である。しかしながら、報告者による申告は、必ずしも正確とは言えない。例えば、「患者誤認」という区分について考えれば、報告者が、あるインシデントを患者誤認に該当するものと認識していないこともある。また、直接に患者誤認に該当しない事象であっても、患者誤認に結びつくおそれがある事象は、「患者誤認」に該当すると判断されるべきであるが、インシデントレポートの分類に習熟していない者には、かかる判断は困難である。
かかる事情により、インシデントレポートは、専門に取り扱う管理者が、その内容を精査し、分類しているのが現状である。
このようにレポートに含まれる文章を解析して精度良く分類するという課題は、医療現場におけるインシデントレポートに限られるものではなく、交通、建設現場など種々の現場におけるインシデントレポートについても同様である。また、インシデントレポートに限らず、技術論文やニュース記事など種々の文章の分類についても同様である。
本発明は、これらの課題に鑑み、文章を解析して、所定の区分に該当するか否かを精度良く判断可能とする技術を提供することを目的とする。
レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかを判断する分類システムであって、
複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースと、
前記区分に該当する事象を表現する複数の単語の組み合わせからなる特徴フレーズを記憶する特徴フレーズデータベースと、
前記レポートを読み込むレポート読み込み部と、
前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出部と、
前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出部と、
前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理部と
を備える分類システムとして構成することができる。
例えば、「患者誤認」という区分に該当するか否かを判断する場合、タームスコアに基づく判断では、「患者」「誤認」など、特徴度の高い単語が含まれているか否かの評価に基づいて判断が行われる。一方、特徴フレーズの有無による判断では、「患者を取り違えた」などの特徴フレーズがレポートに含まれているか否かに基づいて判断が行われる。
発明者は、タームスコアのみによる判断を種々の条件で行った結果、その精度には限界があることを見いだした。一方、これに特徴フレーズに基づく判断を組み合わせることにより、飛躍的に精度が向上することを確認した。本発明は、かかる試験に基づいてなされたものである。両者の組み合わせによって精度が向上する原理は、必ずしも明らかになってはいないが、単語は多様な文脈で用いられるためタームスコアによる判断精度には限界があるが、特徴フレーズに基づく判断によって文脈の多様性を抑制することができることが一つの理由として挙げられる。
また、区分は、レポートの種類に応じて任意に設定可能である。例えば、インシデントレポートを対象とする場合には、「患者誤認」、「患者の転倒」などを区分として設定することができる。
タームスコアと特徴フレーズの併用は、種々の態様をとることができる。全てのレポートの判断において両者を併用するようにしてもよい。また、タームスコアを優先的に用いる方法、即ち、タームスコアにおいて一次の判断を行い、判断を確定できない場合に、特徴フレーズを用いるという方法をとってもよい。逆に、特徴フレーズを優先的に用いる方法をとってもよい。
特徴度データベースおよび特徴フレーズデータベースは、区分に応じて用意すればよい。例えば、「患者誤認」「転倒」など複数の区分について判断するためには、「患者誤認」のためのデータベース、「転倒」のためのデータベースというように区分ごとに特徴度データベース、特徴フレーズデータベースを用意することになる。
特徴度データベースおよび特徴フレーズデータベースは、予め特徴度や特徴フレーズを格納したものとしてもよいし、既存の該当レポート、非該当レポートを教師データとして、特徴度データベースまたは特徴フレーズデータベースを生成してもよい。このように生成可能としておくことにより、これらのデータベースをアップデートすることができ、データの蓄積に伴って精度向上を図ることができる。
前記分類処理部は、
前記タームスコアと第1の閾値との大小関係に基づいて前記レポートを該当レポートと判断し、
前記タームスコアと第2の閾値との大小関係に基づいて前記レポートを非該当レポートと判断し、
前記第1の閾値および第2の閾値との大小関係に基づいて判断できないものについて、前記特徴フレーズの有無を考慮して、前記レポートが前記該当レポートか非該当レポートかを判断するものとしてもよい。
上記態様において、第1の閾値、第2の閾値の値は、タームスコアの内容に応じて定まるものであり、明らかに該当レポートまたは非該当レポートであると判断できる範囲を試験または解析に基づいて設定すればよい。
また、上記態様においては、必ずしも全てのレポートについて特徴フレーズの有無を検出する必要はなく、タームスコアと第1の閾値、第2の閾値との大小関係で判断できる場合には、特徴フレーズの有無の検出を省略するようにしてもよい。
前記特徴度は、前記単語が、既存の前記該当レポートに用いられる出現率(=出現回数/総単語数)と、既存の前記非該当レポートに用いられる出現率との比に基づいて算出された値であるものとしてもよい。
上記態様は、特徴量として出現率の比のみを用いる場合に限定されるものではなく、カイ二乗統計量など比以外の値と比とを組み合わせて用いてもよい。
前記特徴フレーズは、前記単語の組み合わせと、各単語間の距離で定義されているものとしてもよい。
さらに、各単語について、「患者、患児」のように、いくつかの選択肢を設けるようにしてもよい。
また、特徴フレーズに該当しないことを表す例外語句を設定可能としてもよい。例えば、「なかった」という例外語句を設定しておくことにより、「患者を取り違えなかった」というようなフレーズは、たとえ「患者」「取り違え」という単語を含んでいても特徴フレーズに該当しないものとして扱うことができる。
前記特徴フレーズの候補となる試行フレーズを設定し、既存の前記該当レポートおよび前記非該当レポートを教師データとして該試行フレーズを用いることにより、前記該当レポートか前記非該当レポートかを判断する精度を評価し、所定以上の精度を示す試行フレーズを特徴フレーズとして前記特徴フレーズデータベースに格納する特徴フレーズ設定部を備えるものとしてもよい。
上記態様において、試行フレーズは、オペレータが手動で設定するものとしてもよいし、自動で設定するようにしてもよい。
前記試行フレーズに用いられるべき単語の選択、単語の順序、単語間の距離の優先順位でそれぞれを設定することにより試行フレーズを設定し、
前記評価の結果、前記特徴フレーズとして登録されない試行フレーズに対しては、前記精度が低い場合には、該精度が高い場合よりも前記優先順位が高い要素を変更することにより次の試行フレーズを設定するものとしてもよい。
また、上記態様では、試行フレーズを用いた判断の精度が低い場合には、優先順位が高い要素を変更させる。つまり、精度が低いときには、単語間の距離を変更しても精度向上を図ることができないと推測し、単語の順序または単語の選択を変更するのである。このように優先順位が低い要素を変更することを断念することにより、無駄な試行フレーズの評価を回避でき、効率的に有用な特徴フレーズを見いだすことが可能となる。
優先順位が低い要素の変更を断念する基準となる精度や、いずれの要素を変更させるかという態様は、任意に設定可能である。例えば、精度>閾値1の場合は単語間の距離を変更し、閾値1≧精度>閾値2の場合は単語の順序を変更し、閾値2≧精度の場合は単語の選択を変更するというようにしてもよい。要素を変更させる態様は、この他にも、種々の設定が可能である。
本発明において、前記レポートは、インシデントレポートであるものとすることが好ましい。
また、インシデントレポートは、その目的からして、分類することの要請が強いため、本発明の有用性が高い。
また、本発明は、上述した分類システムとしての態様に限らず、コンピュータによって分類を行う分類方法として構成することもできる。さらに、かかる分類をコンピュータに行わせるためのコンピュータプログラム、およびかかるプログラムを記録したコンピュータ読み取り可能な記録媒体として構成することもできる。ここでコンピュータ読み取り可能な記録媒体としては、フラッシュメモリ、ハードディスク、光ディスクなど種々の媒体を用いることができる。
図1は、分類システムの構成を示す説明図である。実施例の分類システム100は、CPU、ROM、RAMなどを備えるコンピュータに図示する各機能ブロックを実現するためのコンピュータプログラムをインストールすることによりソフトウェア的に構築されている。図中の各機能ブロックの少なくとも一部をハードウェア的に構成しても構わない。また、実施例では、スタンドアロンで稼働するシステムを例示するが、サーバ/クライアントシステムとして構成してもよい。また、ネットワークで接続された複数台のサーバ、コンピュータによる分散システムとして構成することもできる。
レポート読み込み部10は、分類すべきインシデントレポートのデータを文章の解析可能な電子データとして読み込む機能を奏する。テキストデータとして読み込んでもよいし、テキスト部分をOCR等によってイメージデータとして読み込み、OCR機能などによってテキストデータ化してもよい。
コマンド入力部11は、インシデントレポートを分類する際のオペレータの指示を入力する。指示内容としては、分類すべき区分の指定などが挙げられる。本実施例では、予め区分として、「患者誤認」、「(患者の)転倒転落」、「MRI室への金属持込」が設定されているものとする。区分は、新たに設定可能としてもよい。
出力部12は、分類の結果を出力する。出力内容は種々の設定が可能であり、インシデントレポートが該当レポートか否かの他、その判断過程を示すデータなどを併せて出力してもよい。
解析部21は、インシデントレポートの文章を解析し、単語の抽出などを行う。解析は、形態素解析における種々の技術を適用可能である。
タームスコア算出部22は、インシデントレポートに含まれる単語の特徴度に基づいて、インシデントレポートが該当レポートか非該当レポートかを判断するためのタームスコアを算出する。特徴度は、単語ごとに予め特徴度データベース13に格納されているものを参照する。
特徴フレーズ検出部23は、インシデントレポートから特徴フレーズを検出する。特徴フレーズとは、インシデントレポートが該当レポートか非該当レポートかを判断するために用意された語句であり、予め特徴フレーズデータベース14に格納されているものを参照する。
また、特徴度データベース13または特徴フレーズデータベース14を設定するため、学習機能部30のみを分類システム100から切り離した独立のシステムとして構成してもよい。
教師データベース33は、分類すべき区分ごとに、既存の該当レポートおよび非該当レポートを格納している。つまり、「患者誤認」という区分についての該当レポート、非該当レポート、「転倒転落」という区分についての該当レポート、非該当レポートというように格納されているのである。一つのインシデントレポートが複数の区分に該当する場合もある。インシデントレポート自体のデータを複数の区分で重複して保持することを回避するため、インシデントレポートについて、「患者区分」「転倒転落」などの各区分に該当するか否かの情報を設定する方法をとってもよい。また、教師データベース33は、新設の区分に対する教師データを追加可能な構成としてもよい。
特徴フレーズ設定部32は、教師データベース33を参照して、特徴フレーズを自動設定する。特徴フレーズとは、区分に該当する事象を表現する複数の単語の組み合わせからなる語句であり、単語の選択、単語の順序、単語間の距離などの要素によって定義される。特徴フレーズの設定方法についても後述する。
次に、特徴度の設定について説明する。
図2は、特徴度設定処理のフローチャートである。この処理は、インシデントレポートで用いられる単語に対して特徴度を算出する処理であり、主として図1の特徴度設定部31によって実行される。
また、「名」という単語は、「名前」という単語中にも含まれているが、形態素解析によれば、両者は別単語として区別することが可能であるため、本実施例では、別の単語としてカウントした。従って、「名」という単語の出現回数は、「名前」、「氏名」などの単語において重複してカウントされている訳ではない。かかる区別をせず、重複してカウントすることを認めてもよい。
特徴度=該当レポートにおける出現率/非該当レポートにおける出現率
のように定義した。ここで出現率=出現回数/総単語数である。例えば、「名前」という単語の場合、特徴度は46.9(=(318/30206)/(147/655193))と算出される。他の単語についても同様である。
このように定義すると、特徴度は0以上の値をとる評価値となり、値に応じて次の意味を持つことになる。
特徴度<1.0…その単語は、該当レポートよりも非該当レポートで多用される傾向にある;
特徴度=1.0…その単語は、該当レポートと非該当レポートで同等に用いられる傾向にある;
特徴度>1.0…その単語は、非該当レポートよりも該当レポートで多用される傾向にある;
従って、特徴度が大きい単語ほど、該当レポートを分類するのに有用であることとなる。
次にインシデントレポートを分類する分類処理について説明する。この処理は、インシデントレポートの内容を解析し、指定された区分に該当するか否かを判断する処理である。図1の分類処理部20が実行する処理である。
処理を開始すると分類システム100は、区分指示を入力する(ステップS10)。例えば、インシデントレポートが、「患者誤認」など、いずれの区分に該当するかの指示である。オペレータが指示するものとしてもよいし、分類システム100に予め用意されている複数の区分を順次用いるなどの方法で自動的に設定されるようにしてもよい。
そして、分類システム100は、これらの対象レポートについてタームスコア算出処理を実行する(ステップS12)。タームスコア算出処理とは、対象レポート内に現れる単語について、特徴度データベースに格納された特徴度に基づいて、対象レポートが指示された区分に該当する可能性を示すタームスコアを算出する処理である。処理の内容については後述する。
また、分類システム100は、特徴フレーズの検出を行う(ステップS13)。特徴フレーズデータベース14に登録された特徴フレーズが、対象レポート内にあるか否かを検出する処理である。特徴フレーズは、後述する通り、複数の単語、単語の順序、および単語間の距離で定義されているため、この処理では、かかる条件に該当する文字列を検出すればよい。
本実施例では、タームスコア(TS)と第1の閾値1.0、第2の閾値8.5との大小関係、および特徴フレーズの有無に基づいて、図示する6つの場合に分ける。
タームスコア(TS)<1.0(第1の閾値)の場合は、特徴フレーズの有無に関わらず、対象レポートは区分に該当しないと判定される(図中の×印)。
タームスコア(TS)≧8.5(第2の閾値)の場合は、特徴フレーズの有無に関わらず、対象レポートは区分に該当すると判定される(図中の〇印)。
1.0≦タームスコア(TS)<8.5の場合は、特徴フレーズ「有り」であれば、対象レポートは区分に該当し(図中の〇印)、特徴フレーズ「無し」であれば、対象レポートは区分に該当しない(図中の×印)と判定される。
このように本実施例では、タームスコアが第1の閾値、第2の閾値の間にある場合にのみ、特徴フレーズの有無を考慮して分類することになる。上述の第1の閾値、第2の閾値は、それぞれ例示であり、任意に設定可能である。それぞれ、特徴フレーズを考慮しなくとも、区分に該当するか否かを精度良く判定できる範囲で、試験または解析に基づいて設定すれば良い。
図4は、タームスコア算出処理のフローチャートである。処理を開始すると、分類システム100は、区分指示の入力(ステップS20)、対象レポートの読み込み(ステップS21)を行う。これらは分類処理(図3)のステップS10、S11の処理と同じである。
分類システム100は、対象レポートから単語を抽出する(ステップS22)。対象レポートの文章を形態素解析すればよい。抽出する単語は、特徴度データベース13に登録されている単語に限らない。
そして、それぞれの単語について、特徴度データベース13を参照して特徴度を求め、単語ごとの特徴度の値、即ち単語別特徴度を算出する。図の例では、「名前」という単語について、単語数N1、特徴度R1であるから、単語別特徴度は、両者の積でN1×R1と求まる。同様に単語「名」については、単語数N2、特徴度R2の積により単語別特徴度はN2×R2と求める。他の単語も同様である。
次に単語数の合計ΣN、および単語別特徴度の合計ΣNRを求め、タームスコアを「タームスコア=ΣNR/ΣN」で求める。
即ち、タームスコアは、特徴度の合計値を単語数で割った平均値である。上述の説明は、算出方法の一例に過ぎず、タームスコアの算出は、種々の方法で行うことができる。
破線の非該当レポートによれば、タームスコアが0.7付近でピークを形成していることが分かる。また、タームスコア<1.0の範囲では、該当レポートはほとんど存在しないことが分かる。従って、タームスコア<1.0の範囲では、タームスコアに基づいて安定的に非該当レポートと該当レポートとを判定できることが分かる。
同様に、非該当レポート数は、タームスコア>1.0の範囲では急激に減少し値0に近づくことが分かる。図5の例では、タームスコアが8.5付近で、小さな山が現れるものの、8.5≦タームスコアの範囲では、ほぼ0となる。従って、8.5≦タームスコアの範囲では、タームスコアに基づいて安定的に非該当レポートと該当レポートとを判定できることが分かる。
分類処理(図3)の分類判定(ステップS14)における第1の閾値、第2の閾値は、このようにタームスコアの算出結果に基づいて設定することができる。
図6、7に示されている通り、区分によって非該当レポート、該当レポートの分布は異なっているが、それぞれの分布に基づいて第1の閾値、第2の閾値を設定すれば、タームスコア<第1の閾値となる範囲、および第2の閾値≦タームスコアとなる範囲で、該当レポートと非該当レポートを精度良く判別できることが分かる。
次に特徴フレーズの構造およびその設定について説明する。特徴フレーズは、対象レポートの分類処理(図3)の分類判定で用いられる語句である。特徴フレーズは、例えば、「患者を取り違えた」というような文章の形式で特徴フレーズデータベース14に格納することもできるが、本実施例では、用いられる単語、その順序、および単語間の距離によって特徴フレーズを定義するものとした。
図8は、特徴フレーズの構造を示す説明図である。この例では、最初の単語W1として、「*、他、別、違」などが登録されている。「*」は空文字、つまり単語W1が存在しない場合を意味する。同様に、2番目の単語W2として、「患者、患児、PT」などの単語、3番目の単語W3として「取り違え、誤認」などの単語が登録されている。また、単語W1、W2の距離d1として{0,3}と登録されており、これは、両単語の間に挿入される文字数が0文字〜3文字であることを意味している。同様に単語W2、W3の距離d2として{0,5}と登録されている。
一方、フレーズS2「他患者の対応に追われ、朝と昼の薬を取り違えた」については、「他」「患者」「取り違え」という単語W1〜W3に登録されている単語をそれぞれ含んでいるものの、「患者」と「取り違え」の距離が14文字であり、距離d2の{0,5}を外れるため、特徴フレーズには該当しない。
例外語句については、必ずしも特徴フレーズの最後に位置づける必要はなく、先頭や単語W1〜W3の間に設定してもよい。また、例外語句とその他の語句との間の距離を設定してもよい。
特徴フレーズは、オペレータが、手動で設定してもよいし、後述する特徴フレーズ設定処理によって自動的に設定するようにしてもよい。手動で設定する場合でも、特徴フレーズを用いて教師データに対する分類処理を試行した上で、所定以上の精度が確保できるものを登録しておくことが好ましい。
分類システム100は、これらの中から、特徴度の高い単語を抽出する(ステップS31)。特徴度が高い単語とは、即ち、非該当レポートよりも該当レポートに用いられる可能性が高い単語であり、該当レポートを分類するために有用性の高い単語である。特徴度の高い単語は、特徴度設定処理(図2)と同様の処理によって求めても良いし、既に特徴度データベース13が設定されている場合は、それに基づいて求めても良い。
本実施例において特徴度の高い単語を抽出したのは、これらを用いて特徴フレーズを設定するためである。特徴度に関わらず広汎な単語を用いて特徴フレーズを設定する場合には、ステップS31は特徴度に関わらず単語を抽出する処理として実行すればよい。この段階で特徴度を無視したとしても、特徴フレーズによる精度の評価は、後述する処理の過程で行うため、支障はない。
図中の例では、「他」「患者」「誤認」という単語を選択し、この順序に並べ、距離を{0,3}と設定した試行フレーズの例を示している。単語の選択数はいくつでもよい。また、順序も、単語を選択した順など任意に設定可能である。距離も任意に設定可能である。例えば、図の例と同じ単語を用いても、順序によっては、「誤認」{0,3}「患者」{0,3}「他」というような試行フレーズが設定されることもある。
まず、該当率が0.8以上の場合は、その試行フレーズは該当レポートの分類に有用であると判断されるため、分類システム100は、その試行フレーズを特徴フレーズとして特徴フレーズデータベース14に登録する(ステップS35)。そして、次の特徴フレーズを策定するためのモードとしてモード1を設定する(ステップS36)。モードの意味は後述する。
一方、該当率が0.4以下の場合は、試行フレーズを登録することなく、次の特徴フレーズを策定するためのモードとしてモード2を設定する(ステップS38)。また、該当率が0.4〜0.8の場合は、試行フレーズを登録することなく、次の特徴フレーズを策定するためのモードとしてモード3を設定する(ステップS37)。
また、該当率が高い特徴フレーズが登録された場合も、新たな単語の組み合わせからなる試行フレーズを用いて再試行する。
従って、本実施例では、試行フレーズについて該当率が0.4以下の場合には、優先度の低い単語の距離を調整する程度では精度は向上しないものと判断し、2番目の優先度である単語の順序を変更して新たな試行フレーズを設定するものとした。かかる設定方法をモード2と呼ぶ。
また、該当率が0.8以上となり、特徴フレーズとして登録された場合には、優先度が一番高い単語の組み合わせを変更し、新たな単語を用いて試行フレーズを設定する。かかる設定方法をモード1と呼ぶ。
そして、該当率が0.4〜0.8の場合は、優先度が3番目である単語の距離を調整するものとした。かかる設定方法をモード3と呼ぶ。
以上がそれぞれステップS36〜S38におけるモード設定の意味である。このように、該当率の値に応じて、調整する要素を切り替えることにより、該当率を評価する試行フレーズの数を抑制することができ、処理の効率化を図ることができる。モード設定の基準となる0.4,0.8などの閾値は、それぞれ任意に設定可能である。本実施例では、3つのモードを使い分けているが、2つのモードを使い分けるようにしてもよいし、さらに多くのモード設定を設けるようにしてもよい。
処理を終了すべきか否かの判断は(ステップS39)、種々の終了条件に基づいて行うことができる。終了条件としては、例えば、新たに登録された特徴フレーズが所定数に達した場合に処理を終了する;処理開始時からの経過時間が所定時間を超えたときに終了する;抽出した全単語について試行フレーズの設定を完了したときに終了するなどの条件が考えられる。
以上で説明した実施例の分類システム100によれば、インシデントレポートを高い精度で分類することが可能となる。
図10は、タームスコアのみによる分類精度を示すグラフである。本実施例に対する比較例として示した。この例では、患者誤認という区分の教師データについてタームスコアのみを用いて該当レポートか否かを分類した場合のカッパ値を示している。教師データの各レポートのタームスコアを算出し、ある閾値よりも小さければ非該当レポート、閾値以上であれば該当レポートと分類した。カッパ値は、判断結果が教師データの回答にどれだけ一致しているかを表している。
図示する通り、閾値を1.0から増大させるとカッパ値は増大し、タームスコア2.5を閾値とするときにカッパ値は最大となるが、その値は0.672に過ぎない。
中段には、これらの結果をグラフで示した。βエラーはαエラーよりも少なくなっており、また両者を合わせたエラーは正解に比較して十分に小さいことが分かる。この結果に対するカッパ値は0.864であった。
特徴フレーズを併用しない場合、該当レポートに対して「該当」と判断したものは400件(76.3%)、αエラーは239件(45.6%)、βエラーは124件(23.6%)、非該当レポートに対して「非該当」と判断したものは10965件(97.8%)で、カッパ値0.672(図10参照)であった。本実施例により分類の精度を大きく向上させることが示されている。
例えば、本実施例において、既存の区分に加えて新たな区分に対する分類を可能としてもよい。具体的には、新たな区分を設定するとともに、その区分に対する教師データを用意し、特徴度データベース、特徴フレーズデータベースを設定すればよい。
11 :コマンド入力部
12 :出力部
13 :特徴度データベース
14 :特徴フレーズデータベース
20 :分類処理部
21 :解析部
22 :タームスコア算出部
23 :特徴フレーズ検出部
30 :学習機能部
31 :特徴度設定部
32 :特徴フレーズ設定部
33 :教師データベース
34 :学習処理部
100 :分類システム
Claims (9)
- レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかを判断する分類システムであって、
複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースと、
前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースと、
前記レポートを読み込むレポート読み込み部と、
前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出部と、
前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出部と、
前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理部と
を備える分類システム。 - 請求項1記載の分類システムであって、
前記分類処理部は、
前記タームスコアと第1の閾値との大小関係に基づいて前記レポートを該当レポートと判断し、
前記タームスコアと第2の閾値との大小関係に基づいて前記レポートを非該当レポートと判断し、
前記第1の閾値および第2の閾値との大小関係に基づいて判断できないものについて、前記特徴フレーズの有無を考慮して、前記レポートが前記該当レポートか非該当レポートかを判断する分類システム。 - 請求項1または2記載の分類システムであって、
前記特徴度は、前記単語が、既存の前記該当レポートに用いられる出現率と、既存の前記非該当レポートに用いられる出現率との比に基づいて算出された値である分類システム。 - 請求項1〜3いずれか記載の分類システムであって、
前記特徴フレーズは、前記単語の組み合わせと、各単語間の距離で定義されている分類システム。 - 請求項1〜4いずれか記載の分類システムであって、さらに、
前記特徴フレーズの候補となる試行フレーズを設定し、既存の前記該当レポートおよび前記非該当レポートを教師データとして該試行フレーズを用いることにより、前記該当レポートか前記非該当レポートかを判断する精度を評価し、所定以上の精度を示す試行フレーズを特徴フレーズとして前記特徴フレーズデータベースに格納する特徴フレーズ設定部を備える分類システム。 - 請求項5記載の分類システムであって、
前記特徴フレーズ設定部は、
前記試行フレーズに用いられるべき単語の選択、単語の順序、単語間の距離の優先順位でそれぞれを設定することにより試行フレーズを設定し、
前記評価の結果、前記特徴フレーズとして登録されない試行フレーズに対しては、前記精度が低い場合には、該精度が高い場合よりも前記優先順位が高い要素を変更することにより次の試行フレーズを設定する分類システム。 - 請求項1〜6いずれか記載の分類システムであって、
前記レポートは、インシデントレポートである分類システム。 - レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかをコンピュータによって判断する分類方法であって、
前記コンピュータが実行する工程として、
前記レポートを読み込むレポート読み込み工程と、
複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースにアクセスする工程と、
前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースにアクセスする工程と、
前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出工程と、
前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出工程と、
前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理工程と
を備える分類方法。 - レポートの中の文章を解析して、当該レポートが予め設定された区分に該当する該当レポートか当該区分に該当しない非該当レポートかをコンピュータによって判断するためのコンピュータプログラムであって、
前記レポートを読み込むレポート読み込み機能と、
複数の単語について、それぞれの単語が前記レポートに含まれていることで前記該当レポートか前記非該当レポートかを判断できる可能性を表す指標である特徴度を記憶する特徴度データベースにアクセスする機能と、
前記区分に該当する事象を表現する複数の単語について単語の選択、単語の順序、単語間の距離を定めた特徴フレーズを記憶する特徴フレーズデータベースにアクセスする機能と、
前記レポートに含まれる文章を解析して該文章中の単語を抽出し、前記特徴度データベースに記憶された特徴度に基づいて、該レポートが前記該当レポートか前記非該当レポートかを判断する指標であるタームスコアを算出するタームスコア算出機能と、
前記レポートについて前記特徴フレーズの有無を検出する特徴フレーズ検出機能と、
前記タームスコアおよび特徴フレーズの有無に基づいて、前記レポートが前記該当レポートか非該当レポートかを判断する分類処理機能と
をコンピュータに実現させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016221111A JP6172694B1 (ja) | 2016-11-14 | 2016-11-14 | レポートの分類システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016221111A JP6172694B1 (ja) | 2016-11-14 | 2016-11-14 | レポートの分類システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6172694B1 true JP6172694B1 (ja) | 2017-08-02 |
JP2018081334A JP2018081334A (ja) | 2018-05-24 |
Family
ID=59505276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016221111A Active JP6172694B1 (ja) | 2016-11-14 | 2016-11-14 | レポートの分類システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6172694B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021085364A1 (ja) * | 2019-10-30 | 2021-05-06 | 国立大学法人東海国立大学機構 | リスク評価システム、リスク評価方法およびコンピュータプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182218A (ja) * | 2003-12-17 | 2005-07-07 | Ishikawa Pref Gov | 辞書編集装置、文書分類装置及びそのプログラム |
JP2008243074A (ja) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | 文書検索装置、方法及びプログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
WO2015194140A1 (ja) * | 2014-06-18 | 2015-12-23 | 日本電気株式会社 | 文書データ処理装置、文書データ処理方法、及び記録媒体 |
-
2016
- 2016-11-14 JP JP2016221111A patent/JP6172694B1/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182218A (ja) * | 2003-12-17 | 2005-07-07 | Ishikawa Pref Gov | 辞書編集装置、文書分類装置及びそのプログラム |
JP2008243074A (ja) * | 2007-03-28 | 2008-10-09 | Toshiba Corp | 文書検索装置、方法及びプログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
WO2015194140A1 (ja) * | 2014-06-18 | 2015-12-23 | 日本電気株式会社 | 文書データ処理装置、文書データ処理方法、及び記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021085364A1 (ja) * | 2019-10-30 | 2021-05-06 | 国立大学法人東海国立大学機構 | リスク評価システム、リスク評価方法およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2018081334A (ja) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489502B2 (en) | Document processing | |
Klein et al. | Can humans detect errors in data? Impact of base rates, incentives, and goals | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
Martin et al. | The app sampling problem for app store mining | |
US20160239500A1 (en) | System and methods for extracting facts from unstructured text | |
CN108595657B (zh) | His***的数据表分类映射方法和装置 | |
KR102019207B1 (ko) | 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법 | |
Shah et al. | Using app reviews for competitive analysis: tool support | |
CN105843889A (zh) | 基于可信度面向大数据及普通数据的数据采集方法和*** | |
US11816135B2 (en) | Method, system, and computer program product for retrieving relevant documents | |
Sheikha et al. | Learning to classify documents according to formal and informal style | |
US20200175041A1 (en) | Method, device, and system for clustering document objects based on information content | |
US20060101014A1 (en) | System and method for minimally predictive feature identification | |
WO2020177463A1 (zh) | 信息处理方法、装置、存储介质和电子设备 | |
JP5218409B2 (ja) | 関連情報検索システム及び関連情報検索方法 | |
JP6172694B1 (ja) | レポートの分類システム | |
JP6885506B2 (ja) | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム | |
Xu et al. | Extracting subject demographic information from abstracts of randomized clinical trial reports | |
Landsheer | Impact of the prevalence of cognitive impairment on the accuracy of the Montreal Cognitive Assessment: The advantage of using two MoCA thresholds to identify error-prone test scores | |
Dhar et al. | Learning to predict novel noun-noun compounds | |
US20180196799A1 (en) | A method and system for processing data using an augmented natural language processing engine | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
CN105843890A (zh) | 基于知识库面向大数据及普通数据的数据采集方法和*** | |
CN115169328A (zh) | 一种高准确性的中文拼写检查方法、***及介质 | |
CN111444315A (zh) | 纠错词组候选项的筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6172694 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |