JP6066826B2 - 分析システム及び保健事業支援方法 - Google Patents

分析システム及び保健事業支援方法 Download PDF

Info

Publication number
JP6066826B2
JP6066826B2 JP2013104664A JP2013104664A JP6066826B2 JP 6066826 B2 JP6066826 B2 JP 6066826B2 JP 2013104664 A JP2013104664 A JP 2013104664A JP 2013104664 A JP2013104664 A JP 2013104664A JP 6066826 B2 JP6066826 B2 JP 6066826B2
Authority
JP
Japan
Prior art keywords
medical
information
node
model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013104664A
Other languages
English (en)
Other versions
JP2014225176A5 (ja
JP2014225176A (ja
Inventor
利昇 三好
利昇 三好
泰隆 長谷川
泰隆 長谷川
伴 秀行
伴  秀行
永崎 健
健 永崎
新庄 広
広 新庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013104664A priority Critical patent/JP6066826B2/ja
Priority to EP14168538.8A priority patent/EP2804119A3/en
Priority to US14/278,154 priority patent/US20140343965A1/en
Priority to CN201410208444.4A priority patent/CN104166667B/zh
Publication of JP2014225176A publication Critical patent/JP2014225176A/ja
Publication of JP2014225176A5 publication Critical patent/JP2014225176A5/ja
Application granted granted Critical
Publication of JP6066826B2 publication Critical patent/JP6066826B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データ分析技術に関し、特に、医療データを分析する保健事業支援システムに関する。
健康保険組合は、医療費を低減するために、生活習慣病の予防及び重症化の予防のための保健指導を行う保健事業を行っている。しかし、保健指導のために確保できる保健師、及び保健指導のための費用などのリソースは限られている。このため、効果的・効率的な保健事業の運営を支援するシステムが望まれている。
保健事業の運営を支援する方法として、特許文献1には、レセプト情報、健診情報、及び保健指導情報に基づいて、保健指導対象者を選択する保健事業支援システムであって、健康保険加入者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する健康保険加入者を保健指導対象者として選択する対象者選択部と、を備える保健事業支援システムが記載されている。
特開2012−128670号公報
健康保険組合のリソースの中で、効果的・効率的な保健事業を行うためには、保健指導を優先的に実施する対象者を選択することが必要である。また、保健指導の内容も、個々の対象者に適したものを選択することが必要である。
特許文献1では、医療費を予測する際に、現在の重症度及び検査値に基づいて、将来の医療費を予測する。例えば、現在の糖尿病の重症度及び血糖値に基づいて、将来の糖尿病の重症度を予測し、その重症度の平均の医療費を予測医療費とする。
しかし、将来の医療費及び重症度の予測のために有効な因子(糖尿病では血糖値)は、事前知識として人手による設定が必要である。また、重症度の定義も人手による設定が必要である。
将来の医療費の予測に有効な因子は、血糖値の他に、年齢、性別、他の検査値、医薬品の処方状況及び生活習慣など様々な因子が考えられ、これらを考慮することによって、より精度の高い予測が可能である。しかし、これらの因子を人手でリストアップすることは困難である。また、疾病ごとに、事前知識により、それらの因子を設定する必要がある。このため、全ての疾病について分析をすることは困難である。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する分析システムであって、前記分析システムは、加入者の傷病名と前記加入者に対して行われた医療行為とを含む医療情報と、前記医療行為の費用情報と、前記加入者の健康診断による検査値を含む健診情報と、を格納するデータベースにアクセス可能であって、前記分析システムは、前記プロセッサが、病態と前記病態に関する発症確率変数とに対応する病態ノードと、前記病態の変化に影響を与える因子を表す因子確率変数に対応する因子ノードと、前記病態ノードと前記因子ノードとの間で有向辺又は無向辺によって定義された確率的依存性と、を含むグラフ構造を、前記医療情報と前記健診情報とに基づいて作成し、前記作成されたグラフ構造を前記データベースに格納する因果・遷移構造算出部と、前記プロセッサが、前記医療情報と前記健診情報とに基づいて、前記発症確率変数と前記因子確率変数との事象空間を作成し、前記作成した事象空間を前記データベースに格納するノード生成部と、前記プロセッサが、前記医療情報と前記健診情報と前記事象空間とに基づいて、前記グラフ構造の条件付確率を算出し、前記算出した条件付確率を前記データベースに格納する確率算出部と、前記プロセッサが、前記グラフ構造と前記事象空間と前記条件付確率とから構成されるモデルに基づいて、指定された確率変数からなるグラフ構造事象空間条件付確率によってモデルを再構成し、前記再構成したモデルを前記データベースに格納するモデル再構築部と、前記プロセッサが、前記医療行為の費用情報と前記再構成されたモデルとに基づいて、病態遷移確率及び医療費を予測する病態遷移・医療費予測部と、前記プロセッサが、前記予測された病態遷移確率及び医療費に基づいて、健康指導の対象者及び健康指導内容を選定する健康指導支援部と、を備えることを特徴とする分析システム。
本発明の代表的な実施の形態によれば、各種のデータに基づいて、関係がある将来の事象を高精度に予測することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
第1の実施例の医療データ分析システムの構成を示すブロック図である。 第2の実施例の分析システムの構成を示すブロック図である。 第1の実施例の医療データ分析システムの別な構成を示すブロック図である。 第1の実施例の医療データ分析システムの別な構成を示すブロック図である。 第1の実施例の医療データ分析システムの別な構成を示すブロック図である。 第1の実施例のレセプト基本情報を説明する図である。 第1の実施例の健診情報を説明する図である。 第1の実施例の問診情報を説明する図である。 第1の実施例の傷病名情報を説明する図である。 第1の実施例の傷病名分類情報を説明する図である。 第1の実施例の診療行為情報を説明する図である。 第1の実施例の診療行為分類情報を説明する図である。 第1の実施例の医薬品情報を説明する図である。 第1の実施例の医薬品分類情報を説明する図である。 第1の実施例の整形情報の一例を説明する図である。 第1の実施例の整形情報の別な例を説明する図である。 二つの確率変数によって構成されるモデル及び確率変数を説明する図である。 三つの確率変数によって構成されるモデル及び確率変数を説明する図である。 ベイジアンネットワークであるモデルを説明する図である。 第1の実施例の因果・遷移構造算出部の処理を説明する図である。 今年と翌年の医療行為のノードのモデルを説明する図である。 今年の医療行為、検査値及び生活習慣と翌年の医療行為とのノードのモデルを説明する図である。 因果・遷移関係のエッジを説明する図である。 因果・遷移関係のエッジを説明する図である。 因果・遷移関係のエッジを説明する図である。 第1の実施例のノード離散化処理における事例数の変化を説明する図である。 第1の実施例のノード離散化処理のフローチャートである。 第1の実施例のノードの集約化を説明する図である。 第1の実施例のノード集約化処理のフローチャートである。 第1の実施例のノード集約化処理における事例数の変化を説明する図である。 第1の実施例のノード離散化処理のフローチャートである。 第1の実施例のノード情報記憶部に記憶される情報の例を説明する図である。 第1の実施例のノードの集約化を説明する図である。 第1の実施例の因果遷移モデル記憶部に記憶される情報の例を説明する図である。 第1の実施例のモデル再構築処理を説明する図である。 第1の実施例の健康保険事業者向け支援機能の処理のフローチャートである。 第1の実施例の担当者・対象者向け支援機能の処理のフローチャートである。 糖尿病を対象にして単純化されたモデルを説明する図である。 有向エッジのルートを有するモデルを説明する図である。 第2の実施例で扱うデータを説明する図である。 図23Aに示すエッジを有する翌年の医療費を予測するモデルを説明する図である。 図23Bに示すエッジを有する翌年の医療費を予測するモデルを説明する図である。 図23Cに示すエッジを有する翌年の医療費を予測するモデルを説明する図である。
<実施例1>
第1の実施例では、医療データ(例えば、レセプト情報、健診情報、問診情報)に基づいて、病気の発症予防及び重症化予防のために、保健指導の対象者を選択し、保健指導方法を提案し、保健指導効果を予測する医療データ分析システムの例を説明する。
レセプト情報は、健康保険の加入者が医療機関を受診した際の傷病名、処方された医薬品、実施された診療行為、及び医療費(点数)が記録された情報であり、その一例は図6を用いて後述する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。
また、健診情報は、健康保険の加入者が健康診断を受診した場合の検査値が記憶された情報であり、その一例は図7を用いて後述する。問診情報は、健康保険の加入者が健康診断を受診した場合の生活習慣や既往歴、自覚症状などの問診の結果が記憶された情報であり、その一例は図8を用いて後述する。
第1の実施例では、医療データに基づいて、病気の因果関係及び病態の遷移構造をモデル化する。そして、このモデルに基づいて、保健指導対象者の選択、保健指導方法の提案、保健指導効果の予測などの各種機能を提供する。
図1は、第1の実施例の医療データ分析システムの構成を示すブロック図である。また、図3、図4及び図5は、第1の実施例の医療データ分析システムの別な構成を示すブロック図である。
第1の実施例の医療データ分析システムは、医療データ分析装置101及びデータベース116を有する。
医療データ分析装置101は、入力部102、出力部103、演算装置104、メモリ105及び記憶媒体106を有する。
入力部102は、マウス、キーボードなどのヒューマンインターフェースであり、医療データ分析装置101への入力を受け付ける。出力部103は、医療データ分析システムによる演算結果を出力するディスプレイやプリンタである。記憶媒体106は、医療データ分析システムによる医療データ分析処理を実現する各種プログラム、及び医療データ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体(磁気ディスクドライブ、不揮発性メモリ等)である。メモリ105には、記憶媒体106に格納されているプログラムが展開される。演算装置104は、メモリ105にロードされたプログラムを実行する演算装置であり、例えば、CPU、GPUなどである。以下に説明する処理及び演算は、演算装置104が実行する。
第1の実施例の医療データ分析システムは、一つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。また、医療データ分析装置101のデータ整形部107、病態因果・遷移モデル作成部108、発症確率・医療費予測部112は、図3、図4、図5に示すように別の装置で構成してもよい。この場合、図3、図4に示す装置が医療データに基づいてモデルを作成する。図5に示す装置が、作成したモデルに基づいて各種の保健指導をするための情報を作成する保健指導支援機能を提供する。ユーザは、図5に示す装置を用いる。ユーザが用いる図5の装置は、モデル作成の基となった医療データを保持する必要がないため、個人情報の隠匿及び漏洩の防止に有効である。
医療データ分析システムは、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
演算装置104によって実行されるプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。
まず、第1の実施例で扱う医療データについて説明する。
医療情報記憶部117は、入力部102に入力された医療データを格納する。医療データは、レセプト情報、健診情報、及び問診情報を含む。レセプト情報は、レセプト基本情報、傷病名情報、診療行為情報、医薬品情報、傷病名分類情報、診療行為分類情報、及び医薬品分類情報を含む。
次に、レセプト情報について説明する。
図6は、レセプト基本情報601を説明する図である。
レセプト基本情報601は、レセプトと健康保険の加入者との対応関係を保持する情報である。レセプト基本情報601は、検索番号602、健保加入者ID603、性別604、年齢605、診療年月606、及び合計点数607を含む。
検索番号602には、レセプトを一意に識別するための識別子である。健保加入者ID603は、健康保険の加入者を一意に識別するための識別子である。性別604及び年齢605は、当該加入者の性別及び年齢である。
診療年月606は、加入者が医療機関を受診した年及び月である。合計点数607は、一件のレセプトの合計点数を示す情報である。なお、合計点数に「10」を乗じると医療費(円)が算出される。なお、合計点数607に、図9に示す傷病名情報901における複数の傷病名が、一つの検索番号に登録されている場合は、複数の傷病に対する医療行為の合計点数が登録される。
図9は、傷病名情報901を説明する図である。
傷病名情報901は、検索番号602、傷病名コード902、傷病名903を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号(図6)と同じ番号を用いる。傷病名コード902は、レセプトに記載される傷病名コードである。傷病名903は、当該傷病名コードに対応する傷病の名称である。
なお、一件のレセプトには、複数の傷病名が記載可能である。例えば、図9に示す傷病名情報901では、検索番号602に「11」のエントリの傷病名903は「糖尿病」と「高血圧」であり、検索番号が「11」のレセプトには糖尿病及び高血圧の傷病名が記載されている。
図10は、傷病名分類情報を説明する図である。
傷病名分類情報1001は、傷病分類と当該傷病分類に属する傷病名とを対応づける情報であり、傷病分類1002、傷病名コード902、傷病名903、及び合併症有無1003を含む。
傷病分類1002は、この傷病が属する分類である。傷病名コード902は、レセプトに記載される傷病名コードであり、傷病名情報901の傷病名コード902(図9)と同じ番号を用いる。傷病名903は、当該傷病名コードに対応する傷病の名称であり、傷病名情報901の傷病名903(図9)と同じ名称を用いる。合併症有無1003は、この傷病が合併症の傷病名であるかを示す。
図11は、診療行為情報を説明する図である。
診療行為情報1101は、検索番号602、診療行為コード1102、診療行為名1103、及び診療行為点数1104を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号602(図6)と同じ番号を用いる。診療行為コード1102は、レセプトに記載された診療行為を識別するための識別子である。診療行為名1103は、当該診療行為コードに対応する診療行為の名称である。診療行為点数1104は、当該診療行為の保険点数である。
図11では、例えば、検索番号602に「11」のレセプトには、「診療行為A」と「診療行為C」の診療行為名1103が記載されている。
図12は、診療行為分類情報を説明する図である。
診療行為分類情報1201は、傷病分類1002、診療行為コード1102、及び診療行為名1103を含む。
傷病分類1002は、傷病名分類情報1001の傷病分類1002(図10)と同じ分類を用いる。診療行為コード1102は、傷病分類1002の傷病で行われる診療行為を識別する診療行為コードであり、診療行為情報1101の診療行為コード1102(図11)と同じコードを用いる。診療行為名1103は、当該診療行為コードに対応する診療行為の名称であり、診療行為情報1101の診療行為名1103(図11)と同じコードを用いる。
図13は、医薬品情報を説明する図である。
医薬品情報1301は、検索番号602、医薬品コード1302、医薬品名1303、及び医薬品点数1304を含む。
検索番号602は、レセプトを一意に識別するための識別子であり、レセプト基本情報601の検索番号602(図6)と同じ番号を用いる。医薬品コード1302は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名1303は、レセプトに記載された医薬品の名称である。医薬品点数1304は、医薬品の保険点数である。
図13では、例えば、検索番号602が「11」のレセプトは、糖尿病経口薬A及び高血圧経口薬Aとの医薬品名が記載されている。
図14は、医薬品分類情報を説明する図である。
医薬品分類情報1401は、傷病分類1002、医薬品コード1302、及び医薬品名1303を含む。
傷病分類1002は、傷病名分類情報1001の傷病分類1002(図10)と同じ分類を用いる。医薬品コード1302は、傷病分類1002に登録された分類で処方される医薬品を識別する医薬品コードであり、医薬品情報1301の医薬品コード1302(図13)と同じコードが用いられる。医薬品名1303は、当該医薬品コードに対応する医薬品の名称であり、医薬品情報1301の医薬品名1303(図13)と同じ名称が用いられる。
なお、図11に示す療行為情報1101及び図13に示す医薬品情報を、医療行為情報と総称する。また、図12に示す診療行為分類情報1201及び図14に示す医薬品分類情報を、医療行為分類情報と総称する。
次に、健診情報について説明する。
図7は、健診情報を説明する図である。
健診情報701は、複数の加入者の複数年分の健診情報を管理するための情報であり、健保加入者ID603、健診受診日702、及び健康診断における各種検査値(例えば、BMI703、腹囲704、空腹時血糖705、収縮期血圧706、中性脂肪707)を含む。
健保加入者ID603は、健康診断を受診した健康保険の加入者の識別子であり、レセプト基本情報601の健保加入者ID603(図6)と同じ識別子を用いる。健診受診日702は、健康診断を受診した年月日である。BMI703から中性脂肪707は、健康診断の検査の結果である。
特定の検査を受けなかった場合など、健診情報のデータが欠落することがある。例えば、図7では、健保加入者ID「K0004」が2004年に受診した検査項目のうち収縮期血圧706のデータが欠落している。
次に、問診情報について説明する。
図8は、問診情報を説明する図である。
問診情報801は、複数の加入者の複数年分の問診情報を管理するための情報であり、健保加入者ID603、問診受診日802、及び問診の回答(例えば、タバコ803、飲酒804、歩行805)を含む。なお、問診は、生活習慣、既往歴、アレルギー等の体質、自覚症状などを含んでもよい。
健保加入者ID603は、問診を受診した健康保険の加入者の識別子であり、レセプト基本情報601の健保加入者ID603(図6)と同じ識別子を用いる。問診受診日802は、問診を受診した年月日である。タバコ803から歩行805は、問診の結果である。タバコ803は、喫煙習慣がある場合は一日の平均喫煙本数であり、喫煙しない場合は「なし」である。飲酒804は、飲酒習慣がある場合は一日の平均飲酒量(単位=ml)であり、飲酒習慣がない場合は「なし」である。歩行805は、一日の平均歩行時間(単位=分)である。
なお、問診情報では、歩数、飲酒量、喫煙本数などの詳しい情報が得られない場合もある。具体的な飲酒量ではなく、予め問診表で区分けされた頻度のうち、該当するものを回答する場合がある。例えば、喫煙や飲酒の有無のみの情報が得られる場合、飲酒の頻度をいくつかの程度に分けて(例えば、(1)飲酒無し、(2)週に1〜2回、(3)週に3回以上)回答する場合などである。この場合、問診情報の値は、定量的な意味がない番号である。
特定の項目に対する回答が無かった場合、問診情報のデータが欠落することがある。例えば、図8では、健保加入者ID「K0003」が2004年に受診した問診項目のうち歩行805に対するデータが欠落している。
次に、データ整形部107の処理について説明する。データ整形部107は、医療情報記憶部117に記憶されている医療データから、加入者毎かつ期間毎のレセプト情報、健診情報及び問診情報を集計・統合し、表形式に整形する。以下では、一つの期間は1年であるとして説明するが、半年、2年、3年など、別の期間でもよい。
図15は、整形情報1501の一例を説明する図である。図15を用いて、データ整形部107の処理を説明する。
整形情報1501は、2004年のレセプト情報を整形したレセプト整形情報を含む。整形情報1501の各行は、一つの健保加入者IDに対応する一つの年のデータを集計したものである。
健保加入者ID603、性別604、年齢605及び合計点数607は、それぞれ、レセプト基本情報601の健保加入者ID603、性別604、年齢605及び合計点数607(図6)と同じである。データ年1502は、当該整形情報を作成する元となったデータの年である。
傷病名コード10(1503)は、当該健保加入者IDのレセプトのうち傷病名コードが10であるレセプトの数である。傷病名コード20(1504)も同様に、当該健保加入者IDのレセプトのうち傷病名コードが20であるレセプトの数である。診療行為コード1000(1505)は、当該健保加入者IDのレセプトのうち診療行為コードが1000の診療行為が行われたレセプトの数である。医薬品コード110(1506)は、当該健保加入者IDのレセプトのうち医薬品コードが110の医薬品が処方されたレセプトの数である。
データ整形部107の処理について、2004年のデータを整形する場合を具体的に説明する。
まず、一つの健保加入者IDを選択する。診療年月が2004年である当該健保加入者IDのレセプトの検索番号をレセプト基本情報601より取得する。次に、傷病名情報901を参照して、傷病名コード毎に、当該傷病名コードが記載されているレセプトの数をカウントする。これによって、各傷病名コードのレセプトの数が得られる。同様に、診療行為情報1101を参照して、診療行為コード毎のレセプトの数をカウントし、医薬品情報1301を参照して、医薬品コード毎のレセプトの数をカウントする。これにより、選択された健保加入者IDの2004年のデータ行が生成される。この処理を、分析対象となる全ての健保加入者ID及び年の組み合わせに対して行う。
例えば、図15に示す整形情報1501において、1行目の健保加入者ID「K0001」の2004年のデータは、検索番号「11」「12」「13」がレセプト基本情報601から取得できる。傷病名情報901を参照すると、この三つのレセプトのうち、傷病名コードが「10」であるレセプトは、検索番号「11」及び「13」の二つである。従って、整形情報1501の1行目の傷病名コード10の欄には2が登録される。
図15に示す整形情報1501は、健診情報から整形された健診整形情報も含む。各行は、一つの健保加入者IDに対応するデータを集計したものである。
各項目の値は、健保加入者ID603及びデータ年1502に示される加入者及び年における健診データの値である。この健診データは健診情報701から取得できる。健診情報701が同一健保加入者IDの同一年の健診データを含む場合、いずれか一つの受診日のデータを使っても、当該年の複数回の健診結果の平均を使ってもよい。一つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。図15に示す例では、−1を用いた。なお、問診情報がない加入者の値は、全て欠損データとする。
図15に示す整形情報1501は、問診情報から整形された問診整形情報も含む。各行は、一つの健保加入者IDに対応するデータを集計したものである。
各項目の値は、健保加入者ID603及びデータ年1502に示される加入者及び年における問診データの値である。この問診データは問診情報801から取得できる。問診情報801が同一健保加入者IDの同一年の問診データを含む場合、いずれか一つの受診日のデータを使っても、当該年の複数回の問診結果を平均を使ってもよい。一つの受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。又は、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。図15に示す例では、−1を用いた。なお、健診情報がない加入者の値は、全て欠損データとする。
以上の処理によって、レセプト整形情報、健診整形情報及び問診整形情報を生成することができる。なお、図15には2004年のデータのみを示したが、別の年の整形データも作成する。
ここで、レセプト整形情報を作成する際に、類似の項目を纏めて、複数の項目を統合してもよい。例えば、医薬品の項目のうち、糖尿病経口薬Aの機能と糖尿病経口薬Bの機能とが類似している場合、これらを纏めて一つの項目として扱ってもよい。このとき、同一年度の糖尿病経口薬Aの処方回数と糖尿病経口薬Bの処方回数とを加算した値を、新しく纏めた項目の値とする。項目が類似するかを判断するための基準は、以下の通りとするよい。診療行為分類情報1201で同一傷病分類に属する診療行為名を類似項目とする。また、医薬品分類情報1401で同一傷病分類に属する医薬品名を類似項目とする。また、予め類似項目情報を人手により作成しておく。
図16は、レセプト整形情報の傷病名コード10と傷病名コード20とを統合した整形情報1501の例を説明する図である。傷病名コード1601の値は、図15の傷病名コード1503の値と傷病名コード1504の値とを加えた値であり、傷病名コードが「10」であるレセプトの数と傷病名コードが「20」であるレセプトの数と合計である。
図15、図16に示す、作成されたレセプト整形情報、健診整形情報及び問診整形情報は、データベース116の整形情報記憶部118が記憶する。整形情報1501は表形式の数値データである。
なお、レセプト整形情報の値は、レセプトの数、すなわち処方回数で集計したが、処方の有無の情報でもよい。すなわち、処方回数が1以上の(処方がある)場合を1として纏め、処方回数が0の(処方がない)場合を0として、2値であらわしてもよい。また、処方回数が重症度を表すと考えて、レセプト整形情報の値は、処方回数を段階に分類した値でもよい。例えば、処方回数が0回の場合を0とし、処方回数が1〜4回の場合を1とし、処方回数が5回以上の場合を2とするなど、3段階で表してもよい。
前述した例では、1年毎の期間でレセプト情報、健診情報及び問診情報を纏めたが、例えば、2年毎、3年毎など異なる期間でもよい。なお、以下では、期間は1年毎に纏めた場合を例にして説明する。
次に、病態因果・遷移モデル作成部108について説明する。
病態因果・遷移モデル作成部108は、因果・遷移構造算出部109、ノード生成部110及び確率テーブル算出部111を有する。病態因果・遷移モデル作成部108は、整形情報記憶部118に記憶されている整形情報を用いて、グラフィカルモデルによって病気の因果及び病態の遷移を表すモデルを作成する。
病態因果・遷移モデルにより、ある年(X年)の個人の、健康診断、問診、レセプトデータから、以後の年(X+n年)の医療費の期待値を計算でき、発症確率を予測できる。また、X年に特定の状態にある集団(例えば、血糖値がある範囲にある集団)の翌年の医療費の期待値を計算でき、病気の発症確率を予測できる。なお、以下では翌年(n=1の場合)の医療費や病気の状態の予測について説明するが、2年後、3年後など他の期間後を予測してもよい。
このとき、モデル作成には、少なくとも、n年離れた年に取得された医療データが必要である。例えば、n=3の場合、2004年と2007年の医療データなどのように、3年分離れた年に取得された医療データが必要である。以下では、医療情報記憶部117にn年離れた年に取得された医療データが記憶されており、データ整形部107によって当該医療データから作成された整形情報が整形情報記憶部118に記憶されているとして、説明をする。
病態因果・遷移モデル作成部108は、整形情報記憶部118に記憶されている整形情報を用いて、病気の因果関係及び病態の遷移を表すモデルを作成する。
まず、グラフィカルモデルについて簡単に説明する。
グラフィカルモデルは、ノードとエッジによって構成されるモデルで、ノードが確率変数、エッジがノード間(確率変数間)の依存関係を表す。エッジには有向辺及び無向辺の2種類がある。
いま、二つの確率変数X1、X2を考える。
図17(A)に示す構造1701は、二つの確率変数X1、X2が丸によって、X1からX2への有向辺が矢印によって示される。有向辺は、確率変数X2が各状態をとる確率が確率変数X1の状態に依存していることを示す。すなわち、確率変数X2の各状態の確率は、条件付確率P(X2|X1)によって与えられる。確率変数X1を確率変数X2の親、確率変数X2を確率変数X1の子と称する。
確率変数X1には親ノードがないため、X1の確率分布は事前確率P(X1)によって与えられる。従って、X1、X2の同時確率分布は、P(X1,X2)=P(X1)P(X2|X1)によって与えられる。X1、X2が共に、1、2、3の三つの値(状態)をとる。このとき、表現するためには、確率分布P(X1)及び確率分布P(X2|X1)があればよい。確率分布P(X1)及び確率分布P(X2|X1)は、それぞれ、確率テーブル1702及び確率テーブル1703によって表される(図17(B)、図17(C)参照)。ai、aijは確率値であるので、0以上1以下の実数値である。この確率値は、例えば、P(X1=2)=a2、P(X2=3|X1=2)=a23などを示す。確率値は、Σai=1(Σはiに関する和)、Σaij=1(Σはjに関する和)となる。
図17(D)に示す構造1704では、二つの確率変数X1及びX2が無向辺によって結ばれている。無向辺は、確率変数間が独立でないことを示す。確率変数X1とX2とが独立であるとは、X1とX2の同時分布P(X1,X2)がP(X1,X2)=P(X1)P(X2)に分解できることである。確率テーブル1702は、P(X1,X2)≠P(X1)P(X2)である状況を示している。但し、確率変数X1とX2が独立であるか不明である場合、確率変数間に依存性がある可能性を考慮して、構造1704のように表現する場合がある。この確率分布は、確率テーブル1705によって表される(図17(E)参照)。bijは0以上1以下の実数値であり、Σbij=1(Σはiとjの両方に関する和)である。
これによって、確率変数間の依存関係を表現することができる。
第1の実施例では、ノード(確率変数)は、X年の整形情報の項目及びX+n年の整形情報の項目から選択される。たとえば、図15のX年の傷病名コード10、X年のBMI、X年の喫煙、X+n年の傷病名コード10、X+n年のBMI,X+n年の喫煙などがノードとなる。これらは、レセプト情報、健診情報、問診情報の項目、又は、レセプト情報の複数の項目を統合した項目に対応する。
これらの項目の数は、例えば、レセプトの項目を糖尿病関連に限定し、レセプト、健康診断、問診を考えている場合は数百〜数千程度であり、全レセプト項目、全健診項目、全問診項目を考慮する場合には数十万個となる。つまり、ノード数は、数百から、多い場合には数十万となる。
病態因果・遷移モデル作成部108では、過去のレセプト情報、健診情報及び問診情報から作成された整形情報を用いて、ある年の加入者のレセプト情報、健診情報及び問診情報から、n年後の当該加入者の病気の発症確率、医療費などを予測するためのモデルを作成する。このとき、少なくともn年分過去の整形情報が必要である。例えば、n=3の場合、2004年と2007年の2年分の過去の整形情報を用いて、3年後の疾病発症確率及び医療費を予測するモデルを作成する。そして、現在が2008年であって、ある加入者のレセプト情報、健診情報及び問診情報の全部又は一部のデータが与えられている場合、当該加入者の2011年の発症確率及び医療費などを予測することができる。
図35は、糖尿病を対象にして単純化されたモデルを説明する図である。
図35に示すモデルは、X年の糖尿病経口薬、インスリンの処方状況、及び血糖値から、X+n年の糖尿病経口薬及びインスリン製剤の処方状況を予測するためのモデルである。例えば、X+n年の糖尿病経口薬の処方状況が、X年の糖尿病経口薬、インスリン製剤の処方状況及び血糖値の条件付確率によって与えられる。病態因果・遷移モデル作成部108は、整形情報からエッジ及び条件付確率を自動的に作成する。予測の際には、このモデルに基づいて、X年のノードに現在の値を設定し、X+n年のノードの各々の状態となる確率を求めることができる。X年のノードの値は、全部の値が与えられている必要はなく、一部の値が与えられていればよい。
以下では、n=1として説明する。
因果・遷移構造算出部109は、これらのノード間の依存性に基づいて、エッジを構築する。ノード生成部110では、各ノードの値がとる空間(事象空間)を作成する。確率テーブル算出部111では、条件付確率を算出する。
因果・遷移構造算出部109は、これらのノード(確率変数)間のエッジ(依存関係)をデータから構築する。このことを簡単な例を用いて説明する。
二つのセンサがあるシステムを考え、センサの状態からシステムの正常、異常を判定するモデルを考える。二つのセンサの状態を示す確率変数を、それぞれX1、X2とし、該確率変数は二つの状態をとる。また、システムは正常、異常の二つの状態をとり、その確率変数をX3とする。各状態は、0と1で表す。
センサが1の状態である場合、システムが異常である可能性が高いことを示すことを定義する。例えば、X1は温度センサで、ある値より高い温度を示す場合にはX1=1、X2は音センサで、通常とは異なる音を検知した場合にはX2=1となる。このことは、二つのセンサがシステムの正常、異常の判定に有効な場合、図18(A)の構造1801が表す構造になる。構造1801及び確率表1802が与えられた場合、これから得られる観測データは、例えば、表1803によって表される。表1803の各行が一つの観測データであり、各センサが異常を表す場合、システムが異常である可能性が高い。
ここで、図18(A)に示す例と比較して説明する。表1803に示すようにX1、X2、X3の観測データが与えられている場合、このデータに合致する構造1801を構築する。実施例の場合、X1、X2、X3などの確率変数が、整形情報の項目に相当し、一つの観測データが、一つの健保加入者IDのデータに相当する。
ここで、確率変数がN個存在する場合に、確率変数間のエッジの有無を考えると、前述したモデルは、二つの確率変数の組み合わせがN個から2個を選択する組み合わせの数(Mとする)だけ存在する。このため、ノード間のエッジの有無は2のM乗通りとなる。エッジの方向も考えると、モデルの種類はさらに多くなる。そのため、全ての可能性を調べることは不可能である。そこで、ベイジアンネットワークと称される構造に限定することで、データを表現するために適した構造を探索する方法がある。
ベイジアンネットワークは、全てのエッジが有向辺である構造であり、有向辺を辿って、ある変数X1からある変数X2に至るルートが複数存在しないネットワークである。例えば、図19(A)に示す構造1901はベイジアンネットワークであり、図19(B)に示す構造1902はベイジアンネットワークではない。
ベイジアンネットワークの構造をデータから自動学習するための様々な方法が提案されているが、この方法を用いても、ノード数が多くなると、全ての可能性を調べるのは困難である。また、第1の実施例で扱うような、規模が大きく、種類や質が異なるデータが混在する場合には、精度の良いネットワークを自動的に学習することは困難である。
そこで、第1の実施例のグラフィカルモデル構造算出部208は、まず、レセプト、健康診断、問診の各項目の特徴に基づいて、ノード間のエッジとして因果及び遷移関係を定義する。次に、項目間の定量依存度及び共起依存度の二つの依存度に基づいて、ノード間の依存度を計算する。そして、依存性が低いノード間のエッジを削除する。第1の実施例のグラフィカルモデルでは、病態の因果を表すエッジ及び病態の遷移を表すエッジの2種類のエッジを考える。
以下では、図20を用いて、因果・遷移構造算出部109の処理について説明する。
図20(A)の因果・遷移構造定義ステップ2001では、レセプト、健康診断、問診の各項目の特徴に基づいて、ノードを分類し、分類したノード間のエッジとして因果及び遷移関係を定義する。第1の実施例のモデルは、病気の因果を記述し、病態の遷移(発症)を予測することを目的とする。そこで、項目を、傷病名、医療行為、検査値、生活習慣、基本情報に関する項目に分類する。
傷病名は、レセプト整形情報の傷病名コード1503、1504の項目群であり、医療行為はレセプト整形情報の診療行為コード1505及び医薬品コード1506の項目群である。検査値は健診整形情報で得られる検査値の項目群である。生活習慣は、問診整形情報で得られる問診の、生活習慣と自覚症状に関する項目群である。基本情報は、年齢、性別である。
前述した項目の分類に基づいて、ノードを分類する。すなわち、ノードがレセプト情報、健診情報及び問診情報の項目に対応する場合、その項目が所属する分類に分け、ノードが複数の項目を統合した項目に対応する場合、統合された項目が所属する分類に分ける。以上により、ノードは、傷病名、医療行為、検査値、生活習慣及び基本情報に分類される。
以下では、処理を説明するために、いくつかの代表的な項目について、図を用いて説明する。図において、傷病名コード10(傷病名)、医薬品コード110(医療行為)、医薬品コード120(医療行為)、血糖値(検査値)、などをノード(確率変数)とする。括弧内は、ノードが属する分類を表す。また、図においては分かりやすくするために、医薬品コード120(医療行為)などのノードを、そのノードを表すより分かりやすい用語に置き換えて、「糖尿病経口薬(医療行為)」などとして表す。
第1の実施例のモデルは、今年の個々人のデータから、将来の病気の遷移(発症)確率や医療費を予測し、及び/又は、病気の遷移の原因を特定することが目的とする。そのため、翌年の医療行為を予測したい。このとき、今年の医療行為の状況は翌年の医療行為を予測する有用な情報であると考えられる。そのため、図21(A)に示す構造2101のように、今年の医療行為のノードと翌年の医療行為のノードとの間は今年の項目から翌年の項目へのエッジを作成する。図21(A)に示す構造2101は、翌年インスリンを処方される確率が今年の糖尿病経口薬を処方されている確率、インスリンを処方されている確率、及び透析を処方されている確率に依存することを示す。一般的に、糖尿病の症状が重症化すると、医療行為が経口薬、インスリン、透析の順に処方される。
このモデルの条件付確率は、図21(B)に示す表2102及び図21(C)に示す表2106のような2年分のレセプト整形情報のデータを用いることによって算出できる。これによって、今年経口薬の処方のみを受けている人が、翌年のインスリンの処方、又は透析の処方を受ける確率を計算できる。このような複数年に及ぶ同一分類項目同士の依存関係を遷移と称し、その他の関係を因果と称する。
ここで、遷移の確率は、個人の検査値や生活習慣に依存して、異なると考えられる。例えば、今年、糖尿病経口薬が処方されている人が、翌年インスリンを処方される確率は、血糖値が高い人の方が高確率であると予想される。このように、個人のより詳しい情報が得られることによって、より厳密な遷移の確率を得ることができる。
また、翌年の各医療行為を処方される確率は、今年の検査値にも依存すると考えられるため、今年の検査値から翌年の医療行為への有向辺を定義する。同様に、生活習慣も、翌年の医療行為に影響を及ぼすと考えられるため、今年の生活習慣から翌年の医療行為への有向辺を定義する。以上の定義を、図22(A)の構造2201に示した。
さらに、医療費は医療行為に基づいて計算されるため、医療費を予測する場合、今年の医療行為から翌年の合計点数(医療費)への有向辺を定義する。さらに、医療費の精度を向上させるため、今年の合計点数から翌年の合計点数への有向辺を定義する。以上の定義を、図22(B)の構造2202に示した。
以上の因果・遷移関係のエッジをまとめると表2301のようになる(図23(A)参照)。表2301は、行項目が親であり、列項目が子であり、親子間にエッジがある場合には遷移又は因果を記載しており、エッジがない場合は空白である。このモデルは、今年の検査値、生活習慣及び医療行為から翌年の医療行為を予測し、今年の医療行為、翌年の医療行為の予測結果、及び今年の医療費から、翌年の医療費を予測するモデルである。図38(A)は、各分類に属するノードをひとつの○で表し、分類間のエッジを模式的に表した。
因果・遷移関係の他の定義を、図23(B)及び図23(C)に示す。
図23(B)に示す表2302によって表されるモデルでは、今年の検査値及び今年の生活習慣から翌年の検査値を予測し、翌年の検査値に基づいて翌年の医療行為を予測する。
図23(C)に示す表2303によって表されるモデルは、表2301及び表2302のモデルをハイブリッドしたタイプで、今年の生活習慣及び今年の検査値から翌年の検査値を予測する。また、今年の検査値、今年の医療行為及び予測した翌年の検査値から翌年の医療行為を予測する。
図23(B)、図23(C)に示す因果・遷移関係に対応する分類間のエッジを、図38(B)、図38(C)に模式的に表した。
ここでエッジの方向について説明する。図38(A)、(B)、(C)に示すように、エッジは、生活習慣から検査値の向きに定義される。これは、生活習慣の結果が検査値に影響を及ぼすことを表している。また、同様に、エッジは、生活習慣から医療行為の向き、及び生活習慣から合計点数の向きに定義される。これは、生活習慣の結果が医療行為及び合計点数に影響を及ぼすことを表している。また、エッジは、検査値から医療行為の向き、及び検査値から合計点数の向きに定義される。これは、検査値の結果が医療行為及び合計点数に影響を及ぼすことを表している。また、エッジは、医療行為から合計点数の向きに定義される。これは、医療行為が合計点数に影響を及ぼすことを表している。さらに、エッジは、X年の分類からX+n年の分類の向きに定義される。前述したペアの他に、これらの組み合わせを用いて構造を定義してもよい。
図20(A)の因果・遷移構造定義ステップ2001において、基本情報である年齢と性別は、全ての項目に広範に影響を及ぼす項目であるために、年齢及び性別毎に区切って別のモデルを作成するとよい。例えば、男女別で、5歳毎に区切って、モデルを作成するとよい。年齢及び性別毎に別のモデルを作成せず、一つのモデルのみを作成する場合、今年の基本情報から全ての翌年の項目に対して有向辺を定義する。医療行為、検査値、生活習慣、合計点数以外の項目は、モデルから除外するか、又は、今年の当該項目から翌年の全ての項目に対して有向辺を定義する。
以上の処理によって、異なる分類に属するノード間のエッジの有無の方向が定義される。例えば、図23(A)に示すモデルに従う場合には、X年の検査値の分類に属するノードからX+n年の医療行為の分類に属するノードに向かって有向辺が定義される。また、X年の生活習慣の分類に属するノードから、X+n年の生活習慣の分類に属するノードにはエッジが定義されない。
以上により、因果・遷移構造定義ステップ2001の処理の説明を終える。以下では、期間が異なるノードは、異なる分類に属するものとして扱う。つまり、X年の検査値の分類と、X+n年の検査値の分類とは異なる分類として扱う。
次に、因果・遷移構造定義ステップ2001で定義された異なる分類に属するノード(確率変数)間の遷移、因果エッジのうち、当該確率変数間の依存度を計算し、依存度が低い確率変数間のエッジを削除する。
ノード間依存度算出ステップ2002では、ノード(確率変数)間の依存度を算出する。このとき、各ノードは、それぞれ性質の異なる値をもつ。例えば、BMI、空腹時血糖などの検査値は連続値であり、その値のスケールも異なる。また、レセプト整形情報の医療行為の項目は、処方の回数を表す整数値である。また、問診の、例えば、自覚症状の回答番号は、定量的な意味を有さない値である。さらに、欠損している値がある。このような状況で、性質の異なる変数同士の依存度を比較するための方法が必要である。
第1の実施例では、定量依存度基準及び共起依存度基準の二つの基準を用いて、ノード間の依存度を計算する例を示す。定量依存度基準は、定量的に意味を有する値同士の類似度を計算するための基準であり、共起依存度基準は、定量的な意味を有さない値同士、又は、定量的な意味を有する値と定量的な意味を有さない値との類似度を計算するための基準である。
まず、定量依存度の計算方法について説明する。いま、二つの確率変数X1、X2の依存度を計算する。X1、X2の観測データとして、それぞれx1=(x11,x12,…,x1n)、x2=(x21,x22,…,x2n)が与えられている。以下に説明する定量依存度は、x1とx2とをベクトルと考えたときの相関係数に基づく例である。
ここで、ベクトルx1とx2との相関係数をr(x1,x2)とする。ところが、x1、x2には欠損値があるため、x1、x2のいずれかで欠損値がある要素を取り除く。例えば、x1iが欠損している場合には、x2iを取り除く。このようにして、x1、x2から欠損次元を取り除いたベクトルを改めてv1=(v11,v12,…,v1m)、v2=(v21,v22,…,v2m)とする。
ところで、相関値r(v1,v2)の値は、v1、v2の値の性質の違いによって、同程度の依存性を有しているとしても、その値にずれが生じる。従って、まず、v1、v2の要素を、独立にランダムに並べなおしたベクトルをw1、w2には依存度がないことが想定できる。これを用いて、|r(v1,v2)|−|r(w1,w2)|を計算する。|r(v1,v2)|<|r(w1,w2)|である場合、定量依存度はないと判断できる。このため、この場合の定量依存度を0とし、それ以外の場合の定量依存度を|r(v1,v2)|−|r(w1,w2)|とする。これによって、ランダムな場合(依存性がない場合)と比較した定量依存度を計算することができる。
ここで、定量依存度は定量的な値を有するデータ同士の比較に有効である。例えば、図20(B)に示す例2005では、x1とx2との間で明らかに定量的な相関がある。また、図20(C)に示す例2006でも、x1とx2との間で、例2005と比べて小さいが定量的な相関がある。問診の回答番号などの場合、このような状況が想定できる。そこで、値同士が共起する度合いを測る指標として共起依存度が必要となる。
共起依存度の計算方法について、二つの確率変数X1、X2の依存度を計算する場合を例にして説明する。
X1、X2の観測データとして、それぞれx1=(x11,x12,…,x1n)、x2=(x21,x22,…,x2n)が与えられている。以下に説明する共起依存度は、x1とx2とのエントロピーに基づく例である。
まず、定量依存度の場合と同様に、欠損値を取り除いたベクトルをv1、v2とする。次に、ベクトルv1、v2の要素対の集合をS={(v1i,v2i)}(iは1からmの整数値)とする。Sの要素数はm個である。Sの要素p=(p1,p2)に対して、pと等しいSの要素の個数をnpとする。また、Sの異なる要素の数をLとする。このとき、Lで正規化したv1、v2の対のエントロピーを下式で表す。
e(v1,v2)=Σ[(−np/m)log(−np/m)]/L
ここで、ΣはSの全ての要素pの和である。定量依存度の場合と同様に、ランダム化したw1、w2についても、e(w1,w2)を計算する。e(v1,v2)は、正の値とし、v1、v2の共起度が大きいほど、小さい値となる。そのため、ランダムな場合で正規化したe(v1,v2)/e(w1,w2)が1より大きい場合、v1とv2とには依存関係がないと判断できる。また、e(v1,v2)/e(w1,w2)は0以上の値である。そこで、e(v1,v2)/e(w1,w2)が1より大きい場合の共起依存度を0とし、それ以外の場合の共起依存度を1−e(v1,v2)/e(w1,w2)とする。
前述のように定義した定量依存度及び共起依存度は0以上1以下の値であり、値が大きいほど依存度が大きくなる。これを、因果・遷移構造定義ステップ2001において定義されたエッジをもつ全ての確率変数のペアについて計算する。以下、定量依存度をQとし、共起依存度をCとする。
図20(A)の依存度キャリブレーションステップ2003において、定量依存度Qと共起依存度Cの値を補正する。補正関数fは、f(C)によって表す。補正がスケール変換のみの場合、fは一次関数でもよいし、より複雑な関数でもよい。fが二次関数である場合、下式で表すことができる。
f(C)=αC*C+βC+γ
ここで、fのパラメータ(上記の場合にはα、β、γ)を定める方法を説明する。例えば、図20(B)(C)に示す例2005の場合と2006の場合では、例2005のx1、x2の定量依存度Q(x1,x2)の値と、例2006の共起依存度C(x1,x2)の値は近いことが望ましい。そこで、様々な定量依存度を有するベクトルx1、x2の複数の組み合わせを準備し、Q(x1,x2)を計算し、そのうち、x2の値をランダムに変更したx2を準備しC(x1,x2)を計算する。Q(x1,x2)とf(C(x1,x2))は近い値となることが望ましいので、例えば、f(C(x1,x2))とQ(x1,x2)の最小二乗誤差が小さくなるように、fのパラメータを定める。例2005と例2006とでは、例2006のx2は、例2005のx2の値を、0→1、1→0、2→3、3→2に変換したものである。
以上により、依存度をD=max{Q,f(C)}によって定義する。
図20(A)の低依存ノード間エッジ削除ステップ2004において、因果・遷移構造定義ステップ2001で定められたエッジのうち、Dが予め定めた閾値より小さいノード間のエッジを削除する。
以上により、異なる分類に属するノード間のエッジの方向と有無とが定義される。すなわち、ノードN1とノードN2とが異なる分類に属するノードである場合、因果・遷移構造定義ステップ2001で、ノードN1とノードN2との間のエッジが定義されており、かつ、ノードN1とノードN2との依存度が予め定めた閾値以上である場合、ノードN1とノードN2との間に因果・遷移構造定義ステップ2001で定義されたエッジが定義される。それ以外の場合、ノードN1とノードN2との間にはエッジが定義されない。
制限付き構造学習ステップ2007では、最終的なノード間のエッジ構造を決定する。ここでは、三つの例を説明する。
まず、第1の例を説明する。第1の例では、低依存ノード間エッジ削除ステップ2004までの処理によって定義された異なる分類に属し、依存度が閾値以上のノード間のエッジのみを、最終的な病態遷移・因果モデルのエッジとする。このとき、同一期間かつ同一分類に属するノード間のエッジは定義されない。
第2の例を説明する。異なる分類に属するノード間は、第1の例の方法によって定義し、同一分類に属するノード間のエッジ構造を既存の構造学習方法を用いて学習する。学習の結果構築されるエッジ構造を、例えば、ベイジアンネットワークの構造に限定することによって、効率的に学習できる。これにより、同一分類に属するノード間にエッジの有無が定義され、さらにエッジが有向の場合は、エッジの方向が定義される。また、異なる分類間のエッジ構造はすでに定義されている。以上の処理で作成されるエッジ構造は、同一分類に属するノード間の構造がベイジアンネットワークの構造であっても、全体としてはベイジアンネットワークの構造になるとは限らない。
第3の例を説明する。低依存ノード間エッジ削除ステップ2004までの処理によって定義されたエッジに基づいて、異なる分類に属するノード間のエッジの有無と方向を制限する。ノード間にエッジが無い場合、無向エッジがある場合、有向エッジ(方向により2通り)がある場合の4通りの定義がある。これに対して、異なる分類に属するノード間には、低依存ノード間エッジ削除ステップ2004までの処理によってエッジが定義されている場合、ノード間にはエッジが無い又は同一の方向のエッジが存在するの2通りに制限する。また、低依存ノード間エッジ削除ステップ2004までの処理によってエッジが無い場合、ノード間にはエッジが無いと制限する。この制限の下で、ノード全体のエッジ構造を既存の構造学習方法を用いて学習する。
なお、上記の第2の例、第3の例において、既存の構造学習方法を用いてノードの値を離散化する必要がある場合、後に、ノード生成部209において説明する人数の割合により離散化する方法を用いてもよい。
以上で、因果・遷移構造算出部109の処理が終わる。これにより、ノード間の構造(エッジ)が定まる。
ノード生成部110は、確率テーブル算出部111で確率テーブルを作成するために、ノードの事象空間を定義し、ノードを集約する。ノードには検査値のように連続値がある。また、レセプトの医療行為の値は処方回数とした場合、この処方回数の粒度が細かいと予測精度が低下する。このため、適切な粒度で離散化するとよい。例えば、各処方回数を別に扱うと、各処方回数の事例数が少なくなり、確率テーブルの精度が低下したり、確率テーブルの作成が困難になる等の問題がある。
なお、予め人手で事象空間を定義してもよい。例えば、体重は、5kg区切りで表すことにして、対応するノードの事象空間は、{…,50〜54,55〜59,…}としてもよい。この場合には、50kg台から54kg台の体重値をまとめて1つの事象として扱う。
さらに、別の事象空間の定義の例を説明する。前述した方法では、ノードごとに事象空間を定義する必要がある。例えば、身長及び体重は、その値の意味やスケールが異なるため、異なる区切りを定義する必要がある。ここで説明する例では、人数の割合で値を区切る。そのため、ノードに依存しない一律の方法によって事象空間を定義することができる。具体的には、k%刻みとし、下位p%〜p+k%を一纏めにする。例えば、5%刻みで、体重の全加入者の体重における下位5%がw1キログラム以下、下位5%〜10%までがw1キログラム〜w2キログラムなどとすると、事象空間は、{〜w1,w1〜w2,…}となる。5%刻みの場合、状態数が20となる。
また、ノードは集約しなくてもよい。前述した方法で事象空間を与え、ノードを集約しない場合、確率テーブル算出部111の処理に進む。ノードを集約しない場合、条件付確率を計算するための事例数が0となる場合がある。このため、これを推定するための処理が必要となるが、この処理は後述する。
次に、ノードの事象空間の定義と、ノードの集約を行う例を説明する。
まず、ノードの事象空間の定義について説明する。ノードの事象空間は、確率変数のとる状態(値)を定義するもので、対応する項目の値空間の離散化により作成する。
次に離散化の方法について説明する。第1の実施例では、ノードの離散化は、二つの基準を用いて行う。第1の基準は、離散化後の当該ノードの各状態に対する事例数が十分に得られるように離散化する。離散化が粗い方が、十分に事例数が十分に得られるため、統計的に信頼性の高い確率テーブルを作成することができる。一方で、離散化が粗すぎると、子ノードの確率分布の当該ノードの状態に対する依存性を十分に表現できなくなる。そこで、第2の基準は、子ノードの条件付確率分布の離散化後の当該ノードの状態に対する依存性の表現を失わないように離散化を行う。
図25は、ノードを離散化する処理のフローチャートである。以下では、事例数を優先しつつ、子ノードの確率依存性の表現を失わないように、ノードを離散化する処理の例を説明する。
まず、離散化の必要性を、図17(A)に示す例1701を用いて説明する。
モデルを作成するためには、X1の確率テーブル1702及びX2の確率テーブル1703を作成する必要がある。例えば、確率テーブル1703のa22はX1=2であるときにX2=2となる確率であるが、これには、X1=2かつX2=2である十分な数の事例数が必要である。X1の粒度が細かいと、事例数が少なくなり、場合によっては0となる。十分な事例数がないため、確率値が予測できない又は確率値の信頼性が低下する等の問題がある。このため、適切な粒度へ離散化する必要がある。また、X1=1かつX1=2である場合、X2の確率分布P(X2|X1=1)とP(X2|X1=2)の確率分布がほぼ同じである場合、状態X1=1とX2=2とは、纏めて一つの状態とした方が、事例数や計算量の観点で有利である。
まず、離散化後の当該ノードの各状態に対する事例数を十分に得るための離散化方法について説明する。
注目しているノードをX1とし、その子ノードをX2とし、X2は既に適切に離散化されている。図24に示す事例数2401は、X1の各状態における事例数である。左から右に向かって、状態を表す値が大きくなっている。検査値などは、意味としては連続値であるが、有効桁の粒度まで細かく分けると、離散的に表されるため、このように表すことができる。例えば、BMI値が小数点2桁までの精度で表されている場合、2401の最左端の欄は0.00〜0.01の事例数、左から2番目の欄は、0.01〜0.02の事例数、…、などである。
まず、最小値状態選択ステップ2501で、X1の最左端の状態を選択する。ここで、事例数2402は、X1が最小の値で表される状態である場合のX2の各状態の事例数である。事例数2402も、2401と同様に、左から右に向かって状態を表す値が大きくなる。同様に、事例数2403は、X1が最小の値より一つ大きい状態をとる場合のX2の各状態の事例数である。
以下の説明では、現在選択されている状態をSとする。Sの初期状態は、X1の最小の値で表される状態である。
ステップ2502では、X1=Sとなる条件付のX2の各状態の事例数を所定の閾値と比較する。事例数が所定の閾値より小さい場合、事例数が不十分であると判定し、右隣の状態と結合する(2503)。右隣の状態がない場合には、左隣の状態と結合してもよい。X1の左の二つの状態をまとめると、事例数は、図24に示す事例数2404、2405となり、纏められたX1の状態の事例数が増加する。その後、結合された状態をSとし、ステップ2502に戻る。但し、全状態が結合され、状態が一つになった場合は、処理を終了する。
一方、事例数が十分である場合、Sを完了状態とし、ステップ2504において未完了状態(右隣の状態)があるかを調べる(2504)。未完了状態がある場合、この状態をSとし、ステップ2502に戻る。一方、未完了状態がない場合、ステップ2505に進む。
この処理によって、各状態が安定した事例数をもつように離散化することができ、事例数2407のような離散化が得られる(図24参照)。
さらに、子ノードの親ノードに対する確率依存性を失わないように離散化する。具体的には、事例数2407の左端の状態0と、その隣の状態1とを選択し(2505)、P(X2|X1=0)とP(X2|X1=1)の二つの確率分布に大きな違いがない場合(2506でNO)、状態0と状態1とを結合する(2507)。この処理を確率分布に違いが出るまで繰り返す。次に、X1の右隣の状態に移り(2508でYES)、同様の方法によって状態を結合する。P(X2|X1=0)とP(X2|X1=1)とが違うかは、例えば、P(X2=a|X1=0)とP(X2=b|X1=0)とが予め定めた閾値以上の差があるX2の状態aとbとが存在する場合、確率分布に大きな違いがあると判定する。
具体的には、ステップ2501で結合後の最小の二つの状態、事例数2407の例では、左端の状態と、その隣の状態を選択する。選択された状態を、それぞれ、S1、S2とする。次に、ステップ2506では、P(X2|X1=S1)とP(X2|X1=S2)との違いを前述したように判定し、両者の違いがなければステップ2507に進む。ステップ2507では、S1の状態とS2の状態を結合し、結合した状態を新たにS1として、ステップ2508に進む。ステップ2506で確率分布に大きな違いがなければ、S2を新たにS1として、ステップ2508に進む。ステップ2508では、S1の右隣の状態があれば、その状態をS2として、ステップ2506に進む。S1の右隣の状態がなければ、処理を終了する。
前述した処理によって、子ノードX2が離散化されている状態で、X1を離散化することができる。
そこで、子ノードをもたないノードである葉ノードから順に離散化を行う。医療費を示す合計点数ノードがある場合、合計点数ノードが葉ノードとなる。合計点数ノードは、予測のために必要な粒度が得られるように、予め離散化する。また、合計点数ノードがない場合、医療行為に関するノードが葉ノードとなる。この離散化方法も予め定めておく。例えば、処方の有無によって区別する場合、0と1以上との二つの状態で離散化する。より細かい粒度が必要な場合、例えば、0、1〜5、6以上の三つの状態などで離散化する。
以上によって、帰納的に葉ノードから順番に根ノード(親をもたないノード)に向かって離散化する。
次に、ノード生成部209では、ノードを集約する。
既に述べたように、離散化では、子ノードとの関係だけを見て離散化を行った。しかし、図26(A)に示す構造2601のように、あるノードが二つ以上の親をもつ場合、確率テーブルは、親ノード全ての確率変数の状態の組み合わせに対する事例が必要となる。例えば、図26(A)に示す場合、X4には、三つの親ノードX1、X2、X3がある。この場合には、X1、X2、X3の全ての状態の組み合わせに対して事例が必要となる。そのために、図26(B)に示すように、親ノードを集約化し、集約化されたノードの状態を結合する。
図27は、ノードを集約化する処理のフローチャートである。
あるノードを集約化、状態を結合することを考える。まず、ステップ2701において、親ノードの全ての状態の組み合わせに予め定めた数以上の事例数があるかを判定する。事例数が十分であれば、この処理を終了する。
事例数が十分でない場合、最大依存度ペア集約ステップ2702において、ノード間依存度算出ステップ2002と同じ方法によって、親ノード同士の依存度を算出し、最大の依存度をもつノードのペアを選択する。依存度が高く、類似したノードは、子ノードに及ぼす影響が類似していると考えられる。このため、依存度が高い二つのノードを集約し、新たなノードとする。元の二つのノードの状態数がn1、n2である場合、新たなノードの状態数は、二つのノードの状態の組み合わせであるn1×n2個となる。ノードX2とノードX3とがノードX5に結合された状態を構造2602に示す(図26(B))。
次に、状態結合ステップ2703において集約したノードの状態を結合する。集約したノードの状態結合処理について、図28及び図29を用いて説明する。
図28は、図24と同様に、ノードの状態を表す。但し、図24と異なり、X5の状態はX2とX3との組み合わせなので、状態2801にように二次元で表される。左から右に向かってX2の値が大きくなり、上から下に向かってX3の値が大きくなるように事例数を配置する。
まず、左上端状態選択ステップ2901において、左上端の状態を選択する。すなわち、X2及びX3がともに最小の値となる組み合わせである。以下では選択されている状態をSとする。最初は、Sは左上端の状態である。次に、ステップ2902で、X5=Sの条件付で、X4の各状態の事例数を調べ、十分な事例数があるかを判定する。X4の各状態の事例数が十分である場合、この状態に関する処理は完了し、ステップ2905に進む。ステップ2905では、未完了の状態を2801の一番上の段から下に向かって、また各段の左端から右端に向かって探索し、最初に見つかった未完了の状態をSとして、2902に戻る。
一方、X4の各状態の事例数が不十分である場合、最適隣接状態選択ステップ2903において、結合に最適な隣接状態を選択する。隣接状態は、現在選択されている状態と上下左右で隣接している未完了の状態で、これらの状態のうち、結合した場合に、子ノードX4の条件付確率分布への影響が小さいものが、結合に最適な状態である。未完了の状態がない場合、隣接する完了している状態のうちから最適な状態を選択し、選択された状態と結合する。結合後の状態を新たにSとおき、ステップ2902に戻る。
ステップ2903における子ノードX4への条件付確率分布への影響の計算方法の例について説明する。いま、選択されている状態をaとし、隣接状態をbとし、I(b)=max|P(X4=s|X5=a)−P(X4=s|X5=a)|とする。maxは、全てのX4の状態sに対する隣接状態bのうちI(b)の値が最も小さいものを最適状態として選択する関数である。
以上で、状態は二次元的に結合される。この様子を状態2804に模式的に示す。状態2804では、結合された状態の間の罫線を削除して示す。
この処理を葉ノードから根ノードに向かって帰納的に繰り返すことによって、ノードの集約が完了する。これにより、親ノードの状態数を組み合わせることによって事例数が少なくなり、予測が困難にできなくなる、又は、予測精度が低下する問題を解決することができる。
次に、ノード生成部110が、ノード集約後の因果・遷移構造を作成する。ノード生成部110は、集約されるノードを削除し、集約によって新たに作成される集約ノードを挿入する。このとき、被集約ノードのすべての親ノードを集約ノードの親ノードにする。例えば、図31に示すように、元の構造3101(図31(A))から、X2及びX3が集約され(図31(B))、新たにX5として挿入された構造3103が得られる(図31(C))。
最後にノード生成部110では、この構造の情報を因果遷移モデル記憶部119に、このノードの集約と状態結合の情報をノード情報記憶部120に記憶する。図32に因果遷移モデル記憶部119に記憶される情報の例を示す。テーブル3201は、構造3103の情報を表し、各ノードの親のノードを示す。図30にノード情報記憶部120に記憶される情報の例を示す。状態結合情報3001は、ノードの状態結合を示し、離散化する処理(図25)によって生成される。状態結合情報3001によると、BMI値の18.01〜20.00までの範囲の値が一つの状態である。被集約ノード情報3002は、集約ノードと被集約ノードとを示す表である。被集約ノード情報3002によると、集約ノード1は、身長ノードと体重ノードとを結合したものである。集約ノードの状態結合情報は、状態結合情報3001と同様である。
確率テーブル算出部111は、ノード生成部110で作成され、因果遷移モデル記憶部119に記憶されている構造の条件付確率テーブルを作成する。これは、各ノードXの親ノードをX1、X2、…、Xnとすると、P(X|X1,X2,…,Xn)をX、X1、…、Xnの各状態について計算することである。
図31(C)の構造3103を例にして処理を説明する。いま、P(X5|X6,X7)を作成することを考える。X5、X6、X7はいずれも0と1との二つの状態をとる場合、P(X5=a|X6=b,X7=c)で、a、b、cを0と1とに変化させた8通りの値を計算する必要がある。例えば、P(X5=0|X6=0,X7=0)を計算する際に、まず、X6=0、X7=0となる全ての事例を抽出する。抽出された事例数をpとする。次に、このp個の事例のうちX5=0となる事例数をqとする。このとき、P(X5=0|X6=0,X7=0)=q/pとなる。
例えば、X6がX年の血糖値、X7がX年の糖尿病経口薬処方の有無、X5がX+n年のインスリン製剤処方の有無であり、処方ありを1で表す。このとき、X年に糖尿病経口薬の処方があり、糖尿病の値がSで表される値にある加入者をp人、このp人のうちn年後にインスリン製剤の処方を受けている加入者の人数をq人とする。このとき、P(X5=1|X6=S,X7=1)=q/pとなる。
事例数がなく、条件付確率が計算できない場合、例えば、一様分布によって置き換えてもよい。前述した例で、p=0となった場合、P(X5|X6=S,X7=1)が計算できない。そこで、X5の分布は一様であるとして、前述した例のようにX5が2値をとる場合には、P(X5=1|X6=S,X7=1)=1/2、P(X5=0|X6=S,X7=1)=1/2とする。
確率テーブル算出部111は、この確率値を全てのノードについて計算し、作成した確率テーブルを因果遷移モデル記憶部119に記憶する。
以上が、病態因果・遷移モデル作成部108の処理である。
次に、発症確率・医療費予測部112について説明する。発症確率・医療費予測部112は、モデル再構築部113、病態遷移確率・医療費予測部114及び保健指導支援部115を有する。
モデル再構築部113は、保健指導支援部115からの要求に応じて、ユーザの目的に応じたモデルを、因果遷移モデル記憶部119に記憶されている因果遷移モデルから再構築する。再構築されたモデルは、再構築モデル記憶部121に記憶される。病態遷移確率・医療費予測部114は、モデル再構築部113で作成された再構築モデルを用いて、発症確率や医療費を予測する。予測結果は、予測結果記憶部122に記憶される。
まず、モデル再構築部113の処理について説明する。
病態因果・遷移モデル作成部108で作成したモデルは多数のノードが互いに関係する大規模なモデルである。しかし、ユーザが興味があるのは、通常、このモデルの一部である。従って、モデル再構築部113は、ユーザに必要なノードに関係するモデルのみを再構築する機能を提供する。これによって、計算量が削減できるだけでなく、ユーザにとって扱いやすいモデルとなる。
また、ユーザの要求に応じて、最初からモデルを構築する場合、多数の計算量が必要となる。しかし、再構築の計算コストは小さい。そこで、第1の実施例のような精緻なモデルを作成する病態因果・遷移モデル作成部と、目的に応じたコンパクトなモデルを再構成するモデル再構築部の2段階の構成によって、大規模なデータから得られる情報を、効率的かつ有効に活用することができる。また、システムを図3、図4、図5に示すように別の装置で構成した場合、ユーザは図5に示す装置のみを用いればよい。一度、図3、図4に示す装置がモデルを作成した後、ユーザが用いる図5の装置は、モデル作成の基となった医療データを保持する必要がないため、個人情報の隠匿及び漏洩の防止に有効である。
モデル再構築部113は、保健指導支援部115の要求に応じて、ユーザの目的に応じたモデルを再構築する。すなわち、モデル再構築部113は、再構築モデルに含めたいノードのリストが与えられたときに、このノードに関するモデルを構築する。ノードのリストは、集約前のノードである。すなわち、整形情報の項目に対応するノードである。例えば、糖尿病関連の病態因果及び遷移に注目する場合、関連する医療行為に関する項目、検査値及び問診結果をノードのリストとする。
まず、ノード生成部110でノードの集約がなく、病態因果・遷移モデル作成部108で作成されたグラフィカルモデルが有向グラフである場合のモデル再構築部113の処理について説明する。
ノードのリストとして、N1、N2、…、Nkが選択されている。まず、エッジ構造は、病態因果・遷移モデル作成部108で作成されたモデルにおいて、NiからNjへの有向エッジを辿るルートが存在する場合にはNiからNjへの有向エッジを設定し、NjからNiへの有向エッジを辿るルートが存在する場合にはNjからNiへの有向エッジを設定し、それ以外の場合にはエッジなしとする。次に、これによって定義される条件付確率はリストにないノードの周辺化によって求める。
例えば、図36に示すモデルが元のモデルで、X1とX3がノードのリストとして与えられている。このとき、X1からX3への有向エッジのルートがあるため、再構築モデルでは、X1からX3への有向エッジが作成される。条件付確率P(X3|X1)は、元のモデルからX2を周辺化することによって与えられる。すなわち、P(X3=s3|X1=s1)=ΣP(X3=s3|X2=s2)P(X2=s2|X3=s3)となる。ここで、ΣはすべてのX2の状態s2についての和である。
ノードの集約がある場合のモデル再構築部113の処理について、図33に示す例に基づいて説明する。構造3301が、病態因果・遷移モデル作成部108で作成され、因果遷移モデル記憶部119に記憶されているモデルである。X2及びX3は集約されX5となっている。また、ノードのリストとして、X3、X4、X8が与えられている。このとき、再構築モデルのノードとして、因果遷移モデル記憶部119に記憶されているモデルから、与えられたノード、及び、そのノードを集約したノード、すなわち、構造3103ではX5、X4、X8を選択する。
次に、モデル再構築部113は、X5、X4、X8のみを含むモデルを再構築する。このとき、再構築モデルのノードとして選択されたノード間を結ぶルートがあれば、再構築モデルでも、そのノード間に有向辺を構成する。構造3302の場合には、構造3303のようになる。
次に、再構築モデルを完成させるために、条件付確率を計算する。P(X4|X5)の計算の例を説明することにより、処理について説明する。P(X4|X5)は、ΣP(X4|X1=s、X5)によって計算できる。ここでΣはX1の全ての状態についての和である。その他の場合にも、因果遷移モデル記憶部119に記憶されているモデルより条件付確率を求めることができる。
以上により、ノードの集約がある場合、ノードのリストとして選択されたノード、及び、ノードが集約されている場合には集約後のノードから構成されるモデルを再構築する。その後のエッジの定義及び条件付確率の算出は、ノード集約がない場合と同様である。
なお、モデル再構築部113は、全ノードをリストとして指定された場合、再構築をする必要がないので、病態因果・遷移モデル作成部108で作成したモデルを用いる。また、病態遷移確率・医療費予測部114が予測に用いるモデルは、病態因果・遷移モデル作成部108で作成したモデルを用いて、モデル再構築部113は、保健指導支援部115において表示装置に表示するネットワーク図のみを再構築モデルにしてもよい。その場合のネットワーク図や確率テーブルは、前述した再構築モデルに基づく。
病態遷移確率・医療費予測部114は、モデル再構築部113が再構築したモデル、又は、病態因果・遷移モデル作成部108が作成し、因果遷移モデル記憶部119が記憶しているモデルを用いて、病気の発症確率や医療費を予測する。
この処理を構造3302を用いて説明する。X5=sとなる確率(例えば、X5が翌年のインスリンの処方回数に関する項目である)を求める場合、インスリンの処方回数がsで示される回数となる確率である。X1、X4、X5、X6、X7、X8の同時分布は下式によって与えられる。
P(X1,X4,X5,X6,X7,X8)=P(X1)P(X6)P(X8)P(X7|X8)P(X5|X6,X7)P(X4|X1,X5)
P(X5=s)は、下式によって与えられる。なお、ΣはX5以外の全ての確率変数の状態についての和である。
P(X5=s)=ΣP(X1,X4,X5,X6,X7,X8)
これは、確率テーブル算出部111が作成し、因果遷移モデル記憶部119が記憶している確率テーブルを用いることによって計算できる。ところで、X5以外の確率変数で、計算済みのものがある場合(例えば、X1=tである場合)には、確率変数P(X5=s)は下式によって与えられる。Σは、観測ノードX1及び予測したいノードX5を以外の全ての確率変数の状態についての和である。
P(X5=s)=ΣP(X1=t,X4,X5,X6,X7,X8)
これは、例えば、今年の健康診断の検査値が得られている場合、そのノードの状態を固定して、翌年の医療行為及び医療費を予測する場合に相当する。
以上のようにすれば、今年の情報が得られた状態で、翌年の医療行為及び医療費に相当するノードの状態を予測することができる。医療費ノードをXとしてP(X)を求めると、医療費の各点数に対して予測確率値が得られる。その期待値として、翌年の医療費を予測することができる。
前述の式は、全ての状態の和を計算するため、計算時間が大きい。これを効率的に求めるアルゴリズムが提案されており、例えば、メッセージパッシングアルゴリズムやJunction Tree Algorithmなどがある。病態遷移確率・医療費予測部114は、これらのアルゴリズムを用いてもよい。
保健指導支援部115は、将来の病気の発症を予防するための指導を支援する機能を提供する。健康保険事業者が保健指導計画を策定するための支援機能と、保健指導担当者又は対象者個人を支援する機能の二つについて説明する。
まず、健康保険事業者が保健指導計画を作成するための支援機能について説明する。健康保険事業者は、保健指導による予防効果が高い対象者を予算内で優先的に選び、各対象者に適した指導を行うことを望んでいる。健康保険事業者が提供できる保健指導サービスが複数ある(保健指導サービス1、保健指導サービス2、…、など)。例えば、保健指導サービス1は、主にBMI値を減らすための指導、保健指導サービス2はコレステロール値を下げるための指導などである。
健康保険事業者向け支援機能の処理を説明する。
図34Aは、健康保険事業者向け支援機能の処理のフローチャートである。
まず、対象疾病設定ステップ3401では、処理の対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を用いて、モデル再構築部113がモデルを再構築する。全疾病を対象とする場合、病態因果・遷移モデル作成部108が作成し、因果遷移モデル記憶部119が記憶しているモデルを用いる。
次に、保健指導サービス設定ステップ3402では、保健指導サービスの種類と、各保険指導サービスの想定効果を設定する。例えば、保健指導サービス1の想定効果は、体重5kg減などである。
次に、保健指導効果予測ステップ3403では、全ての保健指導サービスと保健指導対象候補者の組み合わせについて、医療費削減効果を予測する。まず、保健指導サービス1と保健指導対象候補者1との組み合わせについて、医療費削減効果の算出方法を説明する。
最初に、保健指導サービスを行わない場合の保健指導対象候補者1の翌年の医療費を予測する。これは、今年の保健指導対象候補者1のレセプト、健康診断及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、病態遷移確率・医療費予測部114が医療費(C1)を予測する。次に、保健指導サービスにより検査値が改善した値を、今年の保健指導対象候補者1の値に設定し、病態遷移確率・医療費予測部114が翌年の医療費(C2)を予測する。C1が保健指導を行わない場合の予測医療費、C2が保健指導を行った場合の予測医療費となるため、保健指導に必要な費用をC3とすると、医療費削減費用対効果は、E=C1−C2−C3により計算することができる。この処理を全ての保健指導サービスと保健指導対象候補者との組み合わせに対して行い、医療費削減費用対効果Eを計算する。
次に、保健指導内容策定ステップ3404では、保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費削減費用対効果が高い組み合わせを選ぶ。そして、選ばれた保健指導対象候補者を選択済みとする。次に、選ばれていない保健指導対象候補者に対する保健指導サービスと保健指導対象候補者との組み合わせのうち、最も医療費削減費用対効果が高い組み合わせを選ぶ。そして、選ばれた保健指導対象候補者は選択済みとする。このようにして、効果の高い順に保健指導サービスと保健指導対象候補者との組み合わせを選択することができる。最後に、保健指導の予算の範囲で、効果が高い組み合わせを選択し、保健指導対象者及び保健指導内容を設定する。
効果予測ステップ3405では、保健指導内容策定ステップ3404において選択された組み合わせの医療費削減費用対効果を合計し、医療費削減効果から保健指導コストを減じた値を効果として出力する。
次に、担当者及び対象者向け支援機能の処理を説明する。
図34Bは、担当者・対象者向け支援機能の処理のフローチャートである。
まず、対象疾病設定ステップ3401では、処理の対象とする疾病を設定する。例えば、三大生活習慣病である糖尿病、脂質異常症及び高血圧症を対象とする場合、レセプト整形情報の項目のうち、糖尿病、脂質異常症及び高血圧症に該当する医療行為の項目、健康診断の項目、及び問診の項目を用いて、モデル再構築部113がモデルを再構築する。全疾病を対象とする場合、病態因果・遷移モデル作成部108が作成し、因果遷移モデル記憶部119が記憶しているモデルを用いる。
対象疾病設定ステップ3401の処理の別の例を説明する。対象者又は担当者が処理を希望する疾病を選択する。すなわち、ある医療行為に対応する項目を選択する。次に、この項目と他の全ての項目との依存度をステップ2002〜2003と同様の方法によって計算する。そして、当該選択された項目と依存度が一定以上の項目を抽出し、当該選択項目及び抽出された項目のリストに基づいて、モデル再構築部113が再構築したモデルを用いる。
発症確率算出ステップ3406では、全てのノードの状態を未設定のまま、病態遷移確率・医療費予測部114が翌年の各疾病の病態遷移確率及び医療費を予測する。各疾病は、翌年の当該疾病に相当する医療行為に関するノードの処方回数が1以上である確率として求めることができる。これは、平均的な病気の発症確率と考えることができる。次に、対象者の今年のレセプト、健康診断及び問診の値に基づいて、今年の項目に対応するノードの状態を設定し、病態遷移確率・医療費予測部114が翌年の各疾病の病態遷移確率及び医療費を予測する。このときの各疾病の発症確率は、当該対象者の病気の発症確率である。そこで、各疾病に対して、対象者の病気の発症確率を平均的な病気の発症確率で除することによって、対象者の発症リスクが平均の何倍であるかを計算する。
高リスク疾病提示ステップ3407では、発症リスクが平均より予め定めた閾値以上高い疾病及びそのリスクを提示する。これによって、対象者又は保健指導担当者は、対象者の疾病リスクを知ることができる。
改善項目提示ステップ3408では、高リスク疾病提示ステップ3407において計算された高リスク疾病に対応する医療行為ノードと一定以上の依存度がある検査値を提示する。依存度は、図20(A)のステップ2002〜2003と同様の方法によって計算する。
次に、目標値ユーザ入力ステップ3409では、改善項目提示ステップ3408において提示された検査項目についての改善目標値(例えば、体重の目標値)の入力をユーザに促す。
最後に、効果予測ステップ3410では、目標値ユーザ入力ステップ3409で入力された検査項目を目標値で更新し、ステップ3406と同様の方法によって目標達成後の疾病の発症確率を予測して、発症リスクの変化を提示する。ユーザは、発症リスクの変化を見ることによって、改善目標を設定したり、自己管理に役立てることができる。
なお、保健指導支援部115では、分析に用いるモデルをネットワーク図として表示してもよい。また、発症リスクをエッジの近傍に表示してもよい。これによって、病気の状態変化の様子や、それに影響を及ぼす要因を、ユーザが容易に把握することができ、保健指導内容の作成及び保健指導による改善目標の設定などの際に有効である。
第1の実施例の構成では、病態因果・遷移モデル作成部108が、レセプト情報、健診情報、問診情報の項目に基づいたノードによって構成されるグラフィカルモデルを構築する。そして、モデル再構築部113が、目的に応じた適切な規模のグラフィカルモデルを再構築する。この構成によって、コンパクトなモデルを用いて予測を行うことができ、高速な予測が可能である。また、目的外のノードを含む大規模なモデルを扱う必要がないため、ユーザがモデルの構造を理解しやすく、可読性が向上し、分析が容易となる。
一方で、目的ごとに医療データからモデルを作成するアプローチも考えられる。しかし、この方法では、医療データを常に保持しておかなければ、様々な目的に対応できない。そのため、個人情報の隠匿の観点で問題がある。また、医療データを保持しない場合、予め用途を想定して、目的ごとのモデルを作成するため、特定の疾病などの特定の目的にしか対応できない。また、医療データからのモデルの作成は、再構築に比べて計算量が大きいため、計算量の観点でも不利である。第1の実施例の構成では、図3、図4及び図5に示すように、装置を分けることができ、図3、図4の装置を用いて一度モデルを作成しておけば、ユーザは図5の装置だけを用いてモデルを再構築し、予測を行うことができる。
因果・遷移構造算出部109は、医療費、医療行為、検査値及び生活習慣を表すノード間のエッジの方向を制限した。これは、生活習慣が検査値に影響を及ぼし、検査値が医療行為に影響を及ぼし、医療行為が医療費に影響を及ぼすことと、過去のこれらの状態が将来のこれらの状態に影響を及ぼすことを表している。このようなノード間への制限を加えることによって、構造学習の計算量を削減することができ、直観的にも理解しやすいモデルを得ることができる。
ノード生成部110は、条件付確率テーブルを作成する際の事例数の確保と、子ノードの確率分布の親ノードへの依存性の維持という二つの観点からノードを集約し、事象空間を定義する。これによって、統計的信頼性の高い条件付確率テーブルを作成することができ、予測精度を高めることができる。また、ノード(確率変数)の事象空間を小さくすることができるため、計算量の観点でも有利である。
保健指導支援部115は、再構築されたモデルを用いて将来の病気の状態や医療費を予測する。第1の実施例のモデルでは、様々な要因を考慮するので、精度の高い予測をすることができる。また、レセプト情報があれば、いずれの疾病対象にも対応できる。さらに、保険加入者の現在の検査値を、保健指導による改善想定値に置き換えて、予測をすることによって、保健指導による介入効果を予測することができる。
さらに、これらの分析に用いるモデルをネットワーク図として表示することによって、病気の状態変化による影響をユーザが把握することができ、保健指導内容の作成及び保健指導による改善目標の設定などに有効である。このモデルは再構築モデルなので、ユーザが着目するノードから構成される図であるため、ユーザが興味を持つ可読性が高い。
以上に説明したように、第1の実施例によると、レセプト情報、健診情報、問診情報などの医療データに基づいて、将来の病気の発症確率及び医療費を高精度に予測することができる。また、データに基づいて、予測に有効な因子を自動的に選ぶことができ、多数の要因を考慮した予測が可能となる。さらに、レセプト情報に含まれる疾病について分析することができるので、様々な疾病に対して費用対効果の高い保健指導対象者及び保健指導内容を選ぶことができる。
また、モデル作成機能(因果・遷移構造算出部109)とモデル再構築機能(モデル再構築部113)とで構成することによって、個人情報の隠匿性が高く、様々な疾病を対象として、高速に予測することができる。
すなわち、モデル作成機能とモデル再構築機能とで構成することによって、モデル作成機能が全疾病(全レセプト項目、健診項目)を対象とした精緻で大規模なモデルを作成し、モデル再構築機能が目的に応じたコンパクトなモデルを再構成する。例えば、モデル作成機能だけだと、モデルの規模が大きくなり、予測の計算量が増大するので、モデルが扱い難い。また、特定の疾病のみを分析したい場合は、関係のない疾病も含むモデルは扱い難い。また、別のアプローチとして、目的毎に(例えば、糖尿病、脂質異常症、高血圧症など)モデルを作成してもよいが、モデル構築に大きな計算量が必要となり、元データ(レセプト情報、健診情報)を保持する必要があるという問題がある。
第1の実施例では、モデル作成機能で全疾病を対象とした大規模かつ精緻なモデルを作成し、作成されたモデルから目的に応じたモデルを再構築する。モデル再構築にかかる計算量は大きくないため、モデルを容易に再構成できる。また、再構成されたモデルはコンパクトであるため、予測の計算コストが小さい。また、モデル作成機能で作成したモデルを保持しておけば、元データは必要がないため、予測時には、機密情報(個人情報)を保持する必要がない。これによって、大規模なデータを有効かつ効率的に利用することができる。
また、レセプト及び健康診断などの項目をノードとし、ノードの状態を項目の値とし、ノード間の確率的依存性をエッジとしてグラフィカルモデルによってノードを作成する。このため、子ノードの状態は、親ノードの状態に依存し、親ノードの条件付確率によって与えることができる。
また、グラフィカルモデルのエッジを遷移及び因果によって特徴付ける。例えば、現在の生活習慣と現在の検査値との間には因果関係があり、現在の検査値と現在の診療行為との間には因果関係があり、現在の診療行為と将来の診療行為との間には遷移関係があり、将来の診療行為と将来の医療費との間には遷移関係がある。また、現在の生活習慣と現在の検査値との間には因果関係があり、現在の検査値と将来の検査値との間には遷移関係があり、将来の検査値と将来の診療行為との間には因果関係があり、将来の診療行為と将来の医療費との間には遷移関係がある。また、現在の医療費→将来の医療費との間には遷移関係がある。
さらに、前述したモデル作成機能が大規模なモデルを作成するためには、モデルの規模の増大によって、各ノードの親条件付確率を定義するための事例数が不足する問題がある。親ノードが大きい場合、親ノードの状態の組み合わせによって子ノードの状態の確率分布が与えられるため、親ノードの状態の全ての組み合わせに対して十分な事例数が必要になる。このため、親ノードの状態の分解能及び親ノードの数は小さいほうがよい。しかし、親ノードの状態の分解能及び親ノードの数が小さいと、モデルの精度が落ちる。このため、ノード生成部110は、子ノードの確率分布への影響が小さく、事例数が十分に集まるように、親ノードの集約と離散化を行う。葉ノードから順番に、根ノードに向かって、この処理を行う。
また、モデル作成機能が、必ず区別される項目、すなわち、加入者の年齢毎かつ性別毎にモデルを作成することによって、利便性が高いモデルを構築できる。
また、保健指導支援部が、糖尿病、高血圧症及び脂質異常症の全部又は一部の確率変数のリストを選択することによって、医療費を高騰させる原因となる主たる成人病について分析することができる。
<実施例2>
第2の実施例では、項目とデータエントリから構成される表形式情報に基づいて、グラフィカルモデルを構築する。そして、新たに得られたデータの未知の値を、構築されたモデルに基づいて、予測する分析システムの例を説明する。
図2は、第2の実施例の分析システムの構成を示すブロック図である。
第2の実施例の分析システムは、データ分析装置201及びデータベース214を有する。
データ分析装置201は、入力部202、出力部203、演算装置204、メモリ205及び記憶媒体206を有する。これらの要素の構成及び機能は、それぞれ、第1の実施例1の力部102、出力部103、演算装置104、メモリ105及び記憶媒体106と同じである。
まず、第2の実施例で扱うデータについて説明する。第2の実施例で扱うデータは、図37(A)に示す表形式データ3701で、X1、X2、…が項目名で、一つのデータエントリが1行に表わされている。各列は一つの項目に対するデータエントリの値が格納されている。この表形式データ3701は、表形式情報記憶部215に記憶されている。
第2の実施例では、項目X1、X2、…をノード(確率変数)とするグラフィカルモデルを構築する。以下では、項目名をあらわすXiによって、ノードを表す。なお、各行が、第1の実施例の健保加入者、項目がレセプト情報、健診情報、問診情報の項目に対応する。
グラフィカルモデル作成部207は、項目X1、X2、…をノードとするグラフィカルモデルを構築する。
グラフィカルモデル構造算出部208は、項目間のエッジを定義する。事前知識がある場合、ノードの有無や、その種類に関する制限をしてもよい。構造をベイジアンネットワークに仮定すると、エッジ構造を学習する効率的なアルゴリズムが存在する。このとき、因果・遷移構造算出部109と同様の方法で項目間の依存度を計算し、依存度が閾値以下の場合には、エッジが無いと制限をして構造を学習してもよい。作成したエッジ構造は、グラフィカルモデル記憶部216に記憶する。
ノード生成部209は、第1の実施例のノード生成部110と同様の処理を行う。作成されたノード情報は、ノード情報記憶部217に保存される。
確率テーブル算出部210は、第1の実施例の確率テーブル算出部111と同様の処理を行う。作成された確率テーブルは、グラフィカルモデル記憶部216に記憶する。
予測部211は、与えられた新たなデータエントリに含まれる未知の値を予測する。例えば、図37()に示すデータ3702が得られた場合、データ3702のうち項目X4、X5の値が未知である。このため、データ3702の既知の値及びグラフィカルモデル作成部207が構築したモデルに基づいて、項目X4、X5の値を予測する。既知の値は、第1の実施例の今年のレセプト情報、健診情報及び問診情報の値に対応し、未知の値は、第1の実施例の来年のレセプト情報、健診情報及び問診情報の値に対応する。
簡易グラフィカルモデル再構築部212は、指定されたノードのリストから構成されるモデルを再構築する。簡易グラフィカルモデル再構築部212は、第1の実施例のモデル再構築部113と同様の処理を行う。再構築されたモデルは、再構築モデル記憶部218に記憶される。
確率推論部213は、簡易グラフィカルモデル再構築部212がモデルを再構築するために、目的に応じて必要なノードのリストを指定する。さらに、確率推論部213は、簡易グラフィカルモデル再構築部212が再構築したモデルを用いて、入力部202から入力されたデータの、未知の値を予測する。予測結果は、予測結果記憶部219に記憶される。
第2の実施例の分析システムは、一つの計算機で構成された計算機システムでも、サーバ及びクライアント端末で構成された計算機システムでもよい。また、データ分析装置201のグラフィカルモデル作成部207、予測部211は、別の装置で構成してもよい。
分析システムは、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
演算装置204によって実行されるプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを備えるとよい。
以上に説明したように、第2の実施例によると、医療データ以外の様々なデータに基づいて、将来に生じる事象を高精度に予測することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
101 医療データ分析装置
102 入力部
103 出力部
104 演算装置
105 メモリ
106 記憶媒体
107 データ整形部
108 病態因果・遷移モデル作成部
109 因果・遷移構造算出部
110 ノード生成部
111 確率テーブル算出部
112 発症確率・医療費予測部
113 モデル再構築部
114 病態遷移確率・医療費予測部
115 保健指導支援部
116 データベース
117 医療情報記憶部
118 整形情報記憶部
119 因果遷移モデル記憶部
120 ノード情報記憶部
121 再構築モデル記憶部
122 予測結果記憶部
201 データ分析装置
202 入力部
203 出力部
204 演算装置
205 メモリ
206 記憶媒体
207 グラフィカルモデル作成部
208 グラフィカルモデル構造算出部
209 ノード生成部
210 確率テーブル算出部
211 予測部
212 簡易グラフィカルモデル再構築部
213 確率推論部
214 データベース
215 表形式情報記憶部
216 グラフィカルモデル記憶部
217 ノード情報記憶部
218 再構築モデル記憶部
219 予測結果記憶部

Claims (15)

  1. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって医療データを分析する分析システムであって、
    前記分析システムは、加入者の傷病名と前記加入者に対して行われた医療行為とを含む医療情報と、前記医療行為の費用情報と、前記加入者の健康診断による検査値を含む健診情報と、を格納するデータベースにアクセス可能であって、
    前記分析システムは、
    前記プロセッサが、病態と前記病態に関する発症確率変数とに対応する病態ノードと、前記病態の変化に影響を与える因子を表す因子確率変数に対応する因子ノードと、前記病態ノードと前記因子ノードとの間で有向辺又は無向辺によって定義された確率的依存性と、を含むグラフ構造を、前記医療情報と前記健診情報とに基づいて作成し、前記作成されたグラフ構造を前記データベースに格納する因果・遷移構造算出部と、
    前記プロセッサが、前記医療情報と前記健診情報とに基づいて、前記発症確率変数と前記因子確率変数との事象空間を作成し、前記作成した事象空間を前記データベースに格納するノード生成部と、
    前記プロセッサが、前記医療情報と前記健診情報と前記事象空間とに基づいて、前記グラフ構造の条件付確率を算出し、前記算出した条件付確率を前記データベースに格納する確率算出部と、
    前記プロセッサが、前記グラフ構造と前記事象空間と前記条件付確率とから構成されるモデルに基づいて、指定された確率変数からなるグラフ構造事象空間条件付確率によってモデルを再構成し、前記再構成したモデルを前記データベースに格納するモデル再構築部と、
    前記プロセッサが、前記医療行為の費用情報と前記再構成されたモデルとに基づいて、病態遷移確率及び医療費を予測する病態遷移・医療費予測部と、
    前記プロセッサが、前記予測された病態遷移確率及び医療費に基づいて、健康指導の対象者及び健康指導内容を選定する健康指導支援部と、を備えることを特徴とする分析システム。
  2. 請求項1に記載の分析システムであって、
    前記プロセッサが、医療行為が行われた回数、医療行為の費用及び前記健診情報を、前記医療情報及び前記健診情報から取得し、前記取得した情報を前記加入者毎かつ所定期間毎に纏めた整形情報を作成し、前記作成した整形情報を前記データベースに格納するデータ整形部を備えることを特徴とする分析システム。
  3. 請求項に記載の分析システムであって、
    前記因果・遷移構造算出部は、前記整形情報中の医療行為が行われた回数及び前記健診情報の内容を確率変数としてグラフ構造を作成することを特徴とする分析システム。
  4. 請求項1に記載の分析システムであって、
    前記因果・遷移構造算出部は、第1の期間の検査値に対応するノードから前記第1の期間より所定期間後の第2の期間の医療行為に対応するノードの方向に定義される有向辺、及び、前記第1の期間の医療行為に対応するノードから前記第2の期間の医療行為に対応するノードの方向に定義される有向辺を含むグラフ構造を作成することを特徴とする分析システム。
  5. 請求項1に記載の分析システムであって、
    前記因果・遷移構造算出部は、第1の期間の検査値に対応するノードから前記第1の期間より所定期間後の第2の期間の検査値に対応するノードの方向に定義される有向辺、第1の期間の生活習慣に対応するノードから前記第2の期間の検査値に対応するノードの方向に定義される有向辺、前記第2の期間の検査値に対応するノードから前記第2の期間の医療行為に対応するノードの方向に定義される有向辺、及び、前記第1の期間の医療行為に対応するノードから前記第2の期間の医療行為に対応するノードの方向に定義された有向辺を含むグラフ構造を作成することを特徴とする分析システム。
  6. 請求項1に記載の分析システムであって、
    前記因果・遷移構造算出部は、第1の期間の医療費に対応するノードから前記第1の期間より所定期間後の第2の期間の医療費に対応するノードの方向に定義される有向辺、及び、前記第2の期間の医療行為に対応するノードから前記第2の期間の医療費に対応するノードの方向に定義される有向辺を含むグラフ構造を作成することを特徴とする分析システム。
  7. 請求項に記載の分析システムであって、
    前記因果・遷移構造算出部は、
    前記整形情報の事例のうち、前記二つの確率変数において値が欠落していない事例の値を要素とする二つのベクトルv1及びv2を作成し、
    前記二つのベクトルv1及びv2の要素をそれぞれ独立に並べ替えたベクトルw1及びw2を作成し、
    前記ベクトルv1の相関係数から前記ベクトルw1の相関係数を減じた値と、前記ベクトルv2の相関係数から前記ベクトルw2の相関係数を減じた値との定量的な関連性に基づく類似度を求め、
    前記w1及びw2の各要素の組からなる集合のエントロピーと、v1及びv2の各要素との組からなる集合のエントロピーとの比を共起性に基づく類似度として求め、
    同一ベクトルでの前記求められた二つの類似度の値が近くなるように変換関数を作成することによって値を校正した二つの類似度のうち大きい値を、二つの確率変数間の確率的依存度として算出することを特徴とする分析システム。
  8. 請求項7に記載の分析システムであって、
    前記因果・遷移構造算出部は、ノード間の確率的依存度が所定の基準以下のノード間には無向辺及び有向辺のいずれも定義しないことを特徴とする分析システム。
  9. 請求項7に記載の分析システムであって、
    前記ノード生成部は、
    ノード間の確率的依存度が所定の基準以上のノード同士を集約し、新たな一つのノードとして定義し、
    前記新たに定義したノードのグラフ構造によってモデルを再構築することを特徴とする分析システム。
  10. 請求項に記載の分析システムであって、
    前記ノード生成部は、子ノードを有する親ノードについて、前記親ノードの値と前記子ノードの値との組の各々と一致する事例数が、前記整形情報の中に所定の基準以上存在するように、ノードの事例数が少ない事象を統合することによって、ノードの事象空間を定めることを特徴とする分析システム。
  11. 請求項1に記載の分析システムであって、
    前記ノード生成部は、子ノードを有する親ノードの事象のうち、前記子ノードの条件付確率分布の変化が所定の基準以下となる事象を統合することによって、ノードの事象空間を定めることを特徴とする分析システム。
  12. 請求項1に記載の分析システムであって、
    前記健康指導支援部は、
    前記加入者の検査値を健康指導サービスによる改善後検査値に置き換えた第2の予測医療費及び前記健康指導サービスの費用を前記加入者の予測医療費から減じることによって予測効果を計算し、
    前記計算された予測効果が高い加入者と健康指導サービスとの組を、健康指導の対象者及び健康指導内容として選定することを特徴とする分析システム。
  13. 請求項1に記載の分析システムであって、
    前記健康指導支援部は、
    前記加入者の病態の遷移確率と平均的な病態の遷移確率との比によって第1の発症リスクを算出し、
    ユーザが検査値改善目標値を入力することによって、前記加入者の検査値を改善目標値に置き換えた病態の遷移確率を用いて、第2の発症リスクを算出し、
    前記第1の発症リスクと前記第2の発症リスクとを比較することによって、改善によるリスク低減効果を表示するためのデータを生成することを特徴とする分析システム。
  14. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによってデータを分析する分析システムであって、
    前記分析システムは、列にデータの属性項目、及び行にデータエントリを記載した表形式情報を格納するデータベースにアクセス可能であって、
    前記分析システムは、
    前記プロセッサが、前記表形式情報に基づいて、属性項目を表す確率変数間の確率的依存性が有向辺又は無向辺によって定義されたグラフ構造を作成し、前記作成されたグラフ構造を前記データベースに格納するグラフィカルモデル構造算出部と、
    前記プロセッサが、前記表形式情報に基づいて、前記確率変数の事象空間を作成し、前記作成された事象空間を前記データベースに格納するノード生成部と、
    前記プロセッサが、前記表形式情報及び前記事象空間に基づいて、前記グラフ構造の条件付確率を算出し、前記算出された条件付確率を前記データベースに格納する確率テーブル算出部と、
    前記プロセッサが、前記グラフ構造、前記事象空間及び前記条件付確率から構成されるモデルに基づいて、指定された確率変数からなるグラフ構造、事象空間、条件付確率によってモデルを再構成し、前記再構成したモデルを前記データベースに格納するモデル再構築部と、
    前記プロセッサが、前記再構成されたモデルに基づいて、各確率変数が各状態をとる確率を算出する確率推論部と、を備えることを特徴とする分析システム。
  15. プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有する計算機を用いて健康指導を支援する健康事業支援方法であって、
    前記計算機は、加入者の傷病名と前記加入者に対して行われた医療行為とを含む医療情報と、前記医療行為の費用情報と、前記加入者の健康診断による検査値を含む健診情報と、を格納するデータベースにアクセス可能であって、
    前記健康事業支援方法は、
    前記プロセッサが、病態と前記病態に関する発症確率変数に対応する病態ノードと、前記病態の変化に影響を与える因子を表す因子確率変数に対応する因子ノードと、前記病態ノードと前記因子ノードとの間有向辺又は無向辺によって定義された確率的依存性と、を含む病態と前記病態に関する発症確率変数とに対応する病態ノードと、前記病態の変化に影響を与える因子を表す因子確率変数に対応する因子ノードと、前記病態ノードと前記因子ノードとの間で有向辺又は無向辺によって定義された確率的依存性と、を含むグラフ構造を、前記医療情報と前記健診情報とに基づいて作成し、前記作成されたグラフ構造を前記データベースに格納する因果・遷移構造算出ステップと、
    前記プロセッサが、前記医療情報と前記健診情報とに基づいて、前記発症確率変数と前記因子確率変数との事象空間を作成し、前記作成した事象空間を前記データベースに格納するノード生成ステップと、
    前記プロセッサが、前記医療情報と前記健診情報と前記事象空間とに基づいて、前記グラフ構造の条件付確率を算出し、前記算出した条件付確率を前記データベースに格納する確率算出ステップと、
    前記プロセッサが、前記グラフ構造と前記事象空間と前記条件付確率とから構成されるモデルに基づいて、指定された確率変数からなるグラフ構造事象空間条件付確率によってモデルを再構成し、前記再構成したモデルを前記データベースに格納するモデル再構築ステップと、
    前記プロセッサが、前記医療行為の費用情報と前記再構成されたモデルとに基づいて、病態遷移確率及び医療費を予測する病態遷移・医療費予測ステップと、
    前記プロセッサが、前記予測された病態遷移確率及び医療費に基づいて、健康指導の対象者及び健康指導内容を選定する健康指導支援ステップと、を含むことを特徴とする健康事業支援方法。
JP2013104664A 2013-05-17 2013-05-17 分析システム及び保健事業支援方法 Expired - Fee Related JP6066826B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013104664A JP6066826B2 (ja) 2013-05-17 2013-05-17 分析システム及び保健事業支援方法
EP14168538.8A EP2804119A3 (en) 2013-05-17 2014-05-15 Analysis System and Health Business Support Method
US14/278,154 US20140343965A1 (en) 2013-05-17 2014-05-15 Analysis system and health business support method
CN201410208444.4A CN104166667B (zh) 2013-05-17 2014-05-16 分析***以及保健事业支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013104664A JP6066826B2 (ja) 2013-05-17 2013-05-17 分析システム及び保健事業支援方法

Publications (3)

Publication Number Publication Date
JP2014225176A JP2014225176A (ja) 2014-12-04
JP2014225176A5 JP2014225176A5 (ja) 2016-03-17
JP6066826B2 true JP6066826B2 (ja) 2017-01-25

Family

ID=50735917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013104664A Expired - Fee Related JP6066826B2 (ja) 2013-05-17 2013-05-17 分析システム及び保健事業支援方法

Country Status (4)

Country Link
US (1) US20140343965A1 (ja)
EP (1) EP2804119A3 (ja)
JP (1) JP6066826B2 (ja)
CN (1) CN104166667B (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6220310B2 (ja) * 2014-04-24 2017-10-25 株式会社日立製作所 医用画像情報システム、医用画像情報処理方法及びプログラム
WO2016120986A1 (ja) * 2015-01-27 2016-08-04 株式会社日立製作所 分析システム及び保健事業支援方法
US20180018571A1 (en) * 2015-02-06 2018-01-18 Quorum.Ai Inc. System and method for using artificial intelligence in making decisions
JP6301853B2 (ja) * 2015-02-18 2018-03-28 株式会社日立製作所 経年変化予測システム
JP6282783B2 (ja) * 2015-05-12 2018-02-21 株式会社日立製作所 分析システム及び分析方法
US10991053B2 (en) * 2015-07-02 2021-04-27 DZee Solutions, Inc. Long-term healthcare cost predictions using future trajectories and machine learning
WO2017013712A1 (ja) * 2015-07-17 2017-01-26 株式会社日立製作所 保険用情報提供システムおよび保険用情報提供方法
JP6468652B2 (ja) * 2015-07-21 2019-02-13 Kddi株式会社 医療データ解析装置
JP2017037489A (ja) * 2015-08-10 2017-02-16 株式会社リコー 情報処理システム、情報処理装置及び情報処理方法
US10902524B2 (en) * 2015-09-30 2021-01-26 Sensormatic Electronics, LLC Sensor based system and method for augmenting underwriting of insurance policies
JP6593231B2 (ja) * 2016-03-14 2019-10-23 富士通株式会社 レセプト電算ファイル作成プログラム、レセプト電算ファイル作成装置及びレセプト電算ファイル作成方法
WO2017204233A1 (ja) * 2016-05-23 2017-11-30 Necソリューションイノベータ株式会社 健康状態予測装置、健康状態予測方法、及びコンピュータ読み取り可能な記録媒体
WO2018042606A1 (ja) * 2016-09-01 2018-03-08 株式会社日立製作所 分析装置、分析システムおよび分析方法
JP6567484B2 (ja) * 2016-09-29 2019-08-28 株式会社日立製作所 推計モデル構築システム、推計モデル構築方法及びプログラム
US20190311810A1 (en) * 2016-12-12 2019-10-10 Koninklijke Philips N.V. System and method for facilitating computational analysis of a health condition
JP6203440B1 (ja) * 2017-02-02 2017-09-27 株式会社アルム 情報処理装置、及び情報処理システム
US11023817B2 (en) 2017-04-20 2021-06-01 International Business Machines Corporation Probabilistic estimation of node values
JP6537121B1 (ja) * 2017-12-19 2019-07-03 学校法人産業医科大学 傷病別医療費推計装置および方法並びにプログラム
KR102153161B1 (ko) * 2017-12-21 2020-09-08 한국과학기술원 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
CN109063940B (zh) * 2018-02-05 2024-01-26 重庆邮电大学 基于变结构贝叶斯网络的智能车辆威胁估计***及方法
JP6531241B1 (ja) * 2018-03-14 2019-06-19 メドケア株式会社 効率化支援システム及び医療効率化支援方法
US11281995B2 (en) 2018-05-21 2022-03-22 International Business Machines Corporation Finding optimal surface for hierarchical classification task on an ontology
CN112840406A (zh) * 2018-10-11 2021-05-25 西门子医疗有限公司 医疗保健网络
KR101944100B1 (ko) * 2018-10-16 2019-01-30 장봉석 행위패턴인식을 이용한 관리시스템
CN109308793A (zh) * 2018-10-22 2019-02-05 平安医疗健康管理股份有限公司 基于数据处理的药品费用超标预警方法及装置
CN111383123A (zh) * 2018-12-29 2020-07-07 天津幸福生命科技有限公司 临床医疗开销的统计方法、装置、存储介质及电子设备
US11676043B2 (en) 2019-03-04 2023-06-13 International Business Machines Corporation Optimizing hierarchical classification with adaptive node collapses
US11531908B2 (en) * 2019-03-12 2022-12-20 Ebay Inc. Enhancement of machine learning-based anomaly detection using knowledge graphs
JP7191800B2 (ja) * 2019-10-23 2022-12-19 株式会社東芝 健康支援システム、プログラム及び方法
JP7359345B2 (ja) * 2020-02-14 2023-10-11 株式会社メガ・テクノロジー 安全情報管理システムおよびその方法
US12045282B2 (en) * 2020-03-27 2024-07-23 International Business Machines Corporation Fault localization and alert aggregation
CN112017743B (zh) * 2020-08-20 2024-02-20 姚香怡 一种疾病风险评测报告自动生成平台及应用
KR102241399B1 (ko) * 2020-08-25 2021-04-16 주식회사 쓰리빌리언 증상의 질병 특이도 측정 시스템
CN112331355B (zh) * 2020-11-26 2024-03-19 微医云(杭州)控股有限公司 病种评估表的生成方法、装置、电子设备及存储介质
JP7442247B1 (ja) 2022-11-30 2024-03-04 一般財団法人Lhs研究所 健康管理支援システム、健康管理支援方法、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601055B1 (en) * 1996-12-27 2003-07-29 Linda M. Roberts Explanation generation system for a diagnosis support tool employing an inference system
US6687685B1 (en) * 2000-04-07 2004-02-03 Dr. Red Duke, Inc. Automated medical decision making utilizing bayesian network knowledge domain modeling
WO2006026383A2 (en) * 2004-08-26 2006-03-09 Strategic Health Decisions, Inc. Sytem for optimizing treatment strategies using a patient-specific rating system
US8122012B2 (en) * 2005-01-14 2012-02-21 International Business Machines Corporation Abstract record timeline rendering/display
JP5038671B2 (ja) * 2006-09-25 2012-10-03 株式会社東芝 検査項目選定装置、検査項目選定方法、及び検査項目選定プログラム
US8676598B2 (en) * 2009-03-31 2014-03-18 Jacob George Kuriyan Chronic population based cost model to compare effectiveness of preventive care programs
US11562323B2 (en) * 2009-10-01 2023-01-24 DecisionQ Corporation Application of bayesian networks to patient screening and treatment
JP5564708B2 (ja) * 2010-12-15 2014-08-06 株式会社日立製作所 保健事業支援システム、保険事業支援装置、及び保険事業支援プログラム
US9934361B2 (en) * 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
US20130116999A1 (en) * 2011-11-04 2013-05-09 The Regents Of The University Of Michigan Patient-Specific Modeling and Forecasting of Disease Progression
US8732096B1 (en) * 2011-12-17 2014-05-20 Vacslav Glukhov Method and computer system for making optimal medical decisions

Also Published As

Publication number Publication date
EP2804119A2 (en) 2014-11-19
EP2804119A3 (en) 2015-03-11
CN104166667B (zh) 2018-04-20
US20140343965A1 (en) 2014-11-20
CN104166667A (zh) 2014-11-26
JP2014225176A (ja) 2014-12-04

Similar Documents

Publication Publication Date Title
JP6066826B2 (ja) 分析システム及び保健事業支援方法
US11923056B1 (en) Discovering context-specific complexity and utilization sequences
Turgeman et al. Insights from a machine learning model for predicting the hospital Length of Stay (LOS) at the time of admission
JP6182431B2 (ja) 医療データ分析システム、及び医療データを分析する方法
JP6066825B2 (ja) データ分析装置及び保健事業支援方法
Khan et al. Chronic disease prediction using administrative data and graph theory: The case of type 2 diabetes
Rahman et al. Using and comparing different decision tree classification techniques for mining ICDDR, B Hospital Surveillance data
JP6159872B2 (ja) 医療データ分析システム、医療データ分析方法及び記憶媒体
VanHouten et al. Machine learning for risk prediction of acute coronary syndrome
WO2015071968A1 (ja) 分析システム
WO2021148967A1 (en) A computer-implemented system and method for outputting a prediction of a probability of a hospitalization of patients with chronic obstructive pulmonary disorder
JP6282783B2 (ja) 分析システム及び分析方法
CN112908452A (zh) 事件数据建模
Fukunishi et al. Alzheimer-type dementia prediction by sparse logistic regression using claim data
Séverac et al. Non-redundant association rules between diseases and medications: an automated method for knowledge base construction
Junqueira et al. A machine learning model for predicting ICU readmissions and key risk factors: analysis from a longitudinal health records
Domino et al. Price elasticity and pharmaceutical selection: the influence of managed care
Khan et al. Understanding chronic disease comorbidities from baseline networks: knowledge discovery utilising administrative healthcare data
Moradi et al. Detecting factors associated with polypharmacy in general practitioners' prescriptions: A data mining approach
JP7296873B2 (ja) 将来推計システム及び将来を推計する方法
CN117688226B (zh) 基于相似儿童患者匹配的智能诊前自助开单方法及***
Welch Implementation, evaluation and application of multiple imputation for missing data in longitudinal electronic health record research
Badolato et al. The limits of predicting individual-level longevity
Musy et al. Big data in healthcare: new methods of analysis
US20230153757A1 (en) System and Method for Rapid Informatics-Based Prognosis and Treatment Development

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161220

R150 Certificate of patent or registration of utility model

Ref document number: 6066826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees