JP2009205464A

JP2009205464A - 医療情報処理装置、医療情報処理方法、及び医療情報処理プログラム

Info

Publication number: JP2009205464A
Application number: JP2008047420A
Authority: JP
Inventors: Satoru Hayamizu; 悟速水; Keiko Yamamoto; けい子山本; Tetsutsugu Tamura; 哲嗣田村; Yasuomi Kinosada; 保臣紀ノ定; Masakazu Asano; 昌和浅野; Akira Nakamura; 明中村
Original assignee: Gifu University NUC; Sanyo Electric Co Ltd
Current assignee: Gifu University NUC; Sanyo Electric Co Ltd
Priority date: 2008-02-28
Filing date: 2008-02-28
Publication date: 2009-09-10

Abstract

【課題】個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理装置を提供する。
【解決手段】
医療情報処理装置１０は、複数の対象者に関する検査項目が時系列として付与されている医療情報の集合を、検査項目によってクラスターに分類する。医療情報処理装置１０は分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定し、クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する。医療情報処理装置１０は、代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行い、その結果を、収束させる。
【選択図】図１

Description

本発明は、医療情報処理装置、医療情報処理方法、及び医療情報処理プログラムに関し、特に、大量のデータから時系列解析と統計的手法を組み合わせて確率的な事業に関する統計的な情報を抽出することができる医療情報処理装置、医療情報処理方法、及び医療情報処理プログラムに関する。

平成２０年４月から健康保険法の改正により、医療保険者に対し、健診及び保健指導が義務づけられる。特に医療保険者に対してメタボリックシンドロームの予防に即した保健指導が実施される。個人の一人ひとりに対して、診断や健康指導を行う上で、個人の特性や状況に合わせたきめこまやかな支援や指導が必要である。

このようなきめこまやかな支援や指導にはかなりのコストが必要であった。また、個人の一人ひとりを対象とした状況の把握や管理も困難であった。
これに対して、近年、情報技術の利用によって、個人を対象としたサービスを行う試みが行われるようになってきた。特に、特定健診の実施に向けて、健康保険組合、保健師、医師、個人を支援するための医療情報システムに関心が集まっている。予め登録した個人の一人ひとりに合わせた健康指導を、Ｗｅｂ上のシステムと電子メールで提供するサイトも登場している。

これらの従来技術では、検査データなどを、どのように効率的に入力するかや、どのように時系列として表示するか、或いは、サイトとしての使い勝手のよさが、主要な特徴であり、検診結果や問診のデータを解析し、リスクを算出したり、健康指導の課程を数値的に管理し、支援する仕組みがなかった。

こうした取り組みとして、個人の健診情報から生活習慣病の発症可能性を予測することが非特許文献１に開示されている。これによれば、福岡県久山市で約４０年間、行ってきた疫学調査のデータを用いている。このデータから導出した疾病リスク算出式と、個人の年齢、体重、血圧、運動量、心電図、コレステロールや血糖値などの検査データから、今後１０年の間に生活習慣病（脳梗塞、虚血性心疾患、糖尿病、高血圧など）が発症する可能性を予測している。

又、特許文献１、２、４に記載のシステムや、特許文献３に記載の生活習慣病の発症リスクを予測する方法も提案されている。
特許文献１のシステムでは、臨床検査数値データ項目について、各検査機関毎に異なる基準値と成書記載の診断決定値、或いは基礎疾患、合併症、治療等の副作用等から予測される検査項目における個別患者の正常範囲値、診断決定値を任意に設定可能にしている。そして、同システムでは、診断時に同患者について測定した臨床検査数値データを入力することにより、上記設定により正常範囲値、診断決定値を基準とした診断上の重症度に対応する臨床診断評価値に変換処理するようにしている。

特許文献２のシステムでは、患者の検査値および臨床所見を含む診療データ入力部と、糖尿病に関連する臓器、器官の機能を数理モデルとして記述した生体モデルを用いて生体の挙動を再現する生体モデル駆動部と、前記診療データに基づいて生体モデルのパラメータセットを推定して、患者固有の生体モデルを生成する生体モデル部を有している。又、このシステムは、生成されたモデルのパラメータセットに基づいて患者の糖尿病の病態を分析する病態分析部と、分析された病態ごとに定められた診断判断基準を用いて診療支援情報を生成する診療支援情報生成部と、前記病態分析部および／または診療支援情報生成部より得られた情報を出力する診療支援情報出力部を備えている。

特許文献３は、健常人又は健常動物の体液中のエンドトキシン濃度を測定することで、血液中のコレステロール、中性脂質、血糖から選ばれる生化学的パラメータの変動を推測する方法が提案され、この方法により生活習慣病の発症リスクを予測する方法が提案されている。又、特許文献３は、健常人又は健常動物の体液中の歯周病原菌由来エンドトキシン濃度を検出又はその濃度を測定することで、血液中のコレステロール、中性脂質、血糖から選ばれる生化学的パラメータの変動を推測する方法が提案され、この方法により生活習慣病の発症リスクを予測する方法が提案されている。

特許文献４の診断支援システムは、生理データ入力部、糖尿病疾患リスク分析部、メタボリックシンドローム疾患リスク分析部、診断支援情報生成部、生体モデル生成部、病態シミュレーション部、及び診断支援情報出力部の各機能ブロックを有している。そして、このシステムは、糖尿病疾患リスク分析部及びメタボリックシンドローム疾患リスク分析部により、それぞれ糖尿病及びメタボリックシンドロームの疾患リスクを分析し、診断支援情報生成部が前記分析結果から診断支援情報を生成するようにされている。
特開２００４−２２７０４１号公報特開２００５−２６７０４２号公報特開２００５−１４０６１８号公報特開２００６−３０４８３３号公報清原裕、「久山町研究とは」、［online］、２００６年、九州大学大学院医学研究院環境医学分野久山町研究所、［平成１９年１２月１８日］、インターネット＜URL： http://www.envmed.med.kyushu-u.ac.jp/about/index.html＞

ところが、上記の非特許文献１では、対象とする人数が約２６００名であり、個別の生活習慣病に対応した疾患リスクの算出を行っているため、リスク算出のための統計的な情報の推定は、全体としては、さらに細かい疾患や状況のレベルに応じたモデル化や、個人差を考慮した推定にはまだいたっていない。また、保健師、管理栄養士、医師等による健康指導で、情報システムによる支援を利用することは、まだ、一般的でなく、こうした一人ひとりの健康状態や生活習慣に対応したきめ細かい支援のために、情報システムに備えるべき最適な情報の抽出は、必要性は認識されるものの、まだ、十分な研究成果が得られていない状況である。

個人の特性や状況に合わせた、きめ細やかな支援や健康指導を実現するためには、検査データなどの時系列をより精密にモデル化し、さらに、大量のデータから得られた統計的な情報に基づいて対象とする事象の生起確率をより詳細に推定する必要がある。

特許文献１乃至４での従来技術の問題は、第一に個人差を十分に考慮していない点にある。特定の疾患のリスクを推定する際にも、実際には症状の程度や、疾患を細かく分類した場合などにおいて、それぞれ、基礎となるモデルは異なるべきであるのに、従来技術では、こうした点の対応ができていない。

第二に、データのばらつきの処理である。検査データや、日々の食事や運動量などのデータは、一人ひとりのデータについても分散が大きく、ばらつきがある。従来技術は、こうしたばらつきについて、全体的な確率密度の推定を行っているのみである。

第三として、従来技術では、時間的な変化のモデルが、上昇、下降、或いは、平均的な変化パターンといった単純なものであり、より細かいモデル化ができていない。
第四として、従来技術において、検査データなどを分析し、リスクの予測を行うという提案においても、そうした判断の根拠となるデータをどのように得るのかについて、提案されていない。すなわち、従来技術では、予測を行うための統計的な知識を、もとのデータから得るための手段が提案されていない。

従来技術におけるモデル化の方法は、精度の粗いモデルとなっており、ここで、精度の粗いモデル（或いは確率の推定）とは、時間的な変化や、個人による違いを考慮せず、検査データや問診データなどを、少数のクラスに対して、おおまかなモデル化を行う方法である。

このような方法によるモデル化、或いは確率分布（確率密度関数）の推定では、対象とするデータ中に、様々な要因による変動が含まれているのに、それを区別することができないため、分布の全体的な様子だけを推定する、ブロードな推定にならざるを得ない。

例えば、時間的な変化について、健康状態から疾患をもっている場合まで、さまざまな段階のサンプルを区別することなくモデル化するのでは、全体的な分布の推定しかできない。又、個人による違いを考慮せず、対象となるサンプルを全て１群として扱うのでは、複雑な形状をした確率分布を推定しなければならないため、単純なモデルでは表現できない。一方、複雑なモデルによって確率分布を推定することもできるが、推定精度の点からは、様々な要因による変動を未知のまま含むモデルから、高精度に推定することは、一般的に困難である。

本発明の目的は、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理方法を提供することにある。

さらに、本発明の目的は、クラスタリングを行うことからその粒度の設定により、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる医療情報処理方法を提供することにある。

又、本発明の第２の目的は、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理装置を提供することにある。

さらに、本発明の目的は、クラスタリングを行うことからその粒度の設定により、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる医療情報処理装置を提供することにある。

本発明の第３の目的は、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理プログラムを提供することにある。

さらに、本発明の目的は、クラスタリングを行うことからその粒度の設定により、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる医療情報処理プログラムを提供することにある。

上記目的を達成するために、請求項１に記載の発明は、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１ステップと、分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２ステップと、前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３ステップと、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４ステップとを備えることを特徴とする医療情報処理方法を要旨とするものである。

請求項２の発明は、請求項１において、前記第４ステップにより得られた結果を、さらに、前記第１ステップ〜第４ステップにて繰り返させることにより収束させることを特徴とする。

請求項３の発明は、請求項２において、前記第４ステップにより得られた結果を収束させた後、クラスターに関連情報を付与するステップと、検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出するステップと、前記新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力するステップを備えることを特徴とする。

請求項４の発明は、請求項１乃至請求項３のいずれか１項において、前記第２ステップは、推定した確率密度関数に基づいて、欠損する部分があるデータを補間することを特徴とする。

請求項５の発明は、請求項４において、前記第２ステップは、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃えることを特徴とする。
請求項６の発明は、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１手段と、分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２手段と、前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３手段と、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４手段とを備えることを特徴とする医療情報処理装置を要旨とするものである。

請求項７の発明は、請求項６において、前記第４手段により得られた結果を、さらに、前記第１手段〜第４手段にて繰り返して処理させて収束させる第５手段を備えたことを特徴とする。

請求項８の発明は、請求項７において、前記第５手段にて収束されたクラスターに関連情報を付与する関連情報付与手段と、検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出する確信度算出手段と、前記新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力する出力手段を備えることを特徴とする。

請求項９の発明は、請求項６乃至請求項８のいずれか１項において、前記第２手段は、推定した確率密度関数に基づいて、欠損する部分があるデータを補間することを特徴とする。

請求項１０の発明は、請求項９において、前記第２手段は、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃えることを特徴とする。
請求項１１の発明は、コンピュータを、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１手段と、分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２手段と、前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３手段と、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４手段として機能させることを特徴とする医療情報処理プログラムを要旨とするものである。

請求項１２の発明は、請求項１１において、コンピュータを、前記第４手段により得られた結果を、前記第１手段〜第４手段にて繰り返して処理させて収束させる第５手段として機能させることを特徴とする。

請求項１の発明によれば、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理方法を提供できる。

さらに、請求項１の発明によれば、クラスタリングを行うことからその粒度の設定により、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる医療情報処理方法を提供できる。

請求項２の発明によれば、第４ステップで得られた結果が、第１ステップ〜第４ステップでさらに繰り返されて処理されるため、最適な分類結果、或いは、最適な確率密度関数を得ることができることから、より良く、請求項１の効果を実現できる。

従来の方法によるモデル化或いは確率分布（確率密度関数）の推定では、対象とするデータ中に、様々な要因による変動が含まれて、それを区別することができないため、分布の全体的な様子だけを推定する、ブロードな推定にならざるを得ない。しかし、請求項１及び請求項２の発明によれば、時間的な変化に対しては、それを整合化する処理によって、前記変動を吸収することができる。

又、請求項１及び請求項２の発明によれば、個人差の問題に対しても、任意のカテゴリー数のクラスターへ分割（分類）することが可能であり、前述の利点と合わせて、分割された各クラスター内のサンプルの分布は、よりコンパクトなものになる。

これによって、ここで対象とする現象をより、精密にモデル化し、確率をより詳細に推定することが可能になる。
請求項３の発明では、新規の医療情報が入力されると、その新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を容易に得ることができ、健康管理プログラムの運用を行う際の支援として用いることができる。

従来技術では医療情報に含まれる検査値などには、時系列上に欠損値があることは避けられず、そうしたデータを除くクレンジングが行われた後のデータのみを対象としているが、請求項４の発明によれば、時系列上に欠損値がある医療情報においても対応することができる医療情報処理方法を提供できる。

従来技術では、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いが困難であったが、請求項５の発明では、時間スケールの違いがある医療情報に対しても時間スケールの違いを吸収でき、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いができる医療情報処理方法を提供できる。

請求項６の発明によれば、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる医療情報処理装置を提供できる。さらに、請求項６の発明によれば、クラスタリングを行うことからその粒度の設定により、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる医療情報処理装置を提供できる。

請求項７の発明によれば、第４手段で得られた結果が、第１手段〜第４手段でさらに繰り返されて処理されるため、最適な分類結果、或いは、最適な確率密度関数を得ることができることから、より良く、請求項６の効果を実現できる。

請求項８の発明では、新規の医療情報が入力されると、その新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を容易に得ることができ、健康管理プログラムの運用を行う際の支援として用いることができる医療情報処理装置を提供できる。

従来技術では医療情報に含まれる検査値などには、時系列上に欠損値があることは避けられず、そうしたデータを除くクレンジングが行われた後のデータのみを対象としているが、請求項９の発明によれば、時系列上に欠損値がある医療情報においても対応することができる医療情報処理装置を提供できる。

又、従来技術では、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いが困難であったが、請求項１０の発明では、時間スケールの違いがある医療情報に対しても時間スケールの違いを吸収でき、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いができる医療情報処理装置を提供できる。

請求項１１の発明によれば、請求項５の医療情報処理装置の効果を容易に実現することができる医療情報処理プログラムを提供できる。
請求項１２の発明によれば、請求項６の医療情報処理装置の効果を容易に実現することができる医療情報処理プログラムを提供できる。

以下、本発明を具体化した一実施形態を図１〜３を参照して説明する。
図１は、医療情報処理装置の全体概略図が示されている。
図１に示すように、医療情報処理装置１０は、キーボード等の入力装置１１と、プログラムにより動作するデータ処理装置１２を備えている。データ処理装置１２には、各種データを記憶する記憶装置１３と、出力装置１４とが接続されている。出力装置１４は、例えばディスプレイやプリンタが含まれており、出力手段に相当する。

データ処理装置１２は、ＲＯＭ１２ａ及びＲＡＭ１２ｂを備えたコンピュータ１２ｃからなり、ＲＯＭ１２ａ等の記憶手段に格納された医療情報処理プログラムにより医療情報処理を行う。

データ処理装置１２は、クラスタリング手段２１、確率密度関数推定手段２２、代表値決定手段２３、時間軸移動手段２４、収束手段２５、関連情報付与手段２６、及び新規データ処理手段２７を備えている。クラスタリング手段２１は、複数の対象者に関する検査項目が時系列として付与されている医療情報の集合を、検査項目に応じてクラスターに分類する第１手段に相当する。

ここで、医療情報としては、代表例として下記のものを挙げることができるが、これらに限定されるものではない。これらの中には、臨床検査や健康診断での検査項目が含まれる。

身体計測に関する値（身長、体重，ＢＭＩ、腹囲）、血圧測定値、血液化学検査に関する値（中性脂肪、ＨＤＬコレステロール、ＬＤＬコレステロール）、肝機能検査に関する値（ＡＳＴ（ＧＯＴ）、ＡＬＴ（ＧＰＴ）、γ−ＧＴ（γ−ＧＴＰ））、血糖検査に関する値（空腹時血糖又はＨｂＡ１ｃ検査）、尿検査に関する値（尿糖等）、心電図。

又、医療情報の検査項目には、他に問診項目や、医師が行う理学的検査項目等が含まれる。これらの各項目には、検査された年月日時の時間情報が付されている。この時間情報により、医療情報（検査項目）を後述する時系列分布とすることが可能となる。

確率密度関数推定手段２２は、前記分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２手段に相当する。代表値決定手段２３は、前記クラスター内の推定された確率密度関数の中からモデルとなる代表値の決定を行う第３手段に相当する。時間軸移動手段２４は、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４手段に相当する。収束手段２５は、前記第１手段〜第４手段にて繰り返して処理させて収束させる第５手段に相当する。関連情報付与手段２６は、各クラスターに対して疾患・症状・薬品等の関連情報を付与する手段である。新規データ処理手段２７は、新規データについて種々の処理を行う手段である。

次に、図２を参照して、データ処理装置１２が医療情報処理プログラムに従って行う処理を説明する。
データ処理装置１２による医療情報処理を行う以前に、前処理として、例えば、医療情報に基づいて国や学会等で定めた疾病、或いは疾病の疑いがあると判断する際の、各種の検査項目に関する閾値Shを記憶装置１３に格納しておく。又、入力装置１１から予め複数の被験者の医療情報を記憶装置１３に格納してくものとする。

（ステップＳ１０）
Ｓ１０では、データ処理装置１２のクラスタリング手段２１は、入力装置１１から予め記憶装置１３に格納しておいた、複数の被験者の医療情報を読込み、同医療情報の集合から、検査項目に応じた任意のカテゴリ数のクラスタリングを行う。この場合、前記複数の被験者の数は、多いほど好ましい。

複数の被験者の医療情報において、医療情報に含まれる時間情報をｔ=1,2,…,T、検査項目をi=1,2,…,M、人をj=1,2,…,Nとすると、サンプルのデータ、すなわち医療情報は、ｆ（i,t,j）で表わされる。

このクラスタリングを行う際、データ処理装置１２は予めクラスターの粒度を決定する。
クラスターの粒度は、クラスタリングの際に，各クラスターの大きさを表わす数値的な指標である。この粒度を制御することは，全体のサンプルをクラスターに分類するときに，各クラスターにいくつのサンプルを割り当てるかということである。本実施形態では、クラスターの粒度は，そのクラスターに属するサンプル数を用いる。

クラスタリングは、例えば、k-means法があるが、k-means法に限定されるもではなく、他のクラスタリング方法を用いてもよい。Ｓ１０は第１ステップに相当する。
（ステップＳ２０）
Ｓ２０では、データ処理装置１２の確率密度関数推定手段２２は、各クラスター内のサンプルにおける時系列データの分布を確率密度関数として推定するが、確率密時関数を推定する前に各サンプルにおける時間スケールが異なる場合には、まずこの時間スケールを揃える。

時間スケールが異なるとは、例えばあるサンプルに関する特定の検査項目が、年毎に検査されているのに対して、他のサンプルに関する同じ特定の検査項目が月毎のように検査されている場合のように相違することをいう。このように時間スケールが相違する場合は、予め入力装置１１で各検査項目毎に設定しておいた時間スケールに揃えた後、確率密度関数を推定する。時間スケールを揃えることにより、サンプルの時間スケールの違いを吸収でき、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いができることになる。

又、各サンプルにおける時間スケールが揃っている場合には、そのまま確率密度関数を推定する。
確率密度分布の推定は、通常、多次元空間内の各点において、ある事象が生起する確率を与える確率密度関数を推定することによって行われる。この分布を表わす関数として、分布の形状を表わす関数を仮定し、その分布の特徴を表わすパラメータを推定するパラメトリックな推定法について説明する。

いま、あるクラスターｃについて、時間tにおけるＭ次元 (i=1,2,…,M) の検査項目の値が、Ｎ人(j=1,2.,,,N) について得られているとする。このＮ個のサンプルから、Ｍ次元空間における確率密度分布を推定する。たとえば、分布の形状として、多次元正規分布を仮定すれば、確率密度関数P(X) は、平均ベクトルμと、共分散行列Σによって、以下のように表わすことができる。

Ｎ個のサンプルを用いて、平均ベクトルμと、共分散行列Σを推定すれば、確率密度関数が得られる。なお、平均ベクトルと共分散行列は、クラスターｃおよび、時間ｔごとに求める必要がある点に注意する必要がある。

ここで、未知のサンプルＹの検査項目がキーボード等にて入力された場合には、上記のP(X)に、Ｙを代入して得られた確率を、時間tにおいて、クラスターcに属すると予測される場合のリスクの程度を表わす数値として算出する。

又、未知のサンプルにおける検査項目の時系列が与えられた場合には、後述するＳ４０と同じ手続きにより、時間軸の整合を行い、最適な時間軸の移動量を求めた後に、対応する時刻における確率密度関数P(X)を用いて、確率を求める。

ここでは、確率密度関数として、多次元正規分布の例を示したが、推定に利用できるサンプル数が少ない場合には、共分散行列の代わりに、対角成分のみを用いることも可能である。逆に、推定できるサンプル数が、ある程度、多い場合には、複数の正規分布の重み付きの和とする混合正規分布を用いることもできる。これらは、分布を表わす関数を、平均ベクトルと共分散行列という、パラメータによって表現するパラメトリックな方法である。

確率密度関数の推定は、パラメトリックに方法に限定されるものではなく、ノンパラメトリック推定な方法で行ってもよい。
ノンパラメトリックな方法は分布の形状を表わす関数形をとくに仮定しない。ノンパラメトリックな確率密度推定方法の代表的なものが、カーネル密度推定法である。カーネル密度関数推定法には、多変量カーネル密度推定法、ビン化カーネル推定法などがある。

たとえば、ビン化カーネル推定法では、以下のように確率密度関数を推定する。

ここで、Ｂはビンの数、Ｎはサンプル数、njはj番目のビンの度数、δはビン幅、Kh(x −jδ)は、バンド幅hのカーネル関数である。カーネル関数は、エパネックニコフカーネル（Epanechnikov Kernel）等を用いることができる。

カーネル密度推定法では、分布の全体に対して特定の関数形を仮定しないことから、より柔軟なモデル化が可能である。
（欠損値がある場合）
前記確率密度関数を推定した後、確率密度関数推定手段２２は各クラスター内のサンプルの検査項目の時系列に欠損値があるか否かを判定し、欠損値があると判定した場合には、前記推定した確率密度関数に基づいて欠損値（すなわち、欠損する部分）を補間する。Ｓ２０は第２ステップに相当する。

（ステップＳ３０）
Ｓ３０では、データ処理装置１２の代表値決定手段２３は、各クラスター内において，代表値を定める。ここで、代表値を定めるのは，後述するＳ４０において，クラスター内のサンプルを移動する際に，代表値（モデル）を基準点とするためである。代表値は、中心値、或いは平均値でもよい。又、代表値を外部から入力された情報に基づいて定めてもよい。Ｓ３０は第３ステップに相当する。

（ステップＳ４０）
Ｓ４０では、データ処理装置１２の時間軸移動手段２４は、最適な時間軸の移動となる値（τ）を求め、当該検査項目のデータ（すなわち、検査データ）を移動させる。最適な時間軸の移動となる値（時間差）を求める方法は，クラスター内のサンプルを，たとえば，−τ〜τまでのように，ある時間幅におけるすべての値について，移動させ，Ｓ３０で定められた代表値との差（距離の和）が最小となる値を，最適な時間差とする。この移動は全検査データに対して行う。

この結果、疾患による検査項目の検査値の変化の軸が揃うことになる。
図３（ａ）は、クラスタリングを行う前の、複数の被験者に関するある検査項目を有した医療情報の模式図である。図３（ａ）において、縦軸は検査項目の検査値、横軸は時間を示している。図３（ｂ）はクラスタリングを行い、さらに、時間軸を揃えた場合の模式図である。図３（ｂ）に示すように、クラスタリングが行われて、時間軸を揃えることにより、当該検査項目において、例えば、特定のクラスターにおいて、時系列上の検査値が閾値Sh以下（或いは閾値以上）を有するものの場合に疾病の可能性があると判定が可能となる。

なお、図３（ａ）と図３（ｂ）とは検査値のスケールは説明の便宜上異ならしめている。Ｓ４０は第４ステップに相当する。
（ステップＳ５０）
Ｓ５０では、データ処理装置１２の収束手段２５は、Ｓ４０で移動した後のデータについて、収束したか否かを判定する。すなわち、収束手段２５は、収束の判定を、クラスターへの分類の良さと推定した確率密度関数がデータを表わすモデルの良さを表わす数値的な指標を用いて判断する。

例えば、収束手段２５は前回の処理（すなわち、Ｓ１０〜Ｓ４０の処理）におけるモデルの良さを表わす指標と比較し、予め定めた一定値以上の改善が得られなくなったときに収束と判断する。なお、収束手段２５は、前回の処理（すなわち、Ｓ１０〜Ｓ４０の処理）におけるモデルの良さを表わす指標がない場合、すなわち、Ｓ５０の判定が初回の場合は、予め定めた初期値の指標を使用する。

ここで前記一定値は、絶対値と、相対値（たとえば、改善が前回の１％以下で収束）があるが、いずれでもよい。
数値的な指標としては、確率的な数値（尤度）を用いる。

（収束判定の指標の例）
ここで、収束判定の指標の例を挙げて説明する。
すべてのサンプルのデータ (X(j), j=1,...,N) を、あるクラスターに分類した状態の全体を、D(j), j=1,...,N とする。例えば、３番目のデータ (j=3) が、クラスター番号４に分類された場合に、D(3)=4 のようにすべてのサンプルに対して、クラスター番号を付与する。

確率密度関数は、クラスターごとに推定する。パラメトリックな方法、ノンパラメトリックな方法を共通に表わす場合には、各クラスターの確率密度関数の違いをモデルMを用いて PM(X) と表わす。パラメトリックな方法の場合には、確率密度関数を推定するためのパラメータをθとし、M(θ) と表わす。たとえば、正規分布で確率密度を推定する場合には、平均値と共分散行列が、確率密度関数PM(X)を表わすパラメータθである。

あるクラスターへの分類Dと、確率密度関数のモデルMが与えられると、各サンプルのデータに対してこの分類Dと確率密度関数Mから生起した確率を計算できる。すべてのサンプルに対してこの確率を求め、その積を、クラスター分類Dと確率密度関数Mから、すべてのサンプルが生起する確率と考えることにする。このすべてのサンプルが生起する確率を、収束判定の指標とする。たとえば、確率の対数をとった対数尤度を用いると以下の式のようになる。

ここで上記のモデルMは、クラスター番号D(j)に従って選択するものとする（ M=M(D(j)) ）。Πは積を表わす。

Ｓ５０において、収束手段２５は収束していないと判定すると、Ｓ１０に戻り、収束していると判定すると、Ｓ６０に移行する。Ｓ５０を有することにより第１ステップ〜第４ステップを繰り返させることにより収束させることになる。

（ステップＳ６０）
Ｓ６０においては、関連情報付与手段２６は、予め記憶装置１３に格納されている医療関係のテキストデータ等から、テキストマイニングによって、疾患・症状・薬品等の関連情報を集約する。又、関連情報には、前記医療関係のテキストデータ等から集約され、前記疾患名、症状等に関係する種々の情報、例えば、疾患に対する指導法や、症状を改善又は治療するための薬品等の情報が含まれる。

そして、関連情報付与手段２６は、前記集約した関連情報と関連があるクラスターに対して、当該関連情報を付与する。すなわち、クラスターには、そのクラスター内に多く見られる疾患名や症状の程度等の情報が含まれていることに基づいて、前記集約した情報の中から、その疾患名や、症状の程度等に関するものを、関連情報として付与する。この結果、クラスターには、関連情報として、疾患に対する指導法や、症状を改善又は治療するための薬品等の情報が付与されることになる。

（ステップＳ７０）
Ｓ７０において、新規データ処理手段２７は、新規データ（すなわち、医療情報）の入力を待ち、新規データの入力があると、新規データに対する確信度を演算する。新規データ処理手段２７は確信度算出手段に相当する。

確信度を表わす方法は、確信度を表わす数値を示す方法と、予め確信度に何段階かのクラスを設定しその確信度のクラスを示す方法とがある。
確信度を数値で表わす場合、新規データ処理手段２７は、その新規データが各クラスターに属する確率をすべてのクラスターについて算出し、その確率を確信度とする。

又、確信度の表示方法は、すべてのクラスターについて表示する方法、確率の高いものから順に一定数のクラスターについて表示する方法、ある一定の確率以上のクラスターのみについて表示する方法などがある。

何段階かのクラスを設定する場合には、新規データ処理手段２７は、確信度の大きさを予め、上記の確率の値を用いて、上限と下限を定めておく。そして、その間の値となる新規データについては、クラス名（段階の値）のみを、後述のＳ８０において、データ処理装置１２が出力する確信度として出力する。このようにすれば、例えば、確信度を、５段階で表示することができる。

又、新規データは時系列データであるため、新規データがモデルの時系列上のどの位置にあるかについての情報を新規データ処理手段２７は推定する。この情報は、後述のＳ８０において、データ処理装置１２に出力される。

時系列上の位置の情報とは、そのモデルで表わされる病態・症状などの程度の時間的な変化において、どのような段階であるかを示すためのものである。
この場合、新規データ処理手段２７による時系列上の位置の推定は、入力されたサンプルのデータから、上記の確率を求める場合には、各クラスターのモデルに対して、時間軸の移動を行い、最も良く入力データと適合する時間軸の移動量を求めることにより行われる。又、この方法は、Ｓ４０と同様に行われる。

この場合にも、時間軸の移動量を数値的に求めるものの他に、予め何段階かの移動量を設定しておき、最適なものをその中から選択してもよい。これによって、確信度の場合と同様に、上限と下限のような幅をもった移動量を示すことができる。

なお、新規データの検査項目について、既に得られているクラスターとは時間スケールと異なる場合には、そのクラスターの時間スケールに新規データの時間スケールを揃えてから、上述した時間軸の移動を行う。

（ステップＳ８０）
データ処理装置１２は、Ｓ７０で得られた新規データに関する確信度、新規データが、どのクラスターのモデルの時系列上のどの位置にあるかについての情報、並びに、各種の検査項目に関する閾値Shを出力装置１４にて出力（表示、及び印刷）する。この結果、新規データが、どのクラスターのモデルの時系列上のどの位置にあるかについてや、その各種の検査項目に関する閾値Shが即座に指導を行う人が分かるため、適切な指導をその新規データに関する被験者に与えることが可能となる。

本実施形態によって発揮される効果について、以下に記載する。
（１）本実施形態の医療情報処理方法は、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類するステップＳ１０を備える。又、本医療情報処理方法は、分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定するステップＳ２０を備える。さらに、本実施形態の医療情報処理方法は、クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定するステップＳ３０と、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行うステップＳ４０を備える。

この結果、個人差を十分に考慮して、大量のデータから自動的にクラスタリングによってモデル化することで、病態・症状の程度や、疾患の細かい分類に対応する変化をモデル化することができるとともに、より柔軟な時系列のモデル化と、精密な確率密度の推定を同時に実現することができる。さらに、本実施形態の医療情報処理方法によれば、クラスタリングの粒度を適切に設定すれば、従来技術に比してより詳細なモデル化が可能であり、さらに、被験者の病気のリスクの予想を行うための統計的な知識を、もととなるデータからどのように得ることができるかを具体的に示すことができる。

又、本実施形態の医療情報処理方法によれば、Ｓ４０にて、個別のデータをモデルとの整合性を考慮して時間軸上を移動して整合するため、時間的な変化に対しては、それを整合化する処理によって、前記変動を吸収することができる。

（２）本実施形態の医療情報処理方法は、ステップＳ４０により得られた結果を、さらに、Ｓ５０を介してＳ１０〜Ｓ４０にて繰り返させることにより収束させる。この結果、本実施形態の医療情報処理方法によれば、最適な分類結果、或いは、最適な確率密度関数を得ることができることから、より良く、（１）の効果を実現できる。

又、従来の方法によるモデル化或いは確率分布（確率密度関数）の推定では、対象とするデータ中に、様々な要因による変動が含まれて、それを区別することができないため、分布の全体的な様子だけを推定する、全体的な推定にならざるを得ない。

しかし、本実施形態の医療情報処理方法によれば、繰り返しＳ１０〜Ｓ４０を処理した際に、Ｓ４０にて、個別のデータをモデルとの整合性を考慮して時間軸上を移動して整合するため、時間的な変化に対しては、それを整合化する処理によって、前記変動を吸収することができる。

（３）本実施形態の医療情報処理方法は、Ｓ６０にて、Ｓ４０により得られた結果を収束させた後、クラスターに関連情報を付与し、Ｓ７０において、検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出する。そして、本実施形態の医療情報処理方法は、Ｓ８０において、前記新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力する。

この結果、本実施形態の医療情報処理方法では、新規の医療情報が入力されると、その新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を容易に得ることができる。

このことは、電子カルテシステム上に実現して個別の患者に対して医師が診断や指導を行ったりする際の支援や、健康管理システム上に実現して保健師や栄養管理士が個別のユーザに対して健康指導する際の支援として行うことができる。さらに、医学領域において、疫学研究の際に、利用することも可能である。又、健康保険組合や保健管理プログラムの運を行う際の支援として用いることも可能である。

（４）本実施形態の医療情報処理方法は、ステップＳ２０では、推定した確率密度関数に基づいて、欠損する部分があるデータを補間する。この結果、従来技術では医療情報に含まれる検査値などには、時系列上に欠損値があることは避けられず、そうしたデータを除くクレンジングが行われた後のデータのみを対象としているが、本実施形態の医療情報処理方法では、時系列上に欠損値がある医療情報においても対応することができる。

（５）本医療情報処理方法は、ステップＳ２０では、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃える。この結果、従来技術では年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して、統一的な扱いが困難であったが、本医療情報処理方法は、時間スケールの違いがある医療情報に対しても時間スケールの違いを吸収でき、年の単位、月の単位、週の単位、日の単位、時間の単位が混合した時系列に対して統一的な扱いができる。

（６）医療情報処理装置１０は、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類するクラスタリング手段２１を備える。さらに、医療情報処理装置１０は分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する確率密度関数推定手段２２と、クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する代表値決定手段２３を備える。又、医療情報処理装置１０は、代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う時間軸移動手段２４を備える。この結果、本実施形態の医療情報処理装置１０は、上記（１）と同様の効果を奏することができる装置として提供できる。

（７）医療情報処理装置１０は、時間軸移動手段２４により得られた結果を、さらに、収束手段２５により、クラスタリング手段２１、確率密度関数推定手段２２、代表値決定手段２３、時間軸移動手段２４にて繰り返して処理させて収束させる。この結果、上記（２）と同様の効果を奏することができる装置として提供できる。

（８）医療情報処理装置１０は、収束されたクラスターに関連情報を付与する関連情報付与手段２６と、検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出する新規データ処理手段２７を備える。そして、医療情報処理装置１０は、新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力する出力装置１４を備える。

この結果、本実施形態の医療情報処理装置１０は上記（３）と同様の効果を奏することができる装置として提供できる。
（９）医療情報処理装置１０の確率密度関数推定手段２２は、推定した確率密度関数に基づいて、欠損する部分があるデータを補間する。この結果、本実施形態の医療情報処理装置１０は上記（４）と同様の効果を奏することができる装置として提供できる。

（１０）医療情報処理装置１０の確率密度関数推定手段２２は、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃える。この結果、本実施形態の医療情報処理装置１０は上記（５）と同様の効果を奏することができる装置として提供できる。

（１１）本実施形態の医療情報処理プログラムは、コンピュータを、複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類するクラスタリング手段２１として機能させる。又、医療情報処理プログラムは、コンピュータを、分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する確率密度関数推定手段２２及び、前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する代表値決定手段２３として機能させる。さらに医療情報処理プログラムは、コンピュータを、前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う時間軸移動手段２４として機能させる。この結果、本実施形態のプログラムは、上記（１）の効果を奏するプログラムとして提供できる。

（１２）本実施形態の医療情報処理プログラムは、時間軸移動手段２４により得られた結果を、クラスタリング手段２１、確率密度関数推定手段２２、代表値決定手段２３、時間軸移動手段２４にて繰り返して処理させて収束させる収束手段２５としてコンピュータを機能させる。この結果、本実施形態のプログラムは、上記（２）の効果を奏するプログラムとして提供できる。

なお、前記実施形態を次のように変更して構成することもできる。
○ Ｓ１０では、クラスターの粒度は、そのクラスターに属するサンプル数を用いる方法としたが、これ以外に、まとまりの良さを表わす数値を用いる方法や、両者の組み合わせによるものなどにしてもよい。又、前記まとまりの良さを表わす数値を用いる方法としては、クラスター内の代表値からの各サンプルの距離の和を用いるものや、正規分布として推定した確率密度関数の共分散行列の対角成分の和を用いるものなどがあり、これらの方法でクラスターの粒度を決定してもよい。このようにクラスターの粒度は、種々の方法で決定することができ、限定されるものではない。

医療情報処理装置１０の概略ブロック図。医療情報処理プログラムのフローチャート。（ａ）はクラスタリングを行う前の、複数の被験者に関するある検査項目を有した医療情報の模式図、（ｂ）はクラスタリングを行い、さらに、時間軸を揃えた場合の模式図。

符号の説明

１０…医療情報処理装置、１１…入力装置、１２…データ処理装置、
１３…記憶装置、１４…出力装置（出力手段）、
２１…クラスタリング手段（第１手段）、
２２…確率密度関数推定手段（第２手段）、
２３…代表値決定手段（第３手段）、２４…時間軸移動手段（第４手段）、
２５…収束手段（第５手段）、２６…関連情報付与手段、
２７…新規データ処理手段（確信度算出手段）。

Claims

複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１ステップと、
分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２ステップと、
前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３ステップと、
前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４ステップとを備えることを特徴とする医療情報処理方法。
前記第４ステップにより得られた結果を、さらに、前記第１ステップ〜第４ステップを繰り返させることにより収束させることを特徴とする請求項１に記載の医療情報処理方法。
前記第４ステップにより得られた結果を収束させた後、クラスターに関連情報を付与するステップと、
検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出するステップと、
前記新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力するステップを備えることを特徴とする請求項２に記載の医療情報処理方法。
前記第２ステップは、推定した確率密度関数に基づいて、欠損する部分があるデータを補間することを特徴とする請求項１乃至請求項３のいずれか１項に記載の医療情報処理方法。
前記第２ステップは、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃えることを特徴とする請求項４に記載の医療情報処理方法。
複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１手段と、
分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２手段と、
前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３手段と、
前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４手段とを備えることを特徴とする医療情報処理装置。
前記第４手段により得られた結果を、さらに、前記第１手段〜第４手段にて繰り返して処理させて収束させる第５手段を備えたことを特徴とする請求項６に記載の医療情報処理装置。
前記第５手段にて収束されたクラスターに関連情報を付与する関連情報付与手段と、
検査項目が時系列を持って付与されている新規の医療情報が入力された際、当該新規の医療情報の検査項目が、どのクラスターに属するかを示す確信度を算出する確信度算出手段と、
前記新規の医療情報がどのクラスターに属するかの確信度と、当該新規の医療情報が属するクラスターの関連情報を出力する出力手段を備えることを特徴とする請求項７に記載の医療情報処理装置。
前記第２手段は、推定した確率密度関数に基づいて、欠損する部分があるデータを補間することを特徴とする請求項６乃至請求項８のいずれか１項に記載の医療情報処理装置。
前記第２手段は、クラスター内における医療情報に時間スケールの違いがある場合、時間スケールを揃えることを特徴とする請求項９に記載の医療情報処理装置。
コンピュータを、
複数の対象者に関する複数の検査項目のデータが時系列として付与されている医療情報の集合を、検査項目のデータによってクラスターに分類する第１手段と、
分類された各クラスター内において、複数の対象者に関する複数の医療情報の集合における多次元の時系列の分布を確率密度関数として推定する第２手段と、
前記クラスター内の推定された確率密度関数の中からモデルとなる代表値を決定する第３手段と、
前記代表値を基準として、各クラスター内の全てのサンプルについて最適な時間軸の移動を行う第４手段として機能させることを特徴とする医療情報処理プログラム。
コンピュータを、
前記第４手段により得られた結果を、前記第１手段〜第４手段にて繰り返して処理させて収束させる第５手段として機能させることを特徴とする請求項１１に記載の医療情報処理プログラム。