JP6567484B2

JP6567484B2 - 推計モデル構築システム、推計モデル構築方法及びプログラム

Info

Publication number: JP6567484B2
Application number: JP2016191041A
Authority: JP
Inventors: 信二垂水; 泰隆長谷川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2019-08-28
Anticipated expiration: 2036-09-29
Also published as: JP2018055424A

Description

本発明は、推計モデル構築技術に関する。

自治体や健康保険組合などの保険者では、被保険者である住民や労働者の健康増進と医療費抑制の両立のため、効果的かつ効率的な医療施策の実施が必要とされる。その実現手段のひとつとして、過去に蓄積された電子情報の利活用が注目されている。例えば、住民基本情報や診療報酬明細などの蓄積情報を用いて、地域や事業所などの各集団が有する特性、例えば、年齢分布、保険利用状況、疾病罹患者数などを定量化することで、その特性に応じた適切な医療施策の選択および適用が可能となる。

さらに、現在の特性に加えて、データ分析により将来の状況を推定することで、より適切な医療施策の選択が可能になると期待される。例えば、特許文献１では、メッシュ人口および国際疾病分類別の患者発生率データに基づき、将来人口および年齢や傷病別の患者数を予測する、医療機関の患者シェア分析技術が提案されている。

特開２００６−１１９８６５号公報

蓄積情報を活用して将来を推計する際に、推計対象として、固定された特定の集団のみならず、いくつか異なる粒度、例えば地域であれば、県、市、校区など、を自由に選択し、いずれも高精度に推計できれば、よりきめ細かな医療施策を実施できると期待できる。しかし保険者には、健康状態や通院履歴などが大きく異なる、様々な背景（属性や既往歴）を有する人が混在しているため、推計対象の集団サイズが小さくなると、精度の高い推計が困難だった。特許文献１は、固定された集団のみの推計であり、粒度（集団の属性など）を変化させることはできなかった。

そこで本発明は、上記問題点に鑑みてなされたもので、背景の異なる人が混在した集団においても、高精度で将来の推計を行うことを目的とする。

本発明は、プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって推計モデルを構築する推計モデル構築システムであって、個人毎の医療及び健康に関する蓄積情報と、前記蓄積情報に含まれるデータ項目と、当該データ項目に関連する他のデータ項目であってカテゴリ情報を含むデータ項目との対応関係を記憶する関連カテゴリ情報と、を格納する記憶部と、受け付けた情報または前記蓄積情報に基づいて前記推計モデルの推計対象である第１の目的変数と、前記推計モデルの入力情報である説明変数を決定し、前記関連カテゴリ情報の対応関係に基づいて、前記第１の目的変数に対応するカテゴリ変数を決定し、前記カテゴリ変数の値が所定の条件を満たす前記蓄積情報を分割し、前記分割した蓄積情報毎に対応する第１の推計モデルをそれぞれ構築する推計モデル構築部と、前記第１の目的変数と前記説明変数と前記カテゴリ変数を推計対象の情報とし、前記推計対象の情報に含まれる前記カテゴリ変数の値に応じて、適用する前記第１の推計モデルを選択する将来推計部と、を有する。

本発明の代表的な実施の形態によれば、背景の異なる人が混在した集団においても、精度の高い将来の推計が可能な推計モデルを構築できる。

前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

本発明の実施例１を示し、推計モデル構築システムの構成を示すブロック図である。本発明の実施例１を示し、整形データの一例を示す図である。本発明の実施例１を示し、推計モデル構築処理の一例を示すフローチャートである。本発明の実施例１を示し、関連カテゴリ読出処理の一例を示すフローチャートである。本発明の実施例１を示し、関連カテゴリマトリクスの一例を示す図である。本発明の実施例１を示し、関連カテゴリ間の関連性の一例を示すツリーである。本発明の実施例１を示し、関連カテゴリ間の関連性の他の例を示すツリーである。本発明の実施例１を示し、推計モデル構築用整形データの一例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの一例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの一例を示す図である。本発明の実施例１を示し、推計モデル構築用整形データの他の例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの他の例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの他の例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの他の例を示す図である。本発明の実施例１を示し、ラベル付けテーブルの他の例を示す図である。本発明の実施例１を示し、推計処理の一例を示すフローチャートである。本発明の実施例１を示し、操作画面の一例を示す図である。本発明の実施例１を示し、推計結果表示画面の一例を示す図である。本発明の実施例１を示し、推計情報集約処理の一例を示すフローチャートである。

以下、本発明の実施形態を添付図面に基づいて説明する。

本実施例１では、予め収集した蓄積情報から推計モデルを構築する際に、推計対象である目的変数と関連の強いカテゴリ変数に関して、同一の値を有するレコード毎にデータを分割し、それぞれの値に対応した推計モデルを構築する推計モデル構築システムの例を説明する。

以下、本実施例１の推計モデル構築システムの構成について説明する。図１は、本実施例１の推計モデル構築システムの構成を示すブロック図である。本実施例１の推計モデル構築システムは、データ分析部１０１およびデータベース１２０を有する。データ分析部１０１は、入力部１０２、出力部１０３、演算装置１０４、メモリ１０５および記憶媒体１０６を有する。

入力部１０２は、マウスや、キーボードなどのヒューマンインターフェースであり、データ分析部１０１への入力を受け付ける。出力部１０３は、推計モデル構築システムによる演算結果を出力するディスプレイやプリンタである。記憶媒体１０６は、データ分析部１０１によるデータ分析処理を実現する各種プログラム、及びデータ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリ等）である。

メモリ１０５には、記憶媒体１０６に格納されているプログラムが展開される。演算装置１０４は、メモリ１０５にロードされたプログラムを実行する演算装置であり、例えば、ＣＰＵ、ＧＰＵなどである。以下に説明する処理及び演算は、演算装置１０４が実行する。

本実施例１の推計モデル構築システムは、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

演算装置１０４によって実行されるプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインターフェースを含むとよい。

データ分析部１０１では、記憶媒体１０６に格納されたデータ整形部１０７と、推計モデル構築部１０８と、将来推計部１１１と、推計情報集約部１１２と、関連カテゴリ関連付け部１１３とを機能させる。

演算装置１０４は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置１０４は、データ整形プログラムに従って処理することでデータ整形部１０７として機能する。他のプログラムについても同様である。さらに、演算装置１０４は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

以下、本実施例１で扱うデータの種類と構築する推計モデルについて説明する。本実施例１では、データとして、個人毎のレセプト情報および特定健診情報が時系列で含まれたデータを用いる例を説明する。

構築する推計モデルの推計対象としては、将来の疾病に関する個人毎の医療機関の受診リスクと医療費の期待値、および、それらを統計的に集約した集団の医療機関受診人数と医療費、を推計する例を説明する。

まずデータ整形部１０７について説明する。データ整形部１０７は、データ記憶部１２１に記憶されたレセプト情報および特定健診情報の個人毎の診療報酬明細書等の個人毎の医療及び健康に関する情報を、特定の期間毎、かつ個人毎に集約した推計用の整形データ２０１を構築して、整形データ記憶部１２２に記憶する。なお、本実施例１では整形データ２０１を、個人毎の医療及び健康に関する蓄積情報として扱う。

なお、各記憶部１２１〜１２８に格納される情報はデータベース１２０に限定されるものではなく、データ分析部１０１からアクセス可能な記憶部や記憶装置に格納されても良い。

図２はデータ整形部１０７で整形した推計用の整形データの一例を説明する図である。本実施例１では、例として、個人毎のレセプト情報等の医療に関する情報を年度毎に集約した例を説明する。

２０１は整形データ全体を現す情報である。以下、整形データ２０１に含まれる情報を説明する。基本情報２１０は、個人毎の基本的なプロファイル情報を含む情報である。

ここでは例として、個人ＩＤ２１１と、性別２１２と、年齢２１３とを含む例を示している。個人ＩＤ２１１は、整形データ２０１に含まれる個人毎に一意に割り当てられた個人ＩＤである。性別２１２は、個人毎の性別を表す情報である。例えば、男性を０、女性を１、などのように、特定の変数に割り当てられたカテゴリ変数として表すことができる。年齢２１３は、個人毎の年齢を表す情報である。例えば、３５、２１、５０、のように、整数として表すことができる。

図中２２０は年度毎に集約された個人毎の情報を含む年度情報である。ここでは、２０１４年度の情報を集約した例を示している。特定健診情報２２１は、当該の年度に受けた特定検診に関する情報を含み、例えば、ＢＭＩ（ＢｏｄｙＭａｓｓＩｎｄｅｘ）や、血糖、血圧などの情報が含まれる。図中ではＢＭＩ２２３の情報を例として表示している。

ＢＭＩ２２３は２０１４年度に計測されたＢＭＩの情報を含む。ここに含まれる情報は特定健診における問診の情報、例えば、運動習慣に関するアンケート情報や、飲酒、喫煙などに関するアンケート情報を含んでもよい。この場合、データとしては、例えば、一週間の飲酒の量ごとに割り当てられた記号や数値番号を含むカテゴリ変数としてデータが格納される。

レセプト情報２２２は、当該の年度に発生したレセプトに関する情報を含む。例えば、レセプトに含まれる傷病名に基づき定義された、傷病名毎のレセプトの有無、レセプトの発生数、関連する医療費、などの情報が含まれる。また傷病名を公知の集約情報に基づき疾病にグルーピングした、疾病毎の情報などが含まれる。図中では例として、糖尿病と、糖尿病医療費と、高血圧症、に関する情報が示されている。

糖尿病２２４は、糖尿病に関するレセプトの発生を示す情報で、図示の例では、当該の年度に糖尿病に関連するレセプトが少なくとも一つ以上発生した場合を１、発生しなかった場合を０としている。糖尿病医療費２２５は、糖尿病に関するレセプトに含まれる医療費を示す情報である。図示の例では、当該の年度に糖尿病に関連して発生した医療費に関する情報を含んでいる。

高血圧症２２６は、高血圧症に関するレセプトの発生を示す情報で、図示の例では、当該の年度に高血圧症に関連するレセプトが少なくとも一つ以上発生した場合を１、発生しなかった場合を０としている。

図中２３０は年度毎に集約された個人毎の情報を含む年度情報である。図示の例では、２０１５年度の情報を集約した例を示しているが、集計方法は２０１４年度の年度情報２２０と同様である。ＢＭＩ２３１は、２０１５年度の特定健診で取得されたＢＭＩの情報を含む情報であり、２０１４年度の情報と同様の方法でテーブルに格納された情報である。上述の整形データ２０１を参照することで、個人毎の基本情報と年度毎の健康、医療に関する情報を一度に取得することが可能となる。

次に、推計モデル構築部１０８について説明する。推計モデル構築部１０８では、推計モデル構築処理を実行し、整形データ記憶部１２２に記憶された整形データ２０１に基づき、推計モデルを構築する。

以下、推計モデル構築部１０８で処理する推計モデル構築処理の一例について説明をする。処理の詳細な説明にあたり、まず始めに、本処理で構築する推計モデルの概要について説明する。次に、推計モデルの構築時に、モデル構築に使用される情報の特徴に応じて、２つの異なる形態の推計モデルが構築されうることを説明する。最後に、図３に示される処理のフローチャートを用いて、２つの異なる形態の推計モデルのそれぞれが、どのように構築されるか、各ステップを追って、順に説明する。

まず推計モデルの概要について説明する。本実施例１で構築される推計モデルは整形データ２０１から構築されるものであって、例えば、ひとつの目的変数、ひとつ以上の説明変数、説明変数から目的変数を推定するための変数間の関係性、の情報を含む推計モデルである。

推計モデルとしては、例えば、レセプト情報に基づく２０１５年度の糖尿病に関する医療機関の受診有無（０または１の値をとる）を目的変数とし、特定健診に基づく２０１４年度のＢＭＩ（連続値をとる）２２３と、空腹時血糖（連続値をとる）を説明変数とする推計モデルを構築することができる。

この推計モデルは、予め学習した変数間の関連性を用いて、２０１４年度のＢＭＩ２２３と空腹時血糖の値に基づき、２０１５年度の糖尿病に関する医療機関の受診有無の確率を推計することができる。

このように、取得時間の異なる情報を説明変数と目的変数に設定した推計モデルを構築することで、将来の情報を推計することが可能となる。本推計モデルの場合、ある年度のＢＭＩと空腹時血糖の情報を入力することで、翌年度の糖尿病の医療機関の受診有無の確率を推計することが可能となる。

例えば、この推計モデルにある個人の２０１５年度のＢＭＩの情報と空腹時血糖の情報を入力することで、当該個人の２０１６年度の医療機関の受診有無の値を推計することができる。例えば、受診有無の値を０と１とする場合、０以上かつ１以下の値として、受診有無の確率値を推計することができる。

次に、本実施例１において推計モデル構築部１０８が構築しうる異なる形態の推計モデルについて説明する。本実施例１において推計モデル構築部１０８は、推計モデル内の説明変数に含まれるカテゴリ変数の中で、任意のカテゴリ変数に関し、カテゴリ変数の値ごとに、データを分割し、各データからサブモデルを構築する。さらに、このカテゴリ変数の種類に基づき、２つの異なる形態の推計モデルを構築する。

具体的には、当該カテゴリ変数が、推計モデルを適用する際、つまり、推計したい対象年度の情報に対し、それを推計するために推計モデルが必要とする説明変数の情報を入力する際に、当該カテゴリ変数の値が、（１）確定済みの情報である、（２）未確定の情報である、という２つの条件に応じて、異なる２つの形態の推計モデルを構築しておくことができる。以下、推計モデルの２つの形態について説明する。

第１の形態の推計モデルは、説明変数中のカテゴリ変数Ｃに含まれる情報が、推計モデルの適用時に、確定済みの情報である場合の推計モデルである。例えば、推計モデルとして、２０１４年度のＢＭＩ２２３と、２０１４年度の空腹時血糖と、２０１４年度の糖尿病２２４の有無、の３つの情報を説明変数とし、２０１５年度の糖尿病の受診の有無、を目的変数とする推計モデルが一例である。

ここで、推計モデル構築部１０８は、説明変数に含まれる２０１４年度の糖尿病２２４の有無の値を、データを分割してサブモデルを構築するためのカテゴリ変数として選択するとする。この推計モデルは２０１４年度の情報から２０１５年度の情報を推計するモデルとして構築されているため、あるＮ年度の情報を入力とすると、Ｎ＋１の年度の情報を推計するモデルである。

このとき、カテゴリ変数に指定した２０１４年度の糖尿病有無の値は、他の説明変数である２０１４年度のＢＭＩと空腹時血糖の情報と同様に、２０１４年度の情報であるため、取得済の情報である。例えば、この推計モデルを用いて、２０１５年度の情報から２０１６年度の情報を推定する場合、カテゴリ変数である２０１４年度の糖尿病有無の値には、確定済みである２０１５年度の情報を入力して推計できる。このように、説明変数のカテゴリ変数Ｃに含まれる情報が、推計モデルの適用時において、確定済みの情報である場合、第１の形態の推計モデルとして、カテゴリ変数の値が同一（あるいは所定の条件を満たす）のデータ毎に整形データ２０１を分割し、それぞれの整形データ２０１からそれぞれのカテゴリ変数の値に対応した推計モデルを構築する。なお、カテゴリ変数の値は、必ずしも同一である必要は無く、整形データ２０１の種類によっては、近似値（差分が閾値未満）などの所定の条件を満たすデータ毎に整形データ２０１を分割してもよい。

第２の形態の推計モデルは、説明変数中のカテゴリ変数Ｃに含まれる情報が、推計モデルの適用時に、未確定の情報である場合の推計モデルである。例えば、推計モデルとして、２０１４年度の疾病Ａの受診有無と、２０１５年度の疾病Ａの受診有無を説明変数とし、２０１５年度の疾病Ｂの受診の有無を目的変数とする推計モデルが一例である。

ここで、推計モデル構築部１０８は、説明変数の中の２０１５年度の疾病Ａの受診有無を、データを分割してサブモデルを構築するためのカテゴリ変数として選択するとする。この推計モデルは２０１４年度の情報と２０１５年度の情報から、他の２０１５年度の情報を推計するモデルとして構築されているため、Ｎ年度の情報とＮ＋１年度の情報の入力に基づき、他のＮ＋１年度を推計するモデルである。

このとき、カテゴリ変数に指定した２０１５年度の疾病Ａの受診有無の情報は、目的変数である２０１５年度の疾病Ｂの受診の有無の情報と同じ年度に取得される情報である。そのため、この推計モデルを適用する場合には、このカテゴリ変数の情報は未確定であると考えられる。

例えば、この推計モデルを用いて、２０１５年度の情報から２０１６年度の情報を推計する場合に、カテゴリ変数である２０１６年度の疾病Ａの情報は、他の説明変数とは異なり、推計時には情報が未確定である。この場合には、まず、カテゴリ変数以外の説明変数の情報に基づき、カテゴリ変数の値を推計する第１の推計モデルを構築する。次に、カテゴリ変数の値が同一のデータ毎に整形データを分割し、それぞれのデータからカテゴリ変数の値に対応した第２の推計モデルを構築する。

例えば前述の例では、第１の推計モデルとして、２０１４年度の疾病Ａの受診有無の情報を説明変数とし、２０１５年度の疾病Ａの受診有無の情報を目的変数とする第１の推計モデルを構築する。次に、第２の推計モデルとして、２０１４年度の疾病Ａの受診有無の情報を説明変数とし、２０１５年度の疾病Ｂの受診有無の情報を目的変数とする推計モデルを、２０１５年度の疾病Ａの受診有無の値が同一のデータセットごとにそれぞれ構築する。

この推計モデルを用いて、２０１５年度の情報から２０１６年度の情報を推計する場合は、まず、第１の推計モデルを用いて、２０１５年度の疾病Ａの受診有無の情報から、２０１６年度の疾病Ａの受診有無の確率分布を推計する。次に、推計した２０１６年度の疾病Ａの受診有無の確率分布の下で、第２の推計モデルをそれぞれ適用し、それら結果を統合して、最終的な推定結果とする。

これらの２つの異なる形態の推計モデルは、整形データ２０１に含まれる情報およびデータベース１２０に記憶された情報に基づき、いずれか適切なものが選択されて構築される。

以下、図３を用いて、推計モデル構築部１０８で行われる推計モデル構築処理のフローチャートを説明する。

図３は、推計モデル構築部１０８で実行される推計モデル構築処理の流れを説明するフローチャートである。以下、本フローチャートを用いて、各ステップの処理について説明する。

目的変数・説明変数入力のステップ３０１では、推計モデル構築部１０８は、入力部１０２から入力された情報に基づき、推計対象とする変数を目的変数に決定し、推計に用いる情報を説明変数に決定する。なお、説明変数と目的変数の対応は、事前に説明変数と目的変数の情報がペアとなった情報を推計モデル構築用変数群記憶部１２７に記憶しておき、予め記憶された情報を読み出すことで決定しても良い。

整形データ読出処理のステップ３０２では、推計モデル構築部１０８は、予めデータ整形部１０７で処理されて、整形データ記憶部１２２に記憶された推計モデル構築用の整形データ２０１の情報を、整形データ記憶部１２２から読み出す。

関連カテゴリ変数読出処理のステップ３０３では、推計モデル構築部１０８は、目的変数の情報に基づき、説明変数に含まれる変数の中に、目的変数を推計するにあたり、カテゴリ変数として扱うべき変数が存在するか否かを判定する。この判定は例えば、推計モデル構築部１０８が、関連カテゴリ記憶部１２４に記憶された関連カテゴリマトリクス（関連カテゴリ情報）５０１の情報を用いることで実施される。

図５は、関連カテゴリ記憶部１２４に記憶された関連カテゴリを選択するためのマトリクスの情報である。関連カテゴリマトリクス５０１は、推計対象である対象変数の情報を行方向に設定しに、関連する変数に関する情報を列方向に設定する行列であって、各行および列には整形データ２０１に含まれる項目の情報が含まれる。

行方向の対象変数情報５０２は、関連を探索する元となる対象変数に関する情報が含まれる。列方向の関連変数情報５０３は、関連を探索する先となる項目に関する情報が含まれる。

図示の例では、基本情報Ｂ、Ｎ年度の情報として、Ａ、ｙ１、ｙ２、Ｎ＋１年度の情報として、Ａ、ｙ１、ｙ２の計７つの情報が含まれる例を示す。行列は０、１、または空の情報を含む。空のセルは、当該セルが含まれる行の対象変数が、当該セルが含まれる列の関連先の変数と、関連を持っていないことを示す。

０が入っているセルは、当該セルが含まれる行の対象変数が、当該セルが含まれる列の関連先の変数と、関連を持っており、また、関連変数が、推定時には既に観測済みの情報、すなわち、推定時には情報が整形データに含まれることを示す。

１が入っているセルは、当該セルが含まれる行の対象変数が、当該セルが含まれる列の変数と関連を持っており、また、推定時には未観測の情報、すなわち、推定時には情報が整形データに含まれていないことを示す。例えば、関連変数が、対象変数よりも過去の年度の情報に関する変数であれば、其の変数は観測済みの情報である。一方、関連変数が、対象変数と同じ年度に取得された情報であれば当該変数は推計時には、未観測の情報である。

関連カテゴリマトリクス５０１を用いて関連カテゴリを読み出す処理を、図４のフローチャートを用いて説明する。図４は、推計モデル構築処理の関連カテゴリ変数読出処理のステップ３０３で実行される処理のフローチャートである。

対象変数決定のステップ４０１では、推計モデル構築部１０８が、関連を探索する変数を決定する。具体的には、推計モデル構築部１０８が、推計モデル構築処理の目的変数・説明変数入力のステップ３０１で決定した推計対象の目的変数を、探索する元の変数として決定する。

関連カテゴリ変数探索のステップ４０２では、推計モデル構築部１０８が、関連カテゴリマトリクス５０１を用いて、対象変数と関連するカテゴリ変数を探索する。具体的には、推計モデル構築部１０８が、関連カテゴリマトリクス５０１で対象変数とする変数が含まれる行を探索し、０または１が含まれるセルが存在するか否かを探索する。推計モデル構築部１０８は、０または１が含まれるセルが存在する場合には、該当する列の関連変数を、対象変数に対応した関連カテゴリ変数として、セル内の値と対応付けて、記憶する。

図５で示す関連カテゴリマトリクスを例に説明する。例えば、対象変数が、Ｎ＋１年度のＡの情報である場合は、推計モデル構築部１０８が、０が存在するセルを含む列であるＮ年度のＡを関連変数として選択する。例えば、推計モデル構築部１０８は、対象変数が、Ｎ＋１年度のｙ１の情報である場合は、１が存在するセルを含む列であるＮ＋１年度のＡの情報を関連カテゴリ変数として選択する。

ステップ４０３では、推計モデル構築部１０８が、変数探索のステップ４０２で記憶された関連カテゴリ変数について判定を実施する。推計モデル構築部１０８は、選択された関連カテゴリ変数に、推定時に未確定のカテゴリ変数が含まれるか否かを判定し、含まれる場合は、未確定カテゴリ項目読出のステップ４０４に進む。一方、推計モデル構築部１０８は、推定時に未確定のカテゴリ変数が、含まれない、または、関連カテゴリがひとつも記憶されていない場合は、関連変数情報集約処理のステップ４０５に進む。

なお、推計モデル構築部１０８は、推定時に未確定のカテゴリ変数であるか否かの判定は、関連カテゴリマトリクスから選択した関連カテゴリ変数に対応するセルの値が０であるか１であるかに基づいて判定することができる。

未確定カテゴリ項目対象変数化のステップ４０４では、推計モデル構築部１０８が、ステップ４０２で記憶した関連変数の中で、推定時に未確定のカテゴリ変数を新たな対象変数として設定した後、関連カテゴリ変数探索のステップ４０２に戻る。以後、全ての未確定の関連カテゴリ変数の処理を完了するまで上記ステップ４０２、４０３、４０４を反復して繰り返す。

ステップ４０３の判定と、ステップ４０２、４０３、４０４の繰り返し処理について、図５で示す関連カテゴリマトリクス５０１を例に説明する。

例えば、対象変数が、Ｎ＋１年度のＡである場合は、推計モデル構築部１０８は、０が存在するセルを含む列であるＮ年度のＡが関連カテゴリ変数として記憶する。関連カテゴリマトリクス５０１では、０は、対象変数との関連関係において、関連変数が確定済の変数であることを示す。そのため、推計モデル構築部１０８は、ステップ４０３の判定でＮｏと判定し、ステップ４０５に進む。

一方、対象変数が、Ｎ＋１年度のｙ１である場合は、推計モデル構築部１０８は、１が存在するセルを含む列であるＮ＋１年度のＡを関連カテゴリ変数として選択する。関連カテゴリマトリクス５０１では、１は、対象変数との関連関係において、関連変数が未確定の変数であることを示す。そのため、推計モデル構築部１０８は、ステップ４０３の判定においてＹｅｓと判定し、ステップ４０４に進む。

ステップ４０４では、推計モデル構築部１０８がＮ＋１年度のＡを新たな対象変数に設定する。その後、再度ステップ４０２において、推計モデル構築部１０８は、Ｎ＋１年度のＡに関連するカテゴリ変数として、Ｎ年度のＡを記憶する。この変数は、Ｎ＋１年度のＡとの関連において、セルに０の値を含み、推定時に確定済の変数であるため、推計モデル構築部１０８は、２回目のステップ４０４においてＮｏと判定し、繰り返し処理を終了し、ステップ４０５に進む。

関連変数情報集約のステップ４０５では、推計モデル構築部１０８がこれまでの処理で記憶された関連カテゴリ変数の情報を集約し、関連カテゴリ変数の関連性を示すツリー構造を構築する。

以下、本処理で構築するツリー構造について図６を用いて説明する。図６Ａ、図６Ｂは、図５の関連カテゴリマトリクス５０１を用いて、関連カテゴリ変数の読出処理で読み出される変数の関連性の例を表すツリー構造である。

図６Ａは、対象変数をＮ＋１年度のＡに設定して、関連カテゴリ変数の読出処理を実施した場合のツリー構造である。この例では、対象変数に関連するカテゴリ変数として、Ｎ年度のＡがひとつ読み出されている。図６Ａは、関連性を表すツリー構造であって、図中の四角は変数、矢印は関連性を表す。

図６ＡのＡ＿Ｎ＋１は、Ｎ＋１年度のＡの情報を表す変数、Ａ＿ＮはＮ年度のＡの情報を表す変数を表す。矢印は根元にある変数が関連変数であり、矢印の先にある変数が、根元の関連変数から影響を受ける対象変数である。

このように、対象変数と関連する関連カテゴリ変数が目的変数の推定時に確定済みの変数である場合、対象変数と関連カテゴリ変数のツリー構造上の距離は１となる。このツリー構造は、前記第１の形態の推計モデルに対応する。

図６Ｂは、対象変数をＮ＋１年度のｙ１の情報に設定して、関連カテゴリ変数の読処理を実施した場合のツリー構造である。この例では、対象変数に関連するカテゴリ変数として、Ｎ＋１年度のＡがひとつ目の関連変数として読み出され、次に、Ｎ＋１年度のＡの情報が、推定時に未確定であることから、当該変数を新たな対象変数として読み出されたＮ年度のＡの情報がふたつ目の関連変数として読み出されている。このとき、Ｎ＋１年度のｙ１の情報が、Ｎ＋１年度のＡの情報と関連し、さらに、Ｎ＋１年度のＡの情報が、Ｎ年度のＡの情報と関連している関連性が存在する。

図６Ｂは、上記関連性の情報を表すツリー構造であって、ｙ１＿Ｎ＋１は、Ｎ＋１年度のｙ１の情報を意味する変数、Ａ＿Ｎ＋１は、Ｎ＋１年度のＡの情報を意味する変数、Ａ＿ＮはＮ年度のＡの情報を意味する変数を表す。図６Ｂより、Ｎ＿ＮがＡ＿Ｎ＋１に影響を与え、さらにＡ＿Ｎ＋１は、ｙ１＿Ｎ＋１に影響を与えるという関係性が示されている。

このように、対象変数と関連する関連カテゴリ変数に、推定時に未確定の変数が含まれる場合は、対象変数と関連カテゴリ変数のツリー構造の深さが２以上となる。このツリー構造は、前記第２の形態の推計モデルに対応する。図６Ｂの例では、ｙ１＿Ｎ＋１が根ノードを示し、Ａ＿Ｎ＋１が関連カテゴリ変数の内部ノードを示す。

推計モデル構築部１０８は、本処理で構築したツリー構造を、関連カテゴリ記憶部１２４に記憶する。

以上、推計モデル構築処理内の、関連カテゴリ変数読出処理のステップ３０３について説明を終了する。以下、図３を用いた推計モデル構築処理の説明に戻る。

データ分割ラベル付け処理のステップ３０４では、推計モデル構築部１０８が、推計モデル構築時に実施するデータの分割を行うための、個々のデータの分類用のラベル付け処理を行う。

具体的には、まず、推計モデル構築部１０８は、整形データ２０１に含まれる説明変数のうち、関連カテゴリ変数読出処理のステップ３０３で読み出された関連カテゴリ変数の情報を選択する。次に、推計モデル構築部１０８は、関連カテゴリ変数読出処理のステップ３０３で構築された関連カテゴリ変数間のツリー構造に基づき、対象の変数毎に、当該変数を推計する推計モデルを構築するためのデータ分割用のラベル付けを実行する。以下では、図６Ａと図６Ｂの２つのツリー構造を用いて、それぞれの例を説明する。

まず、図６Ａで示すツリー構造を処理する例を説明する。

図６Ａのツリー構造では、目的変数は、Ａ＿Ｎ＋１、カテゴリ変数はＡ＿Ｎである。図７は、推計モデル構築用整形データ２２００の一例を示す図である。推計モデル構築用整形データ２２００は、整形データ２０１から、関連カテゴリ変数の項目の情報を選択した結果を示す。推計モデル構築用整形データ２２００は、Ｎｏ２２０１と、確定カテゴリ２２０２と、目的変数２２０３と、説明変数２２０４〜２２０５とをひとつのエントリに含む。

本実施例１では、カテゴリ変数Ａ＿Ｎと目的変数Ａ＿Ｎ＋１は、いずれもｙとｎの２種類の値を取りうる変数であるとする。なお、ｙは例えば、カテゴリに該当する場合に設定され、ｎは例えば、カテゴリに含まれない場合に設定される。データ分割ラベル付け処理のステップ３０４では、推計モデル構築用整形データ２２００の情報を用いて、推計が必要な変数毎に、データ分割用のラベル付けを実施する。

図６Ａのツリー構造において、推計が必要な変数は目的変数であるＡ＿Ｎ＋１のひとつだけであるので、推計モデル構築部１０８は、Ａ＿Ｎ＋１を推計するモデルを構築するためのデータ分割処理用のラベル付けを行う。このラベルは、ツリー構造の中で、推計対象である変数の先祖となる変数群の全ての状態の組合せが一意になるように設定する。

例えば、先祖となる変数の直積値を取る変数でラベル付けすることで実施できる。図６Ａのツリーでは、Ａ＿Ｎ＋１の先祖ノードは、Ａ＿Ｎのひとつだけであるので、Ａ＿Ｎの値を直接用いることで、ラベル付けできる。

図８Ａは、図６Ａのツリーに関し、データ分割用のラベルを付与した結果を示すラベル付けテーブル２３００である。関連カテゴリ２３０１は、ラベル付けに用いた変数である。データ分割ラベル２３０２は、付与されたラベルである。図示の例では、Ａ＿Ｎの値をそのままラベルに用いた例を示している。

図８Ｂは、ラベル付けテーブル２３１０の一例を示す図である。ラベル付けテーブル２３１０は、Ｎｏ２３１１と、確定カテゴリ２３１２と、推計対象２３１３と、データ分割ラベル２３１４とをひとつのエントリに含む。

図８Ｂは、図８Ａで示したラベルを用いて、図７に示した推計モデル構築用整形データ２２００にラベル付けした例である。データ分割ラベル２３１４は、カテゴリ変数の情報に基づき生成されたラベルの列である。

次に、図６Ｂで示すツリーを処理する例を説明する。

図９は、推計モデル構築用整形データ２２１０の一例を示す図である。推計モデル構築用整形データ２２１０は、整形データ２０１から、図６Ｂの情報に基づき、関連カテゴリ変数項目の情報を選択した結果を示す。推計モデル構築用整形データ２２１０は、Ｎｏ２２１１と、確定カテゴリ２２１２と、未確定カテゴリ２２１３と、目的変数２２１４と、説明変数２２１５〜２２１６とをひとつのエントリに含む。

図６Ｂの例では、目的変数は、ｙ１＿Ｎ＋１であり、カテゴリ変数は、Ａ＿Ｎ＋１とＡ＿Ｎのふたつが存在する。このうち、Ａ＿Ｎは確定カテゴリであり、Ａ＿Ｎ＋１は未確定カテゴリである。

ここでは、カテゴリ変数Ａ＿ＮとＡ＿Ｎ＋１は、いずれもｙとｎの２種類の値を取りうる変数であるとする。データ分割ラベル付け処理のステップ３０４では、この情報に基づき、推計が必要な変数毎に、当該変数を推計する推計モデル構築時にデータを分割する際のラベル付けを実行する。

図６Ｂのツリーにおいて推計が必要な変数は、目的変数であるｙ１＿Ｎ＋１と、カテゴリ変数Ａ＿Ｎ＋１のふたつである。そこで、ｙ１＿Ｎ＋１を推計する推計モデルを構築するためのデータ分割処理におけるラベル付けと、Ａ＿Ｎ＋１の推計を実行するモデルを構築するためのデータ分割処理におけるラベル付けの、ふたつのラベル付け処理を実行する。

これらのラベル付けも、図６Ａの例と同様に、推計対象の変数の先祖となる変数の値の組合せが一意となるようにラベル付けをすることで実施できる。

図１０Ａは、ラベル付けテーブル２３２０の一例を示す図である。図１０Ａは、図６Ｂのツリーに関し、カテゴリ変数Ａ＿Ｎ＋１を推計するモデル構築のためのデータ分割ラベルを付与された結果を示すラベル付けテーブル２３２０である。

関連カテゴリ２３２１は、ラベル付けに用いた変数である。データ分割ラベル２３２２は、付与されたラベルである。この例では、推計対象のＡ＿Ｎ＋１の先祖となる変数は確定カテゴリのＡ＿Ｎのみであるため、当該値をそのままラベルに用いた例を示している。

図１０Ｂは、ラベル付けテーブル２３３０の一例を示す図である。図１０Ｂは、図１０Ａで示したラベルを用いて、図７に示した推計モデル構築用整形データ２２００のデータにラベル付けした例である。データ分割ラベル２３３４が、カテゴリ変数の情報に基づき付与されたラベルの列を表す。

図１０Ｃは、ラベル付けテーブル２３４０の一例を示す図である。図１０Ｃは、図６Ｂのツリーに関し、目的変数ｙ１＿Ｎ＋１を推計するモデル構築のためのデータ分割ラベルを付与した結果を示すラベル付けテーブル２３４０である。

関連カテゴリ２３４１、２３４２は、当該ラベル付けに用いた変数である。この例では、推計対象のｙ１＿Ｎ＋１の先祖となる変数は、確定カテゴリのＡ＿Ｎと、未確定カテゴリのＡ＿Ｎ＋１のふたつが存在するため、それら２つの値の組合せを用いた値でラベル付けした例を示している。

図１０Ｄは、ラベル付けテーブル２３５０の一例を示す図である。ラベル付けテーブル２３５０は、Ｎｏ２３５１と、確定カテゴリ２３５２と、未確定カテゴリ２３５３と、推計対象２３５４とデータ分割ラベル２３５５とを一つのエントリに含む。

図１０Ｄは、図１０Ｃで示したデータ分割ラベル２３４３を用いて、図９Ｂに示したデータにラベル付けした例である。データ分割ラベル２３５５が、カテゴリ変数の情報に基づき付与されたラベルの列を表す。これらのラベル付け処理は、ツリー構造の中で、根である目的変数との距離が遠いノードに対応する変数から順に、実行する。

図６Ｂの例ではまず、推計モデル構築部１０８が、Ａ＿Ｎ＋１についてラベル付け処理を実行する。図６Ｂのツリーでは、Ａ＿Ｎ＋１の先祖ノードは、Ａ＿Ｎのひとつだけであるので、Ａ＿Ｎの値を用いて、ラベル付けする。

次に、推計モデル構築部１０８は、ｙ１＿Ｎ＋１についてラベル付け処理を実行する。図６Ｂのツリーでは、ｙ１＿Ｎ＋１の先祖ノードは、Ａ＿Ｎ＋１とＡ＿Ｎのふたつが存在するので、推計モデル構築部１０８は、Ａ＿Ｎ＋１の値と、Ａ＿Ｎの値の直積を取った値でラベル付けする。推計モデル構築部１０８は、ラベル付けした情報を、データ分割情報記憶部１２５に記憶する。

ステップ３０５では、推計モデル構築部１０８が、関連カテゴリ変数読出処理のステップ３０３で読出した未確定の関連カテゴリ変数に関して、推計モデルを未構築の変数が含まれるか否かを判定する。推計モデル構築部１０８は、未確定の関連カテゴリ変数が読み出されていない、もしくは、全ての未確定の関連カテゴリについて推計モデルを構築している場合には、カテゴリ別目的変数推計モデル構築処理のステップ３０７に進む。一方、推計モデル構築部１０８が、推計モデルを構築していない未確定の関連カテゴリが存在する場合には、未確定カテゴリ推計モデル構築処理のステップ３０６に進む。

未確定カテゴリ推計モデル構築処理のステップ３０６は、推計モデル構築部１０８の未確定カテゴリ推計モデル構築部１１０で実施される処理である。未確定カテゴリ推計モデル構築部１１０は、関連カテゴリ変数読出処理のステップ３０３で読み出した関連カテゴリ変数及びツリーの情報と、データ分割ラベル付け処理のステップ３０４で処理したラベル情報を用いて、未確定カテゴリ変数を推計する推計モデルを構築する。

このとき、未確定カテゴリ推計モデル構築部１１０は、推計モデルの構築対象の変数に関し、データ分割ラベル付け処理でラベル付けした情報に基づき、データを分割し、それぞれ推計モデルを構築する。未確定カテゴリ推計モデル構築部１１０は、例えば、図１０Ａに示すラベル付けテーブルを用いて、未確定カテゴリＡ＿Ｎ＋１に関する推計モデルを構築する場合、ラベルの値が同一であるデータに、整形データ２０１を分割し、それぞれのデータについて、目的変数と説明変数の関係性を学習する。

本実施例１では、上述のように、ラベルはｙとｎの二種類が存在するため、未確定カテゴリ推計モデル構築部１１０は、整形データ２０１を２つに分割し、それぞれのデータから推計モデルを構築する。推計モデルの構築は、例えば多項ロジスティック回帰や、ＢｏｏｓｔｉｎｇＴｒｅｅなどの公知または周知の手法を用いることができる。

目的変数推計モデル構築処理のステップ３０７では、推計モデル構築部１０８の目的変数推計モデル構築部１０９が、関連カテゴリ変数読出処理のステップ３０３で読み出した関連カテゴリ変数及びツリーの情報と、データ分割ラベル付け処理のステップ３０４で処理したラベル情報を用いて、目的変数を推計する推計モデルを関連するカテゴリ変数の値ごとに構築する。

例えば、図８Ａに示すラベル付けテーブル２３００を用いて、目的変数Ａ＿Ｎ＋１に関する推計モデルを構築する場合、目的変数推計モデル構築部１０９は、対象とするラベルの値が同一であるデータに、整形データ２０１を分割し、それぞれのデータについて、目的変数と説明変数の関係性を学習する。

本実施例１では、ラベルはｙとｎの二種類が存在するため、推計モデル構築部１０８が整形データ２０１を２つに分割し、それぞれのデータから推計モデルを構築する。例えば、推計モデル構築部１０８は、図１０Ｄに示すラベル付けテーブル２３３０を用いて、目的変数ｙ１＿Ｎ＋１（２３５５）に関する推計モデルを構築する場合、（ｙ、ｙ）、（ｙ、ｎ）、（ｎ、ｙ）、（ｎ、ｎ）の４種類のラベルに基づき、整形データ２０１を４つに分割し、それぞれのデータから推計モデルを構築する。推計モデルの構築は、例えば重回帰や多項ロジスティック回帰やＢｏｏｓｔｉｎｇＴｒｅｅなどの広く公知の手法を用いることができる。

上記処理で構築した未確定カテゴリ推計モデルおよび目的変数推計モデルは、推計モデル記憶部１２６に記憶する。

次に、図３のステップ３０８で行われる統合推計モデル構築処理について、以下に説明する。統合推計モデル構築処理では、まず、将来推計部１１１で処理を行った後に、推計情報集約部１１２で処理が行われる。

まず、将来推計部１１１の処理について説明する。将来推計部１１１では、推計モデル記憶部１２６に記憶された推計モデルに基づき、個人（整形データ２０１）毎の情報の将来推計を実施する。

図１１は、将来推計部１１１で実施する処理のフローチャートを示す図である。以下、各ステップについて説明する。

推計対象情報入力処理のステップ１１０１では、将来推計部１１１が、推計対象となるデータの情報と、目的変数の情報と、説明変数の情報と、推計に用いるモデルの情報などの必要な情報を入力部１０２から受け付ける。なお、推計対象のデータとしては、入力部１０２から入力された情報以外にも、予め整形データ記憶部１２２に記憶されたデータを用いてもよい。

モデル読出処理のステップ１１０２では、将来推計部１１１が、対象の目的変数と使用する説明変数に対応した目的変数推計モデルおよび、未確定カテゴリ推計モデルを、推計モデル記憶部１２６から読み出す。

データ分割処理のステップ１１０３では、データ分割情報記憶部１２５に記憶された、データ分割用のラベル情報を読み出す。

ステップ１１０４では、将来推計部１１１が、未推計の未確定カテゴリが存在するか否かを判定する。これは、将来推計部１１１が、モデル読出処理のステップ１１０１で読出した推計モデルの中に、未確定カテゴリ変数を推定するための推計モデル（以下、未確定カテゴリ変数推計モデル）が存在するか否かで判定できる。

将来推計部１１１は、未確定カテゴリ変数が存在し、当該変数の値が未確定である場合は、未確定カテゴリ推計処理のステップ１１０５に進む。一方、将来推計部１１１は、未推定の未確定カテゴリ変数が存在しない場合は、目的変数推計処理のステップ１１０６に進む。

未確定カテゴリ推計処理のステップ１１０５では、将来推計部１１１が、未確定カテゴリ変数推計モデルの中で、適用可能なものをひとつ選択し、適用する。適用は以下のふたつの場合分けで実施される。

ひとつ目の例を説明する。未確定カテゴリ推計モデルがひとつしか存在しない場合、将来推計部１１１は、当該未確定カテゴリ推計モデルを用いて、未確定カテゴリ変数を推計する。この場合、未確定カテゴリ変数は、他に関連カテゴリを持たない、あるいは、関連するカテゴリが全て確定済カテゴリである、のいずれかの条件を満たす。

未確定カテゴリ変数が関連カテゴリを持たない場合は、将来推計部１１１が全ての整形データ２０１を用いて、説明変数から、未確定カテゴリの情報を推計する。未確定カテゴリ変数が関連するカテゴリをもつ場合は、将来推計部１１１は当該関連カテゴリの値ごとに整形データ２０１を分割し、分割した各データに、各カテゴリの値に対応した未確定カテゴリ推計モデルを適用して、未確定カテゴリ変数を推計する。

ふたつ目の例を説明する。未確定カテゴリ推計モデルがふたつ以上存在する場合、未確定カテゴリ推計モデルの中に、未確定カテゴリに関連するカテゴリが未確定のものが含まれる場合がある。

例えば、未確定カテゴリ推計モデルＸと未確定カテゴリ推計モデルＹが存在し、推計モデルＸの推計対象が未確定カテゴリ変数Ｃであって、推計モデルＹの推計対象が未確定カテゴリ変数Ｄで、推計モデルＹに含まれる関連カテゴリがＣ、である場合を考える。

この場合、関連カテゴリＣは未確定であるため、このＣの値が確定しない限り、推計モデルＹを用いた推計を実施することができない。そこで、将来推計部１１１は、まず推計モデルＸを適用して、未確定カテゴリ変数Ｃに関する情報を推計し、次に推計した変数Ｃの情報に基づき、推計モデルＹを適用する。

このように、将来推計部１１１は、関連するカテゴリが未確定のものが含まれないものから順に推計することで、階層的に推計を実施する。具体的には、例えば、カテゴリ変数Ｃがｙとｎの２種類の値を取りうる情報である場合には、将来推計部１１１が、まず推計モデルＸを用いて、ｙの確率を０．６、ｎの確率を０．４、などと確率値を推計する。

次に、将来推計部１１１は、推計モデルＹを用いて、未確定カテゴリ変数Ｃがｙの場合の未確定カテゴリ変数Ｄの値Ｄｙと、未確定カテゴリ変数Ｃがｎの場合の未確定カテゴリ変数Ｄの値Ｄｎ、の２つの情報を推計する。

最後に将来推計部１１１は、これらの情報から期待値を計算し、０．６×Ｄｙ＋０．４×Ｄｎを未確定カテゴリ変数の推計値とする。なお、未確定カテゴリ変数の値の確率値を用いて推計する場合においても、他の確定カテゴリ変数に関しては、データ分割情報記憶部１２５に記憶されたラベル情報に基づき、将来推計部１１１は、データを分割して適用する。

次に、目的変数推計処理のステップ１１０６では、将来推計部１１１が目的変数推計モデルを適用する。目的変数推計モデルの適用は以下の三つの場合分けで実施される。

ひとつ目の例を説明する。目的変数推計モデルに関連カテゴリがひとつも存在しないとき、将来推計部１１１は全ての整形データ２０１を用いて、説明変数から目的値の情報を推計する。

ふたつ目の例を説明する。目的変数推計モデルに含まれる関連カテゴリが全て確定カテゴリ変数である場合、将来推計部１１１は各カテゴリの値ごとに整形データ２０１を分割し、分割した各データに、各カテゴリの値に対応した未確定カテゴリ推計モデルを適用して、未確定カテゴリ変数を推計する。

三つ目の例を説明する。目的変数推計モデルに含まれる関連カテゴリに未確定カテゴリ変数が含まれる場合、未確定カテゴリ変数推計モデルで推計した確率情報を用いて推計する。例えば、未確定カテゴリ推計モデルＹと目的変数推計モデルＺが存在し、未確定カテゴリ推計モデルＹの推計対象が未確定カテゴリ変数Ｄであって、目的変数推計モデルＺの推計対象が変数ｚ，目的変数推計モデルＺに含まれる関連カテゴリが未確定カテゴリ変数Ｄ、である場合を考える。

この場合、未確定カテゴリ変数Ｄは未確定であるため、この値が確定しない限り、目的変数推計モデルＺを用いた推計を実施することができない。そこで将来推計部１１１は、未確定カテゴリ推計モデルＹを用いて推計した未確定カテゴリ変数Ｄに関する確率情報を用いて、目的変数を推計する。具体的には、例えば、未確定カテゴリ変数Ｄがｙとｎの２種類の値を取りうる情報であって、未確定カテゴリ推計モデルＹによって推計された未確定カテゴリ変数Ｄの確率がｙの確率を０．３、ｎの確率を０．７、などの確率値であるとする。

このとき、まず将来推計部１１１は、目的変数推計モデルＺを用いて、未確定カテゴリ変数Ｄがｙの場合の目的変数ｚの値ｚｙと、未確定カテゴリ変数Ｄがｎの場合の目的変数ｚの値ｚｎの２つの情報を推計する。最後にこれらの情報から期待値を計算し、０．３×ｚｙ＋０．７×ｚｎを目的変数ｚの推計値とする。

本推計処理で推計した個人毎の推計情報は、整形データ２０１と合わせて、推計情報記憶部１２８に記憶される。

次に、推計情報集約部１１２の処理について説明する。将来推計部１１１では、推計情報記憶部１２８に記憶された個人毎の推計結果を、ある特定のカテゴリ変数に基づいて集約し、集団毎の推計結果を生成する。

図１４は、推計情報集約部１１２で実施される処理の一例を示すフローチャートを示す図である。以下、各ステップについて説明する。

推計情報読出のステップ１４０１では、推計情報集約部１１２が、推計情報記憶部１２８に記憶された推計結果の情報を読み出す。

集約指標決定のステップ１４０２では、推計情報集約部１１２が、推計情報記憶部１２８から読出した推計結果の情報を集約する指標を決定する。推計情報集約部１１２は、指標として、推計結果の情報と合わせて記憶された個人毎の整形データ２０１に含まれる少なくともひとつ以上のカテゴリ変数を、集約する指標として決定する。指標としては、例えば、個人毎の基本情報に含まれる性別や年齢を１０歳ごとに階級化した情報や、介護保険の階級や、住所情報から取得した所在地に関する情報、などが挙げられる。

集約方法決定のステップ１４０３では、推計情報集約部１１２が、集約指標決定のステップ１４０２で決定したカテゴリ変数に関して、推計情報をどのように集計するかを決定する。例えば、カテゴリ変数毎に集約した情報の合計、平均、最大値、最小値、中央値、最頻値、標準偏差などの集計方法を決定する。

集約処理のステップ１４０４では、推計情報集約部１１２が、集約指標決定のステップ１４０２で決定した集約指標を、集約方法決定のステップ１４０３で決定した集計方法で、推計情報を集計する。集計した結果は、推計情報記憶部１２８に記憶する。

データ分析部１０１が出力部１０３に表示するグラフィカルユーザインターフェイスの一例を以下に示す。

図１２は、本実施例１を実現する操作画面の一例を示すグラフィカルユーザインターフェイスの図である。図示の例では、整形データ２０１を選択し、選択した整形データ２０１の推計モデルを構築し、構築した推計モデルのパラメータおよびアーキテクチャに関する情報を表示するための操作画面１２００の一例を示す。

図中１２０１は、整形データ２０１を選択するためのボタンである。１２０２は推計モデル構築処理を実行するためのボタンである。１２０３は、推計モデルのパラメータおよびアーキテクチャを画面上に表示するためのボタンである。

図中１２０４は、推計モデルで用いられる目的変数と、説明変数と、カテゴリ変数の情報を表示する表である。

図中１２０５は、推計モデルに含まれる目的変数推計モデルの中の目的変数推定用パラメータの情報をカテゴリ変数の値による分類ごとに表示する表である。１２０６は、推計モデルに含まれる未確定カテゴリ変数推計モデルの中の、未確定カテゴリ変数推定用パラメータの情報をカテゴリ変数の値による分類ごとに表示する表である。１２０７は、推計モデルのアーキテクチャとして、使用された説明変数と、目的変数と、カテゴリ変数との関係性をグラフにより可視化する表示領域である。

表示領域１２０７は、カテゴリ変数を四角、説明変数を丸の図形で示し、説明変数と目的変数の関係性を矢印で表している例を示している。

データ分析部１０１のユーザは本実施例１で示す操作画面１２００を用いることにより、推計モデルの構築に必要な整形データ２０１を選択できる。そして、データ分析部１０１は、選択した整形データに基づき、推計モデルの構築処理を実行できる。ユーザは、操作画面１２００を用いることで、構築した推計モデルの説明変数や、目的変数や、カテゴリ変数などの各種パラメータと、関係性であるモデルのアーキテクチャを把握できる。

図１３は本実施例１を実現する推計結果表示画面１３００の一例を示すグラフィカルユーザインターフェイスの図である。推計結果表示画面１３００は、推計モデルを用いて推計結果を表示するための画面の例を示す。

図中１３０１は、推計結果を選択するためのボタンである。１３０２は推定した結果を、年代（または年度）ごとに集約して表示するための表である。図示の例では、２０１５年度の情報に基づいて、２０１６年度と２０１７年度の２型糖尿病の医療費を推計した結果を表示する例を示している。

図中１３０３は、集計対象を指定するためのプルダウンであり、プルダウン１３０３で指定された集計対象に応じて、推計情報集約処理が実行され、画面内の情報が更新される。１３０４は、読み出す推定結果の目的変数を指定するためのプルダウンである。プルダウン１３４指定された対象疾病の情報を画面内の情報として表示する。

図中１３０５は、プルダウン１３０３で指定された集計対象で、プルダウン１３０４で指定された疾病の推計結果を集計した結果を表示するためのグラフ表示領域である。１３０６は、１３０３で指定した集計対象で、１３０４で指定した疾病の集計結果を地図として表示するための地図表示領域である。

以下、本実施例１に係る推計モデル構築システムの効果を説明する。

本実施例１に示した推計モデル構築システムは、目的変数を推計するモデルを構築する際に、説明変数に含まれる変数の中で、任意のカテゴリ変数に関して、カテゴリ変数の値が同一のデータ毎にデータを分割し、それぞれのデータから推計モデルを構築することができる。これにより、属性や既往歴等の背景が異なる個体から構成された集団を推計する場合に、推計精度を向上することができる。

本実施例１に示した推計モデル構築システムは、カテゴリ変数の値に基づいてデータを分割してモデルを構築する際、推計時にこのカテゴリ変数の値が確定した値であるか、それとも未確定の値であるか否かを判定する。

推計モデル構築システムは、推計時にカテゴリ変数の値が未確定の場合は、カテゴリ変数を推計するモデルと、目的変数を推計するモデルをふたつ構築する。これにより、推計時にカテゴリ変数の値が未確定な場合でも、高い推計精度で推計することができる。例えば、ある年度の、ある疾病に関する医療費を推計する場合に、ある年度の疾病の有無の情報をカテゴリ変数とし、この疾病の有無の情報を推計するモデルと、医療費を推計するモデルのふたつの推計モデルを構築し、それらを階層的に適用することで、医療費を高い精度で推計できる。また、医療費と疾病の有無の情報の２つを同時に推計できる。

本実施例１に示した推計モデル構築システムは、カテゴリ変数の値に基づいて、それぞれモデルを構築するため、カテゴリ変数の値ごとに構築したモデルのパラメータを把握できる。これにより、ある特定の群に関し、興味のある目的変数に影響している変数をそれぞれのモデルから把握することができる。

本実施例１に示した推計モデル構築システムは、個人毎に集計した情報を任意のカテゴリ変数で集約し、集団の推計を実施することができる。これにより、ユーザが所望する所定の粒度で、集団の将来の健康状態や医療状態を把握することが出来る。

以下、本実施例１に係る推計モデル構築システムの変形例を説明する。

本実施例１では、対象とするデータとして、個人毎のレセプト情報および特定健診情報が時系列で含まれたデータを用いた例を説明し、さらに、これらの情報を年度毎に集約し、年度単位に推計するモデルを構築する例を説明したが、本実施例１で扱うことの出来るデータはこれに限定されない。

例えば、健康情報に関するセンシング情報や、保険に関する情報など、広く健康や医療あるいは介護に関する情報を扱うことができる。また、情報を集約する時間間隔も、四半期ごと、月ごと、など、広く様々な時間間隔のモデルを構築することができる。また、本実施例１の推計モデル構築システムは、定期的な試験の結果などに基づいて教育分野に適用することができる。

本実施例１では、推計モデルとして、様々な推計モデルを扱うことができる。例えば、カテゴリ変数の情報を推計するモデルとしては、ロジスティック回帰やニューラルネットワークなどの、説明変数と目的変数の関係性を式で記述したモデルや、サポートベクトルマシンやＫＮＮ（k-nearest neighbor algorithm）のように、モデル構築データの部分集合をパラメータ化して保持するモデルや、ベイジアンネットワークのように、説明変数と目的変数の確率的な依存関係を保持するモデルや、ランダムフォレストのように、いくつかの分類ルールを集約したモデル、など、様々なモデルを推計モデルとして活用することができる。

本実施例１では、目的変数に関するカテゴリ変数を指定する方法として、関連カテゴリマトリクス５０１を用いる方法を説明したが、関連カテゴリマトリクス５０１以外の方法を用いて、目的変数に関連するカテゴリ変数を読み出しても良い。例えば、関連カテゴリ変数読出処理で構築する目的変数と関連カテゴリ変数群の関係性を示したツリー構造を、事前に構築し、記憶しておき、当該情報を直接用いて、関連カテゴリ変数を読み出しても良い。

本実施例１では、個人毎に推計する推計モデルを構築し、推計した結果を、所定のカテゴリに基づき集団として推計する例を示したが、推計は個人よりも大きな粒度で実施しても良い。例えば、市単位で集約した情報に関して推計する推計モデルを構築しても良い。

以上のように、本実施例１に係る推計モデル構築システムは、カテゴリ変数毎の推計モデル構築処理、および、推定時に未確定のカテゴリ変数を推計する推計モデル構築処理を構築し、背景の異なる人の混在した集団においても、精度の高い将来推計が可能な推計モデルを構築することができる。

第１の実施例では、推計対象の目的変数と関連するカテゴリ変数が、事前に関連カテゴリ記憶部１２４に記憶された推計モデル構築システムの例を説明した。本実施例２では、整形データ２０１に基づき、目的変数と関連するカテゴリ変数を決定するための処理を実行する推計モデル構築システムの例を説明する。構成や処理などは、関連カテゴリ関連付け部１１３を除き、前記実施例１と同様であるため、重複した説明を省略する。

関連カテゴリ関連付け部１１３では、整形データ記憶部１２２に記憶された整形データ２０１と、目的変数の情報を用いて、目的変数に関するカテゴリ変数の項目を決定する。

以下、カテゴリ変数の項目の決定方法を説明する。

一つ目の例を説明する。目的変数と同一の項目であって、過去の時系列で取得された情報を、目的変数と関連するカテゴリ変数とする。例えば、目的変数がある年度の疾病の受診の有無である場合に、過去の年度の同じ疾病の受診の有無を、目的変数と関連するカテゴリ変数として指定する。

例えば、将来のある疾病の受診の有無は、現在の疾病の受診状況に大きく依存するという関係性を有する。そこで、現在の疾病の受診状況に応じて、推計モデルを分離することで、推計精度を向上する。

二つ目の例を説明する。目的変数と同じ時期の情報であって、目的変数との類似度の高い変数をカテゴリ変数として選択する。例えば、相関や相互情報量が一定（閾値）以上の項目を、カテゴリ変数として選択する。例えば、同じ年度のある疾病の医療費に関連するカテゴリ変数として、同じ疾病の受診の有無の情報をカテゴリ変数として指定する。これにより、他の変数に依存した変数の推計精度を向上することができる。

三つ目の例を説明する。ある変数を仮の関連カテゴリ変数として設定し、当該変数に関して、関連カテゴリ変数の値が同一のデータ毎に分割した整形データ２０１からそれぞれ目的変数を推計する推計モデルを構築し、それらの推計モデルを用いて目的変数を推計した結果と、整形データ２０１を分割せずに単一の推計モデルで推計した結果、または異なるカテゴリ変数で整形データ２０１を分割し、構築した推計モデルで推計した結果、のいずれかを比較し、推計の比較結果（推計精度）に基づいて、関連カテゴリ変数を決定する。推計精度の比較は、例えば、過去の整形データ２０１を用いた交差検証により実施することができる。

以下、本本実施例２に係る推計モデル構築システムの効果を説明する。

本本実施例２に示した推計モデル構築システムは、整形データ２０１に基づき、推計モデル構築の対象とする整形データ２０１の分割方法を決定することができる。これにより、例えば整形データ２０１に含まれる情報の質が変化した場合であっても、当該整形データ２０１に適切な推計モデルを自動的に構築することが可能となる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１データ分析部
１０２入力部
１０３出力部
１０４演算装置
１０５メモリ
１０６記憶媒体
１０７データ整形部
１０８推計モデル構築部
１０９目的変数推計モデル構築部
１１０未確定カテゴリ推計モデル構築部
１１１将来推計部
１１２推計情報集約部
１１３関連カテゴリ関連付け部
１２０データベース
１２１データ記憶部
１２２整形データ記憶部
１２４関連カテゴリ記憶部
１２５データ分割情報記憶部
１２６推計モデル記憶部
１２７推計モデル構築用変数群記憶部
１２８推計情報記憶部

Claims

プログラムを実行するプロセッサと、前記プログラムを格納するメモリとを有し、前記プログラムを実行することによって推計モデルを構築する推計モデル構築システムであって、
個人毎の医療及び健康に関する蓄積情報と、前記蓄積情報に含まれるデータ項目と、当該データ項目に関連する他のデータ項目であってカテゴリ情報を含むデータ項目との対応関係を記憶する関連カテゴリ情報と、を格納する記憶部と、
受け付けた情報または前記蓄積情報に基づいて前記推計モデルの推計対象である第１の目的変数と、前記推計モデルの入力情報である説明変数を決定し、前記関連カテゴリ情報の対応関係に基づいて、前記第１の目的変数に対応するカテゴリ変数を決定し、前記カテゴリ変数の値が所定の条件を満たす前記蓄積情報を分割し、前記分割した蓄積情報毎に対応する第１の推計モデルをそれぞれ構築する推計モデル構築部と、
前記第１の目的変数と前記説明変数と前記カテゴリ変数を推計対象の情報とし、前記推計対象の情報に含まれる前記カテゴリ変数の値に応じて、適用する前記第１の推計モデルを選択する将来推計部と、
を有することを特徴とする推計モデル構築システム。
請求項１に記載の推計モデル構築システムであって、
前記推計モデル構築部は、さらに、
前記カテゴリ変数の情報が前記推計対象の情報に含まれるか否かを判定し、当該情報が推計対象の情報に含まれない場合には、前記カテゴリ変数を第２の目的変数とし、前記説明変数に基づき前記カテゴリ変数の値の確率分布を推計する第２の推計モデルを構築し、
前記将来推計部は、
前記第２の推計モデルを用いて前記説明変数に基づき前記第２の目的変数である前記カテゴリ変数の値の確率分布の情報を推計し、さらに、前記推計した前記カテゴリ変数の値の確率分布の情報に従って、前記カテゴリ変数の値が所定の条件を満たす蓄積情報ごとに構築した前記第１の推計モデルを適用することで、前記第１の目的変数を推計することを特徴とする推計モデル構築システム。
請求項１に記載の推計モデル構築システムであって、
前記推計モデル構築部は、
前記推計モデルの推計対象である第１の目的変数に関連するカテゴリ変数を抽出する処理と、前記抽出したカテゴリ変数を新たな第１の目的変数とする処理と、を反復することで、前記第１の目的変数を根ノードとし、前記第１の目的変数に関連するカテゴリ変数の内部ノードとする木構造を抽出し、
前記木構造に基づき、前記根ノードまたは内部ノードを第１の目的変数とする推計モデルをそれぞれ構築し、
さらに、前記各ノードを第１の目的変数とする推計モデルを構築する際に、前記内部ノードの子ノードであるカテゴリ変数の値が所定の条件を満たす情報ごとに前記蓄積情報を分割し、前記分割した蓄積情報毎に前記各ノードを第１の目的変数とする推計モデルを構築し、
前記将来推計部は、
前記内部ノードを第１の目的変数とする推計モデルを用いて、前記内部ノードに対応するカテゴリ変数の推計モデルを推定し、さらに、前記内部ノードが子ノードを持つ場合には、前記子ノードを第１の目的変数とするカテゴリ変数推計モデルから推計された前記子ノードに対応するカテゴリ変数の値の確率分布の情報に従って、前記内部ノードに対応するカテゴリ変数推計モデルを適用することで、前記内部ノードの確率分布の情報を推計することを特徴とする推計モデル構築システム。
請求項１に記載の推計モデル構築システムであって、
前記蓄積情報と、第１の目的変数の情報を用いて、前記第１の目的変数に関するカテゴリ変数の項目を決定する関連カテゴリ関連付け部をさらに有することを特徴とする推計モデル構築システム。
請求項２に記載の推計モデル構築システムであって、
前記推計モデルは、前記第１の目的変数を推計するためのパラメータを有し、
前記推計モデル構築システムはさらに、前記推計モデルの前記パラメータと、前記推計モデルに含まれる第１の目的変数と説明変数と第１の目的変数に関連するカテゴリ変数の関係性の少なくともいずれかひとつを提示する出力部を有することを特徴とする推計モデル構築システム。
プロセッサとメモリとを有する計算機で推計モデルを構築する推計モデル構築方法であって、
前記計算機が、個人毎の医療及び健康に関する蓄積情報と、前記蓄積情報に含まれるデータ項目と、当該データ項目に関連する他のデータ項目であってカテゴリ情報を含むデータ項目との対応関係を記憶する関連カテゴリ情報と、を当該計算機の記憶部に格納する第１のステップと、
前記計算機が、受け付けた情報または前記蓄積情報に基づいて前記推計モデルの推計対象である第１の目的変数と、前記推計モデルの入力情報である説明変数を決定する第２のステップと、
前記計算機が、前記関連カテゴリ情報の対応関係に基づいて、前記第１の目的変数に対応するカテゴリ変数を決定する第３のステップと、
前記計算機が、前記カテゴリ変数の値が所定の条件を満たす前記蓄積情報を分割し、前記分割した蓄積情報毎に対応する第１の推計モデルをそれぞれ構築する第４のステップと、
前記計算機が、前記第１の目的変数と前記説明変数と前記カテゴリ変数を推計対象の情報とし、前記推計対象の情報に含まれる前記カテゴリ変数の値に応じて、適用する前記第１の推計モデルを選択する第５のステップと、
を含むことを特徴とする推計モデル構築方法。
請求項６に記載の推計モデル構築方法であって、
前記第４のステップは、さらに、
前記カテゴリ変数の情報が前記推計対象の情報に含まれるか否かを判定し、当該情報が推計対象の情報に含まれない場合には、前記カテゴリ変数を第２の目的変数とし、前記説明変数に基づき前記カテゴリ変数の値の確率分布を推計する第２の推計モデルを構築し、
前記第５のステップは、
前記第２の推計モデルを用いて前記説明変数に基づき前記第２の目的変数である前記カテゴリ変数の値の確率分布の情報を推計し、さらに、前記推計した前記カテゴリ変数の値の確率分布の情報に従って、前記カテゴリ変数の値が所定の条件を満たす蓄積情報ごとに構築した前記第１の推計モデルを適用することで、前記第１の目的変数を推計することを特徴とする推計モデル構築方法。
請求項６に記載の推計モデル構築方法であって、
前記第４のステップは、
前記推計モデルの推計対象である第１の目的変数に関連するカテゴリ変数を抽出する処理と、前記抽出したカテゴリ変数を新たな第１の目的変数とする処理と、を反復することで、前記第１の目的変数を根ノードとし、前記第１の目的変数に関連するカテゴリ変数の内部ノードとする木構造を抽出し、前記木構造に基づき、前記根ノードまたは内部ノードを第１の目的変数とする推計モデルをそれぞれ構築し、さらに、前記各ノードを第１の目的変数とする推計モデルを構築する際に、前記内部ノードの子ノードであるカテゴリ変数の値が所定の条件を満たす情報ごとに前記蓄積情報を分割し、前記分割した蓄積情報毎に前記各ノードを第１の目的変数とする推計モデルを構築し、
前記第５のステップは、
前記内部ノードを第１の目的変数とする推計モデルを用いて、前記内部ノードに対応するカテゴリ変数の推計モデルを推定し、さらに、前記内部ノードが子ノードを持つ場合には、前記子ノードを第１の目的変数とするカテゴリ変数推計モデルから推計された前記子ノードに対応するカテゴリ変数の値の確率分布の情報に従って、前記内部ノードに対応するカテゴリ変数推計モデルを適用することで、前記内部ノードの確率分布の情報を推計することを特徴とする推計モデル構築方法。
請求項６に記載の推計モデル構築方法であって、
前記蓄積情報と、第１の目的変数の情報を用いて、前記第１の目的変数に関するカテゴリ変数の項目を決定する第６のステップをさらに含むことを特徴とする推計モデル構築方法。
請求項７に記載の推計モデル構築方法であって、
前記推計モデルは、前記第１の目的変数を推計するためのパラメータを有し、
前記推計モデルの前記パラメータと、前記推計モデルに含まれる第１の目的変数と説明変数と第１の目的変数に関連するカテゴリ変数の関係性の少なくともいずれかひとつを提示する第７のステップを、さらに含むことを特徴とする推計モデル構築方法。
プロセッサとメモリとを有する計算機を制御するプログラムであって、
個人毎の医療及び健康に関する蓄積情報と、前記蓄積情報に含まれるデータ項目と、当該データ項目に関連する他のデータ項目であってカテゴリ情報を含むデータ項目との対応関係を記憶する関連カテゴリ情報と、を当該計算機の記憶部に格納する第１のステップと、
受け付けた情報または前記蓄積情報に基づいて推計モデルの推計対象である第１の目的変数と、前記推計モデルの入力情報である説明変数を決定する第２のステップと、
前記関連カテゴリ情報の対応関係に基づいて、前記第１の目的変数に対応するカテゴリ変数を決定する第３のステップと、
前記カテゴリ変数の値が所定の条件を満たす前記蓄積情報を分割し、前記分割した蓄積情報毎に対応する第１の推計モデルをそれぞれ構築する第４のステップと、
前記第１の目的変数と前記説明変数と前記カテゴリ変数を推計対象の情報とし、前記推計対象の情報に含まれる前記カテゴリ変数の値に応じて、適用する前記第１の推計モデルを選択する第５のステップと、
を前記計算機に実行させることを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記第４のステップは、さらに、
前記カテゴリ変数の情報が前記推計対象の情報に含まれるか否かを判定し、当該情報が推計対象の情報に含まれない場合には、前記カテゴリ変数を第２の目的変数とし、前記説明変数に基づき前記カテゴリ変数の値の確率分布を推計する第２の推計モデルを構築し、
前記第５のステップは、
前記第２の推計モデルを用いて前記説明変数に基づき前記第２の目的変数である前記カテゴリ変数の値の確率分布の情報を推計し、さらに、前記推計した前記カテゴリ変数の値の確率分布の情報に従って、前記カテゴリ変数の値が所定の条件を満たす蓄積情報ごとに構築した前記第１の推計モデルを適用することで、前記第１の目的変数を推計することを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記第４のステップは、
前記推計モデルの推計対象である第１の目的変数に関連するカテゴリ変数を抽出する処理と、前記抽出したカテゴリ変数を新たな第１の目的変数とする処理と、を反復することで、前記第１の目的変数を根ノードとし、前記第１の目的変数に関連するカテゴリ変数の内部ノードとする木構造を抽出し、前記木構造に基づき、前記根ノードまたは内部ノードを第１の目的変数とする推計モデルをそれぞれ構築し、さらに、前記各ノードを第１の目的変数とする推計モデルを構築する際に、前記内部ノードの子ノードであるカテゴリ変数の値が所定の条件を満たす情報ごとに前記蓄積情報を分割し、前記分割した蓄積情報毎に前記各ノードを第１の目的変数とする推計モデルを構築し、
前記第５のステップは、
前記内部ノードを第１の目的変数とする推計モデルを用いて、前記内部ノードに対応するカテゴリ変数の推計モデルを推定し、さらに、前記内部ノードが子ノードを持つ場合には、前記子ノードを第１の目的変数とするカテゴリ変数推計モデルから推計された前記子ノードに対応するカテゴリ変数の値の確率分布の情報に従って、前記内部ノードに対応するカテゴリ変数推計モデルを適用することで、前記内部ノードの確率分布の情報を推計することを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記蓄積情報と、第１の目的変数の情報を用いて、前記第１の目的変数に関するカテゴリ変数の項目を決定する第６のステップをさらに含むことを特徴とするプログラム。
請求項１２に記載のプログラムであって、
前記推計モデルは、前記第１の目的変数を推計するためのパラメータを有し、
前記推計モデルの前記パラメータと、前記推計モデルに含まれる第１の目的変数と説明変数と第１の目的変数に関連するカテゴリ変数の関係性の少なくともいずれかひとつを提示する第７のステップを、さらに含むことを特徴とするプログラム。