JP2023551514A - 生成的モデル予測における欠落している共変量からの不確実性を考慮する方法およびシステム - Google Patents
生成的モデル予測における欠落している共変量からの不確実性を考慮する方法およびシステム Download PDFInfo
- Publication number
- JP2023551514A JP2023551514A JP2023532695A JP2023532695A JP2023551514A JP 2023551514 A JP2023551514 A JP 2023551514A JP 2023532695 A JP2023532695 A JP 2023532695A JP 2023532695 A JP2023532695 A JP 2023532695A JP 2023551514 A JP2023551514 A JP 2023551514A
- Authority
- JP
- Japan
- Prior art keywords
- variance
- results
- data
- subject
- baseline data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000008569 process Effects 0.000 claims description 50
- 238000004088 simulation Methods 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000009795 derivation Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013480 data collection Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 208000024827 Alzheimer disease Diseases 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
生成的モデル予測において、欠落している共変量からの不確実性を考慮するためのシステムおよび方法。一実施形態は、既知の予後的に重要なベースラインデータの組を使用して作成される生成的モデル内で使用される不確実性に関する値を更新する方法を含む。方法は、生成的モデルにおいて、既知の予後的に重要なベースラインデータを所与とする結果における分散に関する値を決定するためのステップを含み、ステップは、未知の予後的に重要なベースラインデータの組に関する値をデータ補完することと、両方のデータの組が与えられると、各対象に関する結果における説明および非説明分散に関する推定値を決定することとを含む。
Description
(関連出願の相互参照)
本願は、米国特許法第119条(e)のもと、あらゆる目的のために参照することによってその開示がその全体として本明細書に組み込まれる2020年12月1日に出願され、「Accounting for Uncertainties from Missing Baseline Data in Digital Twin Predictions」と題された米国仮特許出願第63/119,847号の利益および優先権を主張する。
本願は、米国特許法第119条(e)のもと、あらゆる目的のために参照することによってその開示がその全体として本明細書に組み込まれる2020年12月1日に出願され、「Accounting for Uncertainties from Missing Baseline Data in Digital Twin Predictions」と題された米国仮特許出願第63/119,847号の利益および優先権を主張する。
(発明の分野)
本発明は、概して、生成的予測モデルにおける不確実性を定義することに関し、より具体的に、欠落している(または非実質的な)ベースラインデータからもたらされ得る不確実性に応答して、これらのモデルが正確な予測を維持することを可能にすることに関する。
本発明は、概して、生成的予測モデルにおける不確実性を定義することに関し、より具体的に、欠落している(または非実質的な)ベースラインデータからもたらされ得る不確実性に応答して、これらのモデルが正確な予測を維持することを可能にすることに関する。
生成的モデルは、様々な分野における種々の用途を有する。従来的に、これらのモデルは、データ分布からの観察結果を使用して訓練されるが、要約統計量も、生成的モデルを訓練または調節することにおいて同様に有用である。生成的モデルによって出力される予測に応答して、不確実性の程度は、必然的に、かなりの影響を有する(例えば、疾患を伴う患者に関する臨床結果を予測することにおいて、予測モデルが確信している場合、医師の推奨される治療過程が、異なり得る)。したがって、母集団に関連する生成的モデル予測は、必然的に、その母集団に関して利用可能である初期または「ベースライン」データに応じて決定されるであろう。ベースラインデータが、完全に(または主として)既知であるとき、生成的予測モデルは、特に、堅牢であろう。逆に言えば、予後的に重要なデータが欠落しているとき、データ補完(imputation)は、不正確である傾向があり、堅牢性が、損なわれるであろう。正確な値のデータ補完は、複雑な問題であり得る。何故なら、モデルが使用される個々の研究の結果に影響を与え得る多種多様な対象が存在する一方、人材募集チャネルまたは研究ロジスティクスのような因子が、加えて、結果として生じる研究母集団の標本に影響を及ぼし得るからである。
本発明の実施形態による生成的モデル予測における欠落している共変量からの不確実性を考慮するためのシステムおよび方法が、例証される。一実施形態は、モデル予測の結果に予測通りに影響を与え得る1つ以上の共変量に関して、実質的に欠落している対象情報である既知のベースラインデータの組を受信する方法を含む。方法は、1つ以上の共変量に関する種々の値を、既知のベースラインデータの組を用いて、データ補完し、実験的データセットを作成し、実験的データセットを所与とする各対象に関する結果における推定される説明および非説明分散を決定する。方法は、各対象に関する結果における推定される説明および非説明分散を利用して、既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値を導出し、既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値に基づいて、生成的モデルにおける不確実性を定義する。
さらなる実施形態では、既知のベースラインデータの組を所与とする母集団に関する結果における一般的な分散に関する推定値は、以下の式を使用して評価され、
式中、Yは、母集団に関する結果であり、Xは、既知のベースラインデータの組であり、nは、母集団における対象の数であり、Δexp,iは、対象iに関する結果における説明分散であり、Δunexp,iは、対象iに関する結果における非説明分散であり、αは、既知のベースラインデータの組に関して一様に選択される相関係数である。
さらなる実施形態では、特定の対象に関する結果における推定される説明分散は、各実験的データセットに関して、実験的データセットを予測モデルの中にデータ補完することと、予測モデルを用いて、複数のシミュレーションを実行することと、複数のシミュレーションにわたる予測された結果における平均に関する値を導出することとによって評価される。この評価は、予測された結果における平均に関する全ての値にわたる分散の計算も含む。
なおもさらなる実施形態では、特定の対象に関する結果における推定される非説明分散は、各実験的データセットに関して、実験的データセットを予測モデルの中にデータ補完することと、予測モデルを用いて、複数のシミュレーションを実行することと、複数のシミュレーションにわたる予測された結果における分散に関する値を導出することとによって評価される。この評価は、予測された結果における分散に関する各値にわたる平均値の計算も含む。
なおもさらなる実施形態では、生成的予測モデルが、予測を作成するために適用される。
別の実施形態では、全ての対象が共変量のより高いまたはより低い値を体系的に有する場合等、欠落しているベースラインデータに関してデータ補完された値が対象間の相関を完全に考慮しない限り、所与の生成的予測モデルに関するデフォルトの仮定は、対象からの分散寄与が互いに関係づけられていないということであろう。所与の生成的予測モデルに関する別のデフォルトの仮定は、推定される非説明分散がゼロに等しいということであろう。
さらなる別の実施形態では、対象のあらゆる組み合わせに関する更新された共分散値をリストアップする更新された共分散マトリクスが、以下の式において、共分散マトリクスを組み合わせることから確立され、
式中、Yは、母集団に関する結果であり、Xは、既知のベースラインデータの組であり、nは、母集団における対象の数であり、Δexp,iは、対象iに関する結果における説明分散であり、Δunexp,iは、対象iに関する結果における非説明分散であり、αi,jは、対象iおよびjに関する相関係数である。
さらなる実施形態では、既知のベースラインデータを所与とする結果における一般的な分散は、以下の式から決定され、
式中、Covupd(i,j)は、更新された共分散マトリクスにおける対象iおよびjに関する更新された共分散値である。
別の実施形態では、1つ以上の共変量に関する種々の値は、それらの間の不確実性の互いに関係づけられた値を有しながら、データ補完される。
別の実施形態では、方法は、モデル特有の尺度から、個々の共変量に対して絶対的または相対的な重みを割り当てる特徴の重要度に関する値を導出することと、特徴の重要度を使用することによって、欠落している共変量に起因する、不確実性の比率を推定することとによって、欠落している共変量から導出される不確実性の構成要素の定量的推定値を生産することをさらに含む。
一実施形態は、命令を含む非一過性コンピュータ読み取り可能な媒体を含み、命令は、コンピュータによって実行されると、モデル予測の結果に予測通りに影響を与え得る1つ以上の共変量に関する実質的に欠落している対象情報である既知のベースラインデータの組を受信することと、1つ以上の共変量に関する値を既知のベースラインデータの組と組み合わせ、実験的データセットを作成することと、実験的データセットを所与とする各対象に関する結果における推定される説明および非説明分散を決定することと、各対象に関する結果における推定される説明および非説明分散を利用して、既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値を導出することと、既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値に基づいて、生成的モデルにおける不確実性を定義することとを含むプロセスをコンピュータに実行させる。
さらなる実施形態では、既知のベースラインデータの組を所与とする母集団に関する結果における一般的な分散に関する推定値は、以下の式を使用して評価され、
式中、Yは、母集団に関する結果であり、Xは、既知のベースラインデータの組であり、nは、母集団における対象の数であり、Δexp,iは、対象iに関する結果における説明分散であり、Δunexp,jは、対象jに関する結果における非説明分散であり、αは、既知のベースラインデータの組に関して一様に選択される相関係数である。
さらなる実施形態では、特定の対象に関する結果における推定される説明分散は、各実験的データセットに関して、実験的データセットを予測モデルの中にデータ補完することと、予測モデルを用いて、複数のシミュレーションを実行することと、複数のシミュレーションにわたる予測された結果における平均に関する値を導出することとによって評価される。この評価は、予測された結果における平均に関する全ての値にわたる分散の計算も含む。
なおさらなる実施形態では、特定の対象に関する結果における推定される非説明分散は、各実験的データセットに関して、実験的データセットを予測モデルの中にデータ補完することと、予測モデルを用いて、複数のシミュレーションを実行することと、複数のシミュレーションにわたる予測された結果における分散に関する値を導出することとによって評価される。この評価は、予測された結果における分散に関する各値にわたる平均値の計算も含む。
なおもさらなる実施形態では、全ての対象が共変量のより高いまたはより低い値を体系的に有する場合等、欠落しているベースラインデータに関するデータ補完された値が対象間の相関を完全に考慮しない限り、所与の生成的予測モデルに関するデフォルトの仮定は、対象からの分散寄与が互いに関係づけられていないということであり、所与の生成的予測モデルに関する別のデフォルトの仮定は、推定される非説明分散がゼロに等しいということであろう。
別の実施形態では、対象のあらゆる組み合わせに関する更新された共分散値をリストアップする更新された共分散マトリクスが、以下の式において、共分散マトリクスを組み合わせることから確立され、
式中、Yは、母集団に関する結果であり、Xは、既知のベースラインデータの組であり、nは、母集団における対象の数であり、Δexp,iは、対象iに関する結果における説明分散であり、Δunexp,jは、対象jに関する結果における非説明分散であり、αi,jは、対象iおよびjに関する相関係数である。
さらなる実施形態では、既知のベースラインデータを所与とする結果における一般的な分散は、以下の式から決定され、
式中、Covupd(i,j)は、更新された共分散マトリクスにおける対象iおよびjに関する更新された共分散値である。
特許または出願ファイルは、カラーで実行される少なくとも1つの図面を含む。カラー図面を伴う本特許または特許出願の写しは、請求および必要な手数料の納付に応じて、特許庁によって提供されるであろう。
本発明の例示的実施形態として提示される説明および請求項は、以下の図およびデータグラフを参照して、より完全に理解されるであろうが、本発明の範囲の完全な規定として解釈されるべきではない。
本発明のいくつかの実施形態によるシステムおよび方法は、生成的モデル予測の文脈において、欠落している共変量を考慮することができる。入力共変量を所与として、予期される結果のみならず可能な結果の分散も予測することが可能である予測モデルは、説明全体を通して、「生成的モデル」、「予測モデル」、または「生成的予測モデル」と称され得る。生成的予測モデルを作成することにおいて、該モデルの中に入力される共変量の中の未知数は、2つの主要な形態で生じ得る共通の課題である。1つのそのような形態、散発性欠落は、共変量が観察されるが、それらの分布がサンプル間で矛盾するときに生じ、それによって、個々のサンプルの欠落している共変量は、必ずしも、別のサンプルの欠落している共変量と同一ではないこともある。データギャップが取り得る他の形態、一様性欠落は、1つ以上の共変量が対象母集団の全体に関して全く測定されないときに生じる。本発明の多数の実施形態によるシステムおよび方法は、一様性欠落および散発性欠落の問題に適用可能である。
生成的モデルは、典型的に、データ補完を通して、欠落している共変量を補償することが可能である。そのようなデータ補完は、予測を行うための先行体として(事前データ補完)、または予測プロセス自体の一部として(予測的データ補完)のいずれかで実施されることができる。しかしながら、データ補完は、データ補完された共変量の正確度が、結果として生じる予測の堅牢性に対して、実質的な影響を有することが予期されないときに使用される傾向がある。共変量が、実際、予後的に重要である場合、モデル予測の不確実性に対する影響は、より大きい。結果として、既知のベースラインデータと結果決定因子データとの間に差異が存在するとき、殆どの事前データ補完または予測的データ補完方法は、補足される必要があるであろう。
予測において使用される母集団のためのデータ収集プロセスが、予測モデルを訓練するために最終的に使用されるデータ収集プロセスに対して、バイアスをかけられているとき、母集団内の欠落している共変量は、訓練データと比較して、分布差異(すなわち、異なる平均、異なる分散、または他の異なる形状パラメータ)を有する可能性が高い。測定共変量と非測定共変量との間のどんな関係も、したがって、それらの差異を特徴付けるために不十分であり得る。もしそうならば、データ取得プロセスおよび非測定共変量に対するそれらの影響に関する詳細を伴わずに、生成的モデル予測の不確実性値は、該差異を補償するために、より広範囲である必要があるであろう。本発明の多くの実施形態によるプロセスが、モデル予測の不確実性に対する欠落している共変量の影響を考慮することができる。ある実施形態では、プロセスは、生成的モデルが訓練された母集団と、特定の予測が行われている母集団との間の潜在的な差異を考慮することができる。本発明のある実施形態によるプロセスは、モデル予測の不確実性に関する推定値を提供するために、先行する点を組み込むことができる。
全分散の法則は、以下の公式に従う。
予測モデル化の文脈において、この公式に条件付き確率を適用すると、個々の対象iに関して、いくつかのベースラインデータは、既知であり(Xknown)、いくつかのベースラインデータは、未知であり、推定される必要がある(Xmissing)とき、結果における分散(Y)は、以下の通り、描写されることができる。
既知のベースラインデータを所与とする結果における分散は、本説明全体を通して、「Var(Y|X)」または「コホート間分散」とも称され得る。
対象iに適用されるようなこの公式の第1の項は、「説明分散」(Δexp,i)と見なされることができる一方、第2の項は、「非説明分散」(Δunexp,i)と見なされることができる。本発明の多くの実施形態によるシステムに関して、欠落している共変量に関して、値がデータ補完されるとき、分散の説明構成要素(または単に「推定される説明分散」)は、予測された結果の分散の(別個のデータ補完にわたって取り込まれる)平均として推定されることができる。逆に言えば、いくつかのそのような実施形態に関して、分散の非説明構成要素(「推定される非説明分散」)は、結果の平均予測にわたる分散として推定されることができる。両方の値が、決定されると、本発明のいくつかの実施形態によるプロセスは、対応する不確実性の推定値で関連する生成的モデルを更新することができる。
いくつかの実施形態では、プロセスは、欠落している共変量からもたらされる不確実性の割合に関する推定値と、潜在的な共変量の変動性に起因する不確実性の割合に関する推定値とを単一の不確実性の定量的尺度に組み合わせることができ、それは、既存の方法(例えば、事前データ補完)にわたる追加の不確実性として報告されることができる。いくつかのそのような実施形態では、分布の合理的な範囲に及ぶ事前データ補完された値の組が、選定され得る。データ補完された値が予測を行うために使用されると、プロセスは、結果の分布を不確実性に関する値に変換することができる。
ある実施形態では、推定される非説明分散の決定は、サンプルを横断して互いに関係づけられていると仮定されることができ、予測モデル(例えば、予測的データ補完)を生産する過程にわたるコホート間分散の導出につながる。
いくつかの実施形態では、予測に影響を与える母集団サンプルは、不確実性の互いに関係づけられた値を有すると仮定されることができる。本発明のいくつかの実施形態によるプロセスは、確実性の値間の相関の程度を改変することができる(例えば、実践者によって手動で、経験則に基づいて自動的に等)。そのような実施形態のもと、より低い相関は、モデルを訓練する母集団に対するベースラインデータにおけるより大きな潜在的差異、および拡張によるより大きな不確実性を考慮し得る。
ここで図に目を向けると、本発明のいくつかの実施形態による不確実性を考慮するプロセスを描写するフローチャートが、図1に図示される。本説明では、用語「共変量」または「変数」は、調査研究における対象の人物的特性(例えば、年齢、性別、CAT走査結果)を指すであろう一方、ベースラインデータは、研究の開始時において、すでに利用可能なデータを指す。
プロセス100は、生成的モデルの予測された結果に対する重要な効果を有する可能性が高い情報を決定するために、ベースラインデータを精査する(110)。重要性に関する閾値は、限定ではないが、所与のモデルに関連付けられる対象の数、および考慮される共変量の合計量を含む因子に従って変動し得る。本発明の多くの実施形態によると、ベースラインデータの精査(110)は、任意の生成的モデルの不確実性にかなり影響を及ぼす、実質的な可能性を伴う利用可能でない共変量に関する全ての利用可能なベースラインデータの分析を含むことができる。精査を通して、プロセス100は、(1)予後的に重要な(もたらされる結果に対する重大な影響を有する可能性が高い)、および、(2)予測モデルを訓練するために使用されているデータセットにおいて、主としてまたは完全に考慮されていない共変量を特定する。
本発明の多くの実施形態によると、プロセスは、対象の組に関して収集されるベースラインデータの中で、欠落している共変量を決定することができる(120)。共変量が「欠落している」として分類されるために、全ての対象が共変量に関する利用可能でないベースラインデータを有する必要はない。所与の生成的モデルに関して、予後的に重要な共変量に関する利用可能なベースラインデータを有しない対象の大多数は、共変量が欠落していると見なされるために十分であり得る。
1つ以上の欠落している共変量の組を所与として、本発明の多くの実施形態によるプロセス100は、複数の予測シミュレーションの過程にわたって、欠落している共変量に関する値を生成的モデルの中にデータ補完し得る(130)。本説明では、用語「予測シミュレーション」または「シミュレーション」は、生成的モデルが予測された結果が生産されるまでモデル化データの特定の組を用いて実行されることを指し得る。本発明の多くの実施形態では、欠落している共変量に関する値をデータ補完することは、予測シミュレーションを実行することを含み得、既知のベースラインデータは、モデル化データの特定の組の中に組み込まれることができる。いくつかのそのような実施形態では、欠落している共変量は、限定ではないが、線形回帰に基づく推定値を含む様々な方法を通して、他の既知の共変量の値を利用して、それらの値を推定されることができる。欠落している共変量が推定されると、プロセス100は、欠落している共変量の推定値をモデル化データの特定の組の中に組み込み得る。
本発明の多くの実施形態によるプロセス100は、複数の予測シミュレーションを実行するデータ補完された欠落している共変量に関する種々の結果予測を収集し得る(140)。本発明のいくつかの実施形態による種々の結果予測を収集することは、生成的モデルに関する結果として生じる結果を決定するために、複数の予測シミュレーションを実行することを含むことができる。多数の実施形態では、プロセスは、複数の予測シミュレーションに対応する結果予測の組を収集し得る。いくつかの実施形態では、プロセスは、欠落している共変量に関するどのデータ補完された値が、どの結果予測に対応するかの考慮を維持し得る。
プロセス100は、欠落している共変量に関する値を繰り返してデータ補完すること(130)、および種々の結果予測を収集すること(140)を通して、分散近似に関する値を導出し得る(150)。分散近似に関する値は、「既知のベースラインデータを所与とする分散」または「コホート間分散」に関する近似とも称され得る。プロセス100は、既知のベースラインデータを所与とする分散を査定することにおいて、既知のベースラインデータの組を利用する生成的モデルにおいて反映される不確実性値を修正する(160)ことが可能であり得る。
いくつかの実施形態では、不確実性値を導出する代替手段は、「特徴の重要度」を使用し得る。本発明のそのような実施形態によるプロセスは、予後的な重要度に基づいて、個々の共変量(または「特徴」)に絶対的および/または相対的な重みを割り当てることによって、特徴の重要度を評価することができる。いくつかのそのような実施形態では、特徴の重要度の尺度は、欠落している共変量から導出される不確実性の構成要素の定量的推定値を生産するために使用されることができる。特徴の重要度に関する値は、個々の共変量と結果との間の相関係数から導出され得る。代替として、特徴の重要度は、他のモデル特有の尺度から導出され得る。
いくつかのそのような実施形態では、全体の変動性に関する推定値が、特徴の重要度から導出されることもできる。この例は、共変量の各々と結果との間の決定係数(R2)によによって不確実性の比率をスケーリングすることである。欠落している共変量に起因する不確実性値の比率に関する値は、同様に、特徴の重要度の測定値から推定されることができる。例えば、推定値は、全ての特徴の重要度の大きさの総合計に対する欠落している共変量の特徴の重要度の大きさのような標準化された公式から導出され得る。
いくつかの実施形態では、欠落している共変量に帰する、不確実性の部分に関する値を導出することは、本説明では「参照データセット」と称されるデータセットを使用し得る。参照データセットは、該欠落している共変量に帰する、不確実性の部分を推定するために使用される欠落している共変量を記憶することができる。参照データセットが、着目母集団に関連する場合、参照データセットは、一様性欠落に帰する、不確実性の比率に関する値を生産し得る。いくつかのそのような実施形態によるシステムは、参照データセットに関する予測を作成するために、生成的モデルを使用し得、欠落している共変量が、代替として存在し、欠落していると設定される。共変量が存在するときの予測における不確実性の割合的低減は、欠落している共変量を含む場合に関して、着目母集団に関する不確実性の割合に割り当てられることができる。
本発明の多くの実施形態によるシステム200の例が、図2に図示される。特定の研究母集団の構成は、研究の設計およびロジスティクスから、使用される特定の研究施設および人材募集チャネルまで、複数の因子によって影響を与えられ得るため、正確なデータ補完が、特に、重要である。加えて、所与の予測モデルに関する不確実性または信頼度の程度は、そのモデルの中にデータ補完されるデータの幅に大きく依存する。再度、予後的に重要なベースラインデータは、特に、実際の研究結果220に影響を与える可能性が高い共変量をカプセル化する。生成的モデルに関連付けられる不確実性を決定することにおいて、全てのベースラインデータが保有する予後的な重要度の程度が、分析および分類され得る。したがって、ベースラインデータは、既知の予後的に重要なベースラインデータ205および未知の予後的に重要なベースラインデータ215に分割され得る。
本発明のいくつかの実施形態によるベースラインデータの第1のカテゴリ、既知の予後的に重要なベースラインデータ205は、所与の集団に関して一様に、または、ほぼ一様に利用可能であるデータを含むことができる。情報を収集することにおいて、より多くの予後的に重要な情報が、特定の共変量について既知であればあるほど、最終的な生成的モデルの信頼度は、より高くなるであろう。例えば、癌に関する研究を反映するモデルでは、対象のそれぞれの喫煙歴に関して収集された情報は、既知であるものと、実際の研究結果220に対する実質的な影響を有する可能性が高いものとの両方である。本発明の多くの実施形態によると、既知の予後的に重要なベースラインデータ205は、最終的な生成的モデルの予測パラメータ210に対する直接的かつ定量化可能な影響を有することができる。ベースラインデータのその分類は、即座に、アクセス可能であり、したがって、特定のモデルのパラメータを訓練することに対するその影響は、直接的である。
逆に言えば、第2のカテゴリ、すなわち、未知の予後的に重要なベースラインデータ215は、特定のモデルに対する不確定な影響を有し得る。未知の予後的に重要なベースラインデータ215は、その不在が所与の予測の信頼度/不確実性に有意な程度まで負の影響を与えるデータである。例えば、以前の仮説研究では、殆どの参加者は、回答が参加者の癌を発症する可能性に実質的に影響を与え得る随意の質問(例えば、あなたの職業は、何ですか)に回答しないことを選定し得る。このデータも予後的に重要であるが、その影響の程度は、既知の予後的に重要なベースラインデータ215と比較して、未知である。
予後的に重要なデータが既知であるか、未知であるかにかかわらず、データは、実際の研究結果220に影響を与え得る。したがって、実際の研究結果220を近似することにおいて、本発明の多数の実施形態によるシステムは、既知の予後的に重要なベースラインデータ205を現在の生成的モデルの予測パラメータ210の中に直接データ補完することができる。
未知の予後的に重要なベースラインデータ215に関して、生成的モデルの予測パラメータ210を訓練するために、未知のデータは、推定される必要があり得る。しかしながら、このデータがモデルを訓練するために使用される母集団における多様性によって影響を与えられる可能性が高いであろうから、推定値における正確度は、モデルに関する全体的な確実性に実質的に影響を及ぼし得る。前述のように、所与の予測モデルに関する不確実性または信頼度の程度は、データの幅に大きく依存する。生成的モデルが最終的な結果に影響を与える可能性が高いデータへのアクセスを有しない場合、予測が変わらないこともあるが、予測についての確実性は、変わり得る。
本発明の多くの実施形態によるシステムに関して、未知の予後的に重要なベースラインデータ215に関する複数の推定値が、使用され得る。そうすることにおいて、未知の予後的に重要なベースラインデータ215に関する複数の可能な値が、異なるシミュレーションの過程にわたって、生成的モデルの予測パラメータ210の中に個々にデータ補完されることができる。典型的に、生成的モデルを使用するシステムは、一定のデータセットを用いて、複数のシミュレーションを実行することを通して、分散の形態で、確実性を取得し得る。しかしながら、未知の予後的に重要なベースラインデータ215を考慮するために、未知のデータの複数のデータ補完が、実施されることができ、値が、記録されることができる。それらの場合、複数の値をデータ補完することは、観察されるモデルに対する特定の共変量の影響の幅を観察するための同様の機会を提供し得る。
このプロセスは、生成的モデルの予測パラメータ210のもと、複数のシミュレーションを使用することを通して実施され、種々の生成的モデルのシミュレーション結果225を取得することができる。データ補完された値に関連付けられる結果を精緻化するために、複数のシミュレーションが、未知の予後的に重要なベースラインデータ215の各個々のデータ補完に関して実施され得る。複数シミュレーションの最終的な結果を、不確実性に関する有効な推定値の中に組み込むことにおいて、2つの重要な値が、必要とされ得る。
本発明のある実施形態による生成的モデルのシミュレーション結果225は、結果235から推定される説明分散に関する値を決定するために使用されることができる。広義に、推定される説明分散は、群間の分散を指し得る。未知の予後的に重要なベースラインデータ215に関する複数の異なる値がデータ補完される事例に関して、推定される説明分散は、別個のデータ補完を横断して、結果における分散に関する予期される値(すなわち、E[Var(Y|XKnown)])を査定し得る。
第2に、シミュレーション結果は、結果230から推定される非説明分散を決定するために使用されることもできる。広義に、非説明分散は、群内の分散を指し得る。未知の予後的に重要なベースラインデータ215に関する複数の異なる値が、データ補完される事例に関して、非説明分散は、別個のデータ補完を横断して、予期される結果における分散(すなわち、Var(E[Y|XKnown]))を査定し得る。
組み合わせられると、シミュレーション結果から取得される説明および非説明分散の推定値は、既知のベースラインデータを所与とする結果における分散に関する値を生産するために使用されることができる。これは、未知のベースラインデータが実際の研究結果220に対して有する可能性が高い影響を考慮する更新された不確実性値240に対応し得る値である。
前述のように、既知のベースラインデータを所与とする結果における分散に関する値が、更新された不確実性値240を取得するために使用され得る。本発明の多くの実施形態によると、既知のベースラインデータを所与とする結果における分散は、説明および非説明分散に関する推定値の組から母集団に概して適用されるように、推定され得る。そうすることにおいて、システムは、以下の公式を使用して、更新された分散を予測し得る。
式中、nは、母集団における対象の数であり得、Δexp,iは、対象iに関する結果における説明分散であり得、Δunexp,iは、対象iに関する結果における非説明分散であり得る。
本発明のいくつかのそのような実施形態では、母集団内の共分散に関する無視できるほどの差異の仮定のもと、相関係数の形態が、αによって表わされ得る。相関係数は、全ての対象に対して、データ補完され、かつ一定であり得る値であり得る。相関係数のデータ補完に関するデフォルト値は、(限定ではないが)0、0.1、0.5、または1等の種々の値を含み得る。相関係数の値は、データ補完された分布、Xmissingが対象間の相関を完全に考慮しないという懸念を考慮するようにデータ補完されることができる。本発明のそのような実施形態による決定は、各対象に関する分散の説明構成要素が、互いに関係づけられず、したがって、上記に示されるように、αを組み込まないことも仮定し得る。一方、非説明構成要素は、そのような実施形態のもと、対象間で互いに関係づけられることができる。
代替として、本発明の多くの実施形態によると、既知のベースラインデータ(Xknown)を所与とする結果(Y)における分散を導出することは、以下の公式に従い得る。
これは、対象を横断した共分散マトリクスにおける全ての項の平均を表し、対象の数(n)によってスケーリングされ得る。図3に図示される本発明のある実施形態では、説明および非説明分散の組み合わせが、マトリクスにおいて表され得る。それらの状況のもと、既知のベースラインデータを所与とする結果における分散を決定するために使用される値は、本説明が、更新された共分散マトリクス330と称し得る実体を通して導出されることができる。
本発明のいくつかの実施形態によるプロセスは、説明および非説明分散を切り離して使用するのではなく、対象間の共分散を考慮することができる。本発明の多くの実施形態によると、前の公式を使用するとき、更新された共分散マトリクスは、Xknownを所与とする結果における分散を決定するために必要とされる全ての共分散値を表し得る。更新された共分散マトリクスは、対象の各対間の共分散も考慮し得るので、既知のベースラインデータを所与とする結果における分散のより具体的な推定値をも提供し得る。最終的に、更新された共分散マトリクスに関する値を導出することは、2つの構成マトリクスの組み合わせを通して行われ得る。
1つのそのような構成マトリクスは、説明共分散マトリクス310であり、それは、各対象(または対の対象)に関する分散(または共分散)の説明構成要素を表す。本発明の多数の実施形態による共分散マトリクスは、各対の対象間の共分散を提供する正方形マトリクスである。このマトリクスに関して、対角線は、各対象に関する説明分散を表すことができる(共分散マトリクスにおける行Xおよび列Xに関して、Cov(X,X)=Var(X)であるので)。しかしながら、本発明の多くの実施形態によると、デフォルトの仮定は、各対象に関する分散の説明構成要素が、互いに関係しないということであり得る。本仮定を所与として、各対象に関する説明分散のみが、考慮され得、2つの異なる対象間の仮定された共分散において、不在があり得る。結果として、本発明の多くの実施形態による説明共分散マトリクスは、非ゼロ値のみが、各対象に関するそれぞれの説明分散推定値である対角線マトリクスの形態であり得る。
一方、本発明の種々の実施形態による非説明共分散マトリクス320は、分散の非説明構成要素を表すことができる。したがって、非説明共分散マトリクス320の対角線は、各対象に関する分散の非説明構成要素をリストアップし得る。説明分散マトリクスと異なり、デフォルトの仮定は、分散の非説明構成要素が、対象間で互いに関係し得るということである。したがって、マトリクスにおけるあらゆる非対角値は、依然として、それぞれ、行および列に対応する対象間の共分散の非説明構成要素を示し得る(例えば、「行X、列Y」および「行Y、列X」は、対象XとYとの間の共分散の非説明構成要素を例証する)。正規共分散の場合と同様、対象XおよびYに対応する要素は、共分散の非説明構成要素を決定することにおいて、以下の公式に従い得る。
式中、ρx,yは、対象xとyとの間の相関係数であり、Δunexp,xは、対象xに関する分散の非説明構成要素の平方根であり、Δunexp,yは、対象yに関する分散の非説明構成要素の平方根である。
説明共分散マトリクス310および非説明共分散マトリクス320の組み合わせは、図3に図示されるように、更新された共分散マトリクス330を生産し得る。上で記述されるように、本発明の種々の実施形態による更新された共分散マトリクスは、対象を横断した共分散マトリクスにおける全ての項の平均によって、結果における分散を決定するために使用されることができ、対象の数(n)によってスケーリングされる。この値は、本発明の多くの実施形態では、最適な不確実性範囲に対応することができる。
説明および非説明分散に関するそれぞれの推定値を取得するために、複数のシミュレーションを実行するプロセス400の例が、図4に図示される。ベースラインデータセットを個々のシミュレーションの中にデータ補完することによって、プロセス400は、ベースラインデータにおけるギャップからもたらされる欠落している共変量を近似することができる(410)。複数のベースラインデータセットを確立することにおいて、未知のベースラインデータに関する複数の近似が、使用され得る。データ補完された値が、予測を行うために使用されることと全く同じように、結果の分布は、不確実性値を割り当てるために使用され得る。
本発明の多くの実施形態によると、不確実性は、説明および非説明分散を推定することを通して取得され得る。推定される説明分散を決定すること(420)は、ベースラインデータセットをデータ補完するとき、シミュレーションにわたって、異なるデータ補完にわたる結果分散の平均値を決定することを含み得る。これは、単一のデータ補完に関して、複数のシミュレーションにわたる結果分散を導出すること、および/または、複数の異なるデータ補完が実行した後の平均値結果分散を決定することを含むことができる。
単一のデータ補完に対応するモデル化データの特定の組に関して、シミュレーションにわたる結果分散を導出することは、欠落している共変量の値を調節することなく、データ補完が複数のシミュレーションを受けることを含み得る。本発明の多くの実施形態では、複数のシミュレーションは、少なくとも10になり得る。複数のシミュレーションを所与として、出力は、複数の結果であり得る。そして、シミュレーションにわたる結果分散は、複数の結果にわたる分散に関連し得る。
「異なるデータ補完」にわたる平均値を決定することは、欠落している共変量に関して複数の異なる値がデータ補完されていることに関連し得る。本発明の多くの実施形態では、異なるデータ補完の数は、少なくとも10になり得る。異なるデータ補完の組を所与として、各データ補完は、(前のステップにおいて述べたように)複数のシミュレーションを実行し、出力は、結果分散に関する値の組であり得、各々は、単一のデータ補完に対応する。そして、異なるデータ補完にわたる平均値を決定することは、結果分散に関する値の組の平均値に関連し得る。結果分散に関する全ての値の平均値を決定することを通して、本発明の多くの実施形態によるプロセスは、次いで、説明分散に関する推定値を生産し得る。
推定される非説明分散を決定すること(430)は、本発明の多くの実施形態のもと、同様のステップを利用することができる。ベースラインデータセットをデータ補完するとき、推定される非説明分散を決定すること(430)は、シミュレーションにわたって、異なるデータ補完にわたる平均値結果の分散を決定することを含み得る。これも、単一のデータ補完に関する複数のシミュレーションにわたる平均値結果を導出することと、複数の異なるデータ補完からの平均値結果にわたる分散を決定することとを含むことができる。
単一のデータ補完に対応するモデル化データの特定の組に関して、シミュレーションにわたる平均値結果を導出することは、欠落している共変量の値を調節することなく、データ補完が複数のシミュレーションを受けること含み得る。本発明の多くの実施形態では、複数のシミュレーションは、少なくとも10になり得る。複数のシミュレーションを所与として、出力は、複数の結果であり得る。そして、シミュレーションにわたる平均値結果は、複数の結果の平均値に関連し得る。
「異なるデータ補完」にわたる分散を決定することは、異なる値が欠落している共変量に関してデータ補完されることに関連し得る。異なるデータ補完の組を所与として、各データ補完は、(前のステップにおいて述べたように)複数のシミュレーションを実行し、出力は、結果分散に関する値の組であり得、各々が、単一のデータ補完に対応する。そして、異なるデータ補完にわたる分散を決定することは、平均値結果に関する値の組にわたる分散に関連し得る。
平均値結果に関する値の組にわたる分散を決定することを通して、プロセス400は、次いで、推定される非説明分散を決定し得る(430)。本発明の多くの実施形態では、プロセス400は、例えば、以下の公式を通して、推定される説明および非説明分散を使用し、コホート間分散の推定値を導出し得る(440)。
コホート間分散を所与として、プロセス400は、コホート間分散の評価に従って、モデルの不確実性を更新することができる(450)。特に、コホート間分散の導出は、生成的モデルに関連付けられた不確実性に関する値に直接マップすることができる(既知のベースラインデータの特定の組を使用するとき)。不確実性に関する値が(既知のベースラインデータの特定の組のもと)獲得されると、プロセス400は、既知のベースラインデータの同一の組を使用する将来の生成的モデルの中にこの値を入力し得る。
生成的予測モデルにおける不確実性を考慮するための具体的なプロセスが、上記に説明されるが、様々なプロセスのうちのいずれも、具体的な用途の要件に対して適切であるように、不確実性値を確立するために利用されることができる。ある実施形態では、ステップは、示され、説明される順序およびシーケンスに限定されない任意の順序またはシーケンスで実行または実施され得る。いくつかの実施形態では、上記のステップのうちのいくつかは、待ち時間および処理時間を低減させるために、適切な場合、実質的に同時に、または並行して実行または実施され得る。いくつかの実施形態では、上記のステップのうちの1つ以上が、省略され得る。本発明の上記の実施形態は、不確実性を推定するために、分散の利用に言及して説明されるが、本明細書に開示される技法は、任意のタイプの不確実性の修正において使用され得る。
(A.生成的モデルを修正するためのシステム)
(1.モデル修正システム)
本発明のいくつかの実施形態によるモデルおよびモデル化データセットの修正、および予測モデルの生成を提供するシステムが、図5に図示される。ネットワーク500は、通信ネットワーク550を含む。通信ネットワーク550は、ネットワーク550に接続されたデバイスが他の接続されたデバイスと通信することを可能にするインターネット等のネットワークである。サーバシステム510、530、および540が、ネットワークに接続されている。サーバシステム510、530、および540の各々は、ネットワークを介して、ユーザにクラウドサービスを提供するプロセスを実行する内部ネットワークによって互いに通信可能に接続された1つ以上のサーバの群である。しかしながら、サーバシステム510、530、および540は、任意の数のサーバを含み得、任意の追加の数のサーバシステムが、ネットワーク550に接続され得る。
(1.モデル修正システム)
本発明のいくつかの実施形態によるモデルおよびモデル化データセットの修正、および予測モデルの生成を提供するシステムが、図5に図示される。ネットワーク500は、通信ネットワーク550を含む。通信ネットワーク550は、ネットワーク550に接続されたデバイスが他の接続されたデバイスと通信することを可能にするインターネット等のネットワークである。サーバシステム510、530、および540が、ネットワークに接続されている。サーバシステム510、530、および540の各々は、ネットワークを介して、ユーザにクラウドサービスを提供するプロセスを実行する内部ネットワークによって互いに通信可能に接続された1つ以上のサーバの群である。しかしながら、サーバシステム510、530、および540は、任意の数のサーバを含み得、任意の追加の数のサーバシステムが、ネットワーク550に接続され得る。
当業者は、モデル修正システムが、本発明から逸脱することなく、ある構成要素を除外すること、および/または、簡潔性のために省略された他の構成要素を含み得ることを認識するであろう。この議論の目的のために、クラウドサービスは、ネットワークを介してデータおよび/または実行可能なアプリケーションをデバイスに提供するために、1つ以上のサーバシステムによって実行される1つ以上のアプリケーションである。サーバシステム510、530、および540の各々は、内部ネットワーク550内に3つのサーバを有することが示されている。しかしながら、サーバシステムは、任意の数のサーバを含み得、任意の追加の数のサーバシステムが、クラウドサービスを提供するために、ネットワークに接続され得る。本発明の種々の実施形態によると、本発明の実施形態による生成的モデルを作成するシステムおよび方法を使用するネットワークは、単一のサーバシステムおよび/またはネットワークを介して通信するサーバシステムの群上で実行されているプロセス(またはプロセスの組)によって提供され得る。
いくつかの実施形態によるモデル化要素の種々の機能(例えば、データ処理、データ収集、統計分析、不確実性の導出等)は、単一のプロセッサ上に、単一のコンピュータの複数のコア上に実装されること、および/または複数の異なるコンピュータ上の複数のプロセッサを横断して分散させられることができる。同様に、いくつかの実施形態によるデータ収集および修正システムの種々の記憶装置(例えば、データ処理、データ収集、統計分析、不確実性の導出等)は、単一のデータベース内に記憶される複数のデータベースサーバを横断して分散させられること、または複数の異なるサーバ上の複数の異なるデータベースプラットフォームを横断して分散させられることができる。
ユーザは、本発明の種々の実施形態による生成的モデルを作成するシステムおよび方法を使用するネットワークを提供するおよび/またはそれと相互作用するためのプロセスを実施するために、ネットワークに接続するパーソナルデバイス520、560を使用し得る。示される実施形態では、パーソナルデバイス560は、ネットワーク550に従来の「有線」接続を介して接続されるデスクトップコンピュータとして示される。しかしながら、パーソナルデバイス560は、デスクトップコンピュータ、ラップトップコンピュータ、スマートテレビ、エンターテイメントゲームコンソール、または「有線」接続を介してネットワーク550に接続する任意の他のデバイスであり得る。モバイルデバイスは、無線接続を使用してネットワークに接続する。無線接続は、無線周波数(RF)信号、赤外線信号、またはネットワークに接続するための無線信号伝達の任意の他の形態を使用する接続である。図5では、モバイルデバイスは、携帯電話である。しかしながら、モバイルデバイス520は、携帯電話、携帯情報端末(PDA)、タブレット、スマートフォン、または本発明から逸脱することなく、無線接続を介して、ネットワークに接続する、任意の他のタイプのデバイスであり得る。
容易に理解され得るように、データからモデルを構築するために使用される具体的なコンピューティングシステムは、所与のアプリケーションの要件に大きく依存し、任意の具体的なコンピューティングシステムの実装に限定されるものとして見なされるべきではない。
(2.モデル化要素)
種々の実施形態に従って、生成的モデルの予測パラメータ630を更新し、前の臨床結果640を補足するために、現在のベースラインデータセット620を利用するプロセスを実施するための命令を実行するモデル化要素600の例が、図6に示される。多くの実施形態によるモデル化要素は、(限定ではないが)モバイルデバイス、サーバ、クラウドサービス、および/または他のコンピュータのうちの1つ以上を含むことができる。モデル化要素600は、プロセッサ680と、周辺機器670と、ネットワークインターフェース660と、メモリ650とを含む。当業者は、モデル化要素が、本発明から逸脱することなく、ある構成要素を除外すること、および/または簡潔性のために省略される他の構成要素を含み得ることを認識するであろう。
種々の実施形態に従って、生成的モデルの予測パラメータ630を更新し、前の臨床結果640を補足するために、現在のベースラインデータセット620を利用するプロセスを実施するための命令を実行するモデル化要素600の例が、図6に示される。多くの実施形態によるモデル化要素は、(限定ではないが)モバイルデバイス、サーバ、クラウドサービス、および/または他のコンピュータのうちの1つ以上を含むことができる。モデル化要素600は、プロセッサ680と、周辺機器670と、ネットワークインターフェース660と、メモリ650とを含む。当業者は、モデル化要素が、本発明から逸脱することなく、ある構成要素を除外すること、および/または簡潔性のために省略される他の構成要素を含み得ることを認識するであろう。
プロセッサ680は、メモリ650内に記憶されるデータを操作するために、(限定ではないが)メモリ内に記憶される命令を実施するプロセッサ、マイクロプロセッサ、コントローラ、またはプロセッサ、マイクロプロセッサ、および/またはコントローラの組み合わせを含むことができる。プロセッサ命令は、ある実施形態に従って、プロセスを実施するように、プロセッサを構成することができる。
周辺機器670は、(限定ではないが)カメラ、ディスプレイ、および/またはセンサ等のデータを捕捉するための様々な構成要素のうちのいずれかを含むことができる。様々な実施形態では、周辺機器は、入力を集めるために、および/または出力を提供するために使用されることができる。モデル化要素600は、ネットワークインターフェースを利用し、プロセッサ680によって実施される命令に基づいて、ネットワークを介して、データを伝送および受信することができる。本発明の多くの実施形態による周辺機器670および/またはネットワークインターフェース660は、生成的モデルの予測パラメータ630を更新するために使用され得るデータを集めるために使用されることができる。
メモリ650は、現在のベースラインデータセット620の集合体と、生成的モデルの予測パラメータと、前の臨床結果640の集合体とを含む。本発明の多くの実施形態による現在のベースラインデータセット620および前の臨床結果640は、デジタルツイン等の生成的モデルを事前訓練し、潜在的な結果を生成するために使用されることができる。多数の実施形態では、現在のベースラインデータセット620は、(限定ではないが)患者登録、電子健康記録、および/または実世界のデータを含むことができる。多くの実施形態では、生成的モデルからの予測は、予測が新たな母集団に対して一般化される方法を比較するために、モデルを訓練するために使用されなかった新たな研究と比較されることができる。
様々な実施形態によるネットワークインターフェース660は、プロセッサによって実施される命令に基づいて、種々の機能(限定ではないが、データセットと相互作用すること、ネットワークを横断して通信すること、ユーザ入力を受信すること、および/または通知を提供すること等)のために使用されることができる。
メモリは、下記に説明され、図7に図示される不確実性計算アプリケーション610も含む。いくつかの実施形態による不確実性計算アプリケーションは、現在のベースラインデータセット620を生成的モデルの予測パラメータの中に入力するための不確実性値に変換するために使用されることができる。当業者は、不確実性計算アプリケーション610が、本発明から逸脱することなく、ある構成要素を除外すること、および/または簡潔性のために省略される他の構成要素を含み得ることを認識するであろう。
モデル化要素600の具体的な例が、図6に図示されるが、様々なモデル化要素のうちのいずれも、実施形態による具体的な用途の要件に適切であるように、本明細書に説明されるものと同様、データからモデルを構築するためのプロセスを実施するために利用されることができる。
(3.不確実性計算アプリケーション)
本発明のある実施形態による不確実性範囲を推定するための不確実性計算アプリケーションの例が、図7に図示される。不確実性計算アプリケーション700は、予測生成器710と、分散関数720と、出力エンジン730とを含む。当業者は、不確実性計算アプリケーションが、本発明から逸脱することなく、ある構成要素を除外すること、および/または簡潔性のために省略される他の構成要素を含み得ることを認識するであろう。
本発明のある実施形態による不確実性範囲を推定するための不確実性計算アプリケーションの例が、図7に図示される。不確実性計算アプリケーション700は、予測生成器710と、分散関数720と、出力エンジン730とを含む。当業者は、不確実性計算アプリケーションが、本発明から逸脱することなく、ある構成要素を除外すること、および/または簡潔性のために省略される他の構成要素を含み得ることを認識するであろう。
本発明の種々の実施形態による予測生成器710は、限定ではないが、デジタルツインモデルを含む生成的予測モデルを生産することができる。本発明のある実施形態による生成的予測モデルは、個人および/または母集団の特性に基づいて、潜在的な結果データを生成することができる。本発明のいくつかの実施形態による予測生成器710によって使用されるデータは、(限定ではないが)パネルデータ、結果データ等を含むことができる。いくつかの実施形態では、生成的モデルは、(限定ではないが)従来的な統計モデル、生成的敵対的ネットワーク、再帰ニューラルネットワーク、ガウス過程、オートエンコーダ、自己回帰モデル、変分オートエンコーダ、および/または他のタイプの確率的生成的モデルを含むことができる。いくつかの実施形態では、デジタルツインに適用されるような予測生成器は、患者母集団、疾患進行、および/または種々の治療に対する予測される応答をシミュレートするために使用されることができる。
本発明のいくつかの実施形態による分散エンジン720は、既知のベースラインデータを所与とする結果における分散に関する近似を導出するために使用されることができる。分散エンジン720は、所与の生成的予測モデルによって生産される結果に応答して、この導出を実施し得る。この導出は、推定される説明分散、推定される非説明分散、説明共分散マトリクスの構築、非説明共分散マトリクスの構築、および更新された共分散マトリクスの構築を含むデータ分析を組み込むことができる。本発明のいくつかの実施形態による分散エンジン720は、既知のベースラインデータを所与とする結果における分散に関する近似に前述の値およびマトリクスを変換することができる。
本発明のいくつかの実施形態による出力エンジン730は、(限定ではないが)生成的モデルバイアス、モデル応答、推奨される研究設計等を含む様々な出力をユーザに提供することができる。多数の実施形態では、出力エンジン730は、生成的予測モデルの結果が、実際の研究結果から外れるとき、フィードバックを提供することができる。例えば、本発明のある実施形態による出力エンジン730は、対象に関して生成される制御結果とそれらの実際の制御結果との間の差異が閾値を超過するとき、通知を提供することができる。代替として、出力エンジンは、更新された確実性計算の効率に関するフィードバックを提供することができる。例えば、本発明のある実施形態による出力エンジン730は、更新された不確実性に関する値が閾値を超過するとき、通知を提供することができる。
不確実性計算アプリケーションの具体的な例が、図7に図示されるが、任意の不確実性計算アプリケーションが、本発明の実施形態による具体的な用途の要件に対して適切であるように、現在のベースラインデータセットを本明細書に説明されるそれらと同様の不確実性値に変換するために利用されることができる。
(B.本発明の実装)
図8は、本発明に従って動作する方法が、重要な予後的変数が一様に欠落している更新された生成的モデルの表現に対して有し得る影響の例を図示する。具体的に、この図は、アルツハイマー病における研究からの臨床データへのいくつかのそのような方法の適用を表す。関連する研究は、種々のフォローアップ時間(それぞれ、6ヶ月、12ヶ月、および18ヶ月)を表す。結果として生じるグラフでは、黒色の点は、観察されたデータを示し、黒色の誤差棒は、統計的不確実性からの95%信頼区間を示す。一方、青色のデータは、予測モデルを通して決定されるそれらの結論を反映し:青色の点は、平均予測を示し、内側の青色の誤差棒は、一様性欠落が予測データ補完を通してのみ対処されるときの生成的モデルの予測からの95%信頼区間の不確実性を示す。最終的に、外側の青色の誤差棒は、本発明のいくつかの実施形態に従って、更新された不確実性値に関する公式を通して導出される95%信頼区間を反映する。この図の目的のために、データ補完された相関係数(α)は、0.5に設定されている。
図8は、本発明に従って動作する方法が、重要な予後的変数が一様に欠落している更新された生成的モデルの表現に対して有し得る影響の例を図示する。具体的に、この図は、アルツハイマー病における研究からの臨床データへのいくつかのそのような方法の適用を表す。関連する研究は、種々のフォローアップ時間(それぞれ、6ヶ月、12ヶ月、および18ヶ月)を表す。結果として生じるグラフでは、黒色の点は、観察されたデータを示し、黒色の誤差棒は、統計的不確実性からの95%信頼区間を示す。一方、青色のデータは、予測モデルを通して決定されるそれらの結論を反映し:青色の点は、平均予測を示し、内側の青色の誤差棒は、一様性欠落が予測データ補完を通してのみ対処されるときの生成的モデルの予測からの95%信頼区間の不確実性を示す。最終的に、外側の青色の誤差棒は、本発明のいくつかの実施形態に従って、更新された不確実性値に関する公式を通して導出される95%信頼区間を反映する。この図の目的のために、データ補完された相関係数(α)は、0.5に設定されている。
図8から明白であり得るように、方法が使用された場合、不確実性におけるかなりの増加が、考慮される(外側の青色の棒)。最も重要なこととして、該増加させられた不確実性は、フォローアップ時間にかかわらず、予測的データ補完からの元の不確実性(内側の青色の棒)より、結果予測を観察された結果(黒色の棒)とのより良好な統計的一致に至らせる。
図9は、本発明に従って動作する方法が、更新された生成的モデルの表現に対して有し得る影響の別の例を図示するが、一様に欠落している共変量が軽度の予後的変数のみを有する事例に適用されている。この図は、フォローアップ時間が、それぞれ、3ヶ月、6ヶ月、12ヶ月、および18ヶ月であった別個のアルツハイマー病研究からの臨床データへのいくつかのそのような方法の適用を表す。図9では、黒色の点は、再度、観察されたデータを反映し:黒色の誤差棒は、統計的不確実性からの95%信頼区間を示し、青色の点は、平均の予測を示し、内側の青色の誤差棒は、一様性欠落が予測的データ補完を通してのみ対処されるときの生成的モデルの予測からの95%信頼区間の不確実性を示し、外側の青色の誤差棒は、コホート間分散に関する本発明の公式、および0.5のデータ補完相関係数を使用する95%信頼区間を示す。
図8と比較すると、方法が使用されるとき、不確実性における調節が、より少ない。しかしながら、増加させられた不確実性は、再度、結果予測を、(フォローアップ回数にかかわらず)観察された結果とのより良好な統計的一致に至らせる。図8における場合と同様、それは、本発明の多くの実施形態に従って作動するシステムが、不確実性を予測するとき、ベースラインデータにおけるギャップを補償するための増加させられた能力を有することを示唆する。
欠落している共変量からの不確実性を考慮する具体的な方法が、上記に議論されるが、生成的予測モデル分析の多くの異なる方法が、本発明の多くの異なる実施形態に従って実装されることができる。したがって、本発明が、本発明の範囲および精神から逸脱することなく、具体的に説明されるもの以外の方法で、実践され得ることを理解されたい。したがって、本発明の実施形態は、あらゆる点において例証的であり、制限的ではないものと見なされるべきである。故に、本発明の範囲は、例証される実施形態によってではなく、添付の請求項およびそれらの均等物によって決定されるべきである。
Claims (17)
- 生成的予測モデルにおける不確実性を定義する方法であって、前記方法は、
モデル予測の結果に予測通りに影響を与え得る1つ以上の共変量に関して、実質的に欠落している対象情報である既知のベースラインデータの組を受信することと、
前記既知のベースラインデータの組を用いて、前記1つ以上の共変量に関する種々の値をデータ補完し、実験的データセットを作成することと、
前記実験的データセットを所与とする各対象に関する結果における推定される説明分散を決定することと、
前記実験的データセットを所与とする各対象に関する前記結果における推定される非説明分散を決定することと、
各対象に関する前記結果における前記推定される説明分散、および各対象に関する前記結果における前記推定される非説明分散を利用して、前記既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値を導出することと、
前記既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する前記推定値に基づいて、生成的モデルにおける不確実性を定義することと
を含む、方法。 - 前記既知のベースラインデータの組を所与とする母集団に関する結果における一般的な分散に関する前記推定値は、以下の式を使用して評価され、
Yは、母集団に関する結果であり、
Xは、前記既知のベースラインデータの組であり、
nは、前記母集団における対象の数であり、
Δexp,iは、対象iに関する結果における前記説明分散であり、
Δunexp,iは、対象iに関する結果における前記非説明分散であり、
αは、前記既知のベースラインデータの組に関して一様に選択される相関係数である、
請求項1に記載の方法。 - 特定の対象に関する結果における前記推定される説明分散は、以下のプロセス:
各実験的データセットに関して、
前記実験的データセットを予測モデルの中にデータ補完することと、
前記予測モデルを用いて、複数のシミュレーションを実行することと、
前記複数のシミュレーションにわたる予測された結果における平均に関する値を導出することと、
予測された結果における平均に関する全ての値にわたる分散を計算することと
を使用して評価される、請求項2に記載の方法。 - 特定の対象に関する結果における前記推定される非説明分散は、以下のプロセス:
各実験的データセットに関して、
前記実験的データセットを予測モデルの中にデータ補完することと、
前記予測モデルを用いて、複数のシミュレーションを実行することと、
前記複数のシミュレーションにわたる予測された結果における分散に関する値を導出することと、
予測された結果における分散に関する各値にわたる平均値を計算することと
を使用して評価される、請求項3に記載の方法。 - 生成的予測モデルが、予測を作成するために適用される、請求項4に記載の方法。
- 全ての対象が共変量のより高いまたはより低い値を体系的に有する場合等、欠落しているベースラインデータに関してデータ補完された値が対象間の相関を完全に考慮しない限り:
所与の生成的予測モデルに関するデフォルトの仮定は、対象からの分散寄与が互いに関係づけられていないということであろう;および、
所与の生成的予測モデルに関する別のデフォルトの仮定は、前記推定される非説明分散がゼロに等しいということであろう、
請求項1に記載の方法。 - 対象のあらゆる組み合わせに関する更新された共分散値をリストアップする更新された共分散マトリクスが、以下の式において、共分散マトリクスを組み合わせることから確立され、
Yは、母集団に関する結果であり、
Xは、前記既知のベースラインデータの組であり、
nは、前記母集団における対象の数であり、
Δexp,iは、対象iに関する結果における前記説明分散であり、
Δunexp,iは、対象iに関する結果における前記非説明分散であり、
αi,jは、対象iおよびjに関する相関係数である、
請求項1に記載の方法。 - 前記既知のベースラインデータを所与とする結果における前記一般的な分散は、以下の式から決定され、
- 前記1つ以上の共変量に関する前記種々の値は、それらの間の不確実性の互いに関係づけられた値を有しながら、データ補完される、請求項1に記載の方法。
- モデル特有の尺度から、個々の共変量に対して絶対的または相対的な重みを割り当てる特徴の重要度に関する値を導出することと、
前記特徴の重要度を使用することによって、欠落している共変量に起因する不確実性の比率を推定することと
によって、欠落している共変量から導出される不確実性の構成要素の定量的推定値を生産することをさらに含む、請求項1に記載の方法。 - 命令を備えている非一過性コンピュータ読み取り可能な媒体であって、前記命令は、コンピュータによって実行されると、プロセスを前記コンピュータに実行させ、
前記プロセスは、
モデル予測の結果に予測通りに影響を与え得る1つ以上の共変量に関して、実質的に欠落している対象情報である既知のベースラインデータの組を受信することと、
前記1つ以上の共変量に関する値を前記既知のベースラインデータの組と組み合わせ、実験的データセットを作成することと、
前記実験的データセットを所与とする各対象に関する結果における推定される説明分散を決定することと、
前記実験的データセットを所与とする各対象に関する前記結果における推定される非説明分散を決定することと、
各対象に関する前記結果における前記推定される説明分散、および各対象に関する前記結果における前記推定される非説明分散を利用して、前記既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する推定値を導出することと、
前記既知のベースラインデータを所与とする母集団に関する結果における一般的な分散に関する前記推定値に基づいて、生成的モデルにおける不確実性を定義することと
を含む、非一過性コンピュータ読み取り可能な媒体。 - 前記既知のベースラインデータの組を所与とする母集団に関する結果における一般的な分散に関する前記推定値は、以下の式を使用して評価され、
Yは、母集団に関する結果であり、
Xは、前記既知のベースラインデータの組であり、
nは、前記母集団における対象の数であり、
Δexp,iは、対象iに関する結果における前記説明分散であり、
Δunexp,jは、対象jに関する結果における前記非説明分散であり、
αは、前記既知のベースラインデータの組に関して一様に選択される相関係数である、
請求項11に記載の非一過性コンピュータ読み取り可能な媒体。 - 特定の対象に関する結果における前記推定される説明分散は、
各実験的データセットに関して、
前記実験的データセットを予測モデルの中にデータ補完することと、
前記予測モデルを用いて、複数のシミュレーションを実行することと、
前記複数のシミュレーションにわたる予測された結果における平均に関する値を導出することと、
予測された結果における平均に関する全ての値にわたる分散を計算することと
をさらに含む、請求項12に記載の非一過性コンピュータ読み取り可能な媒体。 - 特定の対象に関する結果における前記推定される非説明分散は、
各実験的データセットに関して、
前記実験的データセットを予測モデルの中にデータ補完することと、
前記予測モデルを用いて、複数のシミュレーションを実行することと、
前記複数のシミュレーションにわたる予測された結果における分散に関する値を導出することと、
予測された結果における分散に関する各値にわたる平均値を計算することと
をさらに含む、請求項13に記載の非一過性コンピュータ読み取り可能な媒体。 - 全ての対象が共変量のより高いまたはより低い値を体系的に有する場合等、欠落しているベースラインデータに関するデータ補完された値が対象間の相関を完全に考慮しない限り:
所与の生成的予測モデルに関するデフォルトの仮定は、対象からの分散寄与が互いに関係づけられていないということであろう;および、
所与の生成的予測モデルに関する別のデフォルトの仮定は、前記推定される非説明分散がゼロに等しいということであろう、
請求項14に記載の非一過性コンピュータ読み取り可能な媒体。 - 対象のあらゆる組み合わせに関する更新された共分散値をリストアップする更新された共分散マトリクスが、以下の式において、共分散マトリクスを組み合わせることから確立され、
Yは、母集団に関する結果であり、
Xは、前記既知のベースラインデータの組であり、
nは、前記母集団における対象の数であり、
Δexp,iは、対象iに関する結果における前記説明分散であり、
Δunexp,jは、対象jに関する結果における前記非説明分散であり、
αi,jは、対象iおよびjに関する相関係数である、
請求項12に記載の非一過性コンピュータ読み取り可能な媒体。 - 前記既知のベースラインデータを所与とする結果における前記一般的な分散は、以下の式から決定され、
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063119847P | 2020-12-01 | 2020-12-01 | |
US63/119,847 | 2020-12-01 | ||
PCT/US2021/072678 WO2022120350A2 (en) | 2020-12-01 | 2021-12-01 | Methods and systems to account for uncertainties from missing covariates in generative model predictions |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023551514A true JP2023551514A (ja) | 2023-12-08 |
Family
ID=81752754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023532695A Pending JP2023551514A (ja) | 2020-12-01 | 2021-12-01 | 生成的モデル予測における欠落している共変量からの不確実性を考慮する方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220172085A1 (ja) |
EP (1) | EP4256418A2 (ja) |
JP (1) | JP2023551514A (ja) |
WO (1) | WO2022120350A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12008478B2 (en) | 2019-10-18 | 2024-06-11 | Unlearn.AI, Inc. | Systems and methods for training generative models using summary statistics and other constraints |
US12020789B1 (en) | 2023-02-17 | 2024-06-25 | Unlearn.AI, Inc. | Systems and methods enabling baseline prediction correction |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7305656B2 (ja) | 2018-01-17 | 2023-07-10 | アンラーン.エーアイ, インコーポレイテッド | 確率分布をモデル化するためのシステムおよび方法 |
US20230281310A1 (en) * | 2022-03-01 | 2023-09-07 | Meta Plataforms, Inc. | Systems and methods of uncertainty-aware self-supervised-learning for malware and threat detection |
WO2024107183A1 (en) * | 2022-11-16 | 2024-05-23 | Visa International Service Association | System, method, computer program product for use of machine learning framework in adversarial attack detection |
US11868900B1 (en) | 2023-02-22 | 2024-01-09 | Unlearn.AI, Inc. | Systems and methods for training predictive models that ignore missing features |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010365B2 (en) * | 2018-03-29 | 2021-05-18 | International Business Machines Corporation | Missing value imputation using adaptive ordering and clustering analysis |
-
2021
- 2021-12-01 WO PCT/US2021/072678 patent/WO2022120350A2/en active Application Filing
- 2021-12-01 EP EP21901649.0A patent/EP4256418A2/en active Pending
- 2021-12-01 JP JP2023532695A patent/JP2023551514A/ja active Pending
- 2021-12-01 US US17/457,233 patent/US20220172085A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12008478B2 (en) | 2019-10-18 | 2024-06-11 | Unlearn.AI, Inc. | Systems and methods for training generative models using summary statistics and other constraints |
US12020789B1 (en) | 2023-02-17 | 2024-06-25 | Unlearn.AI, Inc. | Systems and methods enabling baseline prediction correction |
Also Published As
Publication number | Publication date |
---|---|
WO2022120350A2 (en) | 2022-06-09 |
WO2022120350A3 (en) | 2022-08-18 |
US20220172085A1 (en) | 2022-06-02 |
EP4256418A2 (en) | 2023-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023551514A (ja) | 生成的モデル予測における欠落している共変量からの不確実性を考慮する方法およびシステム | |
Richman et al. | A neural network extension of the Lee–Carter model to multiple populations | |
Kong et al. | Classical testing in functional linear models | |
EP3667301B1 (en) | Method and system for determining concentration of an analyte in a sample of a bodily fluid, and method and system for generating a software-implemented module | |
Tang et al. | Modeling hospital length of stay by Coxian phase‐type regression with heterogeneity | |
Linero et al. | A flexible Bayesian approach to monotone missing data in longitudinal studies with nonignorable missingness with application to an acute schizophrenia clinical trial | |
Chen et al. | An integrative Bayesian approach to matrix‐based analysis in neuroimaging | |
JP2024096475A (ja) | 生成モデルを用いてデータを補完するためのシステムおよび方法 | |
Fiero et al. | A pattern‐mixture model approach for handling missing continuous outcome data in longitudinal cluster randomized trials | |
Beutner et al. | Identifiability issues of age–period and age–period–cohort models of the Lee–Carter type | |
JP2024522840A (ja) | 共変量補正層別化および疑似値回帰を使用して、無作為化試験における処置効果を推測するためのシステムおよび方法 | |
Li et al. | Multilevel modeling of spatially nested functional data: Spatiotemporal patterns of hospitalization rates in the US dialysis population | |
Lai et al. | Identifying multiple change points in a linear mixed effects model | |
Van der Elst et al. | Univariate versus multivariate surrogates in the single-trial setting | |
Du et al. | A contextual ranking and selection method for personalized medicine | |
Cai et al. | Joint modeling of longitudinal, recurrent events and failure time data for survivor's population | |
Huang et al. | Estimating effects of long-term treatments | |
KR20190109194A (ko) | 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법 | |
Rathnayake et al. | Semiparametric modeling and analysis of longitudinal method comparison data | |
US20230352125A1 (en) | Systems and Methods for Adjusting Randomized Experiment Parameters for Prognostic Models | |
Oyamada et al. | Comparison of statistical models for estimating intervention effects based on time-to-recurrent-event in stepped wedge cluster randomized trial using open cohort design | |
US20230352138A1 (en) | Systems and Methods for Adjusting Randomized Experiment Parameters for Prognostic Models | |
CN117196734B (zh) | 一种众包任务的价值评估方法、***、设备及存储介质 | |
Brummel et al. | Flexibly monitoring group sequential survival trials when testing is based upon a weighted log-rank statistic | |
US20240257925A1 (en) | Systems and Methods for Designing Augmented Randomized Trials |