JP2023508358A

JP2023508358A - ２次元及び３次元画像データを分析するためのシステム及び方法

Info

Publication number: JP2023508358A
Application number: JP2022538707A
Authority: JP
Inventors: ウィリアムロッター
Original assignee: ディープヘルス，インコーポレイテッド
Priority date: 2019-12-23
Filing date: 2020-12-23
Publication date: 2023-03-02
Also published as: US20230091506A1; EP4081952A4; EP4081952A1; WO2021133954A1

Abstract

本開示は、患者の***組織に関する悪性の可能性に関するコンピュータによる方法を提供する。この方法は、コンピュータプロセッサを用いて***組織の画像を受け取り、学習済みニューラルネットワークを含むモデルに***組織の画像を提供し、モデルからインジケータを受け取り、インジケータを含むレポートをメモリ又はディスプレイの少なくとも１つに出力することを含み、学習済みニューラルネットワークは、第１のニューラルネットワークをトレーニングし、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、第２のニューラルネットワークをトレーニングし、第２のニューラルネットワークを学習済みニューラルネットワークとして出力するように、予めトレーニングされる。
【選択図】図２

Description

＜関連出願の相互参照＞
本出願は、２０１９年１２月２３日に出願された米国仮特許出願第６２／９５３，０３３の優先権の利益を主張するものであり、その全内容は引用により本明細書に盛り込まれているものとする。

＜連邦政府による資金提供を受けた研究開発の記載＞
該当せず。

乳がんは依然として世界的な課題であり、２０１８年には６０万人以上が死亡している。早期のがん検出を達成するために、世界中の保健機関は、乳がんの死亡率を２０％から４０％減少させると推定されるスクリーニングマンモグラフィを推奨している。スクリーニングマンモグラフィの価値にもかかわらず、熟練の読影者の在籍可能性の不均一性に加えて、顕著な偽陽性及び偽陰性率により、品質及びアクセスを改善する機会が残されている。

デジタル***トモシンセシス（ＤＢＴ）などの技術的改善にもかかわらず、がんが検出されたマンモグラムをレビューした研究では、がんの存在の兆候は、正常と判断された以前の検査で２０％から６０％の確率で目に見えるものと推定されている。ＤＢＴは、***の３次元（３Ｄ）イメージングを提供し、ビューごとに***の薄いスライス（つまり、厚さ約１ｍｍ）を表す１０個から１５０個、又はそれ以上の２次元（２Ｄ）画像を生成することができる。含まれるスライスの数が多いことから、ＤＢＴは２次元イメージング（例えば、２Ｄフルフィールドデジタルマンモグラフィ）と比較して追加の時間を必要とし、したがって放射線科医は高速での読み取りが迫られる。しかしながら、２Ｄイメージングはがんの存在を予測するための３Ｄイメージングほど詳細を医療従事者に提供しない場合がある。

したがって、２Ｄ及び／又は３Ｄマンモグラフィデータをより効率的かつ正確に分析するとともに、２Ｄ及び／又は３Ｄマンモグラフィデータを使用して悪性腫瘍及び／又は病変を均一に推定するシステム及び方法を有することが望まれている。

本開示は、２Ｄ及び／又は３Ｄマンモグラフィデータを効率的かつ正確に分析するとともに、２Ｄ及び／又は３Ｄマンモグラフィデータを使用して悪性腫瘍及び／又は病変を均一に推定するためのシステム及び方法を提供する。１つの非限定的な態様では、本開示は、患者の***組織における悪性の可能性に関するコンピュータによる方法を提供する。この方法は、コンピュータプロセッサを使用して、***組織の画像を受け取る工程と、学習済みニューラルネットワークを含むモデルに***組織の画像を提供する工程と、モデルからインジケータを受け取る工程と、インジケータを含むレポートをメモリ又はディスプレイの少なくとも１つに出力する工程と、を含み、学習済みニューラルネットワークは以下のように予めトレーニングされ、即ち、２次元画像の第１のグループから導出されるアノテーション済みパッチのセットであって、各アノテーション済みパッチがパッチレベルのラベルと２次元画像の第１のグループに含まれる２次元画像の一部とを含むアノテーション済みパッチのセットに基づいて、第１のニューラルネットワークをトレーニングし、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、アノテーション済み画像の第１のセットであって、アノテーション済み画像の第１のセットに含まれる少なくとも１つのアノテーション済み画像が２次元画像の第２のグループに含まれる２次元画像と少なくとも１つのバウンディングボックスと少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性ラベルとを含むアノテーション済み画像の第１のセットに基づいて、第２のニューラルネットワークをトレーニングし、アノテーション済み画像の第２のセットであって、アノテーション済み画像の第２のセットに含まれる各アノテーション済み画像が２次元画像の第３のグループに含まれる２次元画像と画像レベルの悪性可能性スコアとを含むアノテーション済み画像の第２のセットに基づいて、第２のニューラルネットワークをトレーニングし、第２のニューラルネットワークを学習済みニューラルネットワークとして出力するように、予めトレーニングされる。

本方法において、***組織の画像は２次元デジタルマンモグラムであってもよい。

本方法において、***組織の画像は、デジタル***トモシンセシス画像に基づいて生成された合成２次元画像であってもよい。いくつかの構成において、デジタル***トモシンセシス画像は複数のスライスを含み、合成２次元画像は画素のアレイを含み、画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、複数のスライスの少なくとも一部を第２の学習済みニューラルネットワークに提供し、悪性可能性スコアを各々が含む複数のインジケータを、第２の学習済みニューラルネットワークから受け取り、画素のアレイに含まれるターゲット画素について、複数のインジケータに含まれる第１のインジケータであって複数のインジケータに含まれる第２のインジケータよりも大きい悪性可能性スコアを含む第１のインジケータに基づいてターゲット画素強度を決定することによって、予め生成される。いくつかの構成において、画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、画素のアレイに含まれる第２のターゲット画素について、複数の画素に含まれる画素が、第２のターゲット画素に関連する画素位置を含まないことを決定し、第２のターゲット画素に含まれる画素強度を、複数のスライスに含まれるデフォルトスライスに含まれるデフォルト画素であってターゲット画素に関連する画素位置を含むデフォルト画素と同じに設定することで、予め生成されてもよい。いくつかの構成において、複数のスライスに含まれる各スライスは位置値に関連付けられており、デフォルトスライスは中間位置値に関連付けられていてもよい。いくつかの構成において、デジタル***トモシンセシス画像は複数のスライスを含んでもよく、複数のスライスに含まれる各スライスは位置値に関連付けられており、合成２次元画像は、所定範囲の位置値に含まれる位置値に関連付けられた複数のスライスのサブセットに基づいて生成されてもよい。いくつかの構成において、複数のスライスのサブセットは複数のスライスの約８０パーセントを構成してもよい。

本方法において、第２のニューラルネットワークは、バックボーン部分、回帰部分及び分類部分を含んでもよく、本方法は、バックボーン部分及び分類部分を再トレーニングすることなく、アノテーション済み画像の第１のセットに基づいて回帰部分をトレーニングすることをさらに含んでもよい。いくつかの構成において、アノテーション済み画像の第２のセットに基づいて第２のニューラルネットワークをトレーニングすることは、回帰部分をトレーニングすることなくバックボーン部分及び分類部分をトレーニングすることを含んでもよい。

本方法において、第１のニューラルネットワークは第１の複数の重みを含んでもよく、第２のニューラルネットワークは、第２の複数の重みを含むバックボーン部分を含んでもよく、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化することは、第２の複数の重みに含まれる重みを第１の複数の重みに含まれる重みと同じに設定することを含んでもよい。いくつかの構成において、第１のニューラルネットワークは深層残留ネットワークを含んでもよく、第２のニューラルネットワークはシングルステージオブジェクト検出ネットワークを含んでもよい。

本方法において、インジケータは患者悪性可能性スコアを含んでもよい。

本方法において、インジケータは、***組織の画像のエリアを含んでもよい。

別の非限定的な態様において、本開示は、患者の***組織についての悪性の可能性を評価するためのシステムを提供する。このシステムは、***組織の画像を保存するように構成されたメモリと、メモリにアクセスするように構成されたプロセッサと、を備え、プロセッサは、学習済みニューラルネットワークを含むモデルに***組織の画像を提供し、モデルからインジケータを受け取り、インジケータを含むレポートをメモリ又はディスプレイの少なくとも１つに出力するよう構成され、この学習済みニューラルネットワークは以下のように予めトレーニングされたものであり、即ち、２次元画像の第１のグループから導出されるアノテーション済みパッチのセットであって、各アノテーション済みパッチがパッチレベルのラベルと２次元画像の第１のグループに含まれる２次元画像の一部とを含むアノテーション済みパッチのセットに基づいて、第１のニューラルネットワークをトレーニングし、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、アノテーション済み画像の第１のセットであって、アノテーション済み画像の第１のセットに含まれる少なくとも１つのアノテーション済み画像が２次元画像の第２のグループに含まれる２次元画像と少なくとも１つのバウンディングボックスと少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性ラベルとを含むアノテーション済み画像の第１のセットに基づいて、第２のニューラルネットワークをトレーニングし、アノテーション済み画像の第２のセットであって、アノテーション済み画像の第２のセットに含まれる各アノテーション済み画像が２次元画像の第３のグループに含まれる２次元画像と画像レベルの悪性可能性スコアとを含むアノテーション済み画像の第２のセットに基づいて第２のニューラルネットワークをトレーニングし、第２のニューラルネットワークを学習済みニューラルネットワークとして出力するように、予めトレーニングされたものである。

本方法において、***組織の画像は、デジタル***トモシンセシス画像に基づいて生成された合成２次元画像であってもよい。いくつかの構成において、デジタル***トモシンセシス画像は複数のスライスを含んでもよく、合成２次元画像は画素のアレイを含んでもよく、画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、複数のスライスの少なくとも一部を第２の学習済みニューラルネットワークに提供し、悪性可能性スコアを各々が含む複数のインジケータを第２の学習済みニューラルネットワークから受け取り、画素のアレイに含まれるターゲット画素について、複数のインジケータに含まれる第１のインジケータであって複数のインジケータに含まれる第２のインジケータよりも大きい悪性可能性スコアを含む第１のインジケータに基づいてターゲット画素強度を決定することによって、予め生成されたものである。いくつかの構成において、画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、画素のアレイに含まれる第２のターゲット画素について、複数の画素に含まれる画素が、第２のターゲット画素に関連する画素位置を含まないことを決定し、第２のターゲット画素に含まれる画素強度を、複数のスライスに含まれるデフォルトスライスに含まれるデフォルト画素であって第２のターゲット画素に関連する画素位置を含むデフォルト画素と同じに設定することで、予め生成されたものであってもよい。いくつかの構成において、複数のスライスに含まれる各スライスは位置値に関連付けられていてもよく、デフォルトスライスは中間位置値に関連付けられていてもよい。いくつかの構成において、デジタル***トモシンセシス画像は複数のスライスを含んでもよく、複数のスライスに含まれる各スライスは位置値に関連付けられており、合成２次元画像は、所定の範囲の位置値に含まれる位置値に関連付けられた複数のスライスのサブセットに基づいて生成されてもよい。いくつかの構成において、複数のスライスのサブセットは、複数のスライスの約８０パーセントを構成してもよい。

本方法において、第１のニューラルネットワークは第１の複数の重みを含んでもよく、第２のニューラルネットワークは、第２の複数の重みを含むバックボーン部分を含んでもよく、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化することは、第２の複数の重みに含まれる重みを第１の複数の重みに含まれる重みと同じに設定することを含んでもよい。

本方法において、第１のニューラルネットワークは深層残留ネットワークを含んでもよく、第２のニューラルネットワークはシングルステージオブジェクト検出ネットワークを含んでもよい。

本方法において、インジケータは***組織の画像のエリアを含んでもよい。

さらに別の非限定的な態様において、本開示は、患者の***組織に関する悪性可能性スコアを決定するための方法を提供する。本方法は、***組織の画像を受け取る工程と、学習済みニューラルネットワークを含むモデルに***組織の画像を提供する工程と、モデルから悪性可能性スコアを受け取る工程と、患者悪性可能性スコアを含むレポートをメモリ又はディスプレイの少なくとも１つに出力する工程と、を含み、学習済みニューラルネットワークは以下のように予めトレーニングされ、即ち、２次元画像の第１のグループから導出されるアノテーション済みパッチのセットであって、各アノテーション済みパッチが悪性度スコアと２次元画像の第１のグループに含まれる２次元画像の一部とを含むアノテーション済みパッチのセットに基づいて、第１のニューラルネットワークをトレーニングし、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、アノテーション済み画像の第１のセットであって、アノテーション済み画像の第１のセットに含まれる少なくとも１つのアノテーション済み画像が２次元画像の第２のグループに含まれる２次元画像と少なくとも１つのバウンディングボックスと少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性可能性スコアとを含むアノテーション済み画像の第１のセットに基づいて、第２のニューラルネットワークをトレーニングし、アノテーション済み画像の第２のセットであって、アノテーション済み画像の第２のセットに含まれる各アノテーション済み画像が２次元画像の第３のグループに含まれる２次元画像と画像レベルの悪性可能性スコアとを含むアノテーション済み画像の第２のセットに基づいて、第２のニューラルネットワークをトレーニングし、第２のニューラルネットワークを学習済みニューラルネットワークとして出力するように、予めトレーニングされる。

さらに別の非限定的な態様において、本開示は、患者の***組織に関する悪性可能性スコアを生成するためのシステムを提供する。このシステムは、***組織の画像を保存するように構成されたメモリと、メモリにアクセスするように構成されたプロセッサと、を備え、プロセッサは、学習済みニューラルネットワークを含むモデルに***組織の画像を提供し、モデルから悪性可能性スコアを受け取り、悪性可能性スコアを含むレポートをメモリ又はディスプレイの少なくとも１つに出力するよう構成され、学習済みニューラルネットワークは以下のように予めトレーニングされたものであり、即ち、２次元画像の第１のグループから導出されるアノテーション済みパッチのセットであって、各アノテーション済みパッチが悪性可能性スコアと２次元画像の第１のグループに含まれる２次元画像の一部とを含むアノテーション済みパッチのセットに基づいて、第１のニューラルネットワークをトレーニングし、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、アノテーション済み画像の第１のセットであって、アノテーション済み画像の第１のセットに含まれる少なくとも１つのアノテーション済み画像が２次元画像の第２のグループに含まれる２次元画像と少なくとも１つのバウンディングボックスと少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性可能性スコアとを含むアノテーション済み画像の第１のセットに基づいて、第２のニューラルネットワークをトレーニングし、アノテーション済み画像の第２のセットであって、アノテーション済み画像の第２のセットに含まれる各アノテーション済み画像が２次元画像の第３のグループに含まれる２次元画像と画像レベルの悪性可能性スコアとを含むアノテーション済み画像の第２のセットに基づいて、第２のニューラルネットワークをトレーニングし、第２のニューラルネットワークを学習済みニューラルネットワークとして出力するように、予めトレーニングされたものである。

例示的なＸ線イメージングシステムを示すブロック図である。２次元画像の関心領域を生成するためのモデルの例示的な実施形態を示すブロック図である。ニューラルネットワークをトレーニングするための例示的なプロセス３００である。２Ｄ***画像に基づく悪性インジケータを生成するための例示的なプロセスである。３Ｄトモシンセシスデータの２Ｄスライス内のＲＯＩを検出するようにトレーニングされたモデルを使用して合成画像を作成するための例示的なプロセスである。ニューラルネットワークをトレーニングするための別の例示的なプロセスである。３Ｄ***画像に基づく悪性インジケータを生成するための例示的なプロセスである。読影者研究の「インデックス」コンポーネントの結果をまとめた受信者操作特性（ＲＯＣ）プロットである。同じ患者からの「プレインデックス」検査を伴う読影者研究の第２のコンポーネントをまとめたＲＯＣプロットである。

本明細書に記載されるように、２次元（２Ｄ）マンモグラフィデータ及び／又は３次元（３Ｄ）トモグラフィデータの関連領域を効率的かつ均一に表示するとともに、機械学習技術を用いて２Ｄマンモグラフィデータ及び／又は３Ｄトモグラフィデータにおける悪性を決定するための例示的なシステム及び方法が提供される。

２Ｄマンモグラフィデータ及び／若しくは３Ｄトモシンセシスデータの関連領域を分析するため並びに／又は***組織の腫瘍及び／若しくは病変の悪性を決定するための以下に記載するシステム及び方法以外のアプローチが存在し得るが、これらは全て欠点を有する。１つのアプローチは、３Ｄマンモグラムに含まれる全てのスライスの関連領域に、人間の医療従事者がラベル付けをするというものである。人間ベースのアプローチは、特に３Ｄマンモグラムの場合、各２Ｄスライスを人間の医療従事者がラベル付けするのに時間がかかるため、コストがかかり遅いことがある。さらに、人間ベースのアプローチは、人間の医療従事者間で好み／専門知識レベルが異なること、及び人間によるラベル付けの補助に利用できる情報（即ち、放射線レポート、病理学レポートなど）の量が異なることから、一貫性に欠ける可能性がある。

別のアプローチは、３Ｄトモグラフィデータセット全体（即ち、３Ｄトモグラフィデータセットに含まれる全てのスライス）を受け取り、***組織に存在する腫瘍及び／又は病変の悪性を示す悪性可能性スコアを出力する機械学習モデルをトレーニングするというものである。このアプローチは、データ処理システムのデータのサイズ及びメモリの限度のために実行不可能であり、また、過剰適合を起こしやすい可能性がある。

さらに別のアプローチは、２Ｄスライスのセットからスライスをランダムに選択するか、又は２Ｄスライスのセットのデフォルトスライス（即ち、２５番目のスライス又は中間のスライス）を選択し、このスライスに基づいて悪性可能性スコアを出力するよう機械学習モデルをトレーニングすることを含む。このアプローチもまた、腫瘍及び／又は病変が存在していたとしてもスライスにこれが含まれない可能性が高いため、過剰適合を起こしやすい可能性がある。

さらに別のアプローチでは、弱ラベル又は強ラベルトレーニングデータのみを用いて機械学習モデルをトレーニングすることができるが、これは、臨床的に有用な悪性及び／又は関連領域の十分正確な予測を提供できない可能性がある。強ラベル済みデータのみに関するトレーニングは、モデルをトレーニングできるデータの量を制限する可能性があることから精度が制限され、一方、弱ラベル済みデータのみに関するトレーニングは、過剰適合及び一般化パフォーマンス不良を引き起こす可能性がある。

図１を参照すると、３Ｄデジタル***トモシンセシス（ＤＢＴ）システムなどのＸ線イメージングシステム１００の例が示されている。Ｘ線イメージングシステム１００は、アーム１０２の第１の端部１１０に結合されたＸ線源アセンブリ１０８を含むことができる。Ｘ線検出器アセンブリ１１２は、対向端部１１４に近接して結合されてもよい。Ｘ線源アセンブリ１０８は、アーム１０２に対して実質的に垂直に延在し、Ｘ線検出器アセンブリ１１２の方へ向けられてもよい。Ｘ線検出器アセンブリ１１２もアーム１０２から延在しており、Ｘ線検出器アセンブリ１１２が、Ｘ線源アセンブリ１０８によって生成され、***を透過し、Ｘ線検出器アセンブリ１１２に入射するＸ線放射を受け取るよう構成されている。***支持プレート１１６及び***圧迫プレート１１８は、Ｘ線源アセンブリ１０８とＸ線検出器アセンブリ１１２の間に配置される。Ｘ線源アセンブリ１０８は、固定型又は可動型とすることができる。Ｘ線イメージングシステム１００は、３ＤＤＢＴデータを含む再構成画像を生成することができる。３ＤＤＢＴデータは、多数の２Ｄスライスを含むことができる。いくつかの構成において、再構成画像は、約１ｍｍの厚さを有する複数の２Ｄスライスを含む３Ｄトモグラフィデータを含むことができる。２Ｄスライスを用いて合成２Ｄ画像を作成することができるが、これについては以下に説明する。いくつかの構成において、Ｘ線イメージングシステム１００は、例えば、２Ｄスライスのサブセットの最大強度投影を表す中間の２次元「スラブ」を生成することができる。例えば、１０個のスライスから１つの最大強度投影スラブを生成することができ、１００個のスライスから１０個のスラブを生成するなど複数のスライスから複数のスラブを生成することができる。再構成画像は、メモリを含むことができる、大容量記憶装置１２８内に画像を保存するコンピュータ１２６へ入力することができる。コンピュータ１２６は、再構成画像の生成を制御するために、Ｘ線イメージングシステム１００に命令を提供することもできる。

図２を参照すると、入力２次元（２Ｄ）画像２０４についての関心領域（ＲＯＩ）を生成するためのモデル２００の例示的な実施形態が示されている。ＲＯＩはインジケータと称されることがある。いくつかの構成において、２Ｄ画像２０４は、ネイティブな２Ｄマンモグラム画像（例えば、２Ｄフルフィールドデジタルマンモグラフィシステムによって生成された画像）、合成２Ｄマンモグラム画像（例えば、３Ｄ画像データに基づいて生成された２Ｄ画像）、及び／又は３ＤＤＢＴデータの２Ｄスライスであってもよい。

モデル２００は、２Ｄ画像２０４を受け入れ、任意の数のＲＯＩを出力することができ、例えば、第１のエリア２０８Ａ及び第１のスコア２０８Ｂを含む第１のＲＯＩ、並びに第２のエリア２１２Ａ及び第２のスコア２１２Ｂを含む第２のＲＯＩを受け入れることができる。いくつかの構成において、各ＲＯＩは、例えば７５個の２Ｄスライスのセットの４番目のスライスなど、ＲＯＩの生成の基とされた２Ｄスライスを示すスライス番号と関連付けることができる。以下に説明するように、スライス番号は、ＲＯＩを選択して及び／又は組み合わせて合成画像を作成する際に使用することができる。可能性のある悪性を十分に示す領域が２Ｄ画像２０４にまったくないと見なされる場合などの２Ｄ画像２０４の特性に応じて、ゼロのＲＯＩが出力されてもよい。各ＲＯＩは、２Ｄ画像２０４のサブ領域となり得るエリアを含むことができる。上述のように、各２Ｄ画像は画素のアレイとしてフォーマットすることができる。サブ領域は画素のアレイのサブセットとすることができる。いくつかの構成において、モデル２００は、２Ｄ画像内のオブジェクトを検出するように構成された１つ以上のニューラルネットワークを含むことができる。オブジェクトはＲＯＩとすることができる。

いくつかの構成において、モデル２００は、所定の形状に従うＲＯＩを出力することができる。例えば、長方形のバウンディングボックスを用いて、腫瘍又は病変の潜在的候補を囲むことができる。不規則な形状（例えば、画素の「ブロブ」）を使用して、潜在的な腫瘍又は病変をよりよく輪郭付けることができると考えられる。ＲＯＩのトレーニングデータベースを作成する際、１人又は複数の人間の医療従事者は、他の形状よりも長方形のバウンディングボックスを使用する方が直感的であるとすることがあるであろう。オブジェクトを特定するためにセグメント化マスクベースのアプローチを用いるニューラルネットワークを用いて、不規則な形状の予測ＲＯＩを出力することができる。次いで、モデル２００を、２Ｄ画像２０４に含まれる画素のサブアレイを含む長方形形状のＲＯＩを特定するようにトレーニングすることができる。ＲＯＩの画素は、１つ以上の色強度値（例えば、白色強度値）と、２Ｄ画像２０４内の位置（例えば、２０００×１５００画素スライス内の所与の（ｘ，ｙ）位置での画素）とを含むことができる。いくつかのマンモグラフィイメージングシステムは***組織のグレイスケール画像を生成するが、このモデルは色付けされた２Ｄ画像と共に使用できることが理解される。

ＲＯＩは、画素のサブアレイに加えて、画素のサブアレイが悪性可能性スコアを決定することにどの程度関連性があるかを示す関連性スコアを含むことができる。以下で詳細に説明するように、関連性スコアは、１つ以上のＲＯＩを用いて合成２Ｄ画像を作成するため及び／又は患者について悪性可能性スコアを生成するために使用することができる。関連性スコアは、０から１までのような数値範囲から選択することができる。トレーニングデータセットのためのＲＯＩを特定する際、人間の医療従事者は、各ＲＯＩの関連性スコアを値の範囲内で割り当てることができる。人間の医療従事者は、例えば０から１００（悪性腫瘍の可能性が高い程スコアが高い）などの異なるスケール用いて関連性スコアを割り当てることができ、これを次にモデル２００によって用いられる関連性スコア範囲に正規化することができる。いくつかの構成において、人間の医療従事者は、悪性の可能性があるＲＯＩを特定するためにモデル２００をよりよくトレーニングするために、ＲＯＩを良性であると特定することができる。

いくつかの構成において、モデル２００は、回帰型ニューラルネットワークなどのニューラルネットワークを含むことができる。モデル２００をトレーニングするために、フルフィールドデジタルマンモグラフィ（ＦＦＤＭ）画像及び／又は３Ｄトモシンセシス画像のセットからのスライスから成る２Ｄデータ、並びに（例えば、１人又は複数の医療従事者によって）予め特定されたＲＯＩを含むトレーニングデータセットを用いて、モデルをトレーニングすることができる。

２Ｄデータの少なくとも一部は強アノテーション済みデータとすることができる。強アノテーション済みデータは所定のＲＯＩを含むことができる。人間の医療従事者は、所与の２Ｄ画像（例えば、２Ｄスライス又は２ＤＦＦＤＭ画像）を調べ、長方形ボックスのような所定の形状を用いて関心領域となり得る領域の輪郭を描き、そして腫瘍及び／又は病変の評価における医学的専門知識及び／又は経験に基づいて上記所定の形状に関連性スコアを割り当てることによって、ＲＯＩを特定することができる。あるいは、病変が悪性か否かを示す病理結果に基づいて関連性スコアを割り当てることもできる。

２Ｄデータの少なくとも一部は弱アノテーション済みデータとすることができる。弱アノテーション済みデータは、画像におけるバウンディングボックス又は他の輪郭線が付いたエリアを全く含まない画像レベル関連性スコアを含むことができる。弱アノテーション済みデータを生成するために、医療従事者は、２Ｄ画像を、悪性である（例えば、「１」）又は悪性でない（例えば、「０」）とアノテーションすることができる。例えば、患者の右***に悪性腫瘍が含まれていることを病理検査結果を通して決定することができ、次に右***の全てのマンモグラフィ画像に「１」のラベルを与えることができる。大量のトレーニングデータベースは、複数のＦＦＤＭ画像又は３Ｄトモシンセシス画像（例えば、複数の患者の画像）のスライスから得られた２Ｄ画像内のＲＯＩを、１人又は複数の医療従事者が特定し（例えば、アノテーションする）、２Ｄ画像全体を悪性（例えば、「１」）又は悪性でないとアノテーションすることによって生成することができる。

トレーニングデータにおいてＦＦＤＭ画像を使用する利点は、現在、より公的に入手可能なのは、アノテーション済３Ｄトモシンセシス画像よりもアノテーション済みＦＦＤＭ画像であるということである。さらに、２Ｄ画像は３Ｄトモシンセシス画像よりもアノテーションが容易であり、３Ｄトモシンセシス画像では各３Ｄトモシンセシス画像に含まれる多数の個々のスライスをアノテーションする必要がある。トレーニングが終わると、モデル２００は、入力２Ｄスライスを受け取って１つ以上のＲＯＩを出力することができ、各ＲＯＩには推定関連性スコア及び入力２Ｄスライスの画素のサブアレイが含まれる。

モデル２００は、畳み込みレイヤーのような多数のレイヤーを含むことができる。モデル２００のいくつかの構成では、レイヤーの数が異なるか、レイヤーの配列が異なるか、又は他の相違を有し得ることが理解される。但し、全ての構成において、モデル２００は、入力２Ｄ入力スライスを受け取り、入力２Ｄ入力スライスに関連するあらゆる関心領域を出力することができる。モデル２００は、１つ以上のサブネットワークを含むシングルステージ検出ネットワークとすることができる。いくつかの構成において、モデル２００はＲｅｔｉｎａＮｅｔを含むことができる。

モデル２００は、１次サブネットワーク２１６を含むことができる。１次サブネットワーク２１６は、１つ以上のレイヤー２１８Ａ～Ｃを有するフィードフォワードニューラルネットワークとすることができる。いくつかの構成において、１次サブネットワーク２１６は、深層残留ネットワーク（deep residual network）（「ＲｅｓＮｅｔ」）を含むことができる。いくつかの構成において、深層残留ネットワークは、ＲｅｓＮｅｔ－５０ニューラルネットワークとすることができる。以下に記載するように、１次サブネットワーク２１６は、最初に独立してトレーニングされ、次にモデル２００に統合させることができる。２次サブネットワーク２２０は、１次サブネットワーク２１６をネットワークのバックボーンとして使用して、単一のニューラルネットワークを効果的に作成するために、１次サブネットワークの上に構築することができる。１次サブネットワーク２１６は、モデル２００のバックボーン部分と称することができる。２次サブネットワーク２２０は、第１のレイヤー２２２Ａ、第２のレイヤー２２２Ｂ及び第３のレイヤー２２２Ｃを含む複数のレイヤーを含むことができるが、他の数のレイヤー（即ち、５つのレイヤー）を用いることもでき、ここでは簡単にするために３つのレイヤーを示す。例えば、ＲｅｓＮｅｔ－５０ニューラルネットワークは５０個のレイヤーを含むことができる。

第１のレイヤー２２２Ａ、第２のレイヤー２２２Ｂ及び第３のレイヤー２２２Ｃの各々は、畳み込みレイヤーとすることができる。各レイヤーは多数のビルディングブロック（不図示）で構成することができる。各ビルディングブロックは３つのパラメータレイヤーなどの多数のパラメータレイヤーを含むことができ、各パラメータレイヤーは、所定のフィルタサイズ（例えば３×３）を有する多数（例えば２５６個）のフィルタを含む。第１のレイヤー２２２Ａ、第２のレイヤー２２２Ｂ及び第３のレイヤー２２２Ｃは、各々、１４４×１４４、７２×７２及び３６×３６などの関連出力サイズを有することができる。出力サイズは、前処理条件及び／又はパラメータに基づいて入力スライス間でさまざまとすることができる。２次サブネットワーク２２０のレイヤー間で出力サイズが減少するにつれて、パラメータレイヤーのフィルタの数は比例的に増加することができ、即ち、出力サイズを半分にするとフィルタの数が倍増することになる。２次サブネットワークには、最終レイヤー（即ち、第３のレイヤー２２２Ｃ）に結合されたグローバル平均プーリングレイヤーと、グローバル平均プーリングレイヤーに結合された全結合レイヤーと、全結合レイヤーに結合され、１×１の出力サイズ（即ち、単一の値）を有するソフトマックスレイヤーとを含むこともできる。

モデル２００は、第１の３次ネットワーク２２４Ａ、第２の３次ネットワーク２２４Ｂ及び第３の３次ネットワーク２２４Ｃなどの複数の３次サブネットワークを含むことができる。３次ネットワーク２２４Ａ～Ｃは、各々、２次サブネットワーク２２０のレイヤーに結合することができる。第１の３次ネットワーク２２４Ａは第１のレイヤー２２２Ａに結合することができ、第２の３次ネットワーク２２４Ｂは第２のレイヤー２２２Ｂに結合することができ、第３の３次ネットワーク２２４Ｃは第３のレイヤー２２２Ｃに結合することができる。各３次ネットワークは、異なるレベルのスケールで腫瘍及び／又は病変を検出するために、２次サブネットワーク２２０のレイヤーから特徴を受け取ることができる。

各３次ネットワークは、ボックス回帰サブネットワーク２２６を含むことができる。ボックス回帰サブネットワーク２２６は、それぞれ整流化線形（ＲｅＬＵ）活性化が後に続く１つ以上の畳み込みレイヤー２２８Ａ～Ｂと、２次サブネットワーク２２０のレイヤーのうちの１つの一部に関連するアンカーに対応する（そして、入力２Ｄ画像２０４の画素のアレイに対応する）回帰座標を出力するように構成された最終畳み込みレイヤー２３０とを含むことができる。アンカーは、２次サブネットワーク２２０の種々のレイヤーの所定のサブアレイとすることができる。回帰座標は、アンカーと予測バウンディングボックスとの間の予測オフセットを表すことができる。ＲＯＩに含まれる各バウンディングボックスについて、回帰座標のセット（例えば、４つの回帰座標）及び対応するアンカーを使用して、バウンディングボックスの座標を計算することができる。モデル２００は、第１の３次ネットワーク２２４Ａ、第２の３次ネットワーク２２４Ｂ及び第３の３次ネットワーク２２４Ｃに含まれるボックス回帰サブネットワークを含む回帰部分を含むことができる。

各３次ネットワークは、分類サブネットワーク２３２を含むことができる。分類サブネットワーク２３２は、それぞれＲｅＬＵ活性化が後に続く１つ以上の畳み込みレイヤー２３４Ａ～Ｂと、オブジェクトの存在（即ち、悪性腫瘍及び／又は病変の存在）の予測を出力するシグモイド活性化が後に続く最終畳み込みレイヤー２３８と、を含むことができる。分類サブネットワーク２３２は、患者が２Ｄ画像２０４の様々な空間的位置に悪性腫瘍及び／又は病変を有するか否かについての１つ以上の推定を得るために使用することができる。より具体的には、各バウンディングボックスを、分類サブネットワークによる推定スコア出力と関連付けることができる。いくつかの構成において、各推定スコアの値はゼロから１に及ぶ。空間的位置の１つは、２次サブネットワーク２２０のレイヤー全体、即ち第１のレイヤー２２２Ａを含むことができる。このようにして、分類サブネットワーク２３２は、患者が悪性腫瘍及び／又は病変を有するか否かの推定を、２Ｄスライスに基づいて出力することができる。例えば複数の悪性のレベル（例えば、低リスク領域、高リスク領域など）などの複数のタイプの悪性領域を分類するためにトレーニングされたモデルにおいて、最終畳み込みレイヤー２３８の後にソフトマックス活性化が続くことができると考えられる。モデル２００は、第１の３次ネットワーク２２４Ａ、第２の３次ネットワーク２２４Ｂ及び第３の３次ネットワーク２２４Ｃに含まれる分類サブネットワークを含む分類部分を含むことができる。

モデル２００は、異なるスケールにわたってデータを正規化し、バウンディングボックス座標を計算し、及び／又は低いスコアリングバウンディングボックス予測をフィルタで除去するための出力レイヤー２５０を含むことができる。出力レイヤー２５０は３次サブネットワーク２２４Ａ～Ｃからの出力を受け取って１つ以上のＲＯＩを出力し、各ＲＯＩは２Ｄ画像２０４のアレイサイズにスケールされた画素のアレイ及び関連スコアを含む。画素のアレイは、回帰座標とアンカーに基づいて計算されるバウンディングボックス（例えば、長方形のバウンディングボックス）とすることができる。出力レイヤー２５０は、例えば０．５などの所定の閾値を下回るあらゆるスコアをフィルタで除去することができる。いくつかの構成において、出力レイヤー２５０は、３次サブネットワーク２２４Ａ～Ｃから出力を受け取り、単一の悪性可能性スコアを出力することができる。いくつかの構成において、単一の悪性可能性スコアは、最も高いスコアリングバウンディングボックスコアとなるように選択することができる。

図２及び図３を参照すると、ニューラルネットワークをトレーニングするためのプロセス３００が示されている。ニューラルネットワークはモデル２００に含めることができる。プロセス３００は、データ処理システムに含まれる１つ以上のメモリ上の命令として実装することができる。データ処理システムは、１つ以上のメモリと通信し命令を実行するように構成された１つ以上のプロセッサをさらに含むことができる。１つ以上のプロセッサはメモリにアクセスするように構成することができ、メモリは、大容量記憶装置１２８に含めることができ、トレーニングデータが保存されている。

３０４において、プロセス３００は、アノテーション済みパッチのセットを受け取ることができる。アノテーション済みパッチは、２次元画像の第１のグループ（例えば、ネイティブの２Ｄマンモグラム）から導出することができる。各アノテーション済みパッチは、ラベルと、２次元画像の第１のグループに含まれる２次元画像の一部とを含むことができる。各パッチは、２次元画像の一部を含むことができる。いくつかの構成において、アノテーション済みパッチのセットを生成するために、プロセス３００は、２次元画像の生のパッチをランダムに選択することができ、そして、パッチをランダムに回転させる、パッチを最大２０％ランダムにサイズ変更する、及び／又はパッチをランダムに縦方向にミラーリングさせることができる。いくつかの構成において、プロセス３００は、画素値を所定の範囲（例えば、［１２７．５，１２７．５］の範囲）に正規化することによって、生のパッチを前処理することができる。ランダム化及び／又は前処理は事前に行うことができる。いくつかの構成において、病変を含むパッチを生成するために、プロセス３００は、医療従事者によって生成された病変境界内のランダムな位置を、病変を含むパッチの中心として選択することができる。次に、得られたパッチにおいて病変マスクを含む画素の数が所定の数（例えば、６画素）より少ない場合、パッチを廃棄し、新しいパッチをサンプリングすることができる。いくつかの構成において、プロセス３００は、アノテーション済みパッチのセットから、***フォアグランドを１０％未満しか含まないパッチ（例えば、大津の方法により決定される、及び／又は画像中の最小画素値を用いる閾値方法により決定される）を除去することができる。いくつかの態様において、ラベルは病変のタイプ（例えば、腫瘤、石灰化、局所的非対称性、構造歪み又は病変なし）を示すことができる。いくつかの態様において、ラベルは悪性のタイプ（例えば、正常、良性又は悪性）を示すことができる。アノテーション済みパッチのセットは、強アノテーション済みと称することができる。その後、プロセス３００は３０８に進むことができる。

３０８において、プロセス３００は、アノテーション済みパッチのセットに基づいて第１のニューラルネットワークをトレーニングすることができる。いくつかの構成において、１次サブネットワーク２１６は、第１のニューラルネットワークの少なくとも一部を含むことができる。例えば、１次サブネットワーク２１６は、第１のニューラルネットワークに含まれる少なくともいくつかの畳み込みレイヤーを含むことができるが、第１のニューラルネットワークに含まれる分類レイヤーは含まない。第１のニューラルネットワークはＲｅｓＮｅｔ－５０ニューラルネットワークとすることができる。第１のニューラルネットワークは、ＩｍａｇｅＮｅｔ事前トレーニング重みに基づいて初期化することができる。いくつかの構成において、プロセス３００は、病変タイプによってラベル付けされるアノテーション済みパッチのセットに含まれるパッチに基づいて病変タイプを分類するために、第１のニューラルネットワークをトレーニングすることができる。いくつかの構成において、病変タイプは、腫瘤、石灰化、局所的非対称性、構造歪み又は病変なしとすることができる。第１のニューラルネットワークが病変タイプを分類するためにトレーニングされた後、プロセス３００は、悪性タイプによってラベル付けされたアノテーション済みパッチのセットに含まれるパッチに基づいて悪性タイプを決定するよう第１のニューラルネットワークをトレーニングすることができる。いくつかの構成において、悪性タイプは、正常、良性又は悪性とすることができる。いくつかの構成において、１６であるバッチサイズを用いて第１のニューラルネットワークをトレーニングすることができる。いくつかの構成において、学習率１ｅ５を有するアダムオプティマイザーを用いて、第１のニューラルネットワークをトレーニングすることができる。その後、プロセス３００は３１２に進むことができる。

３１２において、プロセス３００は、第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化することができる。第２のニューラルネットワークは、モデル２００の１つ以上のコンポーネントを含むことができる。いくつかの構成において、第２のニューラルネットワークは、シングルステージオブジェクト検出ネットワーク（例えば、ＲｅｔｉｎａＮｅｔ）とすることができる。いくつかの構成において、第２のニューラルネットワークは、バックボーン部分（例えば、１次サブネットワーク２１６）、回帰部分（例えば、第１の３次ネットワーク２２４Ａ、第２の３次ネットワーク２２４Ｂ及び第３の３次ネットワーク２２４Ｃに含まれるボックス回帰サブネットワーク）、及び分類部分（例えば、第１の３次ネットワーク２２４Ａ、第２の３次ネットワーク２２４Ｂ及び第３の３次ネットワーク２２４Ｃに含まれる分類サブネットワーク）を含むことができる。いくつかの構成において、プロセス３００は、第１のニューラルネットワークに基づいてバックボーン部分を初期化することができる。プロセス３００は、第１のニューラルネットワークに含まれる重みに基づいてバックボーン部分に含まれる重みを初期化することができる。その後、プロセス３００は３１６に進むことができる。

３１６において、プロセス３００は、アノテーション済み画像の第１のセットを受け取ることができる。アノテーション済み画像は、２次元画像の第２のグループ（例えば、ネイティブな２Ｄマンモグラム）に基づいて生成することができる。各アノテーション済み画像は１つ以上のＲＯＩを含むことができ、各ＲＯＩはアノテーション済み画像の中に含まれるラベル及びバウンディングボックスを含む。いくつかの態様において、ラベルは、悪性タイプ（例えば、正常、良性又は悪性）を示すことができる。いくつかの構成において、プロセス３００は、画素値を所定の範囲（例えば、［１２７．５，１２７．５］の範囲）に正規化すること、及び／又は画像の高さを所定の高さ（例えば、１７５０画素）に正規化することによって、生の画像を前処理することができる。いくつかの構成において、アノテーション済み画像の第１のセットを生成するために、プロセス３００は、画像を最大１５％ランダムにサイズ変更する、及び／又は画像をランダムに縦方向にミラーリングリングすることができる。いくつかの構成において、プロセス３００は、アノテーション済み画像のバックグラウンド部分を切り出すことができる。ランダム化及び／又は前処理は事前に行うことができる。アノテーション済み画像の第１のセットは、強アノテーション済みと称することができる。その後、プロセス３００は３２０に進むことができる。

３２０において、プロセスは、アノテーション済み画像の第１のセットに基づいて第２のニューラルネットワークをトレーニングすることができる。プロセス３００は、悪性タイプによってラベル付けされたアノテーション済み画像の第１のセットに基づいて、悪性タイプ及びバウンディングボックスを含むＲＯＩを生成するために、第２のニューラルネットワークをトレーニングすることができる。いくつかの構成において、悪性タイプは、正常、良性又は悪性とすることができる。いくつかの構成において、１であるバッチサイズを用いて第１のニューラルネットワークをトレーニングすることができる。いくつかの構成において、１ｅ５の学習率及び０．００１の値を有する勾配ノルムクリッピングを有するアダムオプティマイザーを用いて、第１のニューラルネットワークをトレーニングすることができる。その後、プロセス３００は３２４に進むことができる。

３２４において、プロセス３００は、アノテーション済み画像の第２のセットを受け取ることができる。アノテーション済み画像は、２次元画像の第３のグループ（例えば、ネイティブな２Ｄマンモグラム）に基づいて生成することができる。アノテーション済み画像の第２のセットに含まれる各アノテーション済み画像は、２Ｄ画像と画像レベルのラベルとを含むことができる。画像レベルは、バイナリ悪性ラベル（例えば、悪性である又は悪性でない）とすることができる。いくつかの構成において、プロセス３００は、画素値を所定の範囲（例えば、［１２７．５，１２７．５］の範囲）に正規化すること、及び／又は画像の高さを所定の高さ（例えば、１７５０画素）に正規化することによって、生の画像を前処理することができる。いくつかの構成において、アノテーション済み画像の第２のセットを生成するために、プロセス３００は、画像を最大１５％ランダムにサイズ変更する、及び／又は画像をランダムに縦方向にミラーリングリングすることができる。いくつかの構成において、プロセス３００は、アノテーション済み画像のバックグラウンド部分を切り出すことができる。ランダム化及び／又は前処理は事前に行うことができる。アノテーション済み画像の第２のセットは、弱アノテーション済みと称することができる。

３２８において、プロセス３００は、アノテーション済み画像の第２のセットに基づいて第２のニューラルネットワークをトレーニングすることができる。これまでオブジェクト検出モデルとして用いられていた第２のニューラルネットワークは、バウンディングボックス分類スコアの全てにわたって最大値を出力するように出力レイヤー２５０を変更することによって、画像分類モデルに変換することができる。このようにして、第２のニューラルネットワークは、バイナリラベルを用いるエンドツーエンドのトレーニングを可能にしながら完全に弁別可能とすることができる。いくつかの構成において、プロセス３００は、学習率２．５ｅ６で開始するアダムオプティマイザーを用いてモデルをトレーニングすることができ、学習率は、所定の繰り返し数で（例えば、１００，０００回の繰り返しごと、合計３００，０００回の繰り返しで）４分の１に減少させた。いくつかの構成において、プロセス３００は、ＡＵＣパフォーマンスに基づき第２のニューラルネットワークは完全学習済みであると決定することができる。例えば、プロセス３００は、４０００回の繰り返しごとに画像の検証セットのＡＵＣパフォーマンスを決定することができ、そして、ＡＵＣパフォーマンスが減少するか、又は同じままであれば、第２のニューラルネットワークは完全学習済みであると決定することができる。いくつかの構成において、プロセス３００は、モデルが完全学習済みであると決定した後、完全学習済みモデルを微調整することができる。いくつかの構成において、プロセス３００は、アノテーション済み画像の第１のセットに基づいて回帰部分を微調整することができる。より具体的には、プロセス３００は、学習済みモデルのバックボーン部分及び分類部分に含まれる重みをフリーズさせて、回帰部分のみをトレーニングすることができる。このようにして、プロセス３００は、回帰部分が更新されないアノテーション済み画像の第２のセットについての前のトレーニング中におけるバックボーン部分の重みのあらゆる変更に、回帰部分を適応させることができる。いくつかの構成において、プロセス３００は、上で記載したものと同じ前処理技術及びデータ拡張技術を用いて、所定の学習率（例えば、２．５ｅ６）で所定の繰り返し数（例えば、５０，０００回）、学習済みモデルをトレーニングすることができる。その後、プロセス３００は３３２に進むことができる。

３３２において、プロセス３００は、学習済みニューラルネットワークを出力することができる。学習済みニューラルネットワークは、第２の学習済みニューラルネットワークを含むことができる。プロセス３００は、学習済みニューラルネットワークを（例えば、メモリ内に）保存させることができる。その後、プロセス３００は終了できる。

図１、図２、図３及び図４を参照すると、２Ｄ***画像に基づく悪性インジケータを生成するためのプロセス４００が示されている。プロセス４００は、データ処理システムに含まれる１つ以上のメモリ上の命令として実装することができる。データ処理システムは、１つ以上のメモリと通信し命令を実行するように構成された１つ以上のプロセッサをさらに含むことができる。１つ以上のプロセッサはメモリにアクセスするように構成することができ、メモリは、大容量記憶装置１２８に含めることができ、２Ｄ***画像が保存されている。

４０４において、プロセス４００は、２Ｄ***画像を受け取ることができる。２Ｄ***画像は、ネイティブな２Ｄマンモグラム画像（例えば、２Ｄフルフィールドデジタルマンモグラフィシステムによって生成された画像）とすることができる。２Ｄ***画像は患者と関連付けることができる。その後、プロセス４００は４０８に進むことができる。

４０８において、プロセス４００は、学習済みモデルに２Ｄ***画像を提供することができる。学習済みモデルは、プロセス３００を用いて生成された学習済みニューラルネットワークを含むことができる。その後、プロセス４００は４１２に進むことができる。

４１２において、プロセス４００は、学習済みモデルからインジケータを受け取ることができる。いくつかの構成において、インジケータは、患者悪性可能性スコア及び２Ｄ***画像のエリアを含むことができる。２Ｄ***画像のエリアは学習済みモデルによって生成されたバウンディングボックスと関連付けることができ、患者悪性可能性スコアは病変を含み得る２Ｄ***画像のエリアの悪性と関連付けることができる。いくつかの構成において、インジケータは、２Ｄ***画像全体に関連する患者の悪性スコア（即ち、画像レベルスコア）を含むことができる。インジケータのコンポーネントは、出力レイヤー２５０を修正することによって、医療従事者の好みに基づいて修正することができる。いくつかの構成において、プロセス４００は、複数のインジケータを受け取ることができる（例えば、２Ｄ***画像が複数の病変を有する場合）。その後、プロセス４００は４１６に進むことができる。

４１６において、プロセス４００は、保存及び／若しくは別のプロセスによる使用のためにメモリへ、並びに／又は人間の医療従事者が見る用にコンピュータモニタなどのディスプレイへ、インジケータを出力することができる。例えば、プロセス４００は、医療施設内のディスプレイにインジケータを出力して、医療従事者がインジケータを見ることができるようにし、場合によっては、インジケータに基づいて患者の診断を決定できるようにする。インジケータは、乳がん患者の将来の分析及び／又は研究のために、医療記録のデータベースに保存されてもよい。いくつかの構成において、プロセス４００は、４１２で受け取ったインジケータの１つ以上を、保存及び／若しくは別のプロセスによる使用のために、並びに／又は人間の医療従事者が見る用にコンピュータモニタなどのディスプレイへ、出力することもできる。プロセス４００は、インジケータをレポートとして出力することができる。その後、プロセス４００は終了できる。

図１、図２及び図５を参照すると、３Ｄトモシンセシスデータの２Ｄスライス内のＲＯＩを検出するためにトレーニングされたモデルを用いて合成画像を作成するためのプロセス５００が示されている。プロセス５００は、モデルから出力される最も関連性のあるＲＯＩを１つ以上選択しＲＯＩを用いて合成画像を作成するための１つ以上のステップを含むことができる。プロセス５００は、データ処理システムに含まれる１つ以上のメモリ上の命令として実装することができる。データ処理システムは、１つ以上のメモリと通信し命令を実行するように構成された１つ以上のプロセッサをさらに含むことができる。１つ以上のプロセッサはメモリにアクセスするように構成することができ、メモリは、大容量記憶装置１２８に含めることができ、多数の２次元スライスを含む３Ｄトモシンセシスデータが保存されている。

５０４において、プロセス５００は、患者の***組織の３Ｄトモシンセシスデータを受け取ることができる。３Ｄトモシンセシスデータは、Ｘ線イメージングシステム１００などの３Ｄマンモグラフィイメージングシステムによって生成することができる。３Ｄトモシンセシスデータは、***組織の所定の厚さ、例えば１ｍｍなど、に対応する多数の２Ｄスライスを含むことができる。３Ｄトモシンセシスデータは、患者及び／又はイメージングシステムに応じて、約１０個から１５０個の又はそれ以上の２Ｄスライスを含むことができる。各２Ｄスライスは、多数の２Ｄスライスにおける２Ｄスライスの位置を示すスライス番号に関連付けることができる。各２Ｄスライスは、２０００×１５００画素などの所定サイズを有する画素のアレイとすることができる。その後、プロセス５００は５０８に進むことができる。

５０８において、プロセス５００は、多数の２Ｄスライスの各々を、２Ｄスライスに基づいてＲＯＩを検出することができる学習済みモデルに個別に提供することができる。学習済みモデルは上述したモデル２００とすることができる。いくつかの構成において、一連のスライス番号と関連付けられたスライスなどの２Ｄスライスのサブセットを、モデルに提供することができる。一連のスライス番号は、２Ｄスライスの中間パーセンテージを含むことができる。例えば、スライスのサブセットは、２Ｄスライスの中間８０パーセントを含むことができる（例えば、１００個のスライスのうち１０番目から９０番目のスライス）。２Ｄスライスの中央範囲を使用すると、ＤＢＴスタックの端近くにあるノイズの多い画像を除去することができる。いくつかの構成において、医療従事者によってアノテーションされた２次元フルフィールドデジタルマンモグラフィ画像を含む画像データセットに基づいて、学習済みモデルをトレーニングすることができる。いくつかの構成において、図４と関連して記載されるプロセスを用いて学習済みモデルをトレーニングすることができる。その後、プロセス５００は５１２に進むことができる。

５１２において、プロセス５００は、モデルに提供された各２Ｄスライスについて、モデルが出力する多数のＲＯＩを受け取ることができる。モデルは、ゼロ個のＲＯＩ、１つのＲＯＩ、又は複数のＲＯＩを出力してもよい。２Ｄスライス及び／又はモデルによっては、スライスの大部分はＲＯＩを全く有していない場合がある。上で記載したように、ＲＯＩは、スコア及び２Ｄスライスの画素のサブアレイを含むことができ、各画素は強度値と２Ｄスライス内の位置とを有する。各ＲＯＩは、ＲＯＩが３Ｄトモシンセシスデータのどの２Ｄスライスから生成されたかを示すスライス番号と関連付けることができる。その後、プロセス５００は５１６に進むことができる。

５１６において、プロセス５００は、多数のＲＯＩから、所定の閾値未満のスコアを有するＲＯＩをフィルタで除去することができる。閾値の選択は、（より低い閾値又はより高い閾値をそれぞれ選択することによって）最終合成画像により多い又はより少ないＲＯＩを含めるため、及び／又は、（より低い値を選択することによって）可能性のある偽陰性を減らすため、及び／又は（より高い値を選択することによって）可能性のある偽陽性を減らすために行うことができる。例えば、ユーザは、スコアが０から１の範囲となり得るならば、閾値０．５を選択することができる。次に、プロセス５００は、多数のＲＯＩから、０．５未満のスコアを有するＲＯＩを除去することができる。その後、プロセス５００は５２０に進むことができる。いくつかの構成において、プロセス５００は、いかなるＲＯＩもフィルタで除去することなく、５１２から５２０に進むことができる（例えば、閾値はゼロ）。

５２０において、プロセス５００は、多数のＲＯＩが少なくとも１つのＲＯＩを含むか否かを決定することができる。その後、プロセス５００は５２４に進むことができる。

５２４において、プロセス５００は、多数のＲＯＩが少なくとも１つのＲＯＩを含まない（５２４での「ＮＯ」）と決定すると、５２８に進むことができる。あるいは、プロセス５００は、多数のＲＯＩが少なくとも１つのＲＯＩを含むと決定すると、５３２に進むことができる。

５２８において、プロセス５００は、ＲＯＩを全く使用せずに最終合成画像を生成することができる。いくつかの構成において、プロセスは、最終合成画像として使用するために、３Ｄトモシンセシスデータに含まれる２Ｄスライスのデフォルトスライスを選択することができる。デフォルトスライスは、２Ｄスライスの中間スライス（たとえば、７５個の２Ｄスライスの３８番目のスライス）とすることができる。その後、デフォルトスライスの画素を最終合成画像の画素として含めることができる。その後、プロセス５００は終了できる。

５３２において、プロセス５００は、多数のＲＯＩに含まれる１つ以上のＲＯＩを有する予備合成画像の領域を入力(populate)することができる。予備合成画像は、画素強度値の各々に対してヌル値で初期化された最終合成画像と同サイズのアレイとすることができる。その後、プロセス５００は、予備合成画像に１つ以上のＲＯＩを追加することができる。ＲＯＩは、１つ以上の基準に基づいて追加することができる。いくつかの構成において、プロセスは、各画素位置について最も高いスコアを有するＲＯＩを決定することができる。次いで、画素位置における予備合成画像の強度値を画素位置におけるＲＯＩの強度値と等しくなるように設定することができる。言い換えれば、プロセス５３２は、予備合成画像を入力するために最大疑い手法(maximum suspicion technique)を利用することができる。複数のＲＯＩが所与の画素位置で同じスコアを有する場合には、画素の数が最大のＲＯＩ、画素位置を囲む画素の数が最大のＲＯＩ、及び／又は、画素位置での強度値が最も高いＲＯＩを、画素位置に対するＲＯＩとして選択することができる。いくつかの構成において、ＩｏＵ(intersection-over-union)閾値（例えば０．２のＩｏＵ）に基づく非最大値抑制（ＮＭＳ）を用いて予備合成画像を入力することができる。所与の画素において複数のＲＯＩがオーバーラップする場合、プロセス５００は、スコアの低いＲＯＩを不使用とすることで、スコアの最も高いＲＯＩ以外の全てのＲＯＩを「抑制」して、予備合成画像を入力することができる。例えば、スコア０．８５及び０．７５のＲＯＩを用いて予備画像を入力することができる。スコア０．８５のＲＯＩは、スコア０．６５のより低いスコアのＲＯＩとオーバーラップする（例えば、スコア０．６５のＲＯＩと同じ画素位置のうちの少なくとも１つを占める）ことがあり、スコア０．７５のＲＯＩは、スコア０．６５のＲＯＩとオーバーラップしないことがある。また、予備合成画像の各画素は、所与の画素の所与の強度値を入力するために使用されるＲＯＩのスライス番号に関連付けることができる。その後、プロセス５００は５３６に進むことができる。

５３６において、プロセス５００は、予備合成画像の未入力領域を埋めることができる。いくつかの構成において、プロセス５００は、デフォルトスライスに基づいて予備合成画像の未入力領域を埋めることができる。いくつかの構成において、プロセスは、予備合成スライスの未入力領域を埋めるのに使用するために、３Ｄトモシンセシスデータに含まれる２Ｄスライスのデフォルトスライスを選択することができる。デフォルトスライスは、２Ｄスライスの中間スライス（たとえば、７５個の２Ｄスライスの３８番目のスライス）とすることができる。その後、プロセス５００は５４０に進むことができる。

５４０において、プロセス５００は、保存及び／若しくは別のプロセスによる使用のためにメモリへ、並びに／又は人間の医療従事者が見る用にコンピュータモニタなどのディスプレイへ、最終合成画像を出力することができる。その後、プロセス５００は終了できる。

図１から図５及び図６を参照すると、ニューラルネットワークをトレーニングするための別のプロセス６００が示されている。特に、プロセス６００は、３Ｄ画像に基づいて悪性を検出するためのニューラルネットワークをトレーニングすることができる。ニューラルネットワークはモデル２００に含めることができる。プロセス６００は、データ処理システムに含まれる１つ以上のメモリ上の命令として実装することができる。データ処理システムは、１つ以上のメモリと通信し命令を実行するように構成された１つ以上のプロセッサをさらに含むことができる。１つ以上のプロセッサはメモリにアクセスするように構成することができ、メモリは、大容量記憶装置１２８に含めることができ、トレーニングデータが保存されている。

６０４において、プロセス６００は部分学習済みニューラルネットワークを受け取ることができる。部分学習済みニューラルネットワークは、プロセス３００における３２０及び／又は３２８の後に第２の学習済みニューラルネットワークとすることができる。言い換えれば、部分学習済みニューラルネットワークは、アノテーション済み画像の第１のセットに基づいてトレーニングすることができる。その後、プロセス６００は６０８に進むことができる。

６０８において、プロセス６００はアノテーション済み３Ｄ画像のセットを受け取ることができる。いくつかの構成において、アノテーション済み３Ｄ画像のセットに含まれる各３Ｄ画像は、画像レベルのラベルでラベル付けされたＤＢＴ画像とすることができる。画像レベルは、バイナリ悪性ラベル（例えば、悪性である又は悪性でない）とすることができる。アノテーション済み画像の第２のセットは、弱アノテーション済みと称することができる。その後、プロセス６００は６１２に進むことができる。

６１２において、プロセス６００は複数の合成画像を生成することができる。いくつかの構成において、プロセス６００は、アノテーション済み３Ｄ画像のセットと共に、プロセス５００を使用して、複数の合成画像に含まれる各合成画像を生成することができる。例えば、プロセス５００は、アノテーション済み３Ｄ画像のセットに含まれる３Ｄ画像ごとに、最大疑い２Ｄ画像を生成することができる。各合成画像は、合成画像を生成するために使用される３Ｄ画像に関連するラベルと関連付けることができる。その後、プロセス６００は６１６に進むことができる。

６１６において、プロセス６００は、複数の合成画像に基づいて部分学習済みニューラルネットワークをトレーニングすることができる。これまでオブジェクト検出モデルとして用いられていた部分学習済みニューラルネットワークは、バウンディングボックス分類スコアの全てにわたって最大値を出力するように出力レイヤー２５０を変更することによって、画像分類モデルに変換することができる。このようにして、部分学習済みニューラルネットワークは、バイナリラベルを用いるエンドツーエンドのトレーニングを可能にしながら完全に弁別可能とすることができる。いくつかの構成において、プロセス６００は、学習率２．５ｅ６で開始するアダムオプティマイザーを用いてモデルをトレーニングすることができ、学習率は所定の繰り返し数で４分の１に減少させた。プロセス６００は、利用可能なＤＢＴデータが少ないために、プロセス６００において第２の学習済みニューラルネットワークがトレーニングされる繰り返し数よりも少ない繰り返し数で、部分学習済みニューラルネットワークをトレーニングすることができる。いくつかの構成において、プロセス６００は、ＡＵＣパフォーマンスに基づき第２のニューラルネットワークは完全学習済みであると決定することができる。例えば、プロセス６００は、４０００回の繰り返しごとに画像の検証セットのＡＵＣパフォーマンスを決定することができ、そして、ＡＵＣパフォーマンスが減少するか、又は同じままであれば、部分学習済みニューラルネットワークは完全学習済みであると決定することができる。いくつかの構成において、プロセス６００は、モデルが完全学習済みであると決定した後、完全学習済みモデルを微調整することができる。いくつかの構成において、プロセス６００は、アノテーション済み画像の２Ｄセットに基づいて回帰部分を微調整することができる。より具体的には、プロセス６００は、学習済みモデルのバックボーン部分及び分類部分に含まれる重みをフリーズさせて、回帰部分のみをトレーニングすることができる。このようにして、プロセス６００は、回帰部分が更新されないアノテーション済み画像の第２のセットについての前のトレーニング中におけるバックボーン部分の重みのあらゆる変更に、回帰部分を適応させることができる。いくつかの構成において、プロセス６００は、上で記載したものと同じ前処理技術及びデータ拡張技術を用いて、所定の学習率（例えば、２．５ｅ６）で所定の繰り返し数（例えば、５０，０００回）、学習済みモデルをトレーニングすることができる。その後、プロセス６００は６２０に進むことができる。

６２０において、プロセス６００は、学習済みニューラルネットワークを出力することができる。学習済みニューラルネットワークは、６１６にて生成された完全学習済みニューラルネットワークを含むことができる。プロセス６００は、学習済みニューラルネットワークを（例えば、メモリ内に）保存させることができる。その後、プロセス６００は終了できる。

図１、図２、図５、図６及び図７を参照すると、３Ｄ***画像に基づく悪性インジケータを生成するためのプロセス７００が示されている。プロセス６００は、データ処理システムに含まれる１つ以上のメモリ上の命令として実装することができる。データ処理システムは、１つ以上のメモリと通信し命令を実行するように構成された１つ以上のプロセッサをさらに含むことができる。１つ以上のプロセッサはメモリにアクセスするように構成することができ、メモリは、大容量記憶装置１２８に含めることができ、３Ｄ***画像が保存されている。

７０４において、プロセス７００は、３Ｄ***画像を受け取ることができる。３Ｄ***画像はＤＢＴ画像とすることができる。３Ｄ***画像は患者と関連付けることができる。その後、プロセス７００は７０８に進むことができる。

７０８において、プロセス７００は、３Ｄ***画像に基づいて合成２Ｄ画像を生成することができる。プロセス７００は、プロセス５００を用いて合成２Ｄ画像を生成することができる。その後、プロセス７００は７１２に進むことができる。

７１２において、プロセス７００は、合成２Ｄ画像を学習済みモデルに提供することができる。学習済みモデルは、プロセス６００を用いて生成された学習済みニューラルネットワークを含むことができる。その後、プロセス７００は７１６に進むことができる。

７１６において、プロセス７００は、学習済みモデルからインジケータを受け取ることができる。いくつかの構成において、インジケータは、患者悪性可能性スコア及び合成２Ｄ画像のエリアを含むことができる。いくつかの構成において、合成画像のエリア及び／又は画素を、合成２Ｄ画像を生成するために使用される（複数の）元のスライスを示す１つ以上のスライス番号と関連付けることができる。このようにして、医療従事者は病変を含む１つ以上のスライスを見ることができる。いくつかの構成において、インジケータは、合成２Ｄ画像のエリアを生成するために使用されるスライスのランク付けされた順序付けを含むことができる（例えば、所与のスライスに基づいて生成される合成２Ｄ画像のエリアのパーセンテージによって順序付けされたスライス）。このようにして、医療従事者は最も関連性のあるスライスを見ることができる。合成２Ｄ画像のエリアは、学習済みモデルによって生成されたバウンディングボックスと関連付けることができ、そして患者悪性可能性スコアは、病変を含み得る合成２Ｄ画像のエリアの悪性と関連付けることができる。いくつかの構成において、インジケータは、合成２Ｄ画像全体に関連する患者の悪性スコア（即ち、画像レベルスコア）を含むことができる。インジケータのコンポーネントは、出力レイヤー２５０を修正することによって、医療従事者の好みに基づいて修正することができる。いくつかの構成において、プロセス７００は、複数のインジケータを受け取ることができる（例えば、合成２Ｄ画像が複数の病変を有する場合）。その後、プロセス７００は７２０に進むことができる。

７２０において、プロセス７００は、保存及び／若しくは別のプロセスによる使用のためにメモリへ、並びに／又は人間の医療従事者が見る用にコンピュータモニタなどのディスプレイへ、インジケータを出力することができる。例えば、プロセス７００は、医療施設内のディスプレイにインジケータを出力して、医療従事者がインジケータを見ることができるようにし、場合によっては、インジケータに基づいて患者の診断を決定できるようにする。インジケータは、乳がん患者の将来の分析及び／又は研究のために、医療記録のデータベースに保存されてもよい。いくつかの構成において、プロセス７００は、７１６で受け取ったインジケータの１つ以上を、保存及び／若しくは別のプロセスによる使用のために、並びに／又は人間の医療従事者が見る用にコンピュータモニタなどのディスプレイへ、出力することもできる。プロセス７００は、インジケータをレポートとして出力することができる。その後、プロセス７００は終了できる。

＜テスト＞
テストにおいて、プロセス３００と共にトレーニングされたモデルは、人間の医療従事者及びいくつかの代替的な予測アプローチをしのぐことが示された。表１は、モデルのトレーニング及びテストに用いたデータソースをまとめたものである。データセットＯＭＩ－ＤＢとＤＤＳＭに加えて、サイトＡ、Ｂ、Ｃと示されるトレーニングのための３つの米国臨床サイトからデータセットを収集した。テストに用いたデータは、モデルトレーニング又は選択に一度も用いられていない３つのデータセットに加えて、ＯＭＩ－ＤＢ及び「サイトＡ－ＤＭ」データセットのテストパーティションを含む。これらのテスト専用データセットは、読影者研究に使用されるマサチューセッツ州の保健システムからのスクリーニングＤＭ（デジタルマンモグラフィ、例えば２Ｄマンモグラフィ）データセット（サイトＤ）、中国の都市部の病院からの診断ＤＭデータセット（サイトＥ）、及びオレゴン州の地域病院からのスクリーニングＤＢＴデータセット（サイトＡ－ＤＢＴ）を含む。ここで、スクリーニングマンモグラムのテストは可能なときにはいつでも行われたが、サイトＥのデータセットについては、中国でのスクリーニング率が低いことから診断検査（即ち、女性が症状を呈する検査）を用いる必要があった。

読影者研究は「インデックス」及び「プレインデックス」がん検査の両方を用いて、両レジメンの専門放射線科医を直接比較するために行われた。具体的には、インデックス検査は、生検で悪性と診断される３ヵ月前までに取得されたマンモグラムと定義される。プレインデックス検査は、インデックス検査の１２ヵ月から２４ヵ月前に取得されたものと定義され、臨床診療においては陰性と判断された。ＢＩＲＡＤＳ基準に従い、ＢＩＲＡＤＳスコア１又は２を陰性判断とみなし、陰性検査とその後の追加のＢＩＲＡＤＳ１～２スクリーニングとして「確認済み陰性」をさらに定義した。読影者研究で使用された全ての陰性は確認済み陰性であった。

図８は、読影者研究の「インデックス」コンポーネントの結果をまとめた受信者操作特性（ＲＯＣ）プロットである。この研究には５人の放射線科医が参加し、それぞれ***画像診断のフェローシップトレーニングを受けており、現場で常勤で業務していた。スクリーニングＤＭ事例で構成されるデータは、トレーニングデータのあらゆるソースとは米国の異なる州にある地域保健システムから過去にさかのぼって収集された。図８は、事例（症例）レベルのパフォーマンスに基づくＲＯＣプロットであり、１３１件のインデックスがん検査及び１５４件の確認済み陰性のセットについて、開示された技術を使用してトレーニングされた深層学習モデルと読影者とを比較したものである。各読影者を表す点は全てモデルのＲＯＣ曲線を下回っており、モデルが５名の放射線科医全員をしのいだことを示している。平均読影者特異度にて、モデルは１４．２％の絶対的感度増加を達成した（９５％信頼区間（ＣＩ）：９．２～１８．５％；ｐ＜０．０００１）。平均読影者感度にて、モデルは２４．０％の絶対的特異度増加を達成した（９５％ＣＩ：１７．４～３０．４％；ｐ＜０．０００１）。連続的な「悪性の可能性」スコアに基づく読影者ＲＯＣ曲線も作成され、これにおいて、モデルによる同様のより高いパフォーマンスが示された。さらに、このモデルは、読影者のシミュレーションされた組み合せの全てをしのぎ、またこのデータセットに関する他の最近発表されたモデルにも引けを取らない。

図９は、同じ患者からの「プレインデックス」検査を用いた読影者研究の第２のコンポーネントをまとめたＲＯＣプロットである。図９は、１２０件のプレインデックスがん検査（これはがんが発見されたインデックス検査の１２ヵ月から２４ヵ月前に陰性と判断されたマンモグラムとして定義される）及び１５４件の確認済み陰性を含むデータセットに基づいて作成された。研究によって、乳がんは典型的にはマンモグラフィによる発見の３年以上前に存在すると推定されるため、プレインデックス検査はほとんどチャレンジングな偽陰性と考えることができる。深層学習モデルは、早期発見及びプレインデックスパラダイムにおいて５名の読影者全員をしのいだ。読影者及びモデルの絶対パフォーマンスは、インデックスがん検査でよりもプレインデックスがん検査でのほうが低く、これは後者の困難さを考慮すると予想されたものである。それにもかかわらず、モデルは、依然として、平均読影者特異度にて１７．５％の絶対的感度増加を示し（９５％ＣＩ：６．０～２６．２％；ｐ＝０．０００９）、平均読影者感度にて１６．２％の絶対的特異度増加を示した（９５％ＣＩ：７．３～２４．６％；ｐ＝０．０００８）。９０％の特異度では、モデルは、プレインデックス（例えば、「見逃し」）がん事例の４５．８％（９５％ＣＩ：２８．８～５７．１％）について、追加の精密検査とのフラグを付けたと考えられる。モデルはさらに、プレインデックスデータセットに関して、最近発表されたモデルよりも高いパフォーマンスを示した。

モデルの判断可能なローカライゼーション出力を考えると、正確なローカライゼーションを必要としながら感度を評価することも可能である。左右レベル及び四分円レベルのローカライゼーションの両方について、モデルは、再度、読影者研究において、インデックスの場合及びプレインデックスの場合の両方について感度の向上を示す。また、病変のタイプ、がんのタイプ、がんの大きさ及び***密度などの因子を考慮すると、より高いモデルパフォーマンスの傾向が適用できる。

読影者研究のパフォーマンスを基に、異なる集団、機器製造業者及びモダリティにまたがるより大規模で多様なデータセットについて、単独のパフォーマンスが評価された。これらの結果は表２にまとめられており、これらはインデックスがん検査を用いて計算された。

表２において、全ての結果は、陰性が未確認のものであるサイトＥを除き、がん事例についての「インデックス」検査及び非がん事例についての「確認済み」陰性を使用したものに相当する。列１及び列２は、ＯＭＩ－ＤＢ（がん１２０５件、陰性１５３８件）及びサイトＡ（がん２５４件、陰性７６９７件）データセットのホールドアウト(held-out)テストセットについてプロセス３００を用いてトレーニングした２Ｄ深層学習モデルのパフォーマンスを示す。列３及び列４は、中国の病院で収集されたデータセットでのパフォーマンスを示す（サイトＥ；がん５３３件、陰性１０００件）。データセットは、中国におけるスクリーニングマンモグラフィの普及率が低いことを考慮して、完全に診断検査で構成される。それにもかかわらず、ブートストラップリサンプリングを用いて腫瘍サイズを調整して米国のスクリーニング集団で期待される腫瘍サイズの分布に近似させる場合でも、モデルは依然として高パフォーマンスを達成している（列７）。列５から列７は、ＤＢＴデータ（サイトＡ－ＤＢＴ；がん７８件、陰性５１８件）でのパフォーマンスを示している。列５は、ＤＢＴ研究にてＤＭ画像を拡張／置換するために作成された、製造業者が生成した合成２Ｄ画像で微調整された２Ｄモデルの結果を含む（＊はこの微調整されたモデルを示す）。列６は、プロセス６００を用いてトレーニングされた弱教師あり３Ｄモデルの結果を含み、ＤＢＴスライスから計算されたプロセス５００を介して生成された合成画像で評価された場合の強いパフォーマンスを示している。ここで、ＤＢＴボリュームを全スライスにわたって最大バウンディングボックスコアとしてスコアリングする際に、合成画像を作成するために使用された強教師あり２Ｄモデルは、０．８６５±０．０２０のＡＵＣを示す。よって、このモデルをプロセス５００にしたがって作成された合成画像で微調整することで、そのパフォーマンスが著しく向上する。列７は、プロセス６００にしたがってトレーニングされた最終３Ｄモデルと、プロセス３００にしたがってトレーニングされた２Ｄモデルとにおける予測を組み合わせた場合の結果を示す。各ＡＵＣ値の標準偏差はブートストラップ法により計算された。

１２０５件のがん及び１５３８件の確認済み陰性を含むＯＭＩ－ＤＢのテストパーティションから開始して、開示された技術を用いてトレーニングされたモデルは、ＡＵＣが０．９６３±０．００３（全１９７６件の陰性－確認済み及び未確認－を用いた場合０．９６１±０．００３）である英国のスクリーニング集団からのＤＭ検査に対して強いパフォーマンスを示す。２５４件のがん及び７６９７件の確認済み陰性を含むサイトＡ－ＤＭデータセットのテストパーティションについて、モデルは０．９２７±０．００８（全１６，３６９件の陰性を用いた場合０．９３１±０．００８）のＡＵＣを達成し、これは、他のテストされた米国スクリーニングＤＭデータセット（サイトＤ；ｐ＝０．２２）での結果と統計的な差はない。サイトＡ－ＤＭデータセットは、他のデータセットの大部分について使用されたＨｏｌｏｇｉｃ社製機器とは対照的に、ＧＥ社製機器を使用して取得されたマンモグラムで構成される。

プロセス４００にしたがってトレーニングされたモデルの一般化可能性をさらにテストするために、中国の都市部の病院（サイトＥ）で収集されたＤＭデータセットでパフォーマンスを評価した。中国でのスクリーニング率が低いこと、及びアジア人集団で高密度***の女性の割合が多いなど欧米人集団とアジア人集団の間でマンモグラムに見いだされ、知られている（及び場合によっては知られていない）生物学的差異を考慮すると、このデータセットへの一般化をテストすることは特に有意義である。中国の病院でローカルに評価されたモデルは、この集団によく一般化され、０．９７１±０．００５のＡＵＣを達成した（全て陰性を用いたが、フォローアップスクリーニングを欠いていることを考慮すると「確認」は不可能である）。腫瘍サイズを米国のスクリーニング集団で期待される統計量とほぼ一致するように調整した場合でも、モデルは０．９５６±０．０２０のＡＵＣを達成した。

最後に、プロセス６００のアプローチにしたがってトレーニングされたモデルは、ＤＢＴモデルトレーニングに使用されていないサイトで評価した場合、良好に機能する。モデルは０．９４７±０．０１２（７８件のがん及び５１９件の確認済み陰性；全１１，６０９件の陰性検査を用いた場合０．９５０±０．０１）のＡＵＣを達成した。強教師あり２Ｄモデルが、代わりに、各ＤＢＴ研究においてデフォルトで生成される製造業者が生成した合成２Ｄ画像で微調整された場合、得られたモデルは、テストセットについて０．９２２±０．０１６のＡＵＣ（全て陰性を用いた場合０．９２３±０．０１５のＡＵＣ）を達成する。製造業者が生成した合成画像とプロセス５００にしたがって生成された合成画像とについて予測を平均化すると、全体パフォーマンスは０．９５７±０．０１０（全て陰性を用いた場合０．９５９±０．００８）となる。

＜方法＞
・データセットの記述
表１に記載の全利用データセットの詳細を以下に示す。全ての非公開データセットはＩＲＢの承認のもとに収集され、モデルのトレーニング及びテストの前に識別解除された。各データソースにおいて患者レベルでデータ分割が作成され、つまり、特定の患者からの検査が全て同じ分割に含まれていたことを意味する。分割は、トレーニング、モデル選択及びテストで構成され、モデル選択分割は、最終モデルを選ぶため及びモデルトレーニングを停止する時を決定するために使用される。トレーニングデータのラベル割り当て及び事例選択のルールは、収集期間及び利用可能なメタデータ（後述する）のばらつきがあるため、データセット間でわずかに異なっていた。但し、テストセット及びラベル基準の定義は、特に明記しない限り、データセット間で標準化した。ラベルの割り当てには以下の定義を用いた。
インデックスがん－がんの診断前３ヵ月以内に撮影されたマンモグラム。
プレインデックスがん－ＢＩＲＡＤＳカテゴリの１又は２と判断され、インデックス検査の１２ヵ月から２４ヵ月前に取得されたマンモグラム。
陰性－乳がんの過去の又は将来の病歴のない患者からの、ＢＩＲＡＤＳの１又は２と判断されたマンモグラム。
確認済み陰性－陰性検査に続いて、９ヵ月から３９ヵ月後の次のスクリーニング検査時（これは、３ヵ月のバッファを伴うスクリーニングパラダイムに応じた１年間から３年間のフォローアップを表す）に追加でＢＩＲＡＤＳの１又は２と判断されたもの。時間窓は、３年を超えて、３年毎のスクリーニング（例、英国）を含めるように延長された。終始、「プレインデックス」事例は陽性として扱われ、何故なら、適切なフォローアップによって病理診断されたがんが判定できたか保証できないとはいえ、これらの検査の大部分については取得の時点でがんが存在していた可能性が高いからである。

全てのデータセットは、サイトＤを除いて、テストセットを作成するために同じアルゴリズムを共有した（後述の対応するセクションで詳細に記載する）。研究は、上で記載した基準に基づいて、「インデックス」、「プレインデックス」、「確認済み陰性」、「未確認陰性」、又は「なし」としてラベル付けされた。テストセットのなかの各患者について、１つの研究が、「インデックス」、「プレインデックス」、「確認済み陰性」、「未確認陰性」の上から順の優先順に選ばれた。患者が、選ばれたラベルで複数回検査を受けた場合、１つの検査がランダムにサンプリングされた。患者がインデックス検査を受けた場合は、１つのプレインデックス検査も可能な場合には含めた。全てのトレーニング及びテストについて、頭尾方向（ＣＣ）及び内外斜方向（ＭＬＯ）マンモグラフィ像のみが用いられた。全てのテストセットは、中国でのスクリーニング率が低いことを考慮して全てのテストされた検査が診断検査であるサイトＥを除いては、スクリーニング検査（即ち、スクリーニングインデックスがん、スクリーニング陰性）のみを含む。ここで、確認済み陰性と未確認陰性の割合はサイトによって大きなばらつきがあり、何故なら、検査取得の期間が異なる（即ち、確認に十分な時間が経過していなかった可能性がある）、スクリーニングパラダイムが異なる、及び／又はＢＩＲＡＤＳ情報収集範囲が異なるからである。パフォーマンスは、陰性の厳密な定義で結果を検討しつつより多量のデータについても評価するために、可能な場合には、確認済み陰性と未確認陰性の両方を用いて報告された。

トレーニングでは、各トレーニングインスタンス（例えば、画像又はバウンディングボックス）について、がんについては「１」のラベル、非がんについては「０」のラベルを割り当てて、ラベル付けした。画像に「１」（がん）のラベルを割り当てる主な決定は、がんの確認（生検）と画像取得の間で許される時間窓の中でなされる。米国のデータセットについては、この窓は１５ヵ月に設定されている。この時間窓は、トレーニング用のいくつかのプレインデックスがん検査を含めながら過剰適合のリスクをバランスさせるように選択された。米国のデータセット（インデックスがんのみを有するＤＤＳＭを除く）については、ローカライゼーションアノテーションが利用できなかったため、時間窓をさらに広げることで、より潜行性のがんについての過剰適合につながる可能性がある。それにもかかわらず、米国での年１回と隔年のスクリーニングをミックスすることにより、１５ヵ月間の時間窓を用いていくつかのプレインデックスがんを含めることが可能となる。英国のＯＭＩ－ＤＢについては、データセットに強ラベル済みデータが高い割合で含まれているため、そして標準的なスクリーニング間隔は英国の方が長いことから、この窓は１年延長されている。非がんについては、特に記載のない限り、がんの病歴のない患者からのスクリーニング陰性検査（ＢＩＲＡＤＳの１又は２）が使用され、可能な場合には、がんの病歴のない患者からの病理的に確認された良性事例が使用された。病理的に確認された良性事例については、スクリーニング検査と診断検査の両方についてトレーニングを行った。がんについては、スクリーニング検査及び診断検査の両方がトレーニングに追加で含まれた。診断検査に関するトレーニングは、スクリーニング検査のみで評価した場合でもパフォーマンスを向上させることができる（その逆も同様）ことが分かった。スクリーニング検査のみに関するトレーニングが行われた唯一のデータセットはサイトＡ－ＤＭデータセットであり、良性の生検情報が不足していれば、トレーニングに含まれることとなる診断検査の全てががんとなってしまうため、このようなバイアスを避けるために診断検査は全て除外された。１人の患者につき１つの検査しか含まないモデルテストとは対照的に、所定の患者についての全適格検査がトレーニングに使用された。以下に、データセットのさらなる詳細を記載する。

・スクリーニングマンモグラフィのデジタルデータベース（ＤＤＳＭ）
ＤＤＳＭは、検証済み病理情報を有する正常、良性、悪性にカテゴライズされた事例を含む米国のスキャンされたフィルムマンモグラフィ研究の公開データベースである。このデータセットには、検出された病変ごとに放射線科医が描いた分割マップが含まれる。データは９０％／１０％でトレーニング／モデル選択の分割に分割され、結果として、がん７３２件、良性７４３件、及び正常８０７件のトレーニングのための研究が得られた。ＤＤＳＭからのデータは、スキャンされたフィルムデータセットであることを考慮して、テストには使用されなかった。

・最適マンモグラフィイメージングデータベース（ＯＭＩ－ＤＢ）
ＯＭＩ－ＤＢは英国の公開データセットであり、主にＨｏｌｏｇｉｃ社製機器を用いて得られたスクリーニング及び診断用デジタルマンモグラムを含んでいる。患者のユニークなリストを６０％／２０％／２０％でトレーニング／モデル選択／テストの分割に分割した。結果として、がん研究５２３３件（バウンディングボックス付き２３３２件）、良性研究１２７６件（バウンディングボックス付き２９６件）、及び陰性研究１６，８８７件のトレーニングセットが得られた。ここで、ＯＭＩ－ＤＢにおける陰性に対する陽性の割合はスクリーニング集団で期待される割合よりもはるかに高いものの、陽性及び陰性自体はそれぞれの集団からランダムにサンプリングされた。したがって、ＲＯＣ曲線の発生率に対する不変性を考慮すると、この集団におけるテストセットのＡＵＣでは、自然発生率を有する全集団と比較してバイアスは予測されない。

・サイトＡ
サイトＡはオレゴン州の地域病院である。サイトＡからのデータセットは主にスクリーニングマンモグラムで構成されており、２０１０年から２０１５年のＤＭデータはほぼ全てＧＥ社製機器から収集され、２０１６年から２０１７年のＤＢＴデータはほぼ全てＨｏｌｏｇｉｃ社製機器から収集された。ＤＭデータについては、患者の４０％がトレーニングに使用され、２０％がモデル選択に使用され、４０％がテストに使用された。ＤＢＴデータは、他の利用されたＤＢＴデータセットと比較してスクリーニング検査の割合が高いことから、テストのためのみに使用された。ローカル病院のがん登録を用いて、両方のモダリティについてのグランドトゥルースのがんの状態が得られた。放射線レポートにも各研究が添付され、ＢＩＲＡＤＳ情報が含まれた。ＤＢＴデータについては、良性のリストが病院から追加提供されたが、ＤＭデータについてはそのような情報は入手できなかった。ＤＭデータセットに存在する縦断的データの程度と、このデータのための確認済みの良性病理情報の欠如を考慮して、非がんはトレーニングのためにより厳密に選択され、特に、検査の前後１８か月間、患者に関する非スクリーニング手順又は非正常判断の記録を持たないことが陰性には必要とされた。結果として、サイトＡ－ＤＭデータセットでのトレーニングについて、がん研究４６６件、陰性研究４８，２４８件が得られた。

・サイトＢ
サイトＢは、ロードアイランド州の入院医療センター及び関連イメージングセンターで構成されている。このサイトからのデータは、Ｈｏｌｏｇｉｃ社製機器からのＤＢＴマンモグラムを含み、２０１６年から２０１７年の間にさかのぼって収集されたスクリーニング検査及び診断検査がミックスされている。がんの状態、良性結果、及びＢＩＲＡＤＳは、ローカルデータベースを用いて決定された。ユニークな患者のリストが、８０％／２０％でトレーニング／モデル選択の分割に分割された。トレーニングに利用できるＤＢＴの量が比較的少なく、トレーニングに使用されていないデータセットでのテストが望ましいことを考慮し、サイトＢはモデル開発にのみ使用された。トレーニング用分割は、陰性１３，７６７件、良性３７９件、がん２６３件で構成されている。製造業者が生成した合成２Ｄ画像も最終２Ｄモデルのための弱教師ありトレーニングに含まれた。

・サイトＣ
サイトＣはサイトＡとは別のオレゴン州の保健システムである。サイトＣからはＤＢＴ事例が２０１７年から２０１８年の間にさかのぼって収集された。データは、ほぼ全てＨｏｌｏｇｉｃ社製機器を用いて取得されたスクリーニング事例と診断事例のミックスで構成されている。ユニークな患者のリストが、７０％／３０％でトレーニング／モデル選択の分割に分割された。地域がん登録を用いて、がんの状態が決定された。サイトＢと同様に、サイトＣはモデル開発のみに使用された。過去のＢＩＲＡＤＳ情報は、サイトＣの全事例について容易に入手できなかったため、地域がん登録に登録されていない患者の事例が非がんとしてトレーニングに用いられた。サイトＣとサイトＡの地理的近接性を考慮し、サイトＡについてテストを行う際には、両セットで重複する少数の患者が使用された。ここで、製造業者が生成した合成２Ｄ画像は、最終２Ｄモデルの弱教師ありトレーニングにも含まれていた。

・サイトＤ
サイトＤからのデータは読影者研究に使用され、４つの異なるイメージング収集センターを有するマサチューセッツ州の１つの保健システムからさかのぼって収集された４０５件のスクリーニングＤＭ検査で構成されている。このサイトからのデータは、これまでモデルのトレーニング又は選択には使用されていない。研究に含まれる検査は、２０１１年７月から２０１４年６月の間に取得された。４０５件の研究のうち、１５４件が陰性、１３１件がインデックスがん検査、１２０件がプレインデックスがん検査であった。全ての陰性は確認済み陰性であった。インデックスがん検査は、疑わしいと判断され、取得後３ヵ月以内に病理的に悪性であることが確認されたスクリーニングマンモグラムであった。プレインデックス検査はインデックス検査と同じ一組の女性から得られ、ＢＩＲＡＤＳの１又は２と判断されインデックス検査の１２ヵ月から２４ヵ月前に取得されたスクリーニング検査で構成されている。全ての研究はＨｏｌｏｇｉｃ社製機器を用いて取得された。事例選択は複数ステップにわたって行われた。まず、ローカルがん登録を用いて、指定された期間にわたり、適格なインデックス及びプレインデックス検査を受けた全患者を取り出すことで、研究に含まれるがん患者が選択された。ＰＡＣＳによる制限のため、一部のプレインデックス事例は得ることができなかった。次に、バケッティングを用いて、がん事例と比較して患者の年齢と***密度において同様の分布があるように、非がん事例が選ばれた。合計で、２８５人の女性から、非がんマンモグラム１５４件、インデックスがんマンモグラム１３１件、プレインデックスがんマンモグラム１２０件が収集された。

・サイトＥ
サイトＥは、２０１２年から２０１７年の間の連続する期間からさかのぼって収集された中国の都市部の病院からのデータセットで構成されている。この期間にわたって、全ての病理的に証明されたがんが非がんの一様にランダムなサンプルとともに収集され、その結果、がん５３３件、陰性（ＢＩＲＡＤＳの１又は２との判断）１０００件、及び病理的に証明された良性１００件が得られた。中国ではスクリーニング率が低いため、データは診断検査（即ち、患者が症状を呈した検査）から得られたものであり、したがって、がん事例からの腫瘍サイズの分布には、典型的な米国のスクリーニング集団で予測されるよりも大きな腫瘍（例えば、６４％が２ｃｍを超える）が含まれていた。米国のスクリーニング集団とより良く比較するために、サイトＥの結果もまた、ブートストラップ再サンプリング法を用いて米国放射線データ登録に従った米国の集団からの腫瘍サイズの分布とほぼ一致するように、算出された。このアプローチを用いて、５Ｋのブートストラップされた集団について平均ＡＵＣが算出された。サイトＥはテストにのみ使用され、これまでモデル開発には使用されていない。さらに、深層学習システムは病院でローカルに評価され、データは決してサイトから出ることはなかった。

・モデル開発及びトレーニング
上で記載したテストでは、テストに使用されたモデルのトレーニングの第１ステージはパッチレベルの分類（例えば、図３の３０８）で構成されていた。元の画像が１７５０画素の高さにサイズ変更された後、ＤＤＳＭ及びＯＭＩ－ＤＢデータセットから２７５ｘ２７５画素のサイズのパッチが作成された。また、ランダムな３６０度回転、最大２０％のサイズ変更、及び縦方向ミラーリングなどを含むデータ拡張も、パッチを作成する際に使用された。前処理は、画素値を［－１２７．５，１２７．５］の範囲に正規化することを含む。病変を含むパッチを作成する際、病変境界内のランダムな位置がパッチの中心として選択された。得られたパッチにおいて病変マスクを含む画素が６画素未満であった場合は、このパッチは廃棄され、新たなパッチがサンプリングされた。全てのパッチについて、ＤＤＳＭについては大津の方法で、ＯＭＩ－ＤＢについては画像中の最小画素値を用いる閾値法での決定に基づき、パッチに含まれる***フォアグランドが１０％未満であった場合には、このパッチは廃棄された。合計で、病変を有するパッチと有さないパッチは同数として、２００万個のパッチが作成された。パッチ分類モデルについて、ＲｅｓＮｅｔ－５０ネットワークが使用された。パッチベースのトレーニングステージ自体は、２つのトレーニングシーケンスで構成されていた。まず、ＩｍａｇｅＮｅｔ事前学習重みから開始して、ＲｅｓＮｅｔ－５０モデルを、腫瘤、石灰化、局所的非対称性、構造歪み、又は病変なしの病変タイプの５クラス分類について、トレーニングした。ＤＤＳＭ及びＯＭＩ－ＤＢからのパッチを、各データセットにおけるがん事例数に比例してサンプリングした。このモデルは、バッチサイズ１６で、６２，５００個のバッチについてトレーニングされ、全ての病変タイプから等しくサンプリングされた。アダムオプティマイザーは学習率１ｅ－５で使用された。次に、パッチレベルモデルが、正常、良性又は悪性のラベルを用いて、３クラス分類のためにトレーニングされ、ここでも、３つのカテゴリ全てから等しくサンプリングされた。パッチレベルのトレーニングのこのステージについても同じトレーニングパラメータが用いられた。

パッチレベルのトレーニング後、トレーニングの第２ステージ、即ち、強教師ありの、画像レベルのトレーニング（例えば、図３の３２０）のために、ＲｅｓＮｅｔ－５０重みを用いて、ポピュラーな検出モデルであるＲｅｔｉｎａＮｅｔのバックボーン部分が初期化された。画像の前処理は、１７５０画素の高さまでサイズ変更し（元のアスペクト比を維持）、上で記載した閾値法を用いてバックグラウンドをクロップアウトし、画素値を［－１２７．５，１２７．５］の範囲に正規化することを含む。トレーニング中のデータ拡張は、最大１５％のランダムサイズ変更、及びランダム縦方向ミラーリングを含む。マンモグラフィの高いクラスアンバランス（陰性よりも陽性がはるかに少ない）を考慮して、悪性例と非悪性例を等確率でサンプリングすることによりトレーニング中にクラスバランシングが行われた。このクラスバランシングはデータセット内で実行され、データセット間のがんの異なる割合のバイアスをモデルが学習することを防止した。この強教師ありの画像レベルトレーニングステージについて、ＯＭＩ－ＤＢデータセット及びＤＤＳＭデータセット内のバウンディングボックスが使用された。３クラスバウンディングボックス分類は、正常、良性又は悪性のラベルを用いて行なわれた。ＲｅｔｉｎａＮｅｔモデルは、バッチサイズ１で、１００Ｋの繰り返し数、トレーニングされた。アダムオプティマイザーが、学習率１ｅ－５で、０．００１の値での勾配ノルムクリッピングで、使用された。ＲｅｔｉｎａＮｅｔ損失にはデフォルトのハイパーパラメータが用いられたが、但し、回帰損失には０．５の重みが与えられ、分類損失には１．０の重みが与えられた。

弱教師ありトレーニングステージ（例えば、図３の３２８及び図６の６１６）については、バイナリクロスエントロピー損失を用いてバイナリがん／非がん分類が行われた。強教師ありトレーニングステージと同じ画像入力処理ステップが用いられた。ＲｅｔｉｎａＮｅｔアーキテクチャは、バウンディングボックス分類スコアの全てにわたって最大値をとることによって分類モデルに変換され、バイナリラベルを用いるエンドツーエンドのトレーニングを可能にしながら完全に弁別可能なままであるモデルが得られた。２Ｄについては、トレーニングはアダムオプティマイザーを用いて３００Ｋの繰り返し数で構成され、学習率は２．５ｅ－６で開始し、これは１００Ｋの繰り返し数ごとに４分の１に減少させた。最終モデル重みは、４Ｋの繰り返し数ごとに検証セット上でＡＵＣパフォーマンスをモニタリングすることにより選ばれた。

ＤＢＴについては、プロセス５００において記載した「最大疑い投影」（ＭＳＰ）アプローチは、他の方法ではオーバーラップする組織によって不明瞭となる可能性のある病変に最適な視野を提供することにおいてＤＢＴの値によって、及び、転移学習の適用可能性を示唆するＤＢＴ画像とＤＭ画像の間の類似性によって、動機付けられる。さらに、２Ｄマンモグラフィの集合的性質は、大きなＤＢＴボリュームでのエンドツーエンドのトレーニングと比較して、過剰適合を減らすのに役立つと特に考えられる。この目的のために、３Ｄモデルについての弱教師ありステージにおいて、プロセス５００を通して作成された合成画像（「ＭＳＰ画像」）は、追加の学習率２．５ｅ－６を用いる５０Ｋのトレーニング繰り返し数の後に、上で記載した２Ｄ強教師ありトレーニングから得られたモデルを用いて作成された。ＭＳＰ画像を作成するために、ＤＢＴスタックのスライスごとに２Ｄモデルが評価され、但し、スライスの最初と最後の１０％（これらはしばしばノイズを有する）は除いた。最小バウンディングボックスコア閾値は、ＯＭＩ－ＤＢ検証セットで９９％の感度を達成するレベルに設定された。全ての評価されたスライスにわたるバウンディングボックスが、０．２のＩｏＵ閾値を用いて、非最大値抑制（ＮＭＳ）を用いてフィルタ処理された。次いで、フィルタ処理されたバウンディングボックスによって定義された画像パッチが、さらなるモデルトレーニングのために最適化された画像を表す単一の２Ｄ画像アレイにコラップスさせた(collapsed)。プロジェクション内の「空の」画素は、ＤＢＴスタックの中心スライスから対応する画素で埋め込まれ、最終ＭＳＰ画像が得られた。全体として、ＭＳＰプロセスは最大強度投影（ＭＩＰ）に似ているが、但し、最大値が、画素レベル強度について計算されるのではなく、代わりにＡＩモデルによって予測されるＲＯＩ悪性疑いについて計算される点が異なる。結果として得られたＭＳＰ画像に関するトレーニングは、モデルが１００Ｋの繰り返し数トレーニングされる点を除き、２Ｄ弱教師ありアプローチと同様に行われた。２Ｄ画像に使用された入力処理パラメータはＤＢＴスライス及びＭＳＰ画像に再利用された。

２Ｄ及び３Ｄモデルの両方に対する弱教師ありトレーニング後、トレーニングの第２ステージで使用された強ラベル済みデータに対して、ＲｅｔｉｎａＮｅｔアーキテクチャの回帰部分の微調整が行われた。具体的には、ネットワークのバックボーン部分及び分類部分をフリーズさせ、回帰部分のみがこの微調整中に更新された。これにより、回帰部分は、回帰部分が更新されない弱教師ありトレーニングステージの間、ネットワークのバックボーン部分における重みのあらゆる変化に適応することができる。この回帰微調整ステージでは、前のステージと同じ前処理とデータ拡張手順を用いて、学習率２．５ｅ－６で５０Ｋの繰り返し数、ネットワークをトレーニングした。最終モデル選択は、ホールドアウトモデル選択データパーティションのパフォーマンスに基づいている。最終モデルは、異なるランダムシードから始まる３つの等しくトレーニングされたモデルの集合であった。ある画像の予測スコアは、画像の両方の水平方向に対する３つのモデルの予測を平均する（即ち、６つのスコアの平均）ことによって計算された。バウンディングボックスアンカーの回帰座標は、３つのモデルにわたって追加で平均化された。各***には、そのビューの全ての平均スコアをとることにより悪性スコアが割り当てられた。各研究には、その２つの***レベルのうち大きい方をとることによりスコアが割り当てられた。

・読影者研究
読影者研究は、記載された深層学習システムのパフォーマンスを、専門の放射線科医と比較して直接評価するために行われた。読影者研究は確かに人工的な設定であるが、そのような研究は、レトロスペクティブなパフォーマンス比較に内在する「ゲートキーパーバイアス」を回避し、なぜなら、各事例のグランドトゥルースは読影者研究において先験的に確立されているからである。また、最近のエビデンスも、読影者研究における高陽性率自体が読影者集団ＲＯＣパフォーマンスにほとんど影響を及ぼさないだろうことを示唆している。

・読影者の選択
読影者研究の読影者として、５名の委員会認定放射線科医及びＭＱＳＡ認定放射線科医を募集した。読影者は全員、***画像診断のトレーニングを受けたフェローシップであり、フェローシップ後平均５年間（２年間から１２年間の範囲）経験を積んでいる。読影者は読影者研究の前年に平均６９６９個のマンモグラムを読影し（２９２１個から９２６０個の範囲）、その６０％がＤＭ、４０％がＤＢＴであった。

＜研究デザイン＞
読影者研究用のデータは上で記載したサイトＤから入手した。本研究は２回のセッションで行った。第１のセッションでは、放射線科医は１３１件のインデックスがん検査及び７６件の陰性検査を読影した。第２のセッションでは、放射線科医は１２０件のプレインデックス検査及び残りの７８件の陰性検査を読影した。読影者ごとに２回のセッション間に少なくとも４週間のウォッシュアウト期間が設けられた。読影者には、各事例について強制ＢＩＲＡＤＳスコア（１から５）を提供するよう指示した。ＢＩＲＡＤＳの１及び２は想起なし、ＢＩＲＡＤＳの３，４及び５は想起ありと考えられた。放射線科医は患者に関する情報（過去の病歴、放射線科のレポート、その他の患者記録など）を全く持っておらず、研究データセットにはスクリーニングで観察される標準的な有病率と比較してがんマンモグラムが豊富に含まれていることを知らされたが、事例タイプの割合については知らされていなかった。放射線科医全員が、各自の臨床診療に類似した環境の専用のマンモグラフィワークステーションで研究を閲覧し、判断（読影）した。読影者は電子事例報告書に各自の判断を記録した。読影者は、強制的なＢＩＲＡＤＳに加えて、***密度分類を提供し、そして、検出された病変ごとに、病変のタイプ、左右差、四分円差、及び０から１００の悪性スコアの可能性（最大４つの病変について）を提供した。ＢＩＲＡＤＳを用いた読影者バイナリ想起決定が分析に用いられ、何故ならこれは臨床診療をより入念に反映するからである。

・ローカライゼーションに基づく分析
上で記載した主な読影者研究結果は事例レベルの分類パフォーマンスに対応しているが、ローカライゼーションに基づく分析も行った。本研究では、読影者は、想起を正当化するために、決定された各病変についての***の左右差及び四分円差を報告した。悪性病変についてのグランドトゥルースの左右差及び四分円差は、病理及び放射線学レポートとともにマンモグラム画像を調べることにより、読影者研究の臨床主導により提供された。プレインデックス事例について、グランドトゥルース位置は、病変がプレインデックス検査では見えないと見なされた場合でも、対応するインデックス事例のグランドトゥルース位置に設定された。考慮される深層学習モデルは、バウンディングボックスのかたちでローカライゼーションを提供する。読影者と比較するため及びモデル出力判断可能性においてエクササイズとしての役割も果たすために、読影者研究サイトとは異なるプラクティスからのＭＱＳＡ資格を有する放射線科医が、モデルの出力されたボックスを***の左右と四分円にマップした。この放射線科医は事例のグランドトゥルースを知らされておらず、与えられたバウンディングボックスごとに重心(centroid)の位置を推定するように指示され、推定は１つの四分円に制限された。

左右に基づくローカライゼーション感度と四分円に基づくローカライゼーション感度の両方が考慮され、事例を想起することに加え、対応するレベルでの正確なローカライゼーションが必要とされた。読影者は、大多数の事例（９０％）について最大でも１つの病変を報告したため、また、多くの位置を含む予測に報酬が与えられるシナリオを避けるため、最初の分析では、予測位置を最高スコアの病変に対応する位置に制限している。モデルについて、これは最高のスコアリングの左右の中で最高のスコアリングのバウンディングボックスをとることに相当する。読影者について、各病変について提供された悪性可能性スコアを用いて、最高のスコアリング位置が選択された。複数の悪性病変を有する場合は、読影者又はモデルの位置がいずれかの悪性病変の位置と一致していれば、真陽性が割り当てられた。所定の読影者の特異度に一致するモデルスコア閾値を選択することにより、各読影者の感度がモデルと比較された。モデルも同様の様態で読影者平均と比較された。

・統計的分析
主な評価方法としてテストを通して受信者操作特性（ＲＯＣ）曲線用いられた。ここで、ＲＯＣ分析は、陽性例と陰性例の比率に対して不変であること、考え得る想起率の全範囲（即ち、操作点）にわたってパフォーマンスを比較することが可能であることから、診断パフォーマンスを評価するための標準的な方法である。ＡＵＣの信頼区間及び標準偏差、並びに平均読影者感度及び特異度は、１０，０００回のランダムリサンプリングを伴うブートストラップ法を介して計算された。考えられるモデルの感度及び特異度と平均読影者感度及び特異度とを比較するためのｐ値は、ブートストラップリサンプリングにわたって、モデルと読影者との差分が０未満であった回数の割合をとることにより計算された。１０，０００回のランダムリサンプリングを伴うブートストラップ法を用いて、データセット間のＡＵＣパフォーマンスが比較された。

本発明について１つ又は複数の好適な構成に関して記載したが、明示的に記載されたものを除いて、多くの同等物、代替物、バリエーション及び修正が可能であり本発明の範囲内であることは理解されるべきである。

Claims

患者の***組織における悪性の可能性に関するコンピュータによる方法であって、
コンピュータプロセッサを使用して、前記***組織の画像を受け取る工程と、
学習済みニューラルネットワークを含むモデルに前記***組織の前記画像を提供する工程と、
前記モデルからインジケータを受け取る工程と、
前記インジケータを含むレポートをメモリ又はディスプレイの少なくとも１つに出力する工程と、を含み、
前記学習済みニューラルネットワークは、
２次元画像の第１のグループから導出されるアノテーション済みパッチのセットに基づいて第１のニューラルネットワークをトレーニングし、ここで、各前記アノテーション済みパッチは、パッチレベルのラベルと、前記２次元画像の前記第１のグループに含まれる２次元画像の一部とを含むものであり、
前記第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、
アノテーション済み画像の第１のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第１のセットに含まれる少なくとも１つのアノテーション済み画像は、２次元画像の第２のグループに含まれる２次元画像と、少なくとも１つのバウンディングボックスと、前記少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性ラベルとを含むものであり、
アノテーション済み画像の第２のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第２のセットに含まれる各アノテーション済み画像は、２次元画像の第３のグループに含まれる２次元画像と、画像レベルの悪性可能性スコアとを含むものであり、
前記第２のニューラルネットワークを前記学習済みニューラルネットワークとして出力するように、予めトレーニングされる、方法。
前記***組織の前記画像は２次元デジタルマンモグラムである、請求項１に記載の方法。
前記***組織の前記画像は、デジタル***トモシンセシス画像に基づいて生成された合成２次元画像である、請求項１に記載の方法。
前記デジタル***トモシンセシス画像は複数のスライスを含み、
前記合成２次元画像は画素のアレイを含み、
前記画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、
前記複数のスライスの少なくとも一部を第２の学習済みニューラルネットワークに提供し、
悪性可能性スコアを各々が含む複数のインジケータを、前記第２の学習済みニューラルネットワークから受け取り、
前記画素のアレイに含まれるターゲット画素について、前記複数のインジケータに含まれる第１のインジケータであって前記複数のインジケータに含まれる第２のインジケータよりも大きい悪性可能性スコアを含む第１のインジケータに基づいてターゲット画素強度を決定することによって、予め生成される、請求項３に記載の方法。
前記画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、
前記画素のアレイに含まれる第２のターゲット画素について、前記複数の画素に含まれる画素が、前記第２のターゲット画素に関連する画素位置を含まないことを決定し、
前記第２のターゲット画素に含まれる画素強度を、前記複数のスライスに含まれるデフォルトスライスに含まれるデフォルト画素であって前記ターゲット画素に関連する画素位置を含むデフォルト画素と同じに設定することで、予め生成される、請求項４に記載の方法。
前記複数のスライスに含まれる各スライスは位置値に関連付けられており、前記デフォルトスライスは中間位置値に関連付けられている、請求項５に記載の方法。
前記デジタル***トモシンセシス画像は複数のスライスを含み、
前記複数のスライスに含まれる各スライスは、位置値に関連付けられており、
前記合成２次元画像は、所定範囲の位置値に含まれる位置値に関連付けられた前記複数のスライスのサブセットに基づいて生成される、請求項３に記載の方法。
前記複数のスライスの前記サブセットは、前記複数のスライスの約８０パーセントを構成する、請求項７に記載の方法。
前記第２のニューラルネットワークは、バックボーン部分、回帰部分及び分類部分を含み、
前記方法は、前記バックボーン部分及び前記分類部分を再トレーニングすることなく、前記アノテーション済み画像の前記第１のセットに基づいて前記回帰部分をトレーニングすることをさらに含む、請求項１に記載の方法。
前記アノテーション済み画像の前記第２のセットに基づいて前記第２のニューラルネットワークをトレーニングすることは、前記回帰部分をトレーニングすることなく前記バックボーン部分及び前記分類部分をトレーニングすることを含む、請求項９に記載の方法。
前記第１のニューラルネットワークは、第１の複数の重みを含み、
前記第２のニューラルネットワークは、第２の複数の重みを含むバックボーン部分を含み、
前記第１のニューラルネットワークに基づいて前記第２のニューラルネットワークを初期化することは、前記第２の複数の重みに含まれる重みを前記第１の複数の重みに含まれる重みと同じに設定することを含む、請求項１に記載の方法。
前記第１のニューラルネットワークは深層残留ネットワークを含み、前記第２のニューラルネットワークはシングルステージオブジェクト検出ネットワークを含む、請求項１１に記載の方法。
前記インジケータは、患者悪性可能性スコアを含む、請求項１に記載の方法。
前記インジケータは、前記***組織の前記画像のエリアを含む、請求項１に記載の方法。
患者の***組織に関する悪性の可能性を評価するためのシステムであって、
前記***組織の画像を保存するように構成されたメモリと、
前記メモリにアクセスするように構成されたプロセッサと、を備え、
前記プロセッサは、
前記***組織の前記画像を、学習済みニューラルネットワークを含むモデルに提供し、
前記モデルからインジケータを受け取り、
前記インジケータを含むレポートをメモリ又はディスプレイの少なくとも１つに出力するよう構成され、
前記学習済みニューラルネットワークは、
２次元画像の第１のグループから導出されるアノテーション済みパッチのセットに基づいて第１のニューラルネットワークをトレーニングし、ここで、各前記アノテーション済みパッチは、パッチレベルのラベルと、前記２次元画像の前記第１のグループに含まれる２次元画像の一部とを含むものであり、
前記第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、
アノテーション済み画像の第１のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第１のセットに含まれる少なくとも１つのアノテーション済み画像は、２次元画像の第２のグループに含まれる２次元画像と、少なくとも１つのバウンディングボックスと、前記少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性ラベルとを含むものであり、
アノテーション済み画像の第２のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第２のセットに含まれる各アノテーション済み画像は、２次元画像の第３のグループに含まれる２次元画像と、画像レベルの悪性可能性スコアとを含むものであり、
前記第２のニューラルネットワークを前記学習済みニューラルネットワークとして出力するように、予めトレーニングされたものである、システム。
前記***組織の前記画像は２次元デジタルマンモグラムである、請求項１５に記載のシステム。
前記***組織の前記画像は、デジタル***トモシンセシス画像に基づいて生成された合成２次元画像である、請求項１５に記載のシステム。
前記デジタル***トモシンセシス画像は複数のスライスを含み、
前記合成２次元画像は画素のアレイを含み、
前記画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、
前記複数のスライスの少なくとも一部を第２の学習済みニューラルネットワークに提供し、
悪性可能性スコアを各々が含む複数のインジケータを、前記第２の学習済みニューラルネットワークから受け取り、
前記画素のアレイに含まれるターゲット画素について、前記複数のインジケータに含まれる第１のインジケータであって前記複数のインジケータに含まれる第２のインジケータよりも大きい悪性可能性スコアを含む第１のインジケータに基づいてターゲット画素強度を決定することによって、予め生成されたものである、請求項１７に記載のシステム。
前記画素のアレイに含まれる複数の画素の少なくとも一部が有する画素強度値は、
前記画素のアレイに含まれる第２のターゲット画素について、前記複数の画素に含まれる画素が、前記第２のターゲット画素に関連する画素位置を含まないことを決定し、
前記第２のターゲット画素に含まれる画素強度を、前記複数のスライスに含まれるデフォルトスライスに含まれるデフォルト画素であって前記第２のターゲット画素に関連する画素位置を含むデフォルト画素と同じに設定することで、予め生成されたものである、請求項１８に記載のシステム。
前記複数のスライスに含まれる各スライスは位置値に関連付けられており、前記デフォルトスライスは中間位置値に関連付けられている、請求項１９に記載のシステム。
前記デジタル***トモシンセシス画像は複数のスライスを含み、
前記複数のスライスに含まれる各スライスは、位置値に関連付けられており、
前記合成２次元画像は、所定の範囲の位置値に含まれる位置値に関連付けられた前記複数のスライスのサブセットに基づいて生成される、請求項１７に記載のシステム。
前記複数のスライスの前記サブセットは、前記複数のスライスの約８０パーセントを構成する、請求項２１に記載のシステム。
前記第２のニューラルネットワークは、バックボーン部分、回帰部分及び分類部分を含み、
前記方法は、前記バックボーン部分及び前記分類部分を再トレーニングすることなく、前記アノテーション済み画像の前記第１のセットに基づいて前記回帰部分をトレーニングすることをさらに含む、請求項１５に記載のシステム。
前記アノテーション済み画像の前記第２のセットに基づいて前記第２のニューラルネットワークをトレーニングすることは、前記回帰部分をトレーニングすることなく前記バックボーン部分及び前記分類部分をトレーニングすることを含む、請求項２３に記載のシステム。
前記第１のニューラルネットワークは、第１の複数の重みを含み、
前記第２のニューラルネットワークは、第２の複数の重みを含むバックボーン部分を含み、
前記第１のニューラルネットワークに基づいて前記第２のニューラルネットワークを初期化することは、前記第２の複数の重みに含まれる重みを前記第１の複数の重みに含まれる重みと同じに設定することを含む、請求項１５に記載のシステム。
前記第１のニューラルネットワークは深層残留ネットワークを含み、前記第２のニューラルネットワークはシングルステージオブジェクト検出ネットワークを含む、請求項１５に記載のシステム。
前記インジケータは、患者悪性可能性スコアを含む、請求項１５に記載のシステム。
前記インジケータは、前記***組織の前記画像のエリアを含む、請求項１５に記載のシステム。
患者の***組織に関する悪性可能性スコアを決定するための方法であって、
前記***組織の画像を受け取る工程と、
学習済みニューラルネットワークを含むモデルに前記***組織の前記画像を提供する工程と、
前記モデルから前記悪性可能性スコアを受け取る工程と、
前記患者の前記悪性可能性スコアを含むレポートを、メモリ又はディスプレイの少なくとも１つに出力する工程と、を含み、
前記学習済みニューラルネットワークは、
２次元画像の第１のグループから導出されるアノテーション済みパッチのセットに基づいて第１のニューラルネットワークをトレーニングし、ここで、各前記アノテーション済みパッチは、悪性可能性スコアと、前記２次元画像の前記第１のグループに含まれる２次元画像の一部とを含むものであり、
前記第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、
アノテーション済み画像の第１のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第１のセットに含まれる少なくとも１つのアノテーション済み画像は、２次元画像の第２のグループに含まれる２次元画像と、少なくとも１つのバウンディングボックスと、前記少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性可能性スコアとを含むものであり、
アノテーション済み画像の第２のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第２のセットに含まれる各アノテーション済み画像は、２次元画像の第３のグループに含まれる２次元画像と、画像レベルの悪性可能性スコアとを含むものであり、
前記第２のニューラルネットワークを前記学習済みニューラルネットワークとして出力するように、予めトレーニングされる、方法。
患者の***組織に関する悪性可能性スコアを生成するためのシステムであって、
前記***組織の画像を保存するように構成されたメモリと、
前記メモリにアクセスするように構成されたプロセッサと、を備え、
前記プロセッサは、
前記***組織の前記画像を、学習済みニューラルネットワークを含むモデルに提供し、
前記モデルから前記悪性可能性スコアを受け取り、
前記悪性可能性スコアを含むレポートをメモリ又はディスプレイの少なくとも１つに出力するよう構成され、
前記学習済みニューラルネットワークは、
２次元画像の第１のグループから導出されるアノテーション済みパッチのセットに基づいて第１のニューラルネットワークをトレーニングし、ここで、各前記アノテーション済みパッチは、悪性可能性スコアと、前記２次元画像の前記第１のグループに含まれる２次元画像の一部とを含むものであり、
前記第１のニューラルネットワークに基づいて第２のニューラルネットワークを初期化し、
アノテーション済み画像の第１のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第１のセットに含まれる少なくとも１つのアノテーション済み画像は、２次元画像の第２のグループに含まれる２次元画像と、少なくとも１つのバウンディングボックスと、前記少なくとも１つのバウンディングボックスに関連付けられた少なくとも１つの悪性可能性スコアとを含むものであり、
アノテーション済み画像の第２のセットに基づいて前記第２のニューラルネットワークをトレーニングし、ここで、前記アノテーション済み画像の前記第２のセットに含まれる各アノテーション済み画像は、２次元画像の第３のグループに含まれる２次元画像と、画像レベルの悪性可能性スコアとを含むものであり、
前記第２のニューラルネットワークを前記学習済みニューラルネットワークとして出力するように、予めトレーニングされたものである、システム。