JP2022532615A - マルチパラメータ細胞・細胞内撮像データから細胞表現型多様性を特徴付けるシステム及び方法 - Google Patents
マルチパラメータ細胞・細胞内撮像データから細胞表現型多様性を特徴付けるシステム及び方法 Download PDFInfo
- Publication number
- JP2022532615A JP2022532615A JP2021567980A JP2021567980A JP2022532615A JP 2022532615 A JP2022532615 A JP 2022532615A JP 2021567980 A JP2021567980 A JP 2021567980A JP 2021567980 A JP2021567980 A JP 2021567980A JP 2022532615 A JP2022532615 A JP 2022532615A
- Authority
- JP
- Japan
- Prior art keywords
- cell
- imaging data
- computational
- phenotypes
- intracellular imaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 82
- 230000001413 cellular effect Effects 0.000 title claims abstract description 53
- 230000003834 intracellular effect Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000010874 in vitro model Methods 0.000 claims abstract description 6
- 239000000090 biomarker Substances 0.000 claims description 40
- 230000015556 catabolic process Effects 0.000 claims description 17
- 238000006731 degradation reaction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 5
- 210000004027 cell Anatomy 0.000 description 120
- 210000001519 tissue Anatomy 0.000 description 22
- 230000008569 process Effects 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 8
- 238000000556 factor analysis Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 239000000523 sample Substances 0.000 description 7
- 230000007170 pathology Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000010166 immunofluorescence Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 210000002919 epithelial cell Anatomy 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000010791 quenching Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- PWVRXSQPCQPQHM-UHFFFAOYSA-N 2-(4-aminophenyl)-1h-indol-6-amine Chemical compound C1=CC(N)=CC=C1C1=CC2=CC=C(N)C=C2N1 PWVRXSQPCQPQHM-UHFFFAOYSA-N 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 102000005717 Myeloma Proteins Human genes 0.000 description 1
- 108010045503 Myeloma Proteins Proteins 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 208000012868 Overgrowth Diseases 0.000 description 1
- 108010003723 Single-Domain Antibodies Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 230000023402 cell communication Effects 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 210000001842 enterocyte Anatomy 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012744 immunostaining Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 230000001926 lymphatic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000171 quenching effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 210000002536 stromal cell Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 210000003171 tumor-infiltrating lymphocyte Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/695—Preprocessing, e.g. image segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
【解決手段】 細胞表現型を特徴付ける方法は、幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルについてマルチパラメータ細胞・細胞内撮像データ マルチパラメータ細胞を受け取ることと、マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行して、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを作成することと、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データ対して再帰的分解を実行して、複数の計算表現型を特定することとを含む。再帰的分解は、分解の各レベルがソフト/確率的クラスタリング及び空間正則化を含む複数のレベルの分解を含み、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、複数の計算表現型のうちの1又は複数に確率的に割り当てられる。【選択図】 図1
Description
<政府契約>
本発明は、国立衛生研究所(NIH)によって授与された助成金#CA204826を貰って政府の支援を受けてなされた。政府は本発明において一定の権利を有している。
本発明は、国立衛生研究所(NIH)によって授与された助成金#CA204826を貰って政府の支援を受けてなされた。政府は本発明において一定の権利を有している。
<発明の分野>
本発明は、デジタルパソロジーに関しており、特に、様々なイメージングモダリティから得られたマルチパラメータ細胞・細胞内撮像データ(例えば、多重化乃至高多重化(hyperplexed)撮像データ)から、様々な細胞型とその活性化(細胞表現型)とを特徴付け、且つ分類するための教師なし階層学習システム及び方法に関する。
本発明は、デジタルパソロジーに関しており、特に、様々なイメージングモダリティから得られたマルチパラメータ細胞・細胞内撮像データ(例えば、多重化乃至高多重化(hyperplexed)撮像データ)から、様々な細胞型とその活性化(細胞表現型)とを特徴付け、且つ分類するための教師なし階層学習システム及び方法に関する。
デジタルパソロジーとは、組織学的に染色された組織サンプルを取得、保存、及び表示することを指しており、セカンドオピニオンテレパソロジー、免疫染色の解釈、術中テレパソロジーなどのニッチな用途で当初は注目を集めている。通常、デジタルパソロジーでは、複数のスライドで構成される大量の患者データが生検サンプルから生成されて、病理医が高解像度モニターでそれらのスライドを見ることで評価される。手作業が含まれることから、現在のワークフローの実務は時間がかかり、エラーが発生しやすく、主観的である。
組織は、複数の異なる細胞型が空間的に相互に連絡し合う異種細胞システムである。デジタルパソロジーの課題の一つは、様々な多重化乃至高多重化イメージングモダリティから得られるマルチパラメータ細胞・細胞内撮像データから、様々な細胞型とその活性化とをどのようにして正確且つ効率的に特徴付けるかということである。
ある実施形態では、幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付ける方法が提供される。その方法は、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行い、複数の計算表現型を特定するステップと、を含んでいる。再帰的分解は、分解の各レベルがソフト/確率的クラスタリング及び空間正則化を含む複数のレベルの分解を含み、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、複数の計算表現型(computational phenotypes)のうちの1又は複数に確率的に割り当てられる/所有される。より具体的には、例えば、そのような確率的割当て/所有は、細胞は、表現型Aに属するX%の確率、表現型Bに属するY%の確率等を有する可能性があることを意味する。ある特定の実装態様では、細胞は、視覚化及び解釈を容易にするために、複数の計算表現型のうちの1つのみに確定的に割り当てられてよい。
別の実施形態では、幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付けるコンピュータシステムが提供される。そのシステムは、細胞表現型特徴付けコンポーネントを含む処理装置を含んでおり、当該細胞表現型特徴付けコンポーネントは、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取ることであって、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ことと、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行い、複数の計算表現型を特定することとを行うように構成されている。再帰的分解は、分解の各レベルがソフト/確率的クラスタリング及び空間正則化を含む複数のレベルの分解を含む。セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、複数の計算表現型のうちの1又は複数に確率的に割り当てられる。
本明細書では、「ある」や「その」の単数形は、文脈が明らかに別のことを示さない限り、複数への言及を含む。
本明細書では、2つ以上の部品又は構成要素が「結合」されている旨の記載は、繋がりが発生する限りにおいて、直接又は間接的に、即ち、1又は複数の中間部品又は構成要素を介して部品が結合される、又は一緒に動作することを意味する。
本明細書では、用語「幾つか」は、1又は1よりも大きい整数(即ち、複数)を意味する。
本明細書では、用語「コンポーネント」及び「システム」は、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、又は実行中のソフトウェアの何れかである、コンピュータ関連エンティティに言及することを意図している。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、及び/又はコンピュータであってよく、また、これらに限定されない。例えば、サーバーで実行されているアプリケーションとサーバーの両方がコンポーネントとされてよい。1又は複数のコンポーネントは、プロセス及び/又は実行スレッド内に常駐することができ、コンポーネントは、1つのコンピュータに局在し、及び/又は、2つ以上のコンピュータ間で分散することができる。ユーザーに情報を表示する幾つかの方法は、スクリーンショットとして特定の図又はグラフで示されて説明されているが、関連する技術分野の当業者は、他の様々な代替手段が採用できることを認識であろう。
本明細書では、用語「多重化イメージング(multiplexed imaging)」は、最大7つのバイオマーカーを使用する撮像手法を意味し、用語「多重化画像」は、多重化イメージングを用いて作成された画像を意味する。
本明細書では、用語「高多重化イメージング(hyperplexed imaging)」は、7つを超えるバイオマーカーを使用する撮像手法を意味し、用語「高多重化画像」は、高多重化イメージングを用いて作成された画像を意味する。
本明細書では、用語「多重化乃至高多重化イメージング」は、多重化イメージング及び/又は高多重化イメージングを含むものとし、用語「多重化乃至高多重化画像」は、多重化画像及び/又は高多重化画像を含むものとする。
例えば、上、下、左、右、上側、下側、前、後、及びそれらの派生語など、本明細書で使用される方向に関する語句は、図面に示された要素の方向に関しており、明示的に記載されていない限り、特許請求の範囲を限定しない。
以下、開示される概念を、本発明の完全な理解を提供するために、説明の目的で、多くの具体的な詳細に関して説明する。しかしながら、開示される概念は、本発明の精神及び範囲から逸脱することなく、これらの具体的な詳細を伴わずに実施することができることは明らかであろう。
開示された概念は、様々なイメージングモダリティから得られた多重化乃至高多重化撮像データにおいて細胞表現型多様性を特徴付けるための、新規な教師なし階層学習技術を提供するものである。例示的な実施形態では、開示された概念は、本明細書において、高多重化免疫蛍光バイオマーカーデータの形態であるマルチパラメータ細胞・細胞内撮像データから、様々な細胞型及びその活性化(細胞表現型)を特徴付けて分類することに関連して記載されている。しかしながら、これは単に例示的であることを意図しており、開示された概念は、任意の空間的マルチパラメータ細胞・細胞内撮像データに関連して使用されてよく、当該撮像データは、以下のイメージングモダリティの何れかを使用して得られた画像診断データを含んでいるが、これらに限定されないことは理解されるであろう:透過光、H&EとIHCの組合せ(1乃至複数のバイオマーカー)、蛍光、免疫蛍光(抗体、ナノボディを含むがこれらに限定されない)、生細胞バイオマーカーの多重化、高多重化、質量分析(CyTOFを含むがこれに限定されない)、空間トランスクリプトミクス(FISHを含むが、これに限定されない)、及び電子顕微鏡。ターゲットには、組織サンプル(ヒトや動物)と、組織や臓器のインビトロモデル(ヒトや動物)とが含まれるが、これらに限定されない。
本明細書で詳しく説明されるように、開示された概念の主たるアイデアの1つは、ユーザー定義型の表現型ではなく、データ駆動型の表現型を採用していることである。より具体的には、病態生物学の文献では、「バイオマーカーAは陽性、バイオマーカーBは陽性、バイオマーカーCは陰性、これは表現型Xを意味する」というように、ユーザーが表現型(ユーザー定義の表現型)を定義することは非常に一般的である。この種のユーザーによる表現型の定義は、自動的に発見されるデータ駆動型の表現型が存在しないことを意味する。本明細書で詳細に説明されるように、開示された概念は、自動的に発見されるデータ駆動型の表現型を可能にするものであって、故に、現在この分野で受け入れられているものとは大きく異なっている。むしろ、開示された概念のアプローチは教師なしであり、また、ユーザー定義型の表現型を自動的に識別する可能性が高い。また、開示された概念のアプローチは、疾患の進行によりデータに出現した新規の表現型(データ駆動型の表現型)を特定し、特徴付けることができるという点で、仮説生成型である。
故に、本明細書で詳細に説明されるように、開示された概念の計算フェノタイピング手法は、2つのステップ、即ち、(i)ソフト/確率的クラスタリング及び(ii)空間正則化(spatial regularization)を含んでおり、それらは、撮像データに再帰的に適用される(即ち、再帰的分解)。例示的な実施形態では、再帰的分解の結果が使用されて、計算表現型ツリーが生成されて、計算表現型ツリーでは、ツリーの末端ノード(葉)は、入力データセットで発見された別個の計算表現型を示す。それらの異なる計算表現型は、再帰的分解によって決定される最終的な多因子分析(MFA)モデルの成分を構成する。
表現型の多様性(例えば、上皮腸細胞(epithelial enterocytes)、骨髄マクロファージ、リンパT細胞、間葉系線維芽細胞)を考慮して、開示された概念では、各クラスターをパラメトリックな低次元部分空間の階層的混合と定義する。表現型の活性化の連続性(例えば、上皮から間葉への転移)を考慮して、各細胞は、ツリーのどのクラスターにも確率的に所有される。更に、クラスター割当てを空間正則化することで、組織構造に配慮した空間的コヒーレンスを実現する。加えて、例示的な実施形態では、再帰的分解はバイナリーであって、即ち、混合モデルは、ツリーの各レベルで2つの成分を有している。例示的な実施形態における再帰の停止基準は、結果として得られる表現型が互いに異なることを保証して過剰適合を回避するために、混合モデルの部分空間の間の角度に適用される閾値である。開示された概念はまた、例示的な実施形態では、カルバック・ライブラー(KL)発散メトリックを適用し、MFAモデルパラメータを使用して、任意の2つの計算表現型の違いを更に定量化して、所有確率が最も高い表現型に各細胞を割り当てることにより、組織サンプル内の表現型の空間分布を視覚化する。
上述したように、開示された概念の教師なし機械学習アルゴリズムは、パラメトリックな混合モデルを用いた確率的クラスタリングと、結果として得られるクラスター割当ての空間正則化とを再帰的に適用する。例示的な実施形態では、確率的クラスタリングアルゴリズムは、因子分析(FA)及び確率的主成分分析(PPCA)を含むが、これらに限定されない。更に、確率的混合モデルには、混合因子分析、ガウス混合モデル、及びPPCA(MMPCA)を混合したものが含まれるが、これらに限定されない。ある特定の実施態様では、開示された概念は、混合因子分析を使用して、期待値最大化アルゴリズムによってモデルのパラメータを学習する。
更に、別の特定の実施態様では、開示された概念は、空間正則化のための新規なコスト関数を採用している。具体的には、目的コスト関数は2つの項で構成されている。最初の項は、クラスター割当てのスパース性を促進する。これは、各細胞が1つのクラスターに完全に属そうと試みることを意味する。2番目の項は、空間的コヒーレンスを促進し、これは、細胞のクラスター割当てが不定である場合、クラスター割当てを更新する際に近隣の他の細胞からの支援を求めることを意味する。更に、目的関数には、各細胞についてのクラスター割当ての合計が1になるという更なる制約が存在する。また、空間的コヒーレンスを促進するために、各細胞はカットオフ距離内にある隣の細胞と接続される。開示された概念はまた、交互方向乗数法(ADMM)アプローチを使用してよい。
クラスターへの細胞の確率的割当てのため、例示的な実施形態では、階層の全てのレベルは、対応する混合モデルの構築と評価に全ての細胞データを使用するが、細胞は適切に重み付けされる。これらの重みはまた、空間正則化のステップにも影響する。計算で導出された表現型について最も識別力のあるバイオマーカーを見つけるために、開示された概念は、混合因子分析モデルにおける成分の平均ベクトルと部分空間方向の違いとに基づいて、バイオマーカーに対してランク付け操作を実行してよい。最後に、混合モデルの成分部分空間の間の角度がカットオフ値を下回ると、階層構造は終了する。
図1は、開示された概念の例示的な実施形態に基づいた、多重化乃至高多重化撮像データで細胞表現型多様性を特徴付ける方法のフローチャートである。図1を参照すると、その方法はステップ5で始まっており、(非限定的な例示的な実施形態では、高多重化免疫蛍光バイオマーカーデータの形態の)マルチパラメータ細胞・細胞内撮像データが、コホートからの複数の組織サンプルから生成され、当該コホートは、非限定的な例示的な実施形態では、癌患者コホートである。しかしながら、これは例示であることのみを意図しており、データは、任意の患者コホート(即ち、任意の疾患)から得られてよいことは理解されよう。より具体的には、非限定的な例示的実施形態では、複数のHxIF画像スタックが、患者コホートから得られた切除された組織サンプルのホルマリン固定パラフィン包埋(FFPE)組織マイクロアレイ(TMA)から生成される。理解できるように、HxIF画像スタックの生成には、各スタックについて、複数のバイオマーカーを画像化するために、幾つかの蛍光タグで各組織切片を繰り返し標識することを含む多重化(本実施形態では高多重化)イメージングプロセスを用いて、各組織切片から複数の高解像度多重化画像を生成することが含まれる。
説明のために本明細書に記載されている非限定的な例示的実施形態では、GE Healthcare Cell DIVE(登録商標)(以前はMultiOmyxと呼ばれていた)HxIFイメージング・画像処理ワークフロー機器を使用して、図1のステップ5で取得されるマルチパラメータ細胞・細胞内撮像データを生成することができる。これは例示的なものであって、マルチパラメータ細胞・細胞内撮像データは、他の既知の又は今後開発される技術を使用して生成できることは理解されるであろう。
例示的な実施形態のCell DIVEシステムは、2乃至3種類のバイオマーカーとDAPI(4′,6-ジアミノ-2-フェニルインドール)核対比染色剤を、標識-画像-色素不活性化の反復サイクルによって順次多重化して、50種類以上のバイオマーカーの高多重化イメージングを行うことができる。このアプローチの広範な検証により、試験されたエピトープの大半が色素不活性化プロセスに極めて強いことが示されている。少なくとも50回の繰り返しサイクルについて、サンプルの生物学的完全性(biological integrity)が保たれることがわかっている。
より具体的には、例示的な実施形態では、Cell DIVEを用いたデータ生成は、別個の蛍光プローブで標識された2つ又は3つの抗体による非破壊周期的免疫蛍光標識(non-destructive cyclical immunofluorescence labeling)、撮像、及びその後の蛍光の消光を伴う。このプロセスが繰り返されて、必要な抗体(バイオマーカー)が全て捕捉される。例示的な実施形態では、データは各関心領域で撮影された画像スタックで構成されており、画像スタック全体は、幾つかの撮影ラウンドの各々について複数の画像で構成されている。各ラウンドには、全てラウンドの画像を登録するための基準となる核(DAPI)画像が含まれる。各ラウンドの画像の定量化には、測定された各バイオマーカーの蛍光強度が含まれる。また、自家蛍光を除去する目的で、クエンチングラウンドの後に画像が取得される。また、Cell DIVE画像の処理には、視野全体の不均一な照明の補正と、自家蛍光の除去と、登録と、登録の失敗、画像のぼやけや飽和、その他の画像の問題などの幾つかのカテゴリの欠陥の自動品質管理(QC)検出とが含まれる。画像及びデータは、組織及び細胞の一連の品質チェックと、log2変換と、正規化ステップとを受ける。バッチ処理からのデータを統合するために、各バイオマーカーは対照中央値に正規化される。例示的な実施形態では、画像はTIFF形式で取得され、画像メタデータは、どの画像がどのスライドから得られたかの出所と取得の特徴とを保存する単純な構造を有するファイルに入れられる。選択されたバイオマーカーは、特定の細胞系統と、癌遺伝子と、腫瘍抑制因子と、細胞活性化状態を示す翻訳後タンパク質修飾とについてのタンパク質マーカーである。このデータにはまた、組織学的腫瘍グレード、癌のステージ、性別、年齢、10年間のフォローアップモニタリングなどの臨床情報も含まれる。
説明目的で本明細書に記載されている、開示された概念の特定の非限定的な例示的実施形態では、ステップ5にて、56個の特定のバイオマーカーがマルチパラメータ細胞・細胞内撮像データを生成するために使用される。しかしながら、これは例示目的のみを意図しており、より多く若しくは少ない及び/又は異なるバイオマーカーもまた、開示された概念の範囲内で使用されてよいことは理解されるであろう。
ステップ5に続いて、方法はステップ10に進む。ステップ10では、取得したマルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行して、各組織サンプルの各細胞をセグメント化する。例示的な実施形態では、細胞セグメンテーションは、構造バイオマーカー(NaKATPase(細胞膜、境界)、S6(細胞質)、DAPI(核))の集まりを使用して行われる。タンパク質発現及び標準偏差は、各細胞マスク(cell mask)内のバイオマーカー強度の中央値で定量化されて、log2スケールに変換される。細胞は、各細胞に対して生成された個々のQCスコア(不正確な登録、不整合、又は組織喪失を示す0.7~0.8未満のスコアは含まれない)を使用し、セグメンテーションされた細胞内コンパートメントあたりのピクセル数に基づいてフィルタリングされる。
次に、ステップ15では、分解の各レベルでのソフト/確率的クラスタリング及び空間正則化を含む再帰的分解が、セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して実行される。この再帰的分解により、細胞の各々が複数の計算表現型の1又は複数に確率的に割り当てられた細胞表現型ツリーが作成される(即ち、各細胞は確率的に1又は複数の計算表現型に属する)。ある特定の実装態様では、各クラスター/計算表現型は、パラメトリックな低次元部分空間の階層的混合であると定義され、各細胞は、全てのクラスター/計算表現型によって確率的に所有される。
開示された概念の方法論は、任意のサイズのコホートの入力に対して実行されてよい。説明の目的で本明細書に記載される特定の例示的実施形態では、開示された概念は、5年以内の疾患再発に基づく癌患者のオリジナルの完全コホートのサブコホート(NED、REC)で実施された。図1のステップ15に従って生成されたサブコホートの例示的な細胞表現型ツリー20A及び20Bが、図2に概略的に示されている。細胞表現型ツリー20A及び20Bでは、各ノード22(説明を容易にするために幾つかの例示的ノードのみに符号22が付されている)は計算表現型を表し、大きさは、(図2に示されるサイズキー24に基づく)そのクラスター/表現型に対する過半数の所有権を有する細胞の割合に対応する。停止基準に基づく端末ノード22には、黒いアウトラインが示されている。推定された生物学的ラベルは、可能な場合に、識別可能なバイオマーカーのセットに基づいて書き込まれる。各表現型内で、細胞は、特定化(specialized)(所有確率>0.95)又は非特定化(non-specialized)(所有確率<0.95)と見なされる。各表現型における特定化細胞と非特定化細胞の割合は、データセット全体を基準にして示されている(全ての値の合計は、100%になる)。全ての表現型に広がる非特定化細胞の非常に小さなサブセット(7%)が存在することに注意のこと。この例では、各サブコホートの規模は大きく異なるが(NED=154、REC=59)、RECサブコホートでは表現型の不均一性が大きく、よく知られた腫瘍の増殖亢進特性を裏付けている。加えて、これらの結果は、幹細胞が受ける過剰増殖と分化を示している。その理由は、RECサブコホートが3つの幹様表現型を識別しているのに対し、NEDサブコホートは1つしか識別していないからである。
開示された概念の更なる態様によれば、計算表現型の各ペア間の差異は、カルバック・ライブラー(KL)発散メトリックを使用して定量化される。特に、各計算表現型は、平均ベクトル及び共分散行列で記述される分布と考えることができる。KL発散は、相対的類似性ランキング尺度である。結果は、図3に概略的に示されるヒートマップ26に視覚化されており、分離線は、各サブコホートの境界と各ツリーの上皮及び間質の枝を示す。このパネルの水平方向と対角線方向に沿ったノードは同じであり、対応するツリーに色分けされている。便宜上、対角線に沿ったノードには、ランク付けされた判別バイオマーカーに基づいて人力で推測された生物学的特性(可能な場合)が含まれている。上皮-上皮表現型と間質-間質表現型との間のKL発散メトリックに基づく類似性は、開示された概念の方法の安定性及び一貫性を示している(例えば、生物学的に、上皮計算表現型は、上皮-間質計算表現型よりも似ているはずである)。また、この指標は、計算表現型が高次元であるため、同様な推定生物学的特性を持つ表現型間の違いを示している(例えば、幹-幹計算表現型はKL発散に基づいて同一ではない)。更に、各アウトカムベースのコホート(NED、REC)から代表的なステージI、II、IIIの患者を選択し、開示された概念のサブコホートの結果に基づいて細胞境界を色分けした組織サンプルが、図4に示す画像28で可視化され得る(各細胞は、本明細書で述べたように、最も高い所有確率に基づいて1つの表現型に割り当てることができる)。
更に、説明のために本明細書に記載されている特定の例示的な実施形態では、ステップ15は以下に説明する方法で実行される。しかしながら、これは例示を目的としたものであって、ステップ15を実行するための代替方法は、開示された概念の範囲内で企図されていることは理解されるであろう。
まず、この特定の例示的な実施形態では、高多重化データセットは高次元空間で記述されており、各細胞
は、適切に定量化されたバイオマーカー発現のp次元ベクトルによって記述される。更に、高多重化データセットは、固有の低次元表現を持っていると仮定される。低次元因子負荷量
、潜在変数
、平均ベクトル
、ノイズ項
で記述される混合因子分析:
(pはバイオマーカーの数、kは低次元の潜在空間である)が使用される。潜在因子
は、ゼロ平均で単位分散の正規分布N(0,I)から生成され、ノイズ項
は、N(0,Ψ)から抽出される。Iは単位分散であり、また、Ψは対角行列と仮定される。この構成では、
は、ゼロ平均で共分散がΛΛT+Ψ[8]で分布する。
<ソフトクラスタリング>
通常、細胞フェノタイピング法は、各細胞が1つのみのクラスターに属する(ハードクラスタリング)という仮定の下で構築されており、既存の表現型の連続性に起因して複数の表現型に属する可能性のある特定の細胞を識別できる余地がない。混合因子分析(MFA)を用いると、この特定の例示的な実施形態における開示された概念は、パラメータ
を用いて、細胞をM個の成分(クラスター)としてモデル化し、ここでΠjは成分の重みである:
MFAモデルの各成分にはニ次元の潜在空間が選択されているが、これは入力の分散を捉えるのに十分であることが観察されているからである。期待値最小化(EM)アルゴリズムは、モデルパラメータを推定するために使用される。EMアルゴリズムはランダムなパラメータセットで初期化されており、全体的に最適なソリューションに収束することが保証されていない。これを償って安定性を確保するために、この特定の例示的な実施形態で開示される概念は、各々がランダムに初期化される100回の異なるEM最適化を実行する。各最適化により、一組のモデルパラメータを持つMFAモデルがもたらされる。モデルパラメータの各組についてバイオマーカーランキング(識別バイオマーカーのセクションを参照)が計算され、全てのバイオマーカーランキングが集計されて、平均ランキングが計算される。バイオマーカーランキングが平均ランキングに最も近い(ユークリッド距離)モデルがコンセンサスモデルとして選択されて、最適な部分空間表現を提供しているとみなされる。MFAモデルでは、ソフトクラスタリング確率が得られる-各細胞xcは、各クラスターjに属する固有の確率を有しており、それはΩcjと表される。
通常、細胞フェノタイピング法は、各細胞が1つのみのクラスターに属する(ハードクラスタリング)という仮定の下で構築されており、既存の表現型の連続性に起因して複数の表現型に属する可能性のある特定の細胞を識別できる余地がない。混合因子分析(MFA)を用いると、この特定の例示的な実施形態における開示された概念は、パラメータ
<空間正則化>
このソフトクラスタリングは、腫瘍内不均一性(ITH)に至らせる重要な成分であるTMEの空間的複雑さに依存しない。空間ITHの特性と腫瘍の空間組織構造とに基づいて、細胞の近傍は空間的にコヒーレントであると予想される(例えば、上皮/腫瘍細胞は、他の上皮/腫瘍細胞に囲まれ、又は、空間的に近接しているが、腫瘍浸潤リンパ球や他の間質細胞の存在が考慮に入れられる)。細胞の特定を促進するために、空間正則化コンポーネントが追加されて、非特定化細胞の所有確率が最適化される。空間正則化ステップは、以下のように与えられる所有信頼度(ownership confidence)と空間的コヒーレンスの2つの項からなる目的関数を最適化する:
第一項は、所有確率のエントロピーを最小化して、細胞の特定を促進する。第二項は空間的コヒーレンスを促進し、ここで、wjkは細胞iと細胞jの間の重みであって、2つの細胞間の距離の逆数として計算される:
距離の閾値(0.5μm/ピクセルにて100ピクセル)が使用されて、コミュニケーションをするには離れすぎている細胞間の影響が排除される。
このソフトクラスタリングは、腫瘍内不均一性(ITH)に至らせる重要な成分であるTMEの空間的複雑さに依存しない。空間ITHの特性と腫瘍の空間組織構造とに基づいて、細胞の近傍は空間的にコヒーレントであると予想される(例えば、上皮/腫瘍細胞は、他の上皮/腫瘍細胞に囲まれ、又は、空間的に近接しているが、腫瘍浸潤リンパ球や他の間質細胞の存在が考慮に入れられる)。細胞の特定を促進するために、空間正則化コンポーネントが追加されて、非特定化細胞の所有確率が最適化される。空間正則化ステップは、以下のように与えられる所有信頼度(ownership confidence)と空間的コヒーレンスの2つの項からなる目的関数を最適化する:
目的関数は、交互方向乗数法(ADMM)を使用して最適化される。確率的所有信頼度(第一項)と空間的コヒーレンス(第二項)は等しい重みを保持する必要があるため、調整パラメータλを計算して、第二項を第一項の範囲にスケーリングすることが想定される:
ここで、Noptは最適化されている細胞の数であり、maxEntropyはエントロピー関数の最大値(=1)である。空間的コヒーレンスと所有信頼度が目的関数において等しい重みを保持する必要があるという仮定を緩和すると、パラメータ空間は大きくなるであろう。空間的コヒーレンスの重みが大きいほど、近傍が均一になり、非特定化細胞の組がより大きくなる。逆に、所有信頼度の重みを大きくすると、全ての非特定化細胞が破棄(abolishment)されることになる。調整パラメータが等しい重みを示す場合、安定且つ一貫した結果が得られる。細胞は同じ組織サンプル内でしか隣り合うことができず、故に、計算速度及び効率を上げるために、空間正則化は各組織サンプルに対して独立して行われる。
<再帰的分解>
この特定の例示的な実施形態における開示された概念で表現型発見のプロセスを自動化するために、再帰的確率アプローチが使用され、各ステップでは、M=2の成分で最も支配的なクラスターを分解する。各再帰ステップでは、ソフトクラスタリングのステップは、低次元の潜在空間MFAを用いる。その後、空間正則化によって結果として得られる細胞ごとの所有確率を最適化し、所有信頼度及び空間的コヒーレンスを増進させることで偽陽性の非特定化細胞をフィルタリングする。各クラスターjについて得られたパラメータ(所有確率Ωj、平均ベクトル
、因子負荷量Λj)は次の再帰ステップに渡され、各クラスターは更にサブクラスターに分解される。このプロセスは、試行されたクラスター分割が、次の停止基準の何れかを無効にするまで続行される:1)結果のクラスターが細胞の1%未満の所有を取得する、2)ツリーが指定された深さの閾値を超えた、又は、3)平均ベクトル間の角度と因子負荷空間(factor loading space)が両方とも指定された閾値を下回る。
この特定の例示的な実施形態における開示された概念で表現型発見のプロセスを自動化するために、再帰的確率アプローチが使用され、各ステップでは、M=2の成分で最も支配的なクラスターを分解する。各再帰ステップでは、ソフトクラスタリングのステップは、低次元の潜在空間MFAを用いる。その後、空間正則化によって結果として得られる細胞ごとの所有確率を最適化し、所有信頼度及び空間的コヒーレンスを増進させることで偽陽性の非特定化細胞をフィルタリングする。各クラスターjについて得られたパラメータ(所有確率Ωj、平均ベクトル
<識別バイオマーカー>
この特定の例示的な実施形態における再帰的クラスタリング又は分割の各々は、高次元の平均ベクトル
を有する2つのクラスターをもたらす。バイオマーカーの識別順序を決定するために、この方法は、各バイオマーカーjについて比率差(proportional difference)を計算してソートする:
平均ベクトルの絶対差は、高バイオマーカー値の範囲のバイオマーカーの選択にバイアスをかける可能性があることから、この方法では、比率差を選択して、比較のためにバイオマーカーを均等なレベルに配置する。
この特定の例示的な実施形態における再帰的クラスタリング又は分割の各々は、高次元の平均ベクトル
<計算表現型の比較>
本明細書の他の箇所で説明されているように、ツリーの末端ノード(つまり、葉)は、入力データセットで検出された別個の計算表現型を示しており、再帰的分解によって決定される最終的なMFAモデルの成分を構成する。MFAモデルでは、各計算表現型jは、各細胞について所有確率c(Ωcj)を保持している。これらの所有確率を使用して、この例示的な実施形態の方法は、加重平均
と加重共分散
を計算して、計算表現型を記述する。加えて、本明細書の他の箇所で述べたように、カルバック・ライブラー発散メトリックは、任意の2つの分布を比較するための相対的類似性ランキング尺度である。故に、本実施形態では、計算表現型の2つの組の差は、KL発散メトリックを用いて分類される。2つのガウス型多変量分布
のKL発散は、次のようになる:
KL発散は対称的ではなく、平均KL発散尺度が計算される:
本明細書の他の箇所で説明されているように、ツリーの末端ノード(つまり、葉)は、入力データセットで検出された別個の計算表現型を示しており、再帰的分解によって決定される最終的なMFAモデルの成分を構成する。MFAモデルでは、各計算表現型jは、各細胞について所有確率c(Ωcj)を保持している。これらの所有確率を使用して、この例示的な実施形態の方法は、加重平均
<共通細胞比較(Common-cell comparison)>
更に、この特定の実施形態では、各細胞は、最も高い所有確率に基づいて1つの表現型に割り当てることができる(細胞-ラベル)。入力コホートに共通の組織サンプルがある場合(ALL-DATAやステージIなど)、導かれた2つの組の計算表現型からの細胞-ラベルが比較され得る。混同行列が計算されて、結果として得られた細胞表現型ラベルが比較されてよい。具体的には、細胞表現型iと細胞表現型jについて、混同行列確率は以下のようになる:
更に、この特定の実施形態では、各細胞は、最も高い所有確率に基づいて1つの表現型に割り当てることができる(細胞-ラベル)。入力コホートに共通の組織サンプルがある場合(ALL-DATAやステージIなど)、導かれた2つの組の計算表現型からの細胞-ラベルが比較され得る。混同行列が計算されて、結果として得られた細胞表現型ラベルが比較されてよい。具体的には、細胞表現型iと細胞表現型jについて、混同行列確率は以下のようになる:
<可視化のための代表的な患者の体系的選択>
上述したように、本実施形態では、細胞は、最も高い所有確率の値に基づいた計算表現型に割り当てられ得る(細胞-ラベル)。C個の表現型に対して、この方法は、各患者iに見られた各表現型のフラクションを計算し、ベクトル
を形成する。このフラクションを計算する場合、この方法は、特定化細胞(所有確率>0.95)のみを考慮し、結果にバイアスをかける遷移細胞及び希少細胞を回避する。各アウトカムステージベースのグループ(例えば、NED-Stage I、NED-Stage II、NED-Stage III)について、この方法は平均表現型フラクションベクトル
も計算し、平均に最も近い患者を選択する(ユークリッド距離)。
上述したように、本実施形態では、細胞は、最も高い所有確率の値に基づいた計算表現型に割り当てられ得る(細胞-ラベル)。C個の表現型に対して、この方法は、各患者iに見られた各表現型のフラクションを計算し、ベクトル
図5は、本明細書に記載されている開示された概念の例示的な実施形態に基づいた、マルチパラメータ細胞・細胞内撮像データから細胞型及びその活性化(細胞表現型)を特徴付けて分類するための例示的なデジタルパソロジーシステム30の概略図である。図5に見られるように、システム30は、本明細書に記載されているようにマルチパラメータ細胞・細胞内撮像データを生成/受信し、本明細書に記載されているようにそのデータを処理して細胞を特徴付けて分類するように構成及び設定されたコンピュータデバイスである。システム30は、例えば、PC、ラップトップコンピュータ、タブレットコンピュータ、又は、本明細書に記載された機能を実行するように構成された他の適切なデバイスであってよいが、これらに限定されない。システム30は、入力装置32(キーボードなど)と、ディスプレイ34(LCDなど)と、処理装置36とを含む。ユーザーは、入力装置32を使用して処理装置36に入力を与えることができ、処理装置36は、ディスプレイ34に出力信号を与えて、ディスプレイ34が本明細書で詳細に説明したような情報(例えば、本明細書で説明したツリー、ヒートマップや画像)をユーザーに表示することを可能にする。処理装置36は、プロセッサ及びメモリを備えている。プロセッサは、例えば、限定ではないが、マイクロプロセッサ(μP)、マイクロコントローラ、又はその他の適切な処理デバイスであって、メモリとインターフェースしている。メモリは、コンピュータの内部ストレージ領域のようなデータストレージの場合、RAM、ROM、EPROM、EEPROM、FLASH(登録商標)や、ストレージレジスタを提供するその他のもの、例えば、コンピュータ読み取り可能な媒体のような様々なタイプの内部及び/又は外部ストレージメディアの1又は複数であってよく、揮発性メモリ又は不揮発性メモリであってよい。メモリには、プロセッサによって実行可能な幾つかのルーチンが格納されており、本明細書に記載されているように開示された概念を実施するためのルーチンを含んでいる。特に、処理装置36は、細胞表現型特徴付けコンポーネント38を含んでおり、細胞表現型特徴付けコンポーネント38は、様々な実施形態において本明細書に記載されているように、様々なイメージングモダリティから得られたマルチパラメータ細胞・細胞内撮像データ(例えば、多重化乃至高多重化撮像データ)から、様々な細胞型とその活性化(細胞表現型)を分類するように構成されている。
更に、上述の開示された概念の説明は、インサイチュのマルチパラメータ細胞・細胞内撮像データに基づいており、それを利用している。しかしながら、それは限定を意味していないことは理解されるであろう。むしろ、開示された概念は、基礎研究や臨床翻訳のために、インビトロの微小生理学的モデルと併せて使用できることは理解されるだろう。多細胞インビトロモデルは、インビトロでの疾患進行のメカニズムの調査と、薬物のテストと、移植で使用可能なこれらのモデルの構造的構成及び内容の特徴付けとに適用可能な、ヒト組織を要約している時空間的細胞異質性と異種細胞間コミュニケーションの研究を可能する。
最後に、これまで腫瘍切片から得られた撮像データについて説明してきたが、この開示された概念は、他の種類の組織切片から得られた撮像データ、及び/又は、中実の未切片サンプルに入り込むことができるイメージングモダリティを用いて未切片サンプルから得られた撮像データにも適用できることは理解されるであろう。
特許請求の範囲において、括弧の間に置かれた符号は、特許請求の範囲を限定するものと解釈してはならない。「備える」又は「含む」という言葉は、特許請求の範囲に記載されているもの以外の要素又は工程の存在を排除するものではない。幾つかの手段を列挙している装置請求項では、これらの手段の幾つかが、1つの同じハードウェアによって具現化されてもよい。要素に先行する「ある」という言葉は、そのような要素が複数存在することを排除するものではない。幾つかの手段を列挙している任意の装置請求項では、これらの手段のうちの幾つかが、1つの同じハードウェアによって具現化されてもよい。ある要素が相互に異なる従属形式請求項に記載されているという事実だけで、これらの要素を組み合わせては使用できないことを示しているわけではない。
本発明は、最も実用的で好ましい実施形態であると現在考えられている実施形態に基づいて説明することを目的として、詳細に説明されてきたが、そのような詳細はあくまでもその目的のためのものであり、本発明は、開示された実施形態に限定されるものではなく、逆に、添付の特許請求の範囲の精神及び範囲内にある変更及び均等な構成を含むことが意図されていることを理解のこと。例えば、本発明は、可能な範囲で、任意の実施形態の1又は複数の特徴を、任意の他の実施形態の1又は複数の特徴と組み合わせることができることを意図していることを理解のこと。
Claims (27)
- 幾人の患者からの幾つかの組織サンプル又は幾つかの多細胞インビトロモデルのマルチパラメータ細胞・細胞内撮像データから細胞表現型を特徴付ける方法であって、
セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、前記マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、
前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行って複数の計算表現型を特定するステップであって、前記再帰的分解は、分解の複数のレベルを含んでおり、分解の各レベルはソフト/確率的クラスタリング及び空間正則化を含んでおり、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞は、前記複数の計算表現型のうちの1又は複数に確率的に割り当てられる、ステップと、
を含む、方法。 - 前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞が、各細胞の個々の最高所有確率に基づいて前記複数の計算表現型のうちの1つのみと確率的に関連付けられている視覚的表現を生成するステップを更に含む、請求項1に記載の方法。
- 前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞が、前記複数の計算表現型のうちの1又は複数に確率的に割り当てられている細胞表現型ツリーを生成するステップであって、前記細胞表現型ツリーは複数の末端ノードを含んでおり、前記複数の末端ノードの各々は、前記複数の計算表現型のうちの一つを表している、ステップを含む、請求項1に記載の方法。
- 各末端ノードの大きさは、その末端ノードの計算表現型に割り当てられている細胞のフラクションに対応する、請求項3に記載の方法。
- 前記マルチパラメータ細胞・細胞内撮像データは、多重化乃至高多重化免疫蛍光バイオマーカーデータ又は多重化乃至高多重化質量分析ベースバイオマーカーデータを含む、請求項1に記載の方法。
- 前記複数の計算表現型を用いて多因子分析(MFA)モデルのパラメータを作成するステップを更に含む、請求項1に記載の方法。
- 前記MFAモデルのパラメータを用いてカルバック・ライブラー(KL)発散メトリックを適用して、前記複数の計算表現型のうちの任意の2つの間の差を定量化するステップを更に含む、請求項6に記載の方法。
- 前記カルバック・ライブラー(KL)発散メトリックを適用した結果に基づいてヒートマップを生成するステップを更に含む、請求項7に記載の方法。
- 前記ソフト/確率的クラスタリングは複数のクラスターを含んでおり、各クラスターは前記複数の計算表現型の各々に対応しており、各クラスターは、パラメトリックな低次元部分空間の階層的混合であると定義されており、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、全てのクラスターによって確率的に所有されている、請求項1に記載の方法。
- 前記再帰的分解は、前記階層的混合の部分空間の間の角度に適用される閾値を含む再帰の停止基準を使用して、前記複数の計算表現型が互いに異なることを保証する、請求項1に記載の方法。
- 前記空間正則化は、クラスター割当てのスパース性を促進して、各細胞が前記複数のクラスターの1つに完全に属しようと試みることを意味する第一項と、空間的コヒーレンスを促進する第二項とを含む関数を使用する、請求項9に記載の方法。
- 前記関数は、交互方向乗数法(ADMM)を用いて最適化される、請求項11に記載の方法。
- 前記再帰的分解は、(i)結果のクラスターが細胞の1%未満の所有を取得する場合、(ii)前記細胞表現型ツリーが所定の深さの閾値を超えたと判断される場合、又は、(iii)平均ベクトル間の角度と因子負荷空間とが両方とも所定の閾値を下回る場合に再帰を停止する停止基準を用いる、請求項3に記載の方法。
- コンピュータによって実行されると、前記コンピュータに請求項1に記載の方法を実行させる命令を含む1又は複数のプログラムを格納した非一時的なコンピュータ可読媒体。
- 細胞表現型を特徴付けるためのコンピュータシステムにおいて、
処理装置を備えており、前記処理装置は、
セグメンテーションされたマルチパラメータ細胞・細胞内撮像データを受け取るステップであって、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データは、前記マルチパラメータ細胞・細胞内撮像データに対して細胞セグメンテーションを実行することによって生成される、ステップと、
前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データに対して再帰的分解を行って複数の計算表現型を特定するステップであって、前記再帰的分解は、分解の複数のレベルを含んでおり、分解の各レベルはソフト/確率的クラスタリング及び空間正則化を含んでおり、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞は、前記複数の計算表現型のうちの1又は複数に確率的に割り当てられるステップと、
を実行するように構成された細胞表現型特徴付けコンポーネントを含む、コンピュータシステム。 - 前記細胞表現型特徴付けコンポーネントは、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞が、各細胞の個々の最高所有確率に基づいて前記複数の計算表現型のうちの1つのみと確率的に関連付けられている視覚的表現を生成するように更に構成されている、請求項15に記載のシステム。
- 前記細胞表現型特徴付けコンポーネントは、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データにおける各細胞が、前記複数の計算表現型のうちの1又は複数に確率的に割り当てられている細胞表現型ツリーを生成するように更に構成されており、前記細胞表現型ツリーは複数の末端ノードを含んでおり、前記複数の末端ノードの各々は、前記複数の計算表現型のうちの一つを表している、請求項15に記載のシステム。
- 各末端ノードの大きさは、その末端ノードの計算表現型に割り当てられている細胞のフラクションに対応する、請求項17に記載のシステム。
- 前記マルチパラメータ細胞・細胞内撮像データが、多重化乃至高多重化免疫蛍光バイオマーカーデータ又は多重化乃至高多重化質量分析ベースバイオマーカーデータを含む、請求項15に記載のシステム。
- 前記細胞表現型特徴付けコンポーネントは、前記複数の計算表現型を用いて多因子分析(MFA)モデルのパラメータを作成するように更に構成されている、請求項15に記載のシステム。
- 前記細胞表現型特徴付けコンポーネントは、前記MFAモデルのパラメータを用いてカルバック・ライブラー(KL)発散メトリックを適用して、前記複数の計算表現型のうちの任意の2つの間の差を定量化するように更に構成されている、請求項20に記載の方法。
- 前記細胞表現型特徴付けコンポーネントは、前記カルバック・ライブラー(KL)発散メトリックを適用した結果に基づいてヒートマップを生成するように更に構成されている、請求項21に記載のシステム。
- 前記ソフト/確率的クラスタリングは複数のクラスターを含んでおり、各クラスターは前記複数の計算表現型の各々に対応しており、各クラスターは、パラメトリックな低次元部分空間の階層的混合であると定義されており、前記セグメンテーションされたマルチパラメータ細胞・細胞内撮像データの各細胞は、全てのクラスターによって確率的に所有されている、請求項15に記載のシステム。
- 前記再帰的分解は、前記階層的混合の部分空間の間の角度に適用される閾値を含む再帰の停止基準を使用して、前記複数の計算表現型が互いに異なることを保証する、請求項15に記載のシステム。
- 前記空間正則化は、クラスター割当てのスパース性を促進して、各細胞が前記複数のクラスターの1つに完全に属しようと試みることを意味する第一項と、空間的コヒーレンスを促進する第二項とを含む関数を使用する、請求項23に記載のシステム。
- 前記関数は、交互方向乗数法(ADMM)を用いて最適化される、請求項25に記載のシステム。
- 前記再帰的分解は、(i)結果のクラスターが細胞の1%未満の所有を取得する場合、(ii)前記細胞表現型ツリーが所定の深さの閾値を超えたと判断される場合、又は(iii)平均ベクトル間の角度と因子負荷空間が両方とも所定の閾値を下回る場合に再帰を停止する停止基準を用いる、請求項17に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962847622P | 2019-05-14 | 2019-05-14 | |
US62/847,622 | 2019-05-14 | ||
PCT/US2020/032637 WO2020232094A1 (en) | 2019-05-14 | 2020-05-13 | System and method for chaftacterizing cellular phenotypic diversity from multi-parameter cellular. and sub-cellular imaging data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022532615A true JP2022532615A (ja) | 2022-07-15 |
Family
ID=73288830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021567980A Pending JP2022532615A (ja) | 2019-05-14 | 2020-05-13 | マルチパラメータ細胞・細胞内撮像データから細胞表現型多様性を特徴付けるシステム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11972858B2 (ja) |
EP (1) | EP3969978A4 (ja) |
JP (1) | JP2022532615A (ja) |
CN (1) | CN113826169A (ja) |
CA (1) | CA3139879A1 (ja) |
WO (1) | WO2020232094A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906740B (zh) * | 2021-01-18 | 2023-11-21 | 北京晶科瑞医学检验实验室有限公司 | 一种针对组织质谱成像结果去除批次间差异的方法 |
US11588630B1 (en) * | 2022-08-10 | 2023-02-21 | Kpn Innovations, Llc. | Method and system for generating keys associated with biological extraction cluster categories |
WO2024097248A1 (en) * | 2022-11-02 | 2024-05-10 | Genentech, Inc. | Probabilistic identification of features for machine learning enabled cellular phenotyping |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917306B2 (en) | 2005-03-30 | 2011-03-29 | Yeda Research And Developement Co. Ltd. | Methods and systems for generating cell lineage tree of multiple cell samples |
GB0907079D0 (en) * | 2009-04-24 | 2009-06-03 | Ge Healthcare Uk Ltd | Method and apparatus for multi-parameter data analysis |
EP3094974B1 (en) * | 2014-01-14 | 2019-02-27 | Asedasciences AG | Identification of functional cell states |
WO2015138385A1 (en) * | 2014-03-10 | 2015-09-17 | H. Lee Moffitt Cancer Center And Research Institute, Inc. | Radiologically identifed tumor habitats |
US9984199B2 (en) | 2015-05-21 | 2018-05-29 | Ge Healthcare Bio-Sciences Corp. | Method and system for classification and quantitative analysis of cell types in microscopy images |
JP6910068B2 (ja) * | 2015-06-11 | 2021-07-28 | ユニバーシティ オブ ピッツバーグ−オブ ザ コモンウェルス システム オブ ハイヤー エデュケーションUniversity Of Pittsburgh Of The Commonwealth System Of Higher Education | ヘマトキシリン・エオシン(h&e)染色組織画像における関心領域を調べて、多重化/高多重化蛍光組織画像で腫瘍内細胞空間的不均一性を定量化するシステム及び方法 |
US20220260574A1 (en) | 2017-06-02 | 2022-08-18 | Epic Sciences, Inc. | Methods of determining therapies based on single cell characterization of circulating tumor cells (ctcs) in metastatic disease |
CN112368705B (zh) * | 2018-05-24 | 2024-07-12 | 匹兹堡大学高等教育联邦体系 | 从空间多参数细胞和亚细胞成像数据预测癌症复发 |
-
2020
- 2020-05-13 US US17/605,423 patent/US11972858B2/en active Active
- 2020-05-13 CA CA3139879A patent/CA3139879A1/en active Pending
- 2020-05-13 CN CN202080035631.0A patent/CN113826169A/zh active Pending
- 2020-05-13 EP EP20806243.0A patent/EP3969978A4/en active Pending
- 2020-05-13 JP JP2021567980A patent/JP2022532615A/ja active Pending
- 2020-05-13 WO PCT/US2020/032637 patent/WO2020232094A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2020232094A1 (en) | 2020-11-19 |
CN113826169A (zh) | 2021-12-21 |
EP3969978A1 (en) | 2022-03-23 |
EP3969978A4 (en) | 2023-02-08 |
CA3139879A1 (en) | 2020-11-19 |
US20220215935A1 (en) | 2022-07-07 |
US11972858B2 (en) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10733726B2 (en) | Pathology case review, analysis and prediction | |
JP7270058B2 (ja) | 予測的組織パターン特定のためのマルチプルインスタンスラーナ | |
US20220237788A1 (en) | Multiple instance learner for tissue image classification | |
Gehrung et al. | Triage-driven diagnosis of Barrett’s esophagus for early detection of esophageal adenocarcinoma using deep learning | |
Kothari et al. | Pathology imaging informatics for quantitative analysis of whole-slide images | |
CN107924457B (zh) | 一种用于量化组织图像中肿瘤内细胞空间异质性的方法和*** | |
US8831327B2 (en) | Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN) | |
JP2022532615A (ja) | マルチパラメータ細胞・細胞内撮像データから細胞表現型多様性を特徴付けるシステム及び方法 | |
Li et al. | A Bayesian hidden Potts mixture model for analyzing lung cancer pathology images | |
US20240013867A1 (en) | Computer device for detecting an optimal candidate compound and methods thereof | |
Ghoshal et al. | DeepHistoClass: a novel strategy for confident classification of immunohistochemistry images using deep learning | |
Giuste et al. | Explainable synthetic image generation to improve risk assessment of rare pediatric heart transplant rejection | |
US11830622B2 (en) | Processing multimodal images of tissue for medical evaluation | |
JP7398073B2 (ja) | 空間マルチパラメータ細胞亜細胞画像データからの癌再発の予測 | |
Dexter et al. | Training a neural network to learn other dimensionality reduction removes data size restrictions in bioinformatics and provides a new route to exploring data representations | |
Cao et al. | Pattern recognition in high-content cytomics screens for target discovery-case studies in endocytosis | |
Ovchinnikova et al. | ColocAI: artificial intelligence approach to quantify co-localization between mass spectrometry images | |
US20240233125A9 (en) | Method of extracting gene candidate, method of utilizing gene candidate, and computer-readable medium | |
US20240135541A1 (en) | Method of extracting gene candidate, method of utilizing gene candidate, and computer-readable medium | |
US20230260256A1 (en) | Parametric Modeling and Inference of Diagnostically Relevant Histological Patterns in Digitized Tissue Images | |
Zhang | Bayesian Spatial Analysis of High Throughput Sequencing Data | |
Keerthika et al. | Cancer Prediction using Adaptive Boosting Tech Web App | |
Xiong et al. | GammaGateR: semi-automated marker gating for single-cell multiplexed imaging | |
Zhang | Bayesian Integrative Analysis Of Omics Data | |
Jasani et al. | AI in the Decision Phase |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240527 |