KR20180118984A

KR20180118984A - 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템

Info

Publication number: KR20180118984A
Application number: KR1020170052365A
Authority: KR
Inventors: 허용민
Original assignee: (주) 노보믹스
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2018-11-01
Also published as: JP2019531741A; US20190241972A1; JP6755391B2; CN110177886A; CN110177886B; US11365450B2; KR101940657B1; WO2018199589A1; EP3617329A4; EP3617329A1

Abstract

본 발명은 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템에 관한 것으로, 진행성 위암의 예후 표적 유전자군의 mRNA 발현 수준의 정량적 검사 결과를 이용하여 생존율 측면에서 예후를 예측할 수 있는 알고리즘을 개발하여 위암 환자의 치료방법을 결정하는데 보조적 정보로 활용할 수 있다.

Description

위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템{System for predicting prognosis and group classification based on gastric cancer reveal subtype-associated biological implication}

본 발명은 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템에 관한 것이다.

전 세계적으로 위암은 암으로 인한 사망률 중 세 번째로 높은 암이며, 특히 국내에서는 예후가 비교적 좋은 것으로 알려진 갑상선암을 제외하고 가장 흔한 암이다. 국내에서는 국가차원의 건강검진을 통한 조기 발견과 수술의 표준화 및 항암치료제의 발견 등으로 위암환자의 생존율이 많이 향상되었으나, 현재 표준화된 치료에도 불구하고 여전히 2기, 3기 진행성 위암의 경우 약 절반 정도의 환자가 재발을 경험한다.

암은 유전체 질환으로 인식되고 있으며, NGS(Next Generation Sequencing) 등의 유전체 검사 기술 발전에 따라 암을 기존의 해부학적, 병리학적 표현형에 따른 분류가 아닌, 분자적 생물학적 특성에 따라 분류하려는 노력이 있어 왔다. TCGA(The Cancer Genome Atlas) 프로젝트에서 위암이 그 다양한 분자적 특징에 따라 크게 4가지 형태로 나누어질 수 있음이 최근 보고된 바 있다. 이는 해부학적으로 동일한 병기라고 하더라도 분자적 생물학적 특징에 따라 예후와 항암제에 대한 반응 정도가 다를 수 있음을 의미한다.

최근에 발표된 295명 위암 환자의 TCGA 프로젝트 결과를 보면, 위암은 ① EBV 양성 위암(Epstein-Barr virus positive, EBV positive) ② 초위성체 불안정형(Microsatellite instability-high, MSI-H), ③ 염색체 불안정형(Chromosomal instability, CIN) ④ 유전체 안정형 위암(Genomically stable, GS)의 4가지로 구분된다. 이러한 방대한 Cancer Genome Sequencing을 통하여 위암도 한 가지 단일한 암종이 아닌, 분자유전학적으로 구별되는 이질적인 소그룹으로 나누어진다는 점을 알 수 있다. 따라서, 위암의 개인맞춤 치료를 실현하기 위해서는 분자유전학적 특징 및 병리학적 특징에 기반한 서브타입을 구별하여 각각의 타겟 유전자를 발굴, 적용이 필요함을 시사한다. 또한, 위암의 연구 측면에서 위암의 아형 구분에 따라 예후가 구분될 수 있는 결과가 보고되고 있다.

위암 수술에 따른 항암제 치료 후 환자의 예후를 예측할 수 있다면 각 예후에 따라서 이에 맞는 치료전략을 수립할 수 있는 근거자료가 될 것이다. 현재 표준화된 치료 관행상 2, 3기의 진행성 위암에서는 수술 후 보조 항암요법을 모든 환자에게 사용되고 있다. 이는 예후가 나쁜 군에 대해서는 과소치료(undertreatment)일 수 있다. 즉, 예후가 좋지 않은 환자군에 대해서 현재의 표준 치료 이외에 다른 추가적인 치료 방법에 대한 전략을 개발할 수 있는 임상학적인 의미를 가진다고 할 수 있다.

2010년 이후 현재 2기, 3기 진행성 위암의 경우 표준화된 D2 위절제술 이후 보조 항암요법이 위암 환자의 생존율을 높인다는 것을 발견하였고, 현재 이는 표준 치료법에 해당된다. 전통적으로 위암은 그 해부학적 병리학적 표현형에 따라 분류하였고, TNM 병기 분류법에 따라 2기 이상의 경우 항암치료를 하고 있으나 항암치료에 따른 예후를 예측할 수 있는 방법이 TNM 병기 이외에는 없는 상황이다.

대한민국 공개특허 제2010-7008764호(2010.06.30)

본 발명의 목적은 진행성 위암(2기-3기: AJCC 6판 기준) 환자의 수술 후 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 기반으로 하는 진행성 위암의 예후 예측용 조성물을 제공하는 것이다.

본 발명의 다른 목적은 진행성 위암 환자의 수술 후 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 기반으로 환자의 생존율 측면에서 예후를 예측하기 위한 정보를 제공하는 방법을 제공하는 것이다.

상기 목적을 달성하기 위하여, 본 발명은 TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및

ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물을 제공한다.

본 발명은 또한 상기 위암 2기 및 3기의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트를 제공한다.

본 발명은 또한 통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,

TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;

하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및

상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(

)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,

상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,

상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법을 제공한다:

[식 1]

ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)

여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.

[식 2]

SV (Score Value)=

여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,

는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,

는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,

[식 3]

여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,

는

의 부호를 의미하며,

는 하기 식 4에 따라 구한다,

[식 4]

,

여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(

), 해당 유전자(i)의 전체 평균값(

)이며,

는

의 표준오차를 보정하기 위한 자유도

이고,

는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,

는

의 중앙값이다.

본 발명은 진행성 위암의 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 이용하여 전체 생존율 측면에서 예후를 예측할 수 있는 알고리즘을 개발하여 위암 환자의 치료방법을 결정하는데 보조적 정보로 활용할 수 있다.

도 1은 본 발명의 실험 분석 흐름도를 나타낸 것으로, 단계 I은 일련의 분석 결과 위암(GC) 분자아형, classifier 및 GC 시그니처를 확인하는 과정(NMF, non-negative matrix factorization; SAM, significance analysis of microarrays; PAM, prediction analysis of microarrays; GSEA, gene-set enrichment analysis; WGCNA, weighted gene co-expression network analysis)이고, 단계 II는 환자 샘플에서 GC 시그니처의 발현을 프로파일링 하기 위한 일련의 프로브, miniClassifier-26의 구축을 통해 임상 효용을 극대화 하기 위한 GC 시그니처와 분자 아형의 동정 과정이다.
도 2는 Classifier-PAM932로 NMF 컨센서스 클러스터링을 수행한 결과를 나타낸 것으로, (a)는 Molecular Signatures Database(MSigDB) 및 이전 연구에서 분석된 유전자 세트(소화, 경련억제 폴리펩티드-발현 화생(SPEM), 장내 상피화(intestinal metaplasia(IM), 면역계, 기질, 상피-간엽 전이(EMT), 및 세포주기)로 특성 규명된 트레이닝 세트 I의 히트맵(GSE13861p)을 나타낸다. GST, 위 아형; INF, 염증; MSC, 간엽; INT, 장기; MXD, 혼합기질. 독립 테스트 세트 I과 Classifier-PAM932를 사용한 NMF 컨센서스 클러스터링의 검증 결과이다. (b) GSE62254(아시아 암 연구 그룹, ACRG), (c) TCGA 및 (d) GSE15459(싱가포르)의 히트맵을 나타낸다. 이전의 아형 정보는 각 히트맵 위에 함께 제공된다.
도 3은 NMF 클러스터링을 나타낸 것으로, SD = 0.8, SD = 0.9, SD = 1.0에서의 (a) 클러스터 번호(k) 2 ~ 7 및 다음 분산 컷오프가 있는 컨센서스 맵, (b) 코페네틱 상관계수 및 (c) 실루엣 폭을 사용한 샘플 지정을 나타낸다.
도 4는 WGCNA 분석에 의해 발견된 아형을 정의하는 위암 시그니처를 나타낸 것으로, (a)는 GSE13861p의 계통수이고, (b)는 GSE13861p에서 탐지된 모듈 및 GSE62254, TCGA 및 GSE15459의 해당 모듈 맵이다. 독립적인 테스트 세트인 각 코호트의 모듈이 GSE13861p의 모듈과 공통 유전자를 공유하면 모듈의 색상을 시각적 편의를 위해 일대일로 조정되었고, (c)는 트레이닝 세트에서 각 아형의 상위 25 % 상위 점수 PAMgenes 매핑 결과이다. (d)는 GC에서 일치되는 모듈의 조합으로 표현되는 여섯 개의 GC 시그니처를 나타낸다. (e)는 5 개의 GC 아형과 6 개의 GC 시그니처의 관계성을 분석하기 위하여 스피어 만의 상관관계(Spearman's correlation)를 사용하여 나타낸 것이다. 빨간색은 해당 아형과 양의 상관관계가 있는 모듈을 나타내고 파란색은 음의 상관관계가 있는 모듈을 나타낸다.
도 5는 단계 II의 트레이닝 세트인 Merged 1259(GSE13861p, GSE62254(ACRG), TCGA, 및 GSE15459(싱가포르))를 사용하여 5개의 아형에 따른 전체 생존률(OS)을 나타낸 것이다(likelihood ratio test; p = 3.42e-09). Merged 1259 코호트의 샘플 중 임상정보가 없는 61개의 샘플을 제외한 1198개의 샘플에 대한 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 76.1%(95% 신뢰구간 67.7-85.7), INT의 경우 65.1%(95% 신뢰구간 56.2-75.4), GST의 경우 64.6%(95% 신뢰구간 55.0-75.9), MXD의 경우 51.3%(95% 신뢰구간 42.1-62.4), MSC의 경우 46.3%(95% 신뢰구간 38.0-56.5)이다.
도 6은 위암 세포주를 이용하여 조사된 위암 기질 시그니처(n = 26)를 나타낸 것으로, (a)는 암세포주 데이터와 병합된 트레이닝 세트에서 GC 아형을 보여주는 히트맵이다. (b)는 기질 모듈 eigengene과 함께 배열된 히트맵이다. Hs746, SNU-484(MSC), MKN-45 및 NCI-N87(INT) 세포주는 화살촉으로 표시된다.
도 7은 위암세포주의 MSC 및 INT 타입은 (a) 인 비트로 스크래치 상처 치유법, (b) 침윤 분석법, (c) 인 비트로 종양 스페로이드 형성 분석법(스케일 바, 100㎛), 및 (d) 생체 내 동소 종양형성(n = 3)에 비교된다. Hs746T 및 SNU-484 종양의 확산 성장 및 MKN-45 및 NCI-N87 종양의 감금은 MRI 이미지(축 방향 단면)에서 흰색 점선으로 경계 지어진다. 검은 점선으로 된 상자의 사진은 정위 모델 구성을 묘사한다. TGF-β 억제제(LY2157299 (LY))로 처리한 Hs746T 세포의 기질 거동의 억제는 시험관 내 스크래치 상처 치유법(e), 침윤법(f) 및 인 비트로 종양 스페로이드 형성 분석(g)을 통해 관찰한다. 복합 약물 치료(옥살라플라틴 및 플루오로우라실) 중 TGF-β 억제제의 동시 투여 하에서 마우스 이종 이식 모델(n = 8)에서 Hs746t 종양(h) 및 NCI-N87 종양(i)의 종양 성장을 측정하는 생체 내 약물 저항 분석 결과이다(P <0.05).
도 8은 GC에서 miniClassifier26으로 구분된 5개의 분자아형을 도시한 것으로, (a)는 PAM에서 5개의 분자아형에 대한 26개의 대표 유전자들의 상대적 차이를 나타낸 것이다. (b)는 GC의 마이크로어레이 데이타에 대한 NMF-기반 클러스터링(26개 유전자)의 히트맵(ComBat 방법을 이용하여 병합된 N=1259; GSE13861p, GSE15459, TCGA 및 GSE62254)이다. (c)는 GC의 qPCR 데이터에 대한 NMF-기반 클러스터링(26개 유전자)의 히트맵이다. (d)와 (e)는 (b)와 (c)에서 클러스터링된 5개의 분자아형의 전체 생존율(OS)을 나타낸 것이다. (d)는 Merged 1259 코호트의 샘플 중 임상정보가 없는 61개의 샘플을 제외한 1198개의 샘플에 대한 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 67.3%(95% 신뢰구간 61.3-73.9%), INT의 경우 58.8%(95% 신뢰구간 52.9-65.4%), GST의 경우 55.3%(95% 신뢰구간 48.2-63.4%), MXD의 경우 45.0%(95% 신뢰구간 36.5-55.4%), MSC의 경우 33.0%(95% 신뢰구간 27.3-40.0%)이다. (e)는 qPCR325 코호트의 qPCR 측정 결과로부터 26개 유전자로 구분한 군의 5년 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 78.5%(95% 신뢰구간 69.4-88.8%), INT의 경우 70.7%(95% 신뢰구간 61.1-81.8%), GST의 경우 68.4%(95% 신뢰구간 55.1-84.9%), MXD의 경우 54.6%(95% 신뢰구간 41.7-71.4%), MSC의 경우 57.5%(95% 신뢰구간 48.4-68.2%)이다.
도 9는 신선동결조직의 마이크로어레이 데이터와 qPCR 데이터, 그리고 파라핀포매 샘플의 qPCR 에서 안정성을 갖는 유전자 26개(miniClassifier-26)를 선정 및 분석하는 상세한 순서도를 나타낸 것이다.
도 10은 NMF 클러스터링을 통해 얻은 5개의 클러스터들을 분자아형으로 명명하는 방법을 도시한 것이다.

이하, 본 발명의 구성을 구체적으로 설명한다.

본 발명은 TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및

ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물에 관한 것이다.

본 발명의 위암 2기 및 3기의 예후 예측용 조성물은 표적 유전자군의 mRNA 발현 수준을 측정하여 진행성 위암 환자의 예후를 생존율 측면에서 예측하기 위한 용도로 사용할 수 있는 것을 특징으로 한다.

본 명세서에서, 용어 "진행성 위암"은 AJCC 6판기준으로 2기 내지 3기에 해당하는 위암을 의미한다.

본 명세서에서, 용어 "표적 유전자" 또는 "마커 유전자"는 명세서 내에서 혼용되어 사용되며, 정상이나 병적인 상태를 구분할 수 있거나, 치료 후 5년 생존율을 예측하거나 치료반응 예측을 객관적으로 측정할 수 있는 표지자를 의미한다. 본 발명에서는, 진행성 위암의 예후를 예측하는데 사용할 수 있는 유전자로, 예후에 대해 증가하거나 감소하는 차등적인 mRNA 발현 수준을 나타내는 유전자이다. 본 발명의 일 구체예에 따르면, 이형질성을 갖는 위암에 대해 신선동결조직의 마이크로어레이 데이터와 qPCR 데이터, 그리고 파라핀포매 샘플 검체의 qPCR 데이터에서 통계적 유의성을 확보하여 5개의 분자아형, 즉, Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 구분할 수 있는 26종의 유전자, 즉, TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 선정하였다.

본 명세서에서, 용어 "참고 유전자, reference gene"는 항상 안정적으로 발현하는 유전자를 지칭한다. 즉 어떤 조직에서든 일정하게 발현하는 유전자로서 참고 유전자의 발현양과 마커 유전자의 발현양을 비교함으로써 마커 유전자의 발현양을 조사할 때 사용한다. 즉, 샘플마다 정성(quality)적 차이, 보관 기관에 따른 변이가 존재하므로 유전자 발현량을 측정하더라도 그 측정량이 생물학적 변이라고 판단하기 어렵다. 따라서, 표준화(normalization)를 통해 샘플간 유전자 발현량(ΔCq)을 결정한다. 통상 표준화 방법에는 Quantile에 의한 방법, Global Normalization 방법, 참고 유전자에 의한 방법 등이 있으나, 본 발명은 참고 유전자에 의한 표준화를 사용한다. 또한, 단일 유전자를 참고 유전자로 활용하는 것은 정확도가 떨어질 수 있어 다수의 유전자를 선정하고 변이도를 조사하여 조직의 특성에 적합한 참고 유전자를 선정할 수 있다. 본 발명에서는 위암과 관련하여 문헌에 개시되어 있거나, 기존 상용화 제품에서 활용되고 있는 유전자를 선정하고, 선정된 유전자를 대상으로 적격 여부를 입증하여 참고 유전자로 사용한다. 본 발명의 일 구체예에 따르면, 문헌에 개시된 21개의 참고 유전자를 대상으로 식도암, 췌장암, 위암, 대장암 등의 암조직과 정상조직을 비교하여 qPCR을 통해 가장 변이도가 작은 유전자를 참고 유전자로 선정하였다. 다음으로, 상용화 제품에서 사용하는 참고 유전자로, ACTB, ATP5E, GPX1, UBB 및 HPRT1를 선정하여 qPCR을 수행하여, 최종적으로, 본 발명의 진행성 위암의 재발 또는 항암제 반응 가능성을 예측하는데 사용하는 참고 유전자로 ACTB, ATP5E, GPX1, UBB 및 HPRT1로 이루어진 유전자군을 사용하였다.

본 명세서에서, 용어 "mRNA의 발현 수준 측정"이란 진행성 위암의 재발을 예측하기 위하여 생물학적 시료에서 예후 마커 유전자들의 mRNA 발현 정도를 확인하는 과정으로 mRNA의 양을 측정하는 것을 의미한다. 예컨대, qPCR(Quantitative real-time polymerase chain reaction)를 사용할 수 있으나, 이에 제한되는 것은 아니다.

본 발명에 따른 조성물에서, 예후 마커 유전자의 mRNA의 발현 수준을 측정하는 제제는 예후 마커 유전자의 mRNA에 특이적으로 결합하는 프라이머, 프로브 또는 안티센스 뉴클레오티드를 포함한다. 본 발명에 따른 예후 마커 유전자의 정보는 GenBank, UniProt 등에 알려져 있으므로, 당업자라면 이를 바탕으로 유전자의 mRNA에 특이적으로 결합하는 프라이머, 프로브 또는 안티센스 뉴클레오티드를 용이하게 디자인할 수 있을 것이다.

본 명세서에서, 용어 "프라이머"는 표적 유전자 서열을 인지하는 단편으로서, 정방향 및 역방향의 프라이머 쌍을 포함하나, 바람직하게는, 특이성 및 민감성을 가지는 분석 결과를 제공하는 프라이머 쌍이다. 프라이머의 핵산 서열이 시료 내 존재하는 비-표적 서열과 불일치하는 서열이어서, 상보적인 프라이머 결합 부위를 함유하는 표적 유전자 서열만 증폭하고 비특이적 증폭을 유발하지 않는 프라이머일 때, 높은 특이성이 부여될 수 있다. 본 발명의 일 구체예에 따르면, SEQ ID NOS: 1 내지 62에 기재된 프라이머 세트를 사용할 수 있다. 각 표적 유전자군 및 참고 유전자군의 프라이머 세트는 하기 표 1에 나열된다.

본 명세서에서, 용어 "프로브"란 시료 내의 검출하고자 하는 표적 물질과 특이적으로 결합할 수 있는 물질을 의미하며, 상기 결합을 통하여 특이적으로 시료 내의 표적 물질의 존재를 확인할 수 있는 물질을 의미한다. 프로브의 종류는 당업계에서 통상적으로 사용되는 물질로서 제한은 없으나, 바람직하게는 PNA(peptide nucleic acid), LNA(locked nucleic acid), 펩타이드, 폴리펩타이드, 단백질, RNA 또는 DNA 일 수 있다. 보다 구체적으로, 상기 프로브는 바이오 물질로서 생물에서 유래되거나 이와 유사한 것 또는 생체 외에서 제조된 것을 포함하는 것으로, 예를 들어, 효소, 단백질, 항체, 미생물, 동식물 세포 및 기관, 신경세포, DNA, 및 RNA일 수 있으며, DNA는 cDNA, 게놈 DNA, 올리고뉴클레오티드를 포함하며, RNA는 게놈 RNA, mRNA, 올리고뉴클레오티드를 포함하며, 단백질의 예로는 항체, 항원, 효소, 펩타이드 등을 포함할 수 있다. 본 발명의 일 구체예에 따르면, SEQ ID NOS: 63 내지 93에 기재된 프로브를 사용할 수 있다. 바람직하게는, 상기 프로브는 형광 표지된 것일 수 있다. 각 표적 유전자군 및 참고 유전자군의 프로브는 하기 표 1에 나열된다.

본 명세서에서, 용어 "안티센스"는 안티센스 올리고머가 왓슨-크릭 염기쌍 형성에 의해 RNA 내의 표적 서열과 혼성화되어, 표적서열 내에서 전형적으로 mRNA와 RNA:올리고머 헤테로이중체의 형성을 허용하는, 뉴클레오티드 염기의 서열 및 서브유닛간 백본을 갖는 올리고머를 의미한다. 올리고머는 표적 서열에 대한 정확한 서열 상보성 또는 근사 상보성을 가질 수 있다.

본 명세서에서, 용어 "예후 예측"은 특정 질병 또는 질환에 대한 대상(subject)의 감수성(susceptibility)을 판정하는 것, 특정 질병 또는 질환에 걸린 대상의 예후(prognosis; 예컨대, 전-전이성 또는 전이성 암 상태의 동정, 암의 단계 결정 또는 치료에 대한 암의 반응성 결정)를 판정하는 것, 또는 테라메트릭스(therametrics; 예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링하는 것)을 포함한다. 본 발명의 목적상, 수술 후 위암 환자의 예후를 전체 생존율(Overall Survival) 측면에서 예측하는 것이다.

본 발명의 일 구체예에 따르면 상기 표적 유전자는 다음과 같이 선별한다. 우선, 진행성 위암 조직을 대상으로 컨센서스 기반의 NMF를 진행하여 높은 연관성을 보이는 5개의 분자적 특징이 구분되는 아형을 결정하고, 아형 특이적인 유전자군을 선별한다.

상기 NMF(비음수행렬인수화, nonnegative matrix factorization)는 차원축소방법(Dimension Reduction)으로 발현 패턴의 유사성이 높은 샘플들을 아형으로 분류하는 방법이다.

상기 위암 분자아형을 결정하기 위해서는, 자원축소방법으로 하나의 매트릭스를 두 개의 비음수 행렬로 인수화함으로써 NMF 알고리즘을 통해서 공통된 부분을(basis)들을 분리해 내는 것이다. 실제의 정보 집단을 V, 분리하고자 하는 행렬을 W, H 라고 한다.

을 만족하게 되며, W는 기저 행렬을, H는 부호화 행렬을 나타낸다. V는 W의 기저들의 합으로 구성 V는(n X m) 크기를, W는(n X r), H는(r X m)크기의 행렬이다. 고차원의 데이터 행렬을 저차원의 계수 행렬과 기저행렬로 분해하고 각 행렬들이 희소 특성을 가지고 있기 때문에 부분기반 표현이 가능하다. 이 알고리즘으로 위암은 유사성이 높은 것들끼리의 군을 형성하여 위암 아형분류에 적용할 수 있다.

[그림 1]

R 프로그램의 NMF 패키지를 이용하여, consensus map과 cophenetic 그래프를 근거로 위암 아형의 적합한 클러스터를 선정한다. 각각의 SD(Standard Deviation= 0.8, 0.9, 1.0)에서 k(클러스터의 수) 값에 컨센셔스 클러스터링(consensus clustering)이 됨을 확인하고 최종적으로 위암 아형의 개수를 선택한다(도 3 참조). 본 발명의 일 구체예에 따르면 K는 5로 정하였다.

상기 각 아형별 특징을 생물학적 유전자 세트로부터 도출하여 분자적 이형질성을 구분한 결과, 5개의 아형, 즉, Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 구분된다.

Cox proportional hazard model을 이용하여 상기 5개의 분자아형 별 생존 분석을 수행한 결과, Inflammatory 분자아형인 경우 전체 생존율 측면에서 좋은 예후, Intestinal 분자아형 및 Gastric 분자아형인 경우 중간 예후, Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우 나쁜 예후를 보인다.

한편, 위암의 생물학적 특성을 분석하기 위해서는 WGCNA(Weighted correlation network analysis)를 사용한다. WGCNA는 발현 양상이 유사하게 나타나는 유전자들간 연관관계를 통해 발현 연관성에 따라 유전자를 clustering 하는 분석 기법으로, WGCNA를 통해 모듈(clusters of highly interconnected genes)를 찾고, 모듈의 성격과 모듈의 연관관계에 따라 위암 특성을 반영한 시그니처를 선별한다. 본 발명의 일 구체예에 따르면, 위암에서 안정적으로 보존되어 있는 6개의 시그니처, 즉, TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 확인하였다.

이들 6개 시그니처들을 대표하는 유전자와 5개 위암 분자아형 사이를 스피어만 상관관계로 비교 분석했을 때 상호 연관성을 보였다. 이를 통해 공통적으로 보존되는 유전자를 선별한 이후에, 이들을 샘플 방법(Fresh Frozen, FFPE)에 따라 그리고 발현 측정 플랫폼(microarray, qPCR)에 따라 안정적으로 발현 결과를 보이는 26개 유전자, TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 선별하였다.

상기 선별된 26개의 유전자를 표적 유전자군으로 정하고, 각 표적 유전자의 스코어(

)를 이용하여 표적 유전자군의 각 시그니처의 발현 평균값을 계산하고, 이로부터 분류된 분자아형을 확인한다.

상기에서 위암의 분자아형이 결정되면, 각 분자아형의 생존 곡선을 통해 예후를 예측하는 것이다. 예컨대, 상기 분자아형은 전체 생존율 측면에서 좋은 예후군, 중간 예후군 및 나쁜 예후군으로 분류된다. 구체적으로, 위암 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는 것이다.

본 발명의 위암 2기 및 3기의 예후 예측용 조성물은 약제학적으로 허용 가능한 담체를 더 포함할 수 있다.

상기 약제학적으로 허용 가능한 담체는 의약 분야에서 통상 사용되는 담체 및 비히클을 포함하며, 구체적으로 이온 교환 수지, 알루미나, 알루미늄 스테아레이트, 레시틴, 혈청 단백질(예, 사람 혈청 알부민), 완충 물질(예, 각종 인산염, 글리신, 소르브산, 칼륨 소르베이트, 포화 식물성 지방산의 부분적인 글리세라이드 혼합물), 물, 염 또는 전해질(예, 프로타민 설페이트, 인산수소이나트륨, 인산수소캄륨, 염화나트륨 및 아연 염), 교질성 실리카, 마그네슘 트리실리케이트, 폴리비닐피롤리돈, 셀룰로즈계 기질, 폴리에틸렌 글리콜, 나트륨 카르복시메틸셀룰로즈, 폴리아릴레이트, 왁스, 폴리에틸렌 글리콜 또는 양모지 등을 포함하나 이에 제한되지 않는다.

또한, 본 발명의 조성물은 상기 성분들 이외에 윤활제, 습윤제, 유화제, 현탁제, 또는 보존제 등을 추가로 포함할 수 있다.

본 발명은 또한, 위암 2기 및 3기의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 예후 예측용 키트에 관한 것이다.

바람직하게, 상기 키트는 qPCR(Quantitative real-time polymerase chain reaction) 키트 등일 수 있다.

상기 위암 2기 및 3기의 예후 예측용 키트는 분석 방법에 적합한 한 종류 또는 그 이상의 다른 구성성분 조성물, 용액 또는 장치를 더 포함할 수 있다. 바람직하게, 상기 진단용 키트는 qPCR 반응을 수행하기 위해 필요한 필수 요소를 더 포함할 수 있다. qPCR 키트는 마커 단백질을 암호화하는 유전자에 대해 특이적인 프라이머 쌍을 포함한다. 프라이머는 상기 유전자의 핵산서열에 특이적인 서열을 가지는 뉴클레오티드로서, 약 7 bp 내지 50 bp의 길이, 보다 바람직하게는 약 10 bp 내지 30 bp의 길이를 가질 수 있다. 또한 대조군 유전자의 핵산 서열에 특이적인 프라이머를 포함할 수 있다. 그 외 qPCR 키트는 테스트 튜브 또는 다른 적절한 용기, 반응 버퍼(pH 및 마그네슘 농도는 다양), 데옥시뉴클레오티드(dNTPs), Taq-폴리머라아제 및 역전사효소와 같은 효소, DNase, RNase 억제제 DEPC-수(DEPC-water), 멸균수 등을 포함할 수 있다.

또한, 본 발명의 위암 2기 및 3기의 예후 예측용 키트는 DNA 칩을 수행하기 위해 필요한 필수 요소를 포함할 수 있다. DNA 칩 키트는 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드(oligonucleotide)가 부착되어 있는 기판, 및 형광표지 프로브를 제작하기 위한 시약, 제제, 효소 등을 포함할 수 있다. 또한 기판은 대조군 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드를 포함할 수 있다.

상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법에 관한 것이다:

[식 1]

ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)

[식 2]

SV (Score Value)=

[식 3]

는

의 부호를 의미하며,

는 하기 식 4에 따라 구한다,

[식 4]

,

여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(

), 해당 유전자(i)의 전체 평균값(

)이며,

는

의 표준오차를 보정하기 위한 자유도

이고,

는

의 중앙값이다.

본 발명의 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법을 단계별로 구체적으로 설명하면 다음과 같다.

제1단계로, 위암 2기 및 3기 종양에서 얻은 일정 수의 기준 샘플에서 표적 유전자군의 mRNA의 발현 수준을 측정하고, 위암 2기 및 3기 종양에서 얻은 생물학적 샘플의 표적 유전자군의 mRNA의 발현 수준을 측정하여 기준 샘플과 생물학적 샘플의 표적 유전자군의 mRNA의 발현 수준에 해당하는 값을 컴퓨터 프로그램에 입력하는 단계이다.

상기 일정 수, 즉, 통계적 유의치를 나타낼 수 있는 정도의 기준 샘플 수는 표적 유전자군의 mRNA 발현 수준에 대해 NMF(Non-negative Matrix Factorization)를 진행할 경우, 유의치인 p 값이 0.01 미만이 될 수 있는 샘플 수를 의미한다.

또한, 상기 기준 샘플 수는 NMF-기반 클러스터링에 따라 차별화된 유전자 발현 양상을 보이면서 복수 개의 클러스터로 분류될 수 있는 정도의 수여야 한다.

이러한 조건을 충족하는 기준 샘플 수는 바람직하게는, 300 내지 10,000일 수 있다.

상기 표적 유전자군의 mRNA 발현 수준은 바람직하게는 qPCR을 통해 측정할 수 있고, qPCR에 의한 mRNA 발현 수준은 ΔCq 값으로 정한다. 상기 Cq 값은 95℃에서 10분 (초기 변성); 95℃에서 10초, 40-45회 (변성), 60℃에서 5초 (어닐링) 및 72℃에서 25초 (연장)의 PCR 과정 중 증폭이 뚜렷하게 증가되기 시작한 사이클의 수치를 말한다.

표적 유전자군과 참고 유전자군의 Cq 평균값을 이용하여 하기 식 1에 따라 ΔCq 값을 계산한다.

[식 1]

ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)

따라서, 컴퓨터 프로그램에 입력하는 표적 유전자군의 mRNA 발현 수준에 해당하는 값은 상기 ΔCq 값을 의미한다.

제2단계는, 컴퓨터 프로그램에 입력된 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값들에 대해 NMF 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(

)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계이다.

[식 2]

SV (Score Value)=

는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어이다.

본 발명에 따르면, 상기 k는 바람직하게는, 5일 수 있다. 즉, NMF-기반 클러스터링을 통해 얻은 5개의 클러스터를 의미한다.

상기 스코어(

)는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어, 즉, 해당 유전자(i)의 t-통계값이며, 같은 분자아형(subtype) 내의 샘플 유전자 발현량에 가중치를 주어 표준화하는 것으로 선형판별식분석(LDA; Linear Discriminant Analysis)에서 흔하게 사용되는 통계 방법으로 하기 식 3에 따라 구한다:

[식 3]

는

의 부호를 의미하며,

는 하기 식 4에 따라 구한다:

[식 4]

,

여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(

), 해당 유전자(i)의 전체 평균값(

)이며,

는

의 표준오차를 보정하기 위한 자유도

이고,

는

의 중앙값이다.

상기 스코어(

)에서 양수는 유전자의 고발현, 음수는 유전자의 저발현, 0은 유전자의 발현 변화가 없음을 의미한다. 따라서, 양수의 값이 클수록 발현이 더 높아지고, 음수의 값이 클수록 발현은 더욱 낮아진다.

상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류한다.

상기에서 분류된 분자아형들에 대해 각 분자아형의 생존 곡선을 통해 전체 생존율 측면에서 예후를 예측한다.

상기 위암의 분자아형들은 생존 곡선에서 차별화된 예후 양상을 보이며, Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측할 수 있다.

따라서, 생물학적 샘플이 속하는 분자아형을 정하고, 상기 분자아형의 생존 곡선을 통해 예후를 예측할 수 있다.

상기 생물학적 샘플은 신선종양조직, 신선동결종양조직, 파라핀포매종양조직, 세침흡인액, 복수, 관 세정액 또는 흉막액 등일 수 있으며, 바람직하게는 파라핀포매종양조직일 수 있다.

또한, 상기 표적 유전자군의 mRNA의 발현 수준 측정은 qPCR에 의해 수행될 수 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

<실시예>

(환자 및 샘플)

2000년에서 2010년까지 연세대학교 세브란스 병원에서 1차 치료 시 위암 절제술을 받은 위암 환자의 신선-동결 종양 표본 및 임상 데이터를 확보하였다. 모든 샘플은 환자로부터 서면 동의를 얻은 후에 수집되었고, 연구는 YUSH의 기관 검토 위원회의 승인을 받았다. 샘플에 주석을 달았지만, 환자 식별이 가능한 정보로부터 그들을 분리하였다. 후향적으로 임상 데이터를 얻었다. OS(overall survival)는 수술부터 사망까지의 시간으로 정의하였고, 재발 없는 생존은 수술 후 첫 번째 재발까지의 시간으로 정의하였다. 마지막 접촉 시 재발 없이 환자가 살아있을 때 데이터가 검열되었다.

48,803개의 유전자 특징을 갖는 HumanHT-12 v3.0 Expression BeadChip array(Illumina)를 사용하여 외과적으로 제거된 동결 GC 종양 조직의 497개의 샘플로부터의 유전자 발현 프로파일을 측정하였다(GSE13861p). 간단히 말하면, RecoverAll ™ total nucleic acid isolation kit(Ambion) 또는 mirVana RNA Isolation Labeling Kit(Ambion)을 사용하여 신선-동결 조직에서 총 RNA를 추출하였다. RNA 농도와 순도는 NanoDrop 2000(Thermo Fischer Scientific)을 사용하여 260nm와 280nm(A₂₆₀:A₂₈₀=1.8)에서 측정하였다. RNA의 무결성(integrity)은 RNA Nano 6000 칩(Agilent)(RIN> 7)을 사용하여 평가하였다. TotalPrep ™ RNA Amplification Kit(Illumina)를 사용하여 제조업체의 프로토콜에 따라 500ng의 총 RNA를 표지한 다음 BeadChip 어레이 플랫폼을 사용하여 유전자 발현 수준을 측정하였다.

(GC 러닝을 위한 트레이닝 세트 및 테스트 세트)

GC 분자아형을 찾기 위한 트레이닝 세트 I은 GSE13861p (n=497, Illumina HumanHT-12 v3.0 Expression BeadChip 어레이)로 구성하였다. 이를 확인하기 위한 테스트 세트 I은 GSE15459 (n=200, Affymetrix Human Genome U133plus 2.0 Array), TCGA (n=262, Illumina HiSeq2000) 및 GSE62254 (n=300, Affymetrix Human Genome U133plus 2.0 Array)의 데이터 세트로 구성하였다.

최종 miniClassifier-26(26개 유전자)를 선정하기 위해 트레이닝 세트 II는 GSE13861p (n=497), GSE15459 (n=200), TCGA (n=262), GSE62254 (n=300)을 ComBat 방법으로 병합된 Merged1259 (n=1259)로 구성하였으며, qPCR 기반 측정 가능한 26개 유전자는 qPCR325 (n=325)를 테스트 세트 II로 구성하여 확인하였다. qPCR325를 얻기 위해 MasterPure ™ Complete DNA와 RNA Purification Kit(Epicenter)를 사용하여 총 RNA를 추출하였다. cDNA는 M-MLV Reverse Transcriptase(Life Technologies)를 사용하여 생성하였다. cDNA 농도는 NanoDrop 2000을 사용하여 결정하였다. SensiFAST Probe Lo-ROX 키트(Bioline), 5'FAM/3'BHQ-1 프로브(Biosearch Technologies), 유전자 특이 프라이머 및 ViiA™ 7 실시간 PCR 시스템(Applied Biosystems)를 사용하여 qPCR를 수행하고, 5ng의 총 cDNA를 사용하였다.

(데이터 가공)

데이터 전-가공: 마이크로어레이 데이터 세트는 주로 R 언어 환경에서 처리되었다. 정규화는 Illumina BeadChip 어레이 플랫폼의 데이터 세트에 대한 "마이크로어레이 데이터용 선형 모델(limma)" 패키지의 Between-Array Normalization(quantile)에 의해 수행되었다. GSE 15459 및 GSE62254는 견고한 다중 어레이 평균 정규화를 포함한 R "affy" 패키지를 사용하여 표준화되었다. qPCR 데이터 세트는 내부 표준에 의해 표준화되었다. 유전자 필터링을 위해서는 플랫폼 유래 프로브 유효성과 유전자 발현의 차이를 고려해야 한다. 트레이닝 세트의 경우, 데이터 세트를 일괄 조정한 다음 "유전자 발현 마이크로어레이 데이터(ComBat)의 배치를 결합할 때 일괄 처리 효과 방지" 방법과 결합하였다.

NMF -기반 분류: ComBat 병합 데이터는 "Nonnegative Matrix Factorization (NMF) 알고리즘 및 프레임 워크" 패키지를 사용하여 분류되었다. 클러스터 수 k는 2에서 7로 설정되었다. Brunet 방법은 반복 근사를 위한 업데이트 알고리즘으로 사용되었다. NMF 파생 클러스터를 특성화하기 전에 "Silhouette"R 패키지를 사용하여 각 클러스터에서 이상치 샘플을 제외하였다. 각각의 NMF 클러스터를 대표하는 유전자를 정의하기 위해 SAM 및 PAM은 각각 Bioconductor 패키지 "siggenes" 및 "pamr"을 사용하여 수행되었다.

WGCNA 분석: WGCNA는 R "wgcna"패키지를 사용하여 497 GC 샘플에서 수행되었다. 네트워크 구성을 위해 가중 네트워크 인접성은 6의 제곱으로 표현된 유사성에 의해 정의된다. 임의 컷오프 선택을 피하기 위해 WGCNA에서 제공한 "소프트 임계 설정 절차"를 따랐다. 모듈-탐지방법으로 R "dynamicTreeCut" 패키지의 동적 혼성화가 적용되었다. 각 모듈이 생존 및 임상 병리학적 변수와 관련이 있는지 평가하기 위해 연결성, 모듈 중요성 및 모듈 eigengene과 같은 다양한 모듈 특성이 활용되었다.

Gene set enrichment analysis( GSEA ): GSEA는 R "GSEABase" 패키지를 사용하여 수행되었다. 사전 정의된 유전자 세트는 Molecular Signatures Database(MSigDB; www.broadinstitute.org/msigdb)에서 가져왔다. 인리치먼트 분석은 Gene Ontology Consortium (http://geneontology.org)의 유전자 온톨로지를 사용하여 수행되었다.

생존 분석: 생존 분석은 R "survival" 및 "meta" 패키지에서 HR의 Cox 비례 위험 모델 및 메타 분석을 사용하여 수행되었다.

유전자 발현 프로파일의 계층적 클러스터링 및 일러스트레이션: 마이크로어레이 데이터 세트의 유전자 클러스터링은 Gene Cluster 3.0을 사용하여 수행되었다. 계층적 클러스터링 결과는 R "gplots" 패키지를 사용하여 시각적으로 시각화되었다.

(통계적 분석)

통계적 시험으로서 초기하 분포검정/Fisher's exact test, Pearson's correlation, Spearman's correlation 및 Wilcoxon rank-sum test를 사용하였다.

(프라이머리 세포-특이적 유전자 발현 프로파일링)

프라이머리 세포 배양: 일차 조직을 2% 항생제(Welgene LS203-01)를 함유한 Dulbecco's phosphate-buffered saline(Welgene LB00-02)로 헹구고 멸균 블레이드로 다듬었다. 0.2㎛ 주사기 여과 후, 다진 조직을 α-MEM(Gibco A10490) 및 150U/mL Collagenase II(Thermo Fisher Scientific)와 37℃에서 24시간 동안 5% CO₂의 가습 분위기에서 배양하였다. 배양된 조직을 200×g에서 5분간 원심분리한 다음 신선한 배지로 옮겼다. 수확된 세포를 5% CO₂ 대기 하에서 37℃에서 2-3일 동안 배양하였다.

Illumina HiSeq 2500 시퀀싱 시스템을 이용한 총 RNA 시퀀싱: RNA 순도는 NanoDrop8000 분광 광도계에서 1㎕의 총 RNA 추출물을 분석하여 결정하였다. 총 RNA 무결성은 RNA 무결성 번호(RIN) 값과 RNA 단편> 200nt 단편 분배 값(DV200)의 백분율로 Agilent Technologies 2100 Bioanalyzer를 사용하여 확인하였다. 총 RNA 시퀀싱 라이브러리는 제조사의 지침(Illumina TruSeq RNA Access Library kit)에 따라 준비되었다. 그 후 100ng의 총 RNA를 고온에서 2가 양이온을 사용하여 작은 조각으로 분열시켰다. 제1 및 제2 가닥 합성 동안 랜덤 프라이밍을 사용하여 절단된 RNA 단편으로부터 cDNA를 생성하고, 시퀀싱 아답터를 생성된 이중가닥 cDNA 단편에 라이게이션 시켰다. 전사체의 코딩 영역은 최종 라이브러리를 생성하기 위해 서열 특이적 프로브를 사용하여 이 라이브러리로부터 캡처되었다. 증폭된 라이브러리의 품질은 모세관 전기영동(Bioanalyzer, Agilent)에 의해 확인되었다. SYBR Green PCR Master Mix(Applied Biosystems)를 사용하여 qPCR 후, 동량의 몰의 태그가 붙은 색인된 라이브러리를 풀에 결합시켰다. 클러스터 생성은 cBot 자동화 클러스터 생성 시스템(Illumina)의 플로우 셀에서 실현되었다. 이어서, 상기 플로우 셀을 HiSeq 2500 시퀀싱 시스템 (Illumina) 상에 로딩시키고 서열 분석은 2×100 bp 판독 길이를 사용하여 수행하였다.

(인 비트로 및 인 비보 실험 검증)

세포주: 인간 위암 세포주 SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN MKN-45, MKN-74, KATOIII, NCI-N87 및 Hs746T는 한국 세포주 은행(서울, 한국)에서 구입하였다; 그리고, YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11 및 YCC-16은 연세 암 연구소(서울, 한국)에서 구입하였다. SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN- 28, MKN-45, MKN-74, KATOIII 및 NCI-N87은 RPMI 1640(Welgene, 대구, 한국)에서 성장시켰다; Hs746T는 Dulbecco's modified Eagle's medium(DMEM;Welgene, 대구, 한국)에서 성장시켰다; 그리고, YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11, 및 YCC-16는 Minimum essential media Eagle(MEM;Welgene, 대구, 한국)에서 성장시켰다. 모든 세포를 37℃에서 10% FBS(Gibco)와 1% 항생제-항균 용액(10,000 단위 페니실린, 10mg 스트렙토마이신, 25㎍ 암포테리신 B/mL, Sigma-Aldrich 포함)이 보충된 완전 배지에서 5% CO₂를 함유한 가습 분위기에서 배양하였다. 모든 세포는 e-Myco ™와 Mycoplasma PCR Detection Kit(iNtRON Biotechnology, 성남, 한국)에 의해 마이코플라즈마에 대해 음성인 것으로 확인되었다.

침습 분석: 분석을 위해 배양 배지(M199)에 2×10⁴ HUVEC 세포를 피브로넥틴이 코팅된 트랜스웰에 넣고 바닥을 0.2% 젤라틴으로 코팅한 다음 단층 형성까지 48시간 동안 배양했다. 그 다음 FBS가 없는 CellTracker ™(Molecular Probes, C2925)가 포함된 1×10⁵/50㎕의 Hs746T 및 NCI-N87 세포를 별도로 트랜스웰에 첨가하였다. 10% FBS를 함유한 배양 배지를 하부 챔버에 첨가하였다. 48시간 동안 배양한 후, 멤브레인의 상부 세포를 면봉으로 제거하였다. 하부 멤브레인의 세포를 실온에서 2-3 시간 동안 200㎕의 용해 버퍼로 용해시켰다. Ex/Em 492/517으로 형광을 측정하였다. TGF-β 억제제가 세포의 침입 능력에 미치는 영향을 알아보기 위해 LY2157299(AdooQ, 캘리포니아, 미국)를 50μM 투여하였다.

이동 분석: Hs746T 및 NCI-N87 세포를 10% FBS 및 1% 항생제가 함유된 배양 배지에서 단층으로 성장시켰다. 컨플루언시가 70%에 도달하면, 세포 단층을 100㎕의 피펫 끝으로 긁어내었다. 72시간 후에 상처 폭을 측정하고, 긁어낸 직후 측정한 상처 폭으로 표준화했다. TGF-β 억제제가 세포 이동에 미치는 영향을 평가하기 위해 LY2157299(50μM)를 투여하였다.

종양 스페로이드 형성 분석: 96-웰 플레이트에서, 10개의 세포를 bFGF, EGF, B27, 10% FBS 및 1% 항생제가 첨가된 50㎕의 DMEM/F12 (Gibco)에서 배양하였다. 배양 30일 후, 각 웰에서 종양 스페로이드를 계수하였다. 또한, LY2157299(50μM)를 투여하여 TGF-β 억제제가 종양 스페로이드 형성에 미치는 영향을 조사하였다.

동소 마우스 모델에서 인 비보 종양형성: 모든 동물 실험은 국제 실험 동물 관리 평가 인증 협회(AAALAC)의 승인을 받아 수행되었다. 동소 이식 마우스 모델을 확립하기 위해, 약 1시간 동안 대략 5mm로 상부 정중선을 따라 피부와 복막을 절개하여 BALB/c 누드 마우스(남성)의 외장형 위 벽에 1×10⁷ GC 세포(Hs746T 및 NCI-N87)를 이식하였다. 위를 복막으로 되돌려 복벽을 한 층의 상처 봉합으로 막았다. 모델에서 종양 성장을 관찰하기 위해 Bruker 동물성 코일(RF SUC 400 1H M-BR-LIN ROAD, Bruker Medical Systems)이 장착된 9.4 T 동물 자기공명영상 (MRI) 장비를 사용하여 암의 유무 및 크기를 추적하였다 (자기공명영상 측정 조건: Echo = 1, TR = 2300 ms, TE = 22.0 ms, FA = 180 deg, TA = Oh4m54s400ms, NEX = 2, 및 FOV = 4.00 cm).

이식 마우스 모델에서 약물 반응: 이종 이식 마우스 모델을 확립하기 위해 BALB/c 누드 마우스(수컷)의 근위 대퇴 부위에 1×10⁷ GC 세포(Hs746T 및 NCI-N87)를 이식하였다. 종양 체적이 400mm³로 증가할 때 종양 보유 쥐를 3개의 다른 치료군(PBS 대조군, Oxal+5FU/PBS 처리군 및 Oxal+5FU/LY2157299 (TBFβ 저해제) 처리군, 각 군당 n=8)으로 무작위 추출하였다. Oxalipatin(단일 용량 당 60㎍)과 Fluorourasil(단일 용량 당 1mg)을 혼합하여 마우스에게 일주일에 3 번 복강 주사했다. LY2157299(1.5mg/마우스)를 주 2 회 종양 내 주사 모델에 투여하였다. 이식된 종양의 크기는 주당 3 회 검사하였고 종양의 크기는 (4/3)×π×(단축/2)²×(장축/2)mm³으로 계산하였다.

qPCR 분석을 위한 miniClassifier -26의 이질성 검사: 공간적 이질성이 FFPE 표본에서 조직 샘플을 준비하는 본 발명의 절차에 영향을 미칠 가능성을 조사하기 위해, RNA 추출을 위해 단일 FFPE 표본에서 3 개의 조직 샘플을 얻었다. cDNA를 제조한 후, qPCR을 3번 시행하여 단일 종양 표본에서 3 개의 각 표본에 대해 평균을 구했다. 각 유전자에 대한 분산 계수를 평가하여 세 가지 표본의 이질성을 결정하였다.

(조직 마이크로어레이 구축)

각 포르말린 고정, 파라핀 내장 기본 종양에서 대표적인 3mm 직경 종양 조직 코어 2개를 조직 마이크로어레이(TMA) 블록으로 조립하였다. 각 TMA 블록은 표식 및 내부 통제로서 14 개의 종양 및 하나의 정상 위 점막 조직 코어를 함유하였다. 이어서, 면역조직화학(IHC) 분석을 위해 각 TMA 블록으로부터 4㎛ 두께의 섹션을 준비하였다.

(면역조직화학 분석)

IHC는 MutL 호몰로그 1(MLH1, 사용 준비, Roche, Basel, Switzerland), MutS 단백질 호몰로그 2(MSH2, 사용 준비, 복제 G219-1129) 용 항체가 있는 Ventana XT 시스템(Ventana Corporation), Roche), IHC는 전술한 바와 같이 수행하였다. MLH1 및 MSH2의 경우, 종양 세포에서 핵 염색이 없는 것은 발현 소실로, 정상 발현은 종양 세포에서의 핵 발현의 존재로 정의되었다. 모든 IHC 결과는 임상 병리학적 특징에 대한 지식 없이 평가되었다.

(엡스타인-바 바이러스-암호화된 RNA 인 시츄(in situ) 하이브리디제이션(EBER ISH))

EBER ISH는 Ventana Bench Mark 시스템(ISH iView 키트, Ventana Corporation, AZ, 미국)으로 수행하였다. 파라핀 포매된 조직 절편을 EZ Prep 버퍼(Ventana Corporation)으로 탈파라핀화 시키고 프로테아제 I로 4분 동안 분해시켰다. 이어서 EBER에 대한 프로브를 85℃에서 10분 동안 변성시킨 다음 37℃에서 1시간 동안 혼성화시켰다. 혼성화 후, 조직을 57℃에서 2×SSC 버퍼로 세척하였다. 이어서, 항-플루오레신 단클론 항체와의 인큐베이션을 20분 동안 수행한 다음 알칼리 블루 검출 키트(Ventana Corporation)를 제조자의 프로토콜에 따라 사용하였다. 슬라이드를 10분 동안 Nuclear Fast Red로 대조 염색하였다.

<실시예 1> 진행성 위암의 5개의 분류

본 발명의 실험 순서도는 도 1에 도시하였다. 본 발명자들은 컨센서스 기반의 NMF를 기반으로 5개의 GC 분자 아형을 확인하였다. 본 발명자들은 GC(GSE13861p 트레이닝 세트 I; HumanHT-12 v3.0 Array (Illumina)) 환자에서 위 절제술 샘플(n=497)의 유전자 발현 프로파일을 조사하였다. 5개의 분자아형에 대한 GC의 분류는 높은 일치를 보였으며, 히트맵은 독특한 유전자 발현 양상을 보였다(도 2a 및 도 3). 본 발명자들은 마이크로어레이(SAM, false discovery rate(FDR)=0)의 유의성 분석에 이어서 마이크로어레이의 예측 분석(PAM; overall error rate=0.10)를 사용하여 932개의 아형 특이 유전자를 확인하였다(Classifier-PAM932). Classifier-PAM932를 사용하여 GC 환자의 독립적인 유전자 발현 데이터 세트(Test set I)에서 분자아형화를 안정적으로 확인하였다.

<실시예 2> GC 아형을 기술하는 6개의 분자 시크니처 확인

선험적으로 정의된 유전자 세트의 표기법을 확장하기 위해 감독되지 않은 추가적인 유전자 별 클러스터링을 수행하였다. GSE13861p에서 WGCNA는 32개의 유전자 모듈(고도로 상호 연결된 유전자의 클러스터)을 검출하였다(도 4a, b). 전체적으로, (i) 몇 개의 모듈이 코호트에서 현저하게 보존되었다는 사실이 관찰되었다(초기하 분포검정; P <0.01)(도 4b), (ii) 보존된 모듈은 PAMgenes의 상위 25% PAM 분석의 상대적인 차이에 의한다(도 4c), (iii) 이러한 연관성은 GC 생물학과 유의미한 관련이 있었다(도 4d). 보존된 모듈을 기반으로 6개의 GC 시그니처는 5개의 GC 아형과 현저하게 연관되어 있다. 본 발명자들은 GC 시그니처의 유전자를 재추출하여 Spearman의 상관관계를 사용하여 GC 시그니처의 특정 조합을 5개의 NMF 파생 아형으로 변환할 수 있음을 보여 주었다(도 4e). 5개의 아형에 대한 본 발명자들의 주석은 네트워크 분석에 기초한 아형의 특성에 의해 생물학적으로 더욱 관련이 있다.

<실시예 3> 5개의 GC 아형의 임상적 특성규명

GC 아형과 임상병리학적 정보(나이, 성별, 종양 위치, AJCC stage (6th), WHO 분류, Lauren type) 간의 관계를 조사하였다. 5개 아형의 생존 분석은 아형과 전체 생존율 사이의 유의한 상관관계를 확인하였다(P=3.42e-09, 도 5). 각 아형의 5년 생존율을 결정하였다: 각 분자아형별 5년 생존율은 INF의 경우 76.1%(95% 신뢰구간 67.7-85.7), INT의 경우 65.1%(95% 신뢰구간 56.2-75.4), GST의 경우 64.6%(95% 신뢰구간 55.0-75.9), MXD의 경우 51.3%(95% 신뢰구간 42.1-62.4), MSC의 경우 46.3%(95% 신뢰구간 38.0-56.5)이다. INF 아형은 트레이닝 세트 I의 MXD 및 MSC 아형보다 유의하게 낮은 사망 위험과 관련이 있었다.

끝으로, 상기 분류의 유사점과 차이점을 아시아 암 연구 그룹(ACRG) (GSE62254), Cancer Genome Atlas(TCGA) 및 싱가포르 연구 그룹(GSE15459)에 의해 보고된 GC 아형과 비교하였다: 즉, i) 최악의 임상 결과를 보인 MSC 아형은 ACRG EMT 아형, TCGA GS 아형 및 싱가포르 연구 그룹 침윤성 아형의 4개의 분류 체계에서 공통된 아형이었으며, ii) 최상의 임상 결과를 갖는 INF 아형 대부분의 엡스타인-바 바이러스(EBV) 양성 환자 및 TCGA 및 ACRG에 의해 확인된 부분적인 초위성체의 높은 불안정성(MSI) 그룹이 포함되었다. 그렇지 않은 경우 GST 및 INT 아형은 싱가포르 연구 그룹에서 부분적으로 설명하였다. MXD 아형은 TCGA에 의한 구조적 염색체 불안정성과 연관되어있다. non- MSC 및 non-INF GC 집단에서 아형 매칭은 병리학적으로 모호한 경향이 있었는데, 아마도 TCGA와 ACRG가 체세포 카피수 및 TP53 활성의 정도를 Classifier로 사용하였기 때문인 것으로 보인다.

<실시예 4> INT 아형과 비교하여 MSC 아형의 전임상 치료 반응

모듈 기질 분석에서, 기질 특성은 Lauren 분류에서 재발뿐만 아니라 확산 타입(Diffuse type)과 유의한 관련이 있었다. 이것은 GC 세포주를 사용하여 MSC 아형의 중간엽 및 줄기세포 유사 행동을 검증하도록 자극했다. 더욱이, 최근의 증거들이 EMT와 관련된 약물 내성의 획득이 다양한 유형의 암에서 예후가 좋지 않다는 것을 보여 주므로, MSC 아형의 전임상 치료 반응을 평가하였다. GC 세포주(n=26)는 세포주의 유전자 발현 데이터를 환자 GC 종양 샘플의 데이터와 병합한 후 5 개의 아형으로 분류했다(거리 가중치 식별 방법)(도 6a). 기질 모듈 eigengene으로 순위를 매김으로써, Hs746T 및 SNU484 GC 세포주를 MSC-아형 세포주에서 모델 세포주로 선택했다. INT 아형에 할당된 NCI-N87 및 MKN-45 세포를 기질 시그니처가 없는 대조군으로 사용하였다(도 6b). 시험관 내 침윤 및 상처 치유 분석에서, Hs746T 및 SNU484 세포는 NCI-N87 및 MKN-45 세포보다 침습적인 성능 및 운동성을 나타냈다(도 7a, b). 3D 스페로이드 형성 분석 결과, Hs746T 및 SNU484 세포는 줄기세포 유사 특성을 보였다(도 7c). 생체 내 동소 종양 모델의 T2 가중 축 자기 공명 영상은 NCI-N87 및 MKN-45 세포가 제한된 종양을 형성하는 반면, Hs746T 및 SNU484 종양이 위벽 벽을 따라 확산됨을 나타내었다(도 7e, 흰색 점선). 또한 NCI-N87 세포와 비교하여 Hs746T의 기질 특성에 대한 TGF-β 억제제(LY2157299)의 영향을 관찰했다. TGF-β 억제제를 사용한 치료는 시험 관내에서 Hs746T 세포의 상처 치유, 침범 및 3D 스페로이드 형성 능력을 지연시켰다(도 7e-g). EMT 관련 약물 내성을 확인하기 위해 Hs746T 세포를 사용하여 생체 내 이종 이식 마우스 모델(군별 n=8)에 TGF-β 억제제와 항암제 조합(옥살리플라틴+5-FU)을 공동 투여하였다. 옥살리플라틴+5-FU 치료가 Hs746T 모델에서 종양 성장에 대해 단지 약간 효과적이었지만, TGF-β 억제제/옥살리플라틴+5-FU의 병용 투여는 Hs746T에서 약물 내성과 종양의 양을 유의하게 감소시켰다(도 7h). 그 대신, 항암제 조합만으로 TGF-β 억제제의 도움 없이 비 기질 성 NCI-N87 종양에서 종양 성장을 감소시켰다(도 7i).

<실시예 5> 임상 적용을 위한 qPCR 프로브 세트로서 GC miniClassifier-26

Classifier-PAM932를 qPCR 프로브 세트로 miniClassifier-26로 정제하여 안정적이고 임상적으로 활용 가능한 분류 시스템을 구축하였다(도 8)(도 9는 miniClassifier-26로 선정 및 분석하는 흐름도를 보여줌). Classifier 선별을 위해 GC 안정성의 대표성의 정도를 고려하였다. 본 발명자들은 gastric 시그니처, mesenchymal 시그니처, proliferative 시그니처, immune 시그니처 및 intestinal 시그니처의 6개의 GC 시그니처에 따라 miniClassifier 서브세트를 분류하여 아형별 및 코호트 보존형 모듈에서 후보 유전자를 선별해 나갔다. 후보자들은 i) 아형 판별 점수(PAM 분석)와 ii) 모듈내 연결성에 의해 추가적으로 필터링 되었다(WGCNA 분석). 프로브 안정성은 플랫폼(마이크로어레이 및 qPCR) 및 샘플링 방법(신선-동결 및 FFPE 표본) 독립성을 토대로 평가되었다. 마지막으로, 암 생물학의 선험적 생물학적 지식에 의해 유전자를 감소시켜 miniClassifier-26 qPCR 프로브 세트를 얻었다. 또한 선택된 miniClassifier-26 프로브 세트가 FFPE 표본의 가능한 공간 이질성(분산 계수 5%)의 영향을 받지 않음을 확인하였다.

트레이닝 세트 II(n=1259, 신선-동결 샘플에서 여러 플랫폼으로 얻은 Merged1259)를 사용하여 miniClassifier-26 프로브 세트를 만들었다(도 8). miniClassifier-26 프로브 세트로 분류된 GC 아형은 생존 분석에서 높은 예후와 관련이 있었다(LR 테스트, P=2.48e-09)(도 8d). Classifier-PAM932에 의해 분류된 아형과 유사하게, INF 아형은 가장 좋은 예후(5년 생존율 67.3%, 95% CI 61.3-73.9%), 그리고 MXD(5년 생존율 45.0%, 95% CI 36.5-55.4%)와 MSC(5년 생존율 33.0%, 95% CI 27.3-40.0%)은 최악의 예후를 나타냈다. GC 아형(도 8d)의 생존 곡선의 경향의 일관성은 qPCR325 테스트 세트에서도 확인하였다(도 8e, P=0.000534). 가장 예후가 좋은 INF 아형은 5년 생존율이 78.5%(95% CI 69.4-88.8%)이고 가장 예후가 안 좋은 MXD, MSC 아형 5년 생존율은 각각 54.6%(95% CI 41.7-71.4%), 57.5%(95% CI 48.4-68.2%)로 나타났다.

상기에서 확인된 위암의 5개의 분자아형에 대해 개인 및 공지의 데이터세트(GSE13861p, GSE15459, TCGA 및 SGE62254)에서 동정하였다.

도 8에서와 같이, Inflammatory 분자아형은 immune 시그니처와 연관되고, Intestinal 분자아형은 intestinal epithelial differentiation 유전자의 고발현과 연관되며, Gastric 분자아형은 gastric mucosa-specific 유전자의 고발현과 연관된다. Mixed-stromal 분자아형은 이질성 transit-amplifying 특징을 나타내며, Mesenchymal 분자아형은 EMT 및 중간엽 특성과 연관된다.

표 2는 도 8a의 표적 유전자 발현 패턴을 스코어(

)로 나타낸 것이다. 표 2의 스코어(

상기 스코어(

)는 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류할 수 있다:

[식 2]

SV (Score Value)=

도 10은 5개의 클러스터들을 분자아형으로 명명하는 방법을 도시한 것으로, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고, 나머지 4개의 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 가지면서 proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며, 나머지 3개의 클러스터 중 immune 시그니처의 SV가 최대값을 갖으면서 intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고, 나머지 2개의 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고, 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 명명한다.

표 2의 스코어(

)는 해당 유전자별 t-통계값에서 임계치로 보정하고, 하기 식 3 및 4에 따라

값을 계산하여 분자아형 기준을 설정할 수 있다:

[식 3]

여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(

) 대부분이 노이즈이고 해당 유전자(i)의 전체 평균값(

)에 가까울 수 있으므로, 임계치(Δ)로 보정하여

값이 0에 수렴하는 유전자들을 제외시킨다. 이로서 각 분자아형(k) 내 유전자(i)의 신뢰할 수 있는 평균값을 계산할 수 있다. 상기 식 3의

를 계산하기 위하여 하기 식 4를 따른다:

[식 4]

,

여기서,

는 해당 유전자(i)의 t-통계값이며, 같은 분자아형(subtype) 내의 샘플 유전자 발현량에 가중치를 주어 표준화하는 것으로 선형판별식분석(LDA; Linear Discriminant Analysis)에서 흔하게 사용되는 통계 방법이다.

는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이다. j는 해당 분자아형(k) 내의 샘플이며,

는

의 표준오차를 보정하기 위한 자유도이며,

는

의 중앙값이다.

표 2는 분자아형 분류 기준표로, 적색은 최대값, 파란색은 최소값을 의미하며, 325개의 샘플에 대해 26개의 표적 유전자의 스코어(

)로부터 식 3 및 4에 따라 계산된

를 기반으로 작성된 분자아형 분류 기준표이다.

테스트 샘플의 분자아형을 알고자 할 때, 테스트 샘플의 표적 유전자군의 발현 값에 대해 상기 식 3과 4에서 계산된 값을 식 5에 적용하여 표 2의 스코어(

)를 분자아형 분류 기준표로 하여 테스트 샘플(

)의 분자아형(k)을 판별할 수 있다:

[식 5]

,

;

는 분자아형(k)의 사전 확률

여기서, 테스트 샘플(

)은 26개 표적 유전자 Cq 값을 325개 테스트 세트 II의 26개 표적 유전자 Cq 값과 median centering한 값이며,

는 테스트 샘플(

)의 분자아형 "k"를 판별해주는 스코어로서 테스트 샘플의 판별 스코어가 가장 작은 값의 분자아형(k)을 선택하여 분류한다. 표 3은

에 따라 325개 샘플에 대한 분자아형 결정에 일치율 및 에러율이다.

<110> University-Industry Foundation, Yonsei University <120> System for predicting prognosis and group classification based on gastric cancer reveal subtype-associated biological implication <130> P17U18C0141 <160> 93 <170> KopatentIn 2.0 <210> 1 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> TFF1 forward primer <400> 1 aaataagggc tgctgtttcg 20 <210> 2 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> TFF1 reverse primer <400> 2 gggacgtcga tggtattagg 20 <210> 3 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> TFF2 forward primer <400> 3 ccctcccaaa gcaagagtc 19 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> TFF2 reverse primer <400> 4 gggtagccac agtttcttcg 20 <210> 5 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VSIG1 forward primer <400> 5 catcgtgcca gtgaaagaaa 20 <210> 6 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VSIG1 reverse primer <400> 6 tgtcagattt ccaatgacca a 21 <210> 7 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> CNN1 forward primer <400> 7 agtccaccct cctggcttt 19 <210> 8 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> CNN1 reverse primer <400> 8 cttcactccc acgttcacct t 21 <210> 9 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> NEXN forward primer <400> 9 gcggcaaatg gtaaatgaag 20 <210> 10 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> NEXN reverse primer <400> 10 gggcggtacc ctttaaaaat 20 <210> 11 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SCRG1 forward primer <400> 11 cccagtgagt gtgagcattt 20 <210> 12 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SCRG1 reverse primer <400> 12 gcttttggcc ctttttcttc 20 <210> 13 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> SORBS1 forward primer <400> 13 gctgtgatga atggcttgg 19 <210> 14 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> SORBS1 reverse primer <400> 14 cccagtgcag atttttgtag g 21 <210> 15 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SPARCL1 forward primer <400> 15 cattccaaac caactgctga 20 <210> 16 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SPARCL1 reverse primer <400> 16 agcttcagcc cataaactgg 20 <210> 17 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> AURKA forward primer <400> 17 gcagattttg ggtggtcagt 20 <210> 18 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> AURKA reverse primer <400> 18 gtagtccagg gtgccacaga 20 <210> 19 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> BUB1 forward primer <400> 19 ccttcaaaac caaaggagga 20 <210> 20 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> BUB1 reverse primer <400> 20 gcagcgaata ccccataca 19 <210> 21 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> CDC20 forward primer <400> 21 cttccctgcc agaccgtat 19 <210> 22 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDC20 reverse primer <400> 22 ccaatccaca aggttcaggt 20 <210> 23 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CEP55 forward primer <400> 23 caagtgggaa aggaaagctg 20 <210> 24 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CEP55 reverse primer <400> 24 ctcagcctca aggactcgaa 20 <210> 25 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> PTTG1 forward primer <400> 25 ctgaagctgg ggtctgga 18 <210> 26 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> PTTG1 reverse primer <400> 26 aacgtggtgt tgaaacttga ga 22 <210> 27 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> UBE2C forward primer <400> 27 ccctgctatc accccaac 18 <210> 28 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> UBE2C reverse primer <400> 28 gggcagacca cttttccttc 20 <210> 29 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CD8A forward primer <400> 29 cagagctacc cgcagagttc 20 <210> 30 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CD8A reverse primer <400> 30 aagaggttga gatggcatgg 20 <210> 31 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> GBP1 forward primer <400> 31 tagaagccag tgctcgtgaa 20 <210> 32 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> GBP1 reverse primer <400> 32 gatctctgat gccatgtcca 20 <210> 33 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> GBP5 forward primer <400> 33 ggcctgggag atgtagagaa 20 <210> 34 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> GBP5 reverse primer <400> 34 cagtaagagt gccagtgcaa a 21 <210> 35 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> GZMB forward primer <400> 35 cggtggcttc ctgatacaag 20 <210> 36 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> GZMB reverse primer <400> 36 ttatggagct tccccaacag 20 <210> 37 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> NKG7 forward primer <400> 37 gtccccgtcc tggctatg 18 <210> 38 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> NKG7 reverse primer <400> 38 aacgctcaaa actcatcttg c 21 <210> 39 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> WARS forward primer <400> 39 ttgtggaccc atggacagta 20 <210> 40 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> WARS reverse primer <400> 40 ccaaaccgaa caatgagctt 20 <210> 41 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> ANTXR1 forward primer <400> 41 cagttggctc acaaattcat c 21 <210> 42 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> ANTXR1 reverse primer <400> 42 ttcctcgggt ggagaaaac 19 <210> 43 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> SFRP4 forward primer <400> 43 ggagacttcc gacttcctta ca 22 <210> 44 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SFRP4 reverse primer <400> 44 tggccttaca taggctgtcc 20 <210> 45 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VCAN forward primer <400> 45 tttgagcatg acttccgttg 20 <210> 46 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VCAN reverse primer <400> 46 ctgtctggct ggttgggtct 20 <210> 47 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDH17 forward primer <400> 47 gcaatgtgac tgccaaggat 20 <210> 48 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDH17 reverse primer <400> 48 acctcttgtg tctcccctca 20 <210> 49 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDX1 forward primer <400> 49 agggaggaac gtggtcaact 20 <210> 50 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDX1 reverse primer <400> 50 tatgatgggg gcaggtagaa 20 <210> 51 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> MYO1A forward primer <400> 51 ccgcctcttt gactggatag 20 <210> 52 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> MYO1A reverse primer <400> 52 ccttcttctt ttccccgatg 20 <210> 53 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> ACTB forward primer <400> 53 tcaccctgaa gtaccccatc 20 <210> 54 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> ACTB reverse primer <400> 54 tgtggtgcca gattttctcc 20 <210> 55 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> ATP5E forward primer <400> 55 atggtggcct actggagaca 20 <210> 56 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> ATP5E reverse primer <400> 56 ctctcactgc ttttgcacag a 21 <210> 57 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> GPX1 forward primer <400> 57 cccgtgcaac cagtttgg 18 <210> 58 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> GPX1 reverse primer <400> 58 ggacgtactt gagggaattc aga 23 <210> 59 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> UBB forward primer <400> 59 tgggtgagct tgtttgtgtc 20 <210> 60 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> UBB reverse primer <400> 60 tttgacctgt tagcggatac c 21 <210> 61 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> HPRT1 forward primer <400> 61 tggtcaggca gtataatcca a 21 <210> 62 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> HPRT1 reverse primer <400> 62 cttcgtgggg tccttttcac 20 <210> 63 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> TFF1 probe <400> 63 acgacaccgt tcgtggggtc 20 <210> 64 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> TFF2 probe <400> 64 tcagtgcgtc atggaggtct ca 22 <210> 65 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VSIG1 probe <400> 65 tcaacccaac caccgggatt 20 <210> 66 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> CNN1 probe <400> 66 cctttcgtct tcgccatgct gg 22 <210> 67 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> NEXN probe <400> 67 tgaggaaaac caagacacag caaa 24 <210> 68 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> SCRG1 probe <400> 68 tggtcttggc agaggatgct tc 22 <210> 69 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SORBS1 probe <400> 69 ttgtcttgcc cattgctgcc 20 <210> 70 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> SPARCL1 probe <400> 70 cggtagcacc tgacaacact gc 22 <210> 71 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> AURKA probe <400> 71 ctccatcttc caggaggacc a 21 <210> 72 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> BUB1 probe <400> 72 ccaaaaactc ttcagcatga ggca 24 <210> 73 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDC20 probe <400> 73 cctggatgcg cctgaaatcc 20 <210> 74 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> CEP55 probe <400> 74 ttttctccaa aagtctgtgt ctctc 25 <210> 75 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> PTTG1 probe <400> 75 ccttcaatca aagccttaga tggga 25 <210> 76 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> UBE2C probe <400> 76 cacccagggt aacatatgcc tgg 23 <210> 77 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> CD8A probe <400> 77 tgcctccagc tctctcagca tga 23 <210> 78 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> GBP1 probe <400> 78 agaaaaagaa cagacaaggg aacagcc 27 <210> 79 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> GBP5 probe <400> 79 tctggatatc attcttgttg tcagcc 26 <210> 80 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> GZMB probe <400> 80 cgacttcgtg ctgacagctg c 21 <210> 81 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> NKG7 probe <400> 81 cgctcttgcc ttctgctcac a 21 <210> 82 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> WARS probe <400> 82 tgccttttgc actgcttgtc tg 22 <210> 83 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> ANTXR1 probe <400> 83 aaaggacatt ctcaactgtg ggc 23 <210> 84 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SFRP4 probe <400> 84 aggcaatgcc cagcctcatc 20 <210> 85 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VCAN probe <400> 85 tggcagcaca ctgcaatacg a 21 <210> 86 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> CDH17 probe <400> 86 ccagaaggtc tggacataag c 21 <210> 87 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> CDX1 probe <400> 87 tgcctcttcc tgcagcctca 20 <210> 88 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> MYO1A probe <400> 88 cccaccttga tgctctcatt gattc 25 <210> 89 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> ACTB probe <400> 89 cggcatcgtc accaactggg 20 <210> 90 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> ATP5E probe <400> 90 tggactcagc tacatccgat actccca 27 <210> 91 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> GPX1 probe <400> 91 ctcttcgttc ttggcgttct cctgatg 27 <210> 92 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> UBB probe <400> 92 caccaaccac gtccacccac 20 <210> 93 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> HPRT1 probe <400> 93 tgcaagcttg cgaccttgac c 21

Claims

TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및
ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
제1항에 있어서,
표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제는 상기 mRNA에 상보적인 서열을 갖는 올리고뉴클레오티드를 포함하는, 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
제1항에 있어서,
표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제는 SEQ ID NOS: 1 내지 62에 기재된 프라이머 세트; 또는 SEQ ID NOS: 63 내지 93에 기재된 프로브를 포함하는, 위암 2기 및 3기의 예후 예측용 조성물.
제1항에 있어서,
상기 조성물은 전체 생존율 측면에서 위암 2기 및 3기의 진행성 위암의 예후를 측정하는 것인, 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
제1항의 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트.
제5항에 있어서,
키트는 qPCR(Quantitative real-time polymerase chain reaction) 키트를 포함하는, 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트.
통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,
TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;
하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및
상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,
상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,
상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법:
[식 1]
ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
[식 2]
SV (Score Value)=

여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,
[식 3]

여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
는
의 부호를 의미하며,
는 하기 식 4에 따라 구한다,
[식 4]

,

여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
), 해당 유전자(i)의 전체 평균값(
)이며,
는
의 표준오차를 보정하기 위한 자유도
이고,
는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
는
의 중앙값이다.
제7항에 있어서,
통계적 유의치를 나타낼 수 있는 정도의 샘플의 수는 300 내지 10,000인, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.
제7항에 있어서,
생물학적 샘플은 신선종양조직, 신선동결종양조직, 파라핀포매종양조직, 세침흡인액, 복수, 관 세정액 및 흉막액으로 구성되는 군에서 선택되는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.
제7항에 있어서,
표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준 측정은 qPCR(Quantitative real-time polymerase chain reaction)에 의해 수행되는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.