KR102371654B1 - Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof - Google Patents
Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof Download PDFInfo
- Publication number
- KR102371654B1 KR102371654B1 KR1020190126464A KR20190126464A KR102371654B1 KR 102371654 B1 KR102371654 B1 KR 102371654B1 KR 1020190126464 A KR1020190126464 A KR 1020190126464A KR 20190126464 A KR20190126464 A KR 20190126464A KR 102371654 B1 KR102371654 B1 KR 102371654B1
- Authority
- KR
- South Korea
- Prior art keywords
- marker
- risk
- genetic
- information
- prostate cancer
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
본 발명은 유전정보를 이용하여 전립선암의 위험점수를 산출하기 위한 산출장치, 산출방법 및 이의 기록매체에 관한 것이다. 위험점수 산출장치의 전립선 암 위험도 산출 방법은 피험자의 유전 정보 및 인종 정보를 입력 받는 단계, 유전 정보 및 인종 정보를 이용하여 상기 인종 정보에 대응하는 가중치 위험도 모델을 결정하는 단계 및 가중치 위험도 모델을 이용하여 유전위험 점수를 산출하는 단계를 포함한다.The present invention relates to a calculation device, calculation method, and a recording medium thereof for calculating a risk score for prostate cancer using genetic information. The prostate cancer risk calculation method of the risk score calculation device includes the steps of receiving genetic information and race information of a subject, determining a weighted risk model corresponding to the race information using the genetic information and race information, and using a weighted risk model and calculating a genetic risk score.
Description
본 발명은 유전정보를 이용하여 전립선암의 위험점수를 산출하기 위한 산출장치, 산출방법 및 이의 기록매체에 관한 것이다.The present invention relates to a calculation device, calculation method, and a recording medium thereof for calculating a risk score for prostate cancer using genetic information.
전립선암은 한국에서 남성 암 유병률 3위 및 발병률 4위인 암종으로 남성 사망의 주된 원인이 되고 있다. 이에 종래에는 전립선암을 예측하기 위해 유전정보를 이용하는 등의 연구가 진행되어왔다. Prostate cancer is the third most common and fourth most common cancer in men in Korea, and is the leading cause of death in men. Accordingly, studies such as using genetic information to predict prostate cancer have been conducted in the prior art.
한편, 전립선암의 발병율과 그로 인한 사망율은 전세계적으로 큰 차이를 나타내는데, 미국과 유럽 남성의 발병율이 높고, 특히 아프리카계 미국인의 사망율이 가장 높게 나타나는 반면에, 아시아인의 발병율과 사망율은 상대적으로 낮은 편이다. 이러한 인종별 발병률의 차이는 전립선암 발병이 환경적 차이뿐만 아니라 유전적 이질성(heterogeneity)에 기인할 가능성을 시사한다.On the other hand, the incidence and mortality rates of prostate cancer vary widely worldwide. Men in the United States and Europe have the highest incidence rates, and African Americans have the highest mortality rates, whereas the incidence and mortality rates in Asians are relatively high. It is low. This difference in the incidence rate by race suggests that the incidence of prostate cancer is likely due to genetic heterogeneity as well as environmental differences.
따라서 유전적 이질성에 의한 인종 간의 차이를 반영하여 전립선암 발병의 위험성을 판단할 필요성이 대두된다.Therefore, there is a need to determine the risk of prostate cancer by reflecting racial differences due to genetic heterogeneity.
본 발명은 상술한 필요성에 따른 것으로, 유전 정보를 이용한 인종 별 전립선암을 예측하기 위해 유전위험도 점수를 산출하는 장치, 방법 및 기록매체를 제공하는 것을 목적으로 한다.An object of the present invention is to provide an apparatus, method, and recording medium for calculating a genetic risk score in order to predict prostate cancer by race using genetic information.
또한 본 발명은 전립선암 발생에 유의미한 영향을 주는 대표 유전 변이들에 대해 상이한 가중치를 부여하여 정확한 유전위험도 점수를 산출하는 장치, 방법 및 기록매체를 제공하는 것을 목적으로 한다.Another object of the present invention is to provide an apparatus, method, and recording medium for calculating an accurate genetic risk score by assigning different weights to representative genetic mutations that have a significant effect on the occurrence of prostate cancer.
그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 발명의 범위가 한정되는 것은 아니다.However, these problems are exemplary, and the scope of the present invention is not limited thereto.
본 발명의 일 실시 예에 따른 전립선 암 위험도 산출 방법은 피험자의 유전 정보 및 상기 피험자의 인종 정보를 입력 받는 단계; 상기 유전 정보 및 상기 인종 정보에 대응하는 가중치 위험도 모델을 결정하는 단계; 및 상기 가중치 위험도 모델을 이용하여 유전위험 점수를 산출하는 단계;를 포함할 수 있다. A method for calculating the risk of prostate cancer according to an embodiment of the present invention includes: receiving genetic information of a subject and race information of the subject; determining a weighted risk model corresponding to the genetic information and the race information; and calculating a genetic risk score using the weighted risk model.
또한, 상기 가중치 위험도 모델을 결정하는 단계는, 상기 유전 정보에 포함된 염기서열의 특정 SNP(단일염기다형성)를 확인하는 단계; 상기 인종 정보에 따라 상기 유전 정보에 포함된 적어도 하나의 SNP에 대하여 최적의 SNP 마커 세트를 결정하는 단계; 및 상기 인종 정보에 대응하는 상기 가중치를 결정하는 단계;를 더 포함할 수 있다. In addition, the determining of the weighted risk model may include: identifying a specific SNP (single nucleotide polymorphism) of a nucleotide sequence included in the genetic information; determining an optimal SNP marker set for at least one SNP included in the genetic information according to the race information; and determining the weight corresponding to the race information.
또한, 상기 특정 SNP는 rs16901979, rs1512268, rs4430796 및 rs2735739를 포함할 수 있다. In addition, the specific SNP may include rs16901979, rs1512268, rs4430796 and rs2735739.
또한, 상기 가중치 위험도 모델은 상기 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 0, 이형 대립유전자(heterozygous of alleles)는 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 2의 세부 점수를 부여하고, 상기 세부 점수에 대하여 상기 SNP 각각에 대응하는 가중치를 부여할 수 있다. In addition, in the weighted risk model, according to the number of risk alleles for each SNP included in the genetic information, homozygous of non-risk alleles is 0, heterozygous alleles (heterozygous of alleles) may be assigned a detailed score of 1, homozygous of the risk alleles may be assigned a detailed score of 2, and a weight corresponding to each of the SNPs may be assigned to the detailed score.
또한, 상기 위험도 산출 방법은 상기 산출된 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하는 단계;를 더 포함하고, 상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 상기 유전위험 점수로 결정할 수 있다. In addition, the risk calculation method further includes the step of verifying the calculated genetic risk score through Receiver Operating Characteristics (ROC), and as a result of the verification, the genetic risk exceeding a preset Area under the curve (AUC) value The score can be determined as the genetic risk score.
한편, 본 발명의 일 실시예에 따른 기록매체는 상기 전립선 암 위험도 산출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체일 수 있다.Meanwhile, the recording medium according to an embodiment of the present invention may be a computer-readable recording medium in which a program for executing the method for calculating the risk of prostate cancer is recorded.
전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.Other aspects, features, and advantages other than those described above will become apparent from the following detailed description, claims and drawings for carrying out the invention.
상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 인종 별로 상이한 가중치 모델을 적용함으로써 피험자 인종 특이성을 반영한 전립선암 위험점수를 산출할 수 있다. According to an embodiment of the present invention made as described above, a prostate cancer risk score reflecting the subject's racial specificity may be calculated by applying a different weighting model for each race.
특히, 본 발명의 일 실시예에 따르면, 유전 정보 중 특정 유전변이에 대하여 가중치를 부여함으로써 정밀한 위험도를 산출할 수 있다. In particular, according to an embodiment of the present invention, it is possible to accurately calculate the risk by assigning a weight to a specific genetic mutation among genetic information.
물론 이러한 효과에 의해 본 발명의 범위가 한정되는 것은 아니다.Of course, the scope of the present invention is not limited by these effects.
도 1은 본 발명의 일 실시예예 따른 전립선암 유전위험점수 산출 시스템을 설명하기 위한 시스템도이다.
도 2는 본 발명의 일 실시예에 따른 산출장치의 구성요소를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 유전위험 점수를 산출하는 방법을 설명하기 위한 흐름도이다.
도 4는 발견(discovery) GWAS(Genome Wide Association Study) 단계에서의 맨하탄 플롯(Manhattan plots)의 총괄자료를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 유전위험 점수 계산에 포함되는 후보 유전변이 목록을 도시한 도면이다.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 유전변이의 개수에 따른 예측력을 비교하기 위한 ROC(Receiver Operating Characteristic) 곡선을 도시한 도면이다.
도 7a 내지 7g는 본 발명의 일 실시예에 따른 가중치를 부여한 모델(weighted model)의 유전변이 개수에 따른 유전위험 점수(Genetic risk score, GRS)분포를 설명하기 위한 도면이다.
도 8a 내지 8g는 본 발명의 일 실시예에 따른 가중치를 부여하지 않은 모델(non-weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 GRS 그룹 별 전립선암에 대한 교차비를 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 GRS 그룹 중 고위험군 그룹에서의 교차비를 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 상이한 인구집단의 가중위험점수 비교를 위해 포함되는 유전변이를 설명하기 위한 도면이다.
도 12a 및 12b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 GRS 분포를 도시한 도면이다.
도 13a 및 13b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 ROC 곡선을 도시한 도면이다.1 is a system diagram illustrating a system for calculating a prostate cancer genetic risk score according to an embodiment of the present invention.
2 is a block diagram for explaining the components of a calculation device according to an embodiment of the present invention.
3 is a flowchart illustrating a method of calculating a genetic risk score according to an embodiment of the present invention.
4 is a diagram illustrating general data of Manhattan plots in the discovery GWAS (Genome Wide Association Study) stage.
5 is a diagram illustrating a list of candidate genetic mutations included in the genetic risk score calculation according to an embodiment of the present invention.
6A and 6B are diagrams illustrating a Receiver Operating Characteristic (ROC) curve for comparing predictive power according to the number of genetic variations according to an embodiment of the present invention.
7A to 7G are diagrams for explaining the distribution of a genetic risk score (GRS) according to the number of genetic variations of a weighted model according to an embodiment of the present invention.
8A to 8G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a non-weighted model according to an embodiment of the present invention.
9 is a diagram for explaining the odds ratio for prostate cancer for each GRS group according to an embodiment of the present invention.
10 is a diagram for explaining an odds ratio in a high-risk group among GRS groups according to an embodiment of the present invention.
11 is a diagram for explaining genetic variations included for comparison of weighted risk scores of different population groups according to an embodiment of the present invention.
12A and 12B are diagrams illustrating a GRS distribution when a weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.
13A and 13B are diagrams illustrating ROC curves when the weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.
이하, 본 개시의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 개시의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.Hereinafter, various embodiments of the present disclosure are described in connection with the accompanying drawings. Various embodiments of the present disclosure are capable of various changes and may have various embodiments, and specific embodiments are illustrated in the drawings and the related detailed description is described. However, this is not intended to limit the various embodiments of the present disclosure to specific embodiments, and should be understood to include all modifications and/or equivalents or substitutes included in the spirit and scope of the various embodiments of the present disclosure. In connection with the description of the drawings, like reference numerals have been used for like components.
본 개시의 다양한 실시예에서 사용될 수 있는 "포함한다." 또는 "포함할 수 있다." 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 개시의 다양한 실시예에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.“Includes” can be used in various embodiments of the present disclosure. or "may include." Expressions such as etc. indicate the existence of the disclosed function, operation, or component, and do not limit one or more additional functions, operations or components. Also, in various embodiments of the present disclosure, "includes." Or "have." The term such as is intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and is intended to indicate that one or more other features or numbers, steps, operation, component, part or It should be understood that it does not preclude the possibility of the existence or addition of combinations thereof.
본 개시의 다양한 실시예에서 "또는" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B"는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.In various embodiments of the present disclosure, expressions such as “or” include any and all combinations of the words listed together. For example, "A or B" may include A, may include B, or may include both A and B.
본 개시의 다양한 실시예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 개시의 다양한 실시예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.Expressions such as “first”, “second”, “first”, or “second” used in various embodiments of the present disclosure may modify various components of various embodiments, but do not limit the components. does not For example, the above expressions do not limit the order and/or importance of corresponding components. The above expressions may be used to distinguish one component from another. For example, both the first user device and the second user device are user devices, and represent different user devices. For example, without departing from the scope of the various embodiments of the present disclosure, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.When an element is referred to as being "connected" or "connected" to another element, the element may be directly connected to or connected to the other element, but may be associated with the element. It should be understood that other new components may exist between the other components. On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it will be understood that no new element exists between the element and the other element. should be able to
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.In an embodiment of the present disclosure, terms such as “module”, “unit”, “part”, etc. are terms for designating a component that performs at least one function or operation, and these components are hardware or software. It may be implemented or implemented as a combination of hardware and software. In addition, a plurality of "modules", "units", "parts", etc. are integrated into at least one module or chip, and are integrated into at least one processor, except when each needs to be implemented in individual specific hardware. can be implemented as
본 개시의 다양한 실시예에서 사용한 용어는 단지 특정일 실시예를 설명하기 위해 사용된 것으로, 본 개시의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Terms used in various embodiments of the present disclosure are only used to describe one specific embodiment, and are not intended to limit the various embodiments of the present disclosure. The singular expression includes the plural expression unless the context clearly dictates otherwise.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which various embodiments of the present disclosure pertain.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in various embodiments of the present disclosure, ideal or excessively formal terms not interpreted as meaning
이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다. Hereinafter, various embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예예 따른 전립선암 유전위험점수 산출 시스템을 설명하기 위한 시스템도이다. 1 is a system diagram illustrating a system for calculating a prostate cancer genetic risk score according to an embodiment of the present invention.
도 1을 참조하면, 산출 시스템은 위험점수 산출장치(100, 이하 산출장치), 서버(200), 단말기(301) 및 외부 기관(302)을 포함할 수 있다. Referring to FIG. 1 , the calculation system may include a risk score calculation device 100 (hereinafter referred to as calculation device), a
산출장치(100)는 데스크 탑 컴퓨터일 수 있으나, 이에 한정하지 않으며 유전 정보를 통해 전립선암 발병에 대한 위험점수를 산출하기 위한 방법을 수행하기 위한 프로그램을 실행시킬 수 있는 모든 종류의 전자장치일 수 있다. The
사용자 단말기(301)는 유무선 통신 환경에서 데이터를 송수신할 수 있는 통신 단말기를 의미한다. 여기서, 사용자 단말기(301)는 사용자의 퍼스널 컴퓨터 일 수도 있고, 사용자의 휴대용 단말기일 수도 있다. 사용자는 피험자일 수 있고, 피험자는 직접 유전 정보를 입력하여 서버(200)로 전송할 수 있다. The
도 1에서는 사용자 단말기(301)는 휴대용 단말기가 스마트폰으로 도시되었지만 본 발명의 사상은 이에 제한되지 아니하며 상술한 바와 같이 통신망과 연결이 가능한 프로그램이 탑재되거나 통신 모듈과 연결된 모든 종류의 전자기기를 포함할 수 있다. 구체적으로 사용자 단말기(301)는 컴퓨터(예를 들면, 데스크톱, 랩톱, 태블릿 등), 미디어 컴퓨팅 플랫폼(예를 들면, 케이블, 위성 셋톱박스, 디지털 비디오 레코더), 핸드헬드 컴퓨팅 디바이스(예를 들면, PDA, 이메일 클라이언트 등), 핸드폰의 임의의 형태 또는 다른 종류의 컴퓨팅 또는 커뮤니케이션 플랫폼의 임의의 형태를 포함할 수 있으나, 본 발명이 이에 한정되는 것은 아니다. In FIG. 1, the
도 1에는 사용자 단말기(302)이 각각 단수로 도시되어 있으나, 본 발명의 일 실시예에 따르면 복수개의 사용자 단말기들이 직접 산출장치(100) 및 서버(200)와 연결될 수 있다. Although each
기관(301)은 복수의 피험자의 유전 정보를 획득한 병원 및 공공기관일 수 있다. 기관(301)은 서버(200)로 복수의 피험자의 유전 정보에 대한 데이터베이스를 전송할 수 있고, 서버(200)는 수신한 데이터베이스를 바탕으로 전립선암 유전 위험 점수 산출을 위한 가중치 모델을 결정할 수 있다. The
산출장치(100)는 피험자의 유전 정보를 입력받고, 가중치 위험도 모델을 이용하여 피험자의 개인별 전립선 암 위험도 점수를 산출하는 장치일 수 있다. 본 발명의 일 실시예에 따르면 산출장치(100)는 피험자의 인종 정보를 획득하고, 인종 정보에 대응하는 가중치 위험도 모델을 결정하여 유전위험 점수를 산출할 수 있다. 이때 인종 정보는 사용자에 의해 산출장치(100)에 입력된 것일 수 있으나, 이에 한정하지 않으며, 사용자에 의해 사용자 단말기(301)에 입력된 것일 수 있다. The
본 발명의 또 다른 실시예에 따르면, 산출장치(100)는 유전 정보에 포함된 염기서열의 특정 SNP(단일염기다형성)를 확인할 수 있다. 이때, 특정 SNP는 rs16901979, rs1512268, rs4430796 및 rs2735739를 포함하는 것일 수 있다. According to another embodiment of the present invention, the
한편, 가중치 위험도 모델은 서버(200)로부터 수신한 것일 수 있다. 즉, 서버(200)는 단말기(301) 및 외부 기관(302)으로부터 수신한 데이터베이스를 바탕으로 전립선암을 예측하기 위한 가중치 위험도 모델을 결정할 수 있고, 이를 산출장치(100)로 전송할 수 있다. Meanwhile, the weighted risk model may be received from the
구체적으로 서버(200)는 전립선암 관련 유전변이 탐색할 수 있다. 구체적으로 서버(200)는 60,276개의 유전변이에 대해 Discovery set 에서 전립선암 환자(998명)-정상 대조군(2,641명) 비교할 수 있다. 또한, 서버(200)는 재현(Replication)을 위한 유전 변이 17개를 추출할 수 있다. 서버(200)는 데이터베이스 및 유전 변이를 기초로 가중치 위험도 모델을 결정할 수 있다. Specifically, the
본 발명의 일 실시예예 따르면, 서버(200)는 17개의 변이 중에서 9개의 대표 변이로 추출하여 새로운 독립적인 자료원(replication set: 전립선암 환자 (514명) + 정상 대조군 (548명))으로 가중유전위험점수를 계산할 수 있다. 이때, 서버(200)는 특정 유전 변이를 통해 전립선암과 관련된 유전위험점수를 산출할 수 있다. 이때, 대표 변이를 추출하는 과정에 있어서, 인종 별로 구분된 유전 변이가 고려될 수 있다.According to an embodiment of the present invention, the
서버(200)는 유전 변이의 발생 횟수에 가중치를 부여할 수 있으나, 이에 한정하지 않는다. 본 발명의 일 실시예에 따르면, 서버(200)는 유전 변이의 중요도(또는 질병에 기여하는 정도)에 따라 가중치를 부여할 수 있다. 즉, 서버(200)는 유전 변이와의 연관성 정도를 나타내는 교차비에 로그(logarithm)를 취한 값을 가중치로 사용할 수 있다. The
본 발명의 일 실시예에 따르면, 서버(200)는 인공지능 모델을 이용하여 가중치 위험도 모델을 학습시킬 수 있다. 이때 인공지능 모델은 CNN, RNN, BNN 등을 포함하는 다양한 딥러닝 알고리즘일 수 있으나, 이에 한정하지 않는다.According to an embodiment of the present invention, the
또한, 상기 가중치 위험도 모델은 상기 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 0, 이형 대립유전자(heterozygous of alleles)는 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 2의 세부 점수를 부여하고, 세부 점수에 대하여 SNP 각각에 대응하는 가중치를 부여하는 모델일 수 있으나, 이에 한정하지 않는다. 이에 대하여 추후 상세히 설명하기로 한다. In addition, in the weighted risk model, according to the number of risk alleles for each SNP included in the genetic information, homozygous of non-risk alleles is 0, heterozygous alleles (heterozygous of alleles) may be a model in which a detailed score of 1 and homozygous of the risk alleles is given, and a weight corresponding to each SNP is given to the detailed score, but is not limited thereto . This will be described in detail later.
본 발명의 일 실시예에 따른 산출장치(100)는 계산기와 같은 형태로 구현될 수 있다. 즉, 산출장치(100)는 유전 변이와 관련된 유전 정보 값을 입력 받고, 입력된 값들로부터 산출된 전립선암 위험도 및/또는 가이드 라인 등을 디스플레이를 통해 출력할 수 있다. The
본 발명의 일 실시예에 따른 산출장치(100)는 전립선암과 관련된 유전 변이 종류를 변경할 수 있다. 산출장치(100)는 사용자 정보, 예를 들면 나이, 성별, 인종 등에 대한 정보에 따라서 가중치 모델에 반영할 유전 변이 종류를 변경할 수 있다.The
이때, 산출장치(100)는 서버(200)와 연동하여 서버(200)에서 설정된 다양한 가중치 모델 중 사용자 정보에 대응되는 가중치 모델을 결정할 수 있다. 예를 들면, 산출장치(100)는 입력된 피험자의 인종이 유럽인이라고 판단하면, 서버(200)로부터 유럽인에 대응되는 유전 변이에 가중치를 부여한 가중치 모델을 수신하고, 피험자의 전립선암 위험점수를 산출할 수 있다. In this case, the
본 발명의 또 다른 실시예에 따른 산출장치(100)는 사용자 또는 피험자의 신체 정보, 생활 정보와 전립선암 위험 점수 사이의 관계를 추론하여 가중치 모델을 설정할 수 있다. 예를 들면, 산출장치(100)는 피험자가 흡연자인 경우, 해당 생활 정보에 대응되는 유전 변이에 가중치를 부여한 가중치 모델을 이용하여 전립선암의 위험점수를 계산할 수 있다. 이 경우에도 산출장치(100)는 서버(200)와 연동하여 다양한 가중치 모델을 사용할 수 있다. The
도 2는 본 발명의 일 실시예에 따른 산출장치의 구성요소를 설명하기 위한 블록도이다. 2 is a block diagram for explaining the components of a calculation device according to an embodiment of the present invention.
도 2를 참조하면, 산출장치(100)는 통신부(110), 입력부(120), 메모리(130), 디스플레이(140) 및 프로세서(150)를 포함할 수 있다. Referring to FIG. 2 , the
통신부(110)는 서버(200), 사용자 단말기(301) 및 기관(302)를 비롯한 외부기관 및 장치와 데이터를 송수신하기 위한 구성이다. 통신부(100)는 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등의 근거리 통신부, 이동통신 망을 포함할 수 있다.The
입력부(120)는 산출장치(100)에 다양한 정보를 입력하기 위한 사용자 인터페이스를 포함할 수 있다. 이때, 산출장치(100)에 입력되는 다양한 정보는 피험자의 유전 정보, 피험자의 나이, 성별, 인종 등에 대한 정보, 피험자의 생활 습관 정보 등을 포함할 수 있으나, 이에 한정되지 않는다. The
메모리(130)는 프로세서(150)의 처리 또는 제어를 위한 프로그램 등 산출장치(100) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 메모리(130)는 산출장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 산출장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 산출장치(100)의 기본적인 기능을 위하여 출고 당시부터 산출장치(100) 상에 존재할 수 있다. 응용 프로그램은, 메모리(130)에 저장되고, 프로세서(150)에 의하여 산출장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.The
디스플레이(140)는 산출장치(100)가 가중치 위험도 모델을 통해 산출한 피험자의 전립선암 위험도 점수를 디스플레이할 수 있다. 본 발명의 일 실시예에 따르면 디스플레이(140)는 입력부(120)를 통해 입력된 정보들로부터 산출된 전립선암 위험도 점수를 표시할 수 있고, 이를 통해 피험자의 생활 습관에 대한 가이드 라인 등을 디스플레이를 통해 출력할 수 있다. The
디스플레이(140)는 다양한 형태의 디스플레이 패널로 구현될 수 있다. 예로, 디스플레이 패널은 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes), AM-OLED(Active-Matrix Organic Light-Emitting Diode), LcoS(Liquid Crystal on Silicon) 또는 DLP(Digital Light Processing) 등과 같은 다양한 디스플레이 기술로 구현될 수 있다. 또한, 디스플레이(140)는 플렉서블 디스플레이(flexible display)의 형태로 디스플레이 장치(140)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다. The
디스플레이(140)는 레이어 구조의 터치 스크린으로 구현될 수 있다. 터치 스크린은 디스플레이 기능뿐만 아니라 터치 입력 위치, 터치된 면적뿐만 아니라 터치 입력 압력까지도 검출하는 기능을 가질 수 있고, 또한 실질적인 터치(real-touch)뿐만 아니라 근접 터치(proximity touch)도 검출하는 기능을 가질 수 있다.The
프로세서(150)는 산출장치(100)를 전반적으로 제어하기 위한 구성이다. 구체적으로, 프로세서(150)는 산출장치(100)의 메모리(130)에 저장된 각종 프로그램을 이용하여 산출장치(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(150)는 CPU, 램(RAM), 롬(ROM), 시스템 버스를 포함할 수 있다. 여기서, 롬은 시스템 부팅을 위한 명령어 세트가 저장되는 구성이고, CPU는 롬에 저장된 명령어에 따라 산출장치(100)의 메모리에 저장된 운영체제를 램에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU는 메모리(130)에 저장된 각종 애플리케이션을 램에 복사하고, 실행시켜 각종 동작을 수행할 수 있다. 이상에서는 프로세서(150)가 하나의 CPU만을 포함하는 것으로 설명하였지만, 구현 시에는 복수의 CPU(또는 DSP, SoC 등)으로 구현될 수 있다.The
본 발명의 일 실시 예에 따라, 프로세서(150)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(150)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.According to an embodiment of the present invention, the
본 발명의 일 실시예에 따르면 프로세서(150)는 인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154)를 포함할 수 있다. According to an embodiment of the present invention, the
인종 정보 획득부(151)는 입력된 피험자의 인종 정보를 획득하기 위한 구성이다. 이때, 메모리(130)에 저장된 데이터베이스에서 인종 정보를 획득할 수 있고, 통신부(110)를 통해 서버(200)로부터 인종 정보를 수신하여 획득할 수 있다.The race
가중치 위험도 모델 결정부(152)는 피험자의 인종 정보에 대응하는 가중치 위험도 모델을 결정하기 위한 구성이다. 유전위험점수 산출부(153)는 결정된 가중치 위험도 모델을 통해 유전위험점수를 산출하기 위한 구성이며, 위험도 검증부(154)는 산출된 위험도 점수를 검증하여 가중치 위험도 모델의 성능을 평가하기 위한 구성이다. The weighted risk
인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154) 각각은 컴퓨팅 장치 상에서 프로그램을 실행하기 위해 필요한 프로세서(150) 등에 의해 각각 구현될 수 있다. 이처럼 인종 정보 획득부(151), 가중치위험도 모델 결정부(152), 유전위험점수 산출부(153) 및 위험도 검증부(154)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다Each of the race
한편, 도 1 및 도 2에서는 서버(200)는 산출장치(100)와 별도의 구성으로 구현된 것을 도시하였으나, 본 발명의 일 실시예에 따르면 서버(200)는 산출장치(100)와 하나의 구성으로 구현될 수 있다. Meanwhile, in FIGS. 1 and 2 , it is illustrated that the
예를 들어, 서버(200)에서 실행되는 일련의 프로세스는 산출장치(100)에서 실행될 수 있다. 즉, 산출장치(100)는 병원(301), 사용자 단말기(302) 등으로부터 직접 데이터를 수신하고, 데이터를 바탕으로 피험자 정보에 대응하도록 가중치를 상이하게 적용하는 가중치 위험도 모델을 결정할 수 있다. For example, a series of processes executed in the
이하에서는 설명의 편의를 위해, 서버(200)에서 수행되는 모든 프로세스가 산출장치(100)에서 수행되는 실시예를 전제로 설명하기로 한다. Hereinafter, for convenience of description, an embodiment in which all processes performed in the
도 3은 본 발명의 일 실시예에 따른 유전위험 점수를 산출하는 방법을 설명하기 위한 흐름도이다. 3 is a flowchart illustrating a method of calculating a genetic risk score according to an embodiment of the present invention.
산출장치(100)는 피험자에 대한 유전 정보를 입력 받을 수 있다(S300). 이때, 유전 정보는 전립선암과 관련된 단일염기다형성(SNP) 및 SNP를 포함하는 연속적인 염기서열을 포함할 수 있다. 또한 산출장치(100)는 피험자에 대한 인종 정보를 획득할 수 있다(S310). 이때, 인종 정보는 사용자가 직접 산출장치(100)에 입력한 것일 수 있다. The
산출장치(100)는 인종 정보에 대응하는 가중치 위험도 모델을 결정할 수 있다(S320). 예를 들어, 획득한 피험자의 인종 정보가 유럽인인 경우, 산출장치(100)는 유럽인 전립선암 위험도와 관련성이 높은 특정 유전 변이에 가중치를 부여한 산출 모델을 결정할 수 있다. The
산출장치(100)는 인종 정보에 대응하는 가중치 모델을 통해서 유전위험 점수를 산출할 수 있다(S330). 본 발명의 일 실시예에 따르면, 산출장치(100)는 산출된 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하고, 상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 상기 유전위험 점수로 결정할 수 있다. The
도 4는 발견(discovery) GWAS(Genome Wide Association Study) 단계에서의 맨하탄 플롯(Manhattan plots)의 총괄자료를 도시한 도면이다. 4 is a diagram illustrating general data of Manhattan plots in the discovery GWAS (Genome Wide Association Study) stage.
GWAS는 일반적으로 Case (관심 형질을 가진 집단, 환자군) 와 Control (형질을 갖지 않는 집단, 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾기 위한 단계이다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정이다. 따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색, 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) 또는 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행된다.In general, GWAS compares the genetic information of two groups: Case (group with the trait of interest, patient group) and Control (group without the trait, normal group), and compares them to find a higher frequency, that is, association in the case. This is the step to find the gene that you have. In other words, GWAS is not a causal relationship, but a process of finding candidates for genes that appear by chance. Therefore, in general, research proceeds in the process of discovering candidate genes through GWAS, and then confirming (replication cohort) in more patient groups or confirming the results of biological verification in experiments, and finally revealing the gene-trait relationship.
연관불균형(LD, Linkage Disequilibrium)은 유전형의 재배열 과정에서 서로 거리가 가까운 유전자끼리 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, LD block을 형성하는 것이다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 비슷한 연관성의 강도 및 통계적 유의수준 (p값)을 보인다. 이는 도 4와 같이 GWAS에 흔히 이용되는 맨하탄 플롯(Manhattan plot)에서 시그널이 주위에서 모두 높게 나오는 이유가 된다. In linkage disequilibrium (LD), genotypes that are close to each other do not mix with each other in the process of rearrangement of genotypes, but move together in a mosaic pattern, forming an LD block. When association analysis is performed on positions included in the same LD block, similar association strength and statistical significance (p-value) are shown. This is the reason why the signal comes out high all around in the Manhattan plot commonly used in GWAS as shown in FIG. 4 .
도 5는 본 발명의 일 실시예에 따른 유전위험 점수 계산에 포함되는 후보 유전변이 목록을 도시한 도면이다. 5 is a diagram illustrating a list of candidate genetic mutations included in the genetic risk score calculation according to an embodiment of the present invention.
산출장치(100)는 전립선암과 관련된 주요 SNP 유전 변이 9개를 추출할 수 있다. 도 5를 참조하면, 주요 유전변이 SNP는 rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764인 것을 확인할 수 있다. The
본 발명의 일 실시예에 따른 가중치 위험도 모델은 각각의 SNP에 전립선암과 관련된 교차비(OR)을 기준으로 가중치를 부여할 수 있다. 예를 들면, SNP 중 rs1456315의 전립선암에 대한 교차비는 1.797이므로, rs1456315에 대하여 가중치(weight)로 log(OR)의 결과인 0.586을 부여할 수 있다. In the weighted risk model according to an embodiment of the present invention, weights may be assigned to each SNP based on an odds ratio (OR) associated with prostate cancer. For example, since the odds ratio of rs1456315 for prostate cancer among the SNPs is 1.797, 0.586, which is the result of log(OR), can be given as a weight to rs1456315.
상술한 가중치를 바탕으로 본 발명의 일 실시예에 따른 9개의 유전 변이를 고려한GRS(genetic risk score)는 아래의 식과 같을 수 있다. A genetic risk score (GRS) in consideration of nine genetic variations according to an embodiment of the present invention based on the above-described weights may be as follows.
wGRS(weighted genetic risk score) = weighted genetic risk score (wGRS) =
이때, X1 내지 X9 는 각각의 SNP(rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764)에 대한 위험 대립유전자의 개수에 대응한다. 구체적으로, 산출장치(100)는 유전 정보에 포함된 각각의 SNP에 대해 위험대립 유전자(risk allele)의 개수에 따라, 동형 비-위험성 대립유전자(homozygous of non-risk alleles)는 Xn = 0, 이형 대립유전자(heterozygous of alleles)는 Xn = 1, 동형 위험성 대립유전자(homozygous of the risk alleles)는 Xn = 2의 세부 점수를 부여할 수 있다. 즉, 가중치 위험도 모델은 각각의 대립유전자 수에 비례하는 가중치를 부여하도록 설정될 수 있다. In this case, X 1 to X 9 correspond to the number of risk alleles for each SNP (rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764). Specifically, the
다만 이는 일 실시예에 불과하고, 본 발명의 산출장치(100)는 다양한 유전 변이 개수로 GRS 식을 결정할 수 있다. 예를 들어, 상술한 가중치 모델은 9개의 유전 변이 모두에 대한 GRS인 반면, 산출장치(100)는 피험자의 정보에 따라 관련성이 높은 최적의 SNP의 조합에 따라 GRS 식을 결정할 수 있다. However, this is only an embodiment, and the calculating
예를 들어, 산출장치(100)는 피험자의 인종 정보에 대응하는 SNP 마커 세트만을 이용하여 가중치를 부여할 수 있고, 피험자의 생활 습관 정보에 대응하는 SNP 마커 세트만을 이용하여 가중치를 부여할 수 있다. For example, the
상술한 최적의 SNP 마커 세트는 데이터베이스를 이용하여 인공지능 모델을 통해 결정될 수 있으나, 이는 일 예에 불과하고 다양한 방법을 통해 결정된 것일 수 있다. The above-described optimal SNP marker set may be determined through an artificial intelligence model using a database, but this is only an example and may be determined through various methods.
도 6a 및 도 6b는 본 발명의 일 실시예에 따른 유전변이의 개수에 따른 예측력을 비교하기 위한 ROC(Receiver Operating Characteristic) 곡선을 도시한 도면이다. 6A and 6B are diagrams illustrating a Receiver Operating Characteristic (ROC) curve for comparing predictive power according to the number of genetic variations according to an embodiment of the present invention.
ROC (Receiver Operating Characteristics) 곡선은 예측 성능을 평가하기 위하여 시각화한 도표이다. 예측 성능은 곡선 아래의 면적 (Area under the curve, AUC) 으로 평가한다. ROC 는 각 평가 기준 (threshold) 에 따른 특이도 (specificity) 와 민감도 (sensitivity) 를 각각 X, Y 좌표로 나타내어 선으로 연결하여 나타낸다. ROC (Receiver Operating Characteristics) curve is a graph visualized to evaluate prediction performance. The prediction performance is evaluated by the area under the curve (AUC). ROC indicates specificity and sensitivity according to each evaluation criterion in X and Y coordinates, respectively, and is connected with a line.
이때, 특이도는 질병이 없는 환자를 질병이 없다고 예측할 비율, 민감도는 질병이 있을 때 있다고 예측할 확률로 정의되며, 두 지표는 서로 트레이드 오프(trade-off) 관계를 보인다. 곡선의 X, Y 좌표는 (0,0) 에서 (1,1) 까지의 값을 가지며, 예측력이 좋을수록 AUC 값은 1에 가까운 값을 가진다. In this case, specificity is defined as the ratio of predicting disease-free patients without disease, and sensitivity is defined as the probability of predicting the presence of disease when the disease is present. The two indicators show a trade-off relationship with each other. The X, Y coordinates of the curve have values from (0,0) to (1,1), and the better the predictive power, the closer the AUC value is to 1.
본 발명의 일 실시예에 따르면, 산출장치(100)는 ROC를 유전위험점수의 기준 (threshold) 에 따라 민감도와 특이도가 어떻게 달라지는지 시각화할 수 있고, 곡선의 AUC 를 산출하여 모형의 성능을 평가할 수 있다. 또한, 본 발명의 산출장치(100)는 통계적 유의 수준에 따라 포함된 유전 변이의 개수에 따라 전립선암 환자군과 정상군을 얼마나 잘 구분하는지를 각각 나타내어 비교할 수 있다.According to an embodiment of the present invention, the
도 6a를 참조하면 가중치 위험도 모델은 유전변이의 개수가 4개와 6개일 때 AUC가 가장 큰 값 (0.680) 을 가지면서 가장 높은 예측 성능을 보인다. 또한, 도 6b를 참조하면, 가중치 위험도 모델은 포함된 유전변이의 개수가 5개와 9개일 때 0.679 로 두번째로 높은 예측 성능을 보인다.Referring to FIG. 6A , the weighted risk model shows the highest predictive performance while having the largest AUC value (0.680) when the number of genetic variations is 4 and 6. Also, referring to FIG. 6B , the weighted risk model shows the second highest predictive performance at 0.679 when the number of included genetic variations is 5 and 9.
도 7a 내지 7g는 본 발명의 일 실시예에 따른 가중치를 부여한 모델(weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.7A to 7G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a weighted model according to an embodiment of the present invention.
도 7a는 본 발명의 일 실시예에 따른 p 값(통계적 유의성)에 따른 상위 SNP의 개수 별 GRS 및 AUC를 도시한 표이다. 7A is a table showing the GRS and AUC for each number of upper SNPs according to the p value (statistical significance) according to an embodiment of the present invention.
도 7b 내지 7g는 각각 SNP 마커가 4개인 경우부터 9개인 경우까지 순차적으로 case(관심 형질을 가진 집단, 환자군)과 control(관심 형질을 가지지 않은 집단, 정상군)에 대한 GRS 분포를 도시한 그래프이다. 7b to 7g are graphs showing the GRS distribution for cases (group with the trait of interest, patient group) and control (group without the trait of interest, normal group) sequentially from 4 to 9 SNP markers, respectively. am.
도 7a 내지 7g를 참조하면, 마커가 4개 및 6개인 경우 큰 GRS 값을 가지며, 높은 정확도를 가진다. Referring to FIGS. 7A to 7G , when there are 4 and 6 markers, the GRS value is large and the accuracy is high.
도 8a 내지 8g는 본 발명의 일 실시예에 따른 가중치를 부여하지 않은 모델(non-weighted model)의 유전변이 개수에 따른 GRS(Generic Risk Score) 분포를 설명하기 위한 도면이다.8A to 8G are diagrams for explaining the distribution of a Generic Risk Score (GRS) according to the number of genetic variations in a non-weighted model according to an embodiment of the present invention.
도 8a는 본 발명의 일 실시예에 따른 p 값(통계적 유의성)에 따른 상위 SNP의 개수 별 GRS 및 AUC를 도시한 표이다. 8A is a table showing GRS and AUC for each number of upper SNPs according to p-value (statistical significance) according to an embodiment of the present invention.
도 8b 내지 8g는 각각 SNP 마커가 4개인 경우부터 9개인 경우까지 순차적으로 case(관심 형질을 가진 집단, 환자군)과 control(관심 형질을 가지지 않은 집단, 정상군)에 대한 GRS 분포를 도시한 그래프이다. 8b to 8g are graphs showing the GRS distribution for cases (group with the trait of interest, patient group) and control (group without the trait of interest, normal group) sequentially from 4 to 9 SNP markers, respectively. am.
도 7a 내지 8g를 참조하면, 가중치를 부여한 위험도 모델의 경우에서 모든 마커 개수 유형에서 높은 GRS 값을 가지며, 높은 정확도를 가진다는 것을 확인할 수 있다. 7A to 8G , in the case of the weighted risk model, high in all marker count types It can be confirmed that it has a GRS value and has high accuracy.
도 9는 본 발명의 일 실시예에 따른 GRS 그룹 별 전립선암에 대한 교차비를 설명하기 위한 도면이다. 9 is a diagram for explaining the odds ratio for prostate cancer for each GRS group according to an embodiment of the present invention.
교차비는 입력변수(독립변수 또는 설명변수)가 종속변수에 대한 인과관계를 파악하기 위한 것으로, 입력변수와 종속변수 사이에서 계산된 값이 1을 넘으면 양(positive)의 연관성을 나타내고, 계산된 값이 1보다 낮으면 음(negative)의 연관성을 나타내는 지표이다.The odds ratio is to determine the causal relationship between the input variable (independent variable or explanatory variable) with respect to the dependent variable. If this value is lower than 1, it is an index indicating a negative correlation.
즉, 특정 대립유전자를 가지고 있는 사람들에서의 질병 여부에 대한 비(odds) 와 그 대립유전자가 없는 사람들이 가지는 질병에 대한 여부의 비 (ratio) 및 특정 대립유전자를 가진 그룹과 그렇지 않은 그룹의 질병의 위험도를 비교하기 위함이다. That is, the ratio of disease in people with a specific allele (odds) to the ratio of disease in people without the allele (ratio), and the disease between groups with and without a specific allele to compare the risk of
Odds Ratio = Odds Ratio =
도 9의 x축은 본 발명의 일 실시예에 따른 도 7b 내지 7g의 GRS 분포에서 GRS를 상위로부터 도수분포로 4분위 수(Quartile)로 그룹화하여 배열한 것이고, y축은 각각의 GRS 그룹 별 전립선암에 대한 교차비에 대한 것이다. The x-axis of FIG. 9 is an arrangement of GRS groups in quartiles from the upper to the frequency distribution in the GRS distribution of FIGS. 7B to 7G according to an embodiment of the present invention, and the y-axis is prostate cancer for each GRS group It is about the odds ratio for .
도 9를 참조하면, Q4(4분위 수의 가장 상위 그룹)은 GRS 범위가 0.26~0.45이며, 교차비(OR, Odds Ratio)가 6으로 전립선암에 대하여 큰 연관성을 가진다. 이외의 그룹으로 Q3는 GRS 범위 0.19~0.26 및 교차비 3.1, Q2는 GRS 범위 0.12~0.19 및 교차비 1.72, Q1은 GRS 범위 0-0.12를 보이며, 다른 그룹과의 연관성 비교를 위한 참조 그룹으로써 교차비 1을 보인다. Referring to FIG. 9 , Q4 (the highest group of quartiles) has a GRS range of 0.26 to 0.45, and an odds ratio (OR, Odds Ratio) of 6, which is highly correlated with prostate cancer. For the other groups, Q3 had a GRS range of 0.19 to 0.26 and an odds ratio of 3.1, Q2 had a GRS range of 0.12 to 0.19 with an odds ratio of 1.72, and Q1 had a GRS range of 0-0.12, and an odds ratio of 1 was used as a reference group for comparison with other groups. see.
도 10은 본 발명의 일 실시예에 따른 GRS 그룹 중 고위험군 그룹에서의 교차비를 설명하기 위한 도면이다. 도 10을 참조하면, Q4 그룹 안에서도 GRS cut-off가 0.35인 top 2.5% 인 경우의 교차비가 4.65로 가장 큰 것으로 나타난다. 10 is a diagram for explaining an odds ratio in a high-risk group among GRS groups according to an embodiment of the present invention. Referring to FIG. 10 , even in the Q4 group, when the GRS cut-off is 0.35 and the top 2.5%, the odds ratio is 4.65, which is the largest.
도 11은 본 발명의 일 실시예에 따른 상이한 인구집단의 가중위험점수 비교를 위해 포함되는 유전변이를 설명하기 위한 도면이다. 11 is a diagram for explaining genetic variations included for comparison of weighted risk scores of different population groups according to an embodiment of the present invention.
본 분석에서 포함된 SNP들과 가장 많은 수의 SNP (N=4) 가 겹치는 Xu, Jianfeng, et al. "Genome-wide association study in Chinese men identifies two new prostate cancer risk loci at 9q31. 2 and 19q13. 4." Nature genetics 44.11 (2012): 1231. 문헌의 결과 (Supplementary Table 2) 중 유럽인종의 OR 값을 참조한 것이다. Xu, Jianfeng, et al. “Genome-wide association study in Chinese men identifies two new prostate cancer risk loci at 9q31. 2 and 19q13. 4." Nature genetics 44.11 (2012): 1231. Reference is made to the OR values of Europeans among the results of the literature (Supplementary Table 2).
도 11을 참조하면, 특히 대립유전자(risk allele) A의 SNP rs4430796의 경우, 한국인(KOR)에 GRS는 0.292고 유럽인(EUR)에 대한 GRS는 0.086으로 크게 차이남을 알 수 있다.Referring to FIG. 11 , it can be seen that, in particular, in the case of SNP rs4430796 of the risk allele A, the GRS for Koreans (KOR) is 0.292 and the GRS for Europeans (EUR) is 0.086, which is significantly different.
예를 들어 산출장치(100)는 피험자의 인종 정보가 한국인으로 판단한 경우, rs16901979, rs1512268, rs4430796 및 rs2735839과 같은 SNP를 가중치 모델에 포함하여 위험도를 계산할 수 있다. For example, when it is determined that the subject's race information is Korean, the
도 12a 및 12b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 GRS 분포를 도시한 도면이다. 12A and 12B are diagrams illustrating a GRS distribution when a weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.
도 12a는 유럽인 데이터에서 도출된 가중치를 적용하였을 때의 GRS 분포를 나타내고, 도 12b는 한국인 데이터에서 도출된 가중치를 적용하였을 때의 GRS 분포를 나타낸다. 12A shows the GRS distribution when weights derived from European data are applied, and FIG. 12B shows the GRS distribution when weights derived from Korean data are applied.
도 12a를 참조하면, rs1512268, rs4430796 및 rs2735839과 같은 SNP를 포함한 가중치 모델에 유럽인 데이터가 적용된 결과 control과 case 모두 낮은 GRS를 보인다. 반면, 한국인 데이터가 적용되면 도 12b에서와 같이 상대적으로 높은 GRS 분포를 보인다. Referring to Figure 12a, as a result of applying European data to a weight model including SNPs such as rs1512268, rs4430796 and rs2735839, both control and case show low GRS. On the other hand, when Korean data is applied, a relatively high GRS distribution is shown as shown in FIG. 12B.
도 13a 및 13b는 본 발명의 일 실시예에 따른 가중치 위험도 모델을 유럽인 데이터 및 한국인 데이터에 적용하였을 때의 ROC 곡선을 도시한 도면이다. 13A and 13B are diagrams illustrating ROC curves when the weighted risk model according to an embodiment of the present invention is applied to European data and Korean data.
구체적으로 도 13a는 유럽인 데이터에서 도출된 가중치를 적용하였을 때의 ROC를 나타내고, 도 13b는 한국인 데이터에서 도출된 가중치를 적용하였을 때의 ROC를 나타낸다. Specifically, FIG. 13A shows the ROC when the weights derived from the European data are applied, and FIG. 13B shows the ROC when the weights derived from the Korean data are applied.
도 12a 및 12b와 마찬가지로, 한국인 데이터의 경우 AUC가 0.604로 유럽인 데이터의 AUC 0.591에 비해 더 높은 성능을 보인다. 즉, 인종 별로 상이한 가중치 모델을 사용하여야 할 필요성이 있음을 알 수 있다.12a and 12b, the Korean data has an AUC of 0.604, which is higher than that of the European data, AUC of 0.591. That is, it can be seen that there is a need to use different weighting models for each race.
이에, 본 발명의 산출장치(100)는 인종 별 가중치 위험도 모델을 상이하게 변경함으로써, 높은 정확도의 위험점수를 산출할 수 있다. Accordingly, the
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. Meanwhile, the above-described methods according to various embodiments of the present disclosure may be implemented in the form of an application that can be installed in an existing electronic device.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. In addition, the above-described methods according to various embodiments of the present disclosure may be implemented only by software upgrade or hardware upgrade of an existing electronic device.
또한, 상술한 본 발명의 다양한 실시예들은 전자 장치에 구비된 임베디드 서버, 또는 전자장치의 외부 서버를 통해 수행되는 것도 가능하다. In addition, various embodiments of the present invention described above may be performed through an embedded server provided in the electronic device or an external server of the electronic device.
한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록매체(computer readable recording medium)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다. On the other hand, according to an embodiment of the present invention, the various embodiments described above are a recording medium (readable by a computer or a similar device) using software, hardware, or a combination thereof. It may be implemented as software including instructions stored in a computer readable recording medium). In some cases, the embodiments described herein may be implemented by the processor itself. According to the software implementation, embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
한편, 컴퓨터(computer) 또는 이와 유사한 장치는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작할 수 있는 장치로서, 개시된 실시 예들에 따른 장치를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. Meanwhile, a computer or a similar device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include the device according to the disclosed embodiments. When the instruction is executed by the processor, the processor may directly or use other components under the control of the processor to perform a function corresponding to the instruction. Instructions may include code generated or executed by a compiler or interpreter.
기기로 읽을 수 있는 기록매체는, 비일시적 기록매체(non-transitory computer readable recording medium)의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다. 이때 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.The device-readable recording medium may be provided in the form of a non-transitory computer readable recording medium. Here, 'non-transitory' means that the storage medium does not include a signal and is tangible, and does not distinguish that data is semi-permanently or temporarily stored in the storage medium. In this case, the non-transitory computer-readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device. Specific examples of the non-transitory computer-readable medium may include a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
이와 같이 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의하여 정해져야 할 것이다.As such, the present invention has been described with reference to the embodiments shown in the drawings, which are merely exemplary, and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. . Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.
100: 위험점수 산출장치
110: 통신부
120: 입력부
130: 메모리
140: 디스플레이
150: 프로세서
151: 인종 정보 획득부
152: 가중치 위험도 모델 결정부
153: 유전위험 점수 산출부
154: 위험도 검증부
200: 서버
301: 사용자 단말기
302: 기관 100: risk score calculation device
110: communication department
120: input unit
130: memory
140: display
150: processor
151: Race Information Acquisition Department
152: weighted risk model determining unit
153: Genetic risk score calculator
154: risk verification unit
200: server
301: user terminal
302: agency
Claims (6)
상기 입력부에 의해, 인종 정보를 포함하는 피험자 정보 및 유전 정보를 입력받는 단계;
상기 프로세서에 의해, 상기 유전 정보에 포함된 SNP(단일염기다형성)를 이용하여 상기 인종 정보에 대응되는 제1 SNP 마커 세트를 결정하는 단계;
상기 프로세서에 의해, 상기 제1 SNP 마커 세트에 포함된 SNP 마커 각각에 대하여 상기 인종 정보에 대응되는 제1 가중치를 결정하고, 상기 제1 가중치를 기초로 제1 가중치 위험도 모델을 결정하는 단계; 및
상기 프로세서에 의해, 상기 제1 가중치 위험도 모델을 이용하여 제1 유전위험 점수를 산출하는 단계;를 포함하고,
상기 제1 가중치 위험도 모델을 결정하는 단계는 상기 인종 정보가 한국인인 경우, 상기 제1 SNP 마커 세트를 rs16901979 마커, rs1512268 마커, rs4430796 마커 및 rs2735839 마커로 결정하고, 상기 제1 가중치 위험도 모델을
로 결정하는 것이고,
상기 W1은 rs16901979 마커에 대응하는 가중치로 0.586이고, 상기 W2은 rs1512268 마커에 대응하는 가중치로 0.313이고, 상기 W3은 rs4430796 마커에 대응하는 가중치로 0.349이고, 상기 W4는 rs2735839 마커에 대응하는 가중치로 0.281이고,
상기 X1은 상기 rs16901979 마커에 대응하는 위험대립 유전자의 수이고, 상기 X2는 상기 rs1512268 마커에 대응하는 위험대립 유전자의 수이고, 상기 X3는 상기 rs4430796 마커에 대응하는 위험대립 유전자의 수이고, 상기 X4는 상기 rs2735839 마커에 대응하는 위험대립 유전자의 수이고, 상기 X1 내지 X4는 0 내지 2 중 하나인 위험도 산출방법.In the risk score calculation method of the prostate cancer risk calculation device including an input unit and a processor,
receiving, by the input unit, subject information including race information and genetic information;
determining, by the processor, a first SNP marker set corresponding to the race information using SNP (single nucleotide polymorphism) included in the genetic information;
determining, by the processor, a first weight corresponding to the race information for each SNP marker included in the first SNP marker set, and determining a first weight risk model based on the first weight; and
Calculating, by the processor, a first genetic risk score using the first weighted risk model;
In the determining of the first weighted risk model, when the race information is Korean, the first SNP marker set is determined as rs16901979 marker, rs1512268 marker, rs4430796 marker, and rs2735839 marker, and the first weighted risk model is
is to be determined by
The W1 is 0.586 with a weight corresponding to the rs16901979 marker, the W2 is 0.313 with a weight corresponding to the rs1512268 marker, the W3 is 0.349 with a weight corresponding to the rs4430796 marker, and the W4 is 0.281 with a weight corresponding to the rs2735839 marker. ego,
wherein X1 is the number of risk alleles corresponding to the rs16901979 marker, X2 is the number of risk alleles corresponding to the rs1512268 marker, X3 is the number of risk alleles corresponding to the rs4430796 marker, and X4 is the number of risk alleles corresponding to the rs2735839 marker, and X1 to X4 are one of 0 to 2.
상기 위험도 산출 방법은 상기 산출된 제1 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하는 단계;를 더 포함하고,
상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 각각 상기 제1 유전위험 점수로 결정하는 위험도 산출방법.The method of claim 1,
The risk calculation method further comprises the step of verifying the calculated first genetic risk score through ROC (Receiver Operating Characteristics);
As a result of the verification, a risk calculation method for determining a genetic risk score exceeding a preset Area under the curve (AUC) value as the first genetic risk score, respectively.
상기 전립선 암 위험도 산출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.3. The method of any one of claims 1 and 2,
A computer-readable recording medium recording a program for executing the method for calculating the risk of prostate cancer.
상기 입력부가 인종 정보를 포함하는 피험자 정보 및 유전 정보를 입력받고,
상기 프로세서가 상기 유전 정보에 포함된 SNP(단일염기다형성)를 이용하여 상기 인종 정보에 대응되는 제1 SNP 마커 세트를 결정하고,
상기 제1 SNP 마커 세트에 포함된 SNP 마커 각각에 대하여 상기 인종 정보에 대응되는 제1 가중치를 결정하고, 상기 제1 가중치를 기초로 제1 가중치 위험도 모델을 결정하며,
상기 제1 가중치 위험도 모델을 이용하여 제1 유전위험 점수를 산출하고,
상기 제1 SNP 마커 세트는 상기 인종 정보가 한국인인 경우, 상기 제1 SNP 마커 세트를 rs1456315 마커, rs7837688 마커, rs1512268 마커 및 rs7501939 마커를 포함하고,
상기 제1 가중치 위험도 모델은
를 이용하여 결정되며,
상기 W1은 rs1456315 마커에 대응하는 가중치로 0.586이고, 상기 W2은 rs7837688 마커에 대응하는 가중치로 0.546이고, 상기 W3은 rs1512268 마커에 대응하는 가중치로 0.313이고, 상기 W4는 rs7501939 마커에 대응하는 가중치로 0.349이고,
상기 X1은 상기 rs1456315 마커에 대응하는 위험대립 유전자의 수이고, 상기 X2는 상기 rs7837688 마커에 대응하는 위험대립 유전자의 수이고, 상기 X3는 상기 rs1512268 마커에 대응하는 위험대립 유전자의 수이고, 상기 X4는 상기 rs7501939 마커에 대응하는 위험대립 유전자의 수이고, 상기 X1 내지 X4는 0 내지 2 중 하나인 전립선 암 위험도 산출장치.an input unit and a processor;
The input unit receives subject information and genetic information including race information,
The processor determines a first SNP marker set corresponding to the race information by using the SNP (single nucleotide polymorphism) included in the genetic information,
determining a first weight corresponding to the race information for each SNP marker included in the first SNP marker set, and determining a first weight risk model based on the first weight;
calculating a first genetic risk score using the first weighted risk model;
The first SNP marker set includes rs1456315 marker, rs7837688 marker, rs1512268 marker, and rs7501939 marker for the first SNP marker set when the race information is Korean;
The first weighted risk model is
is determined using
W1 is 0.586 with a weight corresponding to marker rs1456315, W2 is 0.546 with weight corresponding to marker rs7837688, W3 is 0.313 with weight corresponding to marker rs1512268, W4 is 0.349 with weight corresponding to marker rs7501939 ego,
wherein X1 is the number of risk alleles corresponding to the rs1456315 marker, X2 is the number of risk alleles corresponding to the rs7837688 marker, X3 is the number of risk alleles corresponding to the rs1512268 marker, and X4 is the number of risk alleles corresponding to the rs7501939 marker, and X1 to X4 are one of 0 to 2 prostate cancer risk calculating device.
상기 프로세서가
상기 산출된 제1 유전위험 점수를 ROC(Receiver Operating Characteristics)를 통해 검증하고,
상기 검증 결과, 기설정된 AUC(Area under the curve) 값을 초과하는 유전위험 점수를 각각 상기 제1 유전위험 점수로 결정하는, 전립선 암 위험도 산출장치.5. The method of claim 4,
the processor
Verifying the calculated first genetic risk score through ROC (Receiver Operating Characteristics),
As a result of the verification, a genetic risk score exceeding a preset Area under the curve (AUC) value is determined as the first genetic risk score, respectively.
상기 제1 SNP 마커 세트는
상기 인종 정보가 유럽인인 경우, 유럽인 전립선암 위험도와 관련성이 높은 rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764 중 적어도 2개 이상을 포함하는, 전립선 암 위험도 산출장치.5. The method of claim 4,
The first SNP marker set is
If the race information is European, rs1456315, rs7837688, rs1512268, rs7501939, rs2735839, rs339331, rs2016588, rs11147922, rs57006764, which are highly related to European prostate cancer risk, including at least two or more, Prostate cancer risk calculator.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190126464A KR102371654B1 (en) | 2019-02-28 | 2019-10-11 | Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190024387A KR102068666B1 (en) | 2019-02-28 | 2019-02-28 | Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof |
KR1020190126464A KR102371654B1 (en) | 2019-02-28 | 2019-10-11 | Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190024387A Division KR102068666B1 (en) | 2019-02-28 | 2019-02-28 | Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200105373A KR20200105373A (en) | 2020-09-07 |
KR102371654B1 true KR102371654B1 (en) | 2022-03-08 |
Family
ID=80812174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190126464A KR102371654B1 (en) | 2019-02-28 | 2019-10-11 | Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102371654B1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010520745A (en) | 2007-02-07 | 2010-06-17 | デコード・ジェネティクス・イーエイチエフ | Genetic variants that contribute to prostate cancer risk |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2667326T3 (en) * | 2012-11-20 | 2018-05-10 | Phadia Ab | Procedure to indicate the presence or absence of aggressive prostate cancer |
KR101944927B1 (en) * | 2016-03-24 | 2019-02-07 | 서울대학교산학협력단 | Single Nucleotide Polymorphisms Associated With Korean Prostate Cancer And Development Of Genetic Risk Score Using Thereof |
KR101991007B1 (en) * | 2016-05-27 | 2019-06-20 | (주)메디젠휴먼케어 | A system and apparatus for disease-related genomic analysis using SNP |
-
2019
- 2019-10-11 KR KR1020190126464A patent/KR102371654B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010520745A (en) | 2007-02-07 | 2010-06-17 | デコード・ジェネティクス・イーエイチエフ | Genetic variants that contribute to prostate cancer risk |
Also Published As
Publication number | Publication date |
---|---|
KR20200105373A (en) | 2020-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170308643A1 (en) | Dynamic genome reference generation for improved ngs accuracy and reproducibility | |
US20160342737A1 (en) | Methods for the graphical representation of genomic sequence data | |
CN110993104B (en) | Tumor patient lifetime prediction system | |
US20130332083A1 (en) | Gene Marker Sets And Methods For Classification Of Cancer Patients | |
El-Solh et al. | Comparison of in-hospital mortality risk prediction models from COVID-19 | |
Weiss et al. | Incorporating biologic factors into the american joint committee on cancer breast cancer staging system: review of the supporting evidence | |
US20200251193A1 (en) | System and method for integrating genotypic information and phenotypic measurements for precision health assessments | |
JP2021514075A (en) | Systems and methods for reducing correlation error events in variant calling | |
US11126695B2 (en) | Polymer design device, polymer design method, and non-transitory recording medium | |
CN112735592A (en) | Construction method and application method of lung cancer prognosis model and electronic equipment | |
Orliac et al. | Improving GWAS discovery and genomic prediction accuracy in biobank data | |
KR102371655B1 (en) | Device, Method of Calculating Prostate Cancer Genetic Risk Score Based on Individual Weights for each Genetic Variation and Recording Medium thereof | |
Wang et al. | Performance of polygenic risk scores for cancer prediction in a racially diverse academic biobank | |
Phan et al. | omniBiomarker: a web-based application for knowledge-driven biomarker identification | |
Zhan et al. | Panel of seven long noncoding RNA as a candidate prognostic biomarker for ovarian cancer | |
KR102371654B1 (en) | Device, Calculating Method of Calculating Ethnic-specific Prostate Cancer Genetic Risk Score Considering the Predictive Power According to the Number of Genetic Variations and Recording Medium thereof | |
Augugliaro et al. | dglars: an R package to estimate sparse generalized linear models | |
KR102068666B1 (en) | Ethnic-specific Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof | |
Szabo et al. | Admission lactate level and the GRACE 2.0 score are independent and additive predictors of 30-day mortality of STEMI patients treated with primary PCI—Results of a real-world registry | |
KR102068667B1 (en) | Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof | |
Dessie et al. | A nine-gene signature identification and prognostic risk prediction for patients with lung adenocarcinoma using novel machine learning approach | |
KR20210046221A (en) | Method And Device Of Screening Prostate Cancer Using Blood Prostate Specific Antigen And Genetic Marker | |
KR20210046220A (en) | Reagent and Kit for the Detection of Prostate Cancer Gene Biomarkers | |
KR20220097276A (en) | Prostate Cancer Genetic Risk Score Calculating Device, Calculating Method and Recording Medium thereof | |
KR102102848B1 (en) | Prostate cancer risk score calculator, and method of the above calculator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |