KR101603182B1 - Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples - Google Patents

Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples Download PDF

Info

Publication number
KR101603182B1
KR101603182B1 KR1020150055163A KR20150055163A KR101603182B1 KR 101603182 B1 KR101603182 B1 KR 101603182B1 KR 1020150055163 A KR1020150055163 A KR 1020150055163A KR 20150055163 A KR20150055163 A KR 20150055163A KR 101603182 B1 KR101603182 B1 KR 101603182B1
Authority
KR
South Korea
Prior art keywords
str
allele
alleles
mixed
value
Prior art date
Application number
KR1020150055163A
Other languages
Korean (ko)
Inventor
박경찬
김세용
우광만
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020150055163A priority Critical patent/KR101603182B1/en
Application granted granted Critical
Publication of KR101603182B1 publication Critical patent/KR101603182B1/en

Links

Images

Classifications

    • G06F19/18
    • G06F19/26
    • G06F19/28

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an algorithm for analyzing genome sequence data of mixed samples for personal identification in mixed DNA samples and, concretely, which obtains estimation rate of each of the mixed samples from reading values of various STRs and Y-STRs taken from NGS data, and profiles each of the STRs with high correctness based on the rate even in the case of 2 allele STRs, thereby enabling a user to easily identify the mixed DNA samples for two persons.

Description

혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 알고리즘{Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples}Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples [

본 발명은 2명의 DNA 혼재 시료로부터 각 개인식별을 위해 구성된 엑셀 기반(Excel-based) 차세대 염기서열 데이터 분석 프로그램에 관한 것이다.
The present invention relates to an Excel-based next generation sequencing data analysis program configured for individual identification from two DNA hybridization samples.

요즘 과학수사에서 유전자분석의 중요성이 증대되고 있고 많은 연구들이 현재도 진행되고 있다. 이제는 범죄수사에 있어서 유전자분석을 빼면 이야기가 안 될 정도다. 실제로 지난 10여 년 동안 가히 혁명적이라 할 정도로 많은 발전을 했으며 앞으로의 발전 속도는 지난 10여 년보다 더 빠를 것으로 보인다. 이제 유전자분석은 그 발전과 더불어 응용 분야도 확대되어 다양한 분야에서 응용되고 있다. 보통 범죄수사에서 말하는 유전자분석의 활용은 범죄 현장에서 발견되는 혈액, 혈흔, 모발, 침, 땀 등의 여러 가지 증거물에서 검출된 유전자형과 용의자의 유전자형을 비교하여 범인을 확인하는 과정을 말하는데 이외에도 매우 다양한 분야에서 여러 가지 목적으로 활용되고 있다.
Nowadays, the importance of gene analysis in scientific investigation is increasing, and many studies are still going on. Now, with the exception of genetic analysis in crime investigations, it is hard to tell. Indeed, over the past decade, it has evolved so much that it is revolutionary, and the pace of development is likely to be faster than in the past decade. Now, with the development of genetic analysis, the application field is expanded and applied in various fields. Genetic analysis used in criminal investigation usually refers to the process of identifying a criminal by comparing genotypes detected in various kinds of evidence such as blood, blood, blood, saliva, and sweat found in a crime scene and genotypes of suspects. It is used for various purposes in the field.

사람의 몸은 일반적으로 수십조 개의 세포로 이루어져 있으며 그 세포 하나하나는 약 60억 개의 유전자 정보를 가지고 있다. 범죄수사에서의 유전자분석은, 사람 몸의 모든 세포는 같은 유전자를 가지고 있고 이들은 부모로부터 한 가닥씩 유전되며 유전된 것은 평생 유지된다는 사실에서 출발한다. 사람의 유전자 중 약 5% 정도만이 생명을 유지하는데 기능하는 유전자이며, 나머지 유전자가 범죄수사에서 이용되는 부위다. 유전자분석은 보통 핵 내에 있는 핵 DNA와 핵 밖에 있는 미토콘드리아 DNA를 분석하는 것이다. 핵 DNA는 약 60억 개의 유전자정보를 가지고 있어서 과학수사에서의 개인식별을 위한 다양한 분석을 가능하게 한다. 최근 가장 많이 사용되는 방법은 STR 분석 방법이다.
A human body usually consists of tens of thousands of cells, each of which has about 6 billion genes. Genetic analysis in criminal investigations begins with the fact that every cell in a human body has the same genes, which are inherited one by one from their parents and that their inheritance is lifelong. Only about 5% of human genes function to maintain life, and the rest of the genes are used in criminal investigations. Genetic analysis usually involves analyzing nuclear DNA in the nucleus and mitochondrial DNA outside the nucleus. Nuclear DNA has about 6 billion genetic information, enabling various analyzes for individual identification in scientific investigation. The most commonly used method is STR analysis.

STR 좌위는 상염색체 상에 존재하며 2 내지 4개의 염기가 반복되는 특성을 갖는다. 이 부위는 다형성을 갖기 때문에 개인식별에 이용될 수 있다. 현장에서 수거된 각종 증거물과 용의자에게서 채취한 시료를 가지고 분석할 때, 한 개의 좌위만 분석하면 같은 유전자형을 가질 확률이 많으나 여러 개의 좌위를 분석하면 개인식별 확률이 점점 높아지고 10개 이상의 좌위를 분석하면 전 세계 인구를 커버할 수 있는 확률이 된다. 즉, 어떤 사건 현장에서 채취한 증거물에서 유전자형이 검출되고 용의자 중 그와 일치하는 사람이 발견되었다고 가정할 때, 만약 한 좌위의 유전자만 분석하면 그 좌위가 나타나는 빈도만큼 집단 내에서 그와 같은 유전자형을 갖는 사람이 여럿 나올 수 있으나 분석 좌위를 늘려 가면 그와 모두 같은 유전자형을 갖는 사람은 단 한 사람이라는 확률에 도달하게 된다.
The STR locus is present on the autosomal chromosome and has two to four base repeats. This site is polymorphic and can be used for individual identification. When analyzing the samples collected from the field and the samples collected from the suspects, analyzing only one locus has a high probability of having the same genotype. However, when analyzing several loci, the probability of individual identification becomes higher and more than 10 loci are analyzed It is a chance to cover the world population. In other words, assuming that the genotype is detected in the evidence collected at an incident site, and a person who matches the suspect is found, if only one locus gene is analyzed, However, if you increase the number of analyst positions, you will reach the probability that only one person has the same genotype.

다시 말해, 그러한 유전자형을 갖는 사람이 몇억 명 중에 한 명 식으로 계산이 나오게 되어 우연히 일치할 확률이 거의 없게 되는 것이다. 또한, STR 분석은 기존의 제한효소길이다형성(RFLP), VNTR 등을 분석하는 방법으로는 검출이 불가능했던, 적은 양의 시료나 부패하여 훼손된 시료도 분석이 가능하다. STR 분석은 상염색체상에 존재하는 유전자부위뿐만 아니라 성염색체(X염색체 또는 Y염색체)에도 존재한다(X-STR 또는 Y-STR). Y-STR의 경우는 아버지에게서 아들에게만 유전되므로, 부자관계를 증명하거나 형제만 있는 경우 친형제 관계 여부를 증명하는 데 사용된다. 또한, 성범죄에서 남성의 유전자형만 검출해야 하는 경우 등에 사용할 수 있다[네이버 지식백과] STR 분석 (DNA분석과 과학수사, 2008.2.25, ㈜살림출판사).In other words, a person with such a genotype will be counted out of one of the hundreds of millions, so there is little chance of coincidence. In addition, STR analysis can be used to analyze small amounts of samples or corrupted and damaged samples that could not be detected by conventional methods such as restriction enzyme polymorphism (RFLP) and VNTR analysis. STR analysis is also present on sex chromosomes (X or Y-STR) as well as on gene sites present on autosomes (X-STR or Y-STR). In the case of Y-STR, it is inherited only from the father to the son, so it is used to prove a rich relationship or to prove the relationship of a brother if there is only a sibling. In addition, it can be used for cases where only male genotypes should be detected in sexual offenses. [STRUCTURE STR analysis (DNA analysis and scientific investigation, Feb. 25, 2008, SALIM Publishing Co.).

아울러, 기존 혼재된 DNA 샘플에서 차세대 유전체 해독기술(Next generation sequencing; NGS) sequencing 데이타 분석을 통해 정량값이 이론적 값과 얼마나 일치하는지에 관한 보고는 있으나, 높은 정확도로 각 STR을 프로파일링 하여 개인식별에 이용하는 데이터 분석법에 대해서는 알려진 바 없다.
In addition, although there is a report on how quantitative values match with theoretical values through sequencing data analysis of next generation sequencing (NGS) in existing DNA samples, it is possible to profile each STR with high accuracy, There is no known data analysis method.

이에 본 발명자들은 높은 정확도로 각 STR을 프로파일링 하여 개인식별에 이용하는 데이터 분석법을 개발하기 위해 노력한 결과, DNA 혼재 시료에서 가능한 특정 STR(Short Tandom Repeat) allele 조합의 타입(특정 STR에 대해 3 또는 4개의 allele이 검출되는 경우) 및 Y-STR 구성에 기초, NGS데이터로부터 구한 다양한 STR 및 Y-STR들의 리딩값들로부터, 각 혼재 시료의 추정비율을 구하고, 이로부터 2 allele STR의 경우에도 상기 비율에 근거, 높은 정확도로 각 STR을 프로파일링 하여 개인식별에 이용하는 데이터 분석방법을 개발함으로써, 본 발명을 완성하였다.As a result of efforts to develop a data analysis method for individual identification by profiling each STR with high accuracy, the present inventors have found that the type of a specific STR (Short Tandom Repeat) allele combination possible in DNA mixed samples (3 or 4 STR) and the readings of various STR and Y-STRs obtained from the NGS data on the basis of the Y-STR configuration, the estimated ratio of each mixed sample is obtained, The present invention has been completed by developing a data analysis method for profiling each STR with high accuracy and using it for individual identification.

본 발명은 2명의 DNA 혼재 시료로부터 각 개인식별을 위해 구성된 엑셀 기반(Excel-based) 차세대 염기서열 데이터 분석 방법, 상기 분석을 위한 프로그램, 및 상기 프로그램을 포함하는 분석 장치를 제공하기 위한 것이다.
The present invention is to provide an Excel-based next generation nucleotide sequence data analysis method configured for individual identification from two DNA hybridization samples, a program for the analysis, and an analysis apparatus including the program.

본 발명은 DNA 혼재 시료에서 가능한 특정 STR(Short Tandom Repeat) allele 조합의 타입(특정 STR에 대해 3 또는 4개의 allele이 검출되는 경우) 및 Y-STR 구성에 기초, NGS 데이터로부터 구한 다양한 STR 및 Y-STR들의 리딩값들로부터, 각 혼재 시료의 추정비율을 구하고, 이로부터 2 allele STR의 경우에도 상기 비율에 근거, 높은 정확도로 각 STR을 프로파일링 하여 개인식별에 이용하는 데이터 분석방법에 관한 것이다.
The present invention is based on the type of a particular STR (Short Tandom Repeat) allele combination possible in a DNA hybridization sample (when three or four alleles are detected for a particular STR), and the STR and Y -STRs from the estimated values of the mixed samples, and then from each of the 2-allele STRs, the individual STRs are profiled with high accuracy based on the ratio and used for individual identification.

본 발명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 알고리즘은 NGS 데이터로부터 구한 다양한 STR 및 Y-STR들의 리딩값들로부터, 각 혼재 시료의 추정비율을 구하고, 이로부터 2 allele STR의 경우에도 상기 비율에 근거, 높은 정확도로 각 STR을 프로파일링 하여 2명의 DNA 혼재 시료를 식별하는데 용이하게 이용될 수 있다.
The algorithm for analyzing the mixed sample base sequence data for individual identification in the hybrid DNA sample of the present invention is to calculate the estimated ratio of each mixed sample from the read values of various STR and Y-STRs obtained from the NGS data, Can also be easily used to identify two DNA mixed samples by profiling each STR with high accuracy based on the above ratios.

도 1은, 엑셀 기반(Excel-based)의 분석 프로그램 'Mix Analyzer_Ver.1'의 메인 화면을 나타낸 도이다.
도 2는, 'Mix ratio' 워크시트 메인 화면 및 각 패널 번호를 표시한 도이다.
도 3은, '2 allele STR' 워크시트 화면 및 각 패널 번호를 표시한 도이다.
도 4는, 두 사람 DNA 샘플 혼재 시 (A) 구성 가능한 allele의 조합, 및 (B) 'Theoretical graph' 워크시트 화면을 나타낸 도이다.
도 5는, 'Rank' 워크시트 화면 및 각 패널 번호를 표시한 도이다.
도 6은, 'Y-STR Deconvolution' 워크시트 화면 및 각 패널 번호를 표시한 도이다.
1 is a view showing a main screen of an Excel-based analysis program 'Mix Analyzer Ver.1'.
FIG. 2 is a diagram showing a main screen of the 'Mix ratio' worksheet and each panel number.
FIG. 3 is a diagram showing a worksheet screen of '2 allele STR' and each panel number.
Fig. 4 shows (A) a combination of configurable alleles and (B) a 'Theoretical graph' worksheet screen when two human DNA samples are mixed.
5 is a diagram showing a 'Rank' worksheet screen and each panel number.
FIG. 6 is a diagram showing a 'Y-STR Deconvolution' worksheet screen and each panel number.

이하, 본 발명을 구체적으로 설명한다.
Hereinafter, the present invention will be described in detail.

본 발명은 The present invention

1) 데이터 입력 단계로서, DNA 혼재 시료로부터 차세대 유전체 해독기술(Next generation sequencing; NGS) 데이터를 alignment 프로그램으로 분석하여 혼재된 각 짧은연쇄반복(short tandem repeat; STR), 및 Y-STR(Y Chromosome STR), AMELX(X 염색체를 특정 짓는 allele) 및 AMELY(Y 염색체를 특정 짓는 allele) 값을 구하여, 상기 STR 이름, 및 각 STR 들의 reading 된 수의 값을 allele size 값과 함께 INPUT 패널에 입력하는 단계;1) As a data input step, a next generation sequencing (NGS) data is analyzed from a mixed DNA sample using an alignment program, and each mixed short tandem repeat (STR) and Y-STR (Y Chromosome STR), AMELX (allele specifying X chromosome) and AMELY (allele specifying Y chromosome), and inputs the value of the STR name and the number of readings of each STR to the INPUT panel together with the allele size value step;

2) STR 그래프 작성 단계로서, 각 STR들의 allele 값을 각 STR 들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시하는 단계;2) generating an STR graph by dividing the allele value of each STR by the sum of the allele values of the STRs, and displaying the value as a relative ratio value;

3) 혼재 비율 계산 단계로서, 단계 1)에서 입력된 혼재된 allele가 4개인 것을 선별하고, 숫자가 큰 allele 2개와 작은 allele 2개의 평균값을 구한 후, 혼재된 allele 3개인 STR 들에서의 평균 혼재 비를 구해서, 혼재된 allele가 4개인 STR로부터 구한 혼재 비와 3개인 STR로부터 구한 혼재 비의 평균을 구한 후, 혼재된 allele가 2개인 Y-STR로부터 구한 혼재 비와 평균을 구하는 단계;3) As a step of calculating the mixed ratio, the four mixed alleles entered in step 1) were selected, and the average value of two large alleles and two small alleles were obtained, and then the average mixed number of three mixed alleles And averaging the mixed ratios obtained from STR with four mixed alleles and STR with three mixed alleles, and then calculating the mixed ratios and averages obtained from Y-STR with two mixed alleles;

4) 2 allele STRs 분석 단계로서, 각 STR 별 입력된 2개의 allele size로 나타나는 STR allele 값을 큰 것과 작은 것으로 구분하여 sequenceing reading 수가 큰 순으로 재배치한 후, 샘플별 총 sequencing reading 수의 값을 구성형태별로 구한 다음, 상기 단계 2)에서 구한 혼재 비율 값과의 차이를 +/- 30% 범위 내의 포함되는 것을 만족하는 구성형태를 결정하는 단계;4) 2 allele STRs analysis step is to rearrange the STR allele values of two allele sizes entered for each STR into large and small ones, Determining a configuration type satisfying that the difference from the mixed ratio value obtained in the step 2) is within +/- 30%;

5) 이론상 그래프 작성 단계로서, 두 사람 DNA 샘플이 혼재되어 있을 경우, 가능한 allele들 구성을 구성형태 1 내지 9로 할당하고, 각 구성형태의 allele 사이즈별 allele 구성 형태와 각 allele들의 상대적 높이를 수치화하여 그래프로 표시하는 단계;5) Theoretically, when two DNA samples are mixed, the possible allele structure is assigned to the configuration types 1 to 9 and the relative height of each allele is quantified And displaying the graph in a graph;

6) 혼재 allele 구성형태 결정 단계로서, 혼재 allele들의 reading 값들을 크기 순으로 재배치한 후, 각 STR 내 혼재 allele 들의 구성비 패턴과 상기 4)의 구성형태 1 내지 9로 할당된 이론적 allele 구성비 패턴과의 유사성 값을 산출한 다음, 해당 STR이 갖는 allele 개수와 동일한 allele 수를 갖는 구성형태 중에서 가장 유사성이 높은 구성형태 및 2 순위와 3 순위의 구성형태를 선별하여, 선별된 각 구성형태의 혼재 시료 내 해당 STR이 실제 구성형태일 가능성이 높을 것으로 추정한 후, 최종 결정된 혼재 시료 내 각 STR들의 allele 구성형태를 순위별로 나타내고, 혼재된 allele가 구성하고 있는 각 샘플들의 allele를 샘플별로 할당한 다음, 실제 sequencing 결과 분석으로부터 도출된 각 STR 별 allele 구성형태를 바탕으로 STR 별 allele 사이즈 값을 allele 크기로 표시하는 단계;6) In the mixed allele configuration type determination step, the reading values of the mixed alleles are rearranged in order of magnitude, and then the composition ratio pattern of the mixed allele in each STR and the theoretical allele composition ratio pattern allocated to the configuration types 1 to 9 The similarity value is calculated and then the most similar configuration type and the second and third order configuration types are selected from the configuration types having the same number of alleles as the number of alleles of the corresponding STR, After estimating that the STR is likely to be the actual configuration type, alleles of each STR in the final mixed sample are ranked in order, alleles of each sample constituted by the mixed allele are allocated to each sample, displaying an allele size value for each STR based on the allele configuration type for each STR derived from sequencing result analysis;

7) 최종 결과 표시단계로서, 상기 단계 6)에서 표시된 샘플 별 각 STR 구성 allele 크기 값을 입력된 allele size 값을 참조로 함으로써, 최종 분석 결과를 나타내는 단계; 및7) displaying final analysis results by referring to the input allele size value of each STR configuration allele size value for each sample displayed in step 6) as a final result display step; And

8) AMELX와 AMELY의 구성비를 이론적 allele 구성비 패턴과의 유사성 값을 산출한 다음, AMELX와 AMELY 구성비가 이론적 allele 구성형태 중에서 가장 유사성이 높은 구성형태를 선별하여, 혼재 시료 내 각 샘플들의 성별을 결정하는 단계를 포함하는 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된 엑셀 기반 차세대 염기서열 데이터 분석 방법을 제공한다.8) After calculating the similarity values between AMELX and AMELY with the theoretical allele composition ratio pattern, the AMELX and AMELY composition ratios are determined to be the most similar among the theoretical allele configuration types, and the gender of each sample in the mixed sample is determined Based sequencing data analysis method configured for each individual identification from two mixed DNA samples comprising the steps of:

상기 단계 2)의 혼재 비율 계산은 The mixing ratio calculation of step 2)

ⅰ) STR 이름 및 각 allele들의 reading 값을 나타내는 단계;I) indicating the STR name and reading value of each allele;

ⅱ) allele들이 reading 값을 가질 경우를 1로 표기하고, 각 STR들의 혼재된 allele 수를 표시하는 단계;Ii) marking alleles as having a reading value of 1, and indicating the number of mixed alleles of each STR;

ⅲ) 상기 ⅱ)의 혼재된 allele 수가 4인 것을 선별하고 STR의 reading 된 수의 값 중, 숫자가 큰 allele 2개와 작은 allele 2개의 평균값을 각각 구하고 이들 간의 비율인 1차 추정 혼재 비를 구하는 단계;Iii) selecting the number of mixed alleles in step ii) is 4, calculating the average value of two large alleles and two small allel among the read number values of the STR, and obtaining a first estimated mixed ratio ;

ⅳ) allele 수가 3개인 STR을 선별하고, allele 수가 3개인 각 구성형태에 해당하는 두 샘플의 혼재 비를 구하는 단계;Iv) selecting an STR with three alleles and obtaining a mixed ratio of two samples corresponding to each configuration type with three alleles;

ⅴ) allele 수가 3개인 STR들의 구성형태별 혼재비 중 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와의 비율을 구하는 단계;(V) finding the ratio of the first estimated mixed ratio obtained from the STR with the total number of alleles among the three types of STRs having three alleles;

ⅵ) allele 수가 3개인 STR들의 구성형태 별 혼재 비가 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와 차이가 +/- 15% 이내의 것만을 선별하여 혼재 비를 표시하는 단계;Vi) marking the mixed ratio by selecting only those with a total number of alleles of 3 to 15% different from the primary estimated mixed ratio obtained from an STR having a total number of alleles of 4 types by STR type;

ⅶ) 선별된 allele가 있는 STR을 1로 표시하여 구분하고, 선별된 allele들의 STR 별 합을 나타낸 후, allele가 3개인 STR들의 평균 혼재 비를 구하는 단계; 및Ⅶ) Identifying the STR with the selected allele as 1, summing the STR sum of the selected alleles, and then finding the average mixed ratio of all three STRs; And

ⅷ) 혼재된 allele가 4개인 STR로부터 구한 혼재 비와 3개인 STR로부터 구한 혼재 비의 평균을 구하는 단계로 이루어지는 것이 바람직하나 이에 한정되지 않는다.(Iii) obtaining the average of the mixed ratio obtained from the STR with four mixed allele and the mixed ratio obtained from three STRs, but is not limited thereto.

상기 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된 엑셀 기반 차세대 염기서열 데이터 분석 방법은 An Excel-based next-generation sequencing data analysis method configured for individual identification from the two mixed DNA samples

ⅰ) Y-STR allele 들의 리딩값을 크기순으로 불러오고, 해당하는 각 allele 사이즈 값도 불러온 후, Y-STR 내 각 allele들의 비율과 각 STR들이 갖는 allele 수를 구하는 단계;I) fetching the leading values of the Y-STR alleles in order of magnitude, retrieving each corresponding allele size value, calculating the ratio of each allele in Y-STR and the number of alleles of each STR;

ⅱ) Y-STR들이 갖는 allele 수가 최대 2인 경우, 상기 ⅰ)에서 allele 사이즈 값을 가져와서 별도로 DNA 샘플 별 Y-STR allele 사이즈 값을 표시하는 단계;Ii) if the number of alleles of the Y-STRs is at most 2, taking the allele size value in step i) and separately displaying the Y-STR allele size value for each DNA sample;

ⅲ) allele가 2개인 Y-STR 경우 최고 주된 DNA 샘플이 절반 이상일 경우와 이하일 경우로 나누어 분석하며, 최종 결과를 별도로 표시하는 단계를 추가적으로 포함하는 것이 바람직하나 이에 한정되지 않는다.(Iii) In the case of a Y-STR with two alleles, it is preferable to include but not limited to a step of separately dividing and analyzing the case where the most main DNA sample is more than half or less and the final result is separately displayed.

상기 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된 엑셀 기반 차세대 염기서열 데이터 분석 방법은 allele가 2개인 Y-STR들의 allele 값을 각 Y-STR들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시하는 단계를 추가적으로 포함하는 것이 바람직하나 이에 한정되지 않는다.
The Excel-based next-generation sequencing data analysis method configured for individual identification from the two mixed DNA samples is performed by dividing the allele value of Y-STRs having two alleles by the sum of the allele values of Y-STRs, But it is not limited thereto.

또한, 본 발명은In addition,

1) 데이터 입력 수단으로서, 메인 페이지(main page) 워크시트에서 DNA 혼재 시료로부터 차세대 유전체 해독기술(Next generation sequencing; NGS) 데이터를 alignment 프로그램으로 분석하여 혼재된 각 짧은연쇄반복(short tandem repeat; STR) 값 및 Y-STR(Y Chromosome STR) 값을 구하여, 상기 STR 이름, 및 각 STR 들의 reading 된 수의 값을 allele size 값과 함께 INPUT 패널에 입력하는 수단;1) As a data input means, a next generation sequencing (NGS) data is analyzed from a mixed DNA sample with an alignment program in a main page worksheet, and a mixed short tandem repeat (STR ) And a value of Y-STR (Y Chromosome STR), inputting the STR name and the value of the read number of each STR to the INPUT panel together with the allele size value;

2) STR 데이타 그래프(Data graph) 작성 수단으로서, For 데이터 그래프 워크시트에 각 STR들의 allele 값을 각 STR 들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 For 데이터 그래프 워크시트에 표시하고, 이를 메인 화면에 그래프로 나타나게 하는 수단;2) As a means of generating a STR data graph, the allele value of each STR is divided by the sum of the allele values of each STR on the For data graph worksheet, and displayed on the For data graph worksheet as a relative ratio value, A means for graphically displaying the data;

3) 혼재 비율 계산 수단으로서, 혼재 비율(mix ratio) 워크시트에서 하기 순서로 혼재 비율을 계산하는 수단;3) means for calculating a mixed ratio in the following order in a mix ratio worksheet;

가) 메인 페이지에 입력한 STR 이름 및 각 allele들의 reading 값을 나타냄;A) the STR name entered on the main page and the reading value of each allele;

나) 각 STR들의 allele 수를 결정하기 위하여, allele들이 reading 값을 가질 경우를 1로 표기하고, 마지막 라인에는 각 STR들의 혼재된 allele 수를 표시함;B) In order to determine the number of alleles of each STR, mark alleles as having a reading value of 1, and the last line indicates the number of mixed alleles of each STR;

다) 상기 나)의 혼재된 allele 수가 4인 것을 선별하고, 상기 선별된 STR의 reading 된 수의 값 중, 숫자가 큰 allele 2개와 작은 allele 2개의 평균값을 각각 구하고 이들 간의 비율(작은 allele 2개의 평균값/큰 allele 2개의 평균값)을 구함;(C) The number of mixed alleles in the above (b) is 4, and the average value of two large alleles and two small small alleles among the read number values of the selected STR are obtained, and the ratio between them Average value / average value of two large alleles);

라) 상기 단계 다)의 비율의 평균값을 두 샘플의 1차 추정 혼재 비로함;D) the average value of the ratio of step c) to the first estimated mixture ratio of the two samples;

마) 상기 단계 라)의 1차 추정 혼재 비를 보완하기 위해 allele 수가 3개인 STR을 선별하고, allele 수가 3개인 각 구성형태에 해당하는 두 샘플의 혼재 비를 구함;(E) In order to compensate for the first estimated mixed ratio of step (d) above, an STR with three alleles is selected and a mixed ratio of two samples corresponding to each configuration with three alleles is sought;

바) allele 수가 3개인 STR들의 구성형태 별 혼재 비를 구하기 전에 allele 수를 크기순으로 배열함;F) arranging the number of alleles in descending order before finding the mixed ratios of STRs with three alleles;

사) allele 수가 3개인 STR들의 구성형태별 혼재비 중 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와의 비율을 구함;G) Find the ratio of the first estimated mixed ratios obtained from the STR with four alleles among the three types of STRs with three alleles;

아) allele 수가 3개인 STR들의 구성형태 별 혼재 비가 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와 차이가 +/- 15% 이내의 것만을 선별하여 혼재 비를 표시함;A) The mixed ratios of the STRs with three alleles are selected by selecting only those within the +/- 15% difference from the first estimated mixed ratios obtained from the STR with the allele ratios of 4 in all types of STRs.

자) 선별된 allele가 있는 STR을 1로 표시하여 구분하고, 선별된 allele들의 STR 별 합을 나타낸 후, allele가 3개인 STR들의 평균 혼재 비를 구함; 및(1) Identify the STR with the selected allele as 1, calculate the sum of STR of the selected alleles, and obtain the average mixed ratio of 3 alleles; And

차) 혼재된 allele가 4개인 STR로부터 구한 혼재 비와 3개인 STR로부터 구한 혼재 비의 평균을 구한 후 Y-STR로부터 구한 혼재 비와 평균을 구함으로써, 최종적으로 추정 혼재 비를 구함.The average of the mixed ratios obtained from STR with four mixed allele and STR from three STRs is obtained and finally the estimated mixed ratios are obtained by calculating the mixed ratios and averages obtained from Y-STR.

4) 2 allele STRs 분석 수단으로서, 2 allele STRs 워크시트에서 하기의 순서로 2 allele STR 분석하는 수단;4) 2 allele STRs As means for analyzing, means for analyzing 2 allele STRs in the following sequence in the 2 allele STRs worksheet;

카) 2 allele를 갖는 각 allele들의 샘플 allele 구성 형태를 하기와 같이 나타내고, 샘플별 총 sequenceing reading 수의 값을 구하는 식을 하기와 같이 나타냄;K) The sample allele configuration of each allele with 2 alleles is represented as follows, and the total sequence reading number per sample is obtained as follows:

Figure 112015038083147-pat00001
Figure 112015038083147-pat00001

Figure 112015038083147-pat00002
Figure 112015038083147-pat00002

타) 각 STR 별 입력된 allele 값이 2개의 allele size로 나타나는 STR allele 값을 큰 것과 작은 것으로 구분하여 sequenceing reading 수가 큰 순으로 재배치함;The STR allele values of two allele sizes are divided into large and small, so that the sequenceing readings are rearranged in descending order.

파) 상기 타)의 sequenceing reading 수를 상기 카)의 구성형태 및 sequenceing reading 수의 값을 구하는 식으로 계산된 A 및 B의 값으로 각각 나타냄;The number of sequence reading of the above-mentioned other) is represented by the values of A and B calculated by obtaining the configuration type of the car and the value of the sequenceing reading number, respectively;

하) 상기 파)의 구성형태별 계산된 A 및 B 값을 이용하여 비율(A/B)을 구한 후, 상기 2)의 혼재 비율 워크시트에 표시된 차)의 최종 추정 혼재비 값과의 차이를 비율로 계산하여 (A/B)/MIX R 열에 표시함; 및(A / B) is calculated by using the values of A and B calculated for each configuration type of the wave), and then the difference from the final estimated mixture ratio value of the difference shown in the mixed ratio worksheet 2) (A / B) / MIX in the R column; And

거) 혼재 비율 워크시트에 표시된 차)의 최종 추정 혼재비 값을 이용하여 구한 각 2 allele STR들의 구성형태별 크고 작은 두 allele 사이의 비율의 +/- 30% 범위 내에 실제 데이터의 크고 작은 두 allele 사이의 비율이 포함되는 것을 선별하여 구성형태를 결정함.Within the range of +/- 30% of the ratio between the two large and small alleles of each 2 allele STRs calculated by using the final estimated mixture ratio value of the difference plotted in the mixture ratio worksheet, Of the total number of cases.

5) 이론상 그래프(theoretical graph) 작성 수단으로서, 이론상 그래프 워크시트에 두 사람(x, y) DNA 샘플에 혼재되었을 경우 가능한 9가지의 allele의 구성을 구성형태 1 내지 9로 할당하고, 각 구성형태의 allele 별(H to L) allele 구성형태와 상기 각 allele들의 상대적 높이를 하기와 같이 수치화한 후, 메인시트에 그래프로 나타나게 하는 수단;5) Theoretically, as a means of creating the theoretical graph, nine possible allele constructs are assigned to constitutional forms 1 to 9 when mixed in two (x, y) DNA samples in the theoretical graph worksheet, Means for making the H-to-L allele configuration type and the relative heights of the alleles of the allele of the allele of the allele to be graphically displayed on the main sheet,

Figure 112015038083147-pat00003
Figure 112015038083147-pat00003

6) 혼재 allele 구성형태 결정 수단으로서, 랭크(rank) 워크시트에 하기의 순서로 혼재 allele 구성형태를 결정하는 수단;6) means for determining a mixed allele configuration type, the means for determining a mixed allele configuration type in a rank worksheet in the following order;

너) 메인 화면에 입력한 혼재 allele 들의 reading 값들이 값들을 크기 순으로 재배치함;You) the readings of the mixed alleles entered on the main screen are rearranged in order of magnitude;

더) 상기 4)의 각 구성형태 별 이론적 allele 구성비(H to L)와 패턴 유사성을 비교하기 위하여, 각 STR 내에서 혼재 allele들의 구성비를 나타냄;More) To compare the pattern similarity with the theoretical allele composition ratio (H to L) of each constituent of above 4), it shows the composition ratio of mixed allele in each STR;

러) 상기 더)에서 구한 STR 내 혼재 allele 들의 구성비 패턴과 각 9가지의 allele 혼재 구성형태별 이론적 allele 구성비 패턴과의 유사성 값을 구함;(A) Find the similarity value between the composition ratio pattern of the mixed allele in the STR and the theoretical allele composition ratio pattern for each of the nine allele combinations;

머) 실제 데이터 분석으로 구한, 해당 STR이 갖는 allele 개수와 동일한 allele 수를 갖는 구성형태 중에서 가장 유사성이 높은 구성형태를 선별하기 위하여, 상기 너)에서 "0(영)"이 아닌 값을 갖는 allele를 각각 1로 표시한 후, 이들의 합과 같은 수의 allele를 갖는 타입의 유사성 값을 선별하여 표시함;In order to select the most similar configuration type among the configuration types having the same number of alleles as the number of alleles possessed by the corresponding STR obtained from actual data analysis, allele having a value other than "0 (zero)" in the above- Is displayed as 1, and the similarity value of the type having the same number of alleles as the sum of the similarity values is selected and displayed;

버) 상기 머)에서 선별된 유사성 값 중 가장 높은 값을 갖는 구성형태의 혼재 시료 내 해당 STR의 실재 구성형태일 가능성이 가장 높은 것으로 가정하고, 1st 표식 밑에 각 STR들의 1차 추정 allele 구성형태를 표시함;It is assumed that it is most likely to be the actual configuration type of the corresponding STR in the mixed sample having the configuration value having the highest value among the similarity values selected from the above-mentioned ones, and the first estimated allele configuration type of each STR under the 1st mark Displayed;

서) 상기 버)에서 1차 추정 allele 구성형태로 결정된 값들 중 allele 수가 2개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 3) 2 allele STR 분석에서 구한 값과 일치하는 경우에만 STR 구성형태를 할당하여 표시함;In order to add accuracy to the determination of the configuration type of the STRs having two alleles among the values determined in the first-order allele configuration form in the above-mentioned burr, the STR configuration type is used only when the value obtained from the above 3) Assigned and displayed;

어) 상기 버)에서 1차 추정 allele 구성형태로 결정된 값들 중, allele 수가 3개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 2)의 혼재 비율(mix ratio) 워크시트에서 선별된 allele들의 STR 별 합이 1인 경우에만 STR 구성형태를 할당하여, 표시함;A) The STR of the alleles selected in the mix ratio worksheet of 2) as a method to add accuracy to the configuration type determination of the STRs having three alleles among the values determined in the primary estimated allele configuration type in the above- STR configuration type is assigned and displayed only when the sum is 1;

저) allele 수가 2개 또는 3개인 STR 중, 상기 서) 및 어)에서 선별된 것만을 함께 표시함;Low) Among the STRs with two or three alleles, only those selected in the above and) are displayed together;

처) 최종 결정된 혼재시료 내 각 STR들의 allele 구성형태를 나타내고, 해당 STR의 실제 구성형태일 가능성이 높은 1st 열의 구성형태에 대한 분석결과만을 메인화면 STR Sequencing Data 그래프 아래에 표시함;The result of the analysis of the configuration of the 1st column, which is likely to be the actual configuration type of the STR, is shown below the main screen STR Sequencing Data graph;

커) 혼재된 allele가 구성하고 있는 각 샘플들의 allele를 샘플별로 할당하기 위해 혼재 시료에서 큰 비율로 존재하는 샘플 A와 작은 비율의 B 샘플이 가지는 allele 사이즈들의 구성형태별 이론적 그래프를 참조하여 표시함; 및In order to allocate alleles of each sample constituted by the mixed allele to each sample, it is indicated with reference to a theoretical graph according to the constitutional form of allele sizes having a large ratio of sample A and a small proportion of B samples in the mixed sample; And

터) 실제 sequencing 결과 분석으로부터 도출된 각 STR 별 allele 구성형태를 바탕으로 가장 가능성이 높은 우선순위 1순위 이외에 2순위 및 3순위 STR 별 allele 사이즈 값들을 각각 allele 크기로 표시함.Based on the allele configuration form of each STR derived from the analysis of the actual sequencing results, allele size values of the second and third rank STR are shown as the allele sizes, respectively, in addition to the most likely priority order.

7) STR 분석 최종 결과 표시 수단으로서, 상기 터)에 표시된 샘플별 STR 구성 allele 크기 값을 입력된 allele 사이즈 값을 참조로 할당함으로써 최종 분석 결과를 메인화면에 표시하는 수단;7) means for displaying the final analysis result on the main screen by assigning the STR alleles size value for each sample displayed on the screen to the input allele size value as a final analysis result display means;

8) Y-STR allele 분석 수단으로서, T-STR 데콘볼루션(deconvolution) 워크시트에 하기의 순서로 Y-STR allele를 분석하는 수단;8) means for Y-STR allele analysis means for analyzing the Y-STR allele in the T-STR deconvolution worksheet in the following order;

퍼) 메인화면에서 입력된 Y-STR allele 들의 리딩값을 크기순으로 불러오고, 해당하는 각 allele 사이즈 값도 불러온 후, STR 내 각 allele들의 비율과 각 STR들의 갖는 allele 수를 구함;Pulls the leading values of the Y-STR alleles entered in the main screen in order of magnitude, retrieves each corresponding allele size value, and then finds the ratio of each allele in the STR and the number of alleles of each STR.

허) STR들이 갖는 allele 수가 최대 2인 경우, 상기 퍼)에서 allele 사이즈 값을 가져와서 별도로 표시함.H) If the number of alleles that STR has is 2, the allele size value is taken from the above fur) and displayed separately.

9) Y-STR 데이타 그래프 작성 수단으로서, 각 Y-STR들의 allele 값을 각 Y-STR들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시하고, 이를 메인화면에 그래프로 표시하는 수단; 및9) means for Y-STR data graph generation means for displaying the allele value of each Y-STR by the sum of the allele values of the respective Y-STRs and displaying it as a relative ratio value and graphically displaying the same on the main screen; And

10) Y-STR 분석 최종 결과 표시 수단으로서, 상기 터) 및 허)의 샘플 별 입력된 allele 사이즈 값을 메인화면에 표시하는 수단으로 구성된 프로그램을 포함하는 2 명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 장치를 제공한다.
10) Y-STR analysis final result display means for displaying the inputted allele size value for each sample of the ter and h) on the main screen; Thereby providing a base sequence data analysis apparatus.

아울러, 본 발명은 엑셀 기반(Excel-based) 분석 프로그램으로서, 메인 페이지 워크시트에는 STR 데이터 입력, Y-STR 데이터 입력, AMELX/Y 입력, STR 이론적 그래프, STR 실제 데이터 그래프와 allele 혼재 구성형태, Y-STR 실제 데이타 그래프, STR 추정 혼재 비(Estimated mix ratio)를 포함하는 STR-결과, Y-STR 추정 혼재 비를 포함하는 Y-STR 결과 및 남성/여성을 구분하는 AMELX/Y 모듈로 구성되어 있고,In addition, the present invention is an Excel-based analysis program. The main page worksheet includes STR data input, Y-STR data input, AMELX / Y input, STR theoretical graph, STR actual data graph, Y-STR actual data graph, STR-result including STR estimated mix ratio, Y-STR result including Y-STR estimated mixed ratio, and AMELX / Y module distinguishing male / female However,

메인 페이지 이외에 6개의 워크시트로서, 혼재 비율, For data graph, 2 allele STRs, 이론적 그래프, Rank, Y-STR Deconvolution 워크시트로 구성되어 있으며,In addition to the main page, there are six worksheets, consisting of mixed ratio, For data graph, 2 allele STRs, theoretical graph, Rank, and Y-STR Deconvolution worksheets.

메인 페이지 데이터 입력란에는 DNA 혼재 시료로부터 차세대 유전체 해독기술 데이터를 alignment 프로그램으로 분석하여 혼재된 각 짧은연쇄반복 값, Y-STR 값 및 AMELX/Y 값을 구하여, 상기 STR 이름, 및 각 STR 들의 reading 된 수의 값을 allele size 값과 함께 INPUT 패널에 입력되고,In the main page data field, the next generation genome decode technology data from the DNA mixture sample is analyzed by the alignment program to obtain the mixed short chain repeat value, Y-STR value and AMELX / Y value and the STR name, The value of the number is entered into the INPUT panel along with the allele size value,

For 데이터 그래프 워크시트에는,For data graph worksheets,

각 STR들의 allele 값을 각 STR 들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 For 데이터 그래프 워크시트에 표시하고, 이를 메인 화면에 그래프로 나타내고,The allele value of each STR is divided by the sum of the allele values of each STR and displayed on the For data graph worksheet as a relative ratio value,

혼재 비율 워크시트에는,In the Mixed Ratio worksheet,

가) 메인 페이지에 입력한 STR 이름 및 각 allele들의 reading 값을 나타내고,A) The STR name entered on the main page and the reading value of each allele,

나) 각 STR들의 allele 수를 결정하기 위하여, allele들이 reading 값을 가질 경우를 1로 표기하고, 마지막 라인에는 각 STR들의 혼재된 allele 수를 표시하며;B) In order to determine the number of alleles of each STR, mark alleles as having a reading value of 1, and the last line shows the number of mixed alleles of each STR;

다) 상기 나)의 혼재된 allele 수가 4인 것을 선별하고, 상기 선별된 STR의 reading 된 수의 값 중, 숫자가 큰 allele 2개와 작은 allele 2개의 평균값을 각각 구하고 이들 간의 비율(작은 allele 2개의 평균값/큰 allele 2개의 평균값)을 구하고;(C) The number of mixed alleles in the above (b) is 4, and the average value of two large alleles and two small small alleles among the read number values of the selected STR are obtained, and the ratio between them Average value / average value of two large alleles);

라) 상기 단계 다)의 비율의 평균값을 두 샘플의 1차 추정 혼재 비로 하며;D) the average value of the ratio of step c) to the first-order estimated mixture ratio of the two samples;

마) 상기 단계 라)의 1차 추정 혼재 비를 보완하기 위해 allele 수가 3개인 STR을 선별하고, allele 수가 3개인 각 구성형태에 해당하는 두 샘플의 혼재 비를 구하고;(E) In order to compensate for the first estimated mixed ratio of step (d), an STR with three alleles is selected, and a mixed ratio of two samples corresponding to each configuration type with three alleles is obtained;

바) allele 수가 3개인 STR들의 구성형태 별 혼재 비를 구하기 전에 allele 수를 크기순으로 배열하고;F) Arranging the number of alleles in descending order of STRs with the total number of alleles;

사) allele 수가 3개인 STR들의 구성형태별 혼재비 중 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와의 비율을 구하며;G) the ratio of the first estimated mixed ratio obtained from the STR with four alleles to the total number of STRs with three alleles;

아) allele 수가 3개인 STR들의 구성형태 별 혼재 비가 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와 차이가 +/- 15% 이내의 것만을 선별하여 혼재 비를 표시하고;A) Selecting only those with a total number of alleles less than +/- 15% from the first estimated mixed ratio obtained from an STR with a total number of alleles of four STR types;

자) 선별된 allele가 있는 STR을 1로 표시하여 구분하고, 선별된 allele들의 STR 별 합을 나타낸 후, allele가 3개인 STR들의 평균 혼재 비를 구하며;1) Identify the STR with the selected allele as 1, calculate the sum of STR of the selected alleles, and then obtain the average mixed ratio of 3 alleles;

차) 혼재된 allele가 4개인 STR로부터 구한 혼재 비와 3개인 STR로부터 구한 혼재 비의 평균을 구한 후 Y-STR로부터 구한 혼재 비와 평균을 구함으로써, 최종적으로 추정 혼재 비를 구하고,The average of the mixed ratios obtained from STR with four mixed alleles and the three mixed ratios obtained from three STRs are obtained and then the mixed ratios and averages obtained from Y-STR are obtained. Finally, the estimated mixed ratios are obtained,

2 allele STRs 워크시트에는, 2 allele STRs In the worksheet,

카) 2 allele를 갖는 각 allele들의 샘플 allele 구성 형태를 하기와 같이 나타내고, 샘플별 총 sequenceing reading 수의 값을 구하는 식을 하기와 같이 나타내며;The sample allele configuration of each allele with 2 alleles is represented as follows, and the total number of sequencing readings per sample is obtained as follows:

Figure 112015038083147-pat00004
Figure 112015038083147-pat00004

Figure 112015038083147-pat00005
Figure 112015038083147-pat00005

타) 각 STR 별 입력된 allele 값이 2개의 allele size로 나타나는 STR allele 값을 큰 것과 작은 것으로 구분하여 sequenceing reading 수가 큰 순으로 재배치하고;(A) The STR allele value, which is represented by two allele sizes, is divided into large and small, so that the sequenceing readings are rearranged in descending order;

파) 상기 타)의 sequenceing reading 수를 상기 카)의 구성형태 및 sequenceing reading 수의 값을 구하는 식으로 계산된 A 및 B의 값으로 각각 나타내며;The number of sequence reading of the above-mentioned other) is represented by the values of A and B calculated by obtaining the configuration type of the car and the value of the sequenceing reading number, respectively;

하) 상기 파)의 구성형태별 계산된 A 및 B 값을 이용하여 비율(A/B)을 구한 후, 상기 2)의 혼재 비율 워크시트에 표시된 차)의 최종 추정 혼재비 값과의 차이를 비율로 계산하여 (A/B)/MIX R 열에 표시하고;(A / B) is calculated by using the values of A and B calculated for each configuration type of the wave), and then the difference from the final estimated mixture ratio value of the difference shown in the mixed ratio worksheet 2) (A / B) / MIX in the R column;

거) 혼재 비율 워크시트에 표시된 차)의 최종 추정 혼재비 값을 이용하여 구한 각 2 allele STR들의 구성형태별 크고 작은 두 allele 사이의 비율의 +/- 30% 범위 내에 실제 데이터의 크고 작은 두 allele 사이의 비율이 포함되는 것을 선별하여 구성형태를 결정하고,Within the range of +/- 30% of the ratio between the two large and small alleles of each 2 allele STRs calculated by using the final estimated mixture ratio value of the difference plotted in the mixture ratio worksheet, And the ratio is determined to determine the configuration type,

이론상 그래프 워크시트에는,In theory,

두 사람(x, y) DNA 샘플에 혼재되었을 경우 가능한 9가지의 allele의 구성을 구성형태 1 내지 9로 할당하고, 각 구성형태의 allele 별(H to L) allele 구성형태와 상기 각 allele들의 상대적 높이를 하기와 같이 수치화한 후, 메인시트에 그래프로 나타내고,When the two (x, y) DNA samples are mixed, the nine possible allele constructs are assigned to the configuration types 1 to 9, and the allele configuration (H to L) of each configuration type and the relative The height is expressed in the following manner, and is shown in a graph on the main sheet,

Figure 112015038083147-pat00006
Figure 112015038083147-pat00006

랭크(rank) 워크시트에는, In the rank worksheet,

너) 메인 화면에 입력한 혼재 allele 들의 reading 값들이 값들을 크기 순으로 재배치하고;You) the readings of the mixed alleles entered on the main screen are rearranged in order of magnitude;

더) 상기 이론상 그래프 워크시트의 각 구성형태 별 이론적 allele 구성비(H to L)와 패턴 유사성을 비교하기 위하여, 각 STR 내에서 혼재 allele들의 구성비를 나타내며;Further, to compare pattern similarity with the theoretical allele composition ratio (H to L) of each constitutional form of the theoretical graph worksheet, it represents the composition ratio of mixed alleles in each STR;

러) 상기 더)에서 구한 STR 내 혼재 allele 들의 구성비 패턴과 각 9가지의 allele 혼재 구성형태별 이론적 allele 구성비 패턴과의 유사성 값을 구하고;R) The similarity value between the composition ratio pattern of mixed allele in STR and the theoretical allele composition ratio pattern by each type of mixed allergen is obtained from above.

머) 실제 데이터 분석으로 구한, 해당 STR이 갖는 allele 개수와 동일한 allele 수를 갖는 구성형태 중에서 가장 유사성이 높은 구성형태를 선별하기 위하여, 상기 너)에서 "0(영)"이 아닌 값을 갖는 allele를 각각 1로 표시한 후, 이들의 합과 같은 수의 allele를 갖는 타입의 유사성 값을 선별하여 표시하고;In order to select the most similar configuration type among the configuration types having the same number of alleles as the number of alleles possessed by the corresponding STR obtained from actual data analysis, allele having a value other than "0 (zero)" in the above- Are displayed as 1, and the similarity value of the type having the same number of alleles as the sum thereof is selected and displayed;

버) 상기 머)에서 선별된 유사성 값 중 가장 높은 값을 갖는 구성형태의 혼재 시료 내 해당 STR의 실재 구성형태일 가능성이 가장 높은 것으로 가정하고, 1st 표식 밑에 각 STR들의 1차 추정 allele 구성형태를 표시하며;It is assumed that it is most likely to be the actual configuration type of the corresponding STR in the mixed sample having the configuration value having the highest value among the similarity values selected from the above-mentioned ones, and the first estimated allele configuration type of each STR under the 1st mark Display;

서) 상기 버)에서 1차 추정 allele 구성형태로 결정된 값들 중 allele 수가 2개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 3) 2 allele STR 분석에서 구한 값과 일치하는 경우에만 STR 구성형태를 할당하여 표시하고;In order to add accuracy to the determination of the configuration type of the STRs having two alleles among the values determined in the first-order allele configuration form in the above-mentioned burr, the STR configuration type is used only when the value obtained from the above 3) Assigned and displayed;

어) 상기 버)에서 1차 추정 allele 구성형태로 결정된 값들 중, allele 수가 3개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 2)의 혼재 비율(mix ratio) 워크시트에서 선별된 allele들의 STR 별 합이 1인 경우에만 STR 구성형태를 할당하여, 표시하고;A) The STR of the alleles selected in the mix ratio worksheet of 2) as a method to add accuracy to the configuration type determination of the STRs having three alleles among the values determined in the primary estimated allele configuration type in the above- Allocate and display an STR configuration type only when the sum is 1;

저) allele 수가 2개 또는 3개인 STR 중, 상기 서) 및 어)에서 선별된 것만을 함께 표시하며;Low) Among the STRs with two or three alleles, only those selected in the above and) are displayed together;

처) 최종 결정된 혼재시료 내 각 STR들의 allele 구성형태를 나타내고, 해당 STR의 실제 구성형태일 가능성이 높은 1st 열의 구성형태에 대한 분석결과만을 메인화면 STR sequencing Data 그래프 아래에 표시하고;The result of the analysis of the configuration of the first column, which is likely to be the actual configuration type of the STR, is displayed under the STR sequencing data graph of the main screen only;

커) 혼재된 allele가 구성하고 있는 각 샘플들의 allele를 샘플별로 할당하기 위해 혼재 시료에서 큰 비율로 존재하는 샘플 A와 작은 비율의 B 샘플이 가지는 allele 사이즈들의 구성형태별 이론적 그래프를 참조하여 표시하며; 및Refers to a theoretical graph according to the configuration type of the allele sizes of the sample A existing in a large ratio in the mixed sample and the allele sizes in the small ratio B sample in order to allocate the allele of each sample constituted by the mixed allele to each sample; And

터) 실제 sequencing 결과 분석으로부터 도출된 각 STR 별 allele 구성형태를 바탕으로 가장 가능성이 높은 우선순위 1 순위 이외에 2 순위 및 3 순위 STR 별 allele 사이즈 값들을 각각 allele 크기로 표시하고,Based on the allele configuration form of each STR derived from the analysis of the actual sequencing result, allele size values of the second and third rank STR are displayed in allele sizes,

메인 페이지 워크시트에는On the main page worksheet

상기 터)에 표시된 샘플별 STR 구성 allele 크기 값을 입력된 allele 사이즈 값을 참조로 할당함으로써 최종 분석 결과를 메인 페이지 STR-결과로 표시하고,The final analysis result is displayed as the main page STR-result by allocating the value of the STR configuration allele size for each sample displayed in the above table by referring to the inputted allele size value,

데콘볼루션(deconvolution) 워크시트에는The deconvolution worksheet

퍼) 메인화면에서 입력된 Y-STR allele 들의 리딩값을 크기순으로 불러오고, 해당하는 각 allele 사이즈 값도 불러온 후, STR 내 각 allele들의 비율과 각 STR들의 갖는 allele 수를 구하고;Pulls the read values of the Y-STR alleles entered in the main screen in order of magnitude, retrieves each corresponding allele size value, and then obtains the ratio of each allele in the STR and the number of alleles of each STR.

허) STR들이 갖는 allele 수가 최대 2인 경우, 상기 퍼)에서 allele 사이즈 값을 가져와서 별도로 표시하며; 및H) if the number of alleles that STRs have is at most 2, take the allele size value in the above parentheses and mark them separately; And

갸) allele가 2개인 Y-STR 경우 최고 주된 DNA 샘플이 절반 이상일 경우와 이하일 경우로 나누어 분석하며, 최종 결과를 별도로 표시하며,In the case of Y-STR with two allele allele, the most main DNA sample is divided into two cases,

메인 페이지 워크시트에는On the main page worksheet

각 Y-STR들의 allele 값을 각 Y-STR들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시한 후, 메인 페이지 Y-STR 실제 데이타 그래프 모듈에 그래프로 표시하고, 및The allele value of each Y-STR is divided by the sum of the allele values of the Y-STRs and displayed as a relative ratio value, then displayed in a graph on the main page Y-STR actual data graph module, and

메인 페이지 워크시트에는 On the main page worksheet

상기 허) 및 갸)의 샘플 별 입력된 allele 사이즈 값을 Y-STR 결과 모듈에 표시하는, 프로그램을 갖춘 2 명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 시스템을 제공한다.
And displaying the input allele size value for each sample of the above-mentioned Hur and Gly on the Y-STR result module. The present invention provides a mixed sample base sequence data analysis system for identifying individuals in two mixed DNA samples.

본 발명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 알고리즘은 NGS데이터로부터 구한 다양한 STR 및 Y-STR들의 리딩값들로부터, 각 혼재 시료의 추정비율을 구하고, 이로부터 2 allele STR의 경우에도 상기 비율에 근거, 높은 정확도로 각 STR을 프로파일링 하여 2명의 DNA 혼재시료 식별에 용이하게 이용될 수 있다.
The algorithm for analyzing the mixed sample base sequence data for individual identification in the hybrid DNA sample of the present invention is to calculate the estimated ratio of each mixed sample from the read values of various STR and Y-STRs obtained from the NGS data, Can be easily used to identify two DNA mixed samples by profiling each STR with high accuracy based on the above ratios.

이하, 본 발명을 하기 실시예에 의해 상세히 설명한다.Hereinafter, the present invention will be described in detail by the following examples.

단, 하기 실시예는 본 발명을 구체적으로 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
However, the following examples are only illustrative of the present invention, and the present invention is not limited by the following examples.

<< 실시예Example 1>  1> NGSNGS (next generation sequencing)를 이용한 혼재된 DNA 시료의 (next generation sequencing). STRSTR 패턴의 분석 Analysis of patterns

<1-1> DNA 시료의 시퀀싱<1-1> Sequencing of DNA samples

본 발명자들은 혼재된 DNA 시료(2명의 DNA 또는 2~3명의 남자 DNA)의 STR 패턴을 분석하기 위하여 Illumina 사의 miSEQ을 이용한 NGS를 수행하였다.The present inventors conducted NGS using Illumina's miSEQ to analyze STR patterns of mixed DNA samples (two DNAs or two or three male DNAs).

구체적으로, 증폭 산물 라이브러리 준비(Amplicon library preparation)를 위해, NCBI의 STR base를 참조하여 각각의 STR의 주요 지역(Core region)을 포함하도록 하여 ~250bp 정도의 크기(size)가 나오도록 프라이머를 제작하였다. 대조군(control)으로써 Human control DNA 2800M, 9947A, 9948(promega)를 주형(template) DNA로 하였고, Ampli gold taq pcr kit(Applied biosystem)을 이용하여 32개의 STR, 12개의 Y-STR, AMELX 및 AMELY에 대해 하기 표 1 및 표 2와 같이 복합 1회전(muliplex first round) PCR을 진행하였다. 프라이머의 경우, 10 pmol/㎕ 농도의 프라이머 38개를 동일 비율로 섞어준 혼합물(mixture)을 만들고, 그 혼합물의 8 ㎕를 사용하였다.
Specifically, for the preparation of the amplification library (primer preparation), the core region of each STR is included by referring to the STR base of NCBI, and a size of ~ 250 bp is produced Respectively. Human control DNAs 2800M, 9947A, and 9948 (promega) were used as control DNAs as templates and 32 STRs, 12 Y-STRs, AMELXs, and AMELYs were amplified using Ampli gold taq pcr kit (Applied biosystem) Were subjected to a multiplex single first round PCR as shown in Tables 1 and 2 below. In the case of the primer, 38 primers of 10 pmol / 농도 concentration were mixed in the same ratio, and 8 쨉 l of the mixture was used.

구성 성분Constituent 부피(㎕)Volume ([mu] l) genomic DNA (1 ng/㎕)genomic DNA (1 ng / l) 1One 정방향 프라이머Forward primer 88 역방향 프라이머Reverse primer 88 dNTP MixdNTP Mix 44 MgCl2 (25 mM)MgCl 2 (25 mM) 5.65.6 10X 버퍼10X buffer 3.53.5 Gold Taq polymeraseGold Taq polymerase 0.50.5 Deionized waterDeionized water 4.44.4 gun 3535

PCR 조건PCR conditions 단계step 온도Temperature 시간time 시간time Initial DenaturationInitial Denaturation 95℃95 ℃ 10 min10 min 1 cycle1 cycle DenaturationDenaturation 95℃95 ℃ 30 sec30 sec 30 cycle

30 cycles

AnnealingAnnealing 53℃53 ℃ 30 sec30 sec ExtensionExtension 72℃72 30 sec30 sec Final extentionFinal extention 72℃72 7 min7 min 1 cycle1 cycle

상기 PCR 산물 총 35 ㎕ 중 10 ㎕를 1.5% 아가로스 젤에 로딩(loading) 하여 확인하였으며 증폭 산물 라이브러리(Amplicon library) 22.5 ㎕를 AMPure XP bead를 이용하여 Magnetic Particle Collector로 정제하였다(Amplicon library preparation manual, 2013/Roche).10 μl of the total 35 μl of the PCR product was loaded into 1.5% agarose gel, and 22.5 μl of the amplification library was purified with a magnetic particle collector using an AMPure XP bead (Amplicon library preparation manual , 2013 / Roche).

상기 증폭 산물을 정량하기 위하여 Quant-iT picogreen dsDNA Assay kit(ND 3300)를 사용하였으며, RUBICON GENOMICS 사의 ThruPLEX-FD Prep Kit을 사용하여 10 ng의 주형(template) DNA에 어뎁터/색인(adapter/index) 서열을 연결(ligation)하였다. 상기 만들어진 75 ㎕의 라이브러리를 1:600으로 희석(dilution) 하여 표 3 및 4와 같이 Real-time PCR로 정량하였다(프라이머, standard DNA는 PhiX v3 사용, polymerase 는 2x SYBR green master(Bio-Rad)를 사용하였다.).
The Quant-iT picogreen dsDNA Assay kit (ND 3300) was used to quantitate the amplification product. An adapter / index was added to 10 ng template DNA using the ThruPLEX-FD Prep Kit from RUBICON GENOMICS. The sequences were ligated. The prepared 75 μl library was diluted to 1: 600 and quantitated by real-time PCR as shown in Tables 3 and 4 (primer, standard DNA used PhiX v3, polymerase used 2x SYBR green master (Bio-Rad) Were used.

조성 성분Composition component 부피volume Template libraryTemplate library 2 ㎕ (1:600)2 [mu] l (1: 600) 2x SYBR green master2x SYBR green master 7.5 ㎕7.5 μl Primer(5pmole)(Forward+Reverse)Primer (5 pmole) (Forward + Reverse) 0.6 ㎕0.6 μl Molecular grade waterMolecular grade water ~ 4.9 ㎕~ 4.9 μl 15 ㎕15 μl

정량적 PCR(quantification PCR; qPCR) 조건Quantitative PCR (qPCR) conditions 단계step 온도Temperature 시간time Initial DenaturationInitial Denaturation 95℃95 5 min5 min 39 cycle39 cycles DenaturationDenaturation 95℃95 ℃ 10 sec10 sec AnnealingAnnealing 60℃60 ° C 30 sec30 sec ElongationElongation 72℃72 ℃ 30 sec30 sec Melting curveMelting curve 65℃65 5 sec5 sec 1 cycle1 cycle 95℃95 ℃ -- CoolingCooling 20℃20 ℃ 10 min10 min 1 cycle1 cycle

상기 정량적 확인 후 라이브러리 40 ㎕를 AMPure XP bead를 이용하여 Magnetic Particle Collector로 정제하였다. 이후의 시퀀싱(sequencing) 과정은 (주)엘에이에스 회사에 의뢰하여 진행하였다.
After quantitative confirmation, 40 μl of the library was purified with a magnetic particle collector using an AMPure XP bead. The subsequent sequencing process was carried out with the request of LSE Corporation.

<1-2> 시퀀싱 데이터의 &Lt; 1-2 > 필터링Filtering 및 분석 And analysis

본 발명자들은 상기 생산된 STR NGS 데이터를 NextGENe로 분석하기 위해 하기와 같이 수행하였다.The present inventors performed the following process to analyze the produced STR NGS data by NextGENE.

구체적으로, .fastq NGS data 파일을 fasta 파일로 포맷(format)하였으며 포맷된 데이타와 참조(reference) 파일을 적용하고 align setting option으로 진행하였다. 참조 파일(reference file)은 웹 사이트 NCBI 및 STRbase를 참조하여 제작하였다. 정렬 세팅(align setting)에서 참조 서열(reference sequence) 길이의 60% 정도의 매칭(matching) 조건으로 맞추고, 샘플은 트리밍(trimming) 하지 않았다. 뷰어(Viewer) 화면 내의 익스프레션 리포트(Expression report)를 이용해 각 참조 서열 위치에 정렬(align) 된 데이타의 리드(read) 수를 확인하였다. 상기 리포트(Report)를 엑셀(Excel)로 로드(load) 하여 데이터 정리를 하였다. Specifically, the .fastq NGS data file was formatted as a fasta file, and formatted data and reference files were applied and advanced to the align setting option. The reference file was created by referring to the website NCBI and STRbase. The alignment conditions were set to match conditions of about 60% of the length of the reference sequence and the sample was not trimmed. We verified the number of readings of aligned data in each reference sequence position using the Expression report in the Viewer window. The report was loaded into an Excel to organize the data.

STR 별 전체 리드(read) 수의 최소 ~10% 범위까지 정렬(align) 된 리드(read) 수를 찾아 대립형질(allele)들을 선별하였다. STR locus 증폭 시 짧은 반복구조로 인해 통상적으로 발생하는 PCR 에러(error)의 결과인 stutter(주로 실제 반복수 보다 1이 적은 반복수를 가진 PCR 산물)가 5~10% 발생하므로 NGS 시퀀싱의 오차 범위를 10% 정도로 설정하였다. 선별된 각 STR allele 별로 반복(repeat) 값들을 정리하였다. 상기 선별된 STR allele 별 반복값을 이용하여 혼재 시료로 구성된 각 개인 STR의 프로파일링을 하고자 하였으며, 각 STR의 혼재된 allele 값들을 엑셀(Excel) 기반의 자동화 분석이 가능하도록 개발한 본 발명의 Mix Analyzer_Ver.1 알고리즘을 이용하여 수행하였다.
Alleles were selected by looking for the number of aligned reads to a minimum of 10% of the total number of STR readings. Strong locus amplification results in 5 to 10% stuttering (a PCR product with a repetition rate of one less than the actual number of repetitions), which is the result of a PCR error normally caused by a short repeating structure. Therefore, the error range of NGS sequencing Was set at about 10%. The repeat values for each selected STR allele are summarized. Profiling of individual STRs composed of mixed samples using the selected STR allele repeat values was performed. Mixed inventive allele values of each STR were subjected to automated analysis based on the Excel Analyzer_Ver.1 algorithm.

<< 실시예Example 2> 엑셀 기반의 차세대 염기서열 데이터 분석 프로그램  2> Excel-based Next Generation Sequence Data Analysis Program MixMix Analyzer_Ver.1 알고리즘을 이용한 혼재 시료 내 개인  Individuals in mixed samples using Analyzer_Ver.1 algorithm STRSTR 분석 analysis

<2-1> "<2-1> " MixMix AnalyzerAnalyzer __ VerVer .1"의 메인화면의 구성.1 "on the main screen

본 발명의 엑셀 기반의 개인 STR 분석 프로그램인 'Mix Analyzer_Ver.1'의 메인화면은 2명의 DNA 시료가 혼재된 샘플 입력값(input) 및 이에 따른 개인 STR의 분석 결과(추정되는 STR 혼재비 및 allele 혼재 양상 등)를 나타내게 된다.The main screen of 'Mix Analyzer Ver. 1', an Excel-based personal STR analysis program of the present invention, includes a sample input value in which two DNA samples are mixed and an analysis result of an individual STR Mixed mode, etc.).

도 1에 나타낸 바와 같이, 본 발명의 'Mix Analyzer_Ver.1'의 메인화면은 하기와 같은 모듈(①~⑦)로 구성되어 있다.
As shown in FIG. 1, the main screen of the 'Mix Analyzer Ver. 1' of the present invention is composed of the following modules (1) to (7).

STR , Y- STR AMELX /Y Input: 상기 <실시예 1>에서 얻은 2명의 DNA 시료가 혼재된 샘플의 선별된 NGS 시퀀싱 데이터(STR 이름, 각 STR의 리딩(reading)값 및 각 allele 사이즈)를 입력한다(분석에러 방지를 위해 공백은 모두 숫자 0을 입력). STR, Y- and STR AMELX / Y Input: the <Example 1> The two DNA samples are screened for the mixed sample NGS sequencing data (STR name, reading of each STR (reading) and the value obtained in each allele size ) (To prevent analysis errors, all spaces are entered with the number 0).

하기 실시예 <2-2>의 Mix ratio 워크시트의 ⑫에서 구한 STR 추정 혼재 비와 Y-STR Deconvolution 워크시트의 ⑤에서 구한 Y-STR 추정 혼재 비와의 평균을 최종 추정 혼재비로 표시하였다. (2) The average of the STR estimated mixed ratio obtained in step 12 of the Mix ratio worksheet in the following example <2-2> and the Y-STR estimated mixed ratio obtained in step 5 of the Y-STR deconvolution worksheet is expressed as a final estimated mixed ratio.

STR Theoretical graph: STR의 이론적인 혼재 양상 그래프(타입 1~타입 9)를 나타내었다. allele가 1개일 경우는 타입 1, allele가 2개일 경우는 타입 2~5, allele가 3개일 경우는 타입 6~8이며, allele가 4개일 경우는 타입 9에 해당한다. STR Theoretical graph : Theoretical plot of STR (Type 1 to Type 9) is shown. Type 1 when allele is 1, type 2 to 5 when allele is 2, type 6 to 8 when allele is 3, and type 9 when there are 4 allele.

STR Real data graph Allele mix type: 상기 메인화면 ①의 입력 값으로부터 도출된 실제 STR 혼재 양상 그래프 및 혼재 타입을 나타낸다. 각 STR들의 allele 리딩 값을 각 STR들의 allele 리딩 값의 합으로 나누어서 상대적인 비율 값으로 표시하였다. 예를 들면, STR 데이터 입력된 CSF1PO(STR)의 allele 1/(allele 1 + allele 2 + allele 3), allele 2/(allele 1 + allele 2 + allele 3) 및 allele 3/(allele 1 + allele 2 + allele 3)의 값을 그래프로 나타낸다. 이를 통해 혼재된 STR allele 타입(타입 1~타입 9)을 결정하여 표시하였다. STR Real data graph and Allele mix type : Indicates the actual STR mixed mode graph and the mixed type derived from the input value of the main screen (1). The allele reading value of each STR is divided by the sum of the allele reading values of each STR, and expressed as a relative ratio value. For example, allele 1 / (allele 1 + allele 2 + allele 3), allele 2 / (allele 1 + allele 2 + allele 3) and allele 3 / (allele 1 + allele 2) of CSF1PO + allele 3) are graphically represented. The combined STR allele types (Type 1 to Type 9) were determined and displayed.

⑤ Y- STR Real data graph: 상기 메인화면 ①의 입력 값으로부터 도출된 실제 Y-STR 혼재 양상 그래프를 나타내며 도출 방식은 상기 ③과 같다. ⑤ Y- STR Real data graph : Graph showing the actual Y-STR mixed mode derived from the input value in the main screen ①, and the derivation method is the same as the above ③.

STR _ Result: 각 STR 별 샘플의 혼재 비, 각 STR 별 샘플의 혼재 비와 상기 메인화면 ②의 STR 추정 혼재 비(Estimated mix ratio)와의 비를 포함한 STR 결과를 우선순위 세 번째까지 나타내었다. STR _ Result: Each STR mix of specific sample rate, the STR results first, including the ratio of the mixture STR estimate of the ratio and the main screen ② mixed rain (Estimated mix ratio) for each STR per sample rank exhibited three to second.

⑦ Y- STR _ Result: 각 STR 별 샘플의 Y-STR 추정 혼재 비(mix ratio)를 포함한 Y-STR 결과를 나타내었다. ⑦ Y- STR _ Result: Y-STR estimation of each specific STR sample mixture exhibited a Y-STR results, including non-(mix ratio).

AMELX /Y_ Result: Y-STR Deconvolution 워크시트의 ⑥에서 결정된 X/X 및 X/Y 성별 결정 결과를 나타내었다. AMELX / Y_ Result : The X / X and X / Y sex determination results determined in ⑥ of the Y-STR Deconvolution worksheet are shown.

상기 혼재된 각 STR allele 들의 NGS 값으로부터 최종 결과 값을 얻는 분석과정은, 본 프로그램의 별개의 6개 워크시트(For data graph, Mix Ratio, 2 allele STRs, Theoretical graph, Rank, Y-STR Deconvolution)의 순차적인 분석을 수행함으로써 구하였다.
The analysis process of obtaining the final result value from the NGS value of each of the mixed STR alleles is based on six separate worksheets (For data graph, Mix Ratio, 2 allele STRs, Theoretical graph, Rank, Y-STR Deconvolution) Of the total population.

<2-2> 2명의 <2-2> Two DNADNA 가 혼재된 시료로부터 각각의 From each sample STRSTR 분석 analysis

본 발명자들은 본 발명의 프로그램을 이용하여 2명의 DNA가 혼재된 시료로부터 각각의 STR을 분석하기 위하여, 상기 <실시예 1>에서 선별된 STR로부터 입력된 리딩값으로 Mix ratio 워크시트 및 2 allele STRs 워크시트를 이용하여 분석을 수행하였다. 본 발명의 Mix ratio 워크시트 및 2 allele STRs 워크시트는 도 2 및 도 3에 나타낸 바와 같이 구성되었다.In order to analyze each STR from a sample in which two DNAs are mixed using the program of the present invention, the present inventors used Mix ratio worksheet and 2 allele STRs as a reading value input from the STR selected in Example 1, Analyzes were performed using worksheets. The Mix ratio worksheet and the 2 allele STRs worksheet of the present invention were constructed as shown in FIG. 2 and FIG.

구체적으로, 2명의 DNA가 혼재된 시료로부터 선별된 STR은 D5S818, D8S1179, D13S317, TH01, D21S11, CSF1PO, D18S51, D2S441, FGA 및 D3S1358이며, 각각의 STR 이름 및 allele 리딩 값을 Mix ratio 워크시트 및 2 allele STRs 워크시트에 입력하였다.
Specifically, the STR selected from the samples containing two DNAs are D5S818, D8S1179, D13S317, TH01, D21S11, CSF1PO, D18S51, D2S441, FGA and D3S1358. 2 allele STRs entered into the worksheet.

ForFor datadata graphgraph 워크시트 Worksheet

STR Data graph 작성하기 위해, 각 STR들의 allele 값을 각 STR들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시하고, 이를 메인화면 시트에 그래프(도 1의 ④)로 나타내었다.
In order to create the STR data graph, the allele value of each STR is divided by the sum of the allele values of the STRs, and is expressed as a relative ratio value, and is represented by a graph (④ in FIG. 1) on the main screen sheet.

Mix ratio 워크시트 : 4 allele 및 3 allele Mix ratio worksheet: 4 allele and 3 allele STRSTR 분석 analysis

도 2에 나타낸 바와 같이, 4 allele인 경우 및 3 allele인 경우의 혼재 비를 구하기 위해 하기와 같은 단계로 분석하였다.
As shown in FIG. 2, in order to obtain the mixed ratio in the cases of 4 alleles and 3 alleles, the following steps were analyzed.

메인화면에 입력한 STR 이름 및 각 STR 별 allele들의 리딩 값들이 다시 나타내었다. ① The STR name entered on the main screen and the reading values of all the STRs by each STR are shown again.

각 STR 별 allele들이 리딩 값을 가질 경우(>0)를 1로 표기하였다(각 STR들의 allele 수를 결정하기 위함). 마지막 라인(sum of allele #)은 각 STR들의 혼재된 allele 수를 표시하였다. (2) When the alleles of each STR have a leading value (> 0), they are denoted by 1 (to determine the number of alleles of each STR). The last line (sum of allele #) indicates the number of alleles in each STR.

메인화면상의 ③ STR Theoretical graph(STR의 이론적인 혼재 양상 그래프. 타입 1~타입 9)의 그래프를 보면 혼재된 allele가 4개인 경우는 타입 9인 것을 알 수 있다. 따라서, 타입 9의 혼재 비는 하기와 같이 구할 수 있다. ③ STR theoretical graph on the main screen (Graph of STR theoretical mixed mode, Type 1 ~ Type 9) shows that type 9 is mixed when there are 4 mixed allele. Therefore, the mixing ratio of type 9 can be obtained as follows.

* 혼재비 = 빨간블럭 / 파란블럭* Mixed Ratio = Red Block / Blue Block

우선 혼재된 allele가 4개인 것, 즉 Mix ratio 워크시트 ②의 마지막 라인(sum of allele #)이 4인 STR을 선별하고 네 개 중 숫자가 큰 allele 2개(파란 블럭)와 작은 allele 2개(빨간 블럭)의 평균값(Avg. of high two 및 Avg. of low two)을 각각 구하고 이들 간의 비율(Ratio(low/high))을 구하여 입력하였다. First of all, there are 4 mixed alleles, that is, the STR of the last line (sum of allele #) in the Mix ratio worksheet ② is selected and 2 large alleles (blue block) and 2 small alleles (Ratio (low / high)) between the average values (red block) (Avg. Of high two and Avg. Of low two)

상기 Mix ratio 워크시트 ③에서 구한 allele 사이 비율의 평균값을 두 샘플의 1차 추정 혼재비로 하였다. (4 ) The average value of the ratio between the alleles obtained from the Mix ratio worksheet (3) was used as the first estimated mixture ratio of the two samples.

상기 Mix ratio 워크시트의 ④에서 혼재된 샘플의 allele 수가 4개인 STR을 이용하여 구한 두 샘플의 1차 추정 혼재 비를 보완하기 위해 allele 수가 3개인 STR을 이용하여 두 샘플의 추정 혼재 비를 구하였다(⑤~⑪).In order to compensate the first-order estimated mixture ratio of two samples obtained by using STR with 4 allele counts mixed in the Mix ratio worksheet ④, estimated mixed ratios of two samples were obtained by using STR with 3 allele counts (⑤ ~ ⑪).

Allele 수가 3개인 STR(Mix ratio 워크시트의 ②의 마지막 라인(sum of allele #)이 3인 STR)을 선별하고, 메인화면의 ③ STR Theoretical graph(STR의 이론적인 혼재 양상 그래프. 타입 1~타입 9)의 그래프를 참조하여 allele 수가 3개인 경우에 해당하는 타입 6~타입 8 중에서 각 타입에 해당하는 두 샘플의 혼재 비를 구하였다. STR (Experimental Mixing Pattern Graph of STR) ③ STR theoretical graph (STR of the main screen, type 1 ~ Type 9), the mixed ratio of two samples corresponding to the respective types of the type 6 to the type 8 corresponding to the case where the number of alleles is 3 is obtained.

상기 Mix ratio 워크시트의 ⑤에서 allele 수가 3개인 STR들의 각 타입 별 혼재 비를 구하기 전에 3개의 allele 리딩 수를 크기순(Top 1, Top 2, Top 3)으로 배열하였고 크기가 큰 순서대로 x, y, z값으로 나타내었다. 두 샘플의 1차 추정 혼재 비가 1:0.5 이상일 경우 타입 8의 계산에서 분모가 0이 되는 계산상의 오류를 피하기 위해 오른쪽 표의 값을 활용하였다. 각 타입별 혼재비 계산 방법은 다음과 같다. ⑥ In the Mix ratio worksheet ⑤, the three allele readings are arranged in order of size (Top 1, Top 2, Top 3) before finding the mixed ratio of each type of STRs with three alleles, , y, and z values. The values in the table on the right are used to avoid computational errors where the denominator becomes zero in the calculation of Type 8 when the first-order estimated mixture ratio of the two samples is 1: 0.5 or more. The calculation method of the mixed ratio for each type is as follows.

* 혼재비 = 빨간블럭 / 파란블럭* Mixed Ratio = Red Block / Blue Block

타입 6의 경우, (y+z)/x으로 구할 수 있다. In the case of Type 6, it can be obtained as (y + z) / x.

타입 7의 경우, ((x-y)+z)/((x-z)+y)로 구할 수 있다.In the case of Type 7, it can be obtained from ((x-y) + z) / ((x-z) + y).

타입 8의 경우, b/a<0.5일 경우 z/(x+y), b/a>0.5일 경우는 x/(y+z)로 구할 수 있다(a=파란블럭, b=빨간블럭). In the case of Type 8, z / (x + y) for b / a <0.5 and x / (y + z) for b / a> 0.5 (a = blue block and b = red block) .

상기 Mix ratio 워크시트의 ⑤에서 구한 allele 수가 3개인 STR의 타입 별 혼재비 및 Mix ratio 워크시트의 ④에서 구한 allele 수가 4개인 STR의 1차 추정 혼재 비의 비율을 구하였다. 이는 유사한 혼재 비를 골라서 메인화면의 ③ STR Theoretical graph에 표시된 각 타입에 해당되는 각 STR의 타입을 구하기 위한 것이다. The ratio of the first estimated mixed ratio of STR with four alleles obtained in ④ of the mix ratio worksheet and the total number of alleles obtained from ⑤ of the above Mix ratio worksheet was calculated. This is to find the type of each STR for each type shown in the STR theoretical graph on the main screen by selecting a similar mixing ratio.

상기 Mix ratio 워크시트의 ⑤에서 구한 allele 수가 3개인 STR의 타입 별 혼재 비가 Mix ratio 워크시트의 ④에서 구한 allele 수가 4개인 STR의 1차 추정 혼재 비와의 차이가 +/- 15% 이내의 것만을 선별하여 Mix ratio 워크시트의 ⑤의 혼재 비를 재표시하였고, 그 외에는 0으로 표시하였다. 즉, 상기 Mix ratio 워크시트의 ⑦의 값이 0.85보다 크고 1.15보다 작은 allele를 선별한다. The difference ratio of the total number of all types of STR with 3 alleles calculated in ⑤ of the Mix ratio worksheet is less than +/- 15% from the first estimated mixture ratio of 4 alleles obtained in ④ of Mix ratio worksheet. And the mixing ratio of ⑤ in the Mix ratio worksheet is re-displayed, and the others are marked with "0". That is, an allele whose value of ⑦ in the Mix ratio worksheet is larger than 0.85 and smaller than 1.15 is selected.

상기 Mix ratio 워크시트의 ⑧에서 선별된 allele가 있는 STR을 1로 표시하여 구분하였다. The STR with alleles selected in ⑧ of the above Mix ratio worksheet is marked as 1 and classified.

상기 Mix ratio 워크시트의 ⑧에서 선별된 allele들의 STR 별 합을 나타내었다. 이는 allele가 3개인 STR 중, 1차 추정 혼재 비에 맞는 allele를 가진 STR을 선별할 때 사용된다. The total sum of alleles selected in ⑧ of Mix ratio worksheet is shown. It is used to select the STR with alleles of 3 alleles matching the first estimated mixed ratio.

상기 Mix ratio 워크시트의 ⑩에서 allele가 3개인 STR들에서의 평균 혼재 비를 구하였다. ⑪ In the mix ratio worksheet ⑩, the average mixing ratio in STRs with three alleles was obtained.

상기 Mix ratio 워크시트의 ④에서 구한 allele가 4개인 STR의 혼재 비와 상기 Mix ratio 워크시트의 ⑪에서 구한 allele가 3개인 STR의 혼재 비의 평균을 구함으로써 최종적으로 STR 추정 혼재 비를 구하여 나타내었다. The ratio of STR with four alleles obtained in ④ of the Mix ratio worksheet and the ratio of STRs with three alleles obtained from ⑪ in Mix ratio worksheet are calculated to finally obtain the STR estimated mixture ratio .

메인화면 ⑥에 입력한 각 STR 별 샘플의 혼재 비 및 각 STR 별 샘플의 혼재 비와 상기 Mix ratio 워크시트 ⑫의 STR 추정 혼재 비(Estimated mix ratio)와의 비를 구하기 위하여, 상기 Mix ratio 워크시트의 ⑤에서 allele가 3개인 STR들의 구성형태별 혼재 비를 상기 Mix ratio 워크시트의 ⑫에서 구한 STR 추정 혼재비와의 차이를 구하여 나타내었다. In order to obtain the ratio of the mixed ratio of the samples of each STR inputted to the main screen ⑥ and the STR estimated mixture ratio of the Mix ratio worksheet ⑫ to the Mix ratio worksheet , The difference between the mixed ratio of STR types with three alleles in the ⑤ is compared with the STR estimated mixture ratio obtained in the Mix ratio worksheet ⑫.

상기 Mix ratio 워크시트의 ⑬에서 구한 차이 값 중 2nd 및 3rd 순으로 낮은 값에 해당하는 상기 Mix ratio 워크시트의 ⑤의 구성형태별 혼재 비를 왼쪽 박스 및 오른쪽 박스에 각각 나타내었다. (14 ) Mixing ratios according to the configuration type of (5) of the Mix ratio worksheet corresponding to the second and third values of the difference values obtained in (13) of the Mix ratio worksheet are shown in the left box and the right box, respectively.

상기 Mix ratio 워크시트의 ⑧에서 구한 allele가 3개인 STR들의 혼재 비를 우선순위 1st 개별 STR 혼재 비로 정하고 첫째 열에, 상기 Mix ratio 워크시트의 ⑭에서 구한 우선순위 2nd 및 3rd 혼재 비 값을 각각 두 번째, 세 번째 열에 각각 나타내었다. The ratio of STRs with three alleles obtained in ⑧ of the above Mix ratio worksheet is set as the priority 1st, 1st and 2nd STR ratios. In the first column, the priority 2nd and 3rd ratio ratios obtained from ⑭ of Mix ratio worksheet are set to 2 And the third column, respectively.

Figure 112015038083147-pat00007
상기 Mix ratio 워크시트의 ⑦의 구성형태별 혼재 비와 추정 혼재비 표에서 상기 Mix ratio 워크시트의 ⑬에서 구한 차이 값 중 1st, 2nd 및 3rd 값에 해당하는 위치의 비율 값을 왼쪽 박스, 가운데 박스 및 오른쪽 박스에 각각 나타내었다.
Figure 112015038083147-pat00007
In the Mix ratio worksheet, ratio values of the positions corresponding to 1st, 2nd and 3rd values among the difference values obtained in the Mix ratio worksheet in the mixture ratio by configuration type and the estimated mixture ratio table in the Mix ratio worksheet are shown in the left box, Respectively.

Figure 112015038083147-pat00008
상기 Mix ratio 워크시트의
Figure 112015038083147-pat00009
에서 구한 우선순위 1st, 2nd 및 3rd 비율 값을 각각 첫 번째, 두 번째, 세 번째 열에 각각 나타내었다.
Figure 112015038083147-pat00008
The Mix ratio worksheet
Figure 112015038083147-pat00009
The first, second and third priority ratios obtained from the first, second and third columns, respectively.

2 allele 2 allele STRsSTRs 워크시트 : 2 allele  Worksheet: 2 allele STRSTR 분석 analysis

도 3에 나타낸 바와 같이, 2 allele인 경우의 혼재 비를 구하기 위해 하기와 같은 단계로 분석하였다.
As shown in Fig. 3, in order to obtain the mixed ratio in the case of 2 alleles, the following steps were analyzed.

① 및 ② 2개의 allele를 갖는 타입 2~5의 각 allele들의 샘플 구성형태(①의 가운데 칸 및 ② 바 그래프 참조)와 샘플별 총 시퀀싱 리딩(sequencing reading) 수의 값을 구하는 식(①의 오른쪽 칸)을 나타내었다. ① and ② 2 sample configurations of each allele of type 2-5 having a single allele (the center of ① compartment and ② see bar graph) and the sample by the total sequencing reading (sequencing reading) to obtain the number of values in the expression (① right of Respectively.

타입 2의 경우, Big allele(aab)에서 Small allele(b)를 뺀 값(B-S)이 파란블럭 값이 되며 Small allele(b)의 2배(2*S)를 한 것이 빨간블럭 값이 된다.In case of type 2, the value obtained by subtracting the small allele (b) from the big allele (b) becomes the blue block value, and the small block (small) 2 times the small allele (b) becomes the red block value.

타입 3의 경우, Big allele(aa) 및 Small allele(bb)가 각각 파란블럭 및 빨간블럭 값을 나타낸다.For type 3, Big allele (aa) and Small allele (bb) represent blue and red block values, respectively.

타입 4의 경우, Big allele(abb)에서 Small allele(a)를 뺀 값(B-S)이 빨간블럭 값이 되며 Small allele(a)의 2배(2*S)를 한 것이 빨간블럭 값이 된다.In case of type 4, the value obtained by subtracting the small allele (a) from the big allele (a) is the red block value, and the small block (2 * S) smaller than the small allele (a) is the red block value.

타입 5의 경우, 이론상 혼재된 allele 값이 같으므로 파란블럭과 빨간블럭 값을 구할 수 없다.In the case of Type 5, the blue blocks and red block values can not be obtained because theoretically the mixed allele values are the same.

각 STR 별 입력된 allele 값이 2개의 allele size로 나타나는 STR 만의 allele 값을 큰 것(Large)과 작은 것(Small)으로 구분하여 시퀀싱 리딩(sequencing reading) 수가 큰 순으로 재배치하였다. The allele value of STR, in which allele values entered for each STR are represented by two allele sizes, is rearranged in descending order of the number of sequencing readings by dividing into large (small) and small (small) sizes.

2 allele STRs 워크시트 ①의 오른쪽 칸 계산식을 바탕으로 샘플별 총 시퀀싱 리딩 수의 값을 타입 2~4에 대하여 구하였다. 두 샘플들의 총 시퀀싱 리딩 수의 값을 이용하여 혼재 비율을 타입별로 구한(A/B 열) 후, Mix ratio 워크시트 ⑫에 표시된 혼재 비율 값과의 차이를 비율로 계산하여 (A/B)/Mix R 열에 표시하였다. 2 allele STRs Based on the formula on the right-hand side of the worksheet ①, the total number of sequencing readings per sample was obtained for types 2 to 4. (A / B) / (A / B) / (A / B) / (A / B) Mix R column.

Mix ratio 워크시트의 ⑫에 표시된 혼재 비율 값을 이용하여 구한 각 2 allele STR 들의 type 별 크고 작은 두 allele 사이의 비율의 +/- 30% 범위 내에 실제 데이터(2 allele STRs 워크시트 ③ 부분)의 크고 작은 두 allele 사이의 비율이 포함되는 것으로 선별되면 각 type 번호를 할당하여 기재하였다. 두 allele 시퀀싱 리딩 수 값의 비율이 +/- 5% 범위 내에 있을 경우 타입 5를 할당하였다. Mix ratio For the actual data (2 allele STRs worksheet ③ part) within +/- 30% of the ratio between two large and small alleles of each type of 2 allele STRs calculated by the mixed ratio value shown in ⑫ of the worksheet If the ratio between the two large and small alleles is selected, they are assigned with each type number. Type 5 was assigned if the ratio of the number of two allele sequencing readings was within +/- 5% range.

메인화면 ⑦에 입력한 각 Y-STR 별 샘플의 혼재 비 및 각 Y-STR 별 샘플의 혼재 비와 상기 Mix ratio 워크시트 ⑫의 STR 추정 혼재 비(Estimated mix ratio)와의 비를 구하기 위하여, 상기 2 allele STRs 워크시트 ④에서 allele가 2개인 STR들의 구성형태별 혼재 비(A/B 열)를 상기 Mix ratio 워크시트의 ⑫에서 구한 STR 추정 혼재비와의 차이를 구하여 나타내었다. 타입 5의 경우는 혼재비를 계산할 수 없으므로 하기 2 allele STRs 워크시트 ⑦ 및 ⑧에서 선별되지 않도록 충분히 큰 수 100을 표기하였다. (6 ) In order to obtain the ratio of the mixed ratio of the samples for each Y-STR and the mixed ratio of the samples for each Y-STR inputted to the main screen ⑦ to the STR estimated mix ratio of the Mix ratio worksheet ⑫, 2 allele STRs The difference between the STR estimation mixed ratio obtained by ⑫ in the Mix ratio worksheet is obtained by plotting the mixed ratio (A / B column) of each type of STR with two alleles in the worksheet ④. In the case of type 5, since the mixing ratio can not be calculated, a sufficiently large number of 100 is indicated so as not to be selected in the following 2 allele STRs worksheets ⑦ and ⑧.

메인화면 ⑦에 입력한 각 Y-STR 별 샘플의 혼재 비를 구하기 위하여, 상기 2 allele STRs 워크시트의 ⑥에서 구한 차이 값이 작은 값부터 1st, 2nd 및 3rd에 해당하는 구성형태의 혼재 비(A/B 열) 값을 Rank1, Rank2, Rank3 Ratio 열에 각각 나타내었다. ⑦ In order to obtain the mixed ratio of the samples for each Y-STR input in the main screen ⑦, the mixing ratio of the configuration type corresponding to 1st, 2nd and 3rd from the small value obtained from ⑥ of the 2 allele STRs worksheet A / B column) values are shown in Rank 1, Rank 2, and Rank 3 Ratio columns, respectively.

메인화면 ⑦에 입력한 각 Y-STR 별 샘플의 혼재 비와 상기 Mix ratio 워크시트 ⑫의 STR 추정 혼재 비와의 비를 구하기 위하여, 상기 2 allele STRs 워크시트의 ⑥에서 구한 차이 값이 작은 값부터 1st, 2nd 및 3rd에 해당하는 구성형태의 Mix ratio 워크시트의 ⑫에서 구한 STR 추정 혼재비 대비 상기 2 allele STRs 워크시트 ④의 혼재 비(A/B 열)의 비율값을 Similarity Rank1, Rank2, Rank3 열에 각각 나타내었다.
(8 ) In order to obtain the ratio between the mixed ratio of the samples for each Y-STR input in the main screen (7) and the STR estimated mixed ratio of the Mix ratio worksheet (12), the difference value obtained in (Ratio A / B) of the 2-allele STRs worksheet ④ with respect to the STR estimated mixture ratio obtained in ⑫ of the Mix ratio worksheet of the configuration types 1st, 2nd, and 3rd from Similarity Rank1, Rank2, Rank3 column respectively.

Theoretical graph 워크시트Theoretical graph worksheet

도 4에 나타낸 바와 같이, 상기 분석 결과를 토대로 두 사람 DNA 샘플이 혼재되었을 때 구성 가능한 allele의 조합(도 4의 A) 및 Theoretical graph(도 4의 B)를 나타내었다. As shown in FIG. 4, combinations of configurable alleles (FIG. 4A) and theoretical graph (FIG. 4B) were shown based on the analysis results.

도 4의 A : 두 사람(x 및 y)의 DNA 샘플이 혼재되었을 경우 가능한 allele의 구성은 9가지 경우의 수가 가능하다는 것을 나타내었다. 각 경우에 대해 순서대로 타입 1~9를 할당하였다.A of FIG. 4: When two (x and y) DNA samples were mixed, the configuration of possible alleles indicated that a number of nine cases was possible. Types 1 to 9 were assigned in order for each case.

도 4의 B : 각 타입의 allele size 별(H to L) allele 구성 형태와 각 allele들의 상대적 높이를 수치화(Hight)하였다. 이를 메인화면 시트에 그래프(도 1의 ③)로 나타내었다.
FIG. 4B: Hight-to-L allele configuration type and relative height of each allele type are quantified (Hight). This is indicated by a graph (③ in Fig. 1) on the main screen sheet.

Rank 워크시트Rank worksheet

도 5에 나타낸 바와 같이, 혼재된 시료의 allele 타입(Mixed allele type)을 결정하기 위해 하기와 같이 수행하였다.
As shown in FIG. 5, to determine the allele type (mixed allele type) of mixed samples, the following procedure was performed.

메인화면에 입력한 혼재 allele들의 리딩(reading) 값들을 크기순으로 재배치하였다. ① The reading values of the mixed allele entered in the main screen were rearranged in order of size.

각 STR 내에서 혼재 allele들의 구성비(각 allele의 리딩값/모든 allele 리딩 값의 합)를 나타내었다. 이는 각 타입 별 이론적 allele 구성비(도 4의 Theoretical graph 워크시트 H to L 열 내용)와 패턴 유사성(correlation)을 비교하기 위함이다. (2) The composition ratio of the mixed alleles in each STR (sum of alleles / alleles) is shown. This is to compare the pattern similarity with the theoretical allele composition ratios for each type (column H to L in the theoretical graph worksheet in FIG. 4).

상기 Rank 워크시트 ②에서 구한 각 STR 내 혼재 allele들의 구성비 패턴과 각 9가지 allele 혼재 타입 별 이론적 allele 구성비(도 4의 Theoretical graph 워크시트 H to L 열) 패턴과의 유사성(correlation) 값을 구하였다. (3 ) The correlation value between the composition ratio pattern of the mixed allele in each STR obtained from the Rank worksheet ( 2) and the theoretical allele composition ratio of each of the nine allele mixed types (the theoretical graph worksheet H to L column in FIG. 4) Respectively.

④~⑤ 실제 데이터 분석으로 구한, 해당 STR이 갖는 allele 개수와 동일한 allele 수를 갖는 타입 중에서 가장 유사성(correlation) 값이 높은 타입을 선별하기 위하여 ①번에서 0이 아닌 값을 갖는 allele를 ⑤번에 1로 표시하고, 9가지 타입들 중 ⑤번의 합과 같은 수의 allele를 갖는 타입들의 유사성(correlation) 값을 선별하여 ④에 표시하였다. ④ ~ ⑤ In order to select the type with the highest correlation value among the types with the same number of alleles as the number of alleles of the corresponding STR obtained from the actual data analysis, 1, and the correlation values of the types with the same number of alleles as the sum of ⑤ of the nine types are selected and displayed in ④.

상기 Rank 워크시트 ④번에 선별된 유사성(correlation) 값 중 가장 높은 값을 갖는 타입이 혼재시료 내 해당 STR의 실제 타입일 가능성이 가장 높은 것으로 가정하고 Rank 워크시트 ⑥의 1st 표식 밑에 각 STR들의 1차 추정 allele 타입을 표시하였다. Assuming that the highest value among the correlation values selected in the Rank worksheet ④ is most likely to be the actual type of the STR in the mixed sample, The primary estimated allele type is indicated.

상기 Rank 워크시트 ⑥에서 1차 추정 allele 타입으로 결정된 값들 중 allele 수가 2개인 STR들의 타입 결정에 정확성을 더하는 방안으로써, 2 allele STR 워크시트에서 구한 값(도 3의 ⑦)과 일치하는 경우에만 STR 타입을 할당하여 Rank 워크시트 ⑦번 열에 표시하였다. (7 ) In order to add accuracy to the type determination of the STRs whose number of alleles is two among the values determined as the first-order estimated allele types in the Rank worksheet (6), only when they match the values obtained in the 2 allele STR worksheet The STR type is assigned and displayed in column ⑦ of the Rank worksheet.

상기 Rank 워크시트 ⑥에서 1차 추정 allele 타입으로 결정된 값들 중 allele 수가 3개인 STR들의 타입결정에 정확성을 더하기 위해, 도 2의 Mix ratio 워크시트의 ⑩에 선별된(1로 표시된) 경우에만 STR 타입을 할당하여 Rank 워크시트 ⑧에 표시하였다. (8 ) In order to add accuracy to the type determination of the STRs having three alleles among the values determined as the primary estimated allele types in the Rank worksheet (6), only STR Type is assigned and displayed in Rank worksheet ⑧.

allele 수가 2개 혹은 3개인 STR 중, 상기 Rank 워크시트 ⑦ 및 ⑧에서 선별된 것만을 ⑨에 표시하였다. 이는 allele 수가 2개 혹은 3개인 STR 중 조건에 맞지 않는 STR의 allele 값은 DNA 프로파일링(profiling)에서 제외시키기 위함이며, 또한 allele가 1개인 타입 1과 allele 수가 4개인 타입 9를 구분함으로써 실제 STR 타입일 가능성이 2번째(Rank 워크시트 ⑩의 2nd열) 혹은 3번째(Rank 워크시트⑩의 3rd열) 높은 경우를 결정할 때 입력오류 발생을 방지하기 위함이다. ⑨ Of the STRs with two or three alleles, only those selected in the Rank worksheets ⑦ and ⑧ are shown in ⑨. This is to exclude the allele value of the STR that does not meet the condition from the profiling of DNA among two or three alleles with the number of alleles. In addition, by distinguishing the type 1 with one allele and the type 9 with four alleles, This is to prevent the occurrence of input errors when determining the possibility of the type being high (the 2nd column of the Rank worksheet ⑩) or the third (the 3rd column of the worksheet ⑩).

최종 결정된 혼재시료 내 각 STR들의 allele 구성 타입을 나타내었다. 본 발명의 분석 알고리즘에서는 해당 STR의 실제 타입일 가능성이 가장 높은 1st 열의 타입에 대한 분석 결과만을 메인화면(도 1)에 표시하였다. Allele configuration type of each STR in the final mixed sample is shown. In the analysis algorithm of the present invention, only the analysis result of the type of the 1st column which is most likely to be the actual type of the STR is displayed on the main screen (FIG. 1).

혼재된 allele가 구성하고 있는 각 샘플(혼재 시료를 구성하고 있는 두 사람)들의 allele를 샘플 별로 할당하기 위해 혼재 시료에서 큰 비율로 존재하는(major) 샘플 A와 작은 비율(minor)의 샘플 B가 가지는 allele size들의 타입 별 이론적인 값을 Theoretical graph(도 5의 Rank 워크시트 아래 부분의 bar 그래프)를 참조하여 할당하여 표로 나타내었다. Allele size 1은 가장 큰 시퀀싱 리딩(sequencing reading) 값을 갖는 allele이고, 4는 가장 작은 값을 갖는 allele이다. Sample A, which is present in large proportion in the mixed sample, and sample B in small proportion (minor) in order to allocate the allele of each sample constituted by the mixed allele (two persons constituting the mixed sample) (The bar graph in the lower part of the Rank worksheet in FIG. 5) is allocated to the theoretical graphs of the allele sizes of the allele sizes of the graphs. Allele size 1 is the largest allele with the largest sequencing reading, and 4 is the smallest allele.

실제 시퀀싱(sequencing) 결과 분석으로부터 도출된 각 STR 별 allele 타입을 바탕으로 STR 별 allele size 값을 allele 크기로 표시하였다. ⑫ The allele size value of STR is shown as the allele size based on the allele type of each STR derived from the actual sequencing result analysis.

상기 Mix ratio 워크시트의 ⑮ 및 ?에서 구한 allele 수가 3개인 STR의 구성형태별 혼재 비 및 STR 추정 혼재비와의 비율 값을 우선순위별로 재배열하였다. 각 STR 별 위에서부터 우선순위가 1, 2, 3번째로 배열하였다. The ratios of the mixed type ratio and the STR estimated mixed ratio of STR with 3 alleles obtained in ⑮ and? Of the Mix ratio worksheet were rearranged in order of priority. Priority rankings are arranged from 1 st, 2 nd and 3 rd from the top of each STR.

상기 2 allele STRs 워크시트 ⑦ 및 ⑧을 참조로 하여 allele 수가 2개인 STR의 경우도 상기 Rank 워크시트 ⑬과 같이 방법으로 수행하였다. (14) The 2 allele STRs The STR with two alleles with reference to worksheets (7) and (8) was also performed in the same manner as in the Rank worksheet (13).

allele 수가 4개인 STR의 경우 혼재비가 구해질 경우의 수가 한가지뿐이므로 allele 수가 4개인 STR의 경우에 상기 Mix ratio 워크시트의 ③의 혼재 비를 표시하였다. ⑮ In case of STR with 4 alleles, there is only one case where the mixed ratio is obtained. Therefore, in case of STR with 4 alleles, mixed ratio of ③ of Mix ratio worksheet is indicated.

Figure 112015038083147-pat00010
allele 수가 1개인 STR의 경우 혼재 비를 구할 수 없으므로 ‘-’로 표시되도록 하였다.
Figure 112015038083147-pat00010
In case of STR with 1 allele number, '-' is indicated because it is not possible to obtain mixed ratio.

STRSTR 분석 최종 결과 Analysis Final result

상기 도 5의 Rank 워크시트 ⑫에 표시된 샘플 별 각 STR 구성 allele 크기 값을 입력된 allele size 값을 참조로 할당함으로써 최종 분석 결과를 도 1의 메인화면 ⑥ STR_RESULT에 나타내었다.The final analysis result is shown in the main screen (6) STR_RESULT of FIG. 1 by allocating the STR size allele size value for each sample shown in the Rank worksheet 12 of FIG. 5 with reference to the inputted allele size value.

상기 도 5의 Rank 워크시트 ⑬~

Figure 112015038083147-pat00011
에 표시된 STR 별 혼재비 등의 값을 참조로 할당함으로써 최종 분석 결과를 도 1의 메인화면 ⑥ STR_RESULT에 나타내었다.
The Rank worksheets &lt; RTI ID = 0.0 &gt;
Figure 112015038083147-pat00011
, And the final analysis result is shown in the main screen 6 STR_RESULT of FIG.

<2-3> 2명의 남자 <2-3> Two men DNADNA 가 혼재된 시료로부터 각각의 From each sample STRSTR 분석 analysis

본 발명자들은 2명의 남자 DNA가 혼재된 시료로부터 각각의 STR을 분석하기 위해 본 발명의 프로그램을 이용하여 하기와 같이 분석을 수행하였다.
The present inventors conducted the following analysis using the program of the present invention in order to analyze each STR from a sample containing two male DNAs.

DeconvolutionDeconvolution 워크시트 Worksheet

도 6에 나타낸 바와 같이, 혼재된 시료 내의 Y-STR allele를 분석하기 위해 하기와 같은 과정을 수행하였다. As shown in FIG. 6, the following procedure was performed to analyze the Y-STR allele in the mixed sample.

메인화면(도 1)에서 입력한 Y-STR allele들의 리딩(reading) 값을 왼쪽 패널에 크기 순으로 불러오고, 해당하는 각 allele size 값을 오른쪽 패널에 불러왔다. ① The reading values of the Y-STR alleles entered in the main screen (Fig. 1) are loaded in the order of size on the left panel, and each corresponding allele size value is loaded in the right panel.

상기 Deconvolution 워크시트 ①의 allele 값을 각 Y-STR들의 allele 값의 합으로 나누어서 상대적인 비율 값으로 표시하여 STR 내 각 allele들의 비율을 구하였다. Y-STR Data graph 작성하기 위해 이 allele 비율을 메인화면(도 1)의 ⑤ 부분에 그래프로 나타내었다. The allele value of the deconvolution worksheet ① is divided by the sum of the allele values of each Y-STR, and expressed as a relative ratio value to obtain the ratio of each allele in the STR. This allele ratio is plotted in the ⑤ section of the main screen (Fig. 1) to create the Y-STR data graph.

상기 Deconvolution 워크시트 ①의 왼쪽패널의 allele 값이 0보다 클 때 1을 할당하고 이들의 값을 합하여 각 STR들이 갖는 allele 수를 구하였다. ③ When the allele value on the left panel of Deconvolution worksheet ① is larger than 0, 1 is assigned and the sum of these values is used to obtain the number of alleles of each STR.

상기 Deconvolution 워크시트 ③의 오른쪽 아래에 나타낸 STR들이 갖는 allele 수가 최대 2인 경우, Deconvolution 워크시트 ①의 오른쪽패널로부터 allele size 값을 가져와서 결과를 표시하고, 이를 메인 워크시트(도 2)의 ⑦에 표시하였다. (4) If the number of alleles in the right bottom of the Deconvolution worksheet (3) is 2, the allele size value is taken from the right panel of the Deconvolution worksheet (1) and the result is displayed. Respectively.

allele가 2개인 Y-STR들의 혼재비의 평균을 구하였다. 이를 상기 Mix ratio 워크시트 ⑫의 STR 추정 혼재비와의 평균값을 최종 혼재비로 결정하여 메인 워크시트(도 2)의 ②에 나타내었다. The average of the mixed ratios of Y-STRs with two alleles was calculated. The average value of the STR ratio estimated mixture ratio of the Mix ratio worksheet (12) was determined as a final mixed ratio and is shown in (2) of the main worksheet (FIG. 2).

X 및 Y 염색체를 특징 짓는 AMELX 및 AMEY allele 값을 이용하여 혼재시료를 구성하고 있는 2사람의 성별을 확인하였다. 2명의 혼재시료 내 남녀 구성의 경우의 수 4가지(B/A= XX/XX, XX/XY, XY/XX, XY/XY)를 AMELY allele 존재여부 및 AMELX allele 대비 AMELY allele 비율을 이용하여 구하고 이 값이 상기 Deconvolution 워크시트 ⑤에 표시된 두 allele의 혼재비와 일정범위 내에 해당되는 경우에 대한 결과를 Main 워크시트 ⑧에 나타내었다. ⑥ The AMELX and AMEY allele values that characterize the X and Y chromosomes were used to identify the sexes of the two persons constituting the mixed sample. (B / A = XX / XX, XX / XY, XY / XX, and XY / XY) were obtained using the AMELY allele ratio relative to the AMELY allele and the presence of the AMELY allele in the two mixed samples The results of the case where this value falls within a certain range and the mixed ratio of the two alleles shown in the Deconvolution worksheet ⑤ are shown in the main worksheet ⑧.

2명의 혼재시료 내 남녀 구성의 4가지 경우의 수 각각에 대한 AMELX allele 대비 AMELY allele 비율은 다음과 같이 구하였다: The AMELY allele ratio to the AMELX allele for each of the four cases of male and female composition in the two mixed samples was calculated as follows:

A=X/X, B=X/X일 경우, AMELY allele가 0일 때; When A = X / X, B = X / X, when AMELY allele is 0;

A=X/X, B=X/Y일 경우, AMELY 값을 AMELX와 AMELY 값의 차이로 나눈 값이 Deconvolution 워크시트 ⑤에 표기된 Y-STR 혼재비의 +/- 50% 내에 해당될 때; When A = X / X and B = X / Y, when the AMELY value divided by the difference between AMELX and AMELY values falls within +/- 50% of the Y-STR mixture ratio indicated in Deconvolution worksheet ⑤;

A=X/Y, B=X/X일 경우, AMELX와 AMELY 값의 차이를 AMELY 값의 두 배 값으로 나눈 값이 Deconvolution 워크시트 ⑤에 표기된 Y-STR 혼재비의 +/- 50% 내에 해당될 때; If A = X / Y and B = X / X, the difference between the AMELX and AMELY values divided by twice the AMELY value is within +/- 50% of the Y-STR mixture ratio indicated in the Deconvolution worksheet When it becomes;

A=X/Y, B=X/Y일 경우, AMELY 값을 AMEL 값으로 값이 0.9~1.0 내에 해당될 때. When A = X / Y and B = X / Y, AMELY value is AMEL value and the value falls within 0.9 ~ 1.0.

Claims (6)

1) "데이터 입력 단계"로서,
2명의 DNA 혼재 시료로부터 얻은 차세대 유전체 해독기술(Next generation sequencing; NGS) 데이터를 alignment 프로그램으로 분석하여, 혼재된 각 짧은연쇄반복(short tandem repeat; STR)의 각 allele에 대하여 NGS 데이터로부터 'reading 된 횟수의 값'을 구하고,
상기 STR 이름, 각 STR allele의 NGS 데이터로부터 'reading 된 횟수의 값' 및 각 STR allele 내의 동일한 서열의 3 내지 4개의 염기가 반복해서 나타나는 횟수인 '반복값'을 INPUT 패널에 입력하는 단계;
2) "혼재 비율 계산 단계"로서,
상기 단계 1)의 입력된 값으로부터 상기 '반복값'이 서로 다른 4 개의 혼재된 allele를 가진 STR을 선별하고, 각 STR의 'reading된 횟수의 값'이 큰 allele 2개와 작은 allele 2개의 'reading된 횟수'의 '평균값'으로부터 '혼재비'를 구하고, 상기 각 STR의 '혼재비'의 평균을 구한 후,
2명의 DNA가 섞인 혼재 시료의 STR에 대하여, 서로 다른 allele의 수에 따른 '이론적인 allele들의 구성 형태'의 하기로 표시되는 9가지 타입에 있어서,
Figure 112015126908444-pat00026
,
'서로 다른 3개의 혼재된 allele를 가지는 STR'의 '이론적인 allele들의 구성 형태' 6내지 8 타입' 각각에 대해 NGS 데이터에서의 각 allele의 'reading된 횟수의 값'을 이용하여 구한 이론적인 혼재비 중, 상기 '반복값이 서로 다른 4 개의 allele를 가진 STR'들로부터 구한 평균 '혼재비'와 차이가 +/- 15% 이내의 것만을 선택하고, 이를 바탕으로 상기 '반복값이 서로 다른 3 개의 혼재된 allele를 가지는 STR'들의 평균 '혼재비'를 구하여,
상기 '반복값이 서로 다른 4 개의 혼재된 allele를 가진 STR'들로부터 구한 평균 '혼재비'와 '반복값이 서로 다른 3 개의 혼재된 allele를 가지는 STR'들로부터 구한 평균 '혼재비'의 평균값을 구하는 단계;
3) "2 allele STRs 분석 단계"로서,
'반복값이 서로 다른 2개의 allele를 가지는 STR'에서 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값'을 큰 것과 작은 것으로 구분하여 'reading된 횟수의 값'이 큰 순으로 재배치한 후,
2명의 DNA가 섞인 혼재 시료의 STR에 대하여, 서로 다른 allele의 수에 따른 상기 '이론적인 allele들의 구성 형태' 1 내지 9 타입에 있어서,
'서로 다른 2개의 혼재된 allele를 가지는 STR'의 '이론적인 allele들의 구성 형태' 2 내지 5 타입' 각각에 대해 NGS 데이터에서의 각 allele의 'reading된 횟수의 값'을 이용하여 구한 이론적인 혼재비가 상기 단계 2)에서 구한 값의 +/- 30% 범위 내에 포함되는 것을 만족하는 allele들의 '구성 형태 타입'을 결정하는 단계;
4) "이론상 STR 그래프 작성 단계"로서,
시료에 2명의 DNA가 혼재되어 있을 경우, 모든 이론적인 allele들의 상기 '구성 형태 타입' 각각에 대하여,
상기 단계 2)에서 구한 최종 '혼재비'를 기초로 2명의 각 allele의 '구성 형태 타입' 및, 수치화한 각 allele의 상대적 비율값을 그래프로 표시하는 단계;
5) "STR 그래프 작성 단계"로서, STR을 구성하는 각 allele들을
STR을 구성하는 각 allele의 NGS 데이터로부터 'reading된 횟수의 값'을 STR을 구성하는 각 allele의 NGS 데이터로부터 'reading된 횟수의 값'의 총합으로 나눈 상대적인 비율 값으로 표시하는 단계;
6) "각 STR 혼재 allele들의 '구성 형태 타입' 최종 결정 단계"로서,
혼재 allele들의 NGS 데이터로부터 'reading된 횟수의 값'들을 크기 순으로 재배치한 후,
상기 단계 5)로부터의 각 STR 내 혼재 allele들의 상대적 비율값과 상기 4)의 최종 혼재비에 근거한 이론적 상대적 비율값으로부터 산출된 유사성 값 및 해당 STR의 서로 다른 혼재 allele의 수로부터 해당 STR이 가질 수 있는 서로 다른 allele의 수에 따른 이론적인 allele들의 '구성 형태 타입' 중에서 가장 유사성이 높은 1순위 '구성 형태 타입' 및 2 순위와 3 순위의 '구성 형태 타입'을 순위별로 표시하고,
상기 순위에 따른 '구성 형태 타입'별로 시료 내의 allele들을, NGS 데이터로부터 'reading된 횟수의 값'이 가장 큰 순서대로 1 내지 4의 값으로 표시하여, 상기 시료를 구성하는 각 사람 별로 할당하는 단계; 및
7) "최종 결과 표시단계"로서,
상기 단계 6)에서 사람 별로 할당된 1 내지 4의 값을 '각 STR allele 내의 3 내지 4개의 염기가 동일한 서열로 반복해서 나타나는 횟수인 반복값'으로 대체하여, 최종 분석 결과를 나타내는 단계를 포함하는, 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된 엑셀 기반 차세대 염기서열 데이터 분석 방법.
1) As "data input step"
Next generation sequencing (NGS) data obtained from two DNA hybridization samples was analyzed with an alignment program and data was read from NGS data for each allele of each mixed short tandem repeat (STR) The value of the number of times'
Inputting the STR name, the 'number of readings' value from the NGS data of each STR allele, and the 'repeat value', which is the number of times 3 or 4 bases of the same sequence repeatedly appear in each STR allele, in the INPUT panel;
2) As the "mixing ratio calculation step &
The STRs having four mixed alleles having different 'repetition values' are selected from the input values of the step 1), and two alleles having a large reading value of each STR and two small alleles Quot; mixed ratio &quot; from the &quot; average number of times &quot;, the average of the &quot; mixed ratio &quot;
For the STR of the mixed sample with two DNAs, there are nine types of 'theoretical configuration of the alleles' according to the number of different alleles,
Figure 112015126908444-pat00026
,
Theoretical mixed values obtained by using the 'number of readings' of each allele in the NGS data for each of the 'types 6 to 8' of the theoretical alleles of the STR having three different mixed alleles And the difference between the average 'mixed ratio' obtained from the STRs having four alleles having different repetition values is within +/- 15%, and the 'repeated values' are different from each other The average 'mixed ratios' of STRs with three mixed alleles were determined,
The average value of the 'mixed ratios' obtained from the STRs having the three mixed alleles having different repetition values and the average 'mixed ratio' obtained from the STRs having the four repeated alleles having different repetition values ;
3) "2 allele STRs analysis step"
In the STR with two alleles having different repetition values, the value of the number of readings from the NGS data of each STR allele is divided into a large value and a small value and rearranged in descending order of the value of the number of readings,
For STR of the mixed sample in which two DNAs are mixed, in the above-mentioned 'types of theoretical alleles 1 to 9' depending on the number of different alleles,
'Theoretical mixture of theoretical alleles' 2 to 5 types' of STR with two different mixed alleles Theoretical mixed data obtained by using the' number of readings' of each allele in NGS data Determining the 'configuration type' of the alleles satisfying that the ratio is within +/- 30% of the value obtained in step 2) above;
4) As the "theoretical STR graph creation step"
For each of the 'configuration type' of all theoretical alleles, if the sample contains two DNAs,
Displaying a 'configuration type type' of each of the two alleles based on the final 'mixed ratio' obtained in the step 2) and a relative ratio value of each numerical value of alleles in a graph;
5) As the "STR graph creation step", each of the alleles constituting the STR
Displaying the value of 'the number of times read' from the NGS data of each allele constructing the STR as a relative ratio value obtained by dividing NGS data of each allele constituting the STR by the sum of the 'number of readings';
6) "As the final decision step of 'type of construct' of each STR mixed allele,
After reassigning the 'number of readings' from the NGS data of the mixed alleles in order of magnitude,
From the similarity value calculated from the theoretical relative ratio value based on the relative ratio value of the mixed allele in each STR from the step 5) and the final mixed ratio of 4) and the number of different mixed alleles of the corresponding STR, A configuration type type having the highest similarity among the 'configuration type types' of the theoretical alleles according to the number of different alleles, and a 'configuration type type' having the second and third rankings,
Displaying the alleles in the sample by the 'configuration type' according to the ranking in the order of 1 to 4 in the order of the largest number of readings from the NGS data and assigning the alleles to each person constituting the sample ; And
7) As the "final result display step"
Replacing the values of 1 to 4 assigned to each individual in step 6) with a repetition value that is a number of times that three or four bases in each STR allele are repeated in the same sequence, , An Excel-based next-generation sequencing data analysis method configured for individual identification from two mixed DNA samples.
제 1항에 있어서, 상기 단계 2)의 혼재 비율 계산은
ⅰ) STR 이름 및 각 STR의 allele들의 NGS 데이터로부터 'reading된 횟수의 값'을 나타내는 단계;
ⅱ) 각 STR allele들의 'reading된 횟수 값'으로부터, 각 STR의 혼재된 서로 다른 allele 수를 표시하는 단계;
ⅲ) 상기 ⅱ)에서 서로 다른 혼재된 allele 수가 4인 STR들을 선별하고, 해당 각 STR에서 allele들의 'reading 된 횟수의 값' 중, 'reading된 횟수의 값'이 큰 allele 2개와 작은 allele 2개의 'reading된 횟수의 값'의 평균값을 각각 구하여 이들 간의 상대적 비율을 구한 후, 이들 각 STR의 상대적 비율의 평균인 1차 추정 '혼재비'를 구하는 단계;
ⅳ) allele 수가 3개인 STR을 선별하고, 서로 다른 allele의 수에 따른 이론적인 allele들의 상기 '구성 형태 타입' 1 내지 9 타입에 있어서 서로 다른 allele 수가 3개인 각 '구성 형태 타입'에 대하여 두 샘플의 '혼재비'를 구하여 표시하는 단계;
ⅴ) 상기 단계 ⅳ)에서 구한 서로 다른 allele 수가 3개인 STR들의 '구성 형태 타입'별 '혼재비' 중 상기 단계 ⅲ)에서 구한 값의 +/- 15% 이내의 것만을 선별하여 혼재비를 표시하는 단계;
ⅵ) 서로 다른 allele 수가 3개인 각 STR의 상기 단계 ⅴ)에서 선별된 혼재비의 평균값을 구하는 단계; 및
ⅶ) 상기 단계 ⅲ)에서 구한 값과 상기 단계 ⅵ)에서 구한 값의 평균값을 구하는 단계로 이루어지는 것을 특징으로 하는, 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된, 엑셀 기반 차세대 염기서열 데이터 분석 방법.
2. The method of claim 1, wherein the mixing ratio calculation of step 2)
I) indicating the STR name and the value of the number of readings from NGS data of all STR's in each STR;
Ii) displaying the number of different alleles in each STR from the 'read count value' of each STR allele;
Iii) The STRs having four mixed allele numbers are selected in step ii), and two alleles and two small alleles among the 'read count values' of alleles in each STR are selected calculating the average value of the 'read number of times', calculating a relative ratio between the two values, and then obtaining a first estimation 'mixed ratio' which is an average of the relative ratios of the STRs;
Iv) For each 'configuration type' with three alleles in the 'configuration type' 1 to 9 types of theoretical alleles according to the number of different alleles, And displaying the &quot; mixed ratio &quot;
(V) Only those within the range of +/- 15% of the value obtained in the above step (iii) among the 'mixed type ratios according to the constitution type types' of the STRs having three different allele numbers obtained in the above step (iv) ;
Vi) obtaining an average value of the mixed ratios selected in the step (v) of each STR having three different allele counts; And
(Ii) obtaining an average value of the values obtained in the step (iii) and the value obtained in the step (vi); and (iii) analyzing an Excel-based next generation nucleotide sequence data .
제 1항에 있어서, 제 1항의 단계 2) 와 단계 3) 사이에 하기 단계로 구성된 Y-STR allele 분석 단계를 추가적으로 포함하는 것을 특징으로 하는, 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된, 엑셀 기반 차세대 염기서열 데이터 분석 방법:
ⅰ) 각 Y-STR을 구성하는 allele 들의 NGS 데이터로부터 'reading된 횟수의 값'을 크기순으로 불러오고, 해당하는 각 allele '반복값'도 불러온 후, 이로부터 각 Y-STR 내 서로 다른 allele의 수 및 각 allele들의 혼재비를 구하는 단계;
ⅱ) 서로 다른 allele 수가 2인 Y-STR이 있는 경우 그 각 Y-STR에서 NGS 데이터로부터 'reading된 횟수의 값'이 큰 allele과 'reading된 횟수의 값'이 작은 allele의 'reading된 횟수의 값'들로부터 '혼재비'를 구하고, 이로부터 서로 다른 allele 수가 2인 모든 Y-STR의 평균 '혼재비'를 구한 후, 청구항 1항의 단계 2)에서 구한 값과의 평균값을 최종 '혼재비'로 결정하는 단계; 및
ⅲ) 각 Y-STR을 구성하는 allele 들의 NGS 데이터로부터 'reading된 횟수의 값'이 큰 순서로 2명의 사람별로 Y-STR allele의 '반복값'을 할당하는 단계.
The method according to claim 1, further comprising, between step 2) and step 3) of the first claim, a Y-STR allele analysis step consisting of the following steps: Excel-based Next Generation Sequence Data Analysis Method:
I) From the NGS data of all Y-STR alleles, 'read count' value is called in order of magnitude, each corresponding allele 'repeat value' is also called, obtaining the number of alleles and the mixed ratio of each alleles;
Ⅱ) If there are Y-STRs with different allele numbers 2, the number of readings of alleles with a large number of 'read counts' and 'small number of readings' from the NGS data in each Y- Values of the Y-STRs are calculated, and the average value of the Y-STRs of all the Y-STRs having different allele numbers 2 from the values obtained therefrom is obtained from the values obtained in the step 2) of claim 1, &Lt; / RTI &gt; And
Iii) Assigning the 'repeat value' of the Y-STR allele to the two persons in the descending order of the 'number of readings' from the NGS data of the alleles constituting each Y-STR.
제 1항에 있어서, 하기 단계로 구성된, 혼재시료를 구성하는 2명의 성별 분석 단계를 추가적으로 포함하는 것을 특징으로 하는, 2 명의 혼재 DNA시료로부터 각 개인 식별을 위해 구성된, 엑셀 기반 차세대 염기서열 데이터 분석 방법:
1) 혼재 시료의 NGS 데이터로부터 AMELY allele(Y 염색체를 특정 짓는 allele)의 'reading된 횟수 값'이 존재하지 않는 경우 혼재 시료를 구성하는 2명은 모두 여자로 결정하는 단계;
2) 혼재 시료의 NGS 데이터로부터 AMELY allele의 'reading된 횟수 값'이 존재하는 경우 AMELY allele의 NGS 데이터로부터 'reading된 횟수 값'을 AMELX allele(X 염색체를 특정 짓는 allele)의 NGS 데이터의 'reading된 횟수 값'으로 나눈 값이 0.9~1.1 내에 해당될 때, 혼재시료를 구성하는 2명은 모두 남자로 결정하는 단계; 및
3) 상기 단계 1) 또는 단계 2)로부터 혼재 시료를 구성하는 2명의 성별이 결정되지 않는 경우 하기의 분석 단계를 추가적으로 수행하여 혼재 시료를 구성하는 2명의 성별을 결정하는 단계;
ⅰ) 각 Y-STR을 구성하는 allele 들의 NGS 데이터로부터 'reading된 횟수의 값'을 크기순으로 불러오고, 해당하는 각 allele 사이즈 '반복값'도 불러온 후, 이로부터 각 Y-STR 내 서로 다른 allele의 수 및 각 allele들의 '혼재비'를 구하는 단계;
ⅱ) 서로 다른 allele 수가 2인 Y-STR이 있는 경우 그 각 Y-STR에서 NGS 데이터로부터 'reading된 횟수의 값'이 큰 allele과 'reading된 횟수의 값'이 작은 allele의 'reading된 횟수의 값'들로부터 '혼재비'를 구하고, 이로부터 서로 다른 allele 수가 2인 모든 Y-STR의 평균 '혼재비'를 구하는 단계;
ⅲ) AMELY allele의 NGS 데이터로부터 'reading된 횟수의 값'을 AMELX allele의 NGS 데이터로부터 'reading된 횟수의 값'과 AMELY allele의 NGS 데이터로부터 'reading된 횟수의 값'의 차이로 나눈 값이 상기 단계 ii)에서 구한 서로 다른 allele 수가 2인 모든 Y-STR 평균 '혼재비'의 +/- 50% 내에 포함될 때 각 Y-STR에서 NGS 데이터로부터 'reading된 횟수의 값'이 큰 allele을 가지는 사람은 여자로 그렇지 않은 경우는 남자로 결정하고, AMELX allele의 NGS 데이터로부터 'reading된 횟수의 값'과 AMELY allele의 NGS 데이터로부터 'reading된 횟수의 값'의 차이를 AMELY allele의 NGS 데이터로부터 'reading된 횟수의 값'의 두 배 값으로 나눈 값이 상기 단계 ⅱ)에서 구한 서로 다른 allele 수가 2인 모든 Y-STR 평균 '혼재비'의 +/- 50% 내에 포함될 때 각 Y-STR에서 NGS 데이터로부터 'reading된 횟수의 값'이 큰 allele을 가지는 사람은 남자로 그렇지 않은 경우는 여자로 결정하는 단계.
The method according to claim 1, further comprising the step of analyzing two sexes constituting a mixed sample constituted by the following steps: an Excel-based next generation nucleotide sequence data analysis configured for individual identification from two mixed DNA samples Way:
1) When there is no 'read count value' of AMELY allele (Y chromosome specific allele) from NGS data of mixed sample, all of the two individuals constituting the mixed sample are determined as female;
2) If there is a 'read count' value of the AMELY allele from the NGS data of the mixed sample, the 'reading count value' from the NGS data of the AMELY allele is compared with the 'reading' value of the AMELX allele (allele that specifies the X chromosome) And the value divided by the value of the number of times is within 0.9 ~ 1.1, the two persons constituting the mixed sample are all determined as male; And
3) If two genders constituting the mixed sample are not determined from the step 1) or the step 2), the following analysis step is additionally performed to determine two genders constituting the mixed sample;
I) From the NGS data of all Y-STR alleles, 'read count' value is called in order of magnitude, each corresponding allele size 'repeat value' is also called, The number of different alleles and the 'mixed ratio' of each allele;
Ⅱ) If there are Y-STRs with different allele numbers 2, the number of readings of alleles with a large number of 'read counts' and 'small number of readings' from the NGS data in each Y- Value of each Y-STR with a different number of alleles of 2 from this value,
Iii) a value obtained by dividing the value of the number of readings from the NGS data of the AMELY allele by the difference between the value of the number of readings from the NGS data of the AMELX allele and the value of the number of readings from the NGS data of the AMELY allele When the number of different alleles obtained in step ii) is included within +/- 50% of all Y-STR average 'mixed ratios', the person having an allele having a large value of the number of readings from the NGS data in each Y- And the difference between the value of the number of readings from the NGS data of the AMELX allele and the value of the number of readings from the NGS data of the AMELY allele from the NGS data of the AMELY allele, Of the Y-STR average 'mixed ratio', which is obtained by dividing the value obtained by dividing the value of the number of times' Has a large value of 'the number of times read' from If the person is otherwise a man deciding to women.
1) 데이터 입력 수단으로서, 2명의 DNA 혼재 시료로부터 차세대 유전체 해독기술(Next generation sequencing; NGS) 데이터를 alignment 프로그램으로 분석하여 혼재된 각 짧은연쇄반복(short tandem repeat; STR) 값을 구하여, 상기 STR 이름, 및 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값' 및 각 STR allele 내의 3 내지 4개의 염기가 동일한 서열로 반복해서 나타나는 횟수인 '반복값'을 "메인 화면(main page) 워크시트"의 INPUT 패널에 입력하는 수단;
2) STR 데이타 그래프(Data graph) 작성 수단으로서, "For 데이터 그래프 워크시트"에 각 STR들의 allele의 reading된 횟수 값'을 각 STR 들의 allele의 reading된 횟수 값'의 합으로 나누어서 상대적인 비율 값으로 "For 데이터 그래프 워크시트"에 표시하고, 이를 메인 화면에 그래프로 나타나게 하는 수단;
3) 혼재 비율 계산 수단으로서, "혼재 비율(mix ratio) 워크시트"에서 하기 순서로 혼재 비율을 계산하는 수단;
가) 메인 화면에 입력한 STR 이름 및 각 STR allele들의 'reading된 횟수 값'을 "혼재 비율(mix ratio) 워크시트"에 표시함;
나) 각 STR들의 서로 다른 allele 수를 결정하기 위하여, 그 STR의 각 allele이 'reading된 횟수값'을 가질 경우를 1로 표기하고, 마지막 라인에는 각 STR의 혼재된 서로 다른 allele 수를 표시함;
다) 상기 나)의 '반복값'이 서로 다른 4개의 혼재된 allele를 가지는 STR을 선별하고, 상기 선별된 STR의 'reading 된 횟수'의 값 중, 'reading된 횟수의 값'이 큰 allele 2개와 작은 allele 2개의 평균값을 각각 구하고 이들 간의 비율(작은 allele 2개의 평균값/큰 allele 2개의 평균값)을 구함;
라) 상기 단계 다)로부터 구한, '반복값'이 서로 다른 4개의 혼재된 allele를 가지는 STR에서의 비율의 평균값을 두 샘플의 '1차 추정 혼재비'로 함;
마) 상기 단계 라)의 '1차 추정 혼재비'를 보완하기 위해 '반복값'이 서로 다른 3개의 혼재된 allele를 가지는 STR을 선별하고, '반복값'이 서로 다른 allele 수가 3개인 STR의 이론적인 구성형태 타입별로 두 샘플의 '혼재비'를 구함;
바) '반복값'이 서로 다른 allele 수가 3개인 STR들의 구성형태 별 혼재 비가 '반복값'이 서로 다른 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와 차이가 +/- 15% 이내의 것만을 선별하여 혼재 비를 표시함;
사) 선별된 혼재비가 있는'반복값'이 서로 다른 allele가 3개인 STR들에 대하여 평균 혼재 비를 구함; 및
아) '반복값'이 서로 다른 혼재된 allele가 4개인 STR들로부터 구한 1차 추정 혼재비와 '반복값'이 서로 다른 혼재된 allele가 3개인 STR들로부터 구한 혼재 비의 평균을 구함으로써, 최종적으로 추정 혼재비를 구함.
4) 2 allele STRs 분석 수단으로서, "2 allele STRs 워크시트"에서 하기의 순서로 2 allele STR 분석하는 수단;
자) 서로 다른 2개의 allele를 갖는 각 STR에 대하여 그 이론적인 allele '구성 형태 타입'을 하기와 같이 나타내고, 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값'을 구하는 식을 하기와 같이 나타냄;
Figure 112015084742117-pat00012

Figure 112015084742117-pat00024

차) 각 STR allele 내의 동일한 서열의 3 내지 4개의 염기가 반복해서 나타나는 횟수인 '반복값'이 서로 다른 2개의 allele을 가지는 STR에서 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값'을 큰 것과 작은 것으로 구분하여 큰 순서로 재배치함;
카) 상기 차)의 NGS 데이터로부터 'reading된 횟수의 값'과 상기 자)의 식을 이용하여 A 및 B의 값을 계산함;
타) 상기 차)의 구성형태별 계산된 A 및 B 값을 이용하여 비율(A/B)을 구한 후, 상기 2)의 혼재 비율 워크시트에 표시된 아)의 최종 추정 혼재비 값으로 나누어 (A/B)/MIX R 열에 표시함; 및
파) 혼재 비율 워크시트에 표시된 아)의 최종 추정 혼재비 값의 +/- 30% 범위 내에 상기 타)에서 구한 A/B값이 포함되는 것을 선별하고 그 allele의 '구성형태 타입'을 결정함.
5) 이론상 그래프(theoretical graph) 작성 수단으로서, "이론상 그래프 워크시트"에 두 사람(x, y) DNA 샘플에 혼재되었을 경우 가능한 9가지의 allele의 구성을 구성형태 타입 1 내지 9로 할당하고, 각 구성형태 타입별로 allele 구성형태와 각 allele의 상대적 비율을 하기와 같이 수치화한 후, 메인 화면에 그래프로 나타나게 하는 수단;
Figure 112015084742117-pat00014

6) 혼재 allele 구성형태 타입 결정 수단으로서, "랭크(rank) 워크시트"에 하기의 순서로 혼재 allele '구성 형태 타입'을 결정하는 수단;
하) 메인 화면에 입력한 혼재 allele 들의 'reading된 횟수 값'들을 크기 순으로 재배치함;
거) 상기 5)의 각 구성형태 타입별 이론적 allele 구성비(H to L)와 패턴 유사성을 비교하기 위하여, 각 STR 내에서 혼재 allele들의 구성비를 나타냄;
너) 상기 거)에서 구한 각 STR 내 혼재 allele 들의 구성비와 상기 5)의 각 9가지의 allele 구성형태 타입별 이론적 allele 구성비의 유사성 값을 구함;
더) 실제 데이터 분석으로 구한, 해당 STR이 갖는 서로 다른 allele 개수에 따른 이론적인 '구성형태 타입' 중에서 가장 유사성이 높은 '구성형태 타입'을 선별하기 위하여, 상기 하)에서 "0(영)"이 아닌 값을 갖는 allele를 각각 1로 표시한 후, 이들의 합과 같은 수의 서로 다른 allele를 갖는 구성형태 타입에 유사성 값을 선별하여 표시함;
러) 상기 더)에서 선별된 유사성 값 중 가장 높은 값을 갖는 '구성형태 타입'이 혼재 시료 내 해당 STR의 실제 구성형태 타입일 가능성이 가장 높은 것으로 가정하고, 1st 표식 밑에 각 STR들의 1차 추정 allele '구성형태 타입'을 표시함;
머) 상기 러)에서 1차 추정 allele 구성형태 타입으로 결정된 것 중 서로 다른 allele 수가 2개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 3) 2 allele STR 분석에서 구한 결과와 일치하는 경우에만 STR 구성형태를 할당하여 표시함;
버) 상기 러)에서 1차 추정 allele 구성형태 타입으로 결정된 것 중, 서로 다른 allele 수가 3개인 STR들의 구성형태 타입 결정에 정확성을 더하는 방안으로 상기 3)의 바)에서 선별된 혼재비의 구성형태 타입과 일치하는 경우에만 STR 구성형태를 할당하여, 표시함;
서) 서로 다른 allele 수가 2개 또는 3개인 STR 중, 상기 머) 및 버)에서 선별된 것만을 함께 표시함;
어) 최종 결정된 혼재시료 내 각 STR들의 allele 구성형태 타입을 나타내고, 해당 STR의 실제 구성형태 타입일 가능성이 높은 1st 열의 구성형태 타입에 대한 분석결과만을 메인화면 STR Sequencing Data 그래프 아래에 표시함;
저) 각 STR의 혼재된 allele들을 사람별로 할당하기 위해 혼재 시료에서 큰 비율로 존재하는 샘플 A와 작은 비율의 B 샘플이 가지는 allele 사이즈들의 '구성형태 타입'별 이론적 그래프를 참조하여 표시함; 및
처) 각 STR 별로 1순위, 2순위 및 3순위의 allele 구성형태 타입에 대하여 allele들을 NGS 데이터로부터 'reading된 횟수의 값'이 가장 큰 순서대로 1 내지 4의 값으로 표시하여 상기 시료를 구성하는 각 사람 별로 할당;
7) STR 분석 최종 결과 표시 수단으로서, 상기 처)에 표시된 사람 별로 할당된 1 내지 4의 값을 '각 STR allele 내의 3 내지 4개의 염기가 동일한 서열로 반복해서 나타나는 횟수인 반복값'으로 대체하여, 최종 분석 결과를 메인화면에 표시하는 수단으로 구성된 프로그램을 포함하는, 2 명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 장치.
1) As a data input means, a next generation sequencing (NGS) data from two DNA mixed samples is analyzed by an alignment program to obtain a mixed short tandem repeat (STR) value, Name, and the value of 'the number of times read' from the NGS data of each STR allele, and the number of times the 3 or 4 bases in each STR allele are repeated in the same sequence is referred to as a 'main page' worksheet Means for inputting to an INPUT panel of "
2) As a means of creating a STR data graph, the "For data graph worksheet" is divided into the sum of the read number of alleles of each STR and the read number of alleles of each STR, Means for displaying on the "For Data Graph Worksheet" and displaying it on the main screen as a graph;
3) means for calculating the mixed ratio in the following order in the "mix ratio worksheet" as the mixed ratio calculating means;
A) Display the name of the STR and the number of readings of each STR allele entered in the main screen in the "Mix ratio worksheet";
B) In order to determine the number of different alleles of each STR, mark "1" when each allele of the STR has "read count", and the last line shows the number of different alleles in each STR ;
C) Select STRs having four mixed alleles having different 'repetition values' in the above item b), and among all the values of 'read count' of the selected STR, allele 2 The average of two small alleles and the ratio between them (average of two small alleles / average of two large alleles);
D) The average value of the ratios in the STR having four mixed alleles having different 'repetition value' obtained from the step c) is defined as a 'first-order estimated mixture ratio' of the two samples;
In order to compensate for the 'first estimated mixture ratio' of step (d), an STR having three mixed alleles having different 'repetition values' is selected, and an STR having three alleles having different repetition values is selected Theoretical composition Find the 'mixed ratios' of two samples by type;
(F) The difference of the mixed ratio of the STRs having three alleles having different repeat values is less than +/- 15% from the first estimated mixed ratio obtained from the STR with four alleles having different repeat values To display mixed ratios;
G) seeking average mixed ratios for STRs with three alleles with different 'repeat values' with selected ratios; And
A) By calculating the average of the mixed ratios obtained from STRs with three mixed allele in which the first estimated mixed ratio and the 'repeated value' obtained from STRs with four mixed alleles having different repetition values are different from each other, Finally, the estimated mixed ratio is sought.
4) 2 allele STRs As means for analyzing, means for analyzing 2 allele STRs in the following sequence in "2 allele STRs worksheet";
For each STR having two different alleles, the theoretical allele 'configuration type' is expressed as follows, and the value of the number of readings from the NGS data of each STR allele is expressed as follows ;
Figure 112015084742117-pat00012

Figure 112015084742117-pat00024

The value of the number of readings from the NGS data of each STR allele in the STR having two alleles having different 'repetition value', which is the number of repeated 3 to 4 bases of the same sequence in each STR allele, Rearranged in big order, separated by small ones;
(K) calculating values of A and B using the expression of the number of times read from the NGS data of the above-mentioned difference) and the above equation;
The ratio (A / B) is calculated using the calculated A and B values for each of the above configurations (a) and (b), and then divided by the final estimated mixture ratio (a) B) / MIX indicated in column R; And
Par) Selects that the A / B value obtained from the above table is included in the range of +/- 30% of the final estimated mixture ratio value of a) shown in the mixed ratio worksheet, and determines the 'configuration type type' of the allele .
5) Theoretically, as a means of creating the theoretical graph, if the "theoretical graph worksheet" is mixed with two (x, y) DNA samples, the configuration of nine possible alleles is assigned to configuration type 1 to 9, A means for displaying a graph on the main screen after quantifying the allele configuration type and the relative ratio of each allele according to each configuration type type as follows;
Figure 112015084742117-pat00014

6) means for determining a mixed allele 'configuration type type' in the following order in a "rank worksheet", as a mixed allele configuration type determination means;
Rearrangement of the 'number of readings' of the mixed alleles entered in the main screen in order of size;
In order to compare the pattern similarity with the theoretical allele composition ratio (H to L) of each constituent type of the above 5), it shows the composition ratio of mixed allele in each STR;
To obtain the similarity value of all the allele combinations in each STR and the theoretical allele composition ratios for each of the nine allele configuration types in (5) above;
In order to select the most similar 'configuration type type' among the theoretical 'configuration type types' according to the number of different alleles of the STR obtained from the actual data analysis, "0" And alleles having a value other than 0 are displayed as 1, and similarity values are selectively displayed in the configuration type having the same number of different alleles as the sum of the alleles;
It is assumed that the 'configuration type' having the highest value of the similarity values selected in the above (a) above is most likely to be the actual configuration type of the corresponding STR in the mixed sample, and the first estimation allele 'configuration type';
In order to add accuracy to the determination of the configuration type of STRs with different number of alleles among those determined as the first-order allele configuration type in the above (3) 2 allele STR type analysis, only STR Assigning and displaying configuration types;
In order to add accuracy to the configuration type determination of STRs with three different allele counts among those determined as the first-order allele configuration type type in the above (3)), Assigns an STR configuration type only if it matches the type, and displays it;
(B) only two of the STRs with two or three different alleles, and the ones selected from the above, are displayed together;
A) shows the allele configuration type type of each STR in the final determined mixed sample, and only the analysis result of the configuration type of the 1st column, which is likely to be the actual configuration type of the STR, is displayed under the main screen STR Sequencing Data graph;
Low) Referencing the theoretical graphs of 'configuration type' of allele sizes of sample A and small proportion of B samples present in a large proportion in the mixed sample to assign the mixed alleles of each STR to each person; And
The alleles for the first, second, and third order allele configuration types for each STR are displayed as values of 1 to 4 in the order of the largest number of readings from the NGS data to constitute the sample Assigned to each person;
7) As a final result display means, the value of 1 to 4 allocated to each person displayed in the above-mentioned place is replaced with a repetition value which is the number of times that 3 to 4 bases in each STR allele are repeated with the same sequence And a means for displaying the final analysis result on the main screen. The apparatus for analyzing the mixed sample base sequence data for individual identification in two mixed DNA samples.
엑셀 기반(Excel-based) 분석 프로그램으로서, "메인 화면 워크시트"에는 STR 데이터 입력, Y-STR 데이터 입력, AMELX/Y(X 또는 Y 염색체를 특정 짓는 allele) 입력, STR 이론적 그래프, STR 실제 데이터 그래프와 allele 혼재 구성형태, Y-STR 실제 데이타 그래프, STR 추정 혼재 비(Estimated mix ratio)를 포함하는 STR-결과, Y-STR 추정 혼재 비를 포함하는 Y-STR 결과 및 남성/여성을 구분하는 AMELX/Y 모듈로 구성되어 있고,
'메인 화면' 이외에 6개의 워크시트로서, '혼재 비율', 'For 데이터 그래프', '2 allele STRs', '이론적 그래프', 'Rank', 'Y-STR Deconvolution' 워크시트로 구성되어 있으며,
메인 화면 데이터 입력란에는 DNA 혼재 시료로부터 차세대 유전체 해독기술 데이터를 alignment 프로그램으로 분석하여 혼재된 각 짧은연쇄반복 값, Y-STR 값 및 AMELX/Y 값을 구하여, 상기 STR 이름, 및 각 STR 들의 allele에 대한 NGS 데이터로부터 'reading 된 횟수의 값'을 각 STR allele 내의 3 내지 4개의 염기가 동일한 서열로 반복해서 나타나는 횟수인 '반복값'과 함께 INPUT 패널에 입력되고,
"For 데이터 그래프 워크시트"에는,
각 STR들의 allele 'reading된 횟수의 값'을 각 STR 들의 allele 'reading된 횟수의 값'의 합으로 나누어서 상대적인 비율 값으로 "For 데이터 그래프 워크시트"에 표시하고, 이를 메인 화면에 그래프로 나타내고,
"혼재 비율 워크시트"에는,
가) '메인 화면'에 입력한 STR 이름 및 각 STR allele의 NGS 데이터로부터 'reading 된 횟수의 값'을 "혼재 비율(mix ratio) 워크시트"에 나타내고,
나) 각 STR들의 서로 다른 allele 수를 결정하기 위하여, 그 STR의 각 allele들이 'reading 된 횟수의 값'을 가질 경우를 1로 표기하고, 마지막 라인에는 각 STR들의 혼재된 서로 다른 allele 수를 표시하며;
다) 상기 나)의 '반복값'이 서로 다른 4개의 혼재된 allele를 가지는 STR을 선별하고, 상기 선별된 STR의 'reading 된 횟수'의 값 중, 'reading된 횟수의 값'이 큰 allele 2개와 작은 allele 2개의 평균값을 각각 구하고 이들 간의 비율(작은 allele 2개의 평균값/큰 allele 2개의 평균값)을 구하고;
라) 상기 단계 다)의 비율의 평균값을 두 샘플의 1차 추정 혼재 비로 하며;
마) 상기 단계 라)의 1차 추정 혼재 비를 보완하기 위해 '반복값'이 서로 다른 혼재된 allele 수가 3개인 STR을 선별하고, '반복값'이 서로 다른allele 수가 3개인 각 '구성형태 타입'에 해당하는 두 샘플의 혼재 비를 구하고;
바) '반복값'이 서로 다른 allele 수가 3개인 STR들의 구성형태 타입별 혼재 비가 '반복값'이 서로 다른 allele 수가 4개인 STR로부터 구한 1차 추정 혼재 비와 차이가 +/- 15% 이내의 것만을 선별하여 혼재 비를 표시하고;
사) 선별된 혼재비가 있는'반복값'이 서로 다른 allele가 3개인 STR들에 대하여 평균 혼재 비를 구하며;
아) '반복값'이 서로 다른 혼재된 allele가 4개인 STR들로부터 구한 1차 추정 혼재비와 '반복값'이 서로 다른 혼재된 allele가 3개인 STR들로부터 구한 혼재 비의 평균을 구함으로써, 최종적으로 추정 혼재비를 구하고,
"2 allele STRs 워크시트"에는,
자) 서로 다른 2개의 allele를 갖는 각 STR에 대하여 그 이론적인 allele '구성형태 타입'을 하기와 같이 나타내고, 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값'을 구하는 식을 하기와 같이 나타내며;
Figure 112015084742117-pat00015

Figure 112015084742117-pat00025

차) 각 STR allele 내의 동일한 서열의 3 내지 4개의 염기가 반복해서 나타나는 횟수인 '반복값'이 서로 다른 2개의 allele을 가지는 STR에서 각 STR allele의 NGS 데이터로부터 'reading된 횟수의 값'을 큰 것과 작은 것으로 구분하여 큰 순서로 재배치하고;
카) 상기 차)의 NGS 데이터로부터 'reading된 횟수의 값'과 상기 자)의 식을 이용하여 A 및 B의 값을 계산하고;
타) 상기 차)의 구성형태별 계산된 A 및 B 값을 이용하여 비율(A/B)을 구한 후, 상기 2)의 혼재 비율 워크시트에 표시된 아)의 최종 추정 혼재비 값으로 나누어 (A/B)/MIX R 열에 표시하고;
파) 혼재 비율 워크시트에 표시된 아)의 최종 추정 혼재비 값의 +/- 30% 범위 내에 상기 타)에서 구한 A/B값이 포함되는 것을 선별하고 그 allele의 '구성형태 타입'을 결정하고,
"이론상 그래프 워크시트"에는,
두 사람(x, y) DNA 샘플에 혼재되었을 경우 가능한 9가지의 allele의 구성을 구성형태 1 내지 9로 할당하고, 각 구성형태 타입별로 allele 구성형태와 각 allele의 상대적 비율을 하기와 같이 수치화한 후, 메인 화면에 그래프로 나타내고,
Figure 112015084742117-pat00017

'랭크(rank) 워크시트'에는,
하) 메인 화면에 입력한 혼재 allele 들의 'reading 된 횟수의 값'들이 값들을 크기 순으로 재배치하고;
거) 상기 '이론상 그래프 워크시트'의 각 구성형태 별 이론적 allele 구성비(H to L)와 패턴 유사성을 비교하기 위하여, 각 STR 내에서 혼재 allele들의 구성비를 나타내며;
너) 상기 거)에서 구한 STR 내 혼재 allele 들의 구성비 패턴과 상기 5)의 각 9가지의 allele 혼재 구성형태별 이론적 allele 구성비 패턴과의 유사성 값을 구하고;
더) 실제 데이터 분석으로 구한, 해당 STR이 갖는 서로 다른 allele 개수에 따른 이론적인 '구성형태 타입' 중에서 가장 유사성이 높은 '구성형태 타입'을 선별하기 위하여, 상기 하)에서 "0(영)"이 아닌 값을 갖는 allele를 각각 1로 표시한 후, 이들의 합과 같은 수의 서로 다른 allele를 갖는 구성형태 타입에 유사성 값을 선별하여 표시하고;
러) 상기 더)에서 선별된 유사성 값 중 가장 높은 값을 갖는 구성형태의 혼재 시료 내 해당 STR의 실재 구성형태일 가능성이 가장 높은 것으로 가정하고, 1st 표식 밑에 각 STR들의 1차 추정 allele 구성형태를 표시하며;
머) 상기 러)에서 1차 추정 allele 구성형태로 결정된 값들 중 서로 다른 allele 수가 2개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 3) 2 allele STR 분석에서 구한 값과 일치하는 경우에만 STR 구성형태를 할당하여 표시하고;
버) 상기 러)에서 1차 추정 allele 구성형태로 결정된 값들 중, 서로 다른 allele 수가 3개인 STR들의 구성형태 결정에 정확성을 더하는 방안으로 상기 3)의 바)에서 선별된 혼재비의 구성 형태 타입과 일치하는 경우에만 STR 구성형태를 할당하여, 표시하고;
서) 서로 다른 allele 수가 2개 또는 3개인 STR 중, 상기 머) 및 버)에서 선별된 것만을 함께 표시하며;
어) 최종 결정된 혼재시료 내 각 STR들의 allele 구성형태를 나타내고, 해당 STR의 실제 구성형태일 가능성이 높은 1st 열의 구성형태에 타입에 대한 분석결과만을 메인 화면 STR sequencing Data 그래프 아래에 표시하고;
저) 각 STR의 혼재된 allele가 구성하고 있는 각 샘플들의 allele를 샘플별로 할당하기 위해 혼재 시료에서 큰 비율로 존재하는 샘플 A와 작은 비율의 B 샘플이 가지는 allele 사이즈들의 '구성형태 타입'별 이론적 그래프를 참조하여 표시하며; 및
처) 각 STR 별로 1순위, 2순위 및 3순위의 allele 구성형태 타입에 대하여 allele들을 NGS 데이터로부터 'reading된 횟수의 값'이 가장 큰 순서대로 1 내지 4의 값으로 표시하여 상기 시료를 구성하는 각 사람 별로 할당하고,
'메인 화면 워크시트'에는
상기 처)에 표시된 사람 별로 할당된 1 내지 4의 값을 '각 STR allele 내의 3 내지 4개의 염기가 동일한 서열로 반복해서 나타나는 횟수인 반복값'으로 대체하여, 최종 분석 결과를 메인 화면 STR-결과로 표시하고,
"데콘볼루션(deconvolution) 워크시트"에는
커) 메인화면에서 입력된 Y-STR allele 들의 'reading 된 횟수의 값'을 크기순으로 불러오고, 해당하는 각 allele '반복값'도 불러온 후, STR 내 각 allele들의 비율과 각 STR들의 갖는 allele 수를 구하고;
터) STR들이 갖는 allele 수가 최대 2인 경우, 상기 커)에서 allele '반복값'을 가져와서 별도로 표시하며; 및
퍼) 서로 다른 allele가 2개인 Y-STR 경우 최고 주된 DNA 샘플이 절반 이상일 경우와 이하일 경우로 나누어 분석하며, 최종 결과를 별도로 표시하며,
"메인 화면 워크시트"에는
각 Y-STR들의 allele 'reading 된 횟수의 값'을 각 Y-STR들의 allele 'reading 된 횟수의 값'의 합으로 나누어서 상대적인 비율 값으로 표시한 후, 메인 화면 Y-STR 실제 데이타 그래프 모듈에 그래프로 표시하고, 및
"메인 화면 워크시트"에는
상기 터) 및 퍼)의 샘플 별 입력된 allele '반복값'을 Y-STR 결과 모듈에 표시하는 프로그램을 갖춘, 2 명의 혼재 DNA시료 내 개인식별 위한 혼재시료 염기서열 데이터 분석 시스템.
As an Excel-based analysis program, the "main screen worksheet" includes STR data input, Y-STR data input, AMELX / Y (allele specifying X or Y chromosome) input, STR theoretical graph, STR-results including the graph and allele mixed configuration type, Y-STR real data graph, STR estimated mix ratio, Y-STR results including Y-STR estimated mixed ratios, and male / female It consists of AMELX / Y module,
In addition to 'main screen', there are 6 worksheets which are composed of 'mixed ratio', 'For data graph', '2 allele STRs', 'theoretical graph', 'Rank' and 'Y-STR Deconvolution'
In the main screen data field, the next generation genome decoding technique data from the DNA mixture sample is analyzed by the alignment program to obtain the mixed short repeated value, Y-STR value and AMELX / Y value, Is input to the INPUT panel together with the &quot; repetition value &quot;, which is the number of times the &quot; read number of times &quot; is repeated from the NGS data for the same sequence of three or four bases in each STR allele,
The "For Data Graph Worksheet"
The value of the allele 'read number of times' of each STR is divided by the sum of the value of the allele 'number of readings' of each STR and displayed on the "For Data Graph Worksheet" as a relative ratio value,
In the "Mixed Ratio Worksheet"
A) The STR name entered in the 'main screen' and the value of the number of readings from the NGS data of each STR alleles are shown in the 'mix ratio worksheet'
B) In order to determine the number of different alleles of each STR, the number of alleles of the STR is denoted by 1, ;
C) Select STRs having four mixed alleles having different 'repetition values' in the above item b), and among all the values of 'read count' of the selected STR, allele 2 And the average of two small alleles are obtained, and the ratio between them (mean value of two small alleles / mean value of two large alleles) is obtained;
D) the average value of the ratio of step c) to the first-order estimated mixture ratio of the two samples;
E) In order to compensate for the first estimated mixture ratio of step d), STRs with three mixed alleles with different 'repeat values' are selected, and each type of configuration with three alleles with different repeat values &Quot;&lt; / RTI &gt;
F) Configuration types of STRs with 3 different allele counts with different 'repeat values' The difference between the first estimated mixed ratio obtained from the STR with 4 alleles having different 'repeat values' is less than +/- 15% And the mixed ratio is displayed;
G) For STRs with three alleles with different 'repetition values' with selected mixed ratios, the average composite ratios are obtained;
A) By calculating the average of the mixed ratios obtained from STRs with three mixed allele in which the first estimated mixed ratio and the 'repeated value' obtained from STRs with four mixed alleles having different repetition values are different from each other, Finally, the estimated mixed ratio is obtained,
The "2 allele STRs worksheet"
For each STR having two different alleles, the theoretical allele 'configuration type' is expressed as follows and an expression for obtaining the value of the read number from the NGS data of each STR allele is expressed as follows ;
Figure 112015084742117-pat00015

Figure 112015084742117-pat00025

The value of the number of readings from the NGS data of each STR allele in the STR having two alleles having different 'repetition value', which is the number of repeated 3 to 4 bases of the same sequence in each STR allele, And rearranging in a large order;
(A) calculating the values of A and B using the equation of the number of times read from the NGS data of the above-mentioned difference) and the above equation;
The ratio (A / B) is calculated using the calculated A and B values for each of the above configurations (a) and (b), and then divided by the final estimated mixture ratio (a) B) / MIX in column R;
Wave), the A / B value obtained in the above () is included in the range of +/- 30% of the final estimated mixture ratio value of a) shown in the mixed ratio worksheet, and the 'configuration type type' of the allele is determined ,
The &quot; Theoretical Graph Worksheet "
When two (x, y) DNA samples are mixed, nine possible alleles are assigned to the constitutional form 1 to 9, and the relative proportions of alleles and the respective alleles are quantified as follows After that, it is displayed on the main screen as a graph,
Figure 112015084742117-pat00017

In the 'rank worksheet'
The values of the 'read times' of the mixed alleles entered in the main screen are rearranged in order of magnitude;
In order to compare the pattern similarity with the theoretical allele composition ratio (H to L) of each constitutional form of the 'theoretical graph worksheet', it represents the composition ratio of mixed alleles in each STR;
The similarity between the composition ratio pattern of the mixed allele in the STR obtained from the above equation and the theoretical allele composition ratio pattern of each of the 9 allele mixed composition types in 5) is obtained;
In order to select the most similar 'configuration type type' among the theoretical 'configuration type types' according to the number of different alleles of the STR obtained from the actual data analysis, "0" And a similarity value to the configuration type having the same number of different alleles as the sum of the alleles;
It is assumed that it is most likely to be the actual configuration type of the corresponding STR in the mixed sample of the configuration type having the highest value among the similarity values selected in the above (a) above. Display;
In order to add accuracy to the determination of the configuration type of STRs having different number of alleles among the values determined in the first-order allele configuration type in the above (3) 2 allele STR configuration analysis, Assigning and displaying a form;
In order to add accuracy to the determination of the configuration type of STRs with three different allele counts among the values determined in the primary estimated allele configuration type in the above (3)), Allocates and displays an STR configuration type only when there is a match;
, Only the ones selected from the above and (b) among the STRs with two or three different allele counts together;
A) shows the allele configuration type of each STR in the final determined mixed sample, and only the analysis result of the type in the configuration of the first column, which is likely to be the actual configuration type of the STR, is displayed under the graph of the main screen STR sequencing data;
In order to allocate alleles of each sample constituted by the mixed allele of each STR to the samples, a large number of the sample A existing in the mixed sample and a small number of the B samples have the theoretical Referencing the graph; And
The alleles for the first, second, and third order allele configuration types for each STR are displayed as values of 1 to 4 in the order of the largest number of readings from the NGS data to constitute the sample Assign each person,
In the "Main screen worksheet"
The values of 1 to 4 allocated to each person displayed in the above-mentioned place are replaced with 'repetition value' which is the number of times that 3 or 4 bases in each STR allele are repeated with the same sequence, Lt; / RTI &gt;
The "deconvolution worksheet"
The total number of alleles in the STR and the number of each of the STRs in each STR are displayed in the order of magnitude. the number of alleles;
If the number of alleles that STRs have is at most 2, take the allele 'repeat value' from the above and display them separately; And
In the case of Y-STR with two different alleles, the most dominant DNA sample is divided into two cases,
In the "Main Screen Worksheet"
After displaying the allele 'number of readings' of each Y-STRs as the sum of allele 'readings' of each Y-STRs and displaying them as a relative ratio value, , And
In the "Main Screen Worksheet"
A program for displaying in the Y-STR result module an input allele 'repetition value' for each sample of the probe (probe) and probe (probe).
KR1020150055163A 2015-04-20 2015-04-20 Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples KR101603182B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150055163A KR101603182B1 (en) 2015-04-20 2015-04-20 Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150055163A KR101603182B1 (en) 2015-04-20 2015-04-20 Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples

Publications (1)

Publication Number Publication Date
KR101603182B1 true KR101603182B1 (en) 2016-03-16

Family

ID=55649876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150055163A KR101603182B1 (en) 2015-04-20 2015-04-20 Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples

Country Status (1)

Country Link
KR (1) KR101603182B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684383A (en) * 2018-12-25 2019-04-26 广州天鹏计算机科技有限公司 Acquisition methods, device, computer equipment and the storage medium of data analysis result
WO2019185654A1 (en) * 2018-03-26 2019-10-03 Université de Liège Methods involving nucleic acid analysis of milk

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130137589A2 (en) 2009-09-11 2013-05-30 Life Technologies Corporation Analysis of y-chromosome str markers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130137589A2 (en) 2009-09-11 2013-05-30 Life Technologies Corporation Analysis of y-chromosome str markers

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Athey, WT., Journal of Genetic Genealogy, Vol.1, pp.1-7, (2005) "Haplogroup Prediction from Y-STR Values Using an Allele-Frequency Approach"
Bornman, DM., et al., Biotech Rapid Dispatches. 2012: 1-6 "Short-read, high-throughput sequencing technology for STR genotyping"

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019185654A1 (en) * 2018-03-26 2019-10-03 Université de Liège Methods involving nucleic acid analysis of milk
JP2021519075A (en) * 2018-03-26 2021-08-10 ユニヴェルシテ ド リエージュUniversite De Liege Methods for Nucleic Acid Analysis of Milk
US11866776B2 (en) 2018-03-26 2024-01-09 Gesval S.A. Methods involving nucleic acid analysis of milk
CN109684383A (en) * 2018-12-25 2019-04-26 广州天鹏计算机科技有限公司 Acquisition methods, device, computer equipment and the storage medium of data analysis result

Similar Documents

Publication Publication Date Title
US11453917B2 (en) Analysis of Y-chromosome STR markers
Zeng et al. High sensitivity multiplex short tandem repeat loci analyses with massively parallel sequencing
KR101533792B1 (en) Method for Autosomal Analysing Human Subject of Analytes based on a Next Generation Sequencing Technology
Barrio et al. Massively parallel sequence data of 31 autosomal STR loci from 496 Spanish individuals revealed concordance with CE-STR technology and enhanced discrimination power
KR101667526B1 (en) Method for Extended Autosomal STR Analysing Human Subject of Analytes using a Next Generation Sequencing Technology
CN108517363A (en) A kind of individual identification system, kit and application thereof based on the sequencing of two generations
Brown et al. Development and validation of a novel multiplexed DNA analysis system, InnoTyper® 21
CN107541554B (en) Genetic marker for human individual identification and/or paternity test, and detection method and kit thereof
Pimenta et al. Efficient human paternity testing with a panel of 40 short insertion-deletion polymorphisms
CN110863056A (en) Method, reagent and application for accurately typing human DNA
Hameed et al. Allele frequency data of 21 autosomal short tandem repeat loci in Mesan and Basra provinces in South Iraq
KR101603182B1 (en) Mixed sample sequencing data analysis algorithms for personal identification in mixed DNA samples
Silva et al. Sequence-based autosomal STR characterization in four US populations using PowerSeq™ Auto/Y system
Stepanov et al. Forensic and population genetic characteristics of 62 X chromosome SNPs revealed by multiplex PCR and MALDI-TOF mass spectrometry genotyping in 4 North Eurasian populations
Choi et al. Forensic and population genetic analyses of the GlobalFiler STR loci in the Mongolian population
Xu et al. Evaluating the effects of whole genome amplification strategies for amplifying trace DNA using capillary electrophoresis and massive parallel sequencing
Al-Eitan et al. Assessing the forensic efficiency of the GlobalFiler STR loci among the genetically isolated Chechen subpopulation in Jordan
CN112011622B (en) Method and system for analyzing non-east Asia and European population sources of individuals with unknown sources
CN109762909A (en) A kind of 44 site InDels composite amplification detection kits for sample medical jurisprudence individual appreciation of degrading
Nwawuba et al. Key DNA profiling markers for identification: A mini review
Zhou et al. Development and performance evaluation of a novel ancestry informative DIP panel for continental origin inference
Chia et al. Multiplex STR panel for assessment of chimerism following hematopoietic stem cell transplantation (HSCT)
Sayyari et al. Genetic polymorphisms of Y-chromosome short tandem repeats (Y-STRs) in a male population from Golestan province, Iran
Pereira et al. The X-chromosomal STRs in forensic genetics: X chromosome STRs
Meilana et al. DNA Profiling, Bioinformatics and Databases in Forensics: Human Identification Purposes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant