WO2016068625A1 - Method for removing bias in target nucleotide sequence analysis using nmf - Google Patents

Method for removing bias in target nucleotide sequence analysis using nmf Download PDF

Info

Publication number
WO2016068625A1
WO2016068625A1 PCT/KR2015/011513 KR2015011513W WO2016068625A1 WO 2016068625 A1 WO2016068625 A1 WO 2016068625A1 KR 2015011513 W KR2015011513 W KR 2015011513W WO 2016068625 A1 WO2016068625 A1 WO 2016068625A1
Authority
WO
WIPO (PCT)
Prior art keywords
bias
region
vector
target
control
Prior art date
Application number
PCT/KR2015/011513
Other languages
French (fr)
Korean (ko)
Inventor
윤태균
이병철
박동윤
박정선
이정호
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020157031738A priority Critical patent/KR101841265B1/en
Publication of WO2016068625A1 publication Critical patent/WO2016068625A1/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present invention relates to a method for removing bias in target sequencing, and to a method for providing information to accurately determine somatic cell copy number variation by removing a bias generated in sequence readout for a cancer sample for each region.
  • somatic mutations such as point mutations in many cancers, DNA copy numbers, and chromosomes
  • somatic copy number variation refers to a variation in the number of copies of genes that do not exist in normal cells, and has been highly associated with the onset of cancer.
  • One embodiment produces experimental and control vectors based on a read count calculated by read mapping the test sample sequencing data and the control sample sequencing data to standard reference sequencing data, the regions of which are generated in the experimental and control vectors. 1 , such as through non-negative matrix factorization ("NMF"), removes the bias first, and selects the indifference region to remove the noise second, so that it is possible Provided are a bias removal technique in target sequencing and a target sequencing technique using the same, which can increase sensitivity.
  • NMF non-negative matrix factorization
  • One embodiment provides a method for bias removal in target sequencing using non-negative matrix factorization (NMF).
  • NMF non-negative matrix factorization
  • the bias removal method in the target sequencing (1) Read mapping of test sample sequencing data and control sample sequencing data to standard reference sequencing data for each chromosomal position
  • the bias removal method may be a bias removal method in target sequencing performed in a bias removal device in target sequencing.
  • the test sample sequencing data and the control sample sequencing data of step (1) may each independently or directly indirectly receive sequence data generated by a genome sequencer, or a computer readable data storing stored sequence data. Can be obtained (prepared) through a storage medium.
  • the bias removal method in the target sequencing analysis before step (1), adds a step of preparing experimental sample sequencing data and control sample sequencing data.
  • the test sample sequencing data and the control sample sequencing data may be each independently, directly or indirectly receiving sequence data generated by a genomic sequence analyzer, or stored already stored sequence data. Can be prepared by applying a computer readable storage medium .
  • the first bias removal step may be performed using non-negative matrix factorization (NMF).
  • NMF non-negative matrix factorization
  • the bias removal method in the target sequencing analysis after the first bias removal step, for example, between the steps (3) and (4), the following step (secondary bias removal step) is added
  • the following step (secondary bias removal step) is added
  • Another example provides a computer read method for target sequencing comprising the bias removal method.
  • Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the bias removal method.
  • Another example provides a system for performing the steps of the bias removal method.
  • Another example provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the bias removal method.
  • Another example provides a computer readable storage medium (or recording medium) containing a computer executable instruction for executing a computer read method of a red base sequence including the bias removal method.
  • FIG. 1 is a block diagram illustrating a bias removal system in target sequencing according to an embodiment.
  • FIG. 2 illustrates an apparatus in which a bias removal method is performed according to an embodiment. It is a block diagram for.
  • FIG. 4 is a diagram illustrating a process of generating an experimental group vector based on experimental sample sequence data in a bias removing method according to an embodiment.
  • FIG. 5 is a diagram illustrating a process of generating an experimental group vector and a control vector in a bias removal method according to an exemplary embodiment.
  • FIG. 6 is a diagram illustrating a process of dividing a region-by-test group vector with a control vector in a bias removal method according to an embodiment.
  • FIG. 7 is a graph illustrating a TRR vector for the number of other regions before and after removing a bias in the bias removing method according to an exemplary embodiment.
  • FIG. 9 is a flowchart illustrating a method of removing a bias in target sequencing according to an embodiment of the present invention.
  • a sample containing a nucleotide sequence which may be a cancer sample (ie, a genome (DNA and / or RNA) sample extracted from cancer cells), and the control sample is a normal sample (ie, a genome extracted from normal cells (DNA and / or RNA) RNA) sample).
  • the test sample and control sample may be (isolated) cells, tissues, or tissues obtained from an animal, such as a mammal, including a human.
  • Genomic DNA and / or RNA samples extracted from them.
  • the genome means DNA and / or RNA of all or part of the genome or chromosome.
  • target sequencing is for identifying somatic copy number variation, and may be sequencing of target region for identifying genome copy number variation in a target region.
  • System 1 may include genomic sequence analyzer 100 and bias removal apparatus 300 in target sequencing.
  • the experimental sample bias removal, system 1 in this Figure 1 is limited to the present invention with reference to FIG 1 a block in one embodiment of the present invention and hakkeuk
  • Each component of FIG. 1 may be connected via a network 200.
  • genomic sequence through network 200.
  • the analyzer 100 and the bias removal device 300 in target sequencing can be connected.
  • the control sample base sequence data generated by the genome sequence analyzer 100 And / or only the experimental sample sequencing data need be received by the bias removal device 300 in the target sequencing, thus including both direct or indirect connections.
  • the genomic sequence analyzer 100 and the bias removal apparatus 300 in target sequencing may be directly connected through the network 200 or may be connected through a storage space on the Internet such as Webhard.
  • the control sample sequencing data and / or experimental sample sequencing data generated by the genetic agent reader can be stored in a computer readable storage medium and applied to the bias removal device.
  • the network 200 refers to a connection structure capable of exchanging information between each node, such as terminals and servers
  • an example of such a network 200 is WCDMA, Internet (Internet), LAN (Local) Area Network (WLAN), Wireless Local Area Network (WLAN), Wide Area Network (WAN), Personal Area Network (PAN), El networks using ATM, 3G, 4G, LTE, and Wi-Fi It doesn't work.
  • the genomic sequence analyzer 100 disclosed in FIG. 1 and the bias removal apparatus 300 in target sequencing are not limited to those shown in FIG. 1.
  • the genomic sequence analyzer 100 may refer to any device capable of amplifying DNA sequence, and then photographing fluorescent labels and the like by photographing means and performing image processing to parallelize DNA genetic information.
  • the genomic sequence analyzer may be a device capable of performing massively parallel sequencing techniques such as Next Generation Sequencing (NGS), but is not limited thereto.
  • NGS Next Generation Sequencing
  • sequence information of polynucleotide fragments can be obtained using commercially available sequencing instruments.
  • the genomic sequence analyzer 100 may be applied to the field of identifying genetic variation, DNA copy number, and chromosomal rearrangement.
  • the analyzer 100 may read a single DNA several times.
  • the number of reads may be defined as a read count, and the read count may also be defined as a depth.
  • read refers to the length of a DNA fragment read by a genomic sequence analyzer at a time, about 10 to about 2000 bp, about 10 to about lOOOObp, about 10 to about 500bp, about 10 to about 300bp, about 10 To about 200 bp, about 25 to about 2000 bp, about 25 to about 1000 bp, about 25 to about 500 bp, about 25 to about 300 bp, about 25 to about 200 bp, about 25 to about 100 bp, about 50 to about 2000 bp, About 50 to about 1000 bp, about 50 to about 500 bp, about 50 to about 300 bp, about 50 to about 200 bp, about 50 to about 100 bp, about 100 to about 2000 bp, about 100 to about 1000 bp, about 100 to about 500 bp , About 100 to about 300 bp, about 100 to about 200 bp, about 150 to about 2000 bp, about 150 to about 1000 bp, about 150 to about 500 bp, about 150 to about
  • the bias removal device 300 in order to improve the sensitivity of the somatic cell copy number variation detection, the second bias can be removed, the non-specific region between the experimental group and the control vector is selected and set as an indiscriminate region, The bias can be eliminated based on the indifference region.
  • the bias removal apparatus 300 in the target sequencing analysis may be implemented by a computer that can be connected to a server or a terminal in a remote place through the network 200.
  • the computer may include, for example, a notebook, a desktop, a laptop, and the like.
  • FIG. 2 is a block diagram illustrating an apparatus (system) in which a bias removal method is performed
  • FIG. 3 is a block diagram illustrating a bias removal method in target sequencing according to an embodiment
  • Fig. 4 is work 5 is a view illustrating a process of generating an experimental group vector based on experimental sample sequence data in a bias removing method according to an embodiment
  • FIG. 5 illustrates a process of generating an experimental group vector and a control vector in a bias removing method according to an exemplary embodiment.
  • FIG. 6 is a diagram for describing a process of dividing an experimental group vector and a control vector for each region in a bias removal method according to an embodiment
  • FIG. 7 illustrates a bias removal method in a bias removal method according to an embodiment.
  • FIG. 8 is a graph showing the TRR vector with respect to the number of target areas before and after the following, and FIG. 8 is a graph showing the TRR with respect to the number of target areas after the bias is removed by various methods.
  • the bias removal apparatus 300 first removes the bias through the NMF and secondly selects the nonspecific region to remove the bias.
  • the bias removal apparatus 300 may include a receiver 310, a generator 330, a first remover 350, and an output 370.
  • the second remover 390 may be further included.
  • test sample sequencing data and control sample sequencing data into standard reference sequencing data per chromosomal position every 3 ⁇ 4 (1 & (1)
  • the bias removal method may be a bias removal method in target sequencing performed in a bias removal device in target sequencing.
  • Experimental sample base data and control sample base sequence of step (1) The data may each independently receive sequence data generated directly or indirectly from a genome sequencer, or may be obtained (prepared) through a computer readable storage medium on which already generated sequence data is stored.
  • the bias removal method in the target sequencing may further comprise preparing (receiving or obtaining) the experimental sample sequencing data and the control sample sequencing data before step (1).
  • the test sample sequencing data and the control sample sequencing data each independently, directly or indirectly receive sequence data generated by a genomic sequence analyzer, or a computer readable storage medium storing the sequence data already generated. We can prepare by application.
  • the first bias removing step may be performed using non-negative matrix factorization (NMF).
  • NMF non-negative matrix factorization
  • the bias removal method in the target sequencing analysis after the first bias removal step, for example, between the steps (3) and (4), the second bias removal step comprising the following step is added Funny to include as:
  • the secondary bias removal step may be performed in the first bias
  • the first bias removal step (corresponding to steps (2) and (3)) may include the following (i) to (V):
  • the secondary bias removing step may include the following (vi) to (viii). have:
  • the step (1) may include the generation unit 330, the step (2), or the steps (i) to (iii), the first removal unit 350, step (a) and (b) or steps (vi) to (viii) may be performed in the second removal section, and steps (3) and (4) or step (iv) may be performed at the output section 370, respectively, optionally step (1) Preparing the previously addable experimental sample sequence data and control sample sequence data may be performed at the receiver 310.
  • Receiving unit 310 is a part for preparing the experimental sample sequencing data and the control sample sequencing data, for example, receiving the experimental sample sequencing data and / or control sample sequencing data generated by the genomic sequence analyzer 100 or Or, read out experimental sample sequence data and / or control sample sequence data stored in a computer readable storage medium.
  • the test sample sequencing data and the control sample sequencing data as shown in Figs. 4 and 5, the test sample and the control sample are read a plurality of times in the genomic sequence analyzer 100 and have a plurality of read counts. Data.
  • the generation unit 330 is based on a read count in which the prepared test sample sequence data and the control 'sample sequence data are read mapped to standard reference sequence data for each chromosomal position. By doing so, the experimental group and the control vector can be generated (S3100, S3200). The read count may be calculated in at least one other third region located in the experimental sample sequence data and the control sample sequence data.
  • standard reference sequencing data refers to genomic sequencing databases representing a species or nucleotide sequence data of a particular chromosome or a specific chromosomal location (or region) constructed from the database.
  • Human standard reference sequence data may be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl 8, hgl 9, hg38.
  • the target region of the experimental sample sequence data and the control sample sequence data is read while reading the sequence data of the 250 test sample and the control sample, respectively. Stars lead
  • the number of counts can be calculated.
  • the read count may be calculated in at least one target region located in the experimental sample base data and the control sample base data.
  • the control sample sequence data i.e., if there is already generated (prepared) standard control vector, it can be calculated in at least one target region located in the experimental sample sequence data and the standard control vector.
  • the experimental group vector and the control group vector are as shown in Equation 1 below.
  • N (ni, n 2 , n ... n k .i, n ⁇
  • the first remover 350 performs a first bias removal step, and generates a binding matrix combining the generated experimental group vector and the control vector, and divides the generated binding matrix by region to remove bias.
  • the bias is, NMF (Non- negative Matrix Factorization) 3 ⁇ 4 ⁇ may be removed through.
  • Equation 2 Equation 2
  • Equation 2 may be divided into regions and expanded as shown in Equation 3 as shown in FIG. 6 (S3400):
  • 1 is the number of regions
  • k is the number of target regions
  • b is a boundary.
  • step (S3500) of performing the NMF for each of the plurality of regions may be performed.
  • Non-negative matrix factorization refers to a method of factoring a matrix into two matrices of non-negative (positive + zero), that is, W (specific element matrix) and H (weighted matrix). Used to extract independent features in the data.
  • Equation 3 can be summarized as Equation 4 below. That is, when NMF is applied to the matrix Vb of Equation 3 divided by regions (S3500).
  • Equation 5 it can be seen that T b is composed of W, lX H u + W, 2 x H 2 , ⁇ l, and Nb is composed of WjxH + W xH.
  • the vector is a common element vector of the experimental group and the control vector, and the W, 2 vectors are the experimental group or the control specific element vector.
  • ! and 3 ⁇ 4 , 2 are the augmented values multiplied only in the experimental vector and the control vector, respectively.
  • most of U and H U have a value larger than 0, but in some cases, ⁇ and U U can be close to zero.
  • the bias elements can be selected by comparing the values of the decomposed! ⁇ And 3 ⁇ 4, 2 values. Therefore, Equation 5 may be used to illustrate the bias element selection step (S3600) when the rank is fixed to 2 in the NMF.
  • TRR target region ratio
  • Steps (3) and (4) may be performed in the output unit 370.
  • H 2 ⁇ H 2 greater than 2 for example, in the case 2 is close to 0, W, a divalent group Since it means that it is a special element vector, it is possible to recombine the matrix except H 2 and 2 (S3610).
  • Tb W ,, x H u + W, 2 x ⁇ 2 , ⁇
  • the bias removal method according to an embodiment of the present invention, by dividing the coupling vector matrix for the experimental group and the control vector by region, by removing the noise bias by region, and then re-aggregate this collectively in all areas
  • it is possible to eliminate the problem of desensitization caused by removing the bias and to increase the accuracy in identifying the somatic cell copy number variation by removing the bias that may occur specifically in the region.
  • the bias is first removed by using the NMF, and the second step of removing the bias by selecting the non-specific region (secondary bias removal step) It can be done further.
  • second bias removal step a bias removal method for selecting non-specific regions will be described.
  • the secondary bias removal step may be performed in the second removal unit 390.
  • step (a) of removing non-specific areas between the experimental group and the control vector as a non-discriminatory region after screening (1) S3700, S3710
  • the experimental group and the control vector remaining non-specific region are described below. Selection may be made through Equations 8 and 9.
  • step 1 of calculating the weight for each region of the experimental group and the control vector the bias is removed to the set indiscriminate region, to the set indiscriminate region
  • the target region ratio (TRR) vector may be generated based on the number of the target sample sequencing data or the experimental group vector, and at least one target located in the control sequencing data or the control vector.
  • the calculated TRR vector for each region may be collected for each region and generated as shown in Equation 13 (S3800) (In Equations 12 and 13, b denotes a boundary and 1 denotes the number of regions.
  • TRR b * means the region-specific TRR vector after the bias is removed first and second.
  • FIG. 7 is a graph depicting TRR vectors for the number of target regions before and after bias removal in human genome chromosomes (test sample: HCC1143 Cell line (ATCC), control sample: HCC1143 BL (ATCC)). Shows the TRR vector for the target region number before removing the bias, and (b) shows the TRR vector for the target region number after performing the primary bias removal and the secondary bias removal.
  • (a) and (b) it can be seen that (b) of the present invention is better classified TRR vectors for each region. That is, it is difficult to identify somatic cell copy number variation because ( a ) has a lot of bias or noise, but it is understood that somatic cell copy number variation is easier to identify because (b) is a state where bias and noise are removed.
  • FIG. 8 is a graph depicting TRR versus number of target regions after debiasing in various methods for human genome chromosomes (test sample: HCC1143 Cell line (ATCC), control sample: HCC1143 BL (ATCC)).
  • step (c) removes the bias at the same time for the entire region by the NMF method (i.e., except for dividing the coupling matrix of step (2) by region in the above-described method (step (ii) (S3400)). And the TRR vector for the number of target regions of the secondary bias removal step (S3700),
  • (d) shows the TRR vectors for the number of target regions after removing the primary bias (S3600) and the secondary bias (S3700) for each region by the NMF method as described above.
  • Equation 1-8 The SVD of FIG. 8B was performed by the following Equations 1-8:
  • ni (fi, ⁇ 2, ⁇ ⁇ ; nik)
  • ri is the lead correction sheet at position i of the standard control vector (rule 91) ISA / KR Number of counts, and k in Equation 4-8 is the number of targets)
  • T can be factored as 1; ⁇ ⁇ and 1 is defined as Singular Value Cutoff, so the cutoff is determined by Ref. 7 below)
  • FIG. 8 shows a large number of TRR values beyond the baseline in addition to the region indicated by T, so that it is difficult to identify variation in somatic cell copy number due to bias.
  • (b) increases the TRR value in the area indicated by T, which increases the sensitivity of excavation variation.
  • the bias removal effect is not significant because more areas are beyond the baseline.
  • FIG. 9 is a flowchart illustrating an example of a method of removing a bias in target sequencing according to an exemplary embodiment.
  • the bias removal apparatus receives experimental sample sequence data and control sample sequence data generated by a genome sequence analyzer (S8100). Then, the bias removal apparatus reads the received test sample sequencing data and the control sample sequencing data to a read count of read mapping to standard reference sequencing data for each chromosomal position. Based on the experimental group and the control vector is generated (S8200).
  • the bias removal apparatus generates a binding matrix combining the generated experimental group vector and the control vector, divides the generated binding matrix by region to remove bias (S8300), and recombines the coupling matrix from which the bias is removed.
  • a TRR vector for each region from which the bias is removed is collected and collected for each region.
  • the bias removal method or computer readable method including the same is a computer executable instruction, which may be implemented and / or processed in whole or in part on a known computer readable medium.
  • the methods described herein may be implemented in combination with hardware.
  • the hardware may mean specially designed hardware or firmware, such as a computer, a standard multipurpose ( ⁇ - ⁇ ) CPU, an application-specific integrated circuit or other hard-wired device,
  • ⁇ - ⁇ standard multipurpose
  • ⁇ - ⁇ application-specific integrated circuit
  • the term 'computer' used may be used to generically refer to them.
  • Another example is a computer stored in a computer readable storage medium for carrying out the steps of the bias removal method or a computer readable method comprising the same.
  • the computer program stored in the computer readable storage medium may be combined with hardware.
  • the computer program stored in the computer readable storage medium is a program for executing each step of the above-described bias removing method or a computer reading method including the same in a computer, wherein all the above steps are executed by one program. Or by two or more programs executing one or more steps.
  • a processor may have one or more of the following features: It may be implemented in software stored in (eg, memory, etc.) and implemented on one or more processors. As is generally known, a processor may have one or more of the following features: a processor may have one or more of the following features: a processor may have one or more of the following features: a processor may have one or more of the following features: a processor may have one or more of the following features: a processors, etc.
  • the program RAM Random Access Memory
  • ROM Read Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • Flash Memory eg, Universal Serial Bus (USB) Memory, Secure Digital (SD) Memory) , Soli State Drive (SSD), Compact Flash (CF) memory, xD memory, etc.
  • USB Universal Serial Bus
  • SD Secure Digital
  • CF Compact Flash
  • magnetic disks laser disks, or other storage media.
  • Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
  • some or all of the blocks, tasks, techniques, etc. may be, for example, custom ICs, application specific integrated circuits (ASICs), field programmable logic arrays (FPGAs), programmable logic arrays (PLAs). ) May be implemented.
  • ASICs application specific integrated circuits
  • FPGAs field programmable logic arrays
  • PDAs programmable logic arrays
  • the software may be a known computer readable medium, such as a magnetic disk, optical disk, or other storage medium, RAM or ROM or flash memory of a computer, processor, hard disk drive, optical disk drive, tape drive, or the like. Can be stored.
  • the software may be delivered to a user or computer system via known delivery methods, including, for example, computer readable disks or other portable computer storage mechanisms.
  • bias removal method computer readable method, program, and storage medium may be embodied in many other general purpose or special purpose computing system environments or
  • Computing systems, environments, and / or structures suitable for implementing the bias removal method, computer readable method, program, and storage medium may be, for example, a personal computer (PC), server computer, portable or laptop device, multiprocessor Remote processing including systems, microprocessor-based systems, set-top boxes, programmable consumer electronics, network PCs, minicomputers, mainframe computers, and / or the systems or devices described above and connected via a communications network Distributed computing environment performed by the devices, and the like, but is not limited thereto.
  • program modules may be located in both local and remote computer storage media, including memory storage devices.
  • Computers may typically include a variety of computer readable media.
  • Computer-readable media can be media that are accessible and available by a computer and can include volatile and nonvolatile media, removable media, and non-removable media.
  • Computer readable media may include computer storage media and / or communication media.
  • the computer readable storage medium can be any available medium that can be accessed by the computer and includes all conventional media such as volatile and nonvolatile media, removable media non-removable media, removable media and / or non-removable media. It may mean a medium.
  • a computer-readable storage media may include both computer storage media and communication media.
  • Computer storage media include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other memory, CD-ROM, DVD (digital versatile disk). ) Or other optical disc, magnetic
  • One or more of a cassette, magnetic tape, magnetic disk storage or other magnetic storage device, or any medium that can be used to store desired information and accessible by a computer can be selected, but is not limited thereto.
  • the communication medium is typically an information transfer medium that implements data transmission or other transport mechanisms among modulated data signals, such as computer readable instructions, data structures, program modules, or carrier waves. (information delivery media).
  • modulated data signals such as computer readable instructions, data structures, program modules, or carrier waves.
  • Modulated data signal means a signal that has one or more of its characteristics set or changed in such a manner as to encode information in the signal.
  • the communication medium may be wired. Wired media such as network or direct-wired connection, and wireless media such as acoustic, RF, infrared and other wireless media. Combinations of one or more of the above may also be included within the scope of computer readable media.

Abstract

Provided is a method for removing bias in a target nucleotide sequence analysis, the method for removing bias comprising the steps of: generating an experimental group vector and a control group vector on the basis of a read count having experimental sample nucleotide sequence data and control sample nucleotide sequence data read mapped on standard reference nucleotide sequence data per chromosomal position; generating a coupling matrix coupling the generated experimental group vector and control group vector, and removing bias by dividing the generated coupling matrix per region; and recoupling the bias-removed coupling matrix, and gathering and outputting, per region, bias-removed target region ratio (TRR) vectors per region.

Description

【명세서】  【Specification】
【발명의 명칭】  [Name of invention]
N M F를 이용한 타겟 염기 서열 분석에서의 바이어스 제거 방법 【기술분야】  Bias removal method in target sequencing using N M F
본 발명은 타겟 염기 서열 분석에서의 바이어스 제거 방법에 관한 것으로, 암 시료에 대한 서열 해독에서 발생하는 바이어스를 영역별로 제거하여 체세포 복제수 변이를 정확하게 판별할 수 있도록 정보를 제공하는 방법에 관한 것이다. 【배경기술】  The present invention relates to a method for removing bias in target sequencing, and to a method for providing information to accurately determine somatic cell copy number variation by removing a bias generated in sequence readout for a cancer sample for each region. Background Art
암의 진단 및 치료를 위해서는 암에 특이적으로 존재하는 구조 변이를 발굴하는 것이 중요하다. 이에 따라, 다수의 암에서 발생되는 점 돌연변이와 같은 체세포 변이 (somatic mutation), DNA 복제수 (copy number) 및 염색체  In order to diagnose and treat cancer, it is important to identify structural variations specific to cancer. Thus, somatic mutations, such as point mutations in many cancers, DNA copy numbers, and chromosomes
재배열 (rearrangement) 등을 밝혀 암의 원인 유전자를 규명하는 분야에 대한 연구가 활발하게 진행되고 있다. 이 중에서도 체세포 복제수 변이 (somatic copy number variation)는 정상 세포에서는 존재하지 않는 유전자의 복제수의 변이를 의미하는 것으로서 암의 발병과 높은 연관성이 제기되고 있다. Research into the field of identifying cancer genes by revealing rearrangements is being actively conducted. Among these, somatic copy number variation refers to a variation in the number of copies of genes that do not exist in normal cells, and has been highly associated with the onset of cancer.
전장 유전체 서열 해독 (whole genome sequencing, WGS)은 한 생명체가 가지는 전체 DNA 서열을 분석하는 방법이다. 따라서, 상기 방법을 통해 분석된 전체 ' DNA 서열 데이터는 한 개체의 모든 염기 서열을 포함하며, WGS 데이터를 이용하여 복제수 변이를 찾아내기 위해서는 주변 지역보다 복제수가 유의미하게 차이나는 지역을 찾아내야 한다. 그러나, WGS는 데이터 생산 비용이 높아서 WGS 데이터는 일반적으로 쉽게 생산할 수 없다. Whole genome sequencing (WGS) is a method of analyzing the entire DNA sequence of an organism. Thus, the entire 'DNA sequence data analysis through the way to bet includes all nucleotide sequence of the object, find the copy number variation using the WGS data to replicate the number of meaningful than the surrounding areas China is to find a local . However, WGS is expensive to produce data, so WGS data is generally not easy to produce.
한편, WGS의 대안으로 타켓 액솜 서열 해독 (targeted exome sequencing)을 들 수 있다. 타겟 액솜 서열 해독은 단백질을 번역하는 엑솜 영역 중에서도 관심 영역의 염기 서열만 포착 (capture)하여 데이터를 생산하는 방식이다. 타켓 액솜 서열 해독은 WGS 데이터 생산 방식에 비해서는 비용이 상대적으로 저렴하여 일반적으로 많이 사용되지만, 포착 효율 (capture efficiency)이나 G-C 함량 (구아닌-사이토신 함량) 등의 영향에 의해 바이어스 (bias)가 발생하기 때문에 반드시 바이어스를 제거하여야 정확한 체세포 복제수 변이를 찾아낼 수 있다 (Benjamini Y et al., Nucleic Acids Research DOI: 10.1093/nar/gks001 ; 국내출원공개 제 2014-0023847호; 국제공개 Alternatively, targeted exome sequencing is an alternative to WGS. Target axome sequence translation is a method of producing data by capturing only the nucleotide sequence of the region of interest among the exome regions for protein translation. Targeted axome sequencing is generally used because it is relatively inexpensive compared to the WGS data production method, but the bias is influenced by effects such as capture efficiency or GC content (guanine-cytosine content). The bias must be removed. Accurate somatic cell copy number variation can be found (Benjamini Y et al., Nucleic Acids Research DOI: 10.1093 / nar / gks001; Domestic Application Publication No. 2014-0023847; International Publication
제 WO2014/0044724호 참조). See WO2014 / 0044724).
다만, 바이어스를 제거하기 위한 방법들이 일부 개발되어 왔으나, 기존의 방법들은 전체 타겟 영역을 대상으로 한 번에 바이어스를 제거하여 각 염색체 및 유전자 단위에 존재하는 소규모의 체세포 복제수 변이를 민감하게 검출할 수 없다는 한계가 있다. 또한, 기존의 특이값 분해 (single value decomposition; SVD) 기반의 방법은 컷오프 (cutoff)를 결정하는 기준이 모호하여, 샘플별 바이어스 제거시 재현성이 낮으며, 을바른 신호 (true signal)까지 제거할 수 있다는 위험이 있다.  However, some methods for removing the bias have been developed, but the existing methods can be used to sensitively detect small somatic copy number variation present in each chromosome and gene unit by removing the bias at once for the entire target region. There is a limit that cannot be. In addition, the conventional single value decomposition (SVD) -based method is ambiguous in determining the cutoff, and thus has low reproducibility when removing sample-by-sample bias, and eliminates even a true signal. There is a risk that it can.
따라서, 체세포 복제수 변이의 검출 민감도를 향상시키기 위해 새로운 바이어스 제거 방법이 요구된다.  Thus, new bias removal methods are needed to improve the detection sensitivity of somatic copy number variation.
[발명의 상세한 설명】 [Detailed Description of the Invention]
【기술적 과제】  [Technical problem]
일 실시예는 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 표준 참조 염기 서열 데이터에 리드 매핑하여 계산된 리드 카운트에 기초하여 실험군 백터 및 대조군 백터를 생성하며, 생성된 실험군 백터 및 대조군 백터에 영역1 로, 예컨대 비음수 행렬 인수분해법 (Non-negative Matrix Factorization; "NMF")를 통하여, 바이어스를 1차적으로 제거하고, 무차별 영역을 선정함으로써 노이즈를 2차적으로 제거함으로써, 체세포 복제수 변이 발굴의 민감도를 증가시킬 수 있는, 타겟 염기 서열 분석에서의 바이어스 제거 기술 및 이를 이용한 타겟 염기 서열 분석 기술을 제공한다. One embodiment produces experimental and control vectors based on a read count calculated by read mapping the test sample sequencing data and the control sample sequencing data to standard reference sequencing data, the regions of which are generated in the experimental and control vectors. 1 , such as through non-negative matrix factorization ("NMF"), removes the bias first, and selects the indifference region to remove the noise second, so that it is possible Provided are a bias removal technique in target sequencing and a target sequencing technique using the same, which can increase sensitivity.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.  However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
【기술적 해결방법】 Technical Solution
일 실시예는, NMF(Non-negative Matrix Factorization)를 이용하는 타겟 염기 서열 분석에서의 바이어스 제거 방법을 제공한다.  One embodiment provides a method for bias removal in target sequencing using non-negative matrix factorization (NMF).
구체예에서, 상기 타겟 염기 서열 분석에서의 바이어스 제거 방법은, (1) 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 염기 서열 데이터에 리드 매핑 (Read In embodiments, the bias removal method in the target sequencing, (1) Read mapping of test sample sequencing data and control sample sequencing data to standard reference sequencing data for each chromosomal position
Mapping)한 리드 카운트 (Read Count)에 기반하여, 실험군 백터 및 대조군 백터를 생성하는 단계; Generating an experimental group vector and a control vector based on a read count (Mapping);
(2) 상기 생성된 실험군 백터 및 대조군 백터를 결합한 결합 행렬을 생성하고, 상기 생성된 결합 행렬을 영역별로 나누어 바이어스 (Bias)를 제거하는 단계 (1차 바이어스 제거 단계);  (2) generating a binding matrix combining the generated experimental group vector and the control vector, and dividing the generated binding matrix by region to remove bias (primary bias removal step);
(3) 상기 바이어스가 제거된 결합 행렬을 재결합하는 단계; 및  (3) recombining the decoupling coupling matrix; And
(4) 상기 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력하는 단계  (4) collecting and outputting a TRR vector for each region from which the bias is removed for each region;
를 포함하는 것일 수 있다.  It may be to include.
상기 바이어스 제거 방법은 타겟 염기 서열 분석에서의 바이어스 제거 장치에서 실행되는 타겟 염기 서열 분석에서의 바이어스 제거 방법일 수 있다. 상기 단계 (1)의 실험 시료 염기 서열 데이터 및 대조 시료 염기 서열 데이터는 각각 독립적으로 유전체 서열 분석기 (Sequencer)에서 생성된 서열 데이터를 직접 또는 간접적으로 수신하거나, 이미 생성된 서열 데이터가 저장된 컴퓨터 판독 가능한 저장 매체를 통하여 수득 (준비)할 수 있다ᅳ 따라서, 상기 타겟 염기 서열 분석에서의 바이어스 제거 방법은, 단계 (1) 이전에, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 준비하는 단계를 추가로 포함할 수 있으며, 상기 실험 시료 염기 서열 데이터 및 대조 시료 염기 서열 데이터는, 각각 독립적으로, 유전체 서열 분석기 (Sequencer)에서 생성된 서열 데이터를 직접 또는 간접적으로 수신하거나, 이미 생성된 서열 데이터가 저장된 컴퓨터 판독 가능한 저장 매체를 적용함으로써 준비할 수 있다.  The bias removal method may be a bias removal method in target sequencing performed in a bias removal device in target sequencing. The test sample sequencing data and the control sample sequencing data of step (1) may each independently or directly indirectly receive sequence data generated by a genome sequencer, or a computer readable data storing stored sequence data. Can be obtained (prepared) through a storage medium. Thus, the bias removal method in the target sequencing analysis, before step (1), adds a step of preparing experimental sample sequencing data and control sample sequencing data. The test sample sequencing data and the control sample sequencing data may be each independently, directly or indirectly receiving sequence data generated by a genomic sequence analyzer, or stored already stored sequence data. Can be prepared by applying a computer readable storage medium .
상기 게 1 바이어스 제거 단계는 NMF(Non-negative Matrix Factorization)를 이용하여 수행되는 것일 수 있다.  The first bias removal step may be performed using non-negative matrix factorization (NMF).
일 예에서, 상기 타겟 염기 서열 분석에서의 바이어스 제거 방법은, 상기 1차 바이어스 제거 단계 이후, 예컨대, 상기 단계 (3)과 (4) 사이에, 다음의 단계 (2차 바이어스 제거 단계)를 추가로 포함할 수 있다:  In one example, the bias removal method in the target sequencing analysis, after the first bias removal step, for example, between the steps (3) and (4), the following step (secondary bias removal step) is added Can include as:
(a) 상기 실험군 백터와 대조군 백터 간 비특이 영역을 선별 후 무차별 영역으로 설정하여 바이어스를 제거하는 단계; 및 (a) indiscriminate after screening the non-specific region between the experimental group and the control group vector Setting the area to remove the bias; And
(b) 상기 설정된 무차별 영역으로 바이어스가 제거된 상기 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 단계  (b) calculating weights for each region of the experimental group vector and the control group vector whose bias is removed from the set indiscriminate region;
다른 예는 상기 바이어스 제거 방법을 포함하는 타겟 염기 서열 분석을 위한 컴퓨터 판독 방법을 제공한다.  Another example provides a computer read method for target sequencing comprising the bias removal method.
다른 예는 상기 바이어스 제거 방법의 단계를 실행시키가 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.  Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the bias removal method.
다른 예는 상기 바이어스 제거 방법의 단계를 실행하기 위한 시스템을 제공한다.  Another example provides a system for performing the steps of the bias removal method.
다른 예는 상기 바이어스 제거 방법을 포함하는 타켓 염기 서열의 컴퓨터 판독 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.  Another example provides a computer program stored in a computer readable storage medium for carrying out a computer readable method of a target base sequence comprising the bias removal method.
다른 예는 상기 바이어스 제거 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다.  Another example provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the bias removal method.
다른 예는 상기 바이어스 제거 방법을 포함하는 적 염기 서열의 컴퓨터 판독 방법을 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다. 【발명의 효과】  Another example provides a computer readable storage medium (or recording medium) containing a computer executable instruction for executing a computer read method of a red base sequence including the bias removal method. 【Effects of the Invention】
전술한 기술적 해결 방법에서 제공된 수단 중 어느 하나에 의하면, 타겟 서열 해독에서 영역별로 발생하는 특이적인 바이어스 및 비특이적인 노이즈를 제거할 수 있고, 리드 카운트의 바이어스를 제거하여, 체세포 복제수 변이 발굴의 정확성을 향상시킬 수 있다.  According to any one of the means provided in the above-described technical solution, it is possible to eliminate specific bias and nonspecific noise generated in each region in target sequence decoding, and to eliminate the read count bias, so that the accuracy of somatic cell copy number variation detection can be eliminated. Can improve.
【도면의 간단한 설명】 [Brief Description of Drawings]
도 1은 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 시스템을 설명하기 위한 구성도이다.  1 is a block diagram illustrating a bias removal system in target sequencing according to an embodiment.
도 2는 일 실시예에 따른 바이어스 제거 방법이 수행되는 장치를 설명하기 위한 블록 구성도이다. 2 illustrates an apparatus in which a bias removal method is performed according to an embodiment. It is a block diagram for.
도 3은 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 방법을 설명하기 위한 블록 구성도이다.  3 is a block diagram illustrating a method for removing bias in target sequencing according to an embodiment.
도 4는 일 실시예에 따른 바이어스 제거 방법에서 실험 시료 염기 서열 데이터에 기반한 실험군 백터를 생성하는 과정을 설명하기 위한 도면이다.  4 is a diagram illustrating a process of generating an experimental group vector based on experimental sample sequence data in a bias removing method according to an embodiment.
도 5는 일 실시예에 따른 바이어스 제거 방법에서 실험군 백터와 대조군 백터를 생성하는 과정을 설명하기 위한 도면이다.  FIG. 5 is a diagram illustrating a process of generating an experimental group vector and a control vector in a bias removal method according to an exemplary embodiment.
도 6은 일 실시예에 따른 바이어스 제거 방법에서 영역별^ 실험군 백터와 대조군 백터를 나누는 과정을 설명하기 위한 도면이다.  FIG. 6 is a diagram illustrating a process of dividing a region-by-test group vector with a control vector in a bias removal method according to an embodiment.
도 7은 일 실시예에 따른 바이어스 제거 방법에서 바이어스를 제거하기 전과 후의 타¾ 영역수에 대한 TRR 백터를 도시한 그래프이다.  FIG. 7 is a graph illustrating a TRR vector for the number of other regions before and after removing a bias in the bias removing method according to an exemplary embodiment.
도 8은 다양한 방법으로 바이어스를 제거한 후의 타켓 영역 수에 대한  8 shows the number of target areas after removing the bias in various ways.
TRR을 도시한 그래프이다. It is a graph showing TRR.
도 9는 본 발명의 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 방법을 설명하기 위한 동작 흐름도이다.  9 is a flowchart illustrating a method of removing a bias in target sequencing according to an embodiment of the present invention.
【발명의 실시를 위한 최선의 형태】 [Best form for implementation of the invention]
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.  DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결 "되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. , 본 명세서에서, 다른 정의가 없는 한, 실험 시료는 시험하고자 하는 Throughout the specification, when a part is said to be "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another element in between. . In addition, when a part is said to "include" a certain component, which means that it may further include other components, without excluding other components, unless specifically stated otherwise, one or more other features Or numbers, steps, actions, components, parts, or It should be understood that it does not exclude in advance the possibility of the presence or addition of combinations. In this specification, unless otherwise defined, the test sample is to be tested
염기서열을 포함하는 시료로서, 암 시료 (즉, 암세포로부터 추출된 유전체 (DNA 및 /또는 RNA) 시료)일 수 있고, 대조 시료는 정상 시료 (즉, 정상 세포로부터 추출된 유전체 (DNA 및 /또는 RNA) 시료)일 수 있다. ,상기 실험 시료 및 대조 시료는 동물, 예컨대 인간을 포함하는 포유동물로부터 얻어진 (분리된) 세포, 조직, 또는 A sample containing a nucleotide sequence, which may be a cancer sample (ie, a genome (DNA and / or RNA) sample extracted from cancer cells), and the control sample is a normal sample (ie, a genome extracted from normal cells (DNA and / or RNA) RNA) sample). The test sample and control sample may be (isolated) cells, tissues, or tissues obtained from an animal, such as a mammal, including a human.
이들로부터 추출된 유전체 (DNA 및 /또는 RNA) 시료일 수 있다. 상기 유전체는 게놈 또는 염색체의 전부 또는 일부의 DNA 및 /또는 RNA를 의미한다. Genomic (DNA and / or RNA) samples extracted from them. The genome means DNA and / or RNA of all or part of the genome or chromosome.
본 명세서에서, 다른 정의가 없는 한, 타겟 염기 서열 분석은 체세포 복제수 변이를 확인하기 위한 것으로, 타겟 영역에서의 유전체 복제수 변이를 확인하기 위한 타겟 영역의 염기 서열 분석일 수 있다.  In the present specification, unless otherwise defined, target sequencing is for identifying somatic copy number variation, and may be sequencing of target region for identifying genome copy number variation in a target region.
본 명세서에서, 다른 정의가 없는 한, 타겟 영역 및 타켓 염기 서열은 게놈 또는 염색체의 전부 또는 일부 내의 '분석하고자 하는 영역 (타겟 영역) 및 상기 영역의 염기 서열 (타겟 염기 서열)을 각각 의미한다ᅳ 상기 타켓 영역 및 타겟 염기 서열은 하나의.시료에 대하여 하나 이상 존재할 수 있다.  In this specification, unless otherwise defined, a target region and a target nucleotide sequence refer to a region (target region) to be analyzed and a base sequence (target base sequence) of the region, respectively, in all or part of the genome or chromosome. The target region and target base sequence may be present in one or more for one sample.
본 명세서에서 수치 앞에 기재된 "약"은, 다른 정의가 없는 한, 기재된 수치의 10%, 5%, 또는 3%의 변동폭 (증감분)을 포함하기 위하여 사용된 것일 수 있다. 이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.  "About" described before the numerical value herein may be used to include a variation (incremental) of 10%, 5%, or 3% of the numerical value unless otherwise defined. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 타켓 염기 서열 분석에서의 바이어스 제거 시스템을 설명하기 위한 구성도이다. 도 1을 참조하면, 바이어스 제거  1 is a block diagram illustrating a bias removal system in target sequencing according to an embodiment of the present invention. Referring to Figure 1, bias removal
시스템 (1)은, 유전체 서열 분석기 (100)와 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)를 포함할 수 있다. 다만, 이러한 도 1의 실험 시료 바이어스 제거 ' 시스템 (1)은 본 발명의 일 실시예에 블과하끅로 도 1을 통해 본 발명이 한정 System 1 may include genomic sequence analyzer 100 and bias removal apparatus 300 in target sequencing. However, the experimental sample bias removal, system 1 in this Figure 1 is limited to the present invention with reference to FIG 1 a block in one embodiment of the present invention and hakkeuk
해석되는 것은 아니다. It is not to be interpreted.
도 1의 각 구성요소들은 네트워크 (network, 200)를 통해 연결될 수 있다.  Each component of FIG. 1 may be connected via a network 200.
예를 들어, 도 1에 도시된 바와 같이, 네트워크 (200)를 통하여 유전체 서열 For example, as shown in FIG. 1, genomic sequence through network 200.
분석기 (100)와 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)가 연결될 수 있다. 이때, 유전체 서열 분석기 (100)에서 생성된 대조 시료 염기 서열 데이터 및 /또는 실험 시료 염기 서열 데이터만을 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)가 수신하면 되므로, 직접 또는 간접적인 연결을 모두 포함할 수 있다. 예컨대, 유전체 서열 분석기 (100)와 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)가 네트워크 (200)을 통하여 직접 연결되거나, 웹하드와 같은 인터넷 상 저장 공간을 통하여 연결될 수 있다. 다른 예에서, 상기 유전제 해독기에서 생성된 대조 시료 염기 서열 데이터 및 /또는 실험 시료 염기 서열 데이터는 컴퓨터 판독 가능한 저장 매체에 저장되어 바이어스 제거 장치에 적용될 수 있다. The analyzer 100 and the bias removal device 300 in target sequencing can be connected. At this time, the control sample base sequence data generated by the genome sequence analyzer 100 And / or only the experimental sample sequencing data need be received by the bias removal device 300 in the target sequencing, thus including both direct or indirect connections. For example, the genomic sequence analyzer 100 and the bias removal apparatus 300 in target sequencing may be directly connected through the network 200 or may be connected through a storage space on the Internet such as Webhard. In another example, the control sample sequencing data and / or experimental sample sequencing data generated by the genetic agent reader can be stored in a computer readable storage medium and applied to the bias removal device.
여기서, 네트워크 (200)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크 (200)의 일 예는, WCDMA, 인터넷 (Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), ATM 방식을 활용한 El 망, 3G, 4G, LTE, Wi-Fi 등이 포함되나 이에 한정되지는 않는다. 또한, 도 1에 개시된 유전체 서열 분석기 (100)와 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)는 도 1에 도시된 것들로 한정 해석되는 것은 아니다.  Here, the network 200 refers to a connection structure capable of exchanging information between each node, such as terminals and servers, an example of such a network 200 is WCDMA, Internet (Internet), LAN (Local) Area Network (WLAN), Wireless Local Area Network (WLAN), Wide Area Network (WAN), Personal Area Network (PAN), El networks using ATM, 3G, 4G, LTE, and Wi-Fi It doesn't work. In addition, the genomic sequence analyzer 100 disclosed in FIG. 1 and the bias removal apparatus 300 in target sequencing are not limited to those shown in FIG. 1.
유전체 서열 분석기 (100)는 DNA 서열을 증폭시킨 후 형광 표식 등을 촬영 수단으로 촬영하고, 이미지 처리를 수행함으로써 DNA 유전 정보를 병렬 데이터화할 수 있는 모든 장치를 의미할 수 있다. 예컨대, 상기 유전체 서열 분석기는 차세대 서열분석 (Next Generation Sequencing: NGS)과 같은 대규모 병렬형 서열분석 (massively parallel sequencing) 기술의 수행이 가능한 장치일 수 있으나, 이에 제한되는 것은 아니다ᅳ 일 예에서, 상기 대규모 병렬 염기서열분석은, 예컨대 454 플랫품 (platform) (Margulies, 등, Nature (2005) 437:376-380), lllumina Genome Analyzer (또는 Solexa™ platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320: 106-109), Pacific  The genomic sequence analyzer 100 may refer to any device capable of amplifying DNA sequence, and then photographing fluorescent labels and the like by photographing means and performing image processing to parallelize DNA genetic information. For example, the genomic sequence analyzer may be a device capable of performing massively parallel sequencing techniques such as Next Generation Sequencing (NGS), but is not limited thereto. Large-scale parallel sequencing is described, for example, in the 454 platform (Margulies, et al., Nature (2005) 437: 376-380), lllumina Genome Analyzer (or Solexa ™ platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, or SOLiD (Applied Biosystems) or Helicos True Single Molecule DNA Sequencing Technology (Harris, et al., Science (2008) 320: 106-109), Pacific
Biosciences의 단일 분자, 및 /또는 실시간 (SMRT™) 기술 등에 의하여 수행될 수 있다. 이 외에도 상업적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다. Biosciences single molecule, and / or real time (SMRT ™) technology and the like. In addition, sequence information of polynucleotide fragments can be obtained using commercially available sequencing instruments.
유전체 서열 분석기 (100)는 유전자 변이, DNA 복제수 (Copy Number) 및 염색체 재배열을 파악하는 분야에도 적용될 수 있으며, 이를 위하여 유전체 서열 분석기 (100)는 하나의 DNA를 여러 번 읽을 수 있는데, 여기서 읽은 횟수를 리드 카운트 (Read Count)라 정의하고, 리드 카운트는 깊이 (Depth)라고도 정의될 수 있다. 본 명세서에서, 리드 (read)는 유전체 서열 분석기가 한번에 읽는 DNA 단편 길이를 의미하는 것으로, 약 10 내지 약 2000 bp, 약 10 내지 약 lOOObp, 약 10 내지 약 500bp, 약 10 내지 약 300bp, 약 10 내지 약 200 bp, 약 25 내지 약 2000 bp, 약 25 내지 약 1000 bp, 약 25 내지 약 500bp, 약 25 내지 약 300bp, 약 25 내지 약 200bp, 약 25 내지 약 100bp, 약 50 내지 약 2000 bp, 약 50 내지 약 1000 bp, 약 50 내지 약 500bp, 약 50 내지 약 300bp, 약 50 내지 약 200bp, 약 50 내지 약 100bp, 약 100 내지 약 2000 bp, 약 100 내지 약 1000 bp, 약 100 내지 약 500bp, 약 100 내지 약 300bp, 약 100 내지 약 200bp, 약 150 내지 약 2000 bp, 약 150 내지 약 1000 bp, 약 150 내지 약 500bp, 또는 약 150 내지 약 300bp 길이를 갖는 것일 수 있다. 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)는, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 표준 참조 염기 서열 데이터에 리드 매핑 (Read Mapping)하여 리드 카운트 (Read Count)를 계산하고, 리드 카운트에 기반하여 실험 시료 염기 서열 데이터로부터 실험군 백터를, 대조 시료 염기 서열 데이터로부터 대조군 백터를 생성할 수 있다. 그리고 나서, 바이어스 제거 장치 (300)는 1차적으로 바이어스를 제거하는데, 실험군 백터와 대조군 백터를 결합한 결합 행렬을 생성하고, 결합 행렬을 영역별로 나누어 NMF(Non-negative Matrix Factorization)를 통하여 바이어스를 제거할 수 있다. The genomic sequence analyzer 100 may be applied to the field of identifying genetic variation, DNA copy number, and chromosomal rearrangement. The analyzer 100 may read a single DNA several times. The number of reads may be defined as a read count, and the read count may also be defined as a depth. As used herein, read refers to the length of a DNA fragment read by a genomic sequence analyzer at a time, about 10 to about 2000 bp, about 10 to about lOOOObp, about 10 to about 500bp, about 10 to about 300bp, about 10 To about 200 bp, about 25 to about 2000 bp, about 25 to about 1000 bp, about 25 to about 500 bp, about 25 to about 300 bp, about 25 to about 200 bp, about 25 to about 100 bp, about 50 to about 2000 bp, About 50 to about 1000 bp, about 50 to about 500 bp, about 50 to about 300 bp, about 50 to about 200 bp, about 50 to about 100 bp, about 100 to about 2000 bp, about 100 to about 1000 bp, about 100 to about 500 bp , About 100 to about 300 bp, about 100 to about 200 bp, about 150 to about 2000 bp, about 150 to about 1000 bp, about 150 to about 500 bp, or about 150 to about 300 bp in length. In the target sequencing analysis, the bias removing apparatus 300 read-maps the test sample sequencing data and the control sample sequencing data to standard reference sequencing data to calculate a read count, and reads Based on the count, experimental vector can be generated from experimental sample sequencing data and control vector can be generated from control sample sequencing data. Then, the bias removal apparatus 300 primarily removes the bias, generates a coupling matrix combining the experimental group vector and the control vector, and divides the binding matrix by region to remove the bias through non-negative matrix factorization (NMF). can do.
또한, 바이어스 제거 장치 (300)는, 체세포 복제수 변이 발굴의 민감도 향상을 위하여 , 2차적으로 바이어스 제거를 실시할 수 있는데, 실험군 백터와 대조군 백터 간 비특이 영역을 선별하여 무차별 영역으로 설정하고, 무차별 영역에 기초하여 바이어스를 제거할 수 있다. 이때, 타겟 염기 서열 분석에서의 바이어스 제거 장치 (300)는, 네트워크 (200)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 노트북, 데스크롭 (Desktop), 랩톱 (Laptop) 등을 포함할 수.있다.  In addition, the bias removal device 300, in order to improve the sensitivity of the somatic cell copy number variation detection, the second bias can be removed, the non-specific region between the experimental group and the control vector is selected and set as an indiscriminate region, The bias can be eliminated based on the indifference region. In this case, the bias removal apparatus 300 in the target sequencing analysis may be implemented by a computer that can be connected to a server or a terminal in a remote place through the network 200. Here, the computer may include, for example, a notebook, a desktop, a laptop, and the like.
도 2는 일 실시예에 따른 바이어스 제거 방법이 수행되는 장치 (시스템)를 설명하기 위한 블록 구성도이고, 도 3은 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 방법을 설명하기 위한 블록 구성도이고, 도 4는 일 실시예에 따른 바이어스 제거 방법에서 실험 시료 염기 서열 데이터에 기반한 실험군 백터를 생성하는 과정을 설명하기 위한 도면이고, 도 5는 일 실시예에 따른 바이어스 제거 방법에서 실험군 백터와 대조군 백터를 생성하는 과정을 설명하기 위한 도면이고, 도 6은 일 실시예에 따른 바이어스 제거 방법에서 영역별로 실험군 백터와 대조군 백터를 나누는 과정을 설명하기 위한 도면이고, 도 7은 일 실시예에 따른 바이어스 제거 방법에서 바이어스를 제거하기 전과 후의 타겟 영역수에 대한 TRR 백터를 도시한 그래프이고, 도 8은 다양한 방법으로 바이어스를 제거한 후의 타겟 영역 수에 대한 TRR을 도시한 그래프이다. FIG. 2 is a block diagram illustrating an apparatus (system) in which a bias removal method is performed, and FIG. 3 is a block diagram illustrating a bias removal method in target sequencing according to an embodiment. Fig. 4 is work 5 is a view illustrating a process of generating an experimental group vector based on experimental sample sequence data in a bias removing method according to an embodiment, and FIG. 5 illustrates a process of generating an experimental group vector and a control vector in a bias removing method according to an exemplary embodiment. FIG. 6 is a diagram for describing a process of dividing an experimental group vector and a control vector for each region in a bias removal method according to an embodiment, and FIG. 7 illustrates a bias removal method in a bias removal method according to an embodiment. FIG. 8 is a graph showing the TRR vector with respect to the number of target areas before and after the following, and FIG. 8 is a graph showing the TRR with respect to the number of target areas after the bias is removed by various methods.
우선, 일 실시예에 따른 바이어스 제거 장치 (300)는, 1차적으로 NMF를 통하여 바이어스를 제거하고, 2차적으로 비특이 영역을 선별함으로써 바이어스를  First, the bias removal apparatus 300 according to an exemplary embodiment first removes the bias through the NMF and secondly selects the nonspecific region to remove the bias.
제거하는데, 이를 순서대로 설명하기로 한다. This will be explained in order.
도 2를 참조하면, 일 실시예에 따른 바이어스 제거 장치 (300)는, 수신부 (310), 생성부 (330), 제 1 제거부 (350) 및 출력부 (370)를 포함할 수 있고, 임의로 제 2 제거부 (390)를 추가로 포함할 수 있다.  Referring to FIG. 2, the bias removal apparatus 300 according to an embodiment may include a receiver 310, a generator 330, a first remover 350, and an output 370. The second remover 390 may be further included.
또한, 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 방법은, In addition, the bias removal method in target sequencing according to an embodiment,
(1) 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 염기 서열 데이터에 리드 매 ¾ (1 &(1 (1) Read the test sample sequencing data and control sample sequencing data into standard reference sequencing data per chromosomal position every ¾ (1 & (1)
Mapping)한 리드 카운트 (Read Count)에 기반하여, 실험군 백터 (실험 시료로부터 생성) 및 대조군 백터 (대조군 시료로부터 생성)를 생성하는 단계; Generating an experimental group vector (generated from an experimental sample) and a control vector (generated from a control sample) based on the mapped Read Count;
(2) 상기 생성된 실험군 백터 및 대조군 백터를 결합한 결합 행렬을  (2) a binding matrix combining the generated experimental group vector and the control vector;
생성하고, 상기 생성된 결합 행렬을 영역별로 나누어 바이어스 (Bias)를 제거하는 단계; Generating and dividing the generated coupling matrix by regions to remove bias;
(3) 상기 바이어스가 제거된 결합 행렬을 재결합하는 단계; 및  (3) recombining the decoupling coupling matrix; And
(4) 상기 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력하는 단계  (4) collecting and outputting a TRR vector for each region from which the bias is removed for each region;
를 포함하는 것일 수 있다. , It may be to include. ,
상기 바이어스 제거 방법은 타겟 염기 서열 분석에서의 바이어스 제거 장치에서 실행되는 타켓 염기 서열 분석에서의 바이어스 제거 방법일 수 있다.  The bias removal method may be a bias removal method in target sequencing performed in a bias removal device in target sequencing.
상기 단계 (1)의 실험 시료 염기 서열 데이터 및 대조 시료 염기 서열 데이터는 각각 독립적으로 유전체 서열 분석기 (Sequencer)에서 생성된 서열 데이터를 직접 또는 간접적으로 수신하거나, 이미 생성된 서열 데이터가 저장된 컴퓨터 판독 가능한 저장 매체를 통하여 수득 (준비)할 수 있다. 따라서, 상기 타켓 염기 서열 분석에서의 바이어스 제거 방법은, 단계 (1) 이전에, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 준비 (수신 또는 수득)하는 단계를 추가로 포함할 수 있다. 상기 실험 시료 염기 서열 데이터 및 대조 시료 염기 서열 데이터는, 각각 독립적으로, 유전체 서열 분석기 (Sequencer)에서 생성된 서열 데이터를 직접 또는 간접적으로 수신하거나, 이미 생성된 서열 데이터가 저장된 컴퓨터 판독 가능한 저장 매체를 적용함으로써 준비할 수 있다. Experimental sample base data and control sample base sequence of step (1) The data may each independently receive sequence data generated directly or indirectly from a genome sequencer, or may be obtained (prepared) through a computer readable storage medium on which already generated sequence data is stored. Thus, the bias removal method in the target sequencing may further comprise preparing (receiving or obtaining) the experimental sample sequencing data and the control sample sequencing data before step (1). The test sample sequencing data and the control sample sequencing data, each independently, directly or indirectly receive sequence data generated by a genomic sequence analyzer, or a computer readable storage medium storing the sequence data already generated. We can prepare by application.
상기 제 1 바이어스 제거 단계는 NMF(Non-negative Matrix Factorization)를 이용하여 수행되는 것일 수 있다.  The first bias removing step may be performed using non-negative matrix factorization (NMF).
일 예에서, 상기 타겟 염기 서열 분석에서의 바이어스 제거 방법은, 상기 1차 바이어스 제거 단계 이후, 예컨대 상기 단계 (3)과 (4) 사이에, 다음의 단계를 포함하는 2차 바이어스 제거 단계를 추가로 포함할 수 밌다:  In one example, the bias removal method in the target sequencing analysis, after the first bias removal step, for example, between the steps (3) and (4), the second bias removal step comprising the following step is added Funny to include as:
(a) 상기 실험군 백터와 대조군 백터 간 비특이 영역을 선별 후 무차별 영역으로 설정 후 바이어스를 제거하는 단계 ; 및  (a) removing the bias after selecting the non-specific region between the experimental group vector and the control group as the indiscriminate region; And
(b) 상기 설정된 무차별 영역으로 바이어스가 제거된 상기 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 단계.  (b) calculating weights for respective regions of the experimental group vector and the control group vector whose bias is removed from the set indiscriminate region.
. 상기 2차 바이어스 제거 단계는 상기 1차 바이어스 게거 단계에서 . The secondary bias removal step may be performed in the first bias
바이어스가 제거된 결과물에 대하여 수행된다. Bias is performed on the resulting product.
도 3을 참조하면, 상기 1차 바이어스 제거 단계 (단계 (2) 및 (3) 해당)는 다음의 (i) 내지 (V)를 포함할 수 있다:  Referring to FIG. 3, the first bias removal step (corresponding to steps (2) and (3)) may include the following (i) to (V):
(i) 실험군 백터와 대조군 백터를 결합하여 결합 행렬을 생성하는 단계 (S3300);  (i) combining the experimental group vector with the control vector to generate a binding matrix (S3300);
(ii) 상기 생성된 결합 행렬을 복수개의 영역으로 나누는 단계 (S3400);  (ii) dividing the generated combining matrix into a plurality of regions (S3400);
(iii) 상기 복수개의 영역별로 NMF를 수행하는 단계 (S3500);  (iii) performing an NMF for each of the plurality of regions (S3500);
(iv) 상기 NMF 수행 결과로부터 바이어스 요소를 선별하는 단계 (S3600); 및 (V) 바이어스 제거 후 영역별 결합 행렬을 재결합하는 단계 (S3610).  (iv) selecting a bias element from the NMF performance (S3600); And (V) recombining the region-specific coupling matrix after the bias is removed (S3610).
또한, 상기 2차 바이어스 제거 단계는 다음의 (vi) 내지 (viii)를 포함할 수 있다: In addition, the secondary bias removing step may include the following (vi) to (viii). have:
(vi) 실험군 백터와 대조군 백터 간의 비특이적 영역을 선별하는 단계 (vi) selecting nonspecific regions between the experimental and control vectors
(S3700); (S3700);
(vii) 비특이적 영역을 제거하는 단계 (S3710); 및  (vii) removing the nonspecific region (S3710); And
(viii) 상기 바이어스가 제거된 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 단계 (S3720).  (viii) calculating weights for each region of the experimental group vector and the control group vector from which the bias is removed (S3720).
도 2를 이용하여 예시적으로 설명하면, 상기 단계 (1)은 생성부 (330), 단계 (2) 또는 단계 (i) 내지 (iii)은 제 1 제거부 (350), 단계 (a) 및 (b) 또는 단계 (vi)내지 (viii)는 제 2 제거부, 및 단계 (3) 및 (4) 또는 단계 (iv)는 출력부 (370)에서 각각 수행될 수 있으며, 임의로 단계 (1) 이전에 추가 가능한 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 준비하는 단계는 수신부 (310)에서 수행될 수 있다.  Referring to FIG. 2 by way of example, the step (1) may include the generation unit 330, the step (2), or the steps (i) to (iii), the first removal unit 350, step (a) and (b) or steps (vi) to (viii) may be performed in the second removal section, and steps (3) and (4) or step (iv) may be performed at the output section 370, respectively, optionally step (1) Preparing the previously addable experimental sample sequence data and control sample sequence data may be performed at the receiver 310.
수신부 (310)는, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 준비하는 부분으로, 예컨대, 유전체 서열 분석기 (100)에서 생성된 실험 시료 염기 서열 데이터 및 /또는 대조 시료 염기 서열 데이터를 수신하거나, 또는 컴퓨터 판독 가능한 저장 매체에 저장된 실험 시료 염기 서열 데이터 및 /또는 대조 시료 염기 서열 데이터를 판독한다. 이때, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터는 도 4 및 도 5와 같이, 유전체 서열 분석기 (100)에서 실험 시료와 대조 시료를 각각 복수회 읽어들여 복수회의 리드 카운트 (Read Count)를 가진 데이터일 수 있다.  Receiving unit 310 is a part for preparing the experimental sample sequencing data and the control sample sequencing data, for example, receiving the experimental sample sequencing data and / or control sample sequencing data generated by the genomic sequence analyzer 100 or Or, read out experimental sample sequence data and / or control sample sequence data stored in a computer readable storage medium. At this time, the test sample sequencing data and the control sample sequencing data, as shown in Figs. 4 and 5, the test sample and the control sample are read a plurality of times in the genomic sequence analyzer 100 and have a plurality of read counts. Data.
생성부 (330)는, 준비된 실험 시료 염기 서열 데이터와 대조'시료 염기 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 염기 서열 데이터에 리드 매핑 (Read Mapping)한 리드 카운트 (Read Count)에 기반하여, 실험군 백터 및 대조군 백터를 생성할 수 있다 (S3100, S3200). 상기 리드 카운트는, 상기 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터에 위치한 적어도 하나의 타¾ 영역에서 계산되는 것일 수 있다.  The generation unit 330 is based on a read count in which the prepared test sample sequence data and the control 'sample sequence data are read mapped to standard reference sequence data for each chromosomal position. By doing so, the experimental group and the control vector can be generated (S3100, S3200). The read count may be calculated in at least one other third region located in the experimental sample sequence data and the control sample sequence data.
본 명세서에 사용된 바로서, 용어 "표준 참조 염기 서열 데이터' '는 한 종을 대표하는 게놈 염기 서열 데이터베이스 또는 상기 데이터베이스로부터 구축된 특정 염색체 또는 특정 염색체상 위치 (또는 영역)의 염기 서열 데이터를 지칭한다. 현재 인간의 표준 참조 염기 서열 데이터는 빌드 37(build 37: GRCh37), hgl 8, hgl 9, hg38과 같은 간행된 (예컨대, UCSC, NCBI 등) 기준 게놈 서열에 근거하여 구축된 것일 수 있다. As used herein, the term “standard reference sequencing data” ′ refers to genomic sequencing databases representing a species or nucleotide sequence data of a particular chromosome or a specific chromosomal location (or region) constructed from the database. Present. Human standard reference sequence data may be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl 8, hgl 9, hg38.
예를 들어, 유전체 서열 분석기 (100)에서 250회의 리드 카운트를 가졌다고 가정하면, 250회 실험 시료와 대조 시료의 서열 데이터를 각각 읽어 들이면서 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터의 타켓 영역별 리드  For example, assuming 250 read counts in the genomic sequencing analyzer 100, the target region of the experimental sample sequence data and the control sample sequence data is read while reading the sequence data of the 250 test sample and the control sample, respectively. Stars lead
카운트의 수를 계산할 수 있다. 이때, 리드 카운트는, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다. 또한, 대조 시료 염기 서열 데이터가 존재하지 않더라도, 즉 이미 생성 (준비)한 표준 대조군 백터가 존재하는 경우에는, 실험 시료 염기 서열 데이터와 표준 대조군 백터에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다. 그리고, 실험군 백터 및 대조군 백터는 하기 수학식 1과 같다. The number of counts can be calculated. In this case, the read count may be calculated in at least one target region located in the experimental sample base data and the control sample base data. In addition, even if no control sample sequence data is present, i.e., if there is already generated (prepared) standard control vector, it can be calculated in at least one target region located in the experimental sample sequence data and the standard control vector. The experimental group vector and the control group vector are as shown in Equation 1 below.
【수학식 1】  [Equation 1]
T = (ti, t2, t3, ... tk-l k)  T = (ti, t2, t3, ... tk-l k)
N = (ni,n2,n ... nk.i,n^ N = (ni, n 2 , n ... n k .i, n ^
여기서 , T는 실험군 백터이고, Ν은 대조군 백터이며, tk는 실험군 백터를 이루는 타겟 영역에서의 리드 카운트, 즉 깊이 (Depth)이며, nk는 대조군 백터를 이루는 타켓 영역에서의 리드 카운트, 즉 깊이이고, k는 타겟 영역의 개수를 의미한다. 이 때, 타겟 영역의 개수 k는 시험 목적에 따라서 설정된 타켓 염기 서열의 영역의 개수를 의미하는 것일 수 있으며, 하나 이상일 수 있다. Where T is the experimental group vector, Ν is the control vector, t k is the read count, or depth, in the target region constituting the experimental group vector, and n k is the read count, i.e., in the target region constituting the control vector. Depth, and k means the number of target areas. In this case, the number k of target regions may mean the number of regions of the target nucleotide sequence set according to the test purpose, and may be one or more.
제 1 제거부 (350)는 1차 바이어스 제거 단계를 수행하는 부분으로, 생성된 실험군 백터 및 대조군 백터를 결합한 결합 행렬올 생성하고, 생성된 결합 행렬을 영역별로 나누어 바이어스 (Bias)를 제거할 수 있다. 여기서, 바이어스는, NMF(Non- negative Matrix Factorization) ¾ 통하여 제거될 수 있다. The first remover 350 performs a first bias removal step, and generates a binding matrix combining the generated experimental group vector and the control vector, and divides the generated binding matrix by region to remove bias. have. Here, the bias is, NMF (Non- negative Matrix Factorization) ¾ may be removed through.
우선, (i) 실험군 백터와 대조군 백터를 결합하여 결합 행렬을 생성하는 단계 First, (i) combining the experimental group and the control vector to generate a binding matrix
(S3300)가 수행될 수 있다. 이때, 결합 행렬에 따른 행렬은 하기 수학식 2와 같다 (S3300): (S3300) may be performed. In this case, the matrix according to the coupling matrix is represented by Equation 2 below (S3300):
【수학식 2】 그 다음으로, (ii) 상기 생성된 결합 행렬을 복수개의 영역으로 나누는 단계[Equation 2 ] Next, (ii) dividing the generated coupling matrix into a plurality of regions
(S3400)가 수행될 수 있다. 이 때, 상기 수학식 2의 결합 행렬에 따른 행렬은 도 6과 같이, 영역별로 분리되어 하기 수학식 3과 같이 전개될 수 있다 (S3400): (S3400) may be performed. In this case, the matrix according to the combination matrix of Equation 2 may be divided into regions and expanded as shown in Equation 3 as shown in FIG. 6 (S3400):
【수학식 3】  [Equation 3]
Figure imgf000015_0001
Figure imgf000015_0001
여기서, 1은 영역의 개수이고, k는 타겟 영역의 수이고, b는 영역 (Boundary)를 의미한다. 이때, 1 개의 영역에 p개의 요소가 포함되어 있다고 가정하면, k= p가 성립될 수 있다. 즉, p는 각 영역 (boundary) 별로 구분된 1개 영역 내 존재하는 타겟의 수 이고 , ρ 값의 범위는 50-200 중에서 선택된 임의의 수일 수 있다. 각 boundary별 타겟 요소가 동일하게 존재한다면, 영역의 개수 1은 l=k/p로 자연적으로 결정된다.  Here, 1 is the number of regions, k is the number of target regions, and b is a boundary. In this case, assuming that one element includes p elements, k = p may be established. That is, p is the number of targets existing in one area divided by each boundary, and the range of ρ value may be any number selected from 50-200. If the target elements for each boundary are the same, the number 1 of regions is naturally determined as l = k / p.
그 다음으로, (iii) 복수개의 영역별로 NMF를 수행하는 단계 (S3500)가 수행될 수 있다.  Next, (iii) step (S3500) of performing the NMF for each of the plurality of regions may be performed.
NMF(Non-negative Matrix Factorization)는 하나의 행렬을 비음수 (양수 + 0)으로 구성된 두 개의 행렬, 즉, W (특이 요소 행렬) 및 H (가중치 행렬)로 인수분해 하는 방법을 의미하며, 주로 데이터 내 독립된 특성을 추출하는데 사용된다.  Non-negative matrix factorization (NMF) refers to a method of factoring a matrix into two matrices of non-negative (positive + zero), that is, W (specific element matrix) and H (weighted matrix). Used to extract independent features in the data.
NMF를 적용하면, 수학식 3은 하기 수학식 4와 같이 정리될 수 있다. 즉, 각 영역별로 구분된 수학식 3의 행렬 Vb에 NMF를 적용하면 하기 수학식 4와 같다 (S3500).  Applying the NMF, Equation 3 can be summarized as Equation 4 below. That is, when NMF is applied to the matrix Vb of Equation 3 divided by regions (S3500).
【수학식 4】  [Equation 4]
Vb = [Tb, Nb] = WH V b = [T b , N b ] = WH
여기서 , V=n*p이고, W는 n*r, H는 r*p가 되므로 (이 때, n은 target 영역의 수, r은 NMF시 사용되는 rank를 의미함), NMF 적용시 Rank를 2로 고정하면, 수학식 4는 수학식 5와 같이 전개될 수 있다. 정정용지 (규칙 제 91조) ISA/KR 【수학식 51 Where V = n * p, W is n * r, H is r * p (where n is the number of target regions and r is the rank used in NMF). If fixed to 2, equation (4) can be developed as shown in equation (5). Correction Sheet (Rule 91) ISA / KR Formula 51
Figure imgf000016_0001
Figure imgf000016_0003
Figure imgf000016_0001
Figure imgf000016_0003
수학식 5를 보면, Tb는 W,lXHu+W,2xH2,^l고, Nb는 WjxH +W xH 로 구성된다는 것을 알 수 있다. 또한, 백터는 실험군 백터 및 대조군 백터의 공통 요소 백터이고, W,2 백터는 실험군 백터 또는 대조군 특이 요소 백터이다. 그리고, ,!과 ¾,2는 실험군 백터 및 대조군 백터에만 각각 곱해지는 가증치이다. 또한 와 HU는 대부분 0보다 매우 큰 값을 가지나, ^과 경우에 따라 0에 가까운 값을 가질 수 있다. NMF수행 후 분해된 !^과 ¾,2의 요소의 값을 비교하여 바이어스 요소를 선별할 수 있다. 따라서, 상기 수학식 5는 NMF에서 rank를 2로 고정한 경우의 바이어스 요소 선별 단계 (S3600)를 예시하는 것일 수 있다. Looking at Equation 5, it can be seen that T b is composed of W, lX H u + W, 2 x H 2 , ^ l, and Nb is composed of WjxH + W xH. Also, the vector is a common element vector of the experimental group and the control vector, and the W, 2 vectors are the experimental group or the control specific element vector. And,! and ¾ , 2 are the augmented values multiplied only in the experimental vector and the control vector, respectively. In addition, most of U and H U have a value larger than 0, but in some cases, ^ and U U can be close to zero. After performing the NMF, the bias elements can be selected by comparing the values of the decomposed! ^ And ¾, 2 values. Therefore, Equation 5 may be used to illustrate the bias element selection step (S3600) when the rank is fixed to 2 in the NMF.
상술한 바와 같이 NMF를 수행하고 난 후,  After performing the NMF as described above,
(3) 바이어스 제거 후 영역별 결합 행렬을 재결합하는 단계 (S3610)), 및  (3) recombining the region-specific coupling matrix after removing the bias (S3610), and
(4) 상기 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력하는 단계를 수행할 수 있다.  (4) collecting and outputting a target region ratio (TRR) vector for each region from which the bias is removed.
상기 단계 (3) 및 (4)는 출력부 (370)에서 수행되는 것일 수 있다.  Steps (3) and (4) may be performed in the output unit 370.
상기 단계 (3) 및 (4)에 있어서, 아래의 수학식 6과 같이 , H2,^ H2,2보다 큰 경우, 예를 들어 ,2가 0에 가까운 경우에는, W, 2가 실험군에 특아요소 백터임을 의미하므로, H2,2를 제외하고 행렬을 재결합할 수 있다 (S3610). If in the above step 3 and 4, as shown in Equation 6 below, H 2 ^ H 2, greater than 2, for example, in the case 2 is close to 0, W, a divalent group Since it means that it is a special element vector, it is possible to recombine the matrix except H 2 and 2 (S3610).
【수학식 6】  [Equation 6]
H2.7 > H2.2 인 경우,  If H2.7> H2.2
Tb = W,, x Hu + W,2 x Η2Tb = W ,, x H u + W, 2 x Η 2 , ι
Figure imgf000016_0002
Figure imgf000016_0002
즉 , H2 2가 0에 가까운 경우에는 , H2,2가실험군에 특이 요소 백터, 즉 In other words, when H 2 2 is close to 0, H 2, 2 is a specific element vector,
정정용지 (규칙 제 91조) ISA/KR 노이즈라는 의미이므로, 이를 포함하는 항을삭제함으로써 바이어스를 제거할 수 있다. Correction Sheet (Rule 91) ISA / KR Since it means noise, the bias can be removed by deleting the term including the noise.
반대로, 수학식 7과 같이 , ,}이 ,2보다 작은 경우, 예를 들어 ¾,!이 0에 가까운 경우에는, W, 2가 대조군에 특이 요소 백터임을 의미하므로, 를 제외하고 행렬을 재결합할 수 있다 (S3610). Conversely, if,, } is less than 2 , for example, when ¾ ,! is close to 0, it means that W, 2 is a singular element vector in the control group, except that It may be (S3610).
【수학식 7】  [Equation 7]
H2,; < H2.2 인 경우,  H2 ,; <H2.2,
Tb * = W,1 HT b * = W, 1 H
Figure imgf000017_0001
Figure imgf000017_0001
즉,! !가 0에 가까운 경우에는, Η2>17ΐ· 대조군에 특이 요소 백터, 즉 노이즈라는 의미이므로, 이를 포함하는 항을 삭제함으로써 바이어스를 1차적으로 제거할 수 있다. In other words, when!! is close to 0, it means a specific element vector, that is, noise, in the control group 2> 1 7ΐ. Therefore, the bias can be removed first by deleting the term containing the term.
상술한 바와 같이, 본 발명의 일 실시예에 따른 바이어스 제거 방법은, 실험군 백터와 대조군 백터에 대한 결합 백터 행렬을 영역별로 나누고, 영역별로 노이즈인 바이어스를 제거한 후, 이를 다시 취합함으로써 모든 영역에서 일괄적으로 바이어스를 제거함에 따라 발생했던 민감도 하락의 문제를 없앨 수 있고, 영역에 특이적으로 발생할 수 있는 바이어스를 영역별로 제거함에 따라 체세포 복제수 변이를 파악하는데 정확도를 높일 수 있다.  As described above, the bias removal method according to an embodiment of the present invention, by dividing the coupling vector matrix for the experimental group and the control vector by region, by removing the noise bias by region, and then re-aggregate this collectively in all areas As a result, it is possible to eliminate the problem of desensitization caused by removing the bias, and to increase the accuracy in identifying the somatic cell copy number variation by removing the bias that may occur specifically in the region.
한편, 본 발명의 일 실시예에 따른 바이어스 제거 방법은, 바이어스를 NMF를 이용하여 1차적으로 제거한 후, 2차적으로 비특이 영역을 선별함에 따라 바이어스를 제거하는 단계 (2차 바이어스 제거 단계)를 추가로 수행할 수 있다. 이하에서는 비특이 영역을 선별하는 바이어스 제거 방법을 설명하기로 한다. 상기 2차 바이어스 제거 단계는 제 2 제거부 (390)에서 수행될 수 있다.  On the other hand, in the bias removal method according to an embodiment of the present invention, the bias is first removed by using the NMF, and the second step of removing the bias by selecting the non-specific region (secondary bias removal step) It can be done further. Hereinafter, a bias removal method for selecting non-specific regions will be described. The secondary bias removal step may be performed in the second removal unit 390.
구체적으로, 상기 2차 바이어스 제거 단계는,  Specifically, the secondary bias removal step,
(a) 실험군 백터 및 대조군 백터의 비특이 영역을 각각 선별하여 무차별 영역으로 설정하여 바이어스를 제거하는 단계 (S3700, S3710); 및  (a) selecting non-specific regions of the experimental group vector and the control vector, respectively, and setting them as indifference regions to remove the bias (S3700, S3710); And
(b) 상기 설정된 무차별 영역으로 바이어스가 제거된 상기 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 단계 (S3720)  (b) calculating weights for each region of the experimental group vector and the control group vector having the bias removed to the set indiscriminate region (S3720)
정정용지 (규칙 제 91조) ISA/KR 를 통하여 수행될 수 있다. Correction Sheet (Rule 91) ISA / KR It can be performed through.
우선, (a) 실험군 백터와 대조군 백터 간 비특이 영역을 선별 후 무차별 영역으로 설정하여 2 1 *.바이어스를 제거하는 단계 (S3700, S3710)에 있어서, 실험군 백터와 대조군 백터 잔 비특이 영역을 하기 수학식 8 및 수학식 9를 통하여 선별할 수 있다.  First, in the step (a) of removing non-specific areas between the experimental group and the control vector as a non-discriminatory region after screening (1) (S3700, S3710), the experimental group and the control vector remaining non-specific region are described below. Selection may be made through Equations 8 and 9.
【수학식 8】
Figure imgf000018_0001
[Equation 8]
Figure imgf000018_0001
【수학식 9【Equation 9
Wrati0 < θ W rati0
즉, 백터에 비하여, W,2 백터의 값이 매우 작은 위치, 즉 공통 요소 백터에 비하여 특이 요소 백터의 값이 매우 작은 위치를 선별하는데, 해당 위치는 실험군과 대조군 간의 비특이 영역을 의미하게 된다. 수학식 9와 같이, 특정 임계값 (Θ)보다 작은 위치를 선별할 수 있다. 즉, 특이값의 비율이 낮으면 실험군과 대조군이 유사하다는 것이므로, 이는 곧 무차별 영역으로 선택될 수 있다. 이렇게, 수학식 8 및 수학식 9를 통하여 무차별 영역이 선택된 경우, 하기 수학식 10 및 수학식 11과 같이, 무차별 영역에 대응하는 요소 백터를 -1로 변환함으로써, 해당 요소 백터에 대웅하는 바이어스를 2차적으로 제거하도록 한다. 여기서, 실험군 백터 및 대조군 백터의 무차별 영역은 동일하다. That is, compared to the vector, the position of the W , 2 vector is very small, i.e., the position of the specific element vector is very small compared to the common element vector, the position is the non-specific region between the experimental group and the control group. . As shown in Equation 9, a position smaller than a specific threshold value Θ may be selected. That is, if the ratio of the singular value is low, the experimental group and the control group are similar, and this may be selected as a promiscuous region. Thus, when the indifference region is selected through Equations 8 and 9, as shown in Equations 10 and 11 below, by converting the element vector corresponding to the indiscriminate region into -1, the bias for the element vector is reduced. Remove it secondary. Here, the indiscriminate regions of the experimental group and the control group are the same.
【수학식 10]  [Equation 10]
- 1 - One
Figure imgf000018_0002
Figure imgf000018_0002
【수학식 111 Equation 111
정정용지 (규칙 제 91조) ISA/KR Correction Sheet (Rule 91) ISA / KR
(b) 상기 설정된 무차별 영역으로 바이어스가 제거된 상기 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 1단계에 있어서, 설정된 무차별 영역으로 (b) In the step 1 of calculating the weight for each region of the experimental group and the control vector, the bias is removed to the set indiscriminate region, to the set indiscriminate region
7  7
바이어스가 제거된 상기 실험군 백터 및 대조군 백터의 영역별 가중치를 The weight of each region of the experimental group and the control vector with the bias removed
계산하고 (S3720), 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력할 수 있다 (상기 수학식 10 및 11에서 , ρ는 1 개의 영역의 요소 개수를 의미한다 . Tb *와 Nb *는 바이어스를 1차로 제거한 후의 영역별 대조군 백터와 실험군 백터를 각각 의미한다 . Tb **와 ΝΓ는 무차별 영역을 -1로 치환한 후의 영역별 대조군 백터와실험군 백터를 각각 의미한다. 다시 말하면, 수학식 10 및 수학식 11에서와 같이, 영역별 가중치를 재계산하여 수학식 12와 같이 영역별 TRR 백터를 계산할수 있다. In operation S3720, the target region ratio (TRR) vector for each region from which the bias is removed may be collected and output for each region (in Equations 10 and 11, ρ denotes the number of elements of one region. b * and N b * denote the control vector and the experimental group for each region after the bias is first removed T b ** and ΝΓ denote the control vector and the experimental group for each region after substituting -1 for the indifference region In other words, as in Equation 10 and Equation 11, the TRR vector for each area can be calculated as shown in Equation 12 by recalculating the weight for each area.
【수학식 12】
Figure imgf000019_0001
[Equation 12]
Figure imgf000019_0001
여기서, TRR(Target Region Ratio) 백터는, 실험 시료 염기 서열 데이터 또는 실험군 백터와, 대조 시료 염기 서열 데이터 또는 대조군 백터에 위치한 적어도 하나의 타겟의 수에 기초하여 생성될 수 있다. 이렇게 계산된 영역별 TRR 백터는 영역별로 취합되어 하기 수학식 13과 같아 생성될 수 있다 (S3800) (상기 수학식 12 및 13에서, b는 영역 (Boundary)을 의미하고, 1은 영역의 개수를 의미하고, TRRb *는 바이어스를 1차와 2차로 제거한 후의 영역별 TRR 백터를 의미한다.): Here, the target region ratio (TRR) vector may be generated based on the number of the target sample sequencing data or the experimental group vector, and at least one target located in the control sequencing data or the control vector. The calculated TRR vector for each region may be collected for each region and generated as shown in Equation 13 (S3800) (In Equations 12 and 13, b denotes a boundary and 1 denotes the number of regions. TRR b * means the region-specific TRR vector after the bias is removed first and second.
【수학식 13】  [Equation 13]
정정용지 (규칙 제 91조) ISA/KR
Figure imgf000020_0001
Correction Sheet (Rule 91) ISA / KR
Figure imgf000020_0001
상술한 바와 같이, NMF를 통하여 1차적으로 바이어스가 제거되고, 무차별 영역을 제거함으로써 2차적으로 바이어스가 제거된 TRR을 통한 체세포 복제수 변이 판단은, 영역별로 특이적인 바이어스를 제거하거나 노이즈를 없앤 후 취합함으로써, 영역별 정확도 및 민감도를 증가시킬 수 있고, 이는 도 7 및 도 8을 참조하여 설명한다.  As described above, the somatic cell copy number variation determination through the TRR, in which the bias is firstly removed through the NMF and the indifference region is removed, and the second bias is removed, is after removing specific bias or removing noise for each region. By aggregation, the accuracy and sensitivity per region can be increased, which will be described with reference to FIGS. 7 and 8.
도 7은 인간 게놈 염색체 (시험 시료: HCC1143 Cell line (ATCC), 대조 시료: HCC1143 BL (ATCC))에 있어서 바이어스회 제거 전 후의 타겟 영역 수에 대한 TRR 백터를 도시한 그래프로서, (a)는 바이어스를 제거하기 전의 타겟 영역 수에 대한 TRR 백터를 도시하고, (b)는 1차 바이어스 제거 및 2차 바이어스 제거를 수행한 후의 타겟 영역 수에 대한 TRR 백터를 도시한다. 여기서, (a)와 (b)를 비교하여 보면, 각각의 영역별로 TRR 백터의 구분이 본 발명의 따른 (b)가 더 잘되어 있는 것을 알 수 있다. 즉, (a)는 바이어스나 노이즈가 많아 체세포 복제수 변이를 식별하기 어렵지만, (b)는 바이어스 및 노이즈가 제거된 상태이므로, 체세포 복제수 변이의 식별이 보다 용이해짐을 알 수 있다. FIG. 7 is a graph depicting TRR vectors for the number of target regions before and after bias removal in human genome chromosomes (test sample: HCC1143 Cell line (ATCC), control sample: HCC1143 BL (ATCC)). Shows the TRR vector for the target region number before removing the bias, and (b) shows the TRR vector for the target region number after performing the primary bias removal and the secondary bias removal. Here, comparing (a) and (b), it can be seen that (b) of the present invention is better classified TRR vectors for each region. That is, it is difficult to identify somatic cell copy number variation because ( a ) has a lot of bias or noise, but it is understood that somatic cell copy number variation is easier to identify because (b) is a state where bias and noise are removed.
도 8은 인간 게놈 염색체 (시험 시료: HCC1143 Cell line (ATCC), 대조 시료: HCC1143 BL (ATCC))에 있어서 다양한 방법으로 바이어스를 제거한 후의 타겟 영역 수에 대한 TRR을 도시한 그래프로서,  FIG. 8 is a graph depicting TRR versus number of target regions after debiasing in various methods for human genome chromosomes (test sample: HCC1143 Cell line (ATCC), control sample: HCC1143 BL (ATCC)).
(a)는 바이어스를 제거하가전의 타켓 영역 수에 대한 TRR 백터를 도시한 것이고,  (a) shows the TRR vector for the number of target areas before removing the bias,
(b)는 SVD (singular Value Deposition; 컷 오프 값으로 1=1, 즉 1개의 Singular value를 제거하였음) 방법으로 전체 영역에 대해서 한꺼번에 바이어스를 제거한 후 (즉, 앞서 제시된 방법에서 단계 (2)의 결합 행렬을 영역별로 나누는 단계 (단계 (ii) (S3400))를 제외하고 NMF 대신에 SVD를 수행하여 바이어스 제거 단계를 수행하고, 정정용지 (규칙 제 91조) ISA/KR 2차 바이어스 제거 단계 (S3700)는 수행하지 않음)의 타겟 영역 수에 대한 TRR 백터를 도시한 것이고, (b) is the SVD (singular value deposition) value of 1 = 1, i.e. one Singular value was removed, and then the bias was removed at once for the entire area (i.e., in step (2) Except for dividing the coupling matrix into regions (step (ii) (S3400)), SVD is performed instead of NMF to perform the bias removal step, and correction paper (rule 91). Shows the TRR vector for the number of target regions in the secondary bias elimination step (S3700 is not performed),
(c)는 NMF 방법으로 전체 영역에 대해서 한꺼번에 바이어스를 제거한후 (즉 앞서 제시된 방법에서 단계 (2)의 결합 행렬을 영역별로 나누는 단계 (단계 (ii) (S3400))를 제외하고 바이어스 제거 단계를 수행하고 2차 바이어스 제거 단계 (S3700)를 수행함)의 타겟 영역 수에 대한 TRR 백터를 도시한 것이고,  (c) removes the bias at the same time for the entire region by the NMF method (i.e., except for dividing the coupling matrix of step (2) by region in the above-described method (step (ii) (S3400)). And the TRR vector for the number of target regions of the secondary bias removal step (S3700),
(d)는 앞서 제시된 바와 같이 NMF 방법으로 각 영역별로 1차 바이어스 (S3600)와 2차 바이어스 (S3700)를 제거한 후의 타겟 영역 수에 대한 TRR 백터를 도시한 것이다.  (d) shows the TRR vectors for the number of target regions after removing the primary bias (S3600) and the secondary bias (S3700) for each region by the NMF method as described above.
상기 도 8의 (b)의 SVD는 아래의 참고식 1-8에 의하여 수행하였다:  The SVD of FIG. 8B was performed by the following Equations 1-8:
<참고식 1>  <Reference 1>
^1= («11' «12, ··" "1¾) ^ 1 = («11 '« 12 , ·· "" 1¾)
ni = {fi , Πΐ2, ■■·; nik) ni = (fi, Πΐ2, ■■ ·; nik)
<참고식 2> <Reference 2>
Figure imgf000021_0001
Figure imgf000021_0001
<참고식 3>
Figure imgf000021_0002
<Reference 3>
Figure imgf000021_0002
- " —if-i J tt^i ''-*^ ί£ί: ' -- isi - " —If-i J tt ^ i '' -* ^ ί £ ί: ' -isi
(상기 참고식 1-3에서, 1은 1 번째 대조 시료를 의미하고 ,m은 1 번째 대조 시료의 정규 백터를 의미하고, s는 대조 시료의 표준 대조군 백터를 의미하고, Ν은 대조 시료의 개수를 의미함) (In reference formula 1-3, 1 means the first control sample, m means a normal vector of the first control sample, s means a standard control vector of the control sample, Ν is the number of control samples) Means)
<참고식 4>
Figure imgf000021_0003
<Reference 4>
Figure imgf000021_0003
(참고식 4에서, 은 TRR 백터이고, ni는 실험 시료 서열 데이터의 i (In Reference 4, is a TRR vector, and ni is i of the experimental sample sequence data.
위치에서의 리드 카운트의 수이고, ri는 표준 대조군 백터의 i 위치에서의 리드 정정용지 (규칙 제 91조) ISA/KR 카운트의 수이고, 참고식 4-8의 k는 타켓의 수임) Number of read counts at position, ri is the lead correction sheet at position i of the standard control vector (rule 91) ISA / KR Number of counts, and k in Equation 4-8 is the number of targets)
<참고식 5> τ
Figure imgf000022_0001
<Reference 5> τ
Figure imgf000022_0001
(참고식 5에서 , Τ는 백터 어레이이고, tN은 TRR 백터이며 , Ν은 실험 시료 서열 데이터의 개수임) (In Reference 5, Τ is a vector array, t N is a TRR vector, and Ν is the number of experimental sample sequence data.)
<참고식 6> <Reference 6>
set SV( '― 0, where t― set SV ( ' -0, where t
(참고식 6에서, T는 1;∑\ 와 같이 인수분해될 수 있고, 1은 특이값 컷 오프 (Singular Value Cutoff)로 정의되므로, 컷 오프는 하기 참고식 7로 결정됨) (In Ref. 6, T can be factored as 1; ∑ \ and 1 is defined as Singular Value Cutoff, so the cutoff is determined by Ref. 7 below)
<참고식 7>
Figure imgf000022_0003
<Reference Formula 7>
Figure imgf000022_0003
0 svk\
Figure imgf000022_0004
0 sv k \
Figure imgf000022_0004
(참고식 7에서, 0.1≤r≤0.6이 되도록 컷 오프인 1을 결정함 (도 8의 경우 1=1) <참고식 8>  (In Reference 7, the cut-off 1 is determined so that 0.1 ≦ r ≦ 0.6 (1 = 1 in FIG. 8).
Figure imgf000022_0005
Figure imgf000022_0005
\ 0 ··· svk , \ 0 ... sv k ,
(참고식 8에서 , Τ'는 바이어스 제거 후의 TRR 백터를 의미함) (In Equation 8, Τ 'means TRR vector after bias removal.)
도 8에서 사전에 알려진 복제수 변이가 있는 영역에 대해서는 "Τ"로 표기하였다. "Τ"로 표기되지 않은 영역에서 threshold인 기준선을 넘어 존재하는 TRR 값은 False positive일 가능성이 높다. In FIG. 8, the region having a known copy number variation is denoted by "Τ". TRR that exists beyond the baseline as the threshold in areas not marked "Τ" The value is likely a false positive.
도 8의 (a)는 T로 표시된 영역 이외에도 기준선을 넘은 TRR 값이 많은 것을 블 수 있어 바이어스로 인해 체세포 복제수 변이를 식별하기 어렵다. (b)는 T로 표시된 영역에서 TRR 값이 증가해 복제수 변이 발굴의 민감성은 증가하지만, 기준선을 넘은 영역이 더 많아져 바이어스 제거 효과는 크지 않다. (c)는 (a)나 FIG. 8 (a) shows a large number of TRR values beyond the baseline in addition to the region indicated by T, so that it is difficult to identify variation in somatic cell copy number due to bias. (b) increases the TRR value in the area indicated by T, which increases the sensitivity of excavation variation. However, the bias removal effect is not significant because more areas are beyond the baseline. (c) means (a)
(b)에 비해 T로 표시된 영역의 TRR 값이 증가하고 , Τ로 표시되지 않은 영역의 TRR 값은 감소하여 바이어스가 일부 제거되는 것을 볼 수 있다. (d)는 (c)에서 일부 남아있는 T로 표시되지 않은 영역의 TRR.값은 더욱 감소하고, T로 표시된 영역의 TRR 값이 더욱 증가하는 것을 볼 수 있다. Compared to (b), the TRR value of the region marked with T increases, and the TRR value of the region not marked with Τ decreases to partially remove the bias. In (d), it can be seen that the TRR. value of the region not indicated by T remaining in (c) further decreases, and the TRR value of the region indicated by T further increases.
따라서 NMF를 이용하여 각 영역별로 바이어스를 제거 시, 다른 방법에 비해 체세포 복제수 변이의 식별이 보다 용이해짐을 알 수 있다.  Therefore, when removing the bias for each region using the NMF, it can be seen that the identification of the somatic cell copy number variation is easier than other methods.
염기 서열 분석염기 서열 분석도 9는 일 실시예에 따른 타겟 염기 서열 분석에서의 바이어스 제거 방법을 예시적으로 설명하기 위한 동작 흐름도이다. 도 Base Sequence Analysis Base Sequence Analysis FIG. 9 is a flowchart illustrating an example of a method of removing a bias in target sequencing according to an exemplary embodiment. Degree
9를 참조하면, 바이어스 제거 장치는, 유전체 서열 분석기 (Sequencer)에서 생성된 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 수신한다 (S8100). 그리고 나서, 바이어스 제거 장치는, 수신된 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 염기 서열 데이터에 리드 매핑 (Read Mapping)한 리드 카운트 (Read Count)에 기반하여 , 실험군 백터 및 대조군 백터를 생성한다 (S8200). Referring to FIG. 9, the bias removal apparatus receives experimental sample sequence data and control sample sequence data generated by a genome sequence analyzer (S8100). Then, the bias removal apparatus reads the received test sample sequencing data and the control sample sequencing data to a read count of read mapping to standard reference sequencing data for each chromosomal position. Based on the experimental group and the control vector is generated (S8200).
또한, 바이어스 제거 장치는, 생성된 실험군 백터 및 대조군 백터를 결합한 결합 행렬을 생성하고, 생성된 결합 행렬을 영역별로 나누어 바이어스 (Bias)를 제거하고 (S8300), 바이어스가 제거된 결합 행렬을 재결합하고, 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력한다 (S8400).  In addition, the bias removal apparatus generates a binding matrix combining the generated experimental group vector and the control vector, divides the generated binding matrix by region to remove bias (S8300), and recombines the coupling matrix from which the bias is removed. In operation S8400, a TRR vector for each region from which the bias is removed is collected and collected for each region.
이와 같은 도 9의 타켓 염기 서열 분석에서의 바이어스 제거 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 8을 통해 타켓 염기 서열 분석에서의 바이어스 제거 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도톡 한다.  Such matters that are not described in the bias sequencing method in the target sequencing of FIG. 9 are the same as or described above with respect to the bias scavenging method in the target sequencing through FIGS. 1 to 8. Since it can be easily inferred, the following description will be omitted.
또한, 다른 예는 상기 바이어스 제거 방법의 단계를 수.행하기 '위한 시스템을 제공한다ᅳ 일 예에서, 상기 시스템은, 상기한 바와 같은 단계를 수행하는, 수신부 (310), 생성부 (330), 제 1 제거부 (350) 및 출력부 (370)를 포함할 수 있고, 임의로 제 2 제거부 (390)를 추가로 포함하는 컴퓨터 시스템일 수 있다. Further, another example provides a system to perform the steps of the method to remove the bias. "Eu in one example, the system, performing the steps as described above, It may include a receiver 310, a generator 330, a first remover 350 and an output 370, and may optionally be a computer system further comprising a second remover 390.
다른 예는 통상적인 염기 서열 분석에 있어서, 상기한 바와 같은 바이어스 제거 방법을 수행하는 단계를 포함하는, 타겟 염기 서열 분석을 위한 컴퓨터 판독 방법 방법을 제공한다.  Another example provides a computer readable method for target sequencing, comprising performing the bias removal method as described above in conventional sequencing.
상기 바이어스 제거 방법 또는 이를 포함하는 컴퓨터 판독 방법은 컴퓨터에 의해 실행 가능한 프로그램 (computer executable instruction)으로서 , 공지된 컴퓨터 판독 가능한 매체 상에서 전체적 또는 부분적으로 구현 및 /또는 처리될 수 있다. 예컨대, 본 명세서에 기재된 방법은 하드웨어에 결합되어 구현될 수 있다. 상기 하드웨어는 컴퓨터 , 표준 다목적 ( υΐύ-ρυφοεε) CPU, ASIC(application-specific integrated circ^ 또는 다른 하드-와이어드 장치 (hard- wired device)와 같은 특수하게 설계된 하드웨어 또는 펌웨어를 의미하는 것일 수 있으며, 이하 사용되는 용어 '컴퓨터'는 이들을 총칭하기 위한 것일 수 있다.  The bias removal method or computer readable method including the same is a computer executable instruction, which may be implemented and / or processed in whole or in part on a known computer readable medium. For example, the methods described herein may be implemented in combination with hardware. The hardware may mean specially designed hardware or firmware, such as a computer, a standard multipurpose (υΐύ-ρυφοεε) CPU, an application-specific integrated circuit or other hard-wired device, The term 'computer' used may be used to generically refer to them.
다른 예는 상기 바이어스 제거 방법 또는 이를 포함하는 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터  Another example is a computer stored in a computer readable storage medium for carrying out the steps of the bias removal method or a computer readable method comprising the same.
프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기한 바와 같은 바이어스 제거 방법 또는 이를 포함하는 컴퓨터 판독 방법의 각 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나, 하나 이상의 단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다ᅳ Provide the program. The computer program stored in the computer readable storage medium may be combined with hardware. The computer program stored in the computer readable storage medium is a program for executing each step of the above-described bias removing method or a computer reading method including the same in a computer, wherein all the above steps are executed by one program. Or by two or more programs executing one or more steps.
다른 예는 상기 바이어스 제거 방법 또는 이를 포함하는 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다. 상기 컴퓨터에서 실행 가능한 프로그램은 컴퓨터 판독 가능한 저장 매체 Another example provides a computer readable storage medium (or recording medium) containing a computer executable instruction for executing a step of the bias removing method or a computer reading method including the same. The program executable on the computer may be a computer readable storage medium.
(예컨대, 메모리 등)에 저장되고, 하나 이상의 프로세서 상에 구현된 소프트웨어로 구현될 수 있다. 일반적으로 알려진 바와 같이, 프로세서는 하나 이상의 It may be implemented in software stored in (eg, memory, etc.) and implemented on one or more processors. As is generally known, a processor may have one or more
컨트롤러 (controller), 연산 유닛 (calculation unit) 및 /또는 컴퓨터 시스템의 다른 유닛과 결합되거나, 적절한 펌웨어 (firmware)에 이식될 수 있다. 상기 프로그램이 소프트웨어에 이식되는 경우, RAM (Random Access Memory), ROM (Read Only Memory): EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래쉬 메모리 (e.g., USB(Universal Serial Bus) 메모리 , SD(Secure Digital) 메모리 , SSD(Soli State Drive), CF (Compact Flash) 메모리, xD 메모리 등), 자기 디스크, 레이저 디스크, 또는 기타 저장 매체와 같은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대, 전화선, 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체 (transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법을 통하여 컴퓨터 장치에 전달될 수 있다. It may be combined with a controller, a calculation unit and / or other unit of a computer system, or may be implanted in appropriate firmware. The program RAM (Random Access Memory), ROM (Read Only Memory) : EEPROM (Electrically Erasable Programmable Read-Only Memory), Flash Memory (eg, Universal Serial Bus (USB) Memory, Secure Digital (SD) Memory) , Soli State Drive (SSD), Compact Flash (CF) memory, xD memory, etc.), magnetic disks, laser disks, or other storage media. Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
상기한 바와 같은 다양한 단계들이 통상적으로 알려진 다양한 블록, 작업 (operation), 를, 모듈, 및 하드웨어', 펌웨어, 소프트웨어, 또는 하드웨어, 펌웨어 및 /또는 소프트웨어의 조합에서 구현될 수 있는 기법으로서 구현될 수 있다. Various steps as described above, the various blocks conventionally known, operations (operation), a, modules, and hardware, firmware, software, or hardware, firmware, and / or can be implemented as a method that may be implemented in a combination of software have.
하드웨어에서 구현되는 경우, 블록, 작업, 기법 등의 일부 또는 전부가, 예컨대, 맞줄화 집적 회로 (custom IC), ASIC(application specific integrated circuit), FPGA(field programmable logic array), PLA(programmable logic array) 등에서 구현될 수 있다. If implemented in hardware, some or all of the blocks, tasks, techniques, etc. may be, for example, custom ICs, application specific integrated circuits (ASICs), field programmable logic arrays (FPGAs), programmable logic arrays (PLAs). ) May be implemented.
소프트웨어에서 구현되는 경우, 소프트웨어는 자기 디스크, 광 디스크, 또는 다른 저장 매체와 같은 공지된 컴퓨터 판독가능한 매체, 컴퓨터의 RAM, 또는 ROM 또는 플래쉬 메모리, 프로세서, 하드 디스크 드라이브, 광 디스크 드라이브, 테이프 드라이브 등에 저장될 수 있다. 또한, 소프트웨어는, 예컨대, 컴퓨터 판독가능한 디스크 또는 다른 휴대용 컴퓨터 저장 메카니즘을 포함한 공지된 전달 방법을 통해 사용자 또는 컴퓨터 시스템에 전달될 수 있다. If implemented in software, the software may be a known computer readable medium, such as a magnetic disk, optical disk, or other storage medium, RAM or ROM or flash memory of a computer, processor, hard disk drive, optical disk drive, tape drive, or the like. Can be stored. In addition, the software may be delivered to a user or computer system via known delivery methods, including, for example, computer readable disks or other portable computer storage mechanisms.
상기 바이어스 제거 방법, 컴퓨터 판독 방법, 프로그램, 및 저장매체는 다수의 다른 범용 (general purpose) 또는 특수 목적 컴퓨팅 시스템 환경 또는  The bias removal method, computer readable method, program, and storage medium may be embodied in many other general purpose or special purpose computing system environments or
구조에서 운영될 수 있다. 상기 바이어스 제거 방법, 컴퓨터 판독 방법, 프로그램, 및 저장매체를 실행하기에 적합한 컴퓨팅 시스템, 환경, 및 /또는 구조는 예컨대, 퍼스널 컴퓨터 (PC), 서버 컴퓨터, 휴대용 또는 랩탑 (laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서 -기반 시스템, 셋탑 박스, 프로그램가능한 (programmable) 가전 (consumer electronics), 네트워크 PC, 미니컴퓨터 , 메인프레임 컴퓨터 , 및 /또는 상기한 시스템 또는 장치를 포함하고 통신 네트워크를 통해 연결된 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 (distributed computing) 환경 등을 포함할 수 있으나, 이에 제한되지 않는다. 통합 컴퓨팅 환경 및 분산 컴퓨팅 환경 모두에서, 프로그램 모듈은 메모리 저장 장치를 포함한, 로컬 및 원격 컴퓨터 저장 매체에 위치될 수 있다. Can be operated in rescue. Computing systems, environments, and / or structures suitable for implementing the bias removal method, computer readable method, program, and storage medium may be, for example, a personal computer (PC), server computer, portable or laptop device, multiprocessor Remote processing including systems, microprocessor-based systems, set-top boxes, programmable consumer electronics, network PCs, minicomputers, mainframe computers, and / or the systems or devices described above and connected via a communications network Distributed computing environment performed by the devices, and the like, but is not limited thereto. In both integrated and distributed computing environments, program modules may be located in both local and remote computer storage media, including memory storage devices.
컴퓨터는 통상적으로 다양한 컴퓨터 판독가능한 매체를 포함할 수 있다. 컴퓨터 판독가능한 매체는 컴퓨터에 의해 접근 가능하고 이용 가능한 매체일 수 있고 휘발성 매체 및 비휘발성 매체, 이동성 (removable) 매체 및 비이동성 매체를 포함할 수 있다. 예컨대, 컴퓨터 판독가능한 매체는 컴퓨터 저장 매체 및 /또는 통신 매체 (communication media)를 포함할 수 있다.  Computers may typically include a variety of computer readable media. Computer-readable media can be media that are accessible and available by a computer and can include volatile and nonvolatile media, removable media, and non-removable media. For example, computer readable media may include computer storage media and / or communication media.
' 상기 컴퓨터 판독 가능한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 매체 비분리형 매체, 이동성 (removable) 매체 및 /또는 비이동성 매체 등 통상적인 모든 매체를 의미하는 것일 수 있다. 또한, 컴퓨터 판독 가능한 저장 매체는 컴퓨터 저장 매체 및 통신 매체를 '모두 포함할 수 있다. The computer readable storage medium can be any available medium that can be accessed by the computer and includes all conventional media such as volatile and nonvolatile media, removable media non-removable media, removable media and / or non-removable media. It may mean a medium. In addition, a computer-readable storage media may include both computer storage media and communication media.
상기 컴퓨터 저장 매체는 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들 및 /또는 기타 데이터와 같은 정보의 저장을 위한 방법 또는 기술에서 구현된, 휘발성 또는 비휘발성, 및 /또는 이동성 또는 비이동성 매체를 포함할 수 있다.  The computer storage media may include volatile or nonvolatile, and / or removable or non-removable media implemented in a method or technology for storage of information such as computer readable instructions, data structures, program modules and / or other data. Can be.
컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 (e.g., USB 메모리, SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크, 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타 광학적 디스크, 자기 Computer storage media include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other memory, CD-ROM, DVD (digital versatile disk). ) Or other optical disc, magnetic
카세트 (magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치 , 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다. One or more of a cassette, magnetic tape, magnetic disk storage or other magnetic storage device, or any medium that can be used to store desired information and accessible by a computer can be selected, but is not limited thereto.
상기 통신 매체는 통상적으로 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들, 또는 반송파 (carrier wave)와 같은 모들화 데이터 신호 (modulated data signal) 중 데이터 전송 또는 기타 전송 (transport) 메카니즘을 구현하는 정보 전달 매체 (information delivery media)를 포함할 수 있다. 용어 "모들화 데이터  The communication medium is typically an information transfer medium that implements data transmission or other transport mechanisms among modulated data signals, such as computer readable instructions, data structures, program modules, or carrier waves. (information delivery media). Term "modulation data"
신호 (modulated data signal)"는 신호에 정보를 코딩하는 방식으로 설정되거나 변경된 하나 이상의 특징을 갖는 신호를 의미한다. 예컨대, 상기 통신 매체는 유선 네트워크 또는 직접 -유선 연결 (direct- wired connection)과 같은 유선 매체, 및 음향 (acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함한다. 상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. "Modulated data signal" means a signal that has one or more of its characteristics set or changed in such a manner as to encode information in the signal. For example, the communication medium may be wired. Wired media such as network or direct-wired connection, and wireless media such as acoustic, RF, infrared and other wireless media. Combinations of one or more of the above may also be included within the scope of computer readable media.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것올 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.  The foregoing description of the present invention is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.  The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

Claims

【청구의 범위】 [Range of request]
【청구항 11  [Claim 11
(1) 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 염기 서열 데이터에 리드 매핑 (Read  (1) Read mapping of test sample sequencing data and control sample sequencing data to standard reference sequencing data for each chromosomal position
Mapping)한 리드 카운트 (Read Count)에 기반하여, 실험군 백터 및 대조군 백터를 생성하는 단계; Generating an experimental group vector and a control vector based on a mapped read count;
(2) 상기 생성된 실험군 백터 및 대조군 백터를 결합한 결합 행렬을 생성하고, 상기 생성된 결합 행렬을 영역별로 나누어 NMF(Non-negative Matrix Factorization)를 통하여 바이어스 (Bias)를 제거하는 단계 (1차 바이어스 제거 단계);  (2) generating a binding matrix combining the generated experimental group vector and the control vector, and dividing the generated binding matrix by region to remove bias through non-negative matrix factorization (NMF) (primary bias) Removal step);
(3) 상기 바이어스가 제거된 결합 행렬을 재결합하는 단계; 및  (3) recombining the decoupling coupling matrix; And
(4) 상기 바이어스가 제거된 영역별 TRR(Target Region Ratio) 백터를 영역별로 취합하여 출력하는 단계  (4) collecting and outputting a TRR vector for each region from which the bias is removed for each region;
를 포함하는, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  A bias removal method in target sequencing comprising a.
【청구항 2】  [Claim 2]
제 1항에 있어서, 단계 (1) 이전에, 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터를 수신하는 단계를 추가로 포함하는, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  The method of claim 1, further comprising receiving test sample base data and control sample base data prior to step (1).
【청구항 3】  [Claim 3]
게 1항에 있어서, 상기 1차 바이어스 제거 단계는,  The method of claim 1, wherein the first bias removal step,
(i) 실험군 백터와 대조군 백터를 결합하여 결합 행렬을 생성하는 단계; (i) combining the experimental and control vectors to generate a binding matrix;
(ii) 상기 생성된 결합 행렬을 복수개의 영역으로 나누는 단계; (ii) dividing the generated combining matrix into a plurality of regions;
(iii) 상기 복수개의 영역별로 NMF를 수행하는 단계;  (iii) performing NMF for each of the plurality of regions;
(iv) 상기 NMF 수행 결과로부터 바이어스 요소를 선별하는 단계; 및  (iv) screening bias elements from the NMF performance; And
(V) 바이어스 제거 후 영역별 결합 행렬을 재결합하는 단계  (V) recombining the region-specific coupling matrix after bias removal
를 포함하는 것인, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  That will include, the bias removal method in target sequencing.
【청구항 4】  [Claim 4]
게 1항에 있어서, 상기 1차 바이어스 제거 단계 이후에,  According to claim 1, After the first bias removal step,
상기 실험군 백터와 대조군 백터 간 비특이 영역을 선.별하여 무차별 영역으로 설정 후 바이어스를 제거하는 단계 ; 및 상기.설정된 무차별 영역으로 바이어스가 제거된 상기 실험군 백터 및 ᅳ대조군 백터의 영역별 가중치를 계산하는 단계 Selecting a non-specific region between the experimental group and the control vector and setting the non-specific region to remove the bias; And Calculating weights for each region of the experimental group vector and the control group vector, from which the bias is removed to the set indifference region;
를 포함하는 2차 바이어스 제거 단계를 추가로 포함하는, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  Further comprising a secondary bias removal step comprising, bias removal method in target sequencing.
【청구항 5】  [Claim 5]
제 4항에 있어서, 상기ᅳ 2차 바이어스 제거 단계는,  The method of claim 4, wherein the second secondary bias removal step,
(vi) 실험군 백터와 대조군 백터 간 비특이적 영역을 선별하는 단계;  (vi) selecting nonspecific regions between the experimental and control vectors;
(vii) 비특이적 영역을 제거하는 단계; 및  (vii) removing the nonspecific region; And
(viii) 상기 바이어스가 제거된 실험군 백터 및 대조군 백터의 영역별 가중치를 계산하는 단계  (viii) calculating weights for each region of the experimental group and the control group vector from which the bias is removed;
를 포함하는 것인, 타켓 염기 서열 분석에서의 바이어스 제거 방법 .  Comprising a bias removal method in the target sequencing.
【청구항 6】  [Claim 6]
제 4항에 있어서,  The method of claim 4, wherein
상기 실험군 백터 및 대조군 백터의 무차별 영역은 동일한 것인, 염기 서열 분석에서의 바이어스 제거 방법.  The promiscuous region of the experimental group and the control vector is the same, bias removal method in sequencing.
【청구항 7】  [Claim 7]
거 11항에 있어서,  According to claim 11,
상기 리드 카운트는, 상기 실험 시료 염기 서열 데이터와 대조 시료 염기 서열 데이터에 위치한 적어도 하나의 타겟 영역에서 계산되는 것인, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  Wherein said read count is calculated in at least one target region located in said test sample sequencing data and control sample sequencing data.
【청구항 8】  [Claim 8]
거 11항에 있어서,  According to claim 11,
상기 TRR(Target Region Ratio) 백터는, 상기 실험 시료 염기 서열 데이터 또는 실험군 백터와, 상기 대조 시료 염기 서열 데이터 또는 대조군 백터에 위치한 적어도 하나의 타겟의 수에 기초하여 생성되는 것인, 타겟 염기 서열 분석에서의 바이어스 제거 방법.  The target region ratio (TRR) vector is generated based on the number of the test sample sequencing data or the experimental group vector and at least one target located in the control sample sequencing data or the control vector. Method of bias removal in.
【청구항 9】  [Claim 9]
제 1항 내지 제 8항 중 어느 한 항의 바이어스 제거 방법 수행하는 단계를 포함하는, 타켓 염기 서열 분석을 위한 컴퓨터 판독 방법. 【청구항 10】 A computer readable method for target sequencing, comprising performing the bias removal method of any one of claims 1 to 8. [Claim 10]
하드웨어에 결합되어'게 1항 내지 제 8항 중 어느 한 항의 바이어스 제거 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.  A computer program coupled to hardware stored on a computer readable storage medium for carrying out the steps of the method for bias elimination of any one of claims 1 to 8.
【청구항 1 1 ]  [Claim 1 1]
하드웨어에 결합되어 제 9항의 타겟 염기 서열 분석을 위한 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.  A computer program coupled to hardware and stored on a computer readable storage medium for carrying out the steps of the computer readable method for target sequencing of claim 9.
PCT/KR2015/011513 2014-10-29 2015-10-29 Method for removing bias in target nucleotide sequence analysis using nmf WO2016068625A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020157031738A KR101841265B1 (en) 2014-10-29 2015-10-29 Method for eliminating bias of targeted sequencing by using nmf

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0148374 2014-10-29
KR20140148374 2014-10-29

Publications (1)

Publication Number Publication Date
WO2016068625A1 true WO2016068625A1 (en) 2016-05-06

Family

ID=55857850

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/011513 WO2016068625A1 (en) 2014-10-29 2015-10-29 Method for removing bias in target nucleotide sequence analysis using nmf

Country Status (2)

Country Link
KR (1) KR101841265B1 (en)
WO (1) WO2016068625A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112546632A (en) * 2020-12-09 2021-03-26 百果园技术(新加坡)有限公司 Game map parameter adjusting method, device, equipment and storage medium
CN116313131A (en) * 2023-05-24 2023-06-23 山东大学 Brain network difference recognition system, equipment and storage medium based on imitation variables

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246354A1 (en) * 2003-08-29 2005-11-03 Pablo Tamayo Non-negative matrix factorization in a relational database management system
KR20100072577A (en) * 2008-12-22 2010-07-01 포항공과대학교 산학협력단 Method of document clustering by using orthogonal non-negative matrix factorization, apparatus of the same and recording medium of the same
JP5391279B2 (en) * 2008-10-31 2014-01-15 アッヴィ・インコーポレイテッド Method for constructing a panel of cancer cell lines for use in testing the efficacy of one or more pharmaceutical compositions
US20140242588A1 (en) * 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246354A1 (en) * 2003-08-29 2005-11-03 Pablo Tamayo Non-negative matrix factorization in a relational database management system
JP5391279B2 (en) * 2008-10-31 2014-01-15 アッヴィ・インコーポレイテッド Method for constructing a panel of cancer cell lines for use in testing the efficacy of one or more pharmaceutical compositions
KR20100072577A (en) * 2008-12-22 2010-07-01 포항공과대학교 산학협력단 Method of document clustering by using orthogonal non-negative matrix factorization, apparatus of the same and recording medium of the same
US20140242588A1 (en) * 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PARK, AA RON ET AL.: "A Diagnosis Method of Basal Cell Carcinoma by Raman Spectra of Skin Tissue using NMF Algorithm", JOURNAL OF THE IEIE, vol. 50, no. 8, 2013, pages 196 - 202 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112546632A (en) * 2020-12-09 2021-03-26 百果园技术(新加坡)有限公司 Game map parameter adjusting method, device, equipment and storage medium
CN116313131A (en) * 2023-05-24 2023-06-23 山东大学 Brain network difference recognition system, equipment and storage medium based on imitation variables
CN116313131B (en) * 2023-05-24 2023-09-15 山东大学 Brain network difference recognition system, equipment and storage medium based on imitation variables

Also Published As

Publication number Publication date
KR101841265B1 (en) 2018-03-22
KR20160062749A (en) 2016-06-02

Similar Documents

Publication Publication Date Title
Lin et al. Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes
CN108350494B (en) Systems and methods for genomic analysis
Portik et al. An evaluation of transcriptome‐based exon capture for frog phylogenomics across multiple scales of divergence (Class: Amphibia, Order: Anura)
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
US20150211054A1 (en) Haplotype resolved genome sequencing
Palacio et al. Genome data on the extinct Bison schoetensacki establish it as a sister species of the extant European bison (Bison bonasus)
GB2590197A (en) Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
US20230287487A1 (en) Systems and methods for genetic identification and analysis
Karamichalis et al. An investigation into inter-and intragenomic variations of graphic genomic signatures
Szóstak et al. The standardisation of the approach to metagenomic human gut analysis: from sample collection to microbiome profiling
Schaumont et al. Stack Mapping Anchor Points (SMAP): a versatile suite of tools for read-backed haplotyping
WO2016068625A1 (en) Method for removing bias in target nucleotide sequence analysis using nmf
EP3283647B1 (en) A method for non-invasive prenatal detection of fetal chromosome aneuploidy from maternal blood
Nayarisseri et al. Impact of Next-Generation Whole-Exome sequencing in molecular diagnostics
KR101839088B1 (en) Method for predicting absoulte copy number variation based on single sample
Bankevich et al. Joint analysis of long and short reads enables accurate estimates of microbiome complexity
Okumura et al. Construction of a virtual Mycobacterium tuberculosis consensus genome and its application to data from a next generation sequencer
CN108733974B (en) Mitochondrial sequence splicing and copy number determination method based on high-throughput sequencing
KR101516976B1 (en) Method for eliminating bias of targeted sequencing
WO2017051996A1 (en) Non-invasive type fetal chromosomal aneuploidy determination method
KR101907650B1 (en) Method of non-invasive trisomy detection of fetal aneuploidy
Stukenbrock et al. Comparing fungal genomes: Insight into functional and evolutionary processes
Schwartz et al. High-throughput yeast strain sequencing
KR20170036649A (en) Method of non-invasive trisomy detection of fetal aneuploidy
Fu et al. An alignment-free regression approach for estimating allele-specific expression using RNA-Seq data

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 20157031738

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15855896

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15855896

Country of ref document: EP

Kind code of ref document: A1