JP2020500382A - アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法および装置 - Google Patents
アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法および装置 Download PDFInfo
- Publication number
- JP2020500382A JP2020500382A JP2019540511A JP2019540511A JP2020500382A JP 2020500382 A JP2020500382 A JP 2020500382A JP 2019540511 A JP2019540511 A JP 2019540511A JP 2019540511 A JP2019540511 A JP 2019540511A JP 2020500382 A JP2020500382 A JP 2020500382A
- Authority
- JP
- Japan
- Prior art keywords
- data
- access unit
- read
- access
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 139
- 239000002773 nucleotide Substances 0.000 claims description 62
- 125000003729 nucleotide group Chemical group 0.000 claims description 62
- 239000000284 extract Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 43
- 238000012163 sequencing technique Methods 0.000 abstract description 25
- 238000010586 diagram Methods 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 description 74
- 238000007906 compression Methods 0.000 description 28
- 230000006835 compression Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 20
- 238000003780 insertion Methods 0.000 description 19
- 230000037431 insertion Effects 0.000 description 19
- 238000012217 deletion Methods 0.000 description 18
- 230000037430 deletion Effects 0.000 description 18
- 238000006467 substitution reaction Methods 0.000 description 16
- 238000013459 approach Methods 0.000 description 13
- 210000000349 chromosome Anatomy 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 229910052757 nitrogen Inorganic materials 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 229910052698 phosphorus Inorganic materials 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012268 genome sequencing Methods 0.000 description 3
- 238000011331 genomic analysis Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 210000001766 X chromosome Anatomy 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 108010038083 amyloid fibril protein AS-SAM Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 229910052805 deuterium Inorganic materials 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 229910052720 vanadium Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Television Signal Processing For Recording (AREA)
- Labeling Devices (AREA)
Abstract
Description
・インデックスファイルは、コンテンツの外部にあり、個別のリソースとして計算し管理する必要がある。これは、インデックスファイルに含まれる情報がデータファイルに既に含まれている情報と冗長であるため、データ操作および処理の点で効率的ではない。
・ビンサイズは、6つの値(229、226、223、220、217、又は214)に制限される。これは、これらの6個の値を使用することによってのみ識別可能なゲノム領域への選択的アクセスの柔軟性を制限する。
・ビニングおよびインデックスの特定の構造に応じて、それらにマッピングされたすべてのリードが正しく取得されることを保証したゲノム領域への選択的アクセスには、要求された区間に重複する全てのリードが実際に検索されることを確実にするためにいくつかのファイルシークコール(たとえば、ファイルリードポインターを目的の位置に移動する関数の呼び出し)が必要である。
・インデックスファイルは、コンテンツの外部にあり、BAMの場合と同様に、別個のリソースとして計算し管理する必要がある。このような技術的解決策は、インデックスファイルに含まれる情報が既にデータファイルに含まれている情報と重複しているので、記憶、データ操作および処理に関して効率的ではない。
・インデックスは、単一のブロブとして提供される、したがって、小さなゲノム領域へのアクセスは、ファイル全体を強制解除し、構文解析することを必要とする。
・gzipタブで区切られたフォーマットは、unzipされたときに人間が読める形式であるが、装置によって解析され処理されるのには効率的な形式ではない。
・CRAMは、特定の特徴を共有するデータサブセットへのデータのインデックス作成およびランダムアクセスをサポートしない。データインデックス作成は、仕様の範囲外であり(CRAM仕様v3.0のセクション12参照)、別のファイルとして実装される。逆に、この明細書に記載されている本発明のアプローチは、コード化プロセスと統合されており、インデックスがコード化された(すなわち、圧縮された)ビットストリームに埋め込まれているデータインデックス方法を採用する。
・CRAMは、あらゆるタイプのマップされたリード(完全一致リード、置換付きリード、挿入または欠失付きリード(「インデル」とも呼ばれる))を含むことができるコアデータブロックによって構築される。参照シーケンスに関するマッピングの結果に応じた、データの分類およびクラス内のリードのグループ化の概念はない。つまり、特定の機能を持つリードのみが検索された場合でも、すべてのデータを検査する必要がある。このような制限は、コード化の前にデータをクラスに分類し区分することによってこの出願に開示された発明によって解決される。
・CRAMは、各リードを「CRAMレコード」にカプセル化するという概念に基づく。これは、特定の生物学的特徴を特徴とするリード(例えば、置換はあるが「インデル」は含まないリード、または完全にマッピングされたリード)を検索するときに、それぞれの完全な「レコード」を調べる必要があることを意味する。
・逆に、本発明では、別個の情報レイヤで別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これは、その特徴を検査するために各(複数の)ブロックのリードを必要とせずに、特定の生物学的特性を有する一連のリード(例えば、置換を伴うが「インデル」なしのリード、または完全にマッピングされたリード)へのより効率的なアクセスを可能にする。
・CRAMレコードにおいて、各CRAMレコードが任意の異なるタイプのデータを含むことができるので、レコード内の各フィールドは特定のフラグに関連付けられ、各フラグはコンテキストの概念がないので常に同じ意味を有していなければならない。このコーディングメカニズムは、冗長な情報を導入し、効率的なコンテキストベースのエントロピーコーディングの使用を防げる。
・代わりに、逆に、本発明では、データが属する情報「レイヤ」によって本質的に定義されているので、データを示すフラグの概念は存在しない。これは、使用されるシンボルの数が大幅に削減され、結果として情報ソースのエントロピーが減少し、結果としてより効率的な圧縮がもたらされることを意味する。このような改善は、異なる「レイヤ」を使用することにより、エンコーダはコンテキストに応じて異なる意味を有する各レイヤにわたって同一のシンボルを再利用することによって可能である。CRAMでは、コンテキストの概念が存在しないので、各フラグは常に同じ意味を有していなければならず、各CRAMレコード、任意のタイプのデータを含むことができる。
・CRAMにおいて、置換、挿入および欠失は、異なる構文要素、情報ソースアルファベットのサイズを増大させ、より高いソースエントロピーをもたらすオプションを使用することによって表される。逆に、開示された本発明のアプローチは、単一のアルファベットを使用し、置換、挿入および欠失をコード化する。これにより、コード化およびデコード化プロセスが単純化され、コード化がもたらす高い圧縮性能を特徴とするビットストリームである低エントロピーソースモデルが生成される。
現在の慣例では利用できないこのような新しい特徴を達成するために、本発明は、エンコーダ側において、以下の要素によって特徴付けられる。
1. シーケンスリードはアラインされ、既存の又は構築された参照シーケンスにマップされる。
2. リードは、マッピングプロセスの結果に従ってクラスとサブクラスに分類される(つまり、参照シーケンスセグメントと完全に一致する、あるタイプのミスマッチのみを含み一致する、制限される数の特定のタイプのミスマッチを含み一致するなどなど・・・以下のセクションで詳しく説明する。
3. それらの分類によれば、シーケンスリードおよびそれらに関連するアライメント情報は、高い圧縮効率を達成するようにエントロピーコード化された特定のサブセットの「記述子」によって表される(すなわち、各クラスは、特定のリード値の値のセットが「ゲノムレコード」とも呼ばれる記述子の特定の「最小」サブセット)。
4. 各クラス内で、記述子のコード化されたサブセット(すなわち、ゲノムレコード)は、さらに、圧縮されたゲノムレコードによって表されるシーケンスリードがマッピングされるゲノム領域の境界によって特徴付けられるアクセスユニットと呼ばれるデータユニットの順序付けられたリストに分割される。
5. 各データセットに対するアクセスユニットへの分割は、2つの異なるモードのうちの1つに従って実行されるa)非重複モード(すなわちアクセスユニットに関連するゲノム領域は重複しない)b)重複モード(すなわち、1つのアクセスユニットに関連するゲノム領域は、他のアクセスユニットに関連するゲノム領域と重複してもよい)。非重複モードでは、アクセスユニットはそれらが関連するゲノム領域の両方の座標(開始および終了)の増加する値に従って順序付けされる。重複モードでは、アクセスユニットは開始座標の増加する値(すなわち、関連するゲノム領域の座標の最小値)に従って順序付けされる。
6. アクセスユニットへのシーケンスリードの圧縮および構造化のためにエンコーダによって使用される分割のタイプ、すなわち重複モードまたは非重複モードは、完全なデータセットに対するデータセットヘッダのフィールドとして登録される。この情報フィールドは、アクセスユニットがファイルシステムに格納された後またはクライアントにストリーミングされた後にアクセスされる2つの場合に、必要なデータを検索するための選択的アクセス手順を最適化するためにデコーディング装置によって使用される。
1. シーケンスリードペアおよび関連するアライメント情報は、記述子の特定のサブセットによって単一の要素として表され(すなわち、各シーケンスペアに対して単一のゲノムレコードが使用される)、高性能圧縮を実現するための単一のアクセスユニットに含まれる。
2. アクセスユニットの境界を超え、各参照シーケンスに対して定義された所与のパラメータ値を超えるペアの長さによって特徴付けられるリードペアは、代わりに分割され、記述子の2つのサブセットによる単一リードとして表され、それぞれのマッピング位置に従って異なるアクセスユニットにコード化および含まれる。
1. アクセスユニットを構成するデータブロックは、2つの可能なフォーマットに従ってファイルシステムに記憶されるa)同一の記述子に属するデータがストリーム化されて記憶装置の隣接領域に記憶された記述子ストリーム連続(DSC)フォーマット、b)異なる記述子に属するが同じアクセスユニットに属するデータが記憶装置の連続領域に記憶されるアクセスユニット連続(AUC)フォーマット。
2. AUCデータフォーマットがデータ記憶のために使用される場合、データ連続性は2つの異なるモードで実施されることができる:a)記憶装置の同じ領域に記憶された同じクラスのすべてのアクセスユニットを有するクラスベース(クラス連続モード、CC)、b)すべてのアクセスユニットが同じゲノム領域にマッピングされ、記憶装置の同じ領域に記憶されているゲノム領域ベース(ゲノム領域連続モード、GRC)。
3. データセットをファイルシステムDSC、AUC/CC、又はAUC/GRCに格納するために使用されるアクセスユニット記憶フォーマットに関する情報は、データアクセスプロセスを最適化するためにデータが検索されデコード化されるときに情報が利用可能になるように、データセットヘッダのフィールドに登録される。AUCデータフォーマットは、同じアクセスユニットに属するデータを記憶装置の連続した領域に記憶することを可能にするので、領域ベースの選択的アクセスの場合のファイルシステムアクセスの最小化にとって特に興味深い。AUCデータフォーマットの場合、CCモードは異なるクラスの任意のサブセットのデータにアクセスするときにより効率的になり、一方GRCモードは同じゲノム領域にマッピングするすべてのクラスのデータにアクセスするとき効率的になる。逆に、DSCフォーマットは、例えば、暗号化アルゴリズムを適用することによって1つ以上の記述子ストリームが保護されている場合など、他の使用例に対して効率的になる。この場合、記述子ストリームのデータ連続性により保護およびアクセス操作がより効率的になる。
4. アクセスユニットに含まれるデータに関連するゲノム領域を特徴付ける情報は記憶され、以下のように構造化されるマスターインデックステーブルと呼ばれる多次元データ構造に利用可能である。
a.参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左に一致する塩基のヌクレオチド数としての位置。
b.参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右に一致する塩基のヌクレオチド数としての位置。
c.アクセスユニットサイズのリスト(AUCモードが使用される場合)
d.データセットペイロードの最初のバイトを基準とした、各アクセスユニットの各記述子データブロックの最初のバイトのオフセット数のリストのバイト数。
1. デコーダーは、適切なデータセットヘッダフィールドから情報をフェッチする;a.前記ゲノムデータが前記ファイルシステムに格納されたAUsに分割されたモードであることを特徴とする:非重複モード又は重複モード
b.システム内の全てのAUSのデータを記憶するために使用されるフォーマット:DSCまたはAUC/CCまたはAUC/GRC
2. ステップ1で得られた情報を用いて、MITに格納された情報にアクセスし処理することにより、選択的アクセス要求を満たすデータを含む全てのAUが識別される。
3. 最小数のファイルアクセスコールを使用して、選択的データアクセス要求を満たす全てのデータを取得するために使用される、最小数のAU、最小数のデータブロック。
4. データの最小容量は、選択的なデータアクセス要求を満たすためにデコードされる。
1. デコーダは、トランスポートブロックヘッダから、データのクラスを特定する情報とAUがカバーする範囲とを取得して、AUが選択的アクセス要求に応答するためにデコードされなければならないか、または無視され得るかを決定する。
−ファイル格納情報の場合には、ファイルに含まれる前記AUから分離してコード化されたインデックステーブルから、前記アクセスユニットAUの開始座標sおよび終了座標eの値を抽出する。
−リードペアが前記ファイル内に存在する場合に、前記ファイルのゲノムデータセットヘッダ(1602)から閾値MaxDを抽出することをさらに含み、前記閾値MaxDは、リードペアのペアリング距離がとることができる最大値を特定する。
−同じAUの異なる記述子からのデータブロックが連続して格納される第1のモード
−同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモード
−同じクラスのすべてのAUがファイルに連続して格納される第1のサブモード
−同じゲノム領域のAUがファイルに連続して格納される第2のサブモード
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基の、ヌクレオチド数として表される位置情報。
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基の、ヌクレオチド数として表される位置情報。
データセットペイロードの第1のバイトを基準にした、各アクセスユニットの各記述子データブロックの第1のバイトのオフセット数のリスト(バイト数)。
前記第1のモードが使用されている場合の記述子ストリームサイズのリスト。
前記第2のモードが使用されている場合のアクセスユニットサイズのリスト。
−ファイル格納情報の場合、前記アクセスユニットから分離してコード化されたインデックステーブルにおける前記アクセスユニットAUの開始座標sおよび終了座標eの値をコード化。
−リードペアがコード化される前記ゲノムデータに存在する場合に、前記ファイルのゲノムデータセットヘッダ(1602)に閾値MaxDをさらにコード化し、前記閾値MaxDはリードペアのペアリング距離が想定できる最大値を指定する。
−同じAUの異なる記述子からのデータブロックが連続して格納される第1のモード
−同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモード
−同じクラスのすべてのAUがファイルに連続して格納される第1のサブモード
−同じゲノム領域のアクセスユニットが連続して保存される第2のサブモード
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基の、ヌクレオチド数として表される位置情報。
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右に一致する塩基の、ヌクレオチドの数として表される位置情報。
データセットペイロードの第1のバイトを基準とした、各アクセスユニットの各記述子データブロックの第1のバイトのオフセット数のリスト(バイト数)。
前記第1のモードが使用されるときの記述子ストリームサイズのリスト前記第2のモードが使用されるときのアクセスユニットサイズのリスト。
−ファイル格納情報の場合、前記アクセスユニットから分離してコード化されたインデックステーブルからの、前記アクセスユニットAUの開始座標sおよび終了座標eの値を構文解析。
−リードペアが前記ゲノムコード化データに存在する場合、前記ファイルのゲノムデータセットヘッダ(1602)から閾値MaxDをさらに解析し、前記閾値MaxDは、リードペアのペアリング距離が想定することができる最大値を指定する。
−同じAUの異なる記述子からのデータブロックが連続して格納される第1のモード
−同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモード
−同じクラスのすべてのAUがファイルに連続して格納される第1のサブモード
−同じゲノム領域のアクセスユニットが連続して保存される第2のサブモード
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基の、ヌクレオチド数として表される位置情報。
参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基の、ヌクレオチド数として表される位置情報。
データセットペイロードの第1のバイトを基準とした、各アクセスユニットの各記述子データブロックの第1のバイトのオフセット数のリスト(バイト数)。
前記第1のモードが使用されるときの記述子ストリームサイズのリスト。
前記第2のモードが使用されるときのアクセスユニットサイズのリスト。
本出願は、特許出願PCT/EP2016/074311、PCT/EP2016/074301、PCT/EP2016/074307、PCT/EP2016/074297、PCT/US2017/17842、PCT/US2017/17841に優先権と利益を主張する。
・アライメント情報、リード識別子および品質値に任意に関連付けられた単一シーケンスリードまたはペアシーケンスリードのいずれか。
・参照シーケンス(例えば、染色体)またはその一部。
・対応する塩基と一致しないアラインされたリードの塩基(別名一塩基多型)
GRL=(最も右のベース位置)−(最も左のベース位置)+1
・参照シーケンス上でのリードのマッピング位置
・リードとそのメイトとの間の距離
・シーケンスの長さ
・参照シーケンスに対するアラインされたリードにおけるミスマッチの位置
・関連付けられた位置における参照シーケンスに対するミスマッチのタイプ
・マッピング手順によって参照シーケンス上にマップされることができず、「ソフトクリップ」として分類されるベース
・シーケンスリードの長さ
・SAM仕様によって指定されたマッピングフラグ
・マッピング手順によって単一のリードまたはリードペアに関連付けられた複数のマッピング位置
・スプライスされたリードの存在の識別(すなわち、リードがチャンクに分割されたときに、より高いマッチング精度でマッピング位置を見つけ、次いでそれらが参照シーケンス上の単一位置にマッピングされた単一連結リードとしてマッピングされるとき)。
・使用される特定のタイプの参照シーケンス
・ゲノムリファレンスコンソーシアム(例:GRCh37)、カリフォルニア大学サンタクルーズ(例:hgl9)のようなコンソーシアムによって公開されているものとしての参照ゲノム
・指定されたセットのリードおよび指定されたセットのアセンブリルールを使用して構築された参照シーケンス
・そのような修正された参照シーケンスにマップされたシーケンスリードのミスマッチを表すために使用される記述子のエントロピーを低減する目的を有する参照シーケンスに適用される修正の位置および種類
・指定された程度のマッチング精度で参照シーケンスのいずれの位置にもマッピングできないシーケンスリードの表現
・参照シーケンス全体のまたはその一部の表現
1. 同じデータクラスのアクセスユニットのゲノム範囲が重複しない「非重複モード」
2. 同じデータクラスのアクセスユニットのゲノム範囲が重複する「重複モード」
ゲノムシーケンスへの効率的なアプローチの一般的な要素は、参照シーケンスに対するシーケンスデータの相関の利用である。人間集団の体性プロファイルが非常に多様化した場合であっても、人とは異なるヌクレオチド数の実際の部分は、ゲノム全体を構成するヌクレオチドの総数の約0.1%程度である。したがって、各個体を特徴付ける特定のゲノム情報は、ゲノム全体に担持された情報全体に対して非常に限定される。既存の参照ゲノムが利用可能である場合、以前のシーケンシングのために、または公開された"平均"コンセンサス参照として使用可能である、実際の情報をコード化する最も効率的な方法は、参照ゲノムとの差異のみを識別し、コード化することである。
・ゲノムシーケンスプロセス(ポリメラーゼ連鎖反応複製)の化学的性質。
・データ取得処理(光学的複製)。リードのペアが両方とも同じタイル上にあり、実験に応じてリード間の距離が所定の構成パラメータより小さい場合、リードは光学的複製と呼ばれる。
1. 参照シーケンスに対するマッピング結果に従ってシーケンスリードを別々のデータクラスに分類し、独自の記述子のスーパーセットを使用することなく、リードまたはリードペアをコーディングすることは、不十分な圧縮性能をもたらす非効率的な手法である。
2. 別々のシーケンスリードとしてのリードペアのコード化は、同じ情報を運ぶいくつかの記述子の重複を必要とし、従って非効率的でありそして劣った圧縮性能をもたらす。
3. プロセスは、おそらく次世代シーケンシング(NGS)技術の場合のように非常に大きくなり得る全データセットにおいてブルートフォースシーケンシャルサーチを必要とするので、リードペアを再構築するのに必要な情報の検索は複雑で非効率的になる。
4. 特定のゲノム領域にマッピングされたリードまたはリードペアへの選択的アクセスは、すべてのリードまたはリードペアが検索されるという保証を得るためにデータセット全体を検索することを必要とする。
1. 明らかに冗長である両方のリードに共通の情報は、ペアを単一の要素としてコーディングすることによっては再現されない(例えば、リードペア識別子、マッピング距離、マッピング参照識別子、SAMファイルフォーマットの特定のフラグによって現在エンコードされる様々なマッピング品質情報)。
2. 相互ペアリング情報(すなわち、どのリードが手にしているリードのメイトであるかを提供する情報)の検索は簡単であり、さらなる処理を必要としない。逆に、先行グ術の手法では、全データ量を解析する必要がある。
結果として、特定の記述子のサブセットを用いてゲノムシーケンスリードをペアとしてコード化する場合、各エントロピーの個々のサブセットを特徴付けるより低いエントロピー、およびリードペアを再構築および検索するときのより高い処理効率のおかげでより高い圧縮が達成される。
このセクションは、参照シーケンスにマップされたゲノムシーケンスリードを表すために指定された記述子を導入する。各リード/リードペアを表すために使用される記述子の特定のサブセットは、参照シーケンスに対するマッピングの結果に依存する(すなわち、リードとリードペアと参照シーケンスとの間のミスマッチの有無)。
リードまたはリードペア位置は、リードまたはリードペアにおける最も左の塩基の参照シーケンス上のマッピング位置として定義される。「位置」タイプの記述子は、各リードまたはリードペア毎に必要である。「位置」記述子の値は、以下を表すことができる。
・参照シーケンス上のリードまたはリードペアにおける最も左の塩基の座標の値
・同一のアクセスユニットでコード化された以前のリードまたはリードペアの座標に対する差分
「位置」記述子は、各コード化されたリードまたはリードペアを表すために必要とされる。
本発明では、このような記述子はpos記述子と呼ばれる。
リードペアの場合、各リードがどのようにしてメイトと関連付けられるかを表す記述子は、以下のように、いくつかの構文要素によって表現することができる。
・リードのベースと、メイト内の対応するベースとの間の座標の差(最も左にマップされたベースと、メイト内の最も左にマップされたベースなど)。本発明の開示において、そのような記述子はペア記述子と呼ばれる。
・メイトがマッピングする参照配列の識別子を含む参照シーケンス上のメイトの絶対座標。そのような表現オプションは次の場合に使用される。
・ペアの2つのリードが異なる参照シーケンス(例:染色体)にマッピングされている、または
・ペアの2つのリードが同じ参照にマッピングされているが、許容ペアリング距離の最大値として指定された値を超える塩基数で区切られている場合。
本発明では、このような記述子をabspair記述子と呼ぶ。異なる参照シーケンス上にマッピングされたメイトの場合、参照シーケンスを識別する記述子をrefidと呼ぶ。
・ペアリードの場合、そのメイトのリードと分離されたコード化されたリードの数。本発明では、このような記述子をpcount記述子と呼ぶ。
既に述べたように、2つのリードの間の関連付けはシーケンスプロセスによって生成された情報であり、参照シーケンスを用いたマッピング処理によりペアリング距離は決定される。シーケンシング過程を経ている可能性のあるDNA断片のサイズよりはるかに大きい値が存在する場合、本開示の以下で論じる多くの理由から、コーディングを2つの単一リードに分割し、それらを別々のアクセスユニットにコーディングする方がより適切で便利である。明らかに、2つのリードがペアとして生成されたという情報は維持される。これは、カバーされているゲノム領域に応じて(すなわち各染色体について)記述子「ペア」が全体のデータセットまたは各アクセスユニットについて想定することができる最大値を定義することによって得られる。言い換えれば、パラメータMaxDは、記述子「ペア」が取り得る最大値として指定される。MaxDの値は、塩基の数(または参照シーケンス内の座標)として表され、それは、同じアクセスユニット内で単一のユニットとして、または異なるアクセスユニット内の個別のリードとしてリードペアをコード化するために使用されるべき記述子の特定のサブセットを決定するためにエンコーダによって使用される。
1. 2つのリードは同じ参照シーケンス上にマップされ、最も左のベースの座標間の差はパラメータMaxDより小さいかまたは等しい
2. 2つのリードは同じ参照シーケンス上にマップされ、最も左のベースの座標の差はパラメータMaxDより大きい
3. 2つのリードは、異なる参照シーケンス(例えば、異なる染色体)にマッピングされる
1. 同じペアのリード1とリード2とが、X染色体(ID==2)にマッピングされ、X染色体上のリード2の絶対座標が155249594である。
可変長リードの場合、リードを構成するヌクレオチドの数として表される長さを表すために、リードごとに記述子を使用する。明らかに、可変リード長の場合には、各リードごとにリード長記述子が必要とされる。
この開示では、この記述子はrlen記述子とも呼ばれる。
アデニン(A)はチミン(T)のみと結合し、シトシン(C)はグアニン(G)のみと結合することから、DNAは各鎖が他方の鎖の相補鎖である二重らせんによって構成されている。したがって、一方のヌクレオチド組成を知るためには、もう一方の鎖を表すだけで十分である。これが、参照シーケンスが常に単一のシーケンスによって表される理由であり、マッピングツールは両方の鎖に属するリードについてマッピング位置を見つけることができる。リードがDNAヘリックスの相補鎖にマッピングされる場合、それは「逆相補的」であると言われる。記述子は、そのような情報を運ぶために必要であり、オリジナルのリードがそれがマッピングされる参照シーケンスの逆相補であるかどうかを示す情報を運ぶ。この開示では、このような記述子はrcomp記述子とも呼ばれる。
シーケンス化プロセスの間、装置は、ペアを構成するリードまたはリードの所与の位置で任意の塩基を呼び出すことができないことが生じる可能性がある。このようなイベントは、対応するリード位置における特別なシンボル「N」によって識別される。したがって、リードにおけるシンボル「N」の各々の発生を識別する記述子が必要とされる。
記述子は、以下を表すことができる。
・参照シーケンスの座標として表現されるペアリード又はリードにおける「N」シンボルの絶対位置、及び、参照シーケンスの座標として表現されたペアリード又はリードにおける「N」シンボルの絶対位置
・ペアリードまたはリードにおける前の「N」との相対的な位置
この開示では、このような記述子は、nmis記述子とも呼ばれる。
参照シーケンス上にマップされたシーケンスリードは、それらがマッピングされる参照シーケンスセグメントに関してミスマッチを提示することができる。これらのミスマッチは、以下のケースに従って、分類され、置換、削除または挿入として示される。
・参照シーケンスに対する異なるヌクレオチド(塩基)の存在(置換)
・マッピングされたリードにヌクレオチドが存在しない(欠失)
・参照に存在しないリード中のヌクレオチドの存在(挿入)
参照シーケンス上にマッピングされたゲノムシーケンスリードは、マッピング位置において参照シーケンス上に存在するもののうちのいずれかまたはわずかに一致しないヌクレオチドの配列のそれらのエッジ部分に存在し得る。これらのシーケンス部分はソフトクリップと呼ばれ、シーケンス部分の塩基を表すシンボルのストリングによって単純に構成される記述子によって表すことができる。
リードは、リードの開始および/または終了位置に、1または2つのソフトクリップのみを許容することができる。
この明細書では、このような記述子は、sclip記述子とも呼ばれる。
マッピングフラグは、以下のようなアライメントプロセスに関する特定の情報を搬送するために使用される。
・リードまたはリードペアのための複数のマッピング位置の存在
・スプライスされたリードの存在
・PCR(ポリメラーゼ連鎖反応)または光学的複製の存在
・補助アライメント(露光装置が同じリードまたはリードペアに対していくつかの可能なマッピング位置を生成した場合に使用される)
・リードが品質チェック(すなわち、シーケンスプロセスの品質を測定するための技術ベンダ固有の手順)に不合格
この明細書では、このような記述子はfags記述子とも呼ばれる。
リードまたはリードペアが参照シーケンスのいずれの位置にもマップされていない場合、リードまたはリードペアはマッピングされていないものとして分類される。このような場合、リードは、リードを表すシンボルの逐語的シーケンスによって構成される記述子によって表される。リードは、ゲノム領域を特定することによって、明らかに選択的にアクセスすることができない別個のクラスのデータに属するアクセスユニットに分割される。
リードまたはリードペアが参照シーケンス上で完全にマップされる(すなわち、いかなるミスマッチもない)場合、以下の記述子のサブセットが、リードおよび関連するマッピング情報を再構成するために必要とされる。
・リードまたはリードペアごとの位置記述子(pos)
・リードまたは2つのリードペアごとの逆相補記述子(rcomp)
・リードごとの長さの記述子(可変長読み出しの場合)(rlen)
・リードペアごとのペアリング記述子(pair)
・セットのマッピングフラグ(flags)
位置記述子posは、リードまたはリードペアの最も左のマッピングベースの参照ゲノム上の位置を表す。
逆相補記述子rcompは、リードが参照シーケンスの直接または逆の鎖にマップされているかどうかを示す。
可変長の場合、記述子rlenは、リード長さを提供する。
pair記述子は、ペア全体を再構築するために必要な情報を搬送する。記述子の構文はテーブル1に示す。
リードまたはリードペアが参照シーケンス上でマップするが、少なくとも1つの未知のベースを含む場合、以下の記述子のサブセットが、リードおよび関連するマッピング情報を再構成するために必要とされる。
・リードまたはリードペアごとの位置記述子(pos)
・リードまたは2つのリードペアごとの逆相補記述子(rcomp)
・各未知の塩基ごとの位置(nmis)
・リードごとの長さの記述子(可変長読み出しの場合)(rlen)
・リードペアごとのペアリング記述子(pair)
・セットのマッピングフラグ(flags)
リードまたはリードペアが参照シーケンス上でマップされ、少なくとも1つの置換を示すが、欠損や挿入はない場合、リードおよび関連するマッピング情報を再構築するに、次の記述子のサブセットが必要とされる。
・リードまたはリードペアごとの位置記述子(pos)
・リードまたは2つのリードペアごとの逆相補記述子(rcomp)
・各置換の位置ごとの記述子(mmpos)
・各置換タイプごとの記述子(subtype)
・各未知の塩基ごとの位置(nmis)
・リードごとの長さの記述子(可変長読み出しの場合)(rlen)
・リードペアごとのペアリング記述子(pair)
・セットのマッピングフラグ(flags)
本発明では、このようなリードまたはリードペアはクラスMに属すると言う。
リードまたはリードペアが、少なくとも1つの挿入、欠損またはソフトクリップを含み参照シーケンス上でマップされる場合、以下の記述子のサブセットが定義される。
・リードまたはリードペアごとの位置記述子(pos)
・リードまたは2つのリードペアごとの逆相補記述子(rcomp)
・各ミスマッチ(挿入、欠失、置換)の位置ごとの記述子(mmpos)
・各ミスマッチ(挿入、削除、置換)のタイプごとの記述子(mmtype)
・各シーケンスのソフトクリップごとの記述子(sclips)
・各未知の塩基ごとの位置(nmis)
・リードごとの長さの記述子(可変長読み出しの場合)(rlen)
・リードペアごとのペアリング記述子(pair)
・セットのマッピングフラグ(flags)
リードペアがマップリード(クラスP、N、MまたはIのいずれかに属する)およびアンマップリードによって構成されている場合、ペアはクラスHM(Half Mapped)と呼ばれる別のクラスに属するものとして分類される。
参照シーケンスにマッピングされたリードは、上記のクラス(P、N、M、I)のいずれかであり得、各クラスについて既に説明された記述子のサブセットを使用してコード化される。マッピングされていないリードは、適切なエントロピーコーダを使用してそれを表す一連のシンボルを圧縮することによってエンコードされる。
参照シーケンスは、対応する生物学的サンプル中に見出され得るヌクレオチドを表すシンボルのストリングとして一般に表される。DNAの場合、ヌクレオチドは4つであり、シンボルA、C、GおよびTによって表される。RNAの場合には、TはUに置き換えられる。5番目のシンボルは、シーケンシング装置が実験によって要求された信頼度に従ってヌクレオチドの種類を決定することができなかったシーケンス中の座標を表すために付加される。本開示では、参照シーケンスは、完全に1つのアクセスユニットにコード化することも、2つ以上のサブシーケンスに分割することもできる。
シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、1つ以上の既存の参照シーケンスに関するアラインメントのマッチング結果に従って5つの異なる「クラス」に分類される。
1. 参照シーケンス内の領域が、エラーなしに(すなわち、完全なマッピング)シーケンスリードと一致することが判明する。このようなヌクレオチド配列は、「完全に一致するリード」と呼ばれ、または「クラスP」として示される。
前のセクションで指定された分類はシングルシーケンスリードに関するものである。2つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンステクノロジ(例:Illumina Inc.)の場合、ペア全体を単一のデータクラスに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。
P<N<M<I
「クラスP」が最も低い優先順位を有し、「クラスI」が最も高い優先順位を有する。
テーブル3 本発明の開示において定義される、各シーケンスリードがデータクラスに分類されるために満たさなければならないミスマッチのタイプと制約のセット。
リードまたはリードペアが記述子の適切なサブセットによってゲノムレコードに分類およびコード化されると、エントロピーコード化記述子のストリームは、それらの相対的アクセスユニット範囲によって特徴付けられるアクセスユニットに分割される。言い換えれば、アクセスユニットは、各アクセスユニットに関連付けられているアクセスユニット範囲内の最も左側の塩基をマッピングするゲノムレコードのみを収集する。ゲノムデータセットのアクセスユニット範囲の定義は、非重複または重複の2種類である。
a)異なる記述子ストリームからの、しかし同じアクセスユニットに属するデータのブロックが連続して格納されるアクセスユニット連続(AUC)モード。
b)同一の記述子に属するが異なるアクセスユニットに属するデータブロックがファイルシステムの連続領域に記憶される記述子ストリーム連続(DSC)モード。
1. 参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基の、ヌクレオチド数として表される位置。
2. 参照シーケンスに関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基の、ヌクレオチド数として表される位置。
3. アクセスユニットサイズの一覧(AUCモード使用時)
4. データセットペイロードの第1のバイトを基準とした、各アクセスユニットの各記述子データブロックの第1のバイトのオフセット数のリスト(バイト数)。
特定のゲノム領域への選択的なアクセスは、以下のように行われる1)参照シーケンス上の指定された領域をカバーするアクセスユニットを識別するステップと、2)適切なデータにアクセスするステップとを含む。次のセクションは、選択的データアクセス要求に応答して識別されたAUのデータへのアクセスを最適化することができる使用される記憶モード(AUCまたはDSC)を知る方法を説明する。
図16を参照すると、Blocks B_0_M to B_N_Mで構成されるアクセスユニットMにアクセスするとき、マスタインデックステーブルのBlock_Byte_Offset[Sequence_ID] [Class_I D] [M] [0]エントリは、アクセスユニットの最初のバイトを探すために使用される。
1)fseek(FILE, Block_Byte_Offset[Sequence_ID][Class_ID][M][0], Dataset_Payload_First_Byte_Offset)
2)fread(payload_buffer, Block_Byte_Offset[Sequence_ID][Class_ID][M+1][0] -Block_Byte_Offset[Sequence_ID][Class_ID][M][0], 1, FILE)
2xN+1) fseek(FILE, Block_Byte_Offset[Sequence_ID][Class_ID][M][N], Dataset_Payload_First_Byte_Offset)
2xN+2) fread(payload_buffer, Block_Byte_Offset[Sequence_ID][Class_ID][M+1][N+1] -Block_Byte_Offset[Sequence_ID][Class_ID][M][N], 1, FILE)
図16を参照すると、Blocks B_0_M to B_N_Mで構成されるアクセスユニットMにアクセスするとき、マスタインデックステーブルの Block_Byte_Offset[Sequence_ID][Class_ID][M][0] エントリは、アクセスユニットの最初のバイトを探すために使用される。
1)fseek(FILE, Block_Byte_Offset[Sequence_ID][Class_ID][M][0], Dataset_Payload_First_Byte_Offset)
次に、マスターインデックステーブルのAU_Size[Sequence_ID][Class_ID][M]エントリを使用して、アクセスユニットをモノリシックなデータチャンクとして読み取る。
2)fread(payload_buffer, AU_Size[Sequence_ID][Class_ID][M], 1, FILE)
選択的アクセス要求に関連する特定のゲノム領域をカバーすると識別されたAUに属するデータを検索することは、1回のシークと1回の読み取りのみであるのでAUCモードが使用されるときより効率的であり、DSCモードで必要な2×N+2シーク+読み取りの操作と比較してAU当たりのディスクへのアクセス数が大幅に最小化される。物理的記憶装置は一般にそれらのスループットと比較して比較的高いシーク時間を有する。つまり、読み取りを開始するのに比較的時間がかかるが、開始すると、連続したバイトを比較的速く読み取ることができる。これが、シークを最小限に抑え、モノリシックな読み取りを優先することが常に望ましい理由でである。データセットヘッダで利用可能なAUCモードが採用されているという保証に関する情報は、効率的なモノリシックな読み取りを実装できるようにするために必要である。
一部のディスクリプタのみに別々にアクセスすることや、1つまたは複数のディスクリプタストリームのサブセットに別々に暗号化/デコード化を適用することなど、使用例によっては、DSCモードのほうがはるかに効率的である。ファイルシステム内のDSCデータ格納モードがデータセットヘッダ内の適切なシグナリングによって使用されることを知っていることで、以下のセクションで説明するように、ゲノム情報のそのような処理ははるかに効率的になる。
Error! Reference source not found.を参照すると、Blocks B_N_0 to B_N_Mで構成される記述子ストリームN(Class_ID=C, Descriptor_ID=D)にアクセスするとき、マスタインデックステーブルのBlock_Byte_Offset[0][C][0][D]エントリは、記述子ストリームの最初のバイトを探すのに使用される。
1) fseek(FILE, Block_Byte_Offset[0][C][0][D], Dataset_Payload_First_Byte_Offset)
2) fread(payload_buffer, Descriptors_Stream_Size[C][D], 1, FILE)
これに限定されるものではないが、例えば暗号化などのデータアクセスおよび/または他の処理操作が、その後、payload_bufferに対して実行される。
Error! Reference source not found.を参照すると、Blocks B_N_0 to B_N_Mで構成される記述子ストリームN(Class_ID=C, Descriptor_ID=D)にアクセスするとき、マスタインデックステーブルのBlock_Byte_Offset[0][C][0][D]エントリは、記述子ストリームの最初のバイトを探すのに使用される。
1) fseek(FILE, Block_Byte_Offset[0][C][0][D], Dataset_Payload_First_Byte_Offset)
2) fread(header_buffer, Block_Header_Size, 1, FILE)
その後、Block_HeaderのBSフィールドを使用してブロックペイロードを読み取る。
3) fread(payload_buffer[0], BS, 1, FILE)
記述子ストリームを構成する全てのブロック(N)について、ステップ1から3を繰り返す。
3xN+0) fseek(FILE, Block_Byte_Offset[Seq_Count][C][N][D], Dataset_Payload_First_Byte_Offset)
3xN+1) fread(header_buffer, Block_Header_Size, 1, FILE)
3xN+2) fread(payload_buffer[N], BS, 1, FILE)
記述子ストリームアクセスおよび処理は、ASCモードでの3×N+2アクセスと比較して、Descriptors_Stream当たり記憶装置への2回のアクセスしか必要とされないので、DSCモードを使用することによってより効率的である。
データの検索およびデコード化側では、アクセスユニットへのデータのどの区分化が実施され(重複または非重複)、選択的アクセスプロセスを最適化するためにDSC、AUC/CCまたはAUC/GRCが使用される。次に、選択されたゲノム領域にマッピングされているすべてのリードが確実に回復されるように、どのアクセスユニットをデコード化する必要があるかを識別することだけが必要である。アクセスユニットの範囲とアクセスユニットのカバーする領域に関する情報、およびリードペアを単一のエンティティとしてコーディングするか、単一のリードに分割するかを決定する閾値は、それぞれデータセットヘッダーのマスターインデックステーブルで利用できる。このような情報は、次のセクションで詳しく説明する。
単一エンティティとしてのリードペアのコード化表現は、ペアを構成する2つのリードの参照上のマッピング位置の座標差として「ペア距離」を表すことによって特徴付けられる。そのような記述子は、原則として、ゼロから参照シーケンス全体のサイズまでの任意の数の間の任意の可能な値(例えば、ヒト第1染色体について約2億5000万塩基)を想定することができる。そのような可能性は、そのような特定の領域に属する全てのリードが全ての関連する情報で正しくデコードされ、データアクセス要求の結果として提供されることを保証することが要求されるときに特定のゲノム領域のみに属するアラインシーケンスデータへの選択的アクセスをデータ量アクセスと処理の両方に関して計算的に拡張的にする。この問題は、解決するのがさらに困難であり、そしてペアにおける2つのリードが2つの異なる参照シーケンスにマッピングされるとき、はるかに多くの帯域幅および処理リソースを必要とする。次のセクションでは、本発明の開示が、独立したアクセスユニットに分類された記述子を使用してコード化されたゲノムシーケンスリードペアを選択的にアクセスする問題をどのように解決するかを説明する。
1つまたは複数の参照シーケンスにマッピングされたゲノムデータへの選択的アクセスは、通常、参照シーケンス(例えば染色体)の選択されたゲノム領域の最初(最後)および最後(最後)の座標を特定することによって行われる。
1 デコーダは、特定のゲノム領域と重複する全ゲノムリードまたはゲノムセグメント(単一の塩基まで)のみを検索する。検索操作は、全リード(指定されたゲノム領域に完全に含まれる場合)を含むまたは指定されたゲノム領域にマッピングされたリード部分のみをマッピングするように構成されている。
2 デコーダは、指定されたゲノム領域上にマップされた少なくとも1つのベースを有する全てのリードまたはリードペアを返す。
ゲノムデータがアクセスユニットに圧縮され、各アクセスユニットが特定のゲノム領域をカバーする場合、いくつかのリードはアクセスユニット範囲の端にまたがってマッピングされ、リードの一部は1つのアクセスユニット範囲に属するゲノム位置にマッピングされ、他のリードの一部は前後のアクセスユニットに属するゲノム領域にマッピングされる(それぞれアクセスユニット範囲の境界についての参照シーケンス上のより小さな座標またはより大きな座標に関して)。この可能性の発生は、図7に明確に示されている。
1.アクセスユニット範囲の端の近くにマッピングされたリードペアは、アクセスユニット範囲の外側にマッピングされたリードの一部または全体を持つことができる。
2.リードとそのメイトとの間の距離が大きくなる可能性があり、リード2は他のアクセスユニットによってカバーされる領域にマッピングされることになる可能性があるが、リード1がコード化されるアクセスユニット内の単一エンティティとしてコード化される。
・アクセスユニット内のリードの一部であって、そのリードがマッピングされているゲノム領域と部分的にのみ重複する範囲を有する(201)。これはシングルリードの場合も同様であるが、平均距離が平均リード長よりもはるかに大きいペアエンドリードを扱う場合、問題はより頻繁に発生する。
・アクセスユニットの完全なリードが、リードがマッピングされているゲノム領域をカバーしていない(202及び203)
・上記で指定された2つの可能性の組み合わせ(204)
以下のセクションでは、参照シーケンス上にマッピングされ、アクセスユニットでコード化されたリードまたはリードへの効率的な選択的アクセスを実施するための方法について説明する。本発明に開示された方法は、全ての単一リードまたはペアに属するリードが選択的アクセスが必要なゲノム領域R上の少なくとも1つの塩基とマッピングするという保証を得るためにデコードされるべき最小数のアクセスユニットを決定および識別する利点を提供する。
所与の1組のアクセスUについて、開始位置sおよび終了位置eに関して指定された参照シーケンスの任意のゲノム領域R、ならびに開始座標sおよび終了座標eによって定義される関連するカバーされた領域を考える。「アクセスされ、デコードされ、検査される必要があるアクセスユニットの最小セットは、関連する開始座標sまたは終了座標e」が以下の式のうちの1つを満たすすべてのアクセスユニットAUを識別することによって決定できる。
・s≦si≦e
または
・s≦ei≦e
または
・si≦sおよびei≧e
以下のセクションでは、コード化シーケンスリードが可変長を有する場合に圧縮ゲノムデータのゲノム領域に選択的にアクセスすることに関与する工程を説明する。
1.分析者またはゲノムデータ処理アプリケーションは、参照シーケンス上の座標s(開始)およびs<eである座標e(終了)によって定義されるゲノム領域にマッピングされたすべてのコード化シーケンスデータにアクセスする必要がある。
2.デコーダは、すべてのアクセスユニットAUiにアクセスしてデコードする。ただし、K≦i≦K+N(AUKからAUK+N)。
a. s∈AK(すなわち、開始座標sはAKがカバーされるゲノム領域に属する)
b. e∈AK+N(すなわち、末端座標eは、AK+Nによってカバーされるゲノム領域に属する)
c.
3.デコーダは、参照シーケンス上の位置P>sにマッピングされた少なくとも1つの塩基を有するすべてのリードが検索されることを保証するために、i<Kで、何個のアクセスユニットAiをデコードしなければならないかを決定しなければならない。探索は、s≦ei≦eであるすべてのAUをデコードすることを選択し、選択されたクラスのAUについてMITに存在するeiのすべての値が解析されたときに停止する。開始位置si>eを有するアクセスユニットは、アクセスのために選択されたゲノム領域内にマッピングされた少なくとも1つの塩基を有するいかなるリードも含まないので、スキップすることができる。
本発明において特定された新しいアルゴリズムは、シーケンスリードへの一貫したそして効率的な選択的アクセスを実施することを可能にしそして以下の工程からなる:
1.リードペアが別々のアクセスユニット内の2つの別々のリードとしてエンコードされ、それより下でリードが同じアクセスユニット内の単一のゲノムレコードにエンコードされるペアリング距離に対する閾値を設定するパラメータMaxDの定義。そのようなメカニズムは、それらのメイトから遠く離れてマッピングされるリードが、そのカバーされる領域がマッピング座標から遠くなるであろうアクセスユニットにおいてコード化されるのを防止する。
2.パラメータMaxDは、ペアが単一のエンティティとしてコード化されるか、または2つの別々のリードとしてコード化されるかを決定するためにエンコーダによって設定および使用されるように、ファイルの「データセットヘッダ」に格納されるか、またはトランスポートブロックヘッダに送信される。これにより、MaxDは、選択されたゲノム領域にマッピングされた各ペアのすべてのリードを検索するのに必要な最小数のアクセスユニットをデコードすることによって選択的アクセスプロセスを実行するためにデコーダにおいて利用可能である。
s−MaxD≦si≦e
以下のテキストは、コード化ゲノムシーケンスが一定長さでマップされたデータを読み取る参照シーケンスのゲノム領域への選択的アクセス手順に含まれる工程を記載する。
1.分析者またはゲノムデータ処理アプリケーションは、座標s(開始)およびs<eである座標e(終了)によって定義されるゲノム領域にマッピングされたすべてのコード化シーケンスデータにアクセスする必要がある。
2.指定された間隔内にマッピングされた少なくとも1つのベースを有するコード化されたリードを含むAUを見つけるために、本開示に記載された選択的アクセス方法を実施するデコード装置はMITを構文解析し、
a. 最大のsK≦sおよびeK>sを有するAUKをデコードする。
b. i>Kでsi≦eである全てのアクセスユニットAUiをデコードする。
c. 開始位置si<sと終了位置ei>sを持つ追加のアクセスユニットAUiを検索する
ここで、siとeiはAUiの開始位置と終了位置である。
上述のパラメータMaxDは、エンコードされたゲノムデータセット全体に対して有効な定数であり得るか、または異なるゲノム領域に対して異なる値が定義され得る。適切なアプローチは、各参照シーケンス(例えば染色体)ごとに異なるパラメーター値を定義することである。そのようなアプローチが技術的利点を提示し得る理由は、シーケンシング実験が、生成されたシーケンスリードの密度がゲノム領域(例えば染色体)ごとに異なることを必要とし得ることである。圧縮効率を高め、同時に選択的アクセス動作の効率を最大にするために、生成されたシーケンシングリードの密度に従って選択的アクセスの特徴を適合させることが適切である。したがって、異なる参照シーケンスごとにMaxDの値に異なる値を使用すると便利である。そのような選択的アクセスアルゴリズムを実行するために、各コード化ゲノムデータセットは、異なる参照シーケンスに関連するベクトルの各要素と共にMaxD値のベクトルを搬送することを必要とする。これは図19に示されており、ここでは、閾値のベクトル(1601)が、本開示に記載された方法を実施するコード化装置によってコード化されたグローバルパラメータセットコンテナ(1604)内で移送される。
上述したインデックスメカニズムおよび選択的アクセス手順をサポートするために、ここでは2つのデータ構造が本発明の不可欠な部分として説明されている。
・グローバルパラメータを運ぶデータセットヘッダ(1602)。データセットヘッダの構文は、テーブル6に示す。
・マスターインデックステーブル(MIT)と呼ばれるインデックス作成ツールが本発明に開示されている。MIT構文は、マッピングされたリード(すなわち、クラスP、N、M、IまたはHMに属すると分類されたリード)に関してテーブル4に提供され、各アクセスユニット開始位置および終了位置を表す2つの座標CsjkおよびCejkによって構成される。
・Cはリードクラスを表す(すなわちC∈{P、N、M、I、HM})
・jは参照シーケンス識別子を表す
・kは各参照シーケンス内のAU識別子を表す
図18は、アクセスユニットの開始位置(Csk)および終了位置(Cejk)を含む、上で定義されたマスターインデックステーブルの一例を示す。
データセットヘッダは、コード化されたゲノム情報を操作するためにエンコーダおよびデコーダによって使用されるグローバルパラメータを搬送するデータ構造である。データセットヘッダの各要素の構成要素と意味を以下のテーブル4に示す。
マスターインデックステーブル(MIT)と呼ばれるインデックス作成ツールが本発明に開示されている。
テーブル5は、本開示で定義されたマスタインデックステーブルの構文を提供し、ここで、Class_IDは、本開示で定義されたマッピングされたリードのクラス、P、N、M、IおよびHMクラスに対する一意の識別子である。たとえばClass_IDは次のように定義できる。
・参照シーケンスに関して、異なる記述子ストリームからのブロックのセットとしての、アクセスユニットに含まれるすべてのリードまたはリードペアの一次アライメントの中で最も左に一致する塩基のヌクレオチド数としての位置。これは、テーブル7においてStart_AU_Ref_Position [Sequence_ID] [Class_ID] [AU_ID]によって表される。
ストリーミングシナリオでは、ファイルシステムまたはストレージシナリオで利用可能なマスターインデックステーブルによって運ばれる情報は、トランスポートブロックヘッダによって運ばれ、以下の構文に従って任意のアクセスユニットに属する各データブロックに関連付けられる。
このセクションでは、トランスポートブロックヘッダにある構文要素から、上で定義したデータセットヘッダのパラメータSeq_CountとSeq_Blocks [seq]の更新、および前のセクションで定義したマスタインデックステーブルの編集を可能にするプロセスについて説明する。
1. Seq_Countは0に初期化され、SEQIDが以前に受信されたいずれのSEQIDとも異なるたびに1ずつ増加する。
2. Seq_Blocks[SEQID]は、(SEQID、AUID)ベクトルが以前の(SEQID、AUID)ベクトルと異なる度に1ずつ増加する。
a. Sequence_ID = Seq_Count
b. 6.3.8セクションで定義されているブロックヘッダ内のClass_ID = Class_ID
c. AU_ID = Seq_Blocks[SEQID]
d. Block_Header_Flagが設定されていない場合、6.3.8.1セクションで定義されているブロックヘッダのDescriptor_ID = Descriptor_ID, そうでない場合(BlockJHeader_Flagが設定される) Descriptor_ID = 0.
4. Start_AU_Ref_Position [Sequence_ID] [Class_ID] [AU_ID]という名前のマスターインデックステーブルエントリは、次のように計算される。
a. Start_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID] = Start_POS
5. End_AU_Ref_Position [Sequence_ID] [Class_ID] [AU_ID]という名前のマスターインデックステーブルエントリは、次のように計算される。
a. End_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID] = End_POS
6. データセットヘッダーフィールドBlock_Header_Flagはユーザー定義です。
7.Block_Header_Flagが設定されていない場合:
a. 新しい(Class_ID、Descriptor_ID)ベクトルによって識別されるトランスポートブロックが受信されるたびに、DSCN [Class_ID] [Descriptor_ID]という名前の新しい記述子ストリームコンテナ(dscn)が作成され、Block_Ptr [Class_ID] [Descriptor_ID]という変数が定義され0に初期化される。
b. Block_Ptr [Class_ID] [Descriptor_ID]は、sizeof(gen_info) + Length of any gen_info child of DSCN[Class_ID][Descriptor_ID]だけ増加する。
c. ブロックヘッダのClass_IDとDescriptor_IDで識別されるすべてのブロックのペイロードは、DSCN [Class_ID] [Descriptor_ID]のValue []フィールドにコピーされる。
d. 上記の各ブロックについて、Block_Ptr [Class_ID] [Descriptor_ID] [AU_ID]という名前の新しい変数が定義され、Block_Ptr [Class_ID] [Descriptor_ID]の現在の値が割り当てられる。
e. 各ブロックについて、Block_Ptr [Class_ID] [Descriptor_ID]は、Block_size - Transport_Block_Header_Sizeによって増分され、Transport_Block_Header_Sizeは、転送ブロックヘッダーのサイズ(バイト単位)。
f. セッションが終了し、結果のデータを出力ファイルに書き込む前に、DS_Offsetという名前の変数が定義され、0に初期化される。
g. 各DSCN [Class_ID] [Descriptor_ID]を出力ファイルに書き込んだ後、DS_Offsetはsizeof(gen_info header) + Length(DSCN[Class_ID][Descriptor_ID])だけ増加する。
h. 出力ファイルに書き込まれるDSCN [Class_ID] [Descriptor_ID]ごとに、Block_Byte_Offset [Sequence_ID] [Class_ID] [AU_ID] [Descriptor_ID]という名前のマスターインデックステーブルエントリが次のように更新される。
Block_Byte_Offset [Sequence_ID] [Class_ID] [AU_ID] [Descriptor_ID] = DS_Offset + Block_Ptr [Class_ID] [Descriptor_ID] [AU_ID]
8.そうでない場合、BlockJHeader_Flagが設定されている場合:
a. DatasetPayloadという名前のバッファが作成される。
b. 各ブロックについて、ブロックヘッダはトランスポートブロックヘッダから抽出され格納される。
c. 以前に抽出されたブロックヘッダーとブロックペイロードを含む各ブロックは、DatasetPayloadに書き込まれる。
d. 各ブロックについて、Block_Byte_Offset [Sequence_ID] [Class_ID] [AU_ID] [Descriptor_J]は、DatasetPayload内のブロックのバイトオフセットに等しい。
e. AU_Size[Sequence_ID][Class_ID][AU_ID]と名付けられたマスターインデックステーブルエントリは、同じSequence_ID, Class_ID and AU_IDを有する各受信トランスポートブロックについての(Block_size - Transport_Block_Header_Size)の累積合計として計算される。
f. セッションの終わりに、データペイロードは、5.4セクションで定義されているように、データペイロードとして出力ファイルにダンプされる。
プロセスの終了時、通常はエンドユーザーがトランスポートプロセスの実行を停止したときは、マスターインデックステーブルの3番目のループ、つまり(AU_ID = 0; AU_ID <Seq_Blocks [Sequence_ID]; AU_ID ++)を再実行する必要がありる。 Sequence_IDインデックスとClass_IDインデックスの組み合わせごとに、Start_AU_Ref_Position [Sequence_ID] [Class_ID] [AU_ID]の値を大きくすることによって順序付けられる。
Claims (32)
- ファイル内のゲノム領域に選択的にアクセスするための方法であって、前記ファイルはエントロピーコード化されたアクセスユニットAUiに配置され、
・ファイル格納情報の場合、前記ファイルに含まれ、前記AUiから分離してコード化されたインデックステーブルから、前記アクセスユニットAUiの開始座標siと終了座標eiの値を抽出し、および
・リードペアが前記ファイルに存在する場合、前記ファイルのデータセットヘッダ(1602)から閾値MaxDを抽出し、前記閾値MaxDはリードペアのペアリング距離がとることができる最大値を特定する、ことを含む方法。 - 前記インデックステーブルテーブルは、前記アクセスユニットをエントロピーデコードする必要なしに、ポインタのベクトルを使用することによってデータのクラスに従ってエントロピーコード化されたアクセスユニットを選択的に識別するためにアクセスユニットのクラスを含む、請求項1に記載の方法。
- 前記AUiは、前記AUに含まれる全ゲノムレコードのうちAU開始位置と最も右のゲノムレコード位置との間に含まれるゲノム範囲を表す、アクセスユニット範囲と呼ばれる範囲情報を含む、請求項2に記載の方法。
- 前記AUは、2つの異なるモードからなり、
・同じAUの異なる記述子からのデータのブロックが連続して格納される第1のモードと、
・同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモードと、を含む、請求項3に記載の方法。 - 前記モード情報は、パラメータセットのフィールドにコード化されて前記データセットヘッダに含まれる、請求項4に記載の方法。
- 前記第1のモードにおいて、さらに2つの異なるサブモードで表すことができ、
・同じクラスのすべてのAUiがファイルに連続して格納される第1のサブモードと、
・同じゲノム領域のAUiがファイルに連続して格納される第2のサブモード、を含む、請求項4に記載の方法。 - 前記インデックステーブルが、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基のヌクレオチド数として表される位置情報、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基のヌクレオチド数として表される位置情報、
・データセットペイロードの第1のバイトを基準にした、各アクセスユニットの各記述子データブロックの第1のバイトのバイト数として表されるオフセット数のリスト、
・前記第1のモードが使用されている場合の記述子ストリームサイズのリスト、
・前記第2のモードが使用されている場合のアクセスユニットサイズのリスト、の情報を含む、請求項6に記載の方法。 - ストリーミング情報の場合、前記アクセスユニットAUiの開始座標siおよび終了座標eiの値が、各アクセスユニットAUiのヘッダから抽出される、請求項7に記載の方法。
- 前記リードペアの距離は、参照系における塩基の数または座標として表される、請求項8に記載の方法。
- ゲノム領域を含むゲノムデータをコード化するための方法であって、前記ゲノムデータはエントロピーコード化されたアクセスユニットAUiに配置され、
・ファイル格納情報の場合、前記アクセスユニットから分離してコード化されたインデックステーブルにおけるアクセスユニットAUiの開始座標siおよび終了座標eiの値をコード化し、
・−リードペアがコード化される前記ゲノムデータに存在する場合に、前記ファイルのゲノムデータセットヘッダ(1602)に閾値MaxDをさらにコード化し、前記閾値MaxDはリードペアのペアリング距離が想定できる最大値を指定する、ことを含む。 - 前記インデックステーブルはさらに、前記アクセスユニットのエントロピーデコード化を必要とせずに、デコーダでポインタのベクトルを使用することによって、エントロピーコード化アクセスユニットをデータクラスに従って選択的に識別することができるようにマッピングされたアクセスユニットクラスをさらに含む、請求項10に記載の方法。
- 前記AUiは、AUに含まれる全ゲノムレコードのうちのAU開始位置と最も右のゲノムレコード位置との間に含まれるゲノム範囲を表す、アクセス単位範囲と呼ばれる範囲情報を含む、請求項11に記載の方法。
- 前記AUは、2つの異なるモードからなり、
・同じAUの異なる記述子からのデータのブロックが連続して格納される第1のモードと、
・同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモードと、を含む、請求項12に記載の方法。 - 前記モード情報は、パラメータセットのフィールドにコード化されて前記データセットヘッダに含まれる、請求項13に記載の方法。
- 前記第1のモードにおいて、さらに2つの異なるサブモードで表すことができ、
・同じクラスのすべてのAUiがファイルに連続して格納される第1のサブモードと、
・同じゲノム領域のAUiがファイルに連続して格納される第2のサブモード、を含む、請求項13に記載の方法。 - 前記インデックステーブルが、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基のヌクレオチド数として表される位置情報、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基のヌクレオチド数として表される位置情報、
・データセットペイロードの第1のバイトを基準にした、各アクセスユニットの各記述子データブロックの第1のバイトのバイト数として表されるオフセット数のリスト、
・前記第1のモードが使用されている場合の記述子ストリームサイズのリスト、
・前記第2のモードが使用されている場合のアクセスユニットサイズのリスト、の情報を含む、請求項15に記載の方法。 - 前記リードペアの距離は、参照系における塩基の数または座標として表される、請求項16に記載の方法。
- ゲノム領域を含む圧縮コード化ゲノムデータをデコード化するための方法であって、エントロピーコード化されたアクセスユニットAUに配置され、
・ファイル格納情報の場合、前記アクセスユニットから分離してコード化されたインデックステーブルからの、前記アクセスユニットAUの開始座標sおよび終了座標eの値を構文解析し、
−リードペアが前記ゲノムコード化データに存在する場合、前記ファイルのゲノムデータセットヘッダ(1602)から閾値MaxDをさらに解析し、前記閾値MaxDは、リードペアのペアリング距離が想定することができる最大値を指定する、ことを含む。 - 前記インデックステーブルは、前記アクセスユニットの前記エントロピーデコード化を必要とせずに、ポインタのベクトルを使用することによって、データのクラスに従ってエントロピーコード化アクセスユニットを選択的に識別できるようにマッピングされたアクセスユニットのクラスをさらに含む請求項18に記載の方法。ニット
- 前記アクセスユニットは、アクセスユニット範囲と呼ばれる範囲情報を含み、前記アクセスユニット範囲は、前記AUに含まれる全ゲノムレコードのAU開始位置と最も右側のゲノムレコード位置との間に含まれるゲノム範囲を表す、請求項19に記載の方法。
- 前記AUは、2つの異なるモードからなり、
・同じAUの異なる記述子からのデータのブロックが連続して格納される第1のモードと、
・同じ記述子に属するが異なるアクセスユニットに属するデータブロックがファイルの連続領域に格納される第2のモードと、を含む、請求項20に記載の方法。 - 前記モード情報は、パラメータセットのフィールドから解析されて前記データセットヘッダに含まれる、請求項21に記載の方法。
- 前記第1のモードは、さらに2つの異なるサブモードで表すことができさらに2つの異なるサブモードで表すことができ、
・同じクラスのすべてのAUiがファイルに連続して格納される第1のサブモードと、
・同じゲノム領域のAUiがファイルに連続して格納される第2のサブモード、を含む、請求項21に記載の方法。 - 前記インデックステーブルが、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も左にマッピングされた塩基のヌクレオチド数として表される位置情報、
・参照に関して、アクセスユニットに含まれるすべてのリードまたはリードペアの中で最も右にマッピングされた塩基のヌクレオチド数として表される位置情報、
・データセットペイロードの第1のバイトを基準にした、各アクセスユニットの各記述子データブロックの第1のバイトのバイト数として表されるオフセット数のリスト、
・前記第1のモードが使用されている場合の記述子ストリームサイズのリスト、
・前記第2のモードが使用されている場合のアクセスユニットサイズのリスト、の情報を含む、請求項23に記載の方法。 - 前記リードペアの距離は、参照系における塩基の数または座標として表される、請求項24に記載の方法。
- 実行されると少なくとも1つのプロセッサに請求項1に記載の選択的アクセス方法を実行させる命令を含むコンピュータ可読媒体。
- 実行されると少なくとも1つのプロセッサに請求項10に記載のコード化方法を実行させる命令を含むコンピュータ可読媒体。
- 実行されると少なくとも1つのプロセッサに請求項18のデコード方法を実行させる命令を含むコンピュータ可読媒体。
- 請求項10に記載の方法に従ってコード化されたゲノムデータを保存するサポートデータ。
- 請求項10に記載の方法に従ってゲノムデータがコード化されているファイルフォーマット。
- 前記コード化情報は暗号化されている請求項30に記載のファイルフォーマット。
- 請求項1に記載の選択的アクセスの工程を実行するための手段を含む、請求項10に従ってコード化されたゲノム情報の選択的アクセスのための装置。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EPPCT/EP2016/074311 | 2016-10-11 | ||
EPPCT/EP2016/074297 | 2016-10-11 | ||
PCT/EP2016/074311 WO2018068830A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for the transmission of bioinformatics data |
PCT/EP2016/074307 WO2018068829A1 (en) | 2016-10-11 | 2016-10-11 | Method and apparatus for compact representation of bioinformatics data |
EPPCT/EP2016/74301 | 2016-10-11 | ||
PCT/EP2016/074301 WO2018068828A1 (en) | 2016-10-11 | 2016-10-11 | Method and system for storing and accessing bioinformatics data |
PCT/EP2016/074297 WO2018068827A1 (en) | 2016-10-11 | 2016-10-11 | Efficient data structures for bioinformatics information representation |
EPPCT/EP2016/074307 | 2016-10-11 | ||
USPCT/US2017/017842 | 2017-02-14 | ||
USPCT/US2017/017841 | 2017-02-14 | ||
PCT/US2017/017842 WO2018071055A1 (en) | 2016-10-11 | 2017-02-14 | Method and apparatus for the compact representation of bioinformatics data |
PCT/US2017/017841 WO2018071054A1 (en) | 2016-10-11 | 2017-02-14 | Method and system for selective access of stored or transmitted bioinformatics data |
PCT/US2017/041579 WO2018071078A1 (en) | 2016-10-11 | 2017-07-11 | Method and apparatus for the access to bioinformatics data structured in access units |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020500382A true JP2020500382A (ja) | 2020-01-09 |
JP2020500382A5 JP2020500382A5 (ja) | 2020-08-20 |
JP7079786B2 JP7079786B2 (ja) | 2022-06-02 |
Family
ID=61905752
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540510A Withdrawn JP2020505702A (ja) | 2016-10-11 | 2017-02-14 | 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム |
JP2019540513A Withdrawn JP2020500383A (ja) | 2016-10-11 | 2017-07-11 | リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム |
JP2019540511A Active JP7079786B2 (ja) | 2016-10-11 | 2017-07-11 | アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置 |
JP2019540512A Withdrawn JP2019537172A (ja) | 2016-10-11 | 2017-07-11 | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540510A Withdrawn JP2020505702A (ja) | 2016-10-11 | 2017-02-14 | 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム |
JP2019540513A Withdrawn JP2020500383A (ja) | 2016-10-11 | 2017-07-11 | リファレンスシーケンスを用いたバイオインフォマティクスデータの表現及び処理のための方法及びシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540512A Withdrawn JP2019537172A (ja) | 2016-10-11 | 2017-07-11 | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム |
Country Status (17)
Country | Link |
---|---|
US (6) | US20200042735A1 (ja) |
EP (3) | EP3526694A4 (ja) |
JP (4) | JP2020505702A (ja) |
KR (4) | KR20190073426A (ja) |
CN (6) | CN110168651A (ja) |
AU (3) | AU2017342688A1 (ja) |
BR (7) | BR112019007359A2 (ja) |
CA (3) | CA3040138A1 (ja) |
CL (6) | CL2019000968A1 (ja) |
CO (6) | CO2019003595A2 (ja) |
EA (2) | EA201990916A1 (ja) |
IL (3) | IL265879B2 (ja) |
MX (2) | MX2019004130A (ja) |
PE (7) | PE20191058A1 (ja) |
PH (6) | PH12019550060A1 (ja) |
SG (3) | SG11201903270RA (ja) |
WO (4) | WO2018071055A1 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2526598B (en) | 2014-05-29 | 2018-11-28 | Imagination Tech Ltd | Allocation of primitives to primitive blocks |
US11574287B2 (en) | 2017-10-10 | 2023-02-07 | Text IQ, Inc. | Automatic document classification |
US11030324B2 (en) * | 2017-11-30 | 2021-06-08 | Koninklijke Philips N.V. | Proactive resistance to re-identification of genomic data |
WO2019191083A1 (en) * | 2018-03-26 | 2019-10-03 | Colorado State University Research Foundation | Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules |
EP3803881A1 (en) * | 2018-05-31 | 2021-04-14 | Koninklijke Philips N.V. | System and method for allele interpretation using a graph-based reference genome |
CN108753765B (zh) * | 2018-06-08 | 2020-12-08 | 中国科学院遗传与发育生物学研究所 | 一种构建超长连续dna序列的基因组组装方法 |
US11474978B2 (en) * | 2018-07-06 | 2022-10-18 | Capital One Services, Llc | Systems and methods for a data search engine based on data profiles |
US20200058379A1 (en) * | 2018-08-20 | 2020-02-20 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Compressing Genetic Sequencing Data and Uses Thereof |
GB2585816A (en) * | 2018-12-12 | 2021-01-27 | Univ York | Proof-of-work for blockchain applications |
US20210074381A1 (en) * | 2019-09-11 | 2021-03-11 | Enancio | Method for the compression of genome sequence data |
CN110797087B (zh) * | 2019-10-17 | 2020-11-03 | 南京医基云医疗数据研究院有限公司 | 测序序列处理方法及装置、存储介质、电子设备 |
WO2021074440A1 (en) * | 2019-10-18 | 2021-04-22 | Koninklijke Philips N.V. | System and method for effective compression, representation and decompression of diverse tabulated data |
CN111243663B (zh) * | 2020-02-26 | 2022-06-07 | 西安交通大学 | 一种基于模式增长算法的基因变异检测方法 |
CN111370070B (zh) * | 2020-02-27 | 2023-10-27 | 中国科学院计算技术研究所 | 一种针对大数据基因测序文件的压缩处理方法 |
US12006539B2 (en) | 2020-03-17 | 2024-06-11 | Western Digital Technologies, Inc. | Reference-guided genome sequencing |
US12014802B2 (en) | 2020-03-17 | 2024-06-18 | Western Digital Technologies, Inc. | Devices and methods for locating a sample read in a reference genome |
US11837330B2 (en) | 2020-03-18 | 2023-12-05 | Western Digital Technologies, Inc. | Reference-guided genome sequencing |
EP3896698A1 (en) * | 2020-04-15 | 2021-10-20 | Genomsys SA | Method and system for the efficient data compression in mpeg-g |
CN111459208A (zh) * | 2020-04-17 | 2020-07-28 | 南京铁道职业技术学院 | 针对地铁供电***电能的操纵***及其方法 |
BR112022024813A2 (pt) * | 2020-09-14 | 2023-03-28 | Illumina Inc | Arquivos de dados personalizados para medicina personalizada |
CN112836355B (zh) * | 2021-01-14 | 2023-04-18 | 西安科技大学 | 一种预测采煤工作面顶板来压概率的方法 |
ES2930699A1 (es) * | 2021-06-10 | 2022-12-20 | Veritas Intercontinental S L | Metodo de analisis genomico en una plataforma bioinformatica |
CN113670643B (zh) * | 2021-08-30 | 2023-05-12 | 四川虹美智能科技有限公司 | 智能空调测试方法及*** |
CN113643761B (zh) * | 2021-10-13 | 2022-01-18 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
WO2023114415A2 (en) * | 2021-12-15 | 2023-06-22 | Illumina Software, Inc. | Systems and methods for iterative and scalable population-scale variant analysis |
CN115391284B (zh) * | 2022-10-31 | 2023-02-03 | 四川大学华西医院 | 基因数据文件快速识别方法、***和计算机可读存储介质 |
CN116541348B (zh) * | 2023-03-22 | 2023-09-26 | 河北热点科技股份有限公司 | 数据智能存储方法及终端查询一体机 |
CN116739646B (zh) * | 2023-08-15 | 2023-11-24 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析*** |
CN117153270B (zh) * | 2023-10-30 | 2024-02-02 | 吉林华瑞基因科技有限公司 | 一种基因二代测序数据处理方法 |
CN117708755B (zh) * | 2023-12-17 | 2024-06-21 | 重庆文理学院 | 基于生态环境的数据处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204851A1 (en) * | 2011-12-05 | 2013-08-08 | Samsung Electronics Co., Ltd. | Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (ngs) |
JP2014191670A (ja) * | 2013-03-28 | 2014-10-06 | Mitsubishi Space Software Co Ltd | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
WO2014186604A1 (en) * | 2013-05-15 | 2014-11-20 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6303297B1 (en) * | 1992-07-17 | 2001-10-16 | Incyte Pharmaceuticals, Inc. | Database for storage and analysis of full-length sequences |
JP3429674B2 (ja) | 1998-04-28 | 2003-07-22 | 沖電気工業株式会社 | 多重通信システム |
JP2004524801A (ja) * | 2000-04-12 | 2004-08-19 | ザ クリーブランド クリニック ファウンデーション | Are含有遺伝子の発現を同定および分析するための方法 |
FR2820563B1 (fr) * | 2001-02-02 | 2003-05-16 | Expway | Procede de compression/decompression d'un document structure |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
DE10320711A1 (de) * | 2003-05-08 | 2004-12-16 | Siemens Ag | Verfahren und Anordnung zur Einrichtung und Aktualisierung einer Benutzeroberfläche zum Zugriff auf Informationsseiten in einem Datennetz |
WO2005024562A2 (en) * | 2003-08-11 | 2005-03-17 | Eloret Corporation | System and method for pattern recognition in sequential data |
US7805282B2 (en) * | 2004-03-30 | 2010-09-28 | New York University | Process, software arrangement and computer-accessible medium for obtaining information associated with a haplotype |
WO2006052242A1 (en) * | 2004-11-08 | 2006-05-18 | Seirad, Inc. | Methods and systems for compressing and comparing genomic data |
US20130332133A1 (en) * | 2006-05-11 | 2013-12-12 | Ramot At Tel Aviv University Ltd. | Classification of Protein Sequences and Uses of Classified Proteins |
SE531398C2 (sv) | 2007-02-16 | 2009-03-24 | Scalado Ab | Generering av en dataström och identifiering av positioner inuti en dataström |
KR101369745B1 (ko) * | 2007-04-11 | 2014-03-07 | 삼성전자주식회사 | 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치 |
US8832112B2 (en) * | 2008-06-17 | 2014-09-09 | International Business Machines Corporation | Encoded matrix index |
US20110264377A1 (en) * | 2008-11-14 | 2011-10-27 | John Gerald Cleary | Method and system for analysing data sequences |
US20100217532A1 (en) * | 2009-02-25 | 2010-08-26 | University Of Delaware | Systems and methods for identifying structurally or functionally significant amino acid sequences |
MX2012005069A (es) * | 2009-10-30 | 2012-07-17 | Synthetic Genomics Inc | Codificar texto hacia secuencias de acido nucleico. |
EP2362657B1 (en) * | 2010-02-18 | 2013-04-24 | Research In Motion Limited | Parallel entropy coding and decoding methods and devices |
WO2011143231A2 (en) * | 2010-05-10 | 2011-11-17 | The Broad Institute | High throughput paired-end sequencing of large-insert clone libraries |
KR102218512B1 (ko) * | 2010-05-25 | 2021-02-19 | 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 | Bambam:고처리율 서열분석 데이터의 병렬 비교 분석 |
RU2013138422A (ru) * | 2011-01-19 | 2015-02-27 | Конинклейке Филипс Электроникс Н.В. | Способ обработки геномных данных |
US20120236861A1 (en) * | 2011-03-09 | 2012-09-20 | Annai Systems, Inc. | Biological data networks and methods therefor |
WO2012168815A2 (en) * | 2011-06-06 | 2012-12-13 | Koninklijke Philips Electronics N.V. | Method for assembly of nucleic acid sequence data |
CN107529708B (zh) * | 2011-06-16 | 2019-05-07 | Ge视频压缩有限责任公司 | 解码器、编码器、解码和编码视频的方法及存储介质 |
US8707289B2 (en) * | 2011-07-20 | 2014-04-22 | Google Inc. | Multiple application versions |
EP2764692B1 (en) * | 2011-10-06 | 2020-08-26 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Entropy coding buffer arrangement |
CN104094266A (zh) * | 2011-11-07 | 2014-10-08 | 独创***公司 | 用于识别原因性基因组变体的方法和*** |
CA2858686C (en) * | 2011-12-08 | 2018-10-02 | Five3 Genomics, Llc | Distributed system providing dynamic indexing and visualization of genomic data |
EP2608096B1 (en) * | 2011-12-24 | 2020-08-05 | Tata Consultancy Services Ltd. | Compression of genomic data file |
US9600625B2 (en) * | 2012-04-23 | 2017-03-21 | Bina Technologies, Inc. | Systems and methods for processing nucleic acid sequence data |
CN103049680B (zh) * | 2012-12-29 | 2016-09-07 | 深圳先进技术研究院 | 基因测序数据读取方法及*** |
US9679104B2 (en) * | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
WO2014145503A2 (en) * | 2013-03-15 | 2014-09-18 | Lieber Institute For Brain Development | Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto |
GB2512829B (en) * | 2013-04-05 | 2015-05-27 | Canon Kk | Method and apparatus for encoding or decoding an image with inter layer motion information prediction according to motion information compression scheme |
KR101522087B1 (ko) * | 2013-06-19 | 2015-05-28 | 삼성에스디에스 주식회사 | 미스매치를 고려한 염기 서열 정렬 시스템 및 방법 |
CN103336916B (zh) * | 2013-07-05 | 2016-04-06 | 中国科学院数学与***科学研究院 | 一种测序序列映射方法及*** |
US20150032711A1 (en) * | 2013-07-06 | 2015-01-29 | Victor Kunin | Methods for identification of organisms, assigning reads to organisms, and identification of genes in metagenomic sequences |
KR101493982B1 (ko) * | 2013-09-26 | 2015-02-23 | 대한민국 | 품종인식 코드화 시스템 및 이를 이용한 코드화 방법 |
CN104699998A (zh) * | 2013-12-06 | 2015-06-10 | 国际商业机器公司 | 用于对基因组进行压缩和解压缩的方法和装置 |
US10902937B2 (en) * | 2014-02-12 | 2021-01-26 | International Business Machines Corporation | Lossless compression of DNA sequences |
US9916313B2 (en) * | 2014-02-14 | 2018-03-13 | Sap Se | Mapping of extensible datasets to relational database schemas |
US9886561B2 (en) * | 2014-02-19 | 2018-02-06 | The Regents Of The University Of California | Efficient encoding and storage and retrieval of genomic data |
US9354922B2 (en) | 2014-04-02 | 2016-05-31 | International Business Machines Corporation | Metadata-driven workflows and integration with genomic data processing systems and techniques |
US20150379195A1 (en) * | 2014-06-25 | 2015-12-31 | The Board Of Trustees Of The Leland Stanford Junior University | Software haplotying of hla loci |
GB2527588B (en) * | 2014-06-27 | 2016-05-18 | Gurulogic Microsystems Oy | Encoder and decoder |
US20160019339A1 (en) * | 2014-07-06 | 2016-01-21 | Mercator BioLogic Incorporated | Bioinformatics tools, systems and methods for sequence assembly |
US10230390B2 (en) * | 2014-08-29 | 2019-03-12 | Bonnie Berger Leighton | Compressively-accelerated read mapping framework for next-generation sequencing |
US10116632B2 (en) * | 2014-09-12 | 2018-10-30 | New York University | System, method and computer-accessible medium for secure and compressed transmission of genomic data |
US20160125130A1 (en) * | 2014-11-05 | 2016-05-05 | Agilent Technologies, Inc. | Method for assigning target-enriched sequence reads to a genomic location |
EP3311318B1 (en) * | 2015-06-16 | 2023-09-27 | Gottfried Wilhelm Leibniz Universität Hannover | Method for compressing genomic data |
CN105956417A (zh) * | 2016-05-04 | 2016-09-21 | 西安电子科技大学 | 云环境下基于编辑距离的相似碱基序列查询方法 |
CN105975811B (zh) * | 2016-05-09 | 2019-03-15 | 管仁初 | 一种智能比对的基因序列分析装置 |
-
2017
- 2017-02-14 BR BR112019007359A patent/BR112019007359A2/pt not_active IP Right Cessation
- 2017-02-14 CN CN201780062919.5A patent/CN110168651A/zh active Pending
- 2017-02-14 JP JP2019540510A patent/JP2020505702A/ja not_active Withdrawn
- 2017-02-14 CA CA3040138A patent/CA3040138A1/en not_active Abandoned
- 2017-02-14 WO PCT/US2017/017842 patent/WO2018071055A1/en active Application Filing
- 2017-02-14 SG SG11201903270RA patent/SG11201903270RA/en unknown
- 2017-02-14 US US16/341,426 patent/US20200042735A1/en not_active Abandoned
- 2017-02-14 MX MX2019004130A patent/MX2019004130A/es unknown
- 2017-02-14 WO PCT/US2017/017841 patent/WO2018071054A1/en active Search and Examination
- 2017-02-14 EP EP17859972.6A patent/EP3526694A4/en not_active Withdrawn
- 2017-02-14 KR KR1020197013567A patent/KR20190073426A/ko unknown
- 2017-02-14 AU AU2017342688A patent/AU2017342688A1/en not_active Abandoned
- 2017-02-14 PE PE2019000804A patent/PE20191058A1/es unknown
- 2017-07-11 SG SG11201903272XA patent/SG11201903272XA/en unknown
- 2017-07-11 MX MX2019004128A patent/MX2019004128A/es unknown
- 2017-07-11 PE PE2019000805A patent/PE20191227A1/es unknown
- 2017-07-11 CA CA3040147A patent/CA3040147A1/en not_active Abandoned
- 2017-07-11 AU AU2017341684A patent/AU2017341684A1/en not_active Abandoned
- 2017-07-11 US US16/337,642 patent/US11404143B2/en active Active
- 2017-07-11 IL IL265879A patent/IL265879B2/en unknown
- 2017-07-11 KR KR1020197013419A patent/KR20190069469A/ko not_active Application Discontinuation
- 2017-07-11 EP EP17860868.3A patent/EP3526707A4/en not_active Withdrawn
- 2017-07-11 JP JP2019540513A patent/JP2020500383A/ja not_active Withdrawn
- 2017-07-11 CA CA3040145A patent/CA3040145A1/en not_active Abandoned
- 2017-07-11 KR KR1020197013418A patent/KR20190062541A/ko active Search and Examination
- 2017-07-11 PE PE2019000802A patent/PE20191056A1/es unknown
- 2017-07-11 SG SG11201903271UA patent/SG11201903271UA/en unknown
- 2017-07-11 JP JP2019540511A patent/JP7079786B2/ja active Active
- 2017-07-11 BR BR112019007360A patent/BR112019007360A2/pt not_active Application Discontinuation
- 2017-07-11 WO PCT/US2017/041591 patent/WO2018071080A2/en unknown
- 2017-07-11 EA EA201990916A patent/EA201990916A1/ru unknown
- 2017-07-11 EP EP17860980.6A patent/EP3526657A4/en active Pending
- 2017-07-11 CN CN201780062885.XA patent/CN110114830B/zh active Active
- 2017-07-11 CN CN201780063013.5A patent/CN110506272B/zh active Active
- 2017-07-11 AU AU2017341685A patent/AU2017341685A1/en not_active Abandoned
- 2017-07-11 US US16/337,639 patent/US20190214111A1/en not_active Abandoned
- 2017-07-11 WO PCT/US2017/041585 patent/WO2018071079A1/en active Search and Examination
- 2017-07-11 CN CN201780063014.XA patent/CN110121577B/zh active Active
- 2017-07-11 JP JP2019540512A patent/JP2019537172A/ja not_active Withdrawn
- 2017-07-11 BR BR112019007363A patent/BR112019007363A2/pt not_active Application Discontinuation
- 2017-07-11 BR BR112019007357A patent/BR112019007357A2/pt not_active Application Discontinuation
- 2017-07-11 EA EA201990917A patent/EA201990917A1/ru unknown
- 2017-07-11 PE PE2019000803A patent/PE20191057A1/es unknown
- 2017-12-14 PE PE2019001667A patent/PE20200323A1/es unknown
- 2017-12-14 US US16/485,623 patent/US20190385702A1/en active Pending
- 2017-12-14 BR BR112019016230A patent/BR112019016230A2/pt not_active Application Discontinuation
- 2017-12-14 CN CN201780086529.1A patent/CN110603595B/zh active Active
- 2017-12-14 KR KR1020197026863A patent/KR20190117652A/ko not_active Application Discontinuation
- 2017-12-15 CN CN201780086770.4A patent/CN110678929B/zh active Active
- 2017-12-15 US US16/485,649 patent/US20200051667A1/en active Pending
- 2017-12-15 BR BR112019016232A patent/BR112019016232A2/pt not_active Application Discontinuation
- 2017-12-15 PE PE2019001669A patent/PE20200226A1/es unknown
-
2018
- 2018-02-14 PE PE2019001668A patent/PE20200227A1/es unknown
- 2018-02-14 US US16/485,670 patent/US20200051665A1/en active Pending
- 2018-02-14 BR BR112019016236A patent/BR112019016236A2/pt unknown
-
2019
- 2019-04-08 IL IL265928A patent/IL265928B/en active IP Right Grant
- 2019-04-10 CL CL2019000968A patent/CL2019000968A1/es unknown
- 2019-04-10 CL CL2019000972A patent/CL2019000972A1/es unknown
- 2019-04-10 CL CL2019000973A patent/CL2019000973A1/es unknown
- 2019-04-11 CO CONC2019/0003595A patent/CO2019003595A2/es unknown
- 2019-04-11 IL IL265972A patent/IL265972A/en unknown
- 2019-04-11 PH PH12019550060A patent/PH12019550060A1/en unknown
- 2019-04-11 CO CONC2019/0003639A patent/CO2019003639A2/es unknown
- 2019-04-11 PH PH12019550057A patent/PH12019550057A1/en unknown
- 2019-04-11 PH PH12019550059A patent/PH12019550059A1/en unknown
- 2019-04-11 CO CONC2019/0003638A patent/CO2019003638A2/es unknown
- 2019-04-11 PH PH12019550058A patent/PH12019550058A1/en unknown
- 2019-04-15 CO CONC2019/0003842A patent/CO2019003842A2/es unknown
- 2019-08-12 CL CL2019002275A patent/CL2019002275A1/es unknown
- 2019-08-12 CL CL2019002276A patent/CL2019002276A1/es unknown
- 2019-08-12 CL CL2019002277A patent/CL2019002277A1/es unknown
- 2019-08-13 PH PH12019501881A patent/PH12019501881A1/en unknown
- 2019-08-13 PH PH12019501879A patent/PH12019501879A1/en unknown
- 2019-09-12 CO CONC2019/0009920A patent/CO2019009920A2/es unknown
- 2019-09-12 CO CONC2019/0009922A patent/CO2019009922A2/es unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204851A1 (en) * | 2011-12-05 | 2013-08-08 | Samsung Electronics Co., Ltd. | Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (ngs) |
JP2014191670A (ja) * | 2013-03-28 | 2014-10-06 | Mitsubishi Space Software Co Ltd | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
WO2014186604A1 (en) * | 2013-05-15 | 2014-11-20 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
Non-Patent Citations (3)
Title |
---|
CRAM FORMAT SPECIFICATION(VERSION 2.1), JPN6021039280, 14 April 2014 (2014-04-14), ISSN: 0004608547 * |
HAMDY M. MOUSA: "DNA-Genetic Encryption Technique", I.J.COMPUTER NETWORK AND INFORMATION SECURITY, JPN6021039279, 1 July 2016 (2016-07-01), ISSN: 0004608548 * |
IDOIA OCHOA, ET AL.: "Aligned genomic data compression via improved modeling", JOURNAL OF BIOINFORMATICS AND COMPUTATIONAL BIOLOGY, vol. 12, no. 6, JPN6021039281, 13 November 2014 (2014-11-13), ISSN: 0004608546 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7079786B2 (ja) | アクセスユニットに構造化されたバイオインフォマティクスデータにアクセスするための方法、コンピュータ可読媒体、および装置 | |
KR102421458B1 (ko) | 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치 | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
CN110168652B (zh) | 用于存储和访问生物信息学数据的方法和*** | |
JP7362481B2 (ja) | ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 | |
KR20190113971A (ko) | 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치 | |
CN110178183B (zh) | 用于传输生物信息学数据的方法和*** | |
WO2018071078A1 (en) | Method and apparatus for the access to bioinformatics data structured in access units | |
CN110663022B (zh) | 使用基因组描述符紧凑表示生物信息学数据的方法和设备 | |
NZ757185B2 (en) | Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors | |
EA043338B1 (ru) | Способ и устройство для компактного представления биоинформационных данных с помощью нескольких геномных дескрипторов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200710 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7079786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |