RU2021118824A - Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки - Google Patents

Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки Download PDF

Info

Publication number
RU2021118824A
RU2021118824A RU2021118824A RU2021118824A RU2021118824A RU 2021118824 A RU2021118824 A RU 2021118824A RU 2021118824 A RU2021118824 A RU 2021118824A RU 2021118824 A RU2021118824 A RU 2021118824A RU 2021118824 A RU2021118824 A RU 2021118824A
Authority
RU
Russia
Prior art keywords
candidate
computers
variants
joint
accumulation
Prior art date
Application number
RU2021118824A
Other languages
English (en)
Other versions
RU2799750C2 (ru
RU2799750C9 (ru
Inventor
Питер ВАН РОЙН
Майкл РЮЛЕ
Рами МЕХЬО
Гэвин СТОУН
Марк ХАМ
Эрик ОДЖАРД
Амнон ПТАШЕК
Original Assignee
Иллюмина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/404,146 external-priority patent/US10847251B2/en
Priority claimed from US15/497,149 external-priority patent/US10068183B1/en
Application filed by Иллюмина, Инк. filed Critical Иллюмина, Инк.
Publication of RU2021118824A publication Critical patent/RU2021118824A/ru
Publication of RU2799750C2 publication Critical patent/RU2799750C2/ru
Application granted granted Critical
Publication of RU2799750C9 publication Critical patent/RU2799750C9/ru

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Claims (64)

1. Способ улучшения точности определения вариантов посредством совместной оценки ридов, которые картируют две или более областей референсной последовательности, которые являются гомологичными, причем способ включает:
обращение посредством одного или более компьютеров к совместному скоплению множества ридов последовательности, причем совместное скопление содержит первое скопление ридов, выровненное с первой областью референсной последовательности, и по меньшей мере второе скопление ридов, выровненное со второй областью референсной последовательности, при этом первая область и вторая область гомологичны друг другу;
определение посредством одного или более компьютеров набора вариантов-кандидатов из совместного скопления;
установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов;
оценку посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки; и
формирование посредством одного или более компьютеров и на основе оценки вариантов-кандидатов файла определения вариантов, идентифицирующего один или более вариантов-кандидатов.
2. Способ по п. 1, включающий: получение множества гомологичных областей референсной последовательности от одного или более запоминающих устройств.
3. Способ по п. 1, согласно которому определение набора вариантов-кандидатов с использованием совместного скопления включает:
использование графа де Брейна для выделения вариантов-кандидатов из совместного скопления.
4. Способ по п. 3, согласно которому узлы в указанном графе представляют список кандидатов, причем использование графа де Брейна включает формирование графа де Брейна с использованием каждой области указанной референсной последовательности в качестве остова и выравнивание каждой позиции варианта-кандидата по универсальным координатам.
5. Способ по п. 1, согласно которому установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов включает:
установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов как функции длины рида или размера инсерции.
6. Способ по п. 5, согласно которому установление порядка обработки вариантов-кандидатов как функции длины рида или размера инсерции включает:
формирование матрицы связности, устанавливающей порядок обработки вариантов-кандидатов как функции длины рида и размера инсерции.
7. Способ по п. 1, согласно которому оценка посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки включает:
для каждого варианта-кандидата из набора вариантов-кандидатов:
формирование совместных диплотипов-кандидатов,
расчет апостериорной вероятности каждого совместного диплотипа,
вычисление матрицы генотипа,
обрезание совместных диплотипов-кандидатов и
включение следующей активной позиции в качестве подтверждающих данных для текущей позиции.
8. Система для улучшения точности определения вариантов посредством совместной оценки ридов, которые картируют две или более областей референсной последовательности, которые являются гомологичными, причем система содержит:
один или более компьютеров и одно или более устройств хранения, хранящих инструкции, выполненные с возможностью инициирования, при выполнении одним или более компьютерами, выполнения одним или более компьютерами операций, включающих:
обращение посредством одного или более компьютеров к совместному скоплению множества ридов последовательности, причем совместное скопление содержит первое скопление ридов, выровненное с первой областью референсной последовательности, и по меньшей мере второе скопление ридов, выровненное со второй областью референсной последовательности, при этом первая область и вторая область гомологичны друг другу;
определение посредством одного или более компьютеров набора вариантов-кандидатов из совместного скопления;
установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов;
оценку посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки; и
формирование посредством одного или более компьютеров и на основе оценки вариантов-кандидатов файла определения вариантов, идентифицирующего один или более вариантов-кандидатов.
9. Система по п. 8, в которой операции также включают:
получение множества гомологичных областей референсной последовательности от одного или более запоминающих устройств.
10. Система по п. 8, в которой определение набора вариантов-кандидатов с использованием совместного скопления включает:
использование графа де Брейна для выделения вариантов-кандидатов из совместного скопления.
11. Система по п. 10, в которой узлы в указанном графе представляют список кандидатов, причем использование графа де Брейна включает формирование графа де Брейна с использованием каждой области указанной референсной последовательности в качестве остова и выравнивание каждой позиции варианта-кандидата по универсальным координатам.
12. Система по п. 8, в которой установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов включает:
установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов как функции длины рида или размера инсерции.
13. Система по п. 12, в которой установление порядка обработки вариантов-кандидатов как функции длины рида или размера инсерции включает:
формирование матрицы связности, устанавливающей порядок обработки вариантов-кандидатов как функции длины рида и размера инсерции.
14. Система по п. 8, в которой оценка посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки включает:
для каждого варианта-кандидата из набора вариантов-кандидатов:
формирование совместных диплотипов-кандидатов,
расчет апостериорной вероятности каждого совместного диплотипа,
вычисление матрицы генотипа,
обрезание совместных диплотипов-кандидатов и
включение следующей активной позиции в качестве подтверждающих данных для текущей позиции.
15. Машиночитаемое устройство хранения, на котором сохранены инструкции, которые, при выполнении устройством обработки данных, инициируют выполнение устройством обработки данных операций для улучшения точности определения вариантов посредством совместной оценки ридов, которые картируют две или более областей референсной последовательности, которые являются гомологичными, причем операции включают:
обращение посредством одного или более компьютеров к совместному скоплению множества ридов последовательности, причем совместное скопление содержит первое скопление ридов, выровненное с первой областью референсной последовательности, и по меньшей мере второе скопление ридов, выровненное со второй областью референсной последовательности, при этом первая область и вторая область гомологичны друг другу;
определение посредством одного или более компьютеров набора вариантов-кандидатов из совместного скопления;
установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов;
оценку посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки; и
формирование посредством одного или более компьютеров и на основе оценки вариантов-кандидатов файла определения вариантов, идентифицирующего один или более вариантов-кандидатов.
16. Машиночитаемое устройство хранения по п. 15, в котором операции также включают:
получение множества гомологичных областей референсной последовательности от одного или более запоминающих устройств.
17. Машиночитаемое устройство хранения по п. 15, в котором определение набора вариантов-кандидатов с использованием совместного скопления включает:
использование графа де Брейна для выделения вариантов-кандидатов из совместного скопления.
18. Машиночитаемое устройство хранения по п. 17, в котором узлы в указанном графе представляют список кандидатов, причем использование графа де Брейна включает формирование графа де Брейна с использованием каждой области указанной референсной последовательности в качестве остова и выравнивание каждой позиции варианта-кандидата по универсальным координатам.
19. Машиночитаемое устройство хранения по п. 15, в котором установление посредством одного или более компьютеров порядка обработки вариантов-кандидатов включает:
формирование матрицы связности, устанавливающей порядок обработки вариантов-кандидатов как функции длины рида и размера инсерции.
20. Машиночитаемое устройство хранения по п. 15, в котором оценка посредством одного или более компьютеров каждого варианта-кандидата из набора вариантов-кандидатов на основе установленного порядка обработки включает:
для каждого варианта-кандидата из набора вариантов-кандидатов:
формирование совместных диплотипов-кандидатов,
расчет апостериорной вероятности каждого совместного диплотипа,
вычисление матрицы генотипа,
обрезание совместных диплотипов-кандидатов и
включение следующей активной позиции в качестве подтверждающих данных для текущей позиции.
RU2021118824A 2016-06-07 2017-06-07 Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки RU2799750C9 (ru)

Applications Claiming Priority (14)

Application Number Priority Date Filing Date Title
US201662347080P 2016-06-07 2016-06-07
US62/347,080 2016-06-07
US201662399582P 2016-09-26 2016-09-26
US62/399,582 2016-09-26
US201662414637P 2016-10-28 2016-10-28
US62/414,637 2016-10-28
US15/404,146 US10847251B2 (en) 2013-01-17 2017-01-11 Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US15/404,146 2017-01-11
US201762462869P 2017-02-23 2017-02-23
US62/462,869 2017-02-23
US201762469442P 2017-03-09 2017-03-09
US62/469,442 2017-03-09
US15/497,149 US10068183B1 (en) 2017-02-23 2017-04-25 Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
US15/497,149 2017-04-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2018140888A Division RU2750706C2 (ru) 2016-06-07 2017-06-07 Биоинформационные системы,устройства и способы выполнения вторичной и/или третичной обработки

Publications (3)

Publication Number Publication Date
RU2021118824A true RU2021118824A (ru) 2021-11-12
RU2799750C2 RU2799750C2 (ru) 2023-07-11
RU2799750C9 RU2799750C9 (ru) 2023-09-07

Family

ID=

Also Published As

Publication number Publication date
CN109416928B (zh) 2024-02-06
KR20240025702A (ko) 2024-02-27
CA3026644A1 (en) 2017-12-14
EP3465507B1 (en) 2021-09-15
RU2018140888A (ru) 2020-07-09
SG10201913534QA (en) 2020-03-30
SG11201810734YA (en) 2018-12-28
RU2018140888A3 (ru) 2020-10-21
KR20190015368A (ko) 2019-02-13
KR20220146679A (ko) 2022-11-01
RU2750706C2 (ru) 2021-07-01
KR102457669B1 (ko) 2022-10-20
JP7046840B2 (ja) 2022-04-04
AU2022252718A1 (en) 2022-11-03
EP4362030A2 (en) 2024-05-01
BR112018075407A2 (pt) 2019-03-19
AU2017277636B2 (en) 2022-07-14
JP2022084818A (ja) 2022-06-07
KR102638677B1 (ko) 2024-02-19
MX2018014579A (es) 2019-05-20
EP3982368A1 (en) 2022-04-13
CN118016151A (zh) 2024-05-10
JP7451587B2 (ja) 2024-03-18
CN109416928A (zh) 2019-03-01
JP2019521434A (ja) 2019-07-25
EP3465507A1 (en) 2019-04-10
AU2017277636A1 (en) 2018-12-13
EP3982368B1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
US20170109602A1 (en) Ocr-based system and method for recognizing map image, recording medium and file distribution system
US8861506B2 (en) Shortest path determination for large graphs
EP4375952A3 (en) Systems and methods for reducing data density in large datasets
BR112015023039A2 (pt) sistemas e métodos para o ranking potenciais participaram locais de entrega / captador
US11954148B2 (en) Matching audio fingerprints
EA202091986A8 (ru) Способ поиска или сравнения точек с использованием маршрутов в транспортной системе
RU2015153051A (ru) Высокоэффективное обнаружение плоскостей с помощью данных камеры глубины
MX2018014457A (es) Determinacion de rutas y navegacion basada en regiones de mapa de multiples versiones.
US10883835B2 (en) Map error detection system, map error detection method, and program
US20160161272A1 (en) Route information processing apparatus and route information processing method
CN105808609A (zh) 一种信息点数据冗余的判别方法和设备
US9141677B2 (en) Apparatus and method for arranging query
RU2014113049A (ru) Процессор изображений, содержащий систему распознавания жестов со слежением за объектом на основании вычислительных признаков контуров для двух или более объектов
CN105203120B (zh) 导航路线评测方法及装置
RU2016143736A (ru) Определение радиуса погрешности местоположения
BR112019000310A2 (pt) arbitragem de pedido de memória
JP5601277B2 (ja) 情報処理装置、情報処理システムおよび検索方法
JP6136702B2 (ja) 場所推定方法、場所推定装置および場所推定プログラム
RU2015123449A (ru) Способ и аппаратура и терминальное устройство выбора символов
AU2018289385A1 (en) Methods for accurate computational decomposition of DNA mixtures from contributors of unknown genotypes
EP4300501A3 (en) Methods of sequencing data read realignment
CN106326258B (zh) Url匹配方法及装置
RU2021118824A (ru) Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки
RU2014111792A (ru) Процессор изображений, содержащий систему распознавания лиц на основании преобразования двухмерной решетки
RU2014108239A (ru) Способ обработки изображения, способ создания индекса изображения, способ обнаружения соответствия изображению из хранилища изображений и сервер (варианты)