CN104246689B - 提供基因组数据的动态索引和可视化的分布式*** - Google Patents

提供基因组数据的动态索引和可视化的分布式*** Download PDF

Info

Publication number
CN104246689B
CN104246689B CN201280068298.9A CN201280068298A CN104246689B CN 104246689 B CN104246689 B CN 104246689B CN 201280068298 A CN201280068298 A CN 201280068298A CN 104246689 B CN104246689 B CN 104246689B
Authority
CN
China
Prior art keywords
genomic
data
sequence
scale
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280068298.9A
Other languages
English (en)
Other versions
CN104246689A (zh
Inventor
C·J·瓦斯克
J·Z·桑伯恩
S·本茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Five3 Genomics LLC
Original Assignee
Five3 Genomics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Five3 Genomics LLC filed Critical Five3 Genomics LLC
Publication of CN104246689A publication Critical patent/CN104246689A/zh
Application granted granted Critical
Publication of CN104246689B publication Critical patent/CN104246689B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/37Details of the operation on graphic patterns
    • G09G5/373Details of the operation on graphic patterns for modifying the size of the graphic pattern
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/045Zooming at least part of an image, i.e. enlarging it or shrinking it
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了用于基因组数据的动态可视化的***和方法,其中基因组可视化***根据序列对象内的标度相关注释来适应信息内容的呈现。

Description

提供基因组数据的动态索引和可视化的分布式***
本申请要求递交于2011年12月8日的序号为61/568478的美国临时专利申请的权益。该文献以及本文中所论述的所有其他外来材料的全部内容通过引用合并于此。
技术领域
本发明的领域是计算基因学,其尤其涉及复杂基因信息的动态图形表征。
背景技术
下面的说明包括了可用于理解本发明的信息。这并不承认,在本文中提供的任何信息是现有技术或与当前主张的发明相关,或者具体地或隐含地引用的任何公开物是现有技术。
随着整个基因组数据集的高吞吐量的测序和可用性的出现,测序速度不再是基因组分析的瓶颈,而是数据存储、检索和协调分析。与数据存储、检索和分析相关联的难题进一步与来自不同用户的对于显示信息的不同要求复合。从不同视角观看,基因组数据的信息稠密和选择性呈现对于利用当前可用的大量数据是至关重要的。
虽然现有技术已知多种基因组浏览器,但是所有已知的浏览器具有实质上的难题。例如,UCSC基因组浏览器(http://genome.ucsc.edu)以图形格式提供大量数据,然而,不能适应用户规定的信息密度作为独立于缩放水平的预先定义的显示。因此,此类浏览器不能最优地响应于所有缩放水平的请求。类似地,类似于NCBI的图形观看器(http://www.ncbi.nlm.nih.gov/nuccore/)也受限于一些预先定义的参数,因此不能使得进行内容的动态呈现和适应。
因此,即使本领域已知复杂基因组信息的显示的各种***和方法,仍存在多个缺陷。因此,仍需要提供用于复杂基因信息的图形表征、尤其是动态图形表征的改进的设备和方法。
发明概述
发明主题涉及用于基因组数据的动态可视化的方法和设备,其中基因组可视化***根据序列对象内的标度相关注释来适应信息内容的呈现。因此,能够实现适应性内容显示,显著减少数据分析和传递。
在发明主题的一个特别优选的方案中,构思了基因组可视化***,包括存储表征基因组区域的序列对象的索引基因组数据库。最典型地,序列对象包括多个标度相关注释。定标引擎与索引基因组数据存储设备耦合且配置为(a)调节作为用户选定缩放水平的函数的从序列对象的标度相关注释获得的标度相关信息,(b)基于缩放水平动态地生成表征标度相关信息的基因组显示对象,以及(c)配置输出设备以将基因组显示对象呈现给用户。
虽然不限于该发明主题,通常优选的是序列对象具有SAM/BAM或BAMBAM格式,和/或基因组区域是全基因组、染色体、染色体片段或等位基因。
关于定标引擎,可构思的是一个或多个bam服务器和/或可视化服务器可作为定标引擎运行。此外,可构思的是,定标引擎可进一步配置成基于缩放水平通过下采样来调节标度相关信息(其中下采样可以是从缩放水平获得的数据密度的函数)。可替代地,或者另外地,可构思的是,定标引擎配置成确定缩放水平,任选地,根据缩放水平来概括序列对象的全数据集。在需要的情况下,定标引擎还可配置成从不同的序列对象中的标度相关注释的差别来获得标度相关信息。
在又一个构思的方案中,序列对象包括基准序列对象,其最优选地为原始序列数据、来自同类统计资料的序列数据、和或来自规定时间点的序列数据。可替代地,或者另外地,序列对象包括相对于基准基因组区域(例如,来自同类统计资料的基准基因组区域或具体时间点的基准区域)的差分序列对象。类似地,标度相关注释可以大幅地变化并且将优选地包括基因组结构信息(例如,染色体标识、染色体内的位置、等位基因等)、基因组变化信息(例如、突变、易位、倒位、删除、重复和拷贝数)、疾病信息(例如,疾病类型、疾病状况以及疾病的处理选项)、基因相关信息(例如,原始序列数据或处理后的序列数据、基因标识、关于基因调控的信息、和基因与疾病的关联的信息)、相对于基准序列的差别信息、和/或元数据(例如,患者标识、设施标识、医师标识和保险信息)。
虽然不限于该发明主题,通常优选的是,基因组可视化***还包括基因组图形库,其存储表征标度相关注释的图形对象。在此类***中,特别优选的是定标引擎根据缩放水平将标度相关信息映射到来自图形库的图形对象,并且基因组显示对象包括映射的图形对象。关于适合的输出设备,通常优选的是显示器、浏览器、打印机、3D打印机、和/或扬声器。
本发明主题的各个目的、特征、方案和优点将从下面连同其中相似标记表示相似部件的附图的图一起对优选实施方案的详细描述中变得更加清晰。
附图说明
图1提供了分布式基因组可视化环境的概览。
图2示出了包括可视化定标引擎的可能的基因组可视化***。
图3是在碱基缩放水平下的示例性的显示图。
图4是在次千碱基缩放水平下图3的示例性的显示图。
图5是在千碱基缩放水平下图4的示例性的显示图。
图6是在染色体缩放水平下图5的示例性的显示图。
发明详述
发明主题涉及用于基因组数据的动态可视化的设备和方法。构思的***和方法使得在减少数据集聚和拥塞的同时能够进行富集信息内容的选择性的和可定标的显示。
值得注意的是,虽然下面的说明涉及基于计算机/服务器的基因组可视化***,但是各种可替代的构造也视为适合并且可采用各种计算设备,包括服务器、接口、***、数据库、代理程序、同级、引擎、控制器或其他类型的单独地或统一地操作的计算设备。应当理解的是,计算设备包括处理器,处理器配置成执行存储在有形的、非暂态的计算机可读存储介质(例如,硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令优选地将计算设备配置成提供如下文中结合所公开的装置论述的作用、职责或其他功能。在特别优选的实施方案中,各种服务器、***、数据库、或接口利用标准化的协议或算法来交换数据,可能基于HTTP、HTTPS、AES、公私密钥交换、网页服务API、已知的金融交易协议、或其他电子信息交换方法。数据交换优选地在分组交换网络、因特网、LAN、WAN、VPN或其他类型的分组交换网络上进行。
在下面的论述中,多次提到由计算设备形成的服务器、服务、接口、入口、平台或其他***。应当理解,这些术语的使用视为代表具有配置为执行存储在计算机可读有形、非暂态介质上的软件指令的至少一个处理器的一个或多个计算设备。例如,服务器能够包括以实现所描述的作用、职责或功能的方式作为网页服务器、数据库服务器或其他类型的计算机服务器而运行的一个或多个计算机。
如在本文的说明书以及随附的权利要求书中所使用的,除非上下文明确指出,否则“一”、“一个”和“所述”的含义包括复数个指代物。而且,如本文的说明书中使用的,除非上下文明确指出,否则“在…中”的含义包括“在…中”和“在…上”。
本文中数值范围的记述仅意在用作单独指代落在该范围内的各单独数值的速记法。除非上下文明确指出,否则各独立的数值合并到说明书中,就好像是在本文中单独记述一样。除非本文明确指出或者上下文明显相互矛盾,否则本文所描述的所有方法能够按任意适合的次序来执行。任意和所有的实施例或针对本文中的一些实施例提供的示例性语言(例如,“诸如”)的使用仅意在更好地阐述本发明,而不对权利要求的发明的范围进行限制。说明书中的语言不应解释为表示对本发明的实施至关重要的任何非权利要求的要素。
本文所公开的发明的可替代要素或实施方案的组合不应解释为限制。每个组成员能够单独或者以任意组合与本文中所记载的组的其它成员或其它要素提及以及主张。为了方便和/或可专利性的原因,组中的一个或多个成员可以保护在组中或者从组中删除。当发生了任何此类包含或删除时,说明书在此应视为包含了经修改从而符合在随附权利要求书中使用的所有马库什组的书面说明的组。虽然每个实施方案代表了发明要素的单一组合,但是发明主题应视为包含所公开的要素的所有可能的组合。因此,如果一个实施方案包括要素A、B和C,且第二实施方案包括要素B和D,则发明主题也视为包含A、B、C或D的其它的其余组合,即使未明确公开这些。
如在本文中使用的,除非上下文明确指出,否则术语“耦合到…”意在包含直接耦合(其中两个要素彼此耦合,彼此接触),以及间接耦合(其中至少一个附加要素位于两个要素之间)。因此,术语“耦合到…”和“与…耦合”同义使用。
构思的设备和方法组合了bam服务器和基因组可视化引擎的优势特征,bam服务器和基因组可视化引擎松弛耦合,从而允许与其它可替代的基因组动力引擎或其它基因组数据存储解决方案进行不重要的整合。另外,每个部件能够根据需要定标以适应多个bam服务器或多个可视化引擎,如在图1中示意性地和示例性地图示的。最优选地,每个服务器足够灵活以便独立地以及在每个服务器可以与其它服务器协调一些部分的分布式本质上保持独立的存储、确证和数据检索。而且,bam服务器和可视化引擎的对从大的数据源提供的数据动态定标的能力将有助于缓解未来数据格式和文件类型的数据大小的显著增加。
图2示出了能够以不同的观测尺度生成基因组信息的可视化显示的基因组可视化***200。***200包括索引基因组数据库220和定标引擎230。在一些实施方案中,***200还可以包括基因组图形库237或者甚至是设备250,可能作为***200提供的服务的客户端而运行。例如,设备250可以包括启用浏览器的计算设备(例如,蜂窝电话、平板式计算机、计算机等),保健提供者或患者能够通过其经由网络215来访问所关心的基因组信息。定标引擎230能够经由HTTP或其它适合的协议向用户的浏览器提供基因组信息的可视化显示。
通常可构思,基因组可视化***200将包括索引基因组数据库220,其存储表征基因组区域的一个或多个序列对象223,其中序列对象223包括多个标度相关注释225。定标引擎230与索引基因组数据库220耦合且配置成调节作为用户选定缩放水平252的函数的从序列对象223的标度相关注释225获得的标度相关信息233。定标引擎230随后将基于缩放水平252来动态地生成表征标度相关信息233的基因组显示对象235,并且将输出设备250配置成将基因组显示对象235呈现给用户。
如本文所使用的,术语“基因组区域”通常是指序列名称以及规定该序列内的闭合间距的起始和末尾坐标。实施例的基因组区域为:染色体1:1234-5678,其中染色体1规定来自人类基准基因组的染色体1的序列,1234是起始坐标,而5678是末尾坐标。然而,本领域普通技术人员易于理解的是,基因组区域的特定格式可在很大程度上变化,并且适合的格式将包括对如下的特定指代:染色***置和/或子位置、基因名称或功能、区域中基因的调控方面、区域中基因的染色质结构方面、序列长度等。因此,从不同的视角看,基因组区域可以是全基因组、染色体、染色体片断或等位基因。而且,值得注意的是,通过利用基因组区域之间的任何已知的定界器,单个请求中的多个基因组区域的指定是可能的。
因此,应当认识到,序列对象223可具有多种数据格式,并且所有已知的格式视为适用,只要这些格式也包括一个或多个标度相关注释即可。例如,构思的序列对象的特别优选的格式包括SAM/BAM和BAMBAM格式。同样,应当理解的是序列对象223可以表征基准基因组(例如,来自同类统计资料)的基因组区域或测试样本的基因组区域。在序列对象223是来自待分析的测试样本的情况下,通常优选的是相对于基准基因组和/或来自不同时间点的同一测试对象的基因组进行分析。因此,适合的基准序列对象223可以包括原始序列数据、来自同类统计资料的序列数据、和/或来自规定时间点的测试对象的序列数据。而且,应当认识到,序列对象223无需一定被约束成原始数据读数或装配的序列(例如,全长基因),而是序列对象223可以为或者可以包括相对于基准基因组区域的差分序列对象223(例如,其中仅列出不一致的对应碱基)。如之前所述,这种基准基因组区域可以来自在较早时间点取得的同一测试先证者,或者来自实际的健康先证者或来自多个健康先证者(同类统计资料)的假设的、共有序列。
关于标度相关注释225,可构思的是注释225可以在很大程度上变化并且在基因组分析中已知的所有注释视为适用于此处。例如,特别优选的注释225包括那些与各种标度级别上的基因组结构有关的注释(例如,序列在染色体上的位置、在染色体内的位置、等位基因信息等)以及那些与各种标度级别上的基因组变化的注释(例如,染色体易位、重复或拷贝数、***、删除、倒位、诸如SNP的各种突变、跃迁、颠换等)。同样,标度相关注释225还可以包括各种标度级别上的疾病信息(例如,多倍性、拷贝和/或重复数、与拷贝数的突变相关联的疾病的类型/状况/治疗选项,等等)。在进一步构思的方案中,标度相关注释225还可以包括各种标度级别上的基因相关信息(例如,作为基因的功能或调控网络的部分的基因、基因名称或功能标识、原始序列数据或处理后的序列数据、基因标识、关于基因调控的信息以及基因与基本的关联的信息)。
当然,应当理解的是,相关信息的任意或全部还可以表达为相对于基准序列的差别信息(例如,同类统计资料或较早时间点),这将有利地减小数据尺寸和复杂度。另外,标度相关注释225通常还包括与序列对象相关联的元数据,并且最典型地包括患者标识、设施标识、医师标识和/或保险信息。
从不同的视角看,标度相关注释225将包括适合于为选定的观众(例如,医师、研究者、患者、保险公司等)显示的注释。例如,在观众为医师的情况下,标度相关注释225可以与简化格式的整个基因组的显示格式(例如,圆形图、中期扩散等)相关,其中突变由简单的指针或其他图形工具来指示。另一方面,在观众为研究者的情况下,标度相关注释225可以与提供了实际的原始序列数据和拷贝数/等位基因频率的显示格式相关。
而且,无论观众为和人,应当理解可视化呈现的类型将作为缩放水平252的函数而动态变化,使得显示相对于缩放的适当内容。因此,标度相关注释225可以进一步包括指示特定注释对于一个或多个特定缩放水平252的适用性的数据。当然,既定缩放水平下的显示适用性还可以独立于这些数据而被确定,如下文进一步论述的,能够通过各种技术来确定用户所选择的缩放水平252。在一些实施方案中,能够基于用户配置文件来确定缩放水平252:保健提供者、患者、保险公司、研究者、或其他类型的配置文件。例如,当患者正在查看数据时,能够选择代表最高缩放水平(即,基因组区域的最大观看度)的缩放水平252作为缺省设置。可替代地,研究者可能具有以特定关注区域为目标的缺省缩放水平252。用于确立缩放水平252的其他技术包括:接收来自可视化设备(例如,浏览器、应用等)的用户选定的定界框);在相对于基准区域(同类统计资料)异常的基因组区域自动地触发;接收来自序列设备的指示关注区域的基因组信息,或者其他技术。
以图形方式表征标度相关注释225有多种选项,特别优选的是利用已知的符号和记号来进行图形表示。最优选地,已知的符号和注释能够存储在基因组图形库237中,其配置为存储表征标度相关注释225的图形对象。在这种情况下,特别优选的是定标引擎配置为根据缩放水平252将标度相关信息233映射到来自图形库237的图形对象,并且基因组显示对象235包括映射的图形对象。例如,定标引擎230接收来自正针对已知突变来观看患者的基因组信息的保健提供者的缩放水平252。定标引擎230从索引基因组数据库220获得序列对象223以及关联的标度相关注释225。定标引擎230获得作为标度相关注释225的函数的标度相关信息233、保健提供者信息(例如,授权、配置文件等),以及缩放水平252。因此,标度相关信息233表示适当缩放水平下以及相对于观察者的适当的细节水平下的序列对象223的基因组区域。换言之,在既定缩放水平下,标度相关信息233表示适合于保健提供者的信息。如果观测者是患者,则标度相关信息233极可能载有即使缩放水平252和序列对象223相同也适合于患者的基因组信息的不同呈现。定标引擎230随后将标度相关信息233映射到基因组图形库237中的一个或多个图形对象以生成基因组显示对象235。
应当理解的是,基因组图形库237配置为存储基因组图形对象,而不仅仅是图形基元。能够根据需要通过附加的基因组图形对象来更新基因组图形库237,或者能够修改现有的基因组图形对象,可能具有不同的图形(例如,纹理、表皮、主题等)。这种方法在市场上认为是有利的,因为其允许可视化呈现的烙印或定制。
关于硬件,应当注意的是构思的设备和方法可以多种方式配置和操作,应当理解特定的配置和/或操作方式将至少部分地规定功能部件和互连。因此,下面的优选方案的说明应当仅视为对于本领域普通技术人员的示例性指导。
关于适合的bam服务器,通常优选的是bam服务器为或者包括能够高效的随机访问基因组区域所索引的数据、通过安全连接或者经由加密文件访问来支持对加密数据的受保护访问的分布式网络服务器***。在典型的使用情况下,用户将:1.通过网络连接到bam服务器,2.发出具有两个参数的请求,两个参数为A)数据存档,以及(b)基因组区域列表,以及3.接收来自存档的与任意提供的基因组区域重叠的所有数据条目。如本文所使用的,术语“数据存档”是指其中每个条目都与基因组区域相关联的数据条目集。数据条目可以为任意数据,包括单一数字、字符串以及一列数字和/或字符。一些常见的数据条目的实施例是来自测序机、已知基因位置或检测到的突变的序列读数以及关联的读数品质。
索引基因组区域:当数据存档添加到bam服务器中时,bam服务器按基因组区域对数据条目分类,然后优选地生成R树状的二进制索引,如在基因组应用中所常用的并且在其在UCSC基因组浏览器和SAM工具软件库中的用途中所全面说明的。简言之,索引的序列被***成重叠的二进制。以覆盖整个序列的一个二进制起始,添加两个新的二进制,将之前的二进制分为两半。索引随后具有从每个二进制到适配在该二进制内的数据条目的指针,但是没有更小的二进制。然后,检索与查询重叠的数据条目就是仅检查与查询重叠的二进制的问题。
数据访问保护:最典型地,bam服务器通过针对数据文件访问服务器检查每个请求来限制对非公共数据存档的访问。如果客户端不根据数据文件访问服务器来提供充分的安全认证,则拒绝对任何结果的访问。每个bam服务器能够配置为唯一数据文件访问服务器,允许灵活的许可方案和联合确证方法。
关于数据存储,通常构思的是bam服务器的数据存档存储出现于bam服务器本地的文件***上。该文件***可以与bam服务器直接附接的磁盘和/或网络可存取磁盘。进一步优选的是,受保护的数据存档以加密形式(例如,AES对称块加密,使用CTR模式)存储。bam服务器典型地不具有对加密密钥的访问权。当处理对于受保护数据存档的请求时,如果数据文件访问服务器准许访问,则数据文件访问服务器将提供用于所请求文件的加密密钥。bam服务器将在处理请求时使用该密钥,并且一完全处理了请求就丢弃该密钥。
适当的请求方法通常是利用经由HTTPS、SSL安全HTTP协议的安静(RESTful)(与代表性的状态传递约束相符合)查询或者利用在其内进行HTTPS查询的可替代的加密隧道机制来实现。查询的RESTful本质允许bam服务器在地区上和本地上分布以将最大吞吐量提供给消费应用。对于bam服务器的本地性的唯一约束是对基础数据的直接文件访问,这甚至可以利用适当的协议(经由VPN的NFS或其他此类解决方案)通过广域网来呈现。
在进一步优选的方案中,实现了数据的动态定标。基于所请求的基因组区域的大小和关于显示数据的分辨率的知识,可能作为定标引擎230运行的bam服务器具有对数据动态定标(“下采样”)以提供将减少处理和传递时间的更浓缩版本的能力。该下采样最优选地以两个并行机制来实现。第一个机制不需要基础数据的知识,是通过提供预先浓缩到一定水平的bam服务器文件来实现的。bam服务器随后能够在查询时动态地决定是否应当提供“原始”级别的数据或者可选地为浓缩文件之一。该决定是通过包括在请求中包括指示将由消费应用使用的数据点的数量的附加参数来做出的。如果消费应用是还可作为定标引擎230运行的可视化引擎,则有用的数据点计数的一个实施例可能基于绘制到屏幕的像素的数量。用于下采样的第二种机制是可访问bam服务器的全数据的动态概括。该机制需要将关于文件类型的附加信息提供给bam服务器,以使其能够理解哪些域可以概括以及概括的机制。给定仅具有越过基因组坐标索引的单个数据列的文件,这可自动地确定,并且可以自动地执行中位数或均值概括。对于更加复杂的数据类型或更加复杂的概括技术,bam服务器将需要列出如何执行该概括的参数。一个实施例是SAM/BAM格式的文件的下采样,这可以通过将各位置处的单个读数进行次采样来进行下采样,仅将有限数字提供回消费应用。
应进一步理解的是,构思的***和方法易于扩展,因为bam服务器能够从多种格式读取文件并且理解基因组索引数据和诸如SQLite和JSON的附加存储格式。所请求的文件的格式当前由消费应用来提供,但是还可构思文件格式的自动检测。bam服务器的体系结构优选地支持能够理解外来索引方案且仍提供统一接口的***形式的附加数据格式。这些***或者是经由通用资源标识符(URI)REST请求来规定,或者通过bam服务器内的适当格式的自动检测来规定。
关于动态基因组可视化引擎,其通常构思的是,动态基因组可视化引擎能够解释其共同属性映射到基因组内的位置的多种类型的数据,并且生成该数据的基于图像的解释。值得注意的是,在某种意义上基因组“浏览器”的构思已经为人所知(例如,Universityof California,Santa Cruz Genome Browser,建立于2001年(参见URLgenome.ucsc.edu))。然而,当前已知的浏览器将数据的查看局限于用户规定的密度,而不能够以及时和有意义的方式响应于越过一些限值的请求。相反,本文所构思的动态基因组可视化引擎能够理解用户所请求的数据的量并且改变呈现以适当地提供更紧凑和概括性的版本的可视化。在一个水平上,下采样水平由bam服务器处置,这理解了正试图可视化的区域,并且将自动地减少发送到可视化引擎的数据。在更高水平上,如果引擎本身识别出正在请求充分大量的数据,则所生成的基础可视化将以提供对于终端用户更有利的概述的方式而改变。
显示能够基于试图查看的数据的密度而广泛地变化。图3-6代表了这些显示如何基于用户在窗口中查看的各种碱基数量而变化的一些实施例,其中显示是根据用于在浏览器内生成基因组显示对象235的基因组图形对象而生成的。重要的是强调,这些显示是动态生成的,不是预先计算出的,但是对于一些使用情况而言预先生成的静态图像不被排除且得到构思的设备和方法支持。在图3中,遍及近似1000个水平像素显示人类基因组的52个碱基,具有总拷贝数、等位基因特定拷贝数、来自BAM的原始测序数据以及UCSC已知基因的注释轨迹的图形表示。这些轨迹中的每个都是从之前概括的bam服务器体系结构动态地拉出的,并且每个轨迹能够查询独立的bam服务器以获得所需的数据。因为正在显示这样小数量的碱基,所以对bam服务器或可视化引擎都没有执行下采样。因此,特别优选的是,最低缩放水平处于原始或计算出的序列的碱基读出水平。
图4代表了显示出来自基因组的同一区域的大约1000个碱基的次千碱基缩放水平。在该分辨率和碱基数量下,在bam服务器上不发生下采样,然而,可视化引擎已经开始改变每个数据源的显示来适应增加的观察口。特别地,每个碱基上的字母不再出现在顶部基准碱基条上以及单个bam读数内,而是诉诸于代表所识别的变化的简单颜色。
图5是在像素数量保持恒定的同时处于千碱基缩放水平的近似2兆碱基(2百万个碱基)的视图。结果,bam服务器和可视化引擎都对绘制的数据进行下采样。bam服务器已经减少了其提供给可视化引擎的拷贝数数据的量,并且可视化引擎已经忽略了原始数据轨迹,因为观看不切实际。另外,可视化引擎已经开始通过在顶部生成直方图来概括变体轨迹之一(最底部的轨迹)。最后,可视化引擎已经将位于每个像素下方的拷贝数变化的多个数据点一起平均化以生成更精确的图像。
最后的分辨率,图6代表了处于染色体缩放水平的所有染色体12。所有之前的下采样在该分辨率下发生,附加的下采样下至去除文本并且显示UCSC已知基因和图像底部的COSMIC变体轨迹的更图形化的表示。虽然在这些图中已经表征了一个清晰的实施例,该引擎提供了用于动态可视化的构架,其不限于预先确定的和预先绘制的分辨率水平,此外,能够适应超越了此处已经显示的许多不同类型的基础数据。
本领域技术人员显而易见的是,除了已经描述的之外,可以有更多的变型例,而不偏离本文中的发明构思。因此,除了在随附权利要求书的精神下之外,发明主题不受限制。而且,在解释说明书和权利要求书时,所有的术语应当以与上下文一致的尽可能宽泛的方式来解释。特别地,术语“包括”和“包含”应当解释为以非穷尽方式指代要素、部件或步骤,表明了所指代的要素、部件或步骤可以存在或利用或与未明确指代的其他要素、部件或步骤相结合。在并入的参考文献中的术语的定义或使用与本文提供的该术语的定义不一致或相悖的情况下,本文提供的该术语的定义适用,而该术语在参考文献中的定义不适用。在说明书的权利要求书提到从由A,B,C...和N构成的组中选出的至少一个某物的情况下,该文本应当解释为仅需要来自该组的一个要素,而不是A加N、或B加N,等等。

Claims (26)

1.基因组可视化***,包括:
索引基因组数据库,其配置为存储表征基因组区域的序列对象,所述序列对象包括多个标度相关注释;以及
定标引擎,其与所述索引基因组数据库耦合且配置为:
调节作为用户选定缩放水平的函数的标度相关信息,其中被调解的标度相关信息获自所述序列对象的标度相关注释;
为所述序列对象动态地生成基因组显示对象,其中所述基因组显示对象基于所述缩放水平并表征所调节的标度相关信息,其中所述动态地生成包括所述序列对象的呈现的可视化的改变;
其中所述定标引擎响应于指示将由消费应用使用的数据点的数量的请求而在下采样数据传输至输出设备之前对包括所述基因组显示对象的数据容量动态且自动地下采样,并且其中所述动态下采样进一步基于所请求的基因组区域的大小和关于显示数据的输出设备的图形分辨率的知识;
其中下采样通过不需要基础数据知识的第一种机制和需要有关文件类型的附加信息的第二种机制的至少一种来实现;
其中第一种机制通过提供预先浓缩到一定水平的bam服务器文件来实现;
其中用于下采样的第二种机制是bam服务器能访问的全数据的动态概括;以及
将所述下采样数据传输至所述输出设备以将所述基因组显示对象呈现给用户。
2.如权利要求1所述的***,其中所述序列对象具有SAM/SAM或BAMBAM格式。
3.如权利要求1所述的***,其中所述基因组区域是以下之一:全基因组、染色体、染色体片段和等位基因。
4.如权利要求1所述的***,还包括作为所述定标引擎运行的bam服务器。
5.如权利要求4所述的***,还包括多个bam服务器。
6.如权利要求1所述的***,还包括作为所述定标引擎运行的可视化服务器。
7.如权利要求6所述的***,还包括多个可视化服务器。
8.如权利要求1所述的***,其中所述输出设备包括以下至少之一:显示器、浏览器、打印机、3D打印机和扬声器。
9.如权利要求1所述的***,其中所述定标引擎还配置成基于所述缩放水平通过下采样来调节所述标度相关信息。
10.如权利要求9所述的***,其中所述定标引擎还配置成作为从所述缩放水平获得的数据密度的函数而进行下采样。
11.如权利要求1所述的***,其中所述定标引擎还配置成确定所述缩放水平。
12.如权利要求11所述的***,其中所述定标引擎还配置成根据所述缩放水平来概括所述序列对象的全数据集。
13.如权利要求1所述的***,其中所述定标引擎还配置成从不同的序列对象中的标度相关注释的差别来获得所述标度相关信息。
14.如权利要求1所述的***,其中所述序列对象包括基准序列对象。
15.如权利要求14所述的***,其中所述基准序列对象从由原始序列数据、来自同类统计资料的序列数据和来自规定时间点的序列数据构成的组中选出。
16.如权利要求1所述的***,其中所述序列对象包括相对于基准基因组区域的差分序列对象。
17.如权利要求16所述的***,其中所述基准基因组区域来自同类统计资料或特定于时间点。
18.如权利要求1所述的***,其中所述标度相关注释包括以下至少之一:基因组结构信息、基因组变化信息、疾病信息、基因相关信息、相对于基准序列的差别信息和元数据。
19.如权利要求18所述的***,其中所述基因组结构包括以下至少之一:染色体标识、染色体内的位置、或等位基因。
20.如权利要求18所述的***,其中所述基因组变化信息包括以下至少之一:突变、易位、倒位、删除、重复和拷贝数。
21.如权利要求18所述的***,其中所述疾病信息包括以下至少之一:疾病类型、疾病状况和疾病治疗选项。
22.如权利要求18所述的***,其中所述基因相关信息包括原始序列数据或处理后的序列数据、基因标识、关于基因调控的信息以及基因与疾病的关联的信息。
23.如权利要求18所述的***,其中所述元数据包括以下至少之一:患者标识、设施标识、医师标识和保险信息。
24.如权利要求1所述的***,还包括配置为存储表征标度相关注释的图形对象的基因组图形库。
25.如权利要求24所述的***,其中所述定标引擎还配置成根据所述缩放水平将所述标度相关信息映射到来自图形库的图形对象。
26.如权利要求25所述的***,其中所述基因组显示对象包括映射的图像对象。
CN201280068298.9A 2011-12-08 2012-12-07 提供基因组数据的动态索引和可视化的分布式*** Expired - Fee Related CN104246689B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161568478P 2011-12-08 2011-12-08
US61/568,478 2011-12-08
PCT/US2012/068493 WO2013086355A1 (en) 2011-12-08 2012-12-07 Distributed system providing dynamic indexing and visualization of genomic data

Publications (2)

Publication Number Publication Date
CN104246689A CN104246689A (zh) 2014-12-24
CN104246689B true CN104246689B (zh) 2020-06-02

Family

ID=48574927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280068298.9A Expired - Fee Related CN104246689B (zh) 2011-12-08 2012-12-07 提供基因组数据的动态索引和可视化的分布式***

Country Status (10)

Country Link
US (2) US10140683B2 (zh)
EP (2) EP2788861B1 (zh)
JP (3) JP6025859B2 (zh)
KR (5) KR20190016149A (zh)
CN (1) CN104246689B (zh)
AU (1) AU2012347547B2 (zh)
CA (1) CA2858686C (zh)
ES (1) ES2729714T3 (zh)
IL (3) IL233016A (zh)
WO (1) WO2013086355A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2858686C (en) * 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data
EP2870581B1 (en) 2012-07-06 2023-11-29 Nant Holdings IP, LLC Healthcare analysis stream management
EP2912587A4 (en) 2012-10-24 2016-12-07 Complete Genomics Inc GENOME EXPLORATION SYSTEM FOR TREATING AND PRESENTING NUCLEOTIDE VARIATIONS IN GENOMIC SEQUENCE DATA
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
JP6472798B2 (ja) * 2013-11-13 2019-02-20 ファイヴ3 ゲノミクス,エルエルシー 配列決定データの伝送および前処理のためのシステムおよび方法
WO2015130954A1 (en) * 2014-02-26 2015-09-03 Nantomics, Llc Secured mobile genome browsing devices and methods therefor
MX2017011511A (es) * 2015-03-12 2018-01-11 Koninklijke Philips Nv Manejo y control de la infeccion.
WO2016154154A2 (en) 2015-03-23 2016-09-29 Edico Genome Corporation Method and system for genomic visualization
JP6593763B2 (ja) * 2015-04-30 2019-10-23 株式会社テンクー ゲノム解析装置及びゲノム可視化方法
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
BR112019007359A2 (pt) * 2016-10-11 2019-07-16 Genomsys Sa método e sistema para acesso seletivo dos dados bioinformáticos armazenados ou transmitidos
CA3039692A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and system for the transmission of bioinformatics data
CN107506618B (zh) * 2017-07-07 2020-12-08 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法
CN110993033A (zh) * 2019-11-14 2020-04-10 北京诺禾致源科技股份有限公司 一种基因组数据的处理方法、***及装置
US11662938B2 (en) 2020-05-11 2023-05-30 Nantcell, Inc. Object storage and access management systems and methods

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
EP1067466A2 (en) * 1999-07-09 2001-01-10 Smithkline Beecham Genome browser interface
WO2002035395A2 (en) 2000-10-27 2002-05-02 Entigen Corporation Integrating heterogeneous data and tools
US20030204317A1 (en) * 2002-04-26 2003-10-30 Affymetrix, Inc. Methods, systems and software for displaying genomic sequence and annotations
US20040002818A1 (en) * 2001-12-21 2004-01-01 Affymetrix, Inc. Method, system and computer software for providing microarray probe data
GB0202809D0 (en) * 2002-02-07 2002-03-27 Riverwood Int Corp A paperboard carton
US20050038776A1 (en) * 2003-08-15 2005-02-17 Ramin Cyrus Information system for biological and life sciences research
JP2006065501A (ja) * 2004-08-25 2006-03-09 Nittetsu Hitachi Systems Engineering Inc ゲノム情報表示システム
US7868888B2 (en) * 2006-02-10 2011-01-11 Adobe Systems Incorporated Course grid aligned counters
US20090125248A1 (en) 2007-11-09 2009-05-14 Soheil Shams System, Method and computer program product for integrated analysis and visualization of genomic data
US8954337B2 (en) 2008-11-10 2015-02-10 Signature Genomic Interactive genome browser
KR102218512B1 (ko) * 2010-05-25 2021-02-19 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
US20120066601A1 (en) * 2010-09-14 2012-03-15 Apple Inc. Content configuration for device platforms
CN101944151B (zh) 2010-09-30 2012-06-27 重庆大学 分子动力学模拟中壁面边界的模拟方法
KR101188886B1 (ko) 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
CA2858686C (en) * 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data

Also Published As

Publication number Publication date
JP2015500535A (ja) 2015-01-05
JP6171058B2 (ja) 2017-07-26
AU2012347547A1 (en) 2014-07-03
EP2788861B1 (en) 2019-05-15
IL252817A0 (en) 2017-08-31
KR20160062211A (ko) 2016-06-01
KR20190016149A (ko) 2019-02-15
JP6368832B2 (ja) 2018-08-01
KR20200044149A (ko) 2020-04-28
EP2788861A1 (en) 2014-10-15
IL233016A (en) 2017-06-29
IL252817B (en) 2019-07-31
US10733701B2 (en) 2020-08-04
KR101949569B1 (ko) 2019-02-18
EP3534368B1 (en) 2020-09-16
KR20190099105A (ko) 2019-08-23
KR20140135945A (ko) 2014-11-27
WO2013086355A1 (en) 2013-06-13
EP2788861A4 (en) 2015-04-15
ES2729714T3 (es) 2019-11-05
JP2017208115A (ja) 2017-11-24
CN104246689A (zh) 2014-12-24
US20190066262A1 (en) 2019-02-28
JP6025859B2 (ja) 2016-11-16
EP3534368A1 (en) 2019-09-04
CA2858686A1 (en) 2013-06-13
IL233016A0 (en) 2014-07-31
AU2012347547B2 (en) 2015-10-22
US20140368550A1 (en) 2014-12-18
CA2858686C (en) 2018-10-02
IL267977A (en) 2019-09-26
US10140683B2 (en) 2018-11-27
JP2016212900A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
CN104246689B (zh) 提供基因组数据的动态索引和可视化的分布式***
US11923070B2 (en) Automated visual reporting technique for medical imaging processing system
KR101377379B1 (ko) 보충 정보를 갖는 문서 뷰를 렌더링하는 방법, 및 컴퓨터-판독가능 매체
US9864815B2 (en) Systems and methods for medical image viewer compatibility determination
US20170243017A1 (en) Bundling File Permissions For Sharing Files
US8417043B2 (en) Method, apparatus and computer program product for normalizing and processing medical images
US9202007B2 (en) Method, apparatus and computer program product for providing documentation and/or annotation capabilities for volumetric data
AU2017202994B2 (en) Distributed system providing dynamic indexing and visualization of genomic data
US20150199105A1 (en) Automatic selection of center of rotation for graphical scenes
US20130325805A1 (en) System and method for tagging and securely archiving patient radiological information
ES2303790B1 (es) Procedimiento de analisis, visualizacion y procesado de imagenes digitales biomedicas.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200602

CF01 Termination of patent right due to non-payment of annual fee