CN117373530A

CN117373530A - 一种生物信息分析方法、***及电子设备

Info

Publication number: CN117373530A
Application number: CN202311397823.8A
Authority: CN
Inventors: 邓红辉; 邢阿宝; 卢晨丽; 廖大光; 蔡晓然
Original assignee: Guangzhou Jingjian Biotechnology Co ltd
Current assignee: Guangzhou Jingjian Biotechnology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-09

Abstract

本申请公开了一种生物信息分析方法、***及电子设备，涉及生物信息技术领域。该方法包括：获取高通量测序数据；将高通量测序数据输入第一过滤模型中进行过滤纯化，得到第一测序数据；将第一测序数据输入第二过滤模型中进行过滤，获取第一生物表征和第二生物表征；将第二生物表征与预设的生物信息序列数据进行比对获取第一分析结果；对第一生物表征分别进行GO富集分析、KO富集分析和WGS分析，获取第二分析结果；将第一分析结果和第二分析结果统计后输出生物信息分析结果。本方法、***和电子设备相适配。本申请的生物信息分析方法、***及电子设备，提高了分析效率，以及分析结果的可靠性。

Description

一种生物信息分析方法、***及电子设备

技术领域

本申请涉及生物信息技术领域，具体是一种生物信息分析方法、***及电子设备。

背景技术

随着基因测序技术的发展，高通量测序技术在临床实践中应用越来越广泛，如在高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于个体化用药剂量、选择和药物反应等诸多方面。高通量测序技术通常采用大规模平行测序技术，可实现多样本多位点的同时测序，大大提高了测序通量。依赖于高通量测序数据获取生物信息分析结果，是一种高效的生物信息分析技术。因此，对基因序列的处理使高通量测序数据适用于生物信息分析，从而使得到的生物信息分析结果的准确性提高是十分重要的。

发明内容

本申请的目的在于提供一种生物信息分析方法、***及电子设备，以实现提高生物信息分析效率和结果准确性。

为实现上述目的，本申请公开了以下技术方案：

第一方面，本申请公开了一种生物信息分析方法，该方法包括以下步骤：

获取待测DNA序列的高通量测序数据；

将所述高通量测序数据输入第一过滤模型中按照预设的过滤规则进行过滤纯化，得到仅保留生物信息的第一测序数据；

将所述第一测序数据输入第二过滤模型中按照预设的过滤规则进行过滤，获取所述第一测序数据中被过滤掉的基因序列作为第一生物表征和获取所述第一测序数据中被遗留的基因序列作为第二生物表征；

将所述第二生物表征与预设的生物信息序列数据进行比对，获取第一分析结果；

对所述第一生物表征分别进行GO富集分析、KO富集分析和WGS分析，获取所述第一生物表征对应的序列种类、序列分布、数据碱基分布特征作为第二分析结果；

将所述第一分析结果和所述第二分析结果统计后输出生物信息分析结果。

作为优选，所述高通量测序数据的获取方法包括：

对全血DNA进行提取得到的DNA片段；

对得到的DNA片段加入与黏性末端结合的引物，得到平末端DNA样本；

将得到的平末端DNA样本与P1接头、特异性接头以及接头连接反应试剂混合进行连接反应，得到连接接头DNA片段；

对得到的连接接头DNA片段进行磁珠纯化，得到纯化DNA片段；

将得到的纯化DNA片段加入文库扩增引物及文库扩增反应试剂进行PCR扩增，得到目标片段的DNA文库；

采用Ion Proton测序平台对步骤6得到的DNA文库进行高通量测序得到所述高通量测序数据。

作为优选，所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据，所述接头数据包括P1接头、特异性接头。

作为优选，所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物表征。

作为优选，所述的WGS分析通过采用Refseq、GEO Database和Expression Atlas中的一种或多种实现。

第二方面，本申请公开了一种适用于前述的生物信息分析方法的生物信息分析***，包括数据接收模块、第一过滤模型、第二过滤模型、数据比对模块、生物分析模块和结果展示模块；

所述数据接收模块配置为：获取待测DNA序列的高通量测序数据；

所述第一过滤模型配置为：对所述高通量测序数据按照预设的过滤规则进行过滤纯化，得到仅保留生物信息的第一测序数据；

所述第二过滤模型配置为：对所述第一测序数据按照预设的过滤规则进行过滤，获取所述第一测序数据中被过滤掉的基因序列作为第一生物表征和获取所述第一测序数据中被遗留的基因序列作为第二生物表征；

所述数据比对模块配置为：对所述第二生物表征与预设的生物信息序列数据进行比对，获取第一分析结果；

所述生物分析模块配置为：对所述第一生物表征分别进行GO富集分析、KO富集分析和WGS分析，获取所述第一生物表征对应的序列种类、序列分布、数据碱基分布特征作为第二分析结果；

所述结果展示模块配置为：将所述第一分析结果和所述第二分析结果统计后输出生物信息分析结果，并对该生物信息分析结果进行展示。

作为优选，所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物。

作为优选，所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据。

第三方面，本申请公开了一种电子设备，包括至少一个存储器和至少一个处理器，所述存储器与所述处理器通信连接，所述存储器内存储有能够被所述处理器执行的计算机可读指令，当所述计算机可读指令被所述处理器执行时，实现如上所述的生物信息分析方法。

有益效果：采用本申请的生物信息分析方法、***及电子设备，通过对高通量测序数据进行过滤后得到第一测序数据，然后基于第一测序数据得到第一生物表征和第二生物表征的获取，再通过对第一生物表征和第二生物表征的分析得到最终的生物信息分析结果，提高了分析效率，以及分析结果的可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的生物信息分析方法的流程框图；

图2为本申请实施例提供的生物信息分析***的结构框图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本实施例在第一方面公开了如图1所示的一种生物信息分析方法，该方法包括以下步骤：

S101-获取待测DNA序列的高通量测序数据；

S102-将所述高通量测序数据输入第一过滤模型中按照预设的过滤规则进行过滤纯化，得到仅保留生物信息的第一测序数据；

S103-将所述第一测序数据输入第二过滤模型中按照预设的过滤规则进行过滤，获取所述第一测序数据中被过滤掉的基因序列作为第一生物表征和获取所述第一测序数据中被遗留的基因序列作为第二生物表征；

S104-将所述第二生物表征与预设的生物信息序列数据进行比对，获取第一分析结果；

S105-对所述第一生物表征分别进行GO富集分析、KO富集分析和WGS分析，获取所述第一生物表征对应的序列种类、序列分布、数据碱基分布特征作为第二分析结果；

S106-将所述第一分析结果和所述第二分析结果统计后输出生物信息分析结果。

基于上述，采用本实施例的生物信息分析方法，通过对高通量测序数据进行过滤后得到第一测序数据，然后基于第一测序数据得到第一生物表征和第二生物表征的获取，再通过对第一生物表征和第二生物表征的分析得到最终的生物信息分析结果，提高了分析效率，以及分析结果的可靠性。

在本实施例中，所述高通量测序数据的获取方法包括：

对全血DNA进行提取得到的DNA片段；

对得到的连接接头DNA片段进行磁珠纯化，得到纯化DNA片段；

其中，为了提高建库后文库的适应性，即实现文库能够满足除Ion Torrent平之外的如Illumina平台等的测序使用，以便于对测序结果进行验证等效用，本实施例选用现有技术中的通用型测序接头。该种通用型测序接头可以参考公开号为CN202010407833.5的中国授权专利中公开的相关内容。

同时，文库扩增引物包括上游引物和下游引物。其中，所述上游引物包括沿5’至3’方向依次排列的上游通用引物序列和根据所述纯化DNA片段中的目标扩增区域设计的特异性上游引物序列，上游通用引物序列为5’-CTCTCTATGGGCAGTCGGTGAT-3’；所述下游引物包括沿5’至3’方向依次排列的下游通用引物序列和根据所述纯化DNA片段中的目标扩增区域设计的特异性下游引物序列，下游通用引物序列为5’-GATGCTCTTCCGATCT-3’。所述上游通用引物序列和所述下游通用引物序列分别为16S rRNA测序引物所述特异性上游引物序列和所述特异性下游引物序列分别为Ion Torrent测序平台的barcode序列。

此外，本实施例采用1.2倍的AMPure XP磁珠对所述连接接头DNA片段进行纯化。

借由上述高通量测序数据的获取，本实施例的所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据，所述接头数据包括P1接头、特异性接头。

在本实施例中，所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物表征。所述的WGS分析通过采用Refseq、GEO Database和ExpressionAtlas中的一种或多种实现。

本实施例在第二方面公开了如图2所示的一种生物信息分析***，包括数据接收模块、第一过滤模型、第二过滤模型、数据比对模块、生物分析模块和结果展示模块。

具体的，所述数据接收模块配置为：获取待测DNA序列的高通量测序数据。

具体的，所述第一过滤模型配置为：对所述高通量测序数据按照预设的过滤规则进行过滤纯化，得到仅保留生物信息的第一测序数据。

具体的，所述第二过滤模型配置为：对所述第一测序数据按照预设的过滤规则进行过滤，获取所述第一测序数据中被过滤掉的基因序列作为第一生物表征和获取所述第一测序数据中被遗留的基因序列作为第二生物表征。

具体的，所述数据比对模块配置为：对所述第二生物表征与预设的生物信息序列数据进行比对，获取第一分析结果。

具体的，所述生物分析模块配置为：对所述第一生物表征分别进行GO富集分析、KO富集分析和WGS分析，获取所述第一生物表征对应的序列种类、序列分布、数据碱基分布特征作为第二分析结果。

具体的，所述结果展示模块配置为：将所述第一分析结果和所述第二分析结果统计后输出生物信息分析结果，并对该生物信息分析结果进行展示。

本***与前述的生物信息分析方法相匹配，因此，对应的：所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物；所述的WGS分析通过采用Refseq、GEO Database和ExpressionAtlas中的一种或多种实现；所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据。

本实施例在第三方面公开了一种电子设备，包括至少一个存储器和至少一个处理器，所述存储器与所述处理器通信连接，所述存储器内存储有能够被所述处理器执行的计算机可读指令，当所述计算机可读指令被所述处理器执行时，实现如上所述的生物信息分析方法。

在本申请所提供的实施例中，应该理解到，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序作为计算机可读存储介质上的一个或多个计算机可读指令进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读存储介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应说明的是：以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生物信息分析方法，其特征在于，该方法包括以下步骤：

获取待测DNA序列的高通量测序数据；

2.根据权利要求1所述的生物信息分析方法，其特征在于，所述高通量测序数据的获取方法包括：

对全血DNA进行提取得到的DNA片段；

对得到的连接接头DNA片段进行磁珠纯化，得到纯化DNA片段；

3.根据权利要求2所述的生物信息分析方法，其特征在于，所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据，所述接头数据包括P1接头、特异性接头。

4.根据权利要求1所述的生物信息分析方法，其特征在于，所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物表征。

5.根据权利要求1所述的生物信息分析方法，其特征在于，所述的WGS分析通过采用Refseq、GEO Database和ExpressionAtlas中的一种或多种实现。

6.一种生物信息分析***，其特征在于，包括数据接收模块、第一过滤模型、第二过滤模型、数据比对模块、生物分析模块和结果展示模块；

7.根据权利要求6所述的生物信息分析***，其特征在于，所述第二过滤模型用于存储已知生物信息表征的基因序列，所述已知生物信息表征包括所述第二生物。

8.根据权利要求6所述的生物信息分析***，其特征在于，所述的WGS分析通过采用Refseq、GEO Database和ExpressionAtlas中的一种或多种实现。

9.根据权利要求6所述的生物信息分析***，其特征在于，所述第一测序数据为所述高通量测序数据中过滤掉接头数据和/或引物数据后的基因序列数据。

10.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器，所述存储器与所述处理器通信连接，所述存储器内存储有能够被所述处理器执行的计算机可读指令，当所述计算机可读指令被所述处理器执行时，实现如权利要求1-5任意一项所述的生物信息分析方法。