CN116705150A

CN116705150A - 基因表达效率的确定方法、装置、设备及介质

Info

Publication number: CN116705150A
Application number: CN202310659118.4A
Authority: CN
Inventors: 吴琪; 杜佳伟; 菅晓东; 康波
Original assignee: National Supercomputer Center In Tianjin
Current assignee: National Supercomputer Center In Tianjin
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-05

Abstract

本公开实施例涉及一种基因表达效率的确定方法、装置、设备及介质，涉及人工智能技术领域，其中该方法包括：截取预设遗传物质，得到包含启动子的待测遗传物质片段；将待测遗传物质片段输入预先训练的表达效率检测模型中，得到预设遗传物质对应的表达效率结果。本公开实施例，确定包括启动子的遗传物质片段，并基于该遗传物质片段，确定整体的遗传物质的表达效率结果，在无需确定启动子在遗传物质中的具***置以及具体类型的情况下，实现了表达效率结果的确定，降低了表达效率结果确定过程的复杂度，并且适用于不能确定启动子位置和/或类型的场景，该方法的适用场景较为广泛。

Description

基因表达效率的确定方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基因表达效率的确定方法、装置、设备及介质。

背景技术

基因表达效率是进行基因表达预测的一个重要参数。

相关技术中，通过启动子检测工具可以根据已有的启动子数据，检测出脱氧核糖核酸(DeoxyriboNucleic Acid，DNA)片段中的启动子类型和位置，并根据该启动子类型和位置确定该DNA片段的基因表达效率。但是，上述方法中，由于确定启动子类型和位置的过程较为复杂，确定表达效率的过程复杂度较高，并且在无法确定启动子类型和位置的情况下，无法进行该DNA片段的基因表达效率的确定，该方法的适用场景较为局限。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种基因表达效率的确定方法、装置、设备及介质。

本公开实施例提供了一种基因表达效率的确定方法，包括：

截取预设遗传物质，得到包含启动子的待测遗传物质片段；

将所述待测遗传物质片段输入预先训练的表达效率检测模型中，得到所述预设遗传物质对应的表达效率结果。

本公开实施例还提供了一种基因表达效率的确定装置，包括：

截取模块，用于截取预设遗传物质，得到包含启动子的待测遗传物质片段；

处理模块，用于将所述待测遗传物质片段输入预先训练的表达效率检测模型中，得到所述预设遗传物质对应的表达效率结果。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的基因表达效率的确定方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的基因表达效率的确定方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的基因表达效率的确定方法，截取预设遗传物质，得到包含启动子的待测遗传物质片段；将待测遗传物质片段输入预先训练的表达效率检测模型中，得到预设遗传物质对应的表达效率结果。采用上述技术方案，确定包括启动子的遗传物质片段，并基于该遗传物质片段，确定整体的遗传物质的表达效率结果，在无需确定启动子在遗传物质中的具***置以及具体类型的情况下，实现了表达效率结果的确定，降低了表达效率结果确定过程的复杂度，并且适用于不能确定启动子位置和/或类型的场景，该方法的适用场景较为广泛。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种基因表达效率的确定方法的流程示意图；

图2为本公开实施例提供的另一种基因表达效率的确定方法的流程示意图；

图3为本公开实施例提供的一种效率分类模型的网络结构示意图；

图4为本公开实施例提供的又一种基因表达效率的确定方法的流程示意图；

图5为本公开实施例提供的再一种基因表达效率的确定方法的流程示意图；

图6为本公开实施例提供的一种效率分类模型的正确率的示意图；

图7为本公开实施例提供的一种效率回归模型的皮尔逊相关系数的示意图；

图8为本公开实施例提供的一种预设位数和正确率对应关系的示意图；

图9为本公开实施例提供的一种基因表达效率的确定装置的结构示意图；

图10为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

基因表达效率是进行基因表达预测的一个重要参数。

该基因表达效率的大小受到启动子、增强子、边界元件等影响，其中，不同的启动子通过不同的生化机制调节表达效率；增强子是一段能够增强基因表达活性的DNA片段，其与基因不具有位置和方向的关系；边界元件是一种能够阻隔增强子对基因表达活性影响的DNA片段。

相关技术中，通过启动子检测工具可以根据已有的启动子数据，检测出DNA片段中的启动子类型和位置，并根据该启动子类型和位置确定该DNA片段的基因表达效率。

但是，上述方法中，由于确定启动子类型和位置的过程较为复杂，确定表达效率的过程复杂度较高，并且在无法确定启动子类型和位置的情况下，无法进行该DNA片段的基因表达效率的确定，该方法的适用场景较为局限。此外，该基因的表达效率不仅收到启动子的影响，也会受到增强子、边界元件等诸多因素的影响，该只根据启动子类型和位置确定表达效率的方法具备较强的局限性。

为了解决上述问题，本公开实施例提供了一种基因表达效率的确定方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的一种基因表达效率的确定方法的流程示意图，该方法可以由基因表达效率的确定装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101，截取预设遗传物质，得到包含启动子的待测遗传物质片段。

其中，遗传物质可以为传递遗传信息的物质，本实施例对该遗传物质的类型不做限制，例如，该遗传物质可以为脱氧核糖核酸(DeoxyriboNucleic Acid，DNA)，本实施例对该遗传物质的所属物种不做限制，例如该遗传物质可以为酵母的DNA。启动子可以为核糖核酸(Ribonucleic Acid，RNA)聚合酶识别、结合和开始转录的一段DNA序列。待测遗传物质片段可以为部分的预设遗传物质，该待测遗传物质片段可以为预设遗传物质中一段连续的碱基对。该待测遗传物质片段的长度可以长于启动子的长度。

在本公开实施例中，基因表达效率的确定装置可以获取预设遗传物质，并按照预先设置的截取策略截取该预设遗传物质中的连续碱基对，得到包含启动子的待测遗传物质片段。该截取策略可以根据用户需求等进行设置，本实施例不做限制。需要说明的，截取包括该启动子的待测遗传物质片段无需获知该启动子的具***置，用户可以根据自身经验确定启动子的位置范围，并将该位置范围编辑为截取策略，后续基因表达效率的确定装置根据该截取策略对预设遗传物质进行截取。

在本公开一些实施例中，截取预设遗传物质，得到包含启动子的待测遗传物质片段，包括：

确定预设遗传物质中转录起始位点的位点位置；根据第一预设数量确定位于位点位置上游方向的截取起始位置，并根据第二预设数量确定位于位点位置下游方向的截取终止位置；根据截取起始位置和截取终止位置截取预设遗传物质，得到待测遗传物质片段。

其中，转录起始位点(Transcription Start Site，TSS)可以为与新生RNA链第一个核苷酸相对应的DNA链上的碱基。位点位置可以表征位点在遗传物质中的位置。预设数量可以为用户确定的截取预设遗传物质中碱基对的数量，该预设数量的计量单位可以为bp(base pair)。第一预设数量可以为从位点位置的上游方向截取的碱基对的数量，第二预设数量可以为从位点位置的下游方向截取的剪辑对的数量。其中，第一预设数量和第二预设数量可以根据用户经验等进行设置，本实施例不做限制。一种可选的实施方式中，第一预设数量和第二预设数量可以为49至151之间的整数。

上游方向可以为靠近预设遗传物质5’端的方向，下游方向可以为靠近预设遗传物质3’端的方向。截取起始位置可以为预设遗传物质上开始进行截取的位置，截取终止位置可以为预设遗传物质上终止进行截取的位置。

在本实施例中，基因表达效率的确定装置可以对预设遗传物质进行分析，确定其中转录起始位点的位点位置。或者可以将该预设遗传物质输入分析软件，分析软件确定其中转录起始位点的位点位置，并将该位点位置发送至基因表达效率的确定装置，基因表达效率的确定装置接收该位点位置。

进一步的，基因表达效率的确定装置可以以该位点位置为基准点，向该位点位置的上游追溯第一预设数量的碱基对，确定截取起始位置；向该位点位置的下游追溯第二预设数量的碱基对，确定截取终止位置。并截取位于该截取起始位置和截取终止位置之间的预设遗传物质，得到待测遗传物质片段。

上述方案中，基于转录起始位点、第一预设数量、第二预设数量确定了预设遗传物质中包括启动子的片段，避免了启动子的具***置、类型等的检测，将相关技术中难度较高的针对启动子的检测转换为了针对转录起始位点的检测，降低了待检测数据的提取难度，降低了确定表达效率结果的难度。

步骤102，将待测遗传物质片段输入预先训练的表达效率检测模型中，得到预设遗传物质对应的表达效率结果。

其中，表达效率又称基因表达效率，表达效率可以表征基因中需要被转录的部分在细胞中表达量的大小，可以理解地，该表达效率越大，则遗传物质在细胞中产生的蛋白质越多。表达效率检测模型可以为用于检测表达效率模型，该表达效率检测模型可以为基于神经网络技术生成的模型，本实施例对该表达效率检测模型的数量以及模型类型不做限制，例如，该表达效率检测模型的数量可以为2，并且其中一个模型的模型类型为分类模型，另一个模型的模型类型为回归模型。表达效率结果可以为表达效率的预测结果，该表达效率结果可以为表达效率的效率分类，例如，该表达效率结果可以为高表达效率或低表达效率；该表达效率结果也可以为具体的表达效率的效率预测值，即该表达效率结果可以为表达效率的具体数值。

在本公开实施例中，基因表达效率的确定装置在得到包括启动子的待测遗传物质片段之后，将该待测遗传物质片段输入训练好的表达效率检测模型中，表达效率检测模型输出相应的表达效率结果。

本公开实施例提供的基因表达效率的确定方法，截取预设遗传物质，得到包含启动子的待测遗传物质片段；将待测遗传物质片段输入预先训练的表达效率检测模型中，得到预设遗传物质对应的表达效率结果。采用上述技术方案，确定包括启动子的遗传物质片段，并基于该遗传物质片段，确定整体的遗传物质的表达效率结果，在无需确定启动子在遗传物质中的具***置以及具体类型的情况下，实现了表达效率结果的确定，降低了表达效率结果确定过程的复杂度，并且适用于不能确定启动子位置和/或类型的场景，该方法的适用场景较为广泛。

从外，该待测遗传物质片段除了启动子还可能存在其他碱基对，能够从启动子的维度以及其他碱基对的其他维度确定表达效率结果，提高了输入表达效率检测模型的数据的全面性。

图2为本公开实施例提供的另一种基因表达效率的确定方法的流程示意图，如图2所示，在本公开一些实施例中，表达效率检测模型包括效率分类模型和效率回归模型，将待测遗传物质片段输入预先训练的表达效率检测模型中，得到预设遗传物质对应的表达效率结果，包括：

步骤201，将待测遗传物质片段输入效率分类模型中，得到待测遗传物质片段的第一效率分类。

步骤202，将待测遗传物质片段输入效率回归模型中，得到待测遗传物质片段的效率预测值。

其中，效率分类模型可以为预先训练的用于确定遗传物质的效率分类的神经网络模型，通过该效率分类模型能够对表达效率进行定性分析，本实施例对该效率分类模型的模型类型不做限制，例如，该效率分类模型可以为二分类模型或多分类模型，具体地，该效率分类模型可以为卷积神经网络(Convolutional Neural Networks，CNN)模型。

图3为本公开实施例提供的一种效率分类模型的网络结构示意图，如图3所示，将待测遗传物质片段的碱基序列进行独热编码处理，得到待测遗传物质片段对应的独热编码序列，并基于位置矩阵确定该待测遗传物质片段对应的位置矩阵特征序列，拼接该独热编码序列和位置矩阵特征序列，得到特征矩阵，将该特征矩阵输入效率分类模型，效率分类模型能够输出该待测遗传物质片段对应的第一效率分类为高表达效率或低表达效率。

效率回归模型可以为预先训练的用于确定遗传物质的表达效率具体值的神经网络模型，通过该效率回归模型能够对表达效率进行定量分析，本实施例对该效率回归模型的模型类型不做限制，具体地，该效率回归模型可以为长短期记忆网络(Long Short-TermMemory，LSTM)模型。

第一效率分类可以为基于神经网络模型确定的表达效率的分类，本实施例对该第一效率分类不做限制，例如，该第一效率分类可以包括高表达效率和低表达效率；效率预测值可以为基于神经网络模型确定的表达效率的具体数值。

在本实施例中，表达效率检测模型基于效率分类模型和效率回归模型共同构成，基因表达效率的确定装置将待测遗传物质片段输入效率分类模型中，效率分类模型确定该待测遗传物质片段的第一效率分类。基因表达效率的确定装置将待测遗传物质片段输入效率回归模型中，效率回归模型确定该待测遗传物质片段的效率预测值。

步骤203，根据第一效率分类和效率预测值确定表达效率结果。

在本实施例中，确定第一效率分类和效率预测值之后，判断该第一效率分类和效率预测值是否一致，若是则将表达效率结果确定为第一效率分类或效率预测值，否则将表达效率结果确定为空。

在本公开一些实施例中，根据第一效率分类和效率预测值确定表达效率结果，包括：

根据效率预测值确定待测遗传物质片段的第二效率分类；若第一效率分类和第二效率分类一致，则确定表达效率结果为第一效率分类。

其中，第二效率分类可以为基于具体的效率预测值确定的表达效率分类，本实施例对该第二效率分类不做限制，例如，该第二效率分类可以包括高表达效率和低表达效率。

在本实施例中，基因表达效率的确定装置可以根据效率预测值和预先设置的表达效率阈值之间的大小关系确定该第二效率分类。具体地，若该效率预测值大于表达效率阈值，则确定第二效率分类为高表达效率；若该效率预测值小于等于表达效率阈值，则确定第二效率分类为低表达效率。该表达效率阈值可以根据用户需求等进行设置，本实施例不做限制，例如，该表达效率阈值可以为10。

确定第二效率分类之后，将第一效率分类和该第二分类效率进行比较，若第一效率分类和第二分类效率相同，说明通过效率分类模型和效率回归模型确定的结果一致，则将最终的表达效率结果确定为第一效率分类；若第一效率分类和第二分类效率不同，说明通过效率分类模型和效率回归模型确定的结果不一致，则将最终的表达效率结果确定为空或者表征检测失败的其他标识。

上述方案中，通过将效率预测值转换为第二效率分类，使得效率分类模型的检测结果能够和效率回归模型的检测结果进行对比，若两个检测结果一致，则将表达效率结果确定为相应的效率分类，提高了对表达效率进行定性分析的准确性。

在本公开一些实施例中，预设遗传物质的数量为多个，该基因表达效率的确定方法还包括：

根据所述效率预测值对预设遗传物质进行降序排列，将排列在前预设位数的多个预设遗传物质确定为多个候选遗传物质；将多个候选遗传物质中，第一效率分类与预设效率分类一致，且表达效率结果为第一效率分类的候选遗传物质确定为目标遗传物质。

其中，降序排列可以为从大至小进行排列。预设位数可以根据用户需求进行设置，本实施例不做限制，例如，该预设位数可以为100或者1000。预设效率分类可以为预先设置需要筛选获得表达效率的分类，该预设效率分类可以根据用户需求等进行设置，例如，若需要筛选出表达效率较高的遗传物质，则该预设效率分类可以为高表达效率。目标遗传物质片段可以为最终确定的满足需求的待测遗传物质片段。候选遗传物质片段可以为确定目标遗传物质片段过程中确定的中间遗传物质片段。

在本实施例中，预设遗传物质的数量为多个，相应的各预设遗传物质确定有相应的第一效率分类、效率预测值，基因表达效率的确定装置可以按照效率预测值从大至小的顺序对预设遗传物质进行排序，并选取排在前预设位数的预设遗传物质作为候选遗传物质。

继续对该候选遗传物质进行筛选，将候选遗传物质中第一效率分类与预设效率分类相同，且表达效率结果与第一效率分类相同的候选遗传物质确定为目标遗传物质。其中，候选遗传物质中第一效率分类与预设效率分类相同，则说明候选遗传物质的第一效率分类与用户需求相匹配；若表达效率结果与第一效率分类相同，则说明候选遗传物质的第一效率分类的准确性较高。

举例而言，在一些应用场景中，需要选取表达效率较高的遗传物质进行实验，预设位数可以为1000，预设效率分类可以为高表达效率。具体地，将效率预测值位于前1000位的预设遗传物质确定为候选遗传物质，将候选遗传物质中，第一效率分类为高表达效率且根据效率预测值确定的第二效率分类也为高表达效率的候选遗传物质确定为目标遗传物质。

在上述方案中，确定了表达效率结果较为准确，且表达效率较高的遗传物质，在进行实验时，需要选取表达效率较高的遗传物质进行实验，从而基于该目标遗传物质为后续的实验提供了基础。

图4为本公开实施例提供的又一种基因表达效率的确定方法的流程示意图，如图4所示，在本公开一些实施例中，表达效率检测模型的训练过程包括：

步骤401，获取样本遗传物质片段以及样本遗传物质片段的样本效率结果。

步骤402，拼接样本遗传物质片段的独热编码序列和位置矩阵特征序列，得到样本遗传物质片段的样本特征序列。

其中，样本遗传物质片段可以为已经确定表达效率值的遗传物质片段，样本效率结果可以为基于该表达效率确定的表达效率结果，可以理解地，若效率检测模型包括效率回归模型，则该样本效率结果可以包括具体的样本效率值；若效率检测模型包括效率分类模型，则该样本效率结果可以包括样本效率分类。

独热编码(One Hot)序列可以为通过使用独热编进行转译获得的序列。位置矩阵特征序列又称位置特异性矩阵(Position-specific Scoring Matrix，PSSM)序列。样本特征序列可以为最终对样本遗传物质片段进行特征表征的序列。

在本实施例中，基因表达效率的确定装置可以获取多个样本遗传物质片段以及各样本遗传物质片段对应的样本效率结果。对该样本遗传物质片段采用独热编码转译为独热编码序列，并使用BLAST+工具计算样本遗传物质片段的位置矩阵特征序列，将该独热编码序列拼接在位置矩阵特征序列之前，得到相应的样本特征序列。

步骤403，根据样本特征序列和样本效率结果训练预设初始模型，得到表达效率检测模型。

其中，预设初始模型可以为未完成训练的神经网络模型，本实施例对该预设初始模型的数量不做限制，例如，该预设神经网络模型的数量可以为2。本实施例对该预设初始模型的模型类型不做限制，例如，该模型类型可以为二分类模型(例如，CNN模型)和回归模型(LSTM模型)。

在本实施例中，以样本特征序列作为预设初始模型的输入，以样本效率结果为预设初始模型的输出，对预设初始模型进行训练，得到的表达效率检测模型。

在本公开一些实施例中，若预设初始模型包括初始分类模型和初始回归模型，则可以以样本特征序列作为初始分类模型的输入，将样本效率分类作为初始分类模型的输出，得到训练好的效率分类模型。并且，以样本特征序列作为初始回归模型的输入，将样本效率值作为初始分类模型的输出，训练得到训练好的效率回归模型。并将训练好的效率分类模型和训练好的效率回归模型组合为表达效率检测模型。

在本实施例中，该初始分类模型的初始超参数可以包括卷积层数、隐节点个数、卷积核大小、批处理大小、学习率、丢弃(Dropout)率，迭代轮数等，并且在训练的过程中采用网格搜索的方法对初始超参数进行调整，得到目标超参数以及以目标超参数作为参数的效率分类模型。

在本实施例中，可以预先设置该初始回归模型的初始超参数，并使用皮尔逊相关系数作为评价指标，重复训练模型-验证模型-调整模型超参数的步骤，直至获得效率回归模型。

在本公开一些实施例中，该基因表达效率的确定方法还包括：

将样本遗传物质片段聚类为多个样本组；针对每个样本组，确定该样本组中样本效率结果的结果差异，若结果差异大于预设差异阈值，则删除该样本组。

其中，样本组为包括至少一个遗传物质片段的组，且该样本组中的遗传物质片段具有相似的特征。结果差异可以为表征同一样本组中样本效率结果的差异的参数，本实施例对该结果差异的类型不做限制，例如该结果差异可以为方差。预设差异阈值可以为预先设置的正常情况下结果差异的最大值，若结果差异大于该预设差异阈值，则说明该样本组中样本效率结果的差异过大。

在本实施例中，对样本遗传物质片段进行聚类的方法有多种，本实施例不做限制，例如，基因表达效率的确定装置可以根据样本遗传物质片段的样本特征序列将样本遗传物质片段聚类为多个样本组。或者，可以通过预设聚类工具将样本遗传物质片段聚类为多个样本组。其中，预设聚类工具可以为预先设置的能够对遗传物质片段进行分类的工具，本实施例对该预设聚类工具不做限制，例如该预设聚类工具可以为CD-HIT工具。

将样本遗传物质片段聚类为多个样本组之后，针对每个样本组，计算该样本组内包括的样本效率结果的结果差异，并将该结果差异与预设差异阈值进行比较，若结果差异大于该预设差异阈值，说明该结果差异过大，即虽然该样本组内的样本遗传物质片段的相似度较高，但是样本遗传物质片段的表达效率差异较大，该样本组中的样本遗传物质片段较为异常，因而删除该样本组。

上述方案中，删除了相似度较高，但是表达效率差异较大的样本组，避免了该种异常数据对后续的表达效率检测模型的训练的影响，提高了表达效率检测模型的检测准确性。

接下来通过一个具体的示例对本公开实施例中的基因表达效率的确定方法，进行进一步说明。图5为本公开实施例提供的再一种基因表达效率的确定方法的流程示意图，如图5所示，该基因表达效率的确定方法包括：

步骤501，前处理生成样本遗传物质片段以及样本效率结果。

收集酵母细胞中75120条DNA序列和各DNA序列对应的基因表达效率。根据DNS序列中启动子的分布规律截取转录起始位点上游150bp和下游50bp，得到DNA片段，共获得75120条长度为200bp的DNA片段。统计各DNA序列的表达效率，该表达效率的范围为[0.2-13416]，其中表达效率小于1的数量为39946条，占全部DNA序列的53％，表达效率小于10的数量为63411条，占全部DNA序列的84％。该表达效率数据取值范围宽，但大部分集中在0至10的区域中，10以上表达效率的DNA序列数量较少，分布较为稀疏，该结论符合自然界真实情况。

对各DNA片段使用CD-HIT工具进行聚类得到多个样本组，发现其中部分样本组中虽然DNA片段的相似性较高但表达效率的差距较大，删除该样本组。确定表达效率阈值为10，将DNA片段分为表达效率小于10的低表达样本(63409条)和表达效率大于10的高表达样本(11711条)，为提高正负样本的均衡性，随机从低表达样本和高表达样本中各抽取11700个样本，得到共23400条200bp的DNA片段。将该23400条DNA片段划分为训练集(18000条)，验证集(2700条)和测试集(2700条)。对DNA片段采用独热编码转译为独热编码序列，并使用BLAST+工具计算DNA片段的位置矩阵特征序列，将该独热编码序列和位置矩阵特征序列拼接为样本特征序列。

步骤502，对预设初始模型进行训练、验证以及优化，得到表达效率检测模型。

构建卷积神经网络模型，设置卷积神经网络模型的初始超参数，该初始超参数包括但不限于：卷积层数，隐节点个数，卷积核大小，批处理大小，学习率，Dropout率，迭代轮数中的一个或多个，使用18000条DNA片段及其对应效率分类作为训练集对卷积神经网络模型进行训练，并使用2700条DNA片段及其对应的效率分类作为验证集评估该初始分类模型的预测正确性，判断该卷积神经网络模型是否达到预设正确率，若否，则采用网格搜索的方法调整该卷积神经网络模型的超参数，返回继续对该卷积神经网络模型进行训练，直至卷积神经网络模型达到预设正确率。若卷积神经网络模型达到预设正确率，则判断该卷积神经网络模型是否达到预设泛化能力，若否，则返回对训练集、验证集、测试集中的数据进行调整，直至该卷积神经网络模型达到预设泛化能力。若该卷积神经网络模型达到预设泛化能力，则将该卷积神经网络模型作为效率分类模型，获得在验证集上表现较优的效率分类模型。

构建长短期记忆网络模型，设置该长短期记忆网络模型的初始超参数并使用皮尔逊相关系数作为评价指标，重复训练模型-验证模型-调整模型超参数的流程，获得在验证集上表现较优的效率回归模型。

步骤503，表达效率检测模型的测试和结果分析。

使用2700条测试数据评估表达效率检测模型的泛化能力，得到评估结果，评估结果中，效率分类模型在2700条测试数据上的预测准确率达到76％，该预测表现优于根据启动子位置和类型确定表达效率的现有技术。效率回归模型在2700条测试数据上预测结果和真实结果之间的皮尔逊相关系数接近到0.6，具有较高的正相关性。

对基因表达效率进行数据分析发现样本中84％以上DNA片段是低表达效率，在实际的实验应用过程中，通常更关注高表达效率的样本。因此将效率回归模型预测得到的效率预测值和样本的真实表达效率均按照从高到低进行排序，发现排名前100的样本中，在真实表达效率中也位于前100的准确率为95％，真实表达值排名前100样本的预测表达值普遍较高，真实表达值排名前1000的样本中，在真实表达效率中也位于前1000的准确率为85％。进而通过对效率分类模型和效率回归模型进行结合能够筛选出具有高表达效率的DNA片段，进而为发现高表达的基因调控元件提高了基础。

上述方案中，效率分类模型和效率回归模型在测试集上具有优秀的性能，效率分类模型的正确率达到76％，效率回归模型的皮尔逊相关系数达到0.6，优于现有技术。

图6为本公开实施例提供的一种效率分类模型的正确率的示意图，如图6所示，随着训练轮次的增加，损失降低，并且训练集的正确率提升到接近0.9、验证集、测试集的正确率保持在0.76左右。

图7为本公开实施例提供的一种效率回归模型的皮尔逊相关系数的示意图，如图7所示，随着训练轮次的增加，损失降低，并且训练集的皮尔逊相关系数提升到接近0.75、验证集、测试集的皮尔逊相关系数保持在0.6左右。

图8为本公开实施例提供的一种预设位数和正确率对应关系的示意图，如图8所示，根据效率预测值对遗传物质进行降序排列，并从前至后取预设位数的遗传物质，随着预设位数的增加，正确率下降，但是当预设位数为1000时，效率回归模型和效率分类模型的正确率均在0.84以上。

在实验中，对基因表达效率的研究通常聚焦在具有较高基因表达效率的DNA上，例如合成生物学中调控基因使之具有高表达效率的调控元件。因此，如何从大量的高通量测序结果中确定具有高表达效率的DNA片段是具有实践意义的评价标准。本方法通过结合效率分类模型和效率回归模型的结果，达到了85％至95％的预测准确率，为后续基于该高表达效率的DNA进行基因调控元件的预测提供了基础。

图9为本公开实施例提供的一种基因表达效率的确定装置的结构示意图，该装置900可由软件和/或硬件实现，一般可集成在电子设备中。如图9所示，该装置包括：

截取模块901，用于截取预设遗传物质，得到包含启动子的待测遗传物质片段；

处理模块902，用于将所述待测遗传物质片段输入预先训练的表达效率检测模型中，得到所述预设遗传物质对应的表达效率结果。

一种可选的实施方式中，所述截取模块901，用于：

确定预设遗传物质中转录起始位点的位点位置；

根据第一预设数量确定位于所述位点位置上游方向的截取起始位置，并根据第二预设数量确定位于所述位点位置下游方向的截取终止位置；

根据所述截取起始位置和所述截取终止位置截取所述预设遗传物质，得到所述待测遗传物质片段。

一种可选的实施方式中，所述截取模块901，所述处理模块902，包括：

第一处理单元，用于将所述待测遗传物质片段输入所述效率分类模型中，得到所述待测遗传物质片段的第一效率分类；

第二处理单元，用于将所述待测遗传物质片段输入所述效率回归模型中，得到所述待测遗传物质片段的效率预测值；

确定单元，用于根据所述第一效率分类和所述效率预测值确定所述表达效率结果。

一种可选的实施方式中，所述确定单元，用于：

根据所述效率预测值确定所述待测遗传物质片段的第二效率分类；

若所述第一效率分类和所述第二效率分类一致，则确定所述表达效率结果为所述第一效率分类。

一种可选的实施方式中，所述预设遗传物质的数量为多个，所述方法还包括：

排列模块，用于根据所述效率预测值对所述预设遗传物质进行降序排列，将排列在前预设位数的多个预设遗传物质确定为多个候选遗传物质；

确定模块，用于将所述多个候选遗传物质中，第一效率分类与预设效率分类一致，且表达效率结果为第一效率分类的候选遗传物质确定为目标遗传物质。

一种可选的实施方式中，所述装置还包括训练模块，所述训练模块用于：

获取样本遗传物质片段以及所述样本遗传物质片段的样本效率结果；

拼接所述样本遗传物质片段的独热编码序列和位置矩阵特征序列，得到所述样本遗传物质片段的样本特征序列；

根据所述样本特征序列和所述样本效率结果训练预设初始模型，得到所述表达效率检测模型。

一种可选的实施方式中，所述训练模块还用于：

将所述样本遗传物质片段聚类为多个样本组；

针对每个样本组，确定该样本组中样本效率结果的结果差异，若所述结果差异大于预设差异阈值，则删除该样本组。

本公开实施例所提供的基因表达效率的确定装置可执行本公开任意实施例所提供的基因表达效率的确定方法，具备执行方法相应的功能模块和有益效果。

图10为本公开实施例提供的一种电子设备的结构示意图。如图10所示，电子设备1000包括一个或多个处理器1001和存储器1002。

处理器1001可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1000中的其他组件以执行期望的功能。

存储器1002可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行所述程序指令，以实现上文所述的本公开的实施例的基因表达效率的确定方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1000还可以包括：输入装置1003和输出装置1004，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入装置1003还可以包括例如键盘、鼠标等等。

该输出装置1004可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置1004可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备1000中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1000还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基因表达效率的确定方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基因表达效率的确定方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基因表达效率的确定方法，其特征在于，包括：

截取预设遗传物质，得到包含启动子的待测遗传物质片段；

2.根据权利要求1所述的方法，其特征在于，所述截取预设遗传物质，得到包含启动子的待测遗传物质片段，包括：

确定预设遗传物质中转录起始位点的位点位置；

3.根据权利要求1所述的方法，其特征在于，所述表达效率检测模型包括效率分类模型和效率回归模型，所述将所述待测遗传物质片段输入预先训练的表达效率检测模型中，得到所述预设遗传物质对应的表达效率结果，包括：

将所述待测遗传物质片段输入所述效率分类模型中，得到所述待测遗传物质片段的第一效率分类；

将所述待测遗传物质片段输入所述效率回归模型中，得到所述待测遗传物质片段的效率预测值；

根据所述第一效率分类和所述效率预测值确定所述表达效率结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一效率分类和所述效率预测值确定所述表达效率结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述预设遗传物质的数量为多个，所述方法还包括：

根据所述效率预测值对所述预设遗传物质进行降序排列，将排列在前预设位数的多个预设遗传物质确定为多个候选遗传物质；

将所述多个候选遗传物质中，第一效率分类与预设效率分类一致，且表达效率结果为第一效率分类的候选遗传物质确定为目标遗传物质。

6.根据权利要求1所述的方法，其特征在于，所述表达效率检测模型的训练过程包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述样本遗传物质片段聚类为多个样本组；

8.一种基因表达效率的确定装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。