CN115482879A - 基于卷积神经网络的变异临床效应分析识别方法及设备 - Google Patents

基于卷积神经网络的变异临床效应分析识别方法及设备 Download PDF

Info

Publication number
CN115482879A
CN115482879A CN202211281783.6A CN202211281783A CN115482879A CN 115482879 A CN115482879 A CN 115482879A CN 202211281783 A CN202211281783 A CN 202211281783A CN 115482879 A CN115482879 A CN 115482879A
Authority
CN
China
Prior art keywords
amino acid
training
samples
sample set
pathogenicity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211281783.6A
Other languages
English (en)
Inventor
肖飞
李畅
李贺鑫
邹丽辉
汤小琨
许思源
张丽丽
孙高远
李亦菲
张兰馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hospital
Original Assignee
Beijing Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hospital filed Critical Beijing Hospital
Priority to CN202211281783.6A priority Critical patent/CN115482879A/zh
Publication of CN115482879A publication Critical patent/CN115482879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请提出了一种基于卷积神经网络的变异临床效应分析识别方法及设备,通过对任意变体即目标样本的突变信息进行处理,生成目标结构域变异后的氨基酸序列后,据此预测对应的蛋白质三级结构,构建对应的氨基酸相互作用网络,提取目标样本的三维数据矩阵,输入包含多个基于卷积神经网络对训练样本集包含的数据平衡的正负样本进行训练所得到的基分类器的分类模型,可以准确得到针对该目标样本的多个致病性预测概率,从而根据最可靠致病性预测概率,实现对目标样本的可靠分类识别,据此实现变异临床效应分析识别。

Description

基于卷积神经网络的变异临床效应分析识别方法及设备
技术领域
本申请主要涉及图像处理技术领域,更具体地说是涉及一种基于卷积神经网络的变异临床效应分析识别方法及设备。
背景技术
随着测序技术的逐渐成熟,越来越多的意义未明变异被发现,从根本上限制了遗传信息的临床应用。传统的基于实验技术评估基因变异对功能影响的分析方法,因繁重的工作量导致经济和时间成本非常巨大。随着人工智能(Artificial Intelligence,AI)技术的快速发展,为计算机辅佐的变异致病性解释的研究来带契机。
对此,目前提出将变异序列、局部结构和其他有用特征输入预测模型,对致病性相关特征进行深度学习,高效且低成本地预测变异基因的致病性。然而,这种基于深度学习算法的预测方法依赖于大量数据,目前有限数量的样本数据(如完整蛋白质变异结构)将会影响预测结果精准度。
且在罕见的错义单核苷酸变异研究中,对于大分子基因的错义单核苷酸突变,良性突变的比例通常远远高于有害突变,导致预测模型分类严重失衡,这也会降低最终预测结果的精准度。
发明内容
为了解决上述技术问题,本申请提出了一种基于卷积神经网络的变异临床效应分析识别方法,所述方法包括:
获得目标样本的突变信息;
对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列;
将所述氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
基于所述蛋白质三级结构,构建氨基酸相互作用网络;
对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率;其中,所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器;所述训练样本集包含的正样本数量与负样本数量平衡;
基于所述多个致病性预测概率的比较结果,获得所述目标样本的变异分类结果。
可选的,所述基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器,包括:
获得初始样本集;
基于预处理模型,剔除所述初始样本集的干扰样本,得到候选训练样本集和测试样本集;所述预处理模型基于卷积神经网络训练得到,所述干扰样本包括困难样本和/或分类错误样本;所述测试样本集用于实现训练的所述分类模型的准确性验证;
基于所述候选训练样本集包含的第一类样本数量,对所述候选训练样本集包含的第二类样本进行随机下采样,得到用于训练基分类器的训练样本集;所述训练样本集包含的正负样本数量相同;
基于交叉熵损失函数,利用所述训练样本集包含的正负样本对初始卷积神经网络进行训练学习,得到多个基分类器。
可选的,所述对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列,包括:
提取所述突变信息中的原氨基酸、替换氨基酸以及氨基酸变异位点;
将三氨基酸表示的所述原氨基酸和所述替换氨基酸,转化为单氨基酸表示的原氨基酸和替换氨基酸;
检测到所述氨基酸变异位点位于目标结构域,利用所述单氨基酸表示的原氨基酸和替换氨基酸,生成所述目标结构域变异后的氨基酸序列。
可选的,所述基于所述蛋白质三级结构,构建氨基酸相互作用网络,包括:
获得所述蛋白质三级结构中的原子三维坐标信息;
基于所述原子三维坐标信息,对所述蛋白质三级结构中蛋白质分子的氨基酸残基之间的多种相互作用进行量化分析,构建氨基酸相互作用网络;
其中,所述氨基酸相互作用网络属于无向加权网络,构成所述无向加权网络的节点表示所述氨基酸残基,连接不同所述节点之间的边可以表示对应氨基酸残基之间的非共价相互作用。
可选的,所述对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵,包括:
获得所述氨基酸相互作用网络中氨基酸残基之间的多种相互作用,以及所述相互作用包含的子类相互作用;
提取所述多种相互作用和所述子类相互作用各自的强度,确定为氨基酸二维矩阵对应通道的元素值,构成三维数据矩阵;所述氨基酸二维矩阵由所述氨基酸相互作用网络中不同位置处的氨基酸构成。
可选的,所述将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率,包括:
将所述三维数据矩阵转换为三维张量;
将所述三维张量输入多个基分类器前向传播,分别对所述目标样本进行致病性识别,得到对应的致病性预测概率;
所述基于所述多个致病性预测概率的比较结果,获得所述目标样本的致病性分类结果,包括:
将得到的针对所述目标样本的多个所述致病性预测概率进行比较;
利用比较确定的满足预测要求的所述致病性预测概率,得到所述目标样本的致病性分类结果。
可选的,所述初始卷积神经网络包括残差神经网络ResNet-18;所述蛋白质预测模型基于AlphaFold2训练得到;
所述困难样本和所述分类错误样本是指所述预处理模型的变异样本识别错误且具有极端识别分数的样本;所述极端识别分数是指大于第一分数阈值或小于第二分数阈值的识别分数;
所述候选训练样本集中的第一类样本为正样本,第二类样本为负样本,且所述正负样本是依据已知临床信息,对具有属于目标结构域的氨基酸序列的变异样本分类确定;
在所述基分类器训练过程中,检测到所统计的训练迭代次数达到预设次数停止训练。
本申请还提出了一种基于卷积神经网络的变异临床效应分析识别装置,所述装置包括:
突变信息获得模块,用于获得目标样本的突变信息;
氨基酸序列生成模块,用于对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列;
蛋白质结构预测模块,用于将所述氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
氨基酸相互作用网络构建模块,用于基于所述蛋白质三级结构,构建氨基酸相互作用网络;
三维数据矩阵获得模块,用于对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
致病性识别模块,用于将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率;其中,所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器;所述训练样本集包含的正样本数量与负样本数量平衡;
变异分类结果获得模块,用于基于所述多个致病性预测概率的比较结果,获得所述目标样本的变异分类结果。
本申请还提出了一种计算机设备,所述计算机设备包括:
通信模块;
存储器,用于存储实现如上述的基于卷积神经网络的变异临床效应分析识别方法的程序;
处理器,用于加载执行所述存储器存储的程序,以实现如上述的基于卷积神经网络的变异临床效应分析识别方法。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载执行,实现如上述的基于卷积神经网络的变异临床效应分析识别方法。
由此可见,本申请实施例对任意变体即目标样本的突变信息进行处理,生成目标结构域变异后的氨基酸序列后,据此预测对应的蛋白质三级结构,构建对应的氨基酸相互作用网络,提取目标样本的三维数据矩阵,输入包含多个基于卷积神经网络对训练样本集包含的数据平衡的正负样本进行训练所得到的基分类器的分类模型,可以准确得到针对该目标样本的多个致病性预测概率,从而根据最可靠的致病性预测概率,实现对目标样本的可靠分类识别,据此实现变异临床效应分析识别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1a为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的计算机设备的一可选示例的硬件结构示意图;
图1b为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的一可选临床遗传研究环境下的***架构示意图;
图2为本申请提出的本申请提出的基于卷积神经网络的变异临床效应分析识别方法的一可选示例的流程示意图;
图3为本申请提出的本申请提出的基于卷积神经网络的变异临床效应分析识别方法的又一可选示例的流程示意图;
图4a为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法中,基于AlphaFold2模型预测得变体蛋白质三级结构示意图;
图4b为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法中,所构建的氨基酸相互作用网络示意图;
图4c为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法中,所构建三维数据矩阵展示图;
图4d为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法中,构建三维数据矩阵的一可选示例的流程示意图;
图5为本申请提出的本申请提出的基于卷积神经网络的变异临床效应分析识别方法的又一可选示例的流程示意图;
图6a为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,基于训练样本集对分类模型进行训练的准确率和损失收敛过程示意图;
图6b为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,构成分类模型的ResNet神经网络结构分析示意图;
图6c为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,构成分类模型的ResNet-18神经网络结构的输入输出关系示意图;
图6d为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,基于测试样本集对分类模型进行测试的准确率和损失收敛过程示意图;
图6e为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,各基分类器的ROC曲线、PR曲线及其AUC的模型性能测试结果示意图;
图6f为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,分类模型的全部测试样本集、正测试样本集、负测试样本集的识别正确率示意图;
图6g为多种生物信息分析工具对测试样本集的准确率比对示意图;
图7a为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,分类模型训练和评估过程,以及基于该分类模型实现对目标样本的致病性识别的一可选流程示意图;
图7b为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的,分类模型训练和评估过程,以及基于该分类模型实现对目标样本的致病性识别的又一可选流程示意图;
图8为本申请提出的基于卷积神经网络的变异临床效应分析识别装置的一可选示例的结构示意图。
具体实施方式
针对背景技术部分的描述,经过研究得知蛋白质的三维结构对于阐明其生物学功能至关重要,由于很难从现有的蛋白质结构数据库中,获得足够数量的完整蛋白质变异结构作为样本数据,实现基于深度学习的预测模型的训练,提出使用AlphaFold2模型预测蛋白质折叠的三维空间结构(即蛋白质的三维结构),解决使用实验技术确定蛋白质结构的巨大经济和时间要求,以高效获得蛋白质变异的更多三维结构。
另外,对于因正负样本数量失衡导致模型(如基于卷积神经网络训练得到的分类模型)预测结果偏颇的问题,本申请提出对采集到的样本进行预处理,以使得正负样本这两类变异样本的数量均衡,如用于训练分类模型的正样本数量与负样本数量相同,解决正负样本数量不平衡带来的局限,提高模型性能鲁棒性。
且本申请还提出基于卷积神经网络训练得到多个基分类器,通过集成这多个基分类器的预测结果获得最终的分类依据,从而提高样本的利用效率,提高变异临床效应分析识别的准确性和可靠性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合,也就是说,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请中使用的“***”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
参照图1a,为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的计算机设备的一可选示例的硬件结构示意图,该计算机设备可以是服务器和/或具有数据处理能力的电子设备,该服务器可以是一台物理服务器,也可以是多台物理服务器构成的服务集群,还可以是支持云计算的云服务器等;电子设备可以包括但并不局限于:智能手机、机器人、台式计算机、智慧医疗设备等。结合图1b所示的为适用于本申请提出的基于卷积神经网络的变异临床效应分析识别方法的临床遗传研究环境下的一可选***架构示意图,可以依据临床遗传研究场景的实际情况,确定计算机设备的产品类型。如图1a所示,该计算机设备可以包括:通信模块110、存储器120和处理器130,其中:
通信模块110可以包括能够利用无线通信网络或有线通信网络,实现与其他计算机设备进行数据交互的通信模块,如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等;在本申请实施例中,计算机设备可以使用这类通信模块110,与临床基因变异数据库(如Clinvar),和/或其他样本信息采集设备等进行通信,以获得用于实现本申请提出的基于卷积神经网络的变异临床效应分析识别方法所需的数据,本申请对该数据内容及其来源不做限制,可视情况而定。
可以理解,上述通信模块110还可以包括如USB接口、串/并口、I/O接口等通信接口,以实现计算机设备内部组成部件之间的数据交互。可选的,计算机设备包含的各I/O设备、USB设备、如上述各通信模块110等硬件,均可以连接通信总线,以实现相互之间的通信。本申请对该通信模块110的类型及其包含的数据接口数量、通信方式等均不做限定。
存储器120可以用于存储实现下文各方法实施例描述的基于卷积神经网络的变异临床效应分析识别方法的程序;处理器130可以加载并执行存储器存储的该程序,以实现下文相应方法实施例描述的基于卷积神经网络的变异临床效应分析识别方法的各个步骤,具体实现过程可以参照下文实施例相应部分的描述,本实施例在此不做详述。
本申请实施例中,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器130,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
应该理解的是,图1所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图1所示的更多的部件,或者组合某些部件,如显示器、各种传感器、电源等,本申请在此不做一一列举。
参照图2,为本申请提出的基于卷积神经网络的变异临床效应分析识别方法的一可选示例的流程示意图,该方法可以由上述服务器或电子设备执行,也可以由服务器和电子设备配合实现,如图2所示,该方法可以包括但并不局限于以下步骤:
步骤S21,获得目标样本的突变信息;
为了实现对任意变异样本(记为目标样本,可以是表征变异基因的任意类型样本)的临床效应分析识别,可以提取目标样本的突变信息,如按照HGVS(Human GenomeVariation Society,人类基因组变异协会)规则命名的氨基酸信息,如氨基酸变异位点pos、原氨基酸AAold、替换氨基酸AAalt等,本申请对变异样本的突变信息内容不做限制。
步骤S22,对该突变信息进行处理,生成目标结构域变异后的氨基酸序列;
为了构建目标样本的变异蛋白质结构,可以先获得该目标样本变异的氨基酸序列。如在BRCA1(Breastcancersusceptibilitygene1,乳腺癌1号基因)蛋白的变异临床效应研究应用中,其目标结构域为BRCT(BRCA1 C-terminus)结构域,其是基因DNA损伤修复***重要的信号传导和蛋白靶向结构域,可以通过对位于该BRCT结构域内(如1646-1859区间内)的BRCA1蛋白质片段(如氨基酸序列)进行变异临床效应分析识别,预测BRCA1蛋白变异的致病性。
因此,本申请实施例可以对目标样本的突变信息进行处理,确定目标样本的氨基酸变异位点位于对应的目标结构域(其可以依据目标样本确定),生成目标结构域变异后的氨基酸序列,如可以将其保存为fasta格式文件,实现过程本申请不做详述。
步骤S23,将该氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
本申请实施例中,蛋白质结构预测模型可以是基于AlphaFold2深度学习算法训练得到,用于预测蛋白质三维结构,但并不局限于这种蛋白质结构预测技术,本申请实施例对该蛋白质结构预测模型的训练实现方法不做详述。其中,预测得到的目标样本的蛋白质三级结构可以是PDB(Protein Database,蛋白质数据库)格式的程序数据库文件,但并不局限于此。
步骤S24,基于该蛋白质三级结构,构建氨基酸相互作用网络;
在实际应用中,由于一个氨基酸的替换对蛋白质分子中的折叠和螺旋结果往往影响很小,AlphaFold2模型预测出的变异蛋白质三维结构,与野生型蛋白质结构的相似度较高,无法保证分类模型的预测结果精准度。
对此,本申请提出对蛋白质结构预测模型所预测的蛋白质三级结构进行进一步推演,对蛋白质三级结构中蛋白质分子的氨基酸之间的氢键、非共价相互作用等信息进行分析,将蛋白质分析转化成氨基酸为节点,氨基酸残基之间的相互作用为边,构成氨基酸相互作用网络,即一种无向加权网络,本申请实施例对氨基酸相互作用网络的构建实现方法不做详述。
其中,氨基酸相互作用网络可以存储在格式为SIF(非加权)和NA(加权)的文件中,本申请对其存储实现方式不做限制,可视情况而定。
步骤S25,对氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
为了实现目标样本的致病性识别,得到卷积神经网络能够读取的三维数据矩阵,按照上述方法得到变异的氨基酸相互作用网络后,可以对其进行转化处理,将其包含的网络信息封装为MAT格式(matlab的数据存储的标准格式)的三维数据矩阵,该转化实现过程本申请不做详述。
步骤S26,将三维数据矩阵输入分类模型进行致病性识别,得到针对目标样本的多个致病性预测概率;
本申请实施例中,预先训练好的分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器,且为了解决正负样本数量不平衡问题,可以采用EasyEnsemble思想,依据预处理后的候选训练样本集中少数类样本数量,对其中多数类样本进行随机下采样处理,得到正负样本数量相同的训练样本集,用于实现对初始卷积神经网络的模型训练,得到所需的多个基分类器,本申请对基分类器的训练实现方法不做详述。
步骤S27,基于该多个致病性预测概率的比较结果,获得目标样本的变异分类结果。
按照上述方法,将所得到的三维数据矩阵输入预先训练好的多个基分类器,对目标样本进行致病性识别,得到每一个基分类器对该目标样本预测的致病性预测概率,之后,对这多个致病性预测概率进行对比分析,选择最可靠的预测值作为分类模型的分类依据,得到该目标样本的变异分类结果,如致病性变异或良性变异等,实现过程不做详述。
由上述分析可知,对于不同的目标样本,基于上述分类模型对其进行致病性预测,所确定的预测最可靠的基分类器可能不同,即对不同变异样本的分类依据可以不同。可见,本申请预先训练好的包含多个基分类器的分类模型,能够灵活且高精准度地实现对不同变异样本的致病性识别,保证对不同变异样本的分类识别准确性和可靠性。
参照图3,为本申请提出的基于卷积神经网络的变异临床效应分析识别方法的又一可选示例的流程示意图,本实施例可以对上文实施例描述的基于卷积神经网络的变异临床效应分析识别方法的一可选细化实现方式进行描述,如图3所示,该方法可以包括:
步骤S31,获得目标样本的突变信息;
步骤S32,提取该突变信息中的原氨基酸、替换氨基酸以及氨基酸变异位点;
步骤S33,将三氨基酸表示的原氨基酸和替换氨基酸,转化为单氨基酸表示的原氨基酸和替换氨基酸;
步骤S34,检测到氨基酸变异位点位于目标结构域,利用单氨基酸表示的原氨基酸和替换氨基酸,生成目标结构域变异后的氨基酸序列;
结合上文实施例对目标样本变异后的氨基酸序列的相关描述,可以将HGVS规则命名的原变异样本(即目标样本)H中提取氨基酸变异位点pos、原氨基酸AAold、替换氨基酸AA等,之后,可以将HGVS规则的三氨基酸表示法转化为单氨基酸表示法,即将突变信息中的氨基酸的三字母表示法转化为单字母表示法,得到氨基酸序列中的原氨基酸AA’old和替换氨基酸AA’alt,关于步骤S33的具体转化实现方法本申请不做详述。
对于上述提取出的氨基酸变异位点,可以通过检测其是否位于针对目标样本的目标结构域,来确定是否生成目标结构域变异后的氨基酸序列L,对于所生成的氨基酸序列L可以保存为FASTA格式(一种基于文本用于表示核酸序列或多肽序列的格式)的序列文件,本申请对氨基酸序列L的生成及其存储方式不做限制。
步骤S35,将该氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
本申请实施例中,蛋白质结构预测模型可以包括但并不应局限于基于AlphaFold2训练得到,即AlphaFold2模型,本申请实施例仅以AlphaFold2模型为例进行说明,参照图4a所示的基于AlphaFold2模型预测得变体蛋白质三级结构示意图,可以将上述得到的变异后的氨基酸序列L作为模型输入,输入AlphaFold2模型,之后,可以基于AlphaFold2运算原理对该氨基酸序列L进行分析,预测目标样本变异后的蛋白质三级结构。
其中,在AlphaFold2模型对输入的氨基酸序列L进行处理过程中,由于该AlphaFold2模型主要包括神经网络EvoFormer和结构模块(Structure module)这两个主要部分,EvoFormer主要是将图网络和多序列比对(Multiple Sequence Alignment,MSA)结合完成结构预测。本申请实施例中,按照上述方法得到变异的氨基酸序列L后,可以采用多序列比对方式,将其与已知蛋白质三级结构的参考氨基酸序列进行多序列对齐,确定针对该氨基酸序列L的保守区域,即查找与氨基酸序列L相似的参考氨基酸序列,其可以是指相似度达到该相似阈值(本申请对其数值不做限制)的参考氨基酸序列。之后,可以直接推理出空间和进化信息,经由结构模块将该信息转换成蛋白质的三级结构S,将S保存为PDB格式的结构文件。
步骤S36,获得该蛋白质三级结构中的原子三维坐标信息;
步骤S37,基于该原子三维坐标信息,对蛋白质三级结构中蛋白质分子的氨基酸残基之间的多种相互作用进行量化分析,构建氨基酸相互作用网络;
为了进一步证明上述蛋白质结构预测模型对单氨基酸替换变异预测得敏感性和可靠性,可以对上述蛋白质三级结构进行进一步推演,分析出额外的生化信息,如氨基酸之间的氢键、非共价相互作用等,以构建相应的氨基酸相互作用网络。
基于此,本申请实施例可以利用Probe程序定量计算原子间的各种相互作用,再将这些原子及其之间的相互作用构建为一个无向加权网络,即氨基酸相互作用网络M。可见,参照图4b所示的氨基酸相互作用网络示意图,构成该无向加权网络(即氨基酸相互作用网络M)的节点(如图4b中各圈所代表的对象)表示氨基酸残基,连接不同节点之间的边(如图4b中两个圈之间的连接线所代表的对象)可以表示对应氨基酸残基之间的非共价相互作用,如原子间接触、重叠、氢键和通用残基相互作用,及其包含的如主链和侧链的排列组合等子类相互作用,本申请对所预测的蛋白质三级结构包含的氨基酸残基之间的相互作用类型不做限制。
需要说明,关于构建氨基酸相互作用网络的实现方法包括但并不局限于上文描述的方法,可以依据实际需求进行适应性调整,本申请在此不做一一举例详述。
步骤S38,获得氨基酸相互作用网络中氨基酸残基之间的多种相互作用及其包含的子类相互作用;
步骤S39,提取多种相互作用和子类相互作用各自的强度,确定为氨基酸二维矩阵对应通道的元素值,构成三维数据矩阵;
本申请实施例中,如图4c所示,可以从构建的氨基酸相互作用网络中提取并整合成三维数据矩阵,该实现方法本申请不做限制。以步骤S38所获得的相互作用类型及其子类型总共为7类为例进行说明:
对上述构建的氨基酸相互作用网络M的网络信息进行转化处理,可以构建一个N×N×7的三维数据矩阵Mobj。对此,可以初始化N×N×7的三维全零矩阵,将氨基酸相互作用网络M中的7种相互作用(其包含子类型)分别提取为N×N的二维矩阵(即数组),将对应的相互作用强度映射赋值到Mobj的7个通道中的对应通道。因此,每个通道的氨基酸二维矩阵可以由氨基酸相互作用网络中不同位置处的氨基酸构成,且三维数据矩阵Mobj中行和列的坐标可以代表氨基酸序列中的氨基酸,元素值可以代表对应位置氨基酸之间的相互作用强度,如图4d所示。
更具体地说,若三维数据矩阵Mobj中的元素Mobj[row][col][i]可以表示蛋白质分子中第row个氨基酸与第col个氨基酸之间的第i种相互作用的强度,将主链与主链间、侧链与侧链间的原子间接触作为Mobj的第一层,将主链与侧链间的原子间接触作为Mobj的第二层,将主链与主链间、侧链与侧链间的氢键作为Mobj的第三层,将主链与侧链间的氢键作为Mobj的第四层,将主链与主链间、侧链与侧链间的重叠作为Mobj的第五层,将主链与侧链间的重叠作为Mobj的第六层,将氨基酸间的通用残基相互作用作为Mobj的第七层,但并不局限于本实施例描述的这种三维数据矩阵Mobj的构成,可以理解,在构建的氨基酸相互作用网络包含的相互作用类型及其子类型的数量改变,由此提取的三维数据矩阵的通道数量可以对应改变,本申请不做一一举例详述。
步骤S310,将该三维数据矩阵转换为三维张量;
步骤S311,将三维张量输入多个基分类器前向传播,分别对目标样本进行致病性识别,得到对应的致病性预测概率;
步骤S312,将得到的针对目标样本的多个致病性预测概率进行比较;
步骤S313,利用比较确定的满足预测要求的致病性预测概率,得到目标样本的致病性分类结果。
本申请实施例中,可以利用TensorFlow读取上述三维数据矩阵,将其转化为三维张量Tensor,将其输入预先训练好的分类模型,由训练好的多个基分类器前向传播,获得每个基分类器对该目标样本预测得概率值,即对该目标样本的致病性预测概率。
其中,上述基分类器可以是基于残差神经网络ResNet-18进行训练得到,其训练实现过程可以参照但并不局限于下文方法实施例对应部分的描述,本实施例在此不做详述。在获得针对同一目标样本的多个致病性预测概率后,根据最可靠致病性预测概率,即满足预测要求的致病性预测概率,可以是多个致病性预测概率中的最高或最低致病性预测概率,实现对目标样本的可靠分类识别,据此实现变异临床效应分析识别。
参照图5,为本申请提出的基于卷积神经网络的变异临床效应分析识别方法的又一可选示例的流程示意图,本实施例可以对上文分类模型的训练实现方法进行细化描述,但并不局限于本实施例描述的模型训练实现方法。关于如何使用该分类模型,实现变异临床效应分析识别的实现过程可以参照上文实施例对应部分的描述,本实施例在此不做赘述。如图5所示,上述分类模型的训练实现方法可以包括但并不局限于:
步骤S51,获得初始样本集;
本申请可以从数据库中读取样本构建初始样本集;或者直接采集各样本构成初始样本集等,本申请对初始样本集包含的变异样本的获得方法不做限制,可视情况而定。其中,该初始样本集可以包括初始训练样本集和初始测试样本集,后续可以按照上文描述方法对这两种样本集进行筛选。
应该理解的是,对于上述初始样本集包含各样本并不一定都是变异样本,也并不一定都会用于模型训练,因此,为了提高训练模型可靠性,需要对获得的初始样本集进行预处理,以剔除可能会干扰正负样本分类识别精准度的样本,其实现过程包括但并不局限于下文描述内容。
步骤S52,基于预处理模型,剔除所述初始样本集的干扰样本,得到候选训练样本集和测试样本集;
本申请实施例中,上述预处理模型可以基于卷积神经网络训练得到,在该预处理模型的训练过程中,所使用的训练样本可以是初始样本集中除用于训练分类模型之外的样本,用于识别拟作为训练样本集的变异样本,即识别初始样本集中剩余样本的变异效应,以将初始样本集中识别错误且具有极端分数的样本剔除,得到候选训练样本集和测试样本集。本申请对该预处理模型的训练实现方法不做详述。
在实际应用中,可以将上述初始样本集包含的样本(即除了用于训练预处理模型之外的样本)输入预处理模型,预测对应样本为变异样本的识别分数(其可以是预测概率或据此生成的分数等),基于该识别分数,确定对应样本是否为致病变异样本,若对应样本被错误识别为致病性变异样本或良性变异样本,且所得识别分数为大于第一分数阈值(如0.999等)或小于第二分数阈值(如0.001等)的极端识别分数,可以认为该样本属于干扰样本,不利于后续分类模型对正负样本的分类识别,需要将预处理模型识别出的干扰样本剔除,不作为后续数据集的划分对象,从而提高所生成的候选训练样本集和测试样本集的可靠性。
由此可见,上述干扰样本可以包括困难样本和/或分类错误样本,本申请实施例中,该困难样本和分类错误样本是指预处理模型的变异样本识别错误且具有极端识别分数的样本。可以理解,若本申请直接获得初始训练样本集和初始测试样本集,本申请也可以调用预处理模型识别其中的干扰样本后删除,得到对应的候选训练样本集和测试样本集,实现过程不做详述。
步骤S53,基于候选训练样本集包含的第一类样本数量,对候选训练样本集包含的第二类样本进行随机下采样,得到用于训练基分类器的训练样本集;
为了解决候选训练样本集中正负样本两种类型样本数量不平衡问题,在训练分类模型之前,可以对候选训练样本集做进一步筛选,对此本实施例采用EasyEnsemble方法实现,即利用少数类样本对多数类样本的数量进行随机下采样,以使采样到的少数类样本与多数类样本的数量均衡,即得到正负样本数量相同的训练样本集。
可见,上述第一类样本可以指候选训练样本集包含的两类样本中相对数量较少的一类样本,通常是指正样本,即致病性变异样本;对应地,第二类样本可以指候选训练样本集包含的两类样本中相对数量较多的一类样本,通常是指负样本,即良性变异样本。为了方便描述可以将第一类样本集记为正样本数据集Mpos,第二类样本集记为负样本数据集Mneg
这样,依据正样本数据集Mpos包含的正样本数量,对负样本数据集Mneg包含的负样本进行随机下采样,得到与正样本数量相同的负样本数据子集M’neg,由该负样本数据子集M’neg和正样本数据集Mpos,构成用于训练基分类器的训练样本集。需要说明,关于对候选训练样本集中正负样本的数量平衡实现方法,包括但并不局限于本申请描述的随机下采样实现方法。
对于上述正负样本可以依据已知临床信息,对具有属于目标结构域的氨基酸序列的变异样本分类确定。可选的,可以依据从临床基因变异数据库(如Clinvar)以及变异的功能实验结果中获取的变异与疾病的关系进行分类,如按照该关系,将致病性的变异样本定义为正样本,将良性的变异样本定义为负样本,但并不局限于本实施例描述的正负样本划分方式。需要说明,对于未分类的正负样本可以是具有属于目标结构域变异后的氨基酸序列的样本。
步骤S54,基于交叉熵损失函数,利用训练样本集包含的正负样本对初始卷积神经网络进行训练学习,得到多个基分类器;
按照上述方法获得训练样本集包含的数量平衡的正负样本后,可以使用TensorFlow读取该训练样本集中各训练样本的MAT格式的样本信息(即三维数据矩阵),通过tf.constant将其转换TensorFlow可读取的张量Tensor(即封装成Tensor格式的三维张量),有效记录该训练样本中的多维度信息,减少训练样本读取过程中的IO次数。
本申请可以采用小批量梯度下降方法实现模型训练,因此,可以将单个输入样本(即训练样本集中的每一个训练样本)的三维张量组合成预设大小batch_size(本申请对其数值不做限制,可视情况而定)的批处理样本数batch,封装成模型输入队列输入神经网络输入层,可以采取ResNet-18神经网络模型对输入队列进行处理。
其中,关于训练样本的三维张量的获取过程,即生成训练样本变异后的氨基酸序列,据此预测该训练样本变异的蛋白质三级结构,对其原子三维坐标信息进行分析,构建对应的氨基酸相互作用网络,将其封装成MAT格式的三维数字矩阵,再将其封装为三维张量,之后,再按照上段描述方法,构建模型输入队列,关于各封装样本的MAT格式的三维数字矩阵的获取过程,可以参照上文实施例对目标样本的三维张量的获取方法,本申请实施例在此不做详述。
参照图6a所示的各基分类器训练过程中的准确率和有效损失收敛过程示意图,在上述对初始卷积神经网络的训练学习过程中,即对ResNet-18神经网络模型的模型参数进行优化调整过程中,可以使用带权重的交叉熵损失函数,如下公式:
Figure BDA0003898600980000181
在上述公式中,Loss可以表示模型预测结果的损失值,K可以表示不同类别基分类器的个数,yj可以表示实际标签值,即样本类别标签数值,p(xj)可以表示softmax分类器输出的预测值。关于如何利用该交叉熵损失函数,动态调整模型参数直至收敛,实现分类模型的学习过程,本申请实施例在此不做详述。
其中,为了防止过度拟合,在批量梯度下降学习过程中,本实施例可以10个epoch(其数值是通过训练数据集的完整传递次数,一个epoch可以由一个或多个batch组成)的耐心间隔进行多次重复的下采样训练学习,得到多个基分类器T,实现过程本申请实施例不做详述。
可选的,对于上述用于训练基分类器的残差神经网络ResNet,如图6b所示,通过skip connection(残差连接)的作用,其可以表示为隐式地由指数个不同数量(其数值可视情况而定)的Residual block(残差块)叠加而成,当网络中具有n个残差块时,该残差网络可以看成为2n个网络集成,基于图6b所示的三层残差块,可以构建如图6c所示的ResNet-18神经网络结构的输入输出关系,但并不局限于图6c所示的网络结构。其中,关于ResNet-18神经网络结构各网络层的工作原理本申请实施例在此不做详述,且并不局限于图6c所示网络层所使用的函数,可以依据实际情况进行适应性调整,本申请不做一一举例详述。
基于此,按照上述方法对训练样本集包含的训练样本进行处理,得到模型输入序列后,可以将其输入如图6c所示的网神经网络进行训练学习,训练学习过程可以参照但并不局限于上文模型训练方法,本申请在此不做详述。
其中,在对上述基分类器Tj进行训练及优化评估过程中,可以使用接受者操作特征(Receiver Operator Characteristic,ROC)曲线和准确率召回率(Precision,Recall,PR)曲线下面积AUC(Area Under Curve)、真阳性率(True Positive Rate TPR)和真阴性率(True Negative Rate,TNR)等模型评估指标,对所训练的神经网络模型进行评估,结合图6d所示的各基分类器在评估过程中的有效准确率和有效损失收敛过程示意图,经过对以上下采样训练过程重复多次,得到满足评估标准的多个基分类器T。本申请对上述各模型评估指标的计算方法不做详述。
步骤S55,利用训练的多个基分类器,构成用于实现样本致病性识别的分类模型;
步骤S56,基于测试样本集包含的测试样本,对训练的分类模型进行准确性验证,得到对应的模型测试结果;
步骤S57,若该模型测试结果合格,存储该分类模型。
按照上述方法完成模型训练后,可以使用上述处理后的测试样本集包含的各测试样本(即变异样本,其具有对应的分类标签),对训练得到的待定分类模型包含的多个待定基分类器进行测试,结合上文描述的训练样本处理过程,可以对测试样本的变异信息自动执行生成氨基酸序列、预测变异后的蛋白质三级结构、构建氨基酸相互作用网络、提取三维数据矩阵,调用训练好的待定分类模型对其致病性进行识别,确定识别结果与测试样本的分类标签一致,可以确定所训练的待定分类模型的分类精准度满足要求,即模型测试结果合格,可以将该待定分类模型确定为所需的分类模型后进行存储。
可以理解,按照上述模型测试方法,确定模型测试结果不合格,可以按照上文描述的训练方法,继续对该待定分类模型的模型参数进行调整,优化分类模型,直至模型测试结果合格或满足预设模型训练条件(如统计到的训练迭代次数达到预设次数)停止训练,得到所需的分类模型。
可选的,在上述模型性能测试过程,如图6e左侧所示的各基分类器及最终模型的ROC曲线及其AUC所展示的敏感性Sensitivity和特异性Specificity关系,以及右侧所示的各基分类器及最终模型的PR曲线及其AUC所展示的召回率recall和精确率precision关系,可以通过ROC曲线、PR曲线及其AUC的敏感性Sensitivity、特异性Specificity、精确率precision、召回率recall等多方面,实现模型性能测试,并得到如图6f所示的全部测试样本集、正测试样本集、负测试样本集的识别正确率Accuracy(如准确率、真阳性率和真阴性率)。这与图6g所示的多种生物信息分析工具对测试样本集的准确率比对,该生物信息分析工具包括但并不局限于:MutPred2(预测氨基酸替换后的致病性及其分子机制)、FATHMM(FunctionalAnalysis Through Hidden Markov Models,基于隐马尔可夫模型的泛函分析)、PANTHER(Protein ANalysis THrough Evolutionary Relationships,通过进化关系进行蛋白质分析)、PROVEAN(Protein Variation Effect Analyzer,蛋白质变异效应分析仪)、SIFT(Sorting Intolerant From Tolerant,将不容忍者与容忍者区分开来)、AlignGVGD(一种错义变异致病性预测工具)、PolyPhen2(Polymorphism Phenotyping v2,一种基因突变致病性预测工具)等,通过对比可以有效证明本申请提出的上述结构的分类模型(如图6g所示的vERnet-B模型)预测的高精准度。
其中,上述敏感性Sensitivity是指在所有模型测试结果为正的数据中,预测出来正值的比例;上述召回率Recall的定义与敏感性Sensitivity相同;上述识别正确率Accuracy可以指指定测试样本集(可以是整个测试集、阳性样本测试集、阴性样本测试集)中,模型预测结果与真实结果相同的比例,是分类模型对总体、正样本、负样本预测的准确率;上述精确率precision是指所有模型预测结果为正的数据中,真实结果为正值的比例;上述特异性Specificity是指所有真实结果为负的数据中,模型预测结果为负值的比例,本申请对这些数值得计算方法不做详述。
综上,结合图7a和图7b所示的分类模型训练和评估过程,以及基于该分类模型实现对目标样本的致病性识别流程示意图,按照本申请实施例提出的这种基于AlphaFold2和卷积神经网络训练得到分类模型,用于实现变体致病性自动识别,即实现变异临床效应自动分析识别,相对于实验分析方式,大大降低了经济和时间成本,提高了识别精准度和可靠性。且本申请利用额外生化信息,对AlphaFold2模型预测得变异蛋白质三级结构做进一步推测,精准构建对应的氨基酸相互作用网络,有助于提高所提取特征的准确性和可靠性,以提高模型预测精准度。而且,在上述分类模型训练过程中,采用EasyEnsemble的思想,实现正负训练样本数量平衡,解决因正负样本数量失衡所造成的分类模型预测结果的偏颇,提高模型预测准确性。
参照图8,为本申请提出的基于卷积神经网络的变异临床效应分析识别装置的一可选示例的结构示意图,如图8所示,该装置可以包括:
突变信息获得模块81,用于获得目标样本的突变信息;
氨基酸序列生成模块82,用于对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列;
蛋白质结构预测模块83,用于将所述氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
氨基酸相互作用网络构建模块84,用于基于所述蛋白质三级结构,构建氨基酸相互作用网络;
三维数据矩阵获得模块85,用于对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
致病性识别模块86,用于将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率;
其中,所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器;所述训练样本集包含的正样本数量与负样本数量平衡;
变异分类结果获得模块87,用于基于所述多个致病性预测概率的比较结果,获得所述目标样本的变异分类结果。
可选的,上述装置的用于基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器,获得分类模型的分类模型训练模块可以包括:
初始样本获得单元,用于获得初始样本集;
干扰样本剔除单元,用于基于预处理模型,剔除所述初始样本集的干扰样本,得到候选训练样本集和测试样本集;
其中,预处理模型基于卷积神经网络训练得到,所述干扰样本包括困难样本和/或分类错误样本;所述测试样本集用于实现训练的所述分类模型的准确性验证。
可选的,困难样本和所述分类错误样本是指所述预处理模型的变异样本识别错误且具有极端识别分数的样本;所述极端识别分数是指大于第一分数阈值或小于第二分数阈值的识别分数。
正负样本平衡单元,用于基于所述候选训练样本集包含的第一类样本数量,对所述候选训练样本集包含的第二类样本进行随机下采样,得到用于训练基分类器的训练样本集;
本申请实施例中,上述训练样本集包含的正负样本数量相同;其中,候选训练样本集中的第一类样本为正样本,第二类样本为负样本,且所述正负样本是依据已知临床信息,对具有属于目标结构域的氨基酸序列的变异样本分类确定
基分类器训练单元,用于基于交叉熵损失函数,利用所述训练样本集包含的正负样本对初始卷积神经网络进行训练学习,得到多个基分类器。
其中,上述初始卷积神经网络可以包括残差神经网络ResNet-18;上述蛋白质预测模型可以基于AlphaFold2训练得到。在所述基分类器训练过程中,检测到所统计的训练迭代次数达到预设次数停止训练。
在又一些实施例中,上述氨基酸序列生成模块82可以包括:
信息提取单元,用于提取所述突变信息中的原氨基酸、替换氨基酸以及氨基酸变异位点;
氨基酸表示转化单元,用于将三氨基酸表示的所述原氨基酸和所述替换氨基酸,转化为单氨基酸表示的原氨基酸和替换氨基酸;
氨基酸序列生成单元,用于检测到所述氨基酸变异位点位于目标结构域,利用所述单氨基酸表示的原氨基酸和替换氨基酸,生成所述目标结构域变异后的氨基酸序列。
在又一些实施例中,上述氨基酸相互作用网络构建模块84可以包括:
三维坐标信息获得单元,用于获得所述蛋白质三级结构中的原子三维坐标信息;
量化分析单元,用于基于所述原子三维坐标信息,对所述蛋白质三级结构中蛋白质分子的氨基酸残基之间的多种相互作用进行量化分析,构建氨基酸相互作用网络;
其中,所述氨基酸相互作用网络属于无向加权网络,构成所述无向加权网络的节点表示所述氨基酸残基,连接不同所述节点之间的边可以表示对应氨基酸残基之间的非共价相互作用。
在又一些实施例中,上述三维数据矩阵获得模块85可以包括:
相互作用获得单元,用于获得所述氨基酸相互作用网络中氨基酸残基之间的多种相互作用,以及所述相互作用包含的子类相互作用;
三维数据矩阵构建单元,用于提取所述多种相互作用和所述子类相互作用各自的强度,确定为氨基酸二维矩阵对应通道的元素值,构成三维数据矩阵;所述氨基酸二维矩阵由所述氨基酸相互作用网络中不同位置处的氨基酸构成。
在又一些实施例中,致病性识别模块86可以包括:
三维张量获得单元,用于将所述三维数据矩阵转换为三维张量;
致病性识别单元,用于将所述三维张量输入多个基分类器前向传播,分别对所述目标样本进行致病性识别,得到对应的致病性预测概率;
基于此,上述变异分类结果获得模块87可以包括:
比较单元,用于将得到的针对所述目标样本的多个所述致病性预测概率进行比较;
致病性分类结果单元,用于利用比较确定的满足预测要求的所述致病性预测概率,得到所述目标样本的致病性分类结果。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请还提供了一种计算机可读存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的基于卷积神经网络的变异临床效应分析识别方法的各个步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
最后,需要说明的是,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备、***而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于卷积神经网络的变异临床效应分析识别方法,其特征在于,所述方法包括:
获得目标样本的突变信息;
对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列;
将所述氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
基于所述蛋白质三级结构,构建氨基酸相互作用网络;
对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率;其中,所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器;所述训练样本集包含的正样本数量与负样本数量平衡;
基于所述多个致病性预测概率的比较结果,获得所述目标样本的变异分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器,包括:
获得初始样本集;
基于预处理模型,剔除所述初始样本集的干扰样本,得到候选训练样本集和测试样本集;所述预处理模型基于卷积神经网络训练得到,所述干扰样本包括困难样本和/或分类错误样本;所述测试样本集用于实现训练的所述分类模型的准确性验证;
基于所述候选训练样本集包含的第一类样本数量,对所述候选训练样本集包含的第二类样本进行随机下采样,得到用于训练基分类器的训练样本集;所述训练样本集包含的正负样本数量相同;
基于交叉熵损失函数,利用所述训练样本集包含的正负样本对初始卷积神经网络进行训练学习,得到多个基分类器。
3.根据权利要求1所述的方法,其特征在于,所述对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列,包括:
提取所述突变信息中的原氨基酸、替换氨基酸以及氨基酸变异位点;
将三氨基酸表示的所述原氨基酸和所述替换氨基酸,转化为单氨基酸表示的原氨基酸和替换氨基酸;
检测到所述氨基酸变异位点位于目标结构域,利用所述单氨基酸表示的原氨基酸和替换氨基酸,生成所述目标结构域变异后的氨基酸序列。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述蛋白质三级结构,构建氨基酸相互作用网络,包括:
获得所述蛋白质三级结构中的原子三维坐标信息;
基于所述原子三维坐标信息,对所述蛋白质三级结构中蛋白质分子的氨基酸残基之间的多种相互作用进行量化分析,构建氨基酸相互作用网络;
其中,所述氨基酸相互作用网络属于无向加权网络,构成所述无向加权网络的节点表示所述氨基酸残基,连接不同所述节点之间的边可以表示对应氨基酸残基之间的非共价相互作用。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵,包括:
获得所述氨基酸相互作用网络中氨基酸残基之间的多种相互作用,以及所述相互作用包含的子类相互作用;
提取所述多种相互作用和所述子类相互作用各自的强度,确定为氨基酸二维矩阵对应通道的元素值,构成三维数据矩阵;所述氨基酸二维矩阵由所述氨基酸相互作用网络中不同位置处的氨基酸构成。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率,包括:
将所述三维数据矩阵转换为三维张量;
将所述三维张量输入多个基分类器前向传播,分别对所述目标样本进行致病性识别,得到对应的致病性预测概率;
所述基于所述多个致病性预测概率的比较结果,获得所述目标样本的致病性分类结果,包括:
将得到的针对所述目标样本的多个所述致病性预测概率进行比较;
利用比较确定的满足预测要求的所述致病性预测概率,得到所述目标样本的致病性分类结果。
7.根据权利要求2所述的方法,其特征在于,所述初始卷积神经网络包括残差神经网络ResNet-18;所述蛋白质预测模型基于AlphaFold2训练得到;
所述困难样本和所述分类错误样本是指所述预处理模型的变异样本识别错误且具有极端识别分数的样本;所述极端识别分数是指大于第一分数阈值或小于第二分数阈值的识别分数;
所述候选训练样本集中的第一类样本为正样本,第二类样本为负样本,且所述正负样本是依据已知临床信息,对具有属于目标结构域的氨基酸序列的变异样本分类确定;
在所述基分类器训练过程中,检测到所统计的训练迭代次数达到预设次数停止训练。
8.一种基于卷积神经网络的变异临床效应分析识别装置,其特征在于,所述装置包括:
突变信息获得模块,用于获得目标样本的突变信息;
氨基酸序列生成模块,用于对所述突变信息进行处理,生成目标结构域变异后的氨基酸序列;
蛋白质结构预测模块,用于将所述氨基酸序列输入蛋白质结构预测模型,预测对应的蛋白质三级结构;
氨基酸相互作用网络构建模块,用于基于所述蛋白质三级结构,构建氨基酸相互作用网络;
三维数据矩阵获得模块,用于对所述氨基酸相互作用网络的网络信息进行转化处理,得到三维数据矩阵;
致病性识别模块,用于将所述三维数据矩阵输入分类模型进行致病性识别,得到针对所述目标样本的多个致病性预测概率;其中,所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负样本进行训练得到的基分类器;所述训练样本集包含的正样本数量与负样本数量平衡;
变异分类结果获得模块,用于基于所述多个致病性预测概率的比较结果,获得所述目标样本的变异分类结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
通信模块;
存储器,用于存储实现如权利要求1-7任一项所述的基于卷积神经网络的变异临床效应分析识别方法的程序;
处理器,用于加载执行所述存储器存储的程序,以实现如权利要求1-7任一项所述的基于卷积神经网络的变异临床效应分析识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器加载执行,实现如权利要求1-7任一项所述的基于卷积神经网络的变异临床效应分析识别方法。
CN202211281783.6A 2022-10-19 2022-10-19 基于卷积神经网络的变异临床效应分析识别方法及设备 Pending CN115482879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211281783.6A CN115482879A (zh) 2022-10-19 2022-10-19 基于卷积神经网络的变异临床效应分析识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211281783.6A CN115482879A (zh) 2022-10-19 2022-10-19 基于卷积神经网络的变异临床效应分析识别方法及设备

Publications (1)

Publication Number Publication Date
CN115482879A true CN115482879A (zh) 2022-12-16

Family

ID=84395801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211281783.6A Pending CN115482879A (zh) 2022-10-19 2022-10-19 基于卷积神经网络的变异临床效应分析识别方法及设备

Country Status (1)

Country Link
CN (1) CN115482879A (zh)

Similar Documents

Publication Publication Date Title
CN112767997B (zh) 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
Gower et al. Detecting adaptive introgression in human evolution using convolutional neural networks
Le et al. SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data
CN111798921A (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN113257357B (zh) 蛋白质残基接触图预测方法
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
CN116959725A (zh) 一种多模态数据融合的疾病风险预测方法
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及***
CN105930687A (zh) 一种可在细菌全基因组水平预测外膜蛋白质的方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
Cheng et al. MOJITOO: a fast and universal method for integration of multimodal single-cell data
CN112966702A (zh) 蛋白质-配体复合物的分类方法及分类装置
Chen et al. Domain-based predictive models for protein-protein interaction prediction
CN115482879A (zh) 基于卷积神经网络的变异临床效应分析识别方法及设备
CN115757900A (zh) 应用人工智能模型的用户需求分析方法及***
Alzubaidi et al. A new hybrid global optimization approach for selecting clinical and biological features that are relevant to the effective diagnosis of ovarian cancer
CN111933288A (zh) 基于cnn的先天性耳聋疾病预测方法、***以及终端
Mapiye et al. Phenotype Prediction of DNA Sequence Data: A Machine-and Statistical Learning Approach
CN117437976B (zh) 基于基因检测的疾病风险筛查方法及***
CN117746997B (zh) 一种基于多模态先验信息的顺式调控模体识别方法
KR102429120B1 (ko) 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치
Han et al. Performing protein fold recognition by exploiting a stack convolutional neural network with the attention mechanism
WO2024016389A1 (zh) 泛素化位点的识别方法、装置、***和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination