CN114783524B - 基于自适应重采样深度编码器网络的通路异常检测*** - Google Patents

基于自适应重采样深度编码器网络的通路异常检测*** Download PDF

Info

Publication number
CN114783524B
CN114783524B CN202210685472.XA CN202210685472A CN114783524B CN 114783524 B CN114783524 B CN 114783524B CN 202210685472 A CN202210685472 A CN 202210685472A CN 114783524 B CN114783524 B CN 114783524B
Authority
CN
China
Prior art keywords
sample
training set
path
network
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210685472.XA
Other languages
English (en)
Other versions
CN114783524A (zh
Inventor
李劲松
童丹阳
王昱
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210685472.XA priority Critical patent/CN114783524B/zh
Publication of CN114783524A publication Critical patent/CN114783524A/zh
Application granted granted Critical
Publication of CN114783524B publication Critical patent/CN114783524B/zh
Priority to JP2023095082A priority patent/JP7381815B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于自适应重采样深度编码器网络的通路异常检测***,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。

Description

基于自适应重采样深度编码器网络的通路异常检测***
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于自适应重采样深度编码器网络的通路异常检测***。
背景技术
癌症的发病率和死亡率高,已经成为人类因疾病死亡的主要原因。随着人口数量的增长和人口老龄化的发展,癌症带来的疾病负担正在进一步加大。许多最新的研究发现,通过加入生物标志物等新的预后因子的方式可以对患者的疾病状况和预后情况进行更为个性化的描述。但目前,除了HER2和ER被用于乳腺癌的预后分期外,大多数肿瘤的研究中没有发现可靠的生物标志物,说明单一或少数几个基因无法提供有效的预后信息。因此需要从大量的基因中通过数据驱动的方式寻找出能提供有效预后信息的一系列基因。而基于通路知识将基因表达数据转换为患病个体的通路异常情况可以有效富集单一基因的预后信息,对患者的疾病状况和预后情况进行更为个性化的描述。
现有的个体通路异常情况评估方法包括PARADIGM和Pathifier这两种。其中PARADIGM方法在计算评估个体通路异常情况的过程中,需要通路具体的功能性结构信息以及完整的基因组学、转录组学和蛋白组学等多个尺度的组学数据;因此当通路结构较为复杂时需要花费大量的时间进行评估,而且评估个体通路异常情况时必须获取通路内涉及的全部基因、蛋白等不同尺度的信息;而在实际情况下,往往无法保证能获取患者某个通路中涉及的基因、蛋白等多个尺度的完整信息,因此该方法不适用于临床。Pathifier方法则不需要完整的通路信息,而且只需要单一尺度的组学数据如基因表达数据,其在评估过程中需要选择主成分数量并对背景基因数据进行过滤以获得主成分曲线,进而评估个体的通路异常情况;但该方法要求至少两例的患病样本数据,而且每次评估新患者的通路异常情况时需要基于所有样本重新获取主成分曲线,导致该方法无法获得稳定的通路异常情况。
发明内容
本发明针对现有技术的不足,提供一种基于自适应重采样深度编码器网络的通路异常检测***,本发明利用基于神经网络的深度编码器算法,将个体通路异常情况评估问题转换为异常检测问题,区分异常样本与正常样本,并评估异常样本相较于正常样本的通路异常程度,改进基于主成分曲线的通路异常情况评估算法无法稳定评估通路异常情况的问题。在充分利用先验知识的情况下,富集多个生物功能相近的基因的预后信息,有效评估患者的通路异常情况,可用于肿瘤预后预测准确性的提高,辅助医生制定患者的治疗计划。
本发明的目的是通过以下技术方案实现的:一种基于自适应重采样深度编码器网络的通路异常检测***,该***包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
进一步地,所述深度编码器网络的结构及参数如下:
假设生物功能信号通路p中共涉及
Figure 533791DEST_PATH_IMAGE001
个基因,KEGG通路数据库中通路p包含的KEGG 功能直系同源物ID的数目为
Figure 303164DEST_PATH_IMAGE002
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
将输入层与输出层的神经元个数设定为
Figure 73674DEST_PATH_IMAGE001
,将编码单元第一个编码层与解码单元 最后一个解码层的神经元个数设定为
Figure 903090DEST_PATH_IMAGE002
,将底层的神经元个数设定为通路数据库中通路p 的网络图中所包含的子通路网络的数目,记为net;假设编码层数量为
Figure 201128DEST_PATH_IMAGE003
,那么第code个编码层的神经元个数为
Figure 836509DEST_PATH_IMAGE004
进一步地,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
进一步地,所述通路异常检测模型的构建过程包括:
对于涉及
Figure 399208DEST_PATH_IMAGE001
个基因的生物功能信号通路p,将包含
Figure 461842DEST_PATH_IMAGE005
个正常样本基因表达数 据的正常样本构成原始训练集
Figure 477202DEST_PATH_IMAGE006
,设定基网络总数为
Figure 853957DEST_PATH_IMAGE007
初始化原始训练集
Figure 395797DEST_PATH_IMAGE008
的样本分布为均匀分布,将样本权重分布记为
Figure 268813DEST_PATH_IMAGE009
,其中
Figure 896103DEST_PATH_IMAGE010
为第i个样本的权重;
根据样本权重分布对样本进行重采样,得到当前训练集
Figure 748653DEST_PATH_IMAGE011
,并基于当前 训练集
Figure 144999DEST_PATH_IMAGE012
训练深度编码器网络,得到基网络
Figure 690381DEST_PATH_IMAGE013
将当前训练集
Figure 477071DEST_PATH_IMAGE014
的每个样本的网络预测值与实际值的差异
Figure 257946DEST_PATH_IMAGE015
投 影到高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure 148279DEST_PATH_IMAGE016
的每个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径
Figure 723617DEST_PATH_IMAGE017
为作为 基网络
Figure 200866DEST_PATH_IMAGE013
区分正常/异常样本的阈值;
将原始训练集
Figure 457535DEST_PATH_IMAGE008
的每个样本
Figure 828473DEST_PATH_IMAGE018
输入基网络
Figure 715658DEST_PATH_IMAGE013
,当样本
Figure 273678DEST_PATH_IMAGE018
对应的 投影点到最小超球体球心的距离
Figure 35835DEST_PATH_IMAGE019
时,将样本
Figure 261280DEST_PATH_IMAGE020
标记为异常样本,将异常 样本的集合记为
Figure 319366DEST_PATH_IMAGE021
,得到基网络
Figure 567945DEST_PATH_IMAGE013
在原始训练集
Figure 494313DEST_PATH_IMAGE006
上的误差率
Figure 449630DEST_PATH_IMAGE022
根据误差率
Figure 68830DEST_PATH_IMAGE023
计算得到当前基网络
Figure 969485DEST_PATH_IMAGE013
的权重系数
Figure 433964DEST_PATH_IMAGE024
,并对样本权重分布进行更 新;
判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L,若未达到 则根据更新后的样本权重分布重新进行重采样并训练基网络,若达到则根据基网络的权重 系数
Figure 509368DEST_PATH_IMAGE024
对L个基网络进行集成,得到通路异常检测模型H。
进一步地,所述根据样本权重分布对样本进行重采样,得到当前训练集,包括:
当基网络个数
Figure 299469DEST_PATH_IMAGE025
时,使用原始训练集
Figure 991482DEST_PATH_IMAGE026
作为当前训练集
Figure 400597DEST_PATH_IMAGE027
当基网络个数
Figure 455141DEST_PATH_IMAGE028
,根据样本权重分布
Figure 524466DEST_PATH_IMAGE029
进行重采样,步骤如下:
(1)随机产生一个实数m,取值范围为
Figure 31671DEST_PATH_IMAGE030
(2)将样本按照权重进行升序排列;
(3)根据二分查找算法,查找满足条件
Figure 978898DEST_PATH_IMAGE031
的索引j
(4)获得索引j对应的样本;
(5) 重复步骤(1)到步骤(4),直到获得
Figure 887948DEST_PATH_IMAGE032
个样本构成当前训练集
Figure 895218DEST_PATH_IMAGE033
进一步地,所述基网络
Figure 561823DEST_PATH_IMAGE034
的损失函数计算过程如下:
将当前训练集
Figure 437375DEST_PATH_IMAGE035
的每个样本
Figure 574833DEST_PATH_IMAGE036
作为基网络
Figure 612059DEST_PATH_IMAGE013
的输入,获取每个样本 的重构向量
Figure 234802DEST_PATH_IMAGE037
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为
Figure 648466DEST_PATH_IMAGE038
,如果是激活 作用则
Figure 407474DEST_PATH_IMAGE039
,如果是抑制作用则
Figure 287706DEST_PATH_IMAGE040
;将基因k在通路p的重要性记为
Figure 256799DEST_PATH_IMAGE041
, 其中
Figure 848055DEST_PATH_IMAGE042
为有向图中经过基因k的路径数量,
Figure 586204DEST_PATH_IMAGE043
为所有基因的
Figure 106178DEST_PATH_IMAGE044
的最大值;将基因k在 通路p的贡献记为
Figure 296988DEST_PATH_IMAGE045
,其中
Figure 927820DEST_PATH_IMAGE046
为训练集
Figure 786055DEST_PATH_IMAGE047
中基因k的变异系数;将基因k在通路p的权重记为
Figure 476930DEST_PATH_IMAGE048
,K为通路p的基因集合;
样本
Figure 155036DEST_PATH_IMAGE049
的损失函数
Figure 93954DEST_PATH_IMAGE050
记为:
Figure 806695DEST_PATH_IMAGE051
其中,
Figure 465210DEST_PATH_IMAGE052
分别为样本
Figure 771557DEST_PATH_IMAGE053
和重构向量
Figure 868826DEST_PATH_IMAGE054
的第k个元 素,
Figure 311440DEST_PATH_IMAGE055
为当前训练集
Figure 468752DEST_PATH_IMAGE056
的所有样本第k个元素的平均值,
Figure 229772DEST_PATH_IMAGE057
为重构向量
Figure 130732DEST_PATH_IMAGE058
的所有样本第k个元素的平均值。
进一步地,所述超球体的半径最小化公式如下:
Figure 693432DEST_PATH_IMAGE059
其中,
Figure 21645DEST_PATH_IMAGE060
为第l个基网络的超球体的半径;
Figure 37005DEST_PATH_IMAGE061
为第l个基网络的超球体的球心;
Figure 148181DEST_PATH_IMAGE062
为第l个基网络中差异
Figure 690021DEST_PATH_IMAGE063
投影到高维空间当中的投影点对应的松弛因子;
Figure 563037DEST_PATH_IMAGE064
为负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure 190327DEST_PATH_IMAGE065
为投影点到球心的距离,记为
Figure 42876DEST_PATH_IMAGE066
Figure 704802DEST_PATH_IMAGE067
为第l个基网络的调节复杂度 的误差惩罚系数。
进一步地,对样本权重分布进行更新的公式如下:
Figure 250184DEST_PATH_IMAGE068
其中,
Figure 771295DEST_PATH_IMAGE069
分别为样本
Figure 21011DEST_PATH_IMAGE070
在样本权重分布
Figure 708082DEST_PATH_IMAGE071
中的权重,
Figure 548999DEST_PATH_IMAGE072
为样本
Figure 760669DEST_PATH_IMAGE073
输入基网络
Figure 345234DEST_PATH_IMAGE013
后得到的正常/异常样本识别结果;
Figure 591538DEST_PATH_IMAGE074
是使
Figure 603357DEST_PATH_IMAGE075
成为概率分布的规范化因子。
进一步地,利用原始训练集
Figure 302322DEST_PATH_IMAGE076
计算通路异常检测模型H预测值与实际值 的差异,并计算将差异投影到高维空间当中的最小超球体
Figure 424999DEST_PATH_IMAGE077
的半径
Figure 307503DEST_PATH_IMAGE078
,将
Figure 490223DEST_PATH_IMAGE079
作为通路异常 检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 676484DEST_PATH_IMAGE077
球心的平均 距离,记为
Figure 602852DEST_PATH_IMAGE080
。进一步地,所述通路异常检测模块用于评估个体通路异常情况,具体为:
对于通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本通过 通路异常检测模型得到的预测值与实际值的差异
Figure 823749DEST_PATH_IMAGE081
,计算得到
Figure 849474DEST_PATH_IMAGE082
在高维空间的投 影点到最小超球体
Figure 850928DEST_PATH_IMAGE077
球心的距离
Figure 580986DEST_PATH_IMAGE083
,并根据阈值
Figure 951663DEST_PATH_IMAGE084
判断该患者样本在通路p中是否为 异常样本:当
Figure 679447DEST_PATH_IMAGE085
时,该患者样本为通路p正常样本,并将该患者通路p的通路异常评 分记为0;当
Figure 637039DEST_PATH_IMAGE086
时,该患者样本为通路p异常样本,并将
Figure 46155DEST_PATH_IMAGE087
作 为该患者通路p的通路异常评分。
本发明的有益效果是:本发明在充分利用通路知识的情况下,有效解决现有方法无法用于单一患者的通路异常情况评估的问题;集成多个深度编码器网络构建的通路异常检测模型提高了对正常样本的识别能力,具有良好的可扩展性,利于海量数据的大规模处理;基于通路异常检测模型的预测值与实际值的差异对样本是否异常进行区分,并计算样本的通路异常评分,能够评估患病样本相较于正常样本的通路异常程度。
附图说明
图1为本发明基于自适应重采样深度编码器网络的通路异常检测***结构框架图。
图2为本发明实施例提供的通路异常检测模型训练流程图。
图3为本发明实施例提供的深度编码器网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
通路指基于既往的科学研究得到与生物***内同一功能相关的基因或分子间的相互作用、反应和关系网络,而通路异常检测指对于某个患病个体的某个通路的活动情况与健康个体同一通路的活动情况的差异的评估,包括是否与健康个体有显著差异,以及差异程度的评估。
本发明提供一种基于自适应重采样深度编码器网络的通路异常检测***,如图1,该***包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练能够有效识别正常样本和异常样本的深度编码器网络,将训练好的深度编码器网络作为通路异常检测模型;
通路异常检测模块:用于对肿瘤组织样本基因表达数据进行分析,评估个体通路异常情况。
通路异常检测模型训练过程如图2所示。为了提高通路异常检测模型对正常样本的识别能力,完成数据预处理后,基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后重复上述过程,训练多个深度编码器网络,最后对多个深度编码器网络进行集成来获得能够有效识别正常样本和异常样本的通路异常检测模型,用于通路异常检测。具体步骤如下:
(1)深度编码器网络参数设定
假设某个生物功能信号通路p中共涉及
Figure 100698DEST_PATH_IMAGE001
个基因,KEGG(京都基因与基因组百科全 书)通路数据库中通路p包含的KEGG ORTHOLOGY ID(KEGG功能直系同源物ID,每个ID代表一 类功能已知的同源基因)的数目为
Figure 405909DEST_PATH_IMAGE002
,深度编码器网络包括依次连接的输入层、编码单元、 底层、解码单元、输出层。编码单元包括至少两个编码层,解码单元包括与编码单元各编码 层相对应的解码层;编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数 相同;
其中,输入层与输出层的神经元个数为
Figure 178693DEST_PATH_IMAGE001
,考虑到通路内部分基因之间有类似的生 物功能,相关性较高,因此需要对生物功能类似的基因进行处理,将编码单元第一个编码层E 1与解码单元最后一个解码层D 1的神经元个数设定为
Figure 624455DEST_PATH_IMAGE088
;第一个编码层E 1和输出层的激活 函数为Relu;
其余编码层、解码层和底层的神经元个数确定方法为:首先确定底层的神经元个 数,其数量为通路数据库(KEGG、Reactome等)中通路p的网络图中所包含的子通路网络的数 目,记为net;假设编码层数量为
Figure 533506DEST_PATH_IMAGE003
,那么第code个编码层的神经元 个数为
Figure 540776DEST_PATH_IMAGE089
,相对应的解码层与编码层神经元个数相同;第一 个编码层E 1和输出层之间的编码层、解码层和底层的激活函数为tanh。
本发明还在深度编码器网络中加入L 2约束,可以有效防止模型过拟合。
在一个实施例中,如图3所示,深度编码器网络为11层网络,包括依次连接的输入 层、4个编码层、底层、4个解码层、输出层。其中,输入层与输出层的神经元个数为
Figure 535277DEST_PATH_IMAGE001
,将编码 层E 1与解码层D 1的神经元个数设定为
Figure 82933DEST_PATH_IMAGE002
,编码层E 1和输出层的激活函数为Relu,解码层D 1的 激活函数为tanh。
当底层的神经元个数为net时,编码层E 2与解码层D 2的神经元个数为
Figure 721856DEST_PATH_IMAGE090
,激活函数为tanh;编码层E 3与解码层D 3的神经元个数为
Figure 24661DEST_PATH_IMAGE091
,激活函数为tanh;编码层E 4与解码层D 4的神经元个数为
Figure 880359DEST_PATH_IMAGE092
,激活函数为tanh;底层的激活函数为tanh。
(2)基于正常样本基因表达数据训练深度编码器网络
对于某个涉及
Figure 294023DEST_PATH_IMAGE001
个基因的生物功能信号通路p,将包含
Figure 787452DEST_PATH_IMAGE093
个正常样本基因表 达数据的正常样本构成原始训练集
Figure 261159DEST_PATH_IMAGE094
,设定基网络总数为
Figure 105618DEST_PATH_IMAGE007
(2.1)初始化样本权重
初始化原始训练集
Figure 322973DEST_PATH_IMAGE095
的样本分布为均匀分布,那么每个样本的权重均为
Figure 936488DEST_PATH_IMAGE096
,此时基网络个数
Figure 581096DEST_PATH_IMAGE097
,样本权重分布为
Figure 213984DEST_PATH_IMAGE098
(2.2)根据样本权重分布对样本进行重采样
当基网络个数
Figure 844816DEST_PATH_IMAGE097
时,可以直接使用原始训练集
Figure 703051DEST_PATH_IMAGE095
作为当前训练集,不 需要进行重采样,即当前训练集
Figure 128347DEST_PATH_IMAGE099
当基网络个数
Figure 72032DEST_PATH_IMAGE100
时,需要根据样本权重分布
Figure 506556DEST_PATH_IMAGE101
进行重采样,这里使用FiltEX算 法来实现,具体流程如下:
a.随机产生一个实数m,该实数的取值范围为
Figure 953718DEST_PATH_IMAGE030
b.将样本按照权重进行升序排列;
c.根据二分查找算法,查找满足条件
Figure 314030DEST_PATH_IMAGE031
的索引j
d.获得索引j对应的样本;
e.重复步骤a-d,直到获得
Figure 479432DEST_PATH_IMAGE102
个样本构成当前训练集
Figure 248805DEST_PATH_IMAGE103
(2.3)初始化深度编码器网络
基于步骤(2.2)中获得的当前训练集
Figure 956998DEST_PATH_IMAGE035
,训练深度编码器网络,使用梯度 下降算法结合反向传播算法对深度编码器网络进行调整,得到基网络
Figure 848730DEST_PATH_IMAGE104
(2.4)训练深度编码器网络
将当前训练集
Figure 376795DEST_PATH_IMAGE035
的每个样本
Figure 277755DEST_PATH_IMAGE105
作为基网络
Figure 135727DEST_PATH_IMAGE104
的输入,获取每个样本 的重构向量
Figure 339306DEST_PATH_IMAGE054
由于通路中不同基因的重要性不同,因此计算基网络
Figure 479301DEST_PATH_IMAGE104
的损失函数时需要考虑通 路中各个基因的权重。从通路数据库(KEGG、Reactome等)获取通路p的有向图,图的每个节 点为通路p中的基因,图的每条边描述节点和/或节点产物中基因之间的生化激活或抑制相 互作用。以没有传入边的节点(入度为0)作为起点,以没有传出边(出度为0)的节点作为终 点,计算路径时禁止出现循环。将基因k对通路p的影响记为
Figure 793738DEST_PATH_IMAGE106
,如果是激活作用则
Figure 69999DEST_PATH_IMAGE107
, 如果是抑制作用则
Figure 444480DEST_PATH_IMAGE108
;将基因k在通路p的重要性记为
Figure 71770DEST_PATH_IMAGE109
,其中
Figure 485172DEST_PATH_IMAGE110
为有向图 中经过基因k的路径数量,
Figure 756884DEST_PATH_IMAGE111
为所有基因的
Figure 426900DEST_PATH_IMAGE110
的最大值;
Figure 416853DEST_PATH_IMAGE112
为训练集
Figure 463306DEST_PATH_IMAGE035
中 基因k的变异系数;基因k在通路p的贡献记为
Figure 323946DEST_PATH_IMAGE113
;最终基因k在通路p的权重记为
Figure 164863DEST_PATH_IMAGE114
,K为通路p的基因集合,即基因k的贡献占通路p中全部基因贡献和的比率,使 得
Figure 134787DEST_PATH_IMAGE115
最终样本
Figure 719352DEST_PATH_IMAGE116
的损失函数
Figure 965657DEST_PATH_IMAGE117
记为:
Figure 977476DEST_PATH_IMAGE118
其中,
Figure 942020DEST_PATH_IMAGE052
分别为样本
Figure 736801DEST_PATH_IMAGE105
和重构向量
Figure 962246DEST_PATH_IMAGE054
的第k个元 素,
Figure 784446DEST_PATH_IMAGE055
为当前训练集
Figure 95342DEST_PATH_IMAGE056
的所有样本第k个元素的平均值,
Figure 897076DEST_PATH_IMAGE057
为重构向量
Figure 977027DEST_PATH_IMAGE058
的所有样本第k个元素的平均值;该损失函数用于进行当前基网络
Figure 206015DEST_PATH_IMAGE119
的训练和优 化。
(2.5)计算当前基网络区分正常/异常样本的阈值
引入核函数将当前训练集
Figure 4206DEST_PATH_IMAGE056
的每个样本的网络预测值与实际值的差异
Figure 406369DEST_PATH_IMAGE120
投影到 高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure 980307DEST_PATH_IMAGE121
的每 个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径作为当前基网 络区分正常/异常样本的阈值。超球体的半径最小化公式如下:
Figure 504830DEST_PATH_IMAGE122
其中,
Figure 665684DEST_PATH_IMAGE123
为第l个基网络的超球体的半径;
Figure 668275DEST_PATH_IMAGE124
为第l个基网络的超球体的球心;
Figure 598185DEST_PATH_IMAGE125
为第l个基网络中
Figure 559187DEST_PATH_IMAGE126
投影到高维空间当中的投影点对应的松弛因子;
Figure 4075DEST_PATH_IMAGE127
为 负责将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure 13619DEST_PATH_IMAGE128
为投影点到球心的距离,记为
Figure 358888DEST_PATH_IMAGE066
Figure 100579DEST_PATH_IMAGE067
为第l个基网络的调节复杂度 的误差惩罚系数。
(2.6)根据深度编码器网络对原始训练集进行分类,并调整样本权重
将原始训练集
Figure 360659DEST_PATH_IMAGE129
的每个样本
Figure 845998DEST_PATH_IMAGE130
作为基网络
Figure 875134DEST_PATH_IMAGE131
的输入,获取每个样 本的重构向量
Figure 53306DEST_PATH_IMAGE132
,当样本
Figure 269523DEST_PATH_IMAGE133
对应的
Figure 62948DEST_PATH_IMAGE134
时,将样本
Figure 946590DEST_PATH_IMAGE130
标记为异常 样本,将异常样本的集合记为
Figure 295663DEST_PATH_IMAGE135
,最终得到基网络
Figure 264756DEST_PATH_IMAGE136
在原始训练集
Figure 91898DEST_PATH_IMAGE076
上的误差率
Figure 95626DEST_PATH_IMAGE137
,即原始训练集
Figure 615600DEST_PATH_IMAGE138
中被基网络
Figure 242628DEST_PATH_IMAGE131
识别为异常样本的样本权重之和。
(2.7)更新样本权重分布
Figure 201357DEST_PATH_IMAGE139
根据误差率
Figure 466116DEST_PATH_IMAGE140
计算得到当前基网络
Figure 281625DEST_PATH_IMAGE131
的权重系数
Figure 100677DEST_PATH_IMAGE141
,并对样本权重分 布进行更新:
Figure 659834DEST_PATH_IMAGE142
其中,
Figure 247941DEST_PATH_IMAGE143
分别为样本
Figure 968773DEST_PATH_IMAGE144
Figure 508076DEST_PATH_IMAGE145
中的权重,
Figure 605345DEST_PATH_IMAGE146
为样本
Figure 313538DEST_PATH_IMAGE144
输入基网络
Figure 205271DEST_PATH_IMAGE147
后得到的正常/异常样本识别结果;
Figure 998915DEST_PATH_IMAGE148
,是使
Figure 571978DEST_PATH_IMAGE149
成为概率分布的规范化因子。
(2.8)判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L;
Figure 196995DEST_PATH_IMAGE150
时,
Figure 695847DEST_PATH_IMAGE151
,返回步骤(2.2),根据更新后的样本权重分布重新进行重 采样并训练基网络;
Figure 835841DEST_PATH_IMAGE152
时,进入步骤(2.9)。
(2.9)对得到的L个基网络进行集成
根据基网络的权重系数
Figure 415858DEST_PATH_IMAGE153
,对L个基网络
Figure 957698DEST_PATH_IMAGE131
进行集成,最终得到的通路异常检测模 型为
Figure 332179DEST_PATH_IMAGE154
基于通路异常检测模型H,利用原始训练集
Figure 959469DEST_PATH_IMAGE026
计算通路异常检测模型预 测值与实际值的差异,并计算将差异投影到高维空间当中的最小超球体
Figure 77598DEST_PATH_IMAGE077
的半径
Figure 473944DEST_PATH_IMAGE078
,将
Figure 269860DEST_PATH_IMAGE079
作为通路异常检测模型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 384447DEST_PATH_IMAGE077
球心的平均距离,记为
Figure 40687DEST_PATH_IMAGE080
通过通路异常检测模块评估患者样本的通路异常情况,具体为:
对于某个通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本 通过通路异常检测模型得到的预测值与实际值的差异
Figure 557119DEST_PATH_IMAGE155
,计算得到
Figure 273402DEST_PATH_IMAGE156
在高维空间 的投影点到最小超球体
Figure 875285DEST_PATH_IMAGE077
球心的距离
Figure 335216DEST_PATH_IMAGE157
,并根据阈值
Figure 876794DEST_PATH_IMAGE158
判断该患者样本在通路p中是 否为异常样本:当
Figure 91874DEST_PATH_IMAGE085
时,该患者样本为通路p正常样本,并将该患者通路p的通路异 常评分记为0;当
Figure 587578DEST_PATH_IMAGE159
时,该患者样本为通路p异常样本,并将
Figure 975834DEST_PATH_IMAGE087
作为该患者通路p的通路异常评分,即:
Figure 76645DEST_PATH_IMAGE160
其中,
Figure 259365DEST_PATH_IMAGE161
分别为患者i通路p的正常/异常样本标识和通路异常评分。
重复上述步骤,即可对患者所有通路的通路异常情况进行评估。
实施例
使用基因型组织表达(项目)GTEx中的308例正常结肠组织样本的基因表达数据进行KEGG中的人类通路结直肠癌的通路异常检测***构建,并使用癌症基因组图谱(项目)TCGA中的41例癌旁正常结肠组织和286例结肠肿瘤组织的基因表达数据进行***的性能评估。其中GTEx的308例正常结肠组织样本作为训练数据集,TCGA的41例癌旁正常结肠组织和286例结肠肿瘤组织作为验证数据集。
该通路共包含86个基因,72个KEGG ORTHOLOGY ID,20个子通路网络,深度编码器 网络采用如图3所示的结构,因此深度编码器网络的各层神经元个数分别为:输入层86个, 编码层
Figure 711206DEST_PATH_IMAGE162
72个,编码层
Figure 637573DEST_PATH_IMAGE163
59个,编码层
Figure 825847DEST_PATH_IMAGE164
46个,编码层
Figure 445047DEST_PATH_IMAGE165
33个,底层20个,解码层
Figure 118605DEST_PATH_IMAGE166
33个, 解码层
Figure 848664DEST_PATH_IMAGE167
46个,解码层
Figure 658488DEST_PATH_IMAGE168
59个,解码层
Figure 448589DEST_PATH_IMAGE169
72个,输出层86个。
最终构建的通路异常检测模型将训练数据集中的306例样本识别为正常样本,即识别准确率达到99.35%。在验证数据集中,该通路异常检测模型将TCGA癌旁正常结肠组织中的39例样本识别为正常样本,识别准确率为95.12%;该通路异常检测模型将TCGA结肠肿瘤组织中的274例样本识别为异常样本,识别准确率为95.80%;并评估得到TCGA结肠肿瘤组织的通路异常评分。
然后进行模型稳定性测试。随机选取286例TCGA结肠肿瘤组织中的57例样本,并随机生成57例噪声数据,通过通路异常检测模型对这114例样本进行评估,评估结果中,模型将随机选取的57例TCGA结肠肿瘤组织中的54例识别为异常样本,3例识别为正常样本,结果与未加入噪声数据时的识别结果完全一致。在模型稳定性测试中,在保留6位小数的情况下,57例随机选取的TCGA结肠肿瘤组织的通路异常评分与未加入噪声数据时的识别结果完全一致。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (7)

1.一种基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,包括数据采集模块、数据预处理模块、通路异常检测模型构建模块和通路异常检测模块;
数据采集模块:用于采集肿瘤组织样本基因表达数据;
数据预处理模块:用于对肿瘤组织样本基因表达数据进行缺失值处理和归一化处理;
通路异常检测模型构建模块:基于正常样本基因表达数据训练深度编码器网络,包括:基于重采样从原始训练集中获取当前训练集,基于当前训练集训练一个深度编码器网络,并基于深度编码器网络预测值与实际值的差异获得一个阈值来识别原始训练集中的样本为正常样本或异常样本,对原始训练集中被识别为异常样本的样本权重进行调整后训练下一个深度编码器网络;对多个深度编码器网络进行集成,获得能够有效识别正常样本和异常样本的通路异常检测模型;
所述深度编码器网络的结构及参数如下:
假设生物功能信号通路p中共涉及
Figure DEST_PATH_IMAGE001
个基因,KEGG通路数据库中通路p包含的KEGG功能 直系同源物ID的数目为
Figure 355908DEST_PATH_IMAGE002
所述深度编码器网络包括依次连接的输入层、编码单元、底层、解码单元和输出层,所述编码单元包括至少两个编码层,所述解码单元包括与编码单元各编码层相对应的解码层;所述编码层和解码层均为隐藏层,相对应的编码层和解码层的神经元个数相同;
将输入层与输出层的神经元个数设定为
Figure 393134DEST_PATH_IMAGE001
,将编码单元第一个编码层与解码单元最后 一个解码层的神经元个数设定为
Figure 422401DEST_PATH_IMAGE002
,将底层的神经元个数设定为通路数据库中通路p的网 络图中所包含的子通路网络的数目,记为net;假设编码层数量为
Figure DEST_PATH_IMAGE003
,那么第code个编码层的神经元个数为
Figure 367223DEST_PATH_IMAGE004
所述通路异常检测模型的构建过程包括:
对于涉及
Figure 250866DEST_PATH_IMAGE001
个基因的生物功能信号通路p,将包含
Figure DEST_PATH_IMAGE005
个正常样本基因表达数据的 正常样本构成原始训练集
Figure 239419DEST_PATH_IMAGE006
,设定基网络总数为
Figure DEST_PATH_IMAGE007
初始化原始训练集
Figure 287141DEST_PATH_IMAGE008
的样本分布为均匀分布,将样本权重分布记为
Figure DEST_PATH_IMAGE009
,其中
Figure 504495DEST_PATH_IMAGE010
为第i个样本的权重;
根据样本权重分布对样本进行重采样,得到当前训练集
Figure DEST_PATH_IMAGE011
,并基于当前训练 集
Figure 616546DEST_PATH_IMAGE012
训练深度编码器网络,得到基网络
Figure DEST_PATH_IMAGE013
将当前训练集
Figure 277465DEST_PATH_IMAGE012
的每个样本的网络预测值与实际值的差异
Figure 733854DEST_PATH_IMAGE014
投影到 高维空间当中,并在该高维空间寻找一个半径最小的超球体,使得训练集
Figure DEST_PATH_IMAGE015
的每 个样本的网络预测值与实际值的差异均落在该超球体内,将该超球体的半径
Figure 66484DEST_PATH_IMAGE016
为作为基网 络
Figure 659140DEST_PATH_IMAGE013
区分正常/异常样本的阈值;
将原始训练集
Figure 474649DEST_PATH_IMAGE008
的每个样本
Figure DEST_PATH_IMAGE017
输入基网络
Figure 434646DEST_PATH_IMAGE013
,当样本
Figure 790541DEST_PATH_IMAGE017
对应的投影 点到最小超球体球心的距离
Figure 237703DEST_PATH_IMAGE018
时,将样本
Figure 207802DEST_PATH_IMAGE017
标记为异常样本,将异常样本 的集合记为
Figure DEST_PATH_IMAGE019
,得到基网络
Figure 966679DEST_PATH_IMAGE013
在原始训练集
Figure 814681DEST_PATH_IMAGE006
上的误差率
Figure 647507DEST_PATH_IMAGE020
根据误差率
Figure 539240DEST_PATH_IMAGE020
计算得到当前基网络
Figure 457517DEST_PATH_IMAGE013
的权重系数
Figure DEST_PATH_IMAGE021
,并对样本权重分布进行更新;
判断已训练的深度编码器网络个数是否达到预先设定的基网络总数L,若未达到则根 据更新后的样本权重分布重新进行重采样并训练基网络,若达到则根据基网络的权重系数
Figure 873324DEST_PATH_IMAGE021
对L个基网络进行集成,得到通路异常检测模型H;
所述基网络
Figure 295078DEST_PATH_IMAGE022
的损失函数计算过程如下:
将当前训练集
Figure 170761DEST_PATH_IMAGE023
的每个样本
Figure DEST_PATH_IMAGE024
作为基网络
Figure 841914DEST_PATH_IMAGE013
的输入,获取每个样本的重 构向量
Figure 546565DEST_PATH_IMAGE025
从通路数据库获取通路p的有向图,将基因k对通路p的影响记为
Figure DEST_PATH_IMAGE026
,如果是激活作用则
Figure 603252DEST_PATH_IMAGE027
,如果是抑制作用则
Figure 102366DEST_PATH_IMAGE028
;将基因k在通路p的重要性记为
Figure DEST_PATH_IMAGE029
,其中
Figure 808285DEST_PATH_IMAGE030
为有向图中经过基因k的路径数量,
Figure DEST_PATH_IMAGE031
为所有基因的
Figure 582206DEST_PATH_IMAGE032
的最大值;将基因k在通路p的贡献记为
Figure DEST_PATH_IMAGE033
,其中
Figure 782416DEST_PATH_IMAGE034
为训练集
Figure DEST_PATH_IMAGE035
中基因k的变异系数;将基因k在 通路p的权重记为
Figure 718011DEST_PATH_IMAGE036
,K为通路p的基因集合;
样本
Figure DEST_PATH_IMAGE037
的损失函数
Figure 911226DEST_PATH_IMAGE038
记为:
Figure DEST_PATH_IMAGE039
其中,
Figure 472526DEST_PATH_IMAGE040
分别为样本
Figure DEST_PATH_IMAGE041
和重构向量
Figure 254537DEST_PATH_IMAGE042
的第k个元素,
Figure DEST_PATH_IMAGE043
为当前训练集
Figure 377345DEST_PATH_IMAGE044
的所有样本第k个元素的平均值,
Figure DEST_PATH_IMAGE045
为重构向量
Figure 307124DEST_PATH_IMAGE046
的所有样本第k个元素的平均值;
通路异常检测模块:用于分析肿瘤组织样本基因表达数据,评估个体通路异常情况。
2.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,所述编码单元第一个编码层和输出层的激活函数为Relu,第一个编码层和输出层之间的编码层、解码层和底层的激活函数为tanh,在深度编码器网络中加入L 2约束。
3.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,所述根据样本权重分布对样本进行重采样,得到当前训练集,包括:
当基网络个数
Figure DEST_PATH_IMAGE047
时,使用原始训练集
Figure 16323DEST_PATH_IMAGE048
作为当前训练集
Figure DEST_PATH_IMAGE049
当基网络个数
Figure 652841DEST_PATH_IMAGE050
时,根据样本权重分布
Figure DEST_PATH_IMAGE051
进行重采样,步骤如下:
(1)随机产生一个实数m,取值范围为
Figure 445085DEST_PATH_IMAGE052
(2)将样本按照权重进行升序排列;
(3)根据二分查找算法,查找满足条件
Figure DEST_PATH_IMAGE053
的索引j
(4)获得索引j对应的样本;
(5)重复步骤(1)到步骤(4),直到获得
Figure 596581DEST_PATH_IMAGE054
个样本构成当前训练集
Figure 735569DEST_PATH_IMAGE049
4.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,所述超球体的半径最小化公式如下:
Figure DEST_PATH_IMAGE055
其中,
Figure 492172DEST_PATH_IMAGE056
为第l个基网络的超球体的半径;
Figure DEST_PATH_IMAGE057
为第l个基网络的超球体的球心;
Figure 189739DEST_PATH_IMAGE058
为 第l个基网络中差异
Figure DEST_PATH_IMAGE059
投影到高维空间当中的投影点对应的松弛因子;
Figure 94110DEST_PATH_IMAGE060
为负责 将每个样本的网络预测值与实际值的差异投影到高维空间当中的非线性函数;
Figure DEST_PATH_IMAGE061
为投影点到球心的距离,记为
Figure 302368DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
为第l个基网络的调节复杂度 的误差惩罚系数。
5.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,对样本权重分布进行更新的公式如下:
Figure 913478DEST_PATH_IMAGE064
其中,
Figure DEST_PATH_IMAGE065
分别为样本
Figure 47525DEST_PATH_IMAGE066
在样本权重分布
Figure DEST_PATH_IMAGE067
中的权 重,
Figure 924346DEST_PATH_IMAGE068
为样本
Figure DEST_PATH_IMAGE069
输入基网络
Figure 185563DEST_PATH_IMAGE013
后得到的正常/异常样本识别结果;
Figure 854441DEST_PATH_IMAGE070
是使
Figure DEST_PATH_IMAGE071
成为概率分布的规范化因子。
6.根据权利要求1所述的基于自适应重采样深度编码器网络的通路异常检测***,其 特征在于,利用原始训练集
Figure 424969DEST_PATH_IMAGE072
计算通路异常检测模型H预测值与实际值的差异, 并计算将差异投影到高维空间当中的最小超球体
Figure DEST_PATH_IMAGE073
的半径
Figure 241615DEST_PATH_IMAGE074
,将
Figure DEST_PATH_IMAGE075
作为通路异常检测模 型区分正常/异常样本的阈值,并得到所有样本投影点到最小超球体
Figure 588414DEST_PATH_IMAGE073
球心的平均距离,记 为
Figure 377378DEST_PATH_IMAGE076
7.根据权利要求6所述的基于自适应重采样深度编码器网络的通路异常检测***,其特征在于,所述通路异常检测模块用于评估个体通路异常情况,具体为:
对于通路p,将患者i的肿瘤组织样本基因表达数据作为输入,获取患者样本通过通路 异常检测模型得到的预测值与实际值的差异
Figure DEST_PATH_IMAGE077
,计算得到
Figure 118807DEST_PATH_IMAGE077
在高维空间的投影点 到最小超球体
Figure 626012DEST_PATH_IMAGE073
球心的距离
Figure 697873DEST_PATH_IMAGE078
,并根据阈值
Figure DEST_PATH_IMAGE079
判断该患者样本在通路p中是否为异常 样本:当
Figure 951131DEST_PATH_IMAGE080
时,该患者样本为通路p正常样本,并将该患者通路的通路p异常评分记 为0;当
Figure DEST_PATH_IMAGE081
时,该患者样本为通路p异常样本,并将
Figure 597882DEST_PATH_IMAGE082
作为该 患者通路p的通路异常评分。
CN202210685472.XA 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测*** Active CN114783524B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210685472.XA CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测***
JP2023095082A JP7381815B1 (ja) 2022-06-17 2023-06-08 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210685472.XA CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测***

Publications (2)

Publication Number Publication Date
CN114783524A CN114783524A (zh) 2022-07-22
CN114783524B true CN114783524B (zh) 2022-09-30

Family

ID=82421979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210685472.XA Active CN114783524B (zh) 2022-06-17 2022-06-17 基于自适应重采样深度编码器网络的通路异常检测***

Country Status (2)

Country Link
JP (1) JP7381815B1 (zh)
CN (1) CN114783524B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714731B (zh) * 2022-09-27 2023-06-27 中国人民解放军63921部队 一种基于深度学习自编码器的深空测控链路异常检测方法
CN115331732B (zh) * 2022-10-11 2023-03-28 之江实验室 基于图神经网络的基因表型训练、预测方法及装置
CN116743646B (zh) * 2023-08-15 2023-12-19 云南省交通规划设计研究院股份有限公司 一种基于域自适应深度自编码器隧道网络异常检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022504916A (ja) 2018-10-12 2022-01-13 ヒューマン ロンジェヴィティ インコーポレイテッド 癌の遺伝子および臨床データの統合分析のためのマルチオミクス検索エンジン
US20210358626A1 (en) * 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
CN115335533A (zh) 2020-03-31 2022-11-11 格里尔公司 使用基因组区域建模进行癌症分类
CN112039903B (zh) * 2020-09-03 2022-03-08 中国民航大学 基于深度自编码神经网络模型的网络安全态势评估方法
WO2022058980A1 (en) * 2020-09-21 2022-03-24 Insilico Medicine Ip Limited Methylation data signatures of aging and methods of determining a methylation aging clock
CN112820403B (zh) * 2021-02-25 2024-03-29 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN114036992A (zh) * 2021-06-10 2022-02-11 南京航空航天大学 基于自编码器和遗传算法的高维数据异常子空间检测方法
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、***、装置及介质
CN114239807A (zh) * 2021-12-17 2022-03-25 山东省计算中心(国家超级计算济南中心) 基于rfe-dagmm的高维数据异常检测方法
CN114358191A (zh) * 2022-01-05 2022-04-15 重庆邮电大学 一种基于深度自动编码器的基因表达数据聚类方法

Also Published As

Publication number Publication date
CN114783524A (zh) 2022-07-22
JP7381815B1 (ja) 2023-11-16
JP2023184468A (ja) 2023-12-28

Similar Documents

Publication Publication Date Title
CN114783524B (zh) 基于自适应重采样深度编码器网络的通路异常检测***
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
KR102190299B1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
Gerds et al. The performance of risk prediction models
Padula et al. Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force
Cenggoro et al. Features importance in classification models for colorectal cancer cases phenotype in Indonesia
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
CN110097928A (zh) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
CN115295074B (zh) 基因标志物在恶性肺结节筛查中的应用、筛查模型的构建方法和检测装置
CN111243662A (zh) 基于改进XGBoost的泛癌症基因通路预测方法、***和存储介质
CN112215259B (zh) 基因选择方法和装置
CN107924430A (zh) 生物数据模式识别的多级体系构架
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN117591953A (zh) 基于多组学数据的癌症分类方法、***及电子设备
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾***状细胞癌早期预测方法
Khozama et al. Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning
CN112687329A (zh) 一种基于非癌组织突变信息的癌症预测***及其构建方法
CN117438089A (zh) 基于多模型融合的可解释乳腺癌复发预测方法及***
CN117594243B (zh) 基于跨模态视图关联发现网络的卵巢癌预后预测方法
CN113284611B (zh) 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质
Korayem et al. A hybrid genetic algorithm and artificial immune system for informative gene selection
KR102485316B1 (ko) 딥러닝을 활용한 개인의 전체 유전체 데이터와 암 발생과의 연관성 예측에 관한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant