CN111033638A - 遗传疾病建模 - Google Patents
遗传疾病建模 Download PDFInfo
- Publication number
- CN111033638A CN111033638A CN201880054125.9A CN201880054125A CN111033638A CN 111033638 A CN111033638 A CN 111033638A CN 201880054125 A CN201880054125 A CN 201880054125A CN 111033638 A CN111033638 A CN 111033638A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- boolean
- binary
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000026350 Inborn Genetic disease Diseases 0.000 title claims abstract description 20
- 208000016361 genetic disease Diseases 0.000 title claims abstract description 20
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 82
- 230000035772 mutation Effects 0.000 claims abstract description 64
- 230000014509 gene expression Effects 0.000 claims description 51
- 238000005259 measurement Methods 0.000 claims description 47
- 230000002068 genetic effect Effects 0.000 claims description 30
- 201000010099 disease Diseases 0.000 claims description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims 4
- 206010028980 Neoplasm Diseases 0.000 description 25
- 201000011510 cancer Diseases 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000011282 treatment Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000011987 methylation Effects 0.000 description 4
- 238000007069 methylation reaction Methods 0.000 description 4
- 230000026731 phosphorylation Effects 0.000 description 4
- 238000006366 phosphorylation reaction Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000019491 signal transduction Effects 0.000 description 4
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 3
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 102100036409 Activated CDC42 kinase 1 Human genes 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 101000928956 Homo sapiens Activated CDC42 kinase 1 Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- -1 ... Proteins 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 201000010915 Glioblastoma multiforme Diseases 0.000 description 1
- 206010053240 Glycogen storage disease type VI Diseases 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 102100021768 Phosphoserine aminotransferase Human genes 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000003098 androgen Substances 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003181 biological factor Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 231100000357 carcinogen Toxicity 0.000 description 1
- 239000003183 carcinogenic agent Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000036755 cellular response Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 208000005017 glioblastoma Diseases 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000003990 molecular pathway Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/10—Boolean models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/63—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Physiology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
提供了用于生成针对患者的遗传疾病的个性化布尔模型的计算机实现的方法。该方法包括存储规范数据和参考模型数据。参考模型包括表示基因的基因节点,基因节点被连接到布尔电路和用于接收二进制输入值的多个输入。参考模型中的每个基因节点包括复用器。该复用器具有第一输入和输出、用于接收二进制突变值的第二输入以及用于接收二进制选择器值的控制输入。该方法还包括使用模型检查器来确定规范在参考模型中是否可达。如果规范是可达的,则该方法包括标识其第二输入被连接到其在达到规范的路径中的输出的每个复用器以获得针对患者的突变数据,生成个性化布尔模型以及输出个人模型数据。
Description
背景技术
本发明一般涉及遗传疾病的建模,更具体地涉及个体患者遗传疾病的个性化布尔模型的生成。
遗传疾病如癌症可由复杂细胞网络中的多重突变引起,所述多重突变导致细胞违反功能/增殖的正常规则/控制,攻击正常组织,并最终转移。诊断和处置需要从分子途径开始***地理解疾病。
布尔模型已经使用多年来模拟生物学过程,并且已经成功地应用于模拟遗传交互以提供对遗传疾病的原因和行为的了解(参见,例如:“Metabolic stability andepigenesis in randomly connected nets”,Kauffman,Journal of TheoreticalBiology,第437-467页,1969;“A logical model provides insights into t cellreceptor signaling”,Saez-Rodriguez等,PLoS Comput Biol,第3卷,第8期,第1-11页,2007年8月;以及“Network modelling reveals the mechanism underlying colitis-associated colon cancer and identifies novel combinatorial anti-cancertargets”,Lu等,Scientific Report,第5卷,第14页,739EP-,2015年10月)。在“Booleannetwork model for cancer pathways:Predicting carcinogenesis and targetedtherapy outcomes”,Fumia和Martins,PLoS ONE,“第8卷,第7期,第1-11页,2013年7月。这种布尔模型允许抽象出精确的定量信息,将生物过程的时间演化表示为布尔状态序列。
在“Symbolic Model Checking of Signaling Pathways in PancreaticCancer”中,Gong等人,BICoB-2011,http://www.cs.cmu.edu/-Qinsiw/Papers/pcc01。作者应用模型检查来验证对胰腺癌中信号传导途径的串扰建模的布尔网络的一些时间逻辑性质。模型检查器是公知的用于对照规范来验证***模型的软件工具。模型检查器象征性地探测***的状态空间以检查***是否具有特定行为,或者换句话说,是否满足特定属性。模型检查器自动检查通过给定***模型的可能状态的路径,以确定该模型是否满足特定规范,即,该规范是否经由通过该模型的连续状态的可能路径最终可达。
通常,遗传疾病不是一种疾病,而是相关疾病的集合。例如,癌症不是单一疾病,而是通过体细胞突变的大目录绘制的亚型的不断增长的集合,并且特征在于巨大的分子异质性。患有单一类型癌症,例如***癌的每个患者可能具有不同的突变,并且可能需要不同的处置。由不同基因突变引起的其它表现不同亚型的多因子遗传疾病包括心血管疾病和阿尔茨海默病。诊断和处置这些疾病的第一步包括获得患者的基因表达数据。例如,针对怀疑患有某种类型癌症的任何患者,通常进行肿瘤活检以获得基因表达数据。该数据提供了对患者的特定疾病的测量,例如基因转录、甲基化、磷酸化、蛋白质测量等。该数据最终用于诊断和决定处置过程。
非常需要用于诊断和处置遗传疾病的改进技术。
发明内容
根据本发明的至少一个实施例,提供了一种用于生成针对患者的遗传疾病的个性化布尔模型的计算机实现的方法。该方法包括存储规范数据和参考模型数据。规范数据定义了从患者的基因表达数据获得的二进制测量值的规范。参考模型数据定义了对疾病的遗传交互建模的参考模型。参考模型包括多个表示基因的基因节点,其被连接到布尔电路和多个用于接收表示模型的输入激励的二进制输入值的输入。参考模型中的基因节点集合中的每个基因节点包括复用器。该复用器具有将基因节点连接到模型中的第一输入和输出、用于接收二进制突变值的第二输入、以及用于接收二进制选择器值的控制输入,该二进制选择器值控制第一和第二输入之一到输出的选择性连接。此外,在该模型中,基因节点的输出和其输入之间的任何反馈环路包含锁存器。该方法还包括使用模型检查器来处理规范数据和参考模型数据,以确定规范是否在参考模型中经由路径可达,其中路径中的任何复用器的选择器值可被选择以将所述第二输入永久地连接到该复用器的输出。如果规范因此是可达的,则该方法包括标识其第二输入在达到规范的路径中被连接到其输出的每个复用器以获得患者的突变数据,根据突变数据和参考模型生成患者的个性化布尔模型,并且输出定义个性化布尔模型的个人模型数据。
体现本发明的方法允许创建个性化布尔模型,其根据每位患者所表现出的突变类型而区分。此外,以高效方式生成个性化模型。代替一次引入一个候选(潜在)突变并且在每次引入之后检查患者的基因表达数据是否经由模型模拟可达,在模型检查操作中通过使用具有“开放”选择器值的复用器可以一次引入所有候选突变。开放选择器值是可变的,因此可以在分析参考模型时由模型检查器自由选择,受到下面解释的约束。这提供了用于快速和高效生成个性化患者模型的极好方法。这样的模型可以鉴定和适应特定患者疾病潜在的突变,从而促进个体诊断和靶向处置。
可以从患者的测量的基因表达数据自动生成规范数据。因此,实施例可以包括接收患者的基因表达数据的步骤,所述基因表达数据包括多个非二进制测量值,以及通过将相应的非二进制测量值离散化以产生规范数据的二进制测量值来生成规范数据的步骤。
参考模型数据可以通过从预定义的布尔模型产生参考模型而生成,例如由国家癌症研究所针对特定类型的癌症产生的模型。因此,体现本发明的方法可以包括以下步骤:接收布尔模型数据,所述布尔模型数据定义对所述遗传交互建模的布尔模型并且包括所述多个基因节点、所述布尔电路和所述多个输入;以及从所述布尔模型数据生成所述参考模型数据,从而使得通过将每个所述复用器和每个所述锁存器***到所述布尔模型中来从所述布尔模型适配所述参考模型。这允许来自研究源的预定义布尔模型被用于生成用于模型检查操作的参考模型。
如下面进一步讨论的,针对给定情况,可以为模型检查操作指定或保持特定复用器的二进制突变值和特定模型输入的二进制输入值为空。
通常,由参考模型中的复用器表示的基因节点的集合可以包括模型中的基因节点的全部或子集。在给定的病例中,复用器可用于候选突变,即,其突变潜在地引起患者疾病的那些基因。在一些情况下候选突变可能是已知的。在其它实施方案中,候选突变的集合是未知的。后一种情况需要将所有基因节点都考虑为潜在的候选者。然而,特别优选的实施例提供了用于自动标识潜在候选者的非常有利的技术。在这些实施例中,该方法包括用于生成参考模型数据的初步操作。该操作包括存储定义初步模型的初步模型数据。初步模型对应于参考模型,在模型中的每个基因节点处具有复用器。该操作还包括从规范数据生成逆规范数据。逆规范数据将逆规范定义为所述二进制测量值的规范的逻辑非。该操作还包括使用基于插值的模型检查器来处理逆规范数据和初步模型数据,以生成每个复用器的第一输入被连接到其在模型中的输出的情况下在初步模型中的逆规范的可达性的证明。这样的证明指示经由其可达到逆规范的每个复用器。然后,从初步模型数据生成参考模型数据,从而使得由参考模型中的复用器表示的基因节点的集合包括与每个所述复用器对应的基因节点,经由该基因节点可以实现逆规范。
因此,初步操作用于鉴定患者的一组候选突变,允许将参考模型中的一组复用器限制于该组候选。该技术可以通过将操作限制到候选基因节点的相关集合来显著降低主模型检查操作的复杂度。这提供了优越的效率,显著节省了时间和处理资源。初步模型数据可以通过从如前所述的预定义布尔模型产生初步模型而生成。
本发明的至少一个附加实施例提供了一种计算机程序产品,包括计算机可读存储介质,该计算机可读存储介质包含可由计算***执行的程序指令,以使计算***执行如上所述的用于生成个性化布尔模型的方法。
本发明的至少一个进一步的实施例提供了一种计算***,其适于实现用于生成如上所述的个性化布尔模型的方法。
本发明的至少一个进一步的实施例提供了一种用于获得患者遗传疾病的个性化布尔模型的方法。该方法包括:对所述患者进行基因表达测量以获得包含多个非二进制测量值的基因表达数据;以及使用所述基因表达数据执行上述计算机实现的方法,以获得定义患者的个性化布尔模型的个人模型数据。
本发明的至少一个进一步的实施方案提供了处置遗传性疾病患者的方法。该方法包括:对所述患者进行基因表达测量以获得包含多个非二进制测量值的基因表达数据;使用所述基因表达数据执行如上所述的计算机实现的方法,以获得定义患者的个性化布尔模型的个人模型数据;以及根据所述个性化布尔模型来处置所述患者。
下面将参考附图通过说明性和非限制性示例更详细地描述本发明的实施例。
附图说明
本发明的这些和其它目的、特征和优点将从以下结合附图阅读的对其说明性实施例的详细描述中变得显而易见。附图的各种特征不是按比例的,因为为了清楚起见,图示是为了帮助本领域技术人员结合详细描述理解本发明。在附图中:
图1是用于实现体现本发明的个性化布尔模型生成方法的计算机的示意性表示;
图2示出了布尔模型的示例;
图3示出了根据逻辑布尔公式的布尔模型的描述;
图4显示了患者的基因表达数据的实例;
图5表示体现本发明的第一模型生成方法的步骤;
图6是实现图5方法的计算***的组件模块的示意图;
图7显示了对应于图4数据的离散化的基因表达测量值;
图8示出了对应于图7的离散化测量值的模型检查规范;
图9示出了对应于图2的布尔模型的参考模型;
图10示出了使用图9的参考模型获得的个性化布尔模型的示例;以及
图11表示体现本发明的第二模型产生方法的步骤。
具体实施方式
本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解,所公开的实施例仅仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而,本发明可以以许多不同的形式实施,并且不应被解释为限于这里阐述的示例性实施例。相反,提供这些示例性实施例是为了使本公开透彻和完整,并将本发明的范围完全传达给本领域技术人员。在描述中,可以省略公知的特征和技术的细节,以避免不必要地模糊所呈现的实施例。
在任何可能的技术细节结合层面,本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
要描述的实施例可以作为用于生成遗传疾病的个性化布尔模型的计算机实现的方法来执行。这些方法可以由包括一个或多个通用或专用计算机的计算***来实现,每个通用或专用计算机可以包括一个或多个(真实或虚拟)机器,提供用于实现本文所述操作的功能。计算***的个性化布尔模型生成逻辑可以在由计算***执行的诸如程序模块的计算机***可执行指令的一般上下文中描述。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算***可以在诸如云计算环境之类的分布式计算环境中实现,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机***存储介质中。
图1是用于实现体现本发明的个性化布尔模型生成方法的示例性计算装置的框图。计算设备以通用计算机1的形式示出。计算机1的组件可包括处理装置,诸如由处理单元2表示的一个或多个处理器、***存储器3、以及将包括***存储器3的各种***组件耦合到处理单元2的总线4。
总线4表示若干类型的总线结构中的任何一种的一个或多个,包括存储器总线或存储器控制器、***总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制,这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和***部件互连(PCI)总线。
计算机1通常包括各种计算机可读介质。这样的介质可以是可由计算机1访问的任何可用介质,包括易失性和非易失性介质、以及可移动和不可移动介质。例如,***存储器3可以包括易失性存储器形式的计算机可读介质,例如随机存取存储器(RAM)5和/或高速缓冲存储器6。计算机1还可以包括其它可移动/不可移动、易失性/非易失性计算机***存储介质。仅作为示例,存储***7可被提供用于从不可移动、非易失性磁介质(通常称为“硬盘驱动器”)读取和向其写入。尽管未示出,但是还可以提供用于从可移动、非易失性磁盘(例如“软盘”)读取和向其写入的磁盘驱动器,以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下,每个都可以通过一个或多个数据介质接口连接到总线4。
存储器3可以包括至少一个程序产品,该程序产品具有被配置为执行本发明的实施例的功能的一个或多个程序模块。作为示例,具有一组(至少一个)程序模块9的程序/实用程序8以及操作***、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器3中。操作***、一个或多个应用程序、其它程序模块和程序数据中的每一个或其某种组合可包括联网环境的实现。程序模块9通常执行如本文所述的本发明实施例的功能和/或方法。
计算机1还可以与以下设备通信:一个或多个外部设备10,诸如键盘、定点设备、显示器11等;一个或多个设备,其使得用户能够与计算机1交互;和/或使计算机1能够与一个或多个其它计算设备通信的任何设备(例如网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口12发生。而且,计算机1可以经由网络适配器13与一个或多个网络通信,诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)。如所描述的,网络适配器13经由总线4与计算机1的其它组件通信。应当理解,尽管未示出,但其它硬件和/或软件组件可结合计算机1使用。实例包括但不限于:微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID***、磁带驱动器和数据档案存储***等。
下面参考图2到11描述实施本发明的第一方法。该方法使用患者的基因表达数据,以及患者所表现出的遗传疾病类型的预定义布尔模型。这种整合了疾病中所涉及的关键信号传导途径的布尔模型可以从各种研究来源获得。本实施例是针对患有癌症的患者描述的,并且使用由癌症基因组图谱(TCGA)提供的数据的示例。2006年,国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)发起了TCGA作为综合表征卵巢癌和多形性成胶质细胞瘤的基因组和分子特征的试验项目。该程序生长以包括来自33个肿瘤类型中的11,000名患者的样品,并且代表了曾经要分析关键基因组和分子特征的最大肿瘤集合。13种癌症类型的发现已经发表,到2014年末,TCGA科学家几乎完成了对大多数肿瘤类型的蛋白质编码区(外显子组)的测序,并完成了对1,000个肿瘤样品的全基因组测序(WGS)。后者表征基因组中的完整DNA序列。迄今为止,TCGA分析的结果导致了研究期刊中的2,700篇以上文章。这里使用的例子全部或部分基于TCGA研究网络产生的数据:http://CancerGenome.NIH.Gov/。
图2示出了对遗传交互建模的布尔模型的简单示例20。布尔模型是具有两种类型节点的有向图:基因节点(其代表特定基因)和门节点。门节点可以是逻辑与门节点、或门节点或非门节点。节点评估为'0'或'1'。节点可以由基因或门驱动。在所示的例子中,节点G1、G2和G3是基因节点。基因节点连接到包括栅极节点的布尔电路。在图中,驱动各个基因节点的所有栅极节点被示为封装在正方形框21、22和23中。该模型具有多个输入,用于接收表示模型的输入激励的二进制输入值,即驱动由模型表示的逻辑的输入信号。为所讨论的模型定义特定输入。基因节点提供模型的输出。特别地,输出信号是二进制基因节点值,在图中由G1、G2和G3表示。该模型包括基因节点G1、G2或G3的输出与其输入之间的多个反馈连接。反馈连接在图中以24表示。因此,当反馈值和/或输入值在模型中变化时,模型的输出g1、g2和g3将被更新。
布尔模型也可以用定义驱动每个输出节点的逻辑的布尔公式来表示。图3提供了被描述为逻辑布尔公式的模型的说明性示例。在该示例中,在左手列中示出了与输出基因节点对应的基因名称。右手列指示每个基因节点的驱动逻辑,其依据逻辑运算符∧(AND),∨(OR)和基因节点的名称/驱动该节点的输入刺激。在这种情况下,更新基因节点简单地涉及评估驱动基因节点的布尔公式。这里的更新方案可以是同步的(所有基因节点同时更新)或异步的(在任何时间仅一个随机选择的基因节点得到更新)。
给定布尔模型的输入激励将取决于模型的特定性质和范围。输入刺激可以例如表示与疾病相关的环境和/或生物因素(例如环境/生物触发或其他指示物/相关因素,诸如致癌物、生长因子、与雄激素相关的特性、蛋白质、甲基化、磷酸化等)。输入刺激还可以表示外部节点(例如,另一相关模型的基因节点,诸如当前模型形成其一部分的较大模型)的输出。特别地,布尔模型可以是表达疾病的更广泛交互的更大、更复杂模型的一部分。因此,到这种模型的输入可以对应于来自较大模型的另一复合部分的连接(例如,基因节点输出)。通常,输入可以表示与所讨论的特定疾病和模型相关的任何量,并且理解特定输入被定义为适合于所讨论的模型就足够了。
虽然图1示出了简单模型,但是表示遗传疾病的布尔模型可以是涉及更多基因节点(例如,数百个基因节点)的更复杂的模型,并且可以包括对应于其他量(例如,蛋白质、甲基化或磷酸化值等)的节点,其中已经对这些量之间的交互进行了适当建模。然而,根据这里的原理描述以及下面参考图1的模型所示出的,可以完全理解实施本发明的方法的操作。
图4示出了一系列患者的基因表达(也称为“转录”)测量的实例。患者通过左手列中的数字来标识。其余的列在列的标题中表示与通过名称,例如PTEN、PSA、ACK1标识的各个基因对应的基因表达测量结果。表中的每一行提供了特定患者的基因表达数据,包括一系列(非二进制)测量值。虽然在这里的实例中示出了基因值,但是通常基因表达数据可以包括与患者的疾病相关的其他测量值,例如与蛋白质、甲基化、磷酸化等相关的测量值。
图5的流程图指示用于生成个性化布尔模型的第一方法的步骤。该方法基于预定义的“健康”布尔网络模型,该模型整合了患者癌症类型中涉及的主要信号传导途径和患者的基因表达数据。(注意,一般而言,流程图的步骤可以以与所示的顺序不同的顺序来执行,并且某些步骤可以在适当时并发地执行)。步骤25表示由计算***接收定义预定义布尔模型的数据。在步骤26中,计算***使用该布尔模型数据来生成参考模型数据。参考模型数据定义用于后续操作的参考模型。通过在布尔模型中***一组复用器以及所需的一个或多个锁存器,根据布尔模型来调整该参考模型。特别地,在该实施例中,参考模型中的每个基因节点包括复用器。每个复用器具有将基因节点连接到模型中的第一输入和输出、用于接收二进制突变值的第二输入、以及用于接收二进制选择器值的控制输入,该二进制选择器值控制第一和第二输入之一到复用器的输出的选择性连接。此外,在该模型中,基因节点的输出和其输入之间的任何反馈环路包含锁存器。参考模型生成操作将在下面进一步讨论。在步骤27中,将所得到的参考模型数据存储在计算***的存储器中。
步骤28表示计算***接收患者的基因表达数据。如前所述,该数据包括一系列非二进制测量值。在步骤29中,计算***使用在步骤28中输入的基因表达数据生成规范(spec)数据,其定义二进制测量值的规范。如下面进一步详述的,通过将基因表达数据中的相应的非二进制测量值离散化以产生相应的二进制测量值,来产生该规范数据。在步骤30中,将所得到的规范数据存储在计算***的存储器中。
在步骤31中,计算***使用模型检查器来处理规范数据和参考模型数据,以确定在参考模型中是否经由路径可到达患者的二进制测量值的规范,其中路径中的任何复用器的选择器值可被选择以将其第二输入永久地连接到其输出。因此,复用器的选择器值保持打开,即,可以由模型检查器自由选择,服从于一旦选择器值被设置成将第二输入以及因此的二进制突变值连接到复用器输出,则它必须在到达规范的路径中永久地保持该方式(并且突变值本身将保持不变)。因此,规范定义了要求的声明,或模型检查器的“可达性属性”。模型检查器确定参考模型是否可以满足该规范,即,是否存在通过参考模型的状态的可能路径,经由该路径可以达到该规范,服从路径中的选择器值的上述约束。参考模型的特定输入值和特定复用器的二进制突变值可保持打开,或者可被指定模型检查操作,如下面进一步讨论的。
考虑到规范是不可达的可能性(如在判定块32由“否”(N)所指示的),这将由模型检查器来指示。操作然后将进行到步骤33,其中这里的计算***将简单地向操作者指示该事实,例如通过显示消息。这种事件针对任何精确的模型都是不可能的,并且需要重新评估***参数,例如修改输入值或二进制突变值上的任何约束,重新评估离散化阈值(下面讨论),可能调整模型等。然而,任何这样的动作与这里描述的主操作正交,如通常的情况,假定规范是可达的。这个事实将再次由模型检查器指示,从而在决策32处产生肯定决策(“是”(Y))。特别地,模型检查器将提供输出或“踪迹(trace)”,指示经由其达到规范的路径。如下面进一步解释的,该踪迹将因此指示在达到规范的路径中的复用器的所选择的选择器值。在步骤34中,计算***从踪迹标识其第二输入连接到其在达到规范的路径中的输出的每个复用器,以获得患者的突变数据。在步骤35中,计算***然后根据突变数据和参考模型为患者生成个性化布尔模型。下面更详细地解释步骤34和35。在步骤36中,计算***输出定义个性化布尔模型的个人模型数据,并且操作完成。
图6是用于执行图5方法的示例性计算***中包括例如程序模块等组件模块的逻辑的示意性表示。***40包括参考模型生成器模块41,其接收在步骤25中输入的布尔模型数据(BM数据),并且在步骤26中生成参考模型数据(RM数据)。规范模块42接收在步骤28中输入的基因表达数据(GE数据),并执行步骤29以生成规范数据。在该实施例中,***40包括内置模型检查器工具43。模型检查器43分别从模块41和42接收参考模型数据和规范数据,并执行上述模型检查操作。可以将设置数据提供给模型检查器以指定任何附加的操作参数,例如,操作约束和/或如下所述的定义的输入/突变值。这样的设置数据可以替代地被包括在参考模型数据中。突变数据模块44接收来自模型检查器43的输出踪迹,并执行步骤34以生成突变数据。这被提供给执行步骤35和36的布尔模型生成器45,生成个性化布尔模型。个性化模型(直接地或间接地)依赖于模型检查器43所使用的参考模型。特别地,个性化模型可以基于来自模块41的参考模型数据从参考模型本身生成,或者基于在步骤25中接收的布尔模型数据从原始布尔模型生成,其中从该原始布尔模型导出参考模型。然后,布尔模型生成器45输出定义个性化布尔模型的个人模型数据。
注意,可以组合图6中的一个或多个模块的功能。例如,模型生成器模块可以组合模块41和45的功能。功能也可以在计算***的组件模块之间不同地分布,并且一个或多个模块的功能可以独立于计算***来实现。例如,规范数据可以例如由操作者独立地生成,并且作为输入提供给计算***。参考模型生成器41也可以独立实现,由此图5的操作将开始于步骤27中的参考模型数据的输入和存储。为一个患者生成的参考模型也可以应用于另一个患者,由此可以存储先前生成的参考模型库以供计算***使用。此外,虽然***40使用本地模型检查器,例如***式模型检查器工具,来实现这里的模型检查操作,但是可以设想其中计算***使用例如作为云中的服务提供的远程模型检查器来执行模型检查操作的实施例。
现在将更详细地解释***40的模块的操作。规范模块42通过将基因表达数据中的非二进制测量值离散化,并将规范公式化为定义模型检查器的可达性属性的逻辑公式,来从基因表达数据生成规范数据。基因表达测量值的离散化需要将值转换为二进制。图7提供了图4数据的离散化的简单说明。这里,使用所讨论基因的预定阈值将图4中的测量值v转换为图7中的二进制值b。例如,针对PTEN,如果v≥1,则b=1,否则b=0。图7中b=0的值表示基因被关闭。b=1的值表示基因被开启。因此,1号患者的所有基因都关闭。2号患者具有PTEN和PSA开启,ACK1、…、MAPK、AKT、AR关闭。用于将不同类型的测量值离散化的阈值可以是不同的,并且可以针对给定类型而适当地选择,例如基于值的通常范围和分布。已知有多种技术(例如,聚类)用于将模拟数据离散化,且此处可使用任何所需技术。具体的例子描述于:Li等人,BMC生物信息学,“Comparative study of discretization methods ofmicroarray data for inferring transcriptional regulatory networks”,第11卷,第520页,2010年;和“Discretization of time series data”,Dimitrova等人,Journal ofComputical Biology,第17卷,第6期,第853-868页,2010年。
离散化的基因表达值是每个患者特有的,并且表示他/她的疾病状态。在将基因表达值离散化之后,规范模块42产生定义规范的逻辑公式。图8示出了如何使用逻辑运算符and∧(AND)将图7中的每一行转换为布尔公式。每个基因在式中是可变的。如果基因G具有值“0”,则它在公式中表现为负的文字如果基因具有值“1”,则它在公式中表现为正数字值(G)。最后的公式是所有基因文字的结合,并且描述了患者的癌症状态。规范数据将规范定义为模型检查器的可达性属性,这里通过将CTL(计算树逻辑)操作符EF作为前缀来定义。可达性属性EF(G1∧G2)表明存在用于最终达到满足G1=1和G2=1的状态的模型的路径。
参考模型生成器模块41在这里通过将布尔模型转换为HDL(硬件描述语言)模型来从输入布尔模型生成参考模型,其中如上所述***了复用器和锁存器。图9示出了从图2的布尔模型产生的参考模型50的示例。在该实施例中,为每个基因节点G1、G1和G3***复用器(MUX)。如在放大中所示,每个复用器具有将基因节点连接到模型中的第一输入(#0)和输出,以及第二输入(#1)。第一输入#0因此接收基因节点Gi的原始基因表达值Gi。第二输入#1接收二进制变异值fi。每个复用器还具有用于接收二进制选择器值si的控制输入端,该二进制选择器值si控制两个输入端之一到输出端的选择性连接。此外,锁存器L被***在模型中基因节点的输出和基因节点的输入之间的任何反馈环中。因此,锁存器L被***到图2模型的反馈路径24中,如图9所示。锁存器由时钟信号ck计时,并且因此中断原始布尔模型中的环路,从而允许通过一系列状态对模型计时。在图中,每种状态下的基因输出由gi'表示。
当在参考模型中选择器值Si被设置为'0'时,第一输入#0被连接到复用器输出。否则,第二输入端#1连接到输出端。针对基因Gi,如果si是'0',则未突变基因值Gi连接到复用器的输出,并且剩余节点将Gi看作未突变(gi'=gi)。如果si是'1',则在输出处出现突变值fi,并且其余节点将Gi视为突变(gi'=fi)。通常,有两种突变:基因被永久打开或基因被永久关闭。这两个突变分别对应于fi=1和fi=0。如果任何特定基因突变的性质(即基因开/关)是已知的,则可以在参考模型中预定义突变值Fi。否则,突变值fi可以保持打开。
其中基因达到患者的规范数据中描述的表达值的模型被认为是针对该患者个性化的。因此,当模拟时,患者的个性化模型必须达到由说明书中的离散化基因表达值描述的状态。让我们将此称为离散的癌症状态φ。检查模型是否达到该状态的直接方式是:1.引入候选突变;模拟模型以检查癌症状态是否可达;3.如果是,则输出模型;4.如果不是,则对下一个突变重复步骤1至3。这里,必须对所有候选突变重复这些步骤,并且该方法是不完全的,因为人们不知道是否已经检查了所有状态。相反,如上所述在参考模型中使用复用器允许所有突变被同时引入,允许模型检验器检验所有可能的状态。
模型检查器43以通常已知的方式操作,以确定由可达性属性EFφ所定义的规范在服从上述对选择器值si的约束的参考模型中是否可达。特别地,复用器的选择器保持打开(不驱动为'0'或'1'),从而使得模型检查器43自由选择si的值。当选择器值打开时,它们假定随机值,该随机值可以在非预期的路径上改变多次。应用复位逻辑来设置模型的起始状态的初始选择器值。当复位有效时,选择器值被随机设置为'1'或'0'。然而,一旦突变被激活,它必须在整个路径中保持活性。因此,一旦在模型检验器43中将给定选择器值Si设置为'1',则针对该路径,它必须永久地保持在'1'。利用该约束,模型检查器43因此检查通过参考模型的状态的可能路径,以确定患者特征的可达性属性EFφ是否最终可达。突变值Fi可以在未指定用于基因节点的情况下保持开放以供模型检查器选择,并且可以在重置期间随机分配。一旦选择了特定的变异值fi,该值在整个路径上保持相同。如果特定输入值已知(例如,存在或不存在健康因素),则可以在参考模型数据中指定参考模型输入的二进制输入值。否则,输入值可以保持打开。
如果存在使EFφ可达的突变组合,则模型检验器43返回踪迹φ可达EFφ。这样的踪迹具有通常已知的形式,并且指示在经由其达到规范的路径中的模型的连续状态中定义的变量的值(包括由模型检查器选择的值)。因此,该踪迹将指示在达到规范的路径中的复用器的所选选择器值。在该踪迹上具有值“1”的选择符变量si示出了触发了哪些突变,并且因此标识了导致患者的癌症状态φ的特定突变。突变数据模块44标识踪迹中具有si=1的基因节点。在相应的突变值fi保持开放的情况下,在到φ的路径中选择的fi的值也从踪迹中提取,连同针对参考模型保持开放并由模型检查器选择的任何输入值。所得到的数据构成由模块44输出的突变数据,并且由模型生成器45使用以生成针对患者的个性化模型。模型生成器45可以通过根据突变数据调整在图5的步骤25中输入的原始预定义健康模型来生成个性化布尔模型。在原始模型中,任何被触发突变至值fi的基因节点Gi都可以被该值替换,并且相应的驱动逻辑可以从模型中去除。图10以示例示出了该过程。这里,针对在踪迹中指示基因Gi突变为值fi=1(即Gi被切换为ON)的情况,从图2的模型生成个性化布尔模型(PBM)60。该过程可用于使原始布尔模型适应于在达到患者的癌症状态时触发的所有突变。然后,由模型生成器45输出定义所得到的个性化模型的个人模型数据。输出数据在这里可以以任何方便的方式定义个性化模型,例如,如图10的图形表示或如所期望的布尔公式。
可以看出,上述方法提供了一种***的和有效的技术,用于在给定特定类型疾病所涉及的途径的参考布尔模型和一组候选突变的情况下,正式计算个性化疾病模型。将所有候选突变引入健康布尔模型中,从而使得可利用模型检查器来鉴定导致癌症状态的突变。
在对上述实施例的修改中,由参考模型中的复用器表示的基因节点集合可以是模型中的基因节点的子集,其对应于患者的已知候选突变集合。实施本发明的第二种方法提供了一种用于鉴定将包括在该组中的相关候选突变的高效技术。该实施例包括用于标识相关候选者并相应地生成参考模型数据的初步操作。图11表示初步操作的步骤。步骤70对应于图5的步骤25,其中定义预定义布尔模型的数据由计算***接收。在步骤71中,计算***生成定义初步模型的初步模型数据。该初步模型对应于如图5所述的参考模型,在该模型中的每个基因节点处具有复用器。在步骤72中存储定义该初步模型的初步模型数据。步骤73到75分别对应于图5的步骤28到30。在步骤76中,***生成逆规范数据,该逆规范数据将逆规范定义为在步骤75中存储的规范数据中的二进制测量值的规范的逻辑非。针对规范φ,逆规范被定义为因此,相反的规范对应于可达性属性的否定,例如,(G1∧G2)针对可达性属性EF(G1∧G2)。
在步骤77中,计算***使用基于插值的模型检查器来处理逆规范数据和初步模型数据,以生成在每个复用器的第一输入连接到其在模型中的输出的情况下在初步模型中的逆规范的可达性的证明。因此,针对模型检查操作,所有复用器的选择器值被设置为Si=0。在这种配置中,参考模型对应于原始健康布尔模型。我们将这种模型RM0的配置称为“模式”。患者的癌症状态φ在RM0中不可达,因为正常/健康布尔模型没有达到癌症状态。然而,通过构造,我们知道即,逆规范在RM0中当然是可达的。在步骤77中,模型检查器因此将生成针对关于RM0的的分辨率证据Π。由基于插值的模型检验器产生的这种分辨率检验具有一般已知的形式,并且指示一系列分辨率步长,通过这些分辨率步长证明所需状态(这里为)是可达的。因此,证据Π将通过在证明中指定对应的选择器变量si=0来指示逆规范可经由其到达的每个复用器。在证明中不存在的所有选择器变量si(以及因此复用器)都对RM0的满意度没有贡献。因此,当变异时,对应的基因Gi在φ中不能在变异模型中满足,而应当被忽略。
在步骤78中,***然后从初步模型数据生成参考模型数据,从而使得由参考模型中的复用器表示的基因节点的集合包括被证明为相关的基因节点,即,与逆规范所经由的那些复用器对应的基因节点在RM0中是可达的。从模型中丢弃对应于“非候选”基因的其它复用器。这可以通过从初步模型中去除这些复用器,或者简单地通过将这些复用器的所有选择器值联系到参考模型中的si=0而被实现。然后在步骤79中存储参考模型数据。
在初步操作之后,该实施例的后续操作对应于图5的步骤31至36,其中步骤31的主模型检查操作限于相关的候选突变组。这在个性化模型生成过程中提供了特别的效率。
图6***的模块41至45可以适于实现上述初步操作所需的附加功能,或者可以为这些功能提供附加模块。步骤77的基于插值的模型检查操作因此可以由执行步骤31的主模型检查操作的模型检查器43来执行。如果需要,可选实施例可以使用不同的模型检查器用于两个操作。
通过前述方法生成的个性化布尔模型可以用于对每位患者特定的***诊断和处置,并且可以进一步帮助标识处置疾病的(多个)有效处置。通过提供完整的并且比逐步模拟更有效的正式符号分析,实施本发明的方法可以帮助鉴定/分类基因突变并且将它们与药物或其他潜在处置进行匹配。模型还可以帮助旨在模拟整个疾病网络和基于对药物干扰的全局细胞响应预测最佳药物的努力。
体现本发明的方法可以整合到由医务人员对患者进行诊断和处置的过程中。这种过程可以包括对患者进行基因表达测量以获得基因表达数据,以及使用基因表达数据执行如上所述的计算机实现的方法,以获得患者的个性化布尔模型。该过程然后可以包括根据个性化布尔模型来处置患者。例如,特定突变/突变集合的鉴定可以用于选择以针对个体的疾病的具体原因、效应或影响因素的(多个)适当药物,或以其他方式决定用于个性化处置计划的特定疗法或处置组合。
当然可以对所描述的示例性实施例进行各种改变和修改。例如,个性化模型生成过程可以基于构成更大更复杂模型的多个互连的组件模型以复合方式执行。然后,可以从各个部件的比较结果构建最终的个性化模型。
实施本发明的方法当然可以应用于除癌症之外的遗传疾病,并且在规范数据中使用的测量值可以包括由所讨论的模型适应的任何另外的值。
一般而言,在参考体现本发明的方法描述特征的情况下,可以在体现本发明的计算***中提供对应的特征,反之亦然。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
Claims (25)
1.一种用于生成针对患者的遗传疾病的个性化布尔模型的计算机实现的方法,所述方法包括:
存储规范数据,所述规范数据定义从针对所述患者的基因表达数据获得的二进制测量值的规范;
存储参考模型数据,所述参考模型数据定义对针对所述疾病的遗传交互建模的参考模型,所述参考模型包括表示基因的多个基因节点和用于接收表示针对所述模型的输入刺激的二进制输入值的多个输入,所述多个基因节点被连接到布尔电路,其中所述多个基因节点的集合中的每个基因节点包括复用器,所述复用器具有将所述基因节点连接到所述模型中的第一输入和输出、用于接收二进制突变值的第二输入以及用于接收控制所述第一输入和所述第二输入中的一个到所述输出的选择性连接的二进制选择器值的控制输入,并且其中所述模型中的在基因节点的输出与其输入之间的任何反馈环路包含锁存器;
使用模型检查器来处理所述规范数据和所述参考模型数据,以确定所述规范是否在所述参考模型中经由路径可达,其中针对所述路径中的任何复用器的选择器值是可选择的,以将所述第二输入永久地连接到该复用器的输出;
如果所述规范是可达的,则标识其第二输入被连接到其在达到所述规范的所述路径中的输出的每个复用器,以获得针对所述患者的突变数据,并且根据所述突变数据和所述参考模型针对所述患者生成个性化布尔模型;以及
输出定义所述个性化布尔模型的个人模型数据。
2.根据权利要求1所述的方法,还包括:
接收针对所述患者的基因表达数据,所述基因表达数据包括多个非二进制测量值;以及
通过将相应的非二进制测量值离散化以产生所述二进制测量值来生成所述规范数据。
3.根据权利要求1所述的方法,还包括:
接收布尔模型数据,所述布尔模型数据定义对所述遗传交互建模的布尔模型并且包括所述多个基因节点、所述布尔电路和所述多个输入;以及
从所述布尔模型数据生成所述参考模型数据,从而使得所述参考模型通过将每个所述复用器和每个所述锁存器***到所述布尔模型中从所述布尔模型被适配。
4.根据权利要求1所述的方法,还包括:针对所述复用器中的一个或多个复用器中的每个复用器,指定所述二进制突变值以用于由针对该复用器的所述模型检查器使用。
5.根据权利要求1所述的方法,还包括:对于所述复用器中的一个或多个复用器中的每个复用器,将针对该复用器的所述二进制突变值定义为由所述模型检查器可选择。
6.根据权利要求5所述的方法,其中所述突变数据指示由所述模型检验器针对每个所述复用器选择的所述二进制突变值,所述复用器的第二输入被连接到其输出以达到所述规范。
7.根据权利要求1所述的方法,其中用于生成所述参考模型数据的初步操作还包括:
存储定义初步模型的初步模型数据,所述初步模型对应于所述参考模型,其中所述复用器位于所述模型中的每个基因节点处;
从所述规范数据生成逆规范数据,所述逆规范数据将逆规范定义为二进制测量值的所述规范的逻辑非;
使用基于插值的模型检查器来处理所述逆规范数据和所述初步模型数据,以生成所述逆规范在所述初步模型中的可达性的证据,其中每个复用器的所述第一输入被连接到所述复用器的输出,所述证据指示所述逆规范经由其可达到的每个所述复用器;以及
从所述初步模型数据生成所述参考模型数据,从而使得所述参考模型中的基因节点的所述集合包括与所述逆规范经由其可达到的每个所述复用器对应的所述基因节点。
8.根据权利要求7所述的方法,还包括:
接收布尔模型数据,所述布尔模型数据定义对所述遗传交互建模的布尔模型并且包括所述多个基因节点、所述布尔电路和所述多个输入;以及
从所述布尔模型数据生成所述初步模型数据,从而使得所述初步模型通过将每个所述复用器和每个所述锁存器***到所述布尔模型中从所述布尔模型被适配。
9.根据权利要求7所述的方法,还包括:
接收针对所述患者的基因表达数据,所述基因表达数据包括多个非二进制测量值;
通过将相应的非二进制测量值离散化以产生所述二进制测量值来生成所述规范数据;以及
针对所述复用器中的一个或多个复用器中的每个复用器,将针对该复用器的所述二进制突变值复用器为由所述模型检查器可选择。
10.根据权利要求1所述的方法,还包括:指定所述二进制输入值中的一个或多个二进制输入值以用于由所述模型检查器使用。
11.根据权利要求1所述的方法,还包括:将所述二进制输入值中的一个或多个二进制输入值定义为由所述模型检查器可选择。
12.根据权利要求2所述的方法,还包括:
针对所述患者进行基因表达测量以获得包括多个非二进制测量值的基因表达数据;以及
使用所述基因表达数据来获得定义针对所述患者的所述个性化布尔模型的所述个人模型数据。
13.根据权利要求2所述的方法,还包括:
针对所述患者进行基因表达测量以获得包括多个非二进制测量值的基因表达数据;
使用所述基因表达数据来获得定义针对所述患者的所述个性化布尔模型的所述个人模型数据;以及
根据所述个性化布尔模型来处置所述患者。
14.一种用于生成针对患者的遗传疾病的个性化布尔模型的计算机程序产品,所述计算机程序产品包括具体被体现在其中的程序指令的计算机可读存储介质,所述程序指令由计算***可执行以使得所述计算***:
存储规范数据,所述规范数据定义从针对所述患者的基因表达数据获得的二进制测量值的规范;
存储参考模型数据,所述参考模型数据定义对针对所述疾病的遗传交互建模的参考模型,所述参考模型包括表示基因的多个基因节点和用于接收表示针对所述模型的输入刺激的二进制输入值的多个输入,所述多个基因节点被连接到布尔电路,其中所述多个基因节点的集合中的每个基因节点包括复用器,所述复用器具有将所述基因节点连接到所述模型中的第一输入和输出、用于接收二进制突变值的第二输入以及用于接收控制所述第一输入和所述第二输入中的一个到所述输出的选择性连接的二进制选择器值的控制输入,并且其中所述模型中的在基因节点的输出与其输入之间的任何反馈环路包含锁存器;
使用模型检查器来处理所述规范数据和所述参考模型数据,以确定所述规范是否在所述参考模型中经由路径可达,其中针对所述路径中的任何复用器的选择器值是可选择的,以将所述第二输入永久地连接到该复用器的输出;
如果所述规范是可达的,则标识其第二输入被连接到其在达到所述规范的所述路径中的输出的每个复用器,以获得针对所述患者的突变数据,并且根据所述突变数据和所述参考模型针对所述患者生成个性化布尔模型;以及
输出定义所述个性化布尔模型的个人模型数据。
15.根据权利要求14所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***实现所述模型检查器。
16.权利要求14的计算机程序产品,其中所述程序指令还可执行以使得实施计算***响应于接收到包括针对所述患者的多个非二进制测量值的基因表达数据,通过将相应的非二进制测量值离散化以产生所述二进制测量值来生成所述规范数据。
17.根据权利要求14所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***响应于接收到定义对所述遗传交互建模并且包括所述多个基因节点、所述布尔电路和所述多个输入的布尔模型的布尔模型数据,从所述布尔模型数据生成所述参考模型数据,从而使得所述参考模型通过在所述布尔模型中***每个所述复用器和每个所述锁存器而从所述布尔模型被适配。
18.根据权利要求14所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***针对所述复用器中的一个或多个复用器中的每个复用器指定所述二进制突变值以用于由针对该复用器的所述模型检查器使用。
19.根据权利要求14所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***针对所述复用器中的一个或多个复用器中的每个复用器将针对该复用器的所述二进制突变值定义为由所述模型检查器可选择。
20.根据权利要求19所述的计算机程序产品,其中所述程序指令还可执行以使得所述突变数据指示由所述模型检查器针对其第二输入被连接到其输出以达到所述规范的每个所述复用器选择的所述二进制突变值。
21.根据权利要求14所述的计算机程序产品,其中所述程序指令进一步可执行以使得所述计算***在用于生成所述参考模型数据的初步操作中:
存储定义初步模型的初步模型数据,所述初步模型对应于所述参考模型,其中所述复用器位于所述模型中的每个基因节点处;
从所述规范数据生成逆规范数据,所述逆规范数据将逆规范定义为二进制测量值的所述规范的逻辑非;
使用基于插值的模型检查器来处理所述逆规范数据和所述初步模型数据,以生成所述逆规范在所述初步模型中的可达性的证据,其中每个复用器的所述第一输入被连接到所述复用器的输出,所述证据指示所述逆规范经由其可达到的每个所述复用器;以及
从所述初步模型数据生成所述参考模型数据,从而使得所述参考模型中的基因节点的所述集合包括与所述逆规范经由其可达到的每个所述复用器对应的所述基因节点。
22.根据权利要求21所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***实现所述基于插值的模型检查器。
23.根据权利要求21所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***:
响应于接收到包括针对患者的多个非二进制测量值的基因表达数据,通过将相应的非二进制测量值离散化以产生所述二进制测量值来生成所述规范数据;
响应于接收到定义对所述遗传交互建模并且包括所述多个基因节点、所述布尔电路和所述多个输入的布尔模型的布尔模型数据,从所述布尔模型数据生成所述参考模型数据,从而使得所述参考模型通过将每个所述复用器和每个所述锁存器***到所述布尔模型中来从所述布尔模型被适配;以及
针对所述复用器中的一个或多个复用器中的每个复用器,将针对该复用器的所述二进制突变值定义为由所述模型检查器可选择。
24.根据权利要求14所述的计算机程序产品,其中所述程序指令还可执行以使得所述计算***将所述二进制输入值中的一个或多个二进制输入值定义为由所述模型检查器可选择。
25.一种用于生成针对患者的遗传疾病的个性化布尔模型的计算***,所述***包括:
存储器,其存储规范数据和参考模型数据,所述规范数据定义从针对所述患者的基因表达数据获得的二进制测量值的规范,所述参考模型数据定义对针对所述疾病的遗传交互建模的参考模型,所述参考模型包括多个基因节点和多个输入,所述多个基因节点表示基因,被连接到布尔电路,所述多个输入用于接收表示针对所述模型的输入刺激的二进制输入值,其中所述多个基因节点的集合中的每个基因节点包括复用器,所述复用器具有将所述基因节点连接到所述模型中的第一输入和输出、用于接收二进制突变值的第二输入以及用于接收控制所述第一输入和所述第二输入中的一个到所述输出的选择性连接的二进制选择器值的控制输入,并且其中所述模型中在基因节点的输出与其输入之间的任何反馈环路包含锁存器;
模型检查器逻辑,其适于处理所述规范数据和所述参考模型数据,以确定所述规范是否经由路径在所述参考模型中可达,其中针对所述路径中的任何复用器的所述选择器值是可选择的,以将所述第二输入永久地连接到该复用器的所述输出;以及
进一步的逻辑,其适于如果所述规范是可达的,则标识其第二输入在达到所述规范的路径中被连接到其输出的每个复用器,以获得针对所述患者的突变数据,根据所述突变数据和所述参考模型来生成针对所述患者的个性化布尔模型以及输出定义所述个性化布尔模型的个人模型数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/684,540 | 2017-08-23 | ||
US15/684,540 US11177042B2 (en) | 2017-08-23 | 2017-08-23 | Genetic disease modeling |
PCT/IB2018/056076 WO2019038629A1 (en) | 2017-08-23 | 2018-08-13 | MODELING OF GENETIC DISEASE |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111033638A true CN111033638A (zh) | 2020-04-17 |
CN111033638B CN111033638B (zh) | 2023-11-03 |
Family
ID=65435257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880054125.9A Active CN111033638B (zh) | 2017-08-23 | 2018-08-13 | 遗传疾病建模 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11177042B2 (zh) |
JP (1) | JP7164844B2 (zh) |
CN (1) | CN111033638B (zh) |
DE (1) | DE112018004558T5 (zh) |
GB (1) | GB2578708A (zh) |
WO (1) | WO2019038629A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11150926B2 (en) * | 2019-02-22 | 2021-10-19 | International Business Machines Corporation | Native code generation for cloud services |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003065244A1 (en) * | 2002-01-30 | 2003-08-07 | Board Of Regents, The University Of Texas System | Probabilistic boolean networks |
WO2007067956A2 (en) * | 2005-12-07 | 2007-06-14 | The Trustees Of Columbia University In The City Of New York | System and method for multiple-factor selection |
US20110202283A1 (en) * | 2007-02-22 | 2011-08-18 | Ali Abdi | Systems and methods for fault diagnosis in molecular networks |
CN103329138A (zh) * | 2011-01-19 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 用于处理基因组数据的方法 |
EP2759605A1 (en) * | 2013-01-25 | 2014-07-30 | Signature Diagnostics AG | A method for predicting a manifestation of an outcome measure of a cancer patient |
US20160283608A1 (en) * | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Relevancy assessment and visualization of biological pathways |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6032119A (en) | 1997-01-16 | 2000-02-29 | Health Hero Network, Inc. | Personalized display of health information |
US8566039B2 (en) | 2008-05-15 | 2013-10-22 | Genomic Health, Inc. | Method and system to characterize transcriptionally active regions and quantify sequence abundance for large scale sequencing data |
US20130116999A1 (en) | 2011-11-04 | 2013-05-09 | The Regents Of The University Of Michigan | Patient-Specific Modeling and Forecasting of Disease Progression |
-
2017
- 2017-08-23 US US15/684,540 patent/US11177042B2/en active Active
-
2018
- 2018-08-13 JP JP2020510126A patent/JP7164844B2/ja active Active
- 2018-08-13 DE DE112018004558.7T patent/DE112018004558T5/de active Pending
- 2018-08-13 GB GB2003510.1A patent/GB2578708A/en not_active Withdrawn
- 2018-08-13 CN CN201880054125.9A patent/CN111033638B/zh active Active
- 2018-08-13 WO PCT/IB2018/056076 patent/WO2019038629A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003065244A1 (en) * | 2002-01-30 | 2003-08-07 | Board Of Regents, The University Of Texas System | Probabilistic boolean networks |
WO2007067956A2 (en) * | 2005-12-07 | 2007-06-14 | The Trustees Of Columbia University In The City Of New York | System and method for multiple-factor selection |
US20110202283A1 (en) * | 2007-02-22 | 2011-08-18 | Ali Abdi | Systems and methods for fault diagnosis in molecular networks |
CN103329138A (zh) * | 2011-01-19 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 用于处理基因组数据的方法 |
EP2759605A1 (en) * | 2013-01-25 | 2014-07-30 | Signature Diagnostics AG | A method for predicting a manifestation of an outcome measure of a cancer patient |
US20160283608A1 (en) * | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Relevancy assessment and visualization of biological pathways |
Also Published As
Publication number | Publication date |
---|---|
US20190065693A1 (en) | 2019-02-28 |
WO2019038629A1 (en) | 2019-02-28 |
CN111033638B (zh) | 2023-11-03 |
DE112018004558T5 (de) | 2020-06-18 |
GB202003510D0 (en) | 2020-04-29 |
GB2578708A (en) | 2020-05-20 |
JP7164844B2 (ja) | 2022-11-02 |
JP2020531989A (ja) | 2020-11-05 |
US11177042B2 (en) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Voit | Perspective: Dimensions of the scientific method | |
US20050154535A1 (en) | Method, system and apparatus for assembling and using biological knowledge | |
US10534813B2 (en) | Simplified visualization and relevancy assessment of biological pathways | |
Mias et al. | MathIOmica: an integrative platform for dynamic omics | |
Beltrame et al. | The Biological Connection Markup Language: a SBGN-compliant format for visualization, filtering and analysis of biological pathways | |
Brinkrolf et al. | VANESA-A software application for the visualization and analysis of networks in systems biology applications | |
Chen et al. | Genetic simulation tools for post‐genome wide association studies of complex diseases | |
Srivas et al. | Assembling global maps of cellular function through integrative analysis of physical and genetic networks | |
Magnusson et al. | Deep neural network prediction of genome-wide transcriptome signatures–beyond the Black-box | |
Nersisyan et al. | PSFC: a pathway signal flow calculator app for cytoscape | |
Ragsdale et al. | Lessons learned from bugs in models of human history | |
Audoux et al. | SimBA: A methodology and tools for evaluating the performance of RNA-Seq bioinformatic pipelines | |
CN111033638B (zh) | 遗传疾病建模 | |
JP5067417B2 (ja) | 分子ネットワーク分析支援プログラム、分子ネットワーク分析支援装置、および分子ネットワーク分析支援方法 | |
Joshi et al. | Functional Genomics and Network Biology | |
Reimand et al. | Pathway enrichment analysis of-omics data | |
Lin et al. | Logic synthesis for genetic diseases: modeling disease behavior using Boolean networks | |
Kazemzadeh et al. | LinkedPPI: Enabling Intuitive, Integrative Protein-Protein Interaction Discovery. | |
Evans et al. | ASPASIA: A toolkit for evaluating the effects of biological interventions on SBML model behaviour | |
Konur et al. | Modeling and analysis of genetic boolean gates using Infobiotics Workbench | |
Kang et al. | gsGator: an integrated web platform for cross-species gene set analysis | |
Magnusson et al. | White-box deep neural network prediction of genome-wide transcriptome signatures | |
Khan | Current trends for customized biomedical software tools | |
Montojo et al. | SIREN Cytoscape plugin: interaction type discrimination in gene regulatory networks | |
Long et al. | OmeSim: a genetics-based nonlinear simulator for in-between-ome and phenotype |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |