CN113506594B - 冠心病的多基因遗传风险综合评分的构建方法与装置及应用 - Google Patents

冠心病的多基因遗传风险综合评分的构建方法与装置及应用 Download PDF

Info

Publication number
CN113506594B
CN113506594B CN202110579230.8A CN202110579230A CN113506594B CN 113506594 B CN113506594 B CN 113506594B CN 202110579230 A CN202110579230 A CN 202110579230A CN 113506594 B CN113506594 B CN 113506594B
Authority
CN
China
Prior art keywords
sub
heart disease
coronary heart
phenotype
single nucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110579230.8A
Other languages
English (en)
Other versions
CN113506594A (zh
Inventor
顾东风
鲁向锋
黄建凤
王来元
陈恕凤
刘钟应
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN202110579230.8A priority Critical patent/CN113506594B/zh
Publication of CN113506594A publication Critical patent/CN113506594A/zh
Priority to PCT/CN2022/095221 priority patent/WO2022247903A1/zh
Application granted granted Critical
Publication of CN113506594B publication Critical patent/CN113506594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Ecology (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种冠心病的多基因遗传风险综合评分(metaPRS)构建方法与装置及其应用。本发明的冠心病多基因遗传风险综合评分的构建方法包括:筛选与冠心病相关和/或与冠心病相关表型相关的SNP的集合;检测个体的待测SNP的基因型;从全基因组关联研究结果中分别提取所测SNP对应于多个亚表型的危险等位基因、效应值及P值,构建多个候选亚表型PRS并筛选最佳亚表型PRS;确定各个亚表型PRS的权重;将亚表型PRS的权重转化为SNP水平的权重;构建冠心病多基因遗传风险综合评分metaPRS。本发明对冠心病发病风险预测和精细化分层具有重要意义。

Description

冠心病的多基因遗传风险综合评分的构建方法与装置及应用
技术领域
本发明是关于一种冠心病的多基因遗传风险综合评分(metaPRS)的构建方法与装置及其应用。
背景技术
心血管疾病(CVD)的发生发展受到遗传因素和环境因素的共同作用。
在心血管疾病的一级预防中,风险预测和评估起着至关重要的作用。遗传因素作为稳定且可量化的终生标记,长期以来一直被期望能用于疾病的风险评估,以促进心 血管疾病的精准预防。在过去的10年里,全基因组关联研究已经成功识别出了上百 个与冠心病以及冠心病相关表型(血脂水平、血压、2型糖尿病和BMI)存在显著关 联的区域。最近,整合多个遗传变异信息的冠心病多基因遗传风险评分(PRS)已经 被成功开发,并用于冠心病风险预测的临床效用评估(Eur.Heart.J.37,561-567(2016); Nat.Genet.50,1219-1224(2018);J.Am.Coll.Cardiol.72,1883-1893(2018);Eur.Heart. J.37,3267-3278(2016);Jama323,627-635(2020);Jama323,636-645,(2020);JAMA Cardiol...3,693-702(2018);N.Engl.J.Med.375,2349-2358(2016))。然而,几乎所有 这些遗传评分均是基于欧洲人群构建的,不同人群间变异位点频率的不同、连锁不平 衡模式的差异导致了欧洲人群的评分不能在东亚和中国人群中使用。其次不同人群间 生活方式、其他危险因素以及潜在的基因-环境交互作用的不同,也会导致这种异质 性。有研究报道这些遗传评分的预测效果在其他种族群体中预测效能明显下降。
因此,迫切需要开发东亚人群特别是中国人群的遗传风险评分。
发明内容
本发明的一个目的在于提供一种冠心病的多基因遗传风险评分的构建方法。
本发明的另一目的在于提供一种构建冠心病多基因遗传风险评分的装置。
具体而言,一方面,本发明提供了一种冠心病多基因遗传风险评分的构建方法,其是一种冠心病多基因遗传风险综合评分的构建方法,该方法包括步骤:
(1)筛选与冠心病相关或与冠心病相关表型相关(达到全基因组显著关联)的 单核苷酸多态性位点(SNP)的集合;其中冠心病相关表型包括:血压、2型糖尿病、 血脂、肥胖和脑卒中;
(2)基于步骤(1)中的单核苷酸多态性位点进行基因分型;
(3)从全基因组关联研究结果中分别提取所测SNP对应于多个亚表型的危险等 位基因、效应值及P值,构建多个候选亚表型PRS并筛选最佳亚表型PRS;
(4)确定各个亚表型PRS的权重;
(5)将亚表型PRS的权重转化为SNP水平的权重;
(6)构建冠心病多基因遗传风险综合评分metaPRS。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 冠心病相关表型血压包括:收缩压、舒张压、脉压、平均动脉压和高血压;冠心病相 关表型肥胖(体质指数)包括体重指数、腰围和腰臀比;冠心病相关表型血脂包括总 胆固醇、低密度脂蛋白胆固醇、甘油三酯和高密度脂蛋白胆固醇。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 所述多个亚表型包括:冠心病、体质指数、血压、2型糖尿病、总胆固醇、低密度脂 蛋白胆固醇、甘油三酯、高密度脂蛋白胆固醇和脑卒中。即,本发明的冠心病多基因 遗传风险评分的构建方法中,构建的多个候选亚表型PRS包括:冠心病、脑卒中、2 型糖尿病、血压、体质指数、总胆固醇、低密度脂蛋白胆固醇、甘油三酯和高密度脂 蛋白胆固醇的亚表型PRS。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 所述单核苷酸多态性位点的集合中纳入全基因组关联研究中被发现与冠心病或冠心病相关表型(冠心病相关危险因素)存在全基因组显著关联。具体地,所述单核苷酸 多态性位点的集合中纳入:与冠心病或脑卒中相关的单核苷酸多态性位点,以及与血 压、2型糖尿病、血脂、肥胖相关的单核苷酸多态性位点,还可以进一步选择性地纳 入和动脉硬化临床表型相关的单核苷酸多态性位点。根据本发明的具体实施方案,本 发明的冠心病多基因遗传风险评分的构建方法中,所述冠心病多基因遗传风险评分是 用于评估东亚人群冠心病发病风险,所述单核苷酸多态性位点的集合中纳入的单核苷 酸多态性位点可以是所有人群的,例如可包括欧洲人群和东亚人群,其中的与血压、 2型糖尿病、血脂、肥胖和动脉硬化临床表型相关的单核苷酸多态性位点可以主要是 东亚人群的。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 进行基因分型的队列人群为东亚人群。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 使用多重聚合酶链反应靶向扩增子测序技术进行基因分型。中位测序深度为982×。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 基因分型过程中,可排除基因型检出率低于95%的SNP,得到检测合格的SNP集合。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 是从大规模东亚人群全基因组关联研究结果中分别提取所测SNP对应于多个亚表型的危险等位基因、效应值及P值。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 构建各个亚表型PRS的过程包括:
根据提取的P值大小分出多组SNP,对于每组SNP,基于队列人群数据,使用 plink软件clumping命令按照r2<0.2进行修剪,得到多组SNP组合;
利用基因型数据,将个体SNP风险等位基因数(0、1或2)根据其对应的效应 值进行加权并求和构建多个纳入不同组合SNP的候选PRS,采用logistic回归模型评 估这些候选PRS与冠心病的关联,比值比(odds ratio,OR)最大(PRS每增加一个 标准差)的评分被选作最佳亚表型PRS。
根据本发明的更具体实施方案,上述构建各个亚表型PRS的过程中,可以根据 提取的P值大小分出N组SNP,N大于等于2。例如,可按照P值0.5,0.4,0.3,0.2,0.1, 0.05,0.01,10-3,10-4,10-5,10-6,10-7从中选出9组、10组、11组或12组。
根据本发明的更具体实施方案,上述构建各个亚表型PRS的过程中,当根据提 取的P值大小分出N组SNP,按照连锁不平衡r2<0.2时,可得到N组SNP组合,即 可构建N个纳入不同组合SNP的候选PRS。
本发明中,可进一步通过Pearson相关分析计算各个亚表型PRS两两之间的相关系数r和P值。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 可从所有队列人群按照预定比例选出部分人群作为训练集(其余部分人群可作为验证集)。所述构建亚表型PRS、确定各个亚表型PRS的权重的过程在训练集中进行。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 确定各个亚表型PRS的权重的过程包括:
将各个亚表型PRS转化为均值为0、标准差为1的标准化评分;
利用训练集,将标化后的各个亚表型PRS及要调整的协变量(年龄、性别)共 同放入弹性网状logistic回归模型,选择AUC最高的模型作为最终模型,从中获得每 个PRS的系数(β1…βn,共n个PRS)作为权重。
在本发明的一些具体实施方案中,弹性网状logistic回归模型可校正各个亚表型PRS之间的相关性,本发明利用该模型评估了9个(即n为9)亚表型PRS与冠心病 的关联,对比分析了弹性网状logistic回归估计的OR值与单变量logistic回归估计的 OR值。进一步地,本发明通过整合9种亚表型PRS,将亚表型PRS的权重转化为 SNP水平的权重,构建冠心病metaPRS并进行验证。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 将亚表型PRS的权重转化为SNP水平的权重的过程按照以下模型进行:
Figure BDA0003085403870000041
其中,σ1,…,σn是训练集中每个(共n个)亚表型PRS的标准差,αj1,...,αjn是第 i个SNP对应于每个亚表型的效应值,如果第k个评分中未包含某个SNP,则该SNP 的效应值大小αjk设为0。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 构建的冠心病多基因遗传风险综合评分metaPRS为:
metaPRS=∑βsnp_i×Ni
其中,βsnp_i是指第i个SNP的效应值,Ni指个体所携带第i个SNP的效应等 位基因数目。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险综合评分的构建方法,还可进一步包括评价所构建的metaPRS对冠心病风险预测和分层的作用的过程。
根据本发明的具体实施方案,本发明的冠心病多基因遗传风险评分的构建方法中, 优选地,以队列人群所有个体metaPRS的20%和80%百分位数为切点,划分个体冠 心病遗传发病风险为低、中、高危人群。
另一方面,本发明还提供了一种用于构建冠心病多基因遗传风险综合评分的装置, 该装置包括:
基因分型模块,用于进行基因分型;
亚表型PRS构建模块,用于从全基因组关联研究结果中分别提取所测SNP对应 于多个亚表型的危险等位基因、效应值及P值,并构建候选亚表型PRS、筛选最佳亚 表型PRS;
模型训练模块,用于在训练集中确定各个亚表型PRS的权重;
metaPRS构建模块,用于将亚表型PRS的权重转化为SNP水平的权重并构建冠 心病多基因遗传风险综合评分(metaPRS)。
根据本发明的具体实施方案,本发明的构建冠心病多基因遗传风险综合评分的装置中,还可选择性地包括SNP筛选模块,用于筛选与冠心病相关或与冠心病相关表 型相关的单核苷酸多态性位点(SNP)的集合。
根据本发明的具体实施方案,本发明的构建冠心病多基因遗传风险综合评分的装置中,基因分型模块还可用于在基因分型后排除基因型检出率低于95%的SNP。
根据本发明的具体实施方案,本发明的构建冠心病多基因遗传风险综合评分的装置中,选择性地,所述metaPRS构建模块可进一步用于评价所构建的metaPRS对冠心 病风险预测和分层的作用。
另一方面,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实 现利用本发明所述方法构建的冠心病多基因遗传风险综合评分评估个体冠心病发病 风险。
在本发明的具体实施方案中,为了精确评估东亚人群遗传变异与CAD发病风险的关联效应值,本发明在51,531例冠心病病例和21,5934例对照中开展了全基因关联研 究。然后整合9个冠心病及其相关表型遗传信息在2800例冠心病病例和2055例健康 对照中构建多基因遗传风险评分,最后在41,271例中国人群前瞻性队列中进行验证 和评价。本发明发现构建的多基因遗传风险评分对冠心病的发生具有很好的预测价值。 研究发现,遗传风险高的个体(遗传风险上20%)发生冠心病的风险比遗传风险低的个 体(遗传风险下20%)高约3倍(HR:2.93,95%CI:2.44-3.51),两组的冠心病终生风 险分别为16.0%和5.8%。并且在男性和女性人群中,具有类似的预测效果。本研究证实 多基因遗传风险综合评分可以实现冠心病风险精细化分层,本发明对于构建冠心病多基 因遗传风险综合评分以及冠心病一级预防方面具有重要应用前景。
附图说明
图1为本发明的研究流程图。其中,PRS,多基因风险评分。
图2显示成功分型的588个变异位点的测序深度。
图3显示训练集中采用东亚和欧美GWAS效应值比较冠心病PRS与冠心病的关 联。采用logistic回归模型计算比值比(ORs)和95%可信区间(CIs),调整年龄和 性别。分别使用东亚人群和欧洲UK Biobank冠心病GWAS数据的效应值作为SNPs 权重计算评分。设定不同的P值阈值(0.5,0.4,0.3,0.2,0.1,0.05,0.01,10-3,10-4,10-5, 10-6,10-7)分别构建12个包含不同SNPs组合的PRS(连锁不平衡r2<0.2)。
图4显示显示在不同的P值阈值下,训练集中的亚表型PRSs(每增加一个标准 差)与CAD的关联。采用logistic回归计算比值比(OR)和95%可信区间(CI), 调整年龄和性别。
图5为前瞻性队列中亚表型PRS和metaPRS的相关图。其中,*P<0.05,**P<10-3, ***P<10-10
图6显示训练集中亚表型多基因风险评分(每增加一个标准差)与冠心病的关 联。分别采用logistic回归和弹性网状logistic回归计算比值比(OR)和95%可信区 间(CI),调整年龄和性别。
图7显示前瞻性队列中metaPRS(每增加一个标准差)和亚表型PRS与CAD 发病的危险比。采用以年龄作为时间尺度,调整队列来源和性别的cox模型来分析。
图8显示不同遗传组(<20%,20%-80%,>80%分组)冠心病发病的相对风险和 绝对风险。其中采用调整性别和队列来源,以年龄为刻度,并考虑竞争风险的Cox 模型估计不同遗传风险组HR和95%CI以及冠心病的累积发病率。虚线表示95%CI。 CAD,冠心病;HR,风险比;CI,置信区间。
图9显示按照性别分层,不同遗传组(<20%,20%-80%,>80%分组)冠心病发 病的相对风险和绝对风险。其中采用调整性别和队列来源,以年龄为刻度,并考虑竞 争风险的Cox模型估计不同遗传风险组HR和95%CI以及冠心病的累积发病率。虚 线表示95%CI。CAD,冠心病;HR,风险比;CI,置信区间。
具体实施方式
为了对本发明的技术特征、目的和有益效果有更加清楚的理解,现结合具体实施例及对本发明的技术方案进行以下详细说明,应理解这些实例仅用于说明本发明而不 用于限制本发明的范围。对本领域技术人员而言,在本发明的精神范围内所轻易思及 的各种变化和/或修饰,皆被认定为涵盖于本发明的保护范围内。实施例中,各原始 试剂材料均可商购获得,未注明具体条件的实验方法为所属领域熟知的常规方法和常 规条件,或按照仪器制造商所建议的条件。
实施例1
研究设计流程与研究人群
研究设计流程参见图1所示。本发明在2800例CAD患者和2055例健康对照(表 1)中开发了一种用于CAD的多基因风险评分(PRS),然后在大规模前瞻性队列人 群中对其进行验证。训练集中的CAD病例来自中国医学科学院阜外医院。心肌梗死 (MI)的诊断严格遵循以体征、症状、心电图和心脏酶活性为基础的诊断标准。结 合既往是否诊断有心肌梗死病史,或左冠状动脉主干超过50%狭窄,或至少有一条主 要心外膜血管狭窄>70%诊断为冠心病。
验证队列来自China-PAR研究的三个子队列,包括中国心血管健康多中心合作研究(InterASIA)、中国心血管流行病学多中心合作研究(ChinaMUCA-1998)、中国 代谢综合征社区干预和中国家庭健康研究(CIMIC)(Yang,X.et al.Predicting the 10-Year Risksof Atherosclerotic Cardiovascular Disease in Chinese Population:The China-PARProject(Prediction for ASCVD Risk in China).Circulation134,1430-1440 (2016))。简单地说,ChinaMUCA-1998、InterASIA和CIMIC基线分别建立于1998 年、2000-2001年和2007-2008年。根据统一标准,2007-2008年对InterASIA和 ChinaMUCA-1998进行了首次随访,2012-2015以及2018-2020年对所有三个队列进 行了统一随访。在本研究中,共收集到独立于训练集的43,582例参与者的血液样本 和主要协变量数据。在排除561例基因型缺失率高(>5.0%)或平均测序深度低(<30 层)、1352例基线时<30岁或>75岁、398例基线确诊冠心病的个体之后,最终共有 41,271例参与者纳入分析。
所有研究均由中国医学科学院阜外医院伦理审查委员会批准。在数据收集前,每位参与者均签署了知情同意书。
表1.训练集一般信息
Figure BDA0003085403870000071
Figure BDA0003085403870000081
值为平均值(SD)或N(%)。
数据收集和危险因素定义
在严格的质量控制下,由经过培训的调查人员收集基线和随访期间的重要信息。使用标准问卷收集个人信息(性别、出生日期等)、生活方式信息(饮食***。
为了在随访期间获得疾病结局和死亡相关信息,研究人员对参与者或其代理人进行了随访,同时还收集了参与者的医疗记录(或死亡证明)。两名不了解基线信息的 委员会成员独立地对结局事件进行了核实。如存在不一致的情况,其他委员会成员将 参与讨论最后达成共识。冠心病发病定义为首次发生不稳定性心绞痛、非致死性急性 心肌梗死或出现冠心病死亡。由心肌梗死或其他冠状动脉疾病引起的致命事件被定义 为冠心病死亡。基线日期与冠心病发生日期、死亡日期或最后一次随访到的日期之间 的时间间隔为随访人年。
遗传变异位点选择和基因分型
本发明首先选择了600个遗传变异位点,它们在全基因组关联研究中被发现与冠心病(n=212)或冠心病相关危险因素存在全基因组显著关联(P<5×10-8),包括脑 卒中(n=42)、血压(n=56)、血脂(n=130)、T2D(n=90)和肥胖(n=79)(表 2)。所有遗传变异位点信息都已在表3中提供。简而言之,对于冠心病本发明选择 了东亚和欧洲人群报道的所有遗传变异位点;对于其他危险因素,本发明主要关注东 亚人群中报道的遗传变异位点。
训练集样本使用Infinium公司的Multi-Ethnic Genotyping Arrays(MEGA)芯片进 行基因分型获取检测位点的遗传变异信息。在队列人群中,本发明使用多重PCR靶 向扩增子测序技术对样本进行基因分型。采用领域中的常规操作针对每个突变设计多 重引物,并使用Illumina Hiseq X Ten测序仪对扩增靶区进行高通量测序。在剔除12 个变异位点检出率<95%或在训练数据集中缺失的变异后,共有588个变异或其替代 位点检测成功,平均检出率为99.9%,测序深度中位数为982×(图2)。为评估基因 分型的可重复性,本发明对1648份样本进行了多次基因分型,鉴定结果一致率>99.4%。
表2.本研究中所选遗传变异的来源
Figure BDA0003085403870000091
CAD,冠心病;SBP,收缩压;DBP,舒张压;PP,脉压;MAP,平均动脉压; HTN,高血压;T2D,2型糖尿病;BMI,体重指数;WC,腰围;WHR,腰臀比; TC,总胆固醇;LDL-C,低密度脂蛋白胆固醇;TG,甘油三酯;HDL-C,高密度脂 蛋白胆固醇。
metaPRS的构建
(1)从GWAS结果数据提取SNP效应值,计算各个亚表型PRS
本发明首先根据东亚人群大规模全基因组关联研究的效应值构建了9个CAD相 关表型的遗传评分。为了精确估计所选择的变异在东亚人群中的CAD效应值,本发 明在东亚人群中进行了冠心病全基因组关联研究,总样本量为267,465例(51,531例 冠心病患者和215,934例非冠心病患者)。对于其他8个表型(脑卒中,2型糖尿病, 血压,体质指数,总胆固醇,低密度脂蛋白胆固醇,甘油三酯和高密度脂蛋白胆固醇), 本发明从东亚人群发表的大型全基因组关联研究中获得了每个位点的对应于各亚表 型的危险等位基因、效应值及P值。所选研究的详细列表见表3。
表3.用于多基因风险评分计算的汇总数据来源
Figure BDA0003085403870000101
GWAS,全基因组关联研究;EWAS,全外显子关联研究;BP,血压;CAD,冠状动脉疾病;T2D,2型糖 尿病;BMI,体质指数;TC,总胆固醇;LDL-C,低密度脂蛋白胆固醇;TG,甘油三酯;HDL-C,高密度 脂蛋白胆固醇。
以亚表型CAD为例,本发明整合东亚人群和中国人群大规模冠心病病例对照基 因组数据,开展冠心病全基因组关联研究,样本达到51,531例冠心病患者和215,934 例非冠心病患者,使用固定效应模型对不同亚队列关联分析结果进行Meta分析,得 到所测SNP的危险等位基因、效应值及P值。根据提取的P值,按照0.5,0.4,0.3,0.2, 0.1,0.05,0.01,10-3,10-4,10-5,10-6,10-7筛选出12组SNP,对于每组SNP,基于队列人 群数据,使用plink软件(version 1.9)clumping命令按照连锁不平衡r2<0.2修剪,最 终得到12组SNP组合。利用训练集基因型数据,将个体SNP风险等位基因数(0、 1或2)根据其对应的效应值进行加权并求和构建12个纳入不同组合SNP的候选PRS, 采用logistic回归模型评估这些候选PRS与冠心病的关联,比值比(odds ratio,OR) 最大(PRS每增加一个标准差)的评分被选作最佳冠心病PRS。对于其他8个表型, 通过表3中提供的对应表型的文献获取SNP效应值,然后按照上述同样的步骤构建 其他8个亚表型PRS。其中,最佳亚表型PRS利用的SNP位点及效应值见表4。
(2)在训练集中计算各个亚表型PRS的权重
将9个亚表型PRS转化为均值为0,标准差为1的评分。利用训练集,将标化后 的9个亚表型PRS及要调整的协变量(年龄、性别)共同放入弹性网状logistic回归 模型(cv.glmnet函数,R包“glmnet”),该模型采用10倍交叉验证的方法评估一 系列不同惩罚项(设置alpha=0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1.0) 的模型,将模型参数type.measure设置为“auc”,模型自动筛选AUC(area under receiving-operatorcharacteristic curve,接收者操作特征曲线下面积)最高的模型作为 最终模型,从中获得每个PRS的系数(β1…β9)作为权重。表5提供了各个亚表型 PRS的权重,TG、HDL和LDL的亚表型权重为0。
(3)将亚表型PRS的权重转化为SNP水平的权重
Figure BDA0003085403870000111
利用以上公式将PRS水平的权重转换为SNP水平的权重,其中σ1,…,σ9是训练集 中每个亚表型PRS的标准差,αj1,…,αj9是第i个SNP对应于每个亚表型的效应值, 如果第k个评分中未包含某个SNP,则该SNP的效应值大小αjk设为0。
(4)计算metaPRS
利用公式:metaPRS=∑βsnp_i×Ni计算个体的metaPRS,其中βsnp_i是指第i个SNP的效应值(即第3步得到的SNP水平的权重),Ni指个体所携带第i个SNP的效 应等位基因数目。
经过统计处理步骤,最终共有510个SNP的权重不为0并纳入metaPRS的计算, 表4中提供了所有符合条件SNP的信息和权重。
(5)metaPRS切点划分
以队列人群所有个体metaPRS的20%和80%百分位数为切点,划分个体冠心病 遗传风险为低、中、高危人群。
表4.本发明所确定SNPs的信息和权重
Figure BDA0003085403870000121
Figure BDA0003085403870000131
Figure BDA0003085403870000141
Figure BDA0003085403870000151
Figure BDA0003085403870000161
Figure BDA0003085403870000171
Figure BDA0003085403870000181
Figure BDA0003085403870000191
Figure BDA0003085403870000201
Figure BDA0003085403870000211
Figure BDA0003085403870000221
表5.各亚表型在冠心病多基因遗传风险综合评分中的权重
亚表型名称 PRS权重
冠心病 0.452
血压 0.074
体质指数 0.072
糖尿病 0.064
总胆固醇 0.038
脑卒中 0.004
低密度脂蛋白胆固醇 0
高密度脂蛋白胆固醇 0
甘油三酯 0
统计分析
对于连续性变量,人群特征描述为平均值(标准差);对于分类变量,人群特征 描述为数量(百分比)。多基因遗传评分按照<20%,20%-80%,>80%分位数分为三 组(高、中、低遗传风险组)。采用经年龄和性别调整,校正队列来源,并考虑非冠 心病死亡的竞争风险的Cox比例风险回归模型估计不同遗传风险组冠心病事件的风 险比(HRs)及其95%置信区间(CIs)。采用年龄为时间尺度的Cox比例风险回归 模型来评估不同遗传风险分组发生冠心病的终生风险(到80岁)。分析使用了R包 survival中的‘survfit.coxph’函数。本研究中所有报道的P值均未进行校正,且双侧P 值<0.05认为有统计学意义。统计分析在R软件(R Foundation for Statistical Computing, Vienna,Austria,版本3.5.0)或SAS统计软件(SAS Institute Inc,Cary,NC,版本9.4) 中进行。
前瞻性队列的基线信息
表6显示了队列人群中41,271例研究对象的基线信息。基线时的平均年龄为52.3岁(标准差,10.6岁),其中42.5%为男性。相比于女性,男性当前吸烟率更高。经 过总计534,701人年(平均随访13.0年)随访,共发生1303例冠心病。
表6.前瞻性队列的基线信息
Figure BDA0003085403870000231
值为平均值(SD)或N(%)。CAD,冠心病。
多基因遗传风险评分对冠心病的预测
本发明首先依据东亚人群冠心病GWAS结果P值设定12个阈值(0.5,0.4,0.3,0.2,0.1,0.05,0.01,10-3,10-4,10-5,10-6,10-7)筛选12组不同SNPs组合,然后在训练集采 用欧洲人群的GWAS结果数据作为SNP效应值计算冠心病PRS,并进一步评估它们 与冠心病的关联强度。如图3所示,与使用东亚人群冠心病GWAS效应值相比,当 使用来自欧洲人群的效应值时,12个纳入不同SNP组合的PRS(每增加一个SD) 与冠心病关联的OR(95%CI)值均显著下降。因此,本研究采用东亚人群的GWAS 效应值构建各个亚表型PRS,训练集中每个候选亚表型PRS与冠心病的关联强度见 图4,选择OR值最大的一个评分作为最终的亚表型PRS。
9个亚表型PRS之间存在不同程度的相关性(图5)。进一步利用弹性网状logistic回归模型评估9个亚表型PRS与冠心病的关联,该模型可校正各个亚表型PRS之间 的相关性,弹性网状logistic回归估计的OR值与单变量logistic回归估计的OR值对 比见图6(图6中LDL-C、TG和HDL-C权重为0)。最后,通过整合9种亚表型 PRS构建冠心病metaPRS并在队列人群中进行验证。
与亚表型PRS相比,metaPRS与冠心病风险的关联强度最大(图7),metaPRS 每增加1个标准差,冠心病的HR为1.44(95%CI:1.36-1.52)(P=2.84×10-39)。 metaPRS与冠心病的关联独立于血脂异常、高血压、BMI、糖尿病、吸烟状况和冠心 病家族史(表7)。
表7.校正冠心病危险因素后的metaPRS与冠心病事件的危险比 (metaPRS每增加一个标准差)
模型 HR (95%CI) P值
metaPRS 1.44 (1.36,1.52) 2.84×10<sup>-39</sup>
metaPRS+血脂异常 1.42 (1.34,1.50) 2.54×10<sup>-35</sup>
metaPRS+高血压 1.41 (1.34,1.49) 2.78×10<sup>-35</sup>
metaPRS+糖尿病 1.43 (1.36,1.51) 1.33×10<sup>-37</sup>
metaPRS+身体质量指数 1.42 (1.35,1.50) 1.74×10<sup>-36</sup>
metaPRS+吸烟 1.44 (1.36,1.52) 4.55×10<sup>-39</sup>
metaPRS+CAD家族史 1.44 (1.36,1.52) 9.52×10<sup>-39</sup>
metaPRS+6个常见CAD危险因素 1.39 (1.32,1.47) 2.75×10<sup>-31</sup>
CAD,冠心病;PRS,遗传风险评分;HR,风险比;CI,置信区间。
将metaPRS按照20%、80%分位数进行分组,与遗传风险低的个体(遗传风险 下20%)相比,遗传风险高的个体(遗传风险上80%)发生冠心病事件的风险要高3 倍(HR=2.93,95%CI:2.44-3.51)(图8)。这两组人80岁之前发生冠心病的累积 风险分别为5.8%和16.0%。按照性别分层进行分析,可以得到类似的结果(图9)。

Claims (12)

1.一种冠心病多基因遗传风险综合评分的构建方法,该方法包括步骤:
(1)筛选纳入与冠心病相关的单核苷酸多态性位点和与冠心病相关表型相关的单核苷酸多态性位点SNP的集合;其中冠心病相关表型包括:血压、2型糖尿病、血脂、肥胖和脑卒中;其中,单核苷酸多态性位点的集合中纳入:全基因组关联研究中被发现与冠心病存在全基因组显著关联的单核苷酸多态性位点、与血压存在全基因组显著关联的单核苷酸多态性位点、与2型糖尿病存在全基因组显著关联的单核苷酸多态性位点、与血脂存在全基因组显著关联的单核苷酸多态性位点、与肥胖存在全基因组显著关联的单核苷酸多态性位点,以及与脑卒中存在全基因组显著关联的单核苷酸多态性位点;
(2)基于步骤(1)中的单核苷酸多态性位点进行基因分型;
(3)从全基因组关联研究结果中分别提取所测SNP对应于多个亚表型的危险等位基因、效应值及P值,所述多个亚表型包括:冠心病、体质指数、血压、2型糖尿病、总胆固醇、低密度脂蛋白胆固醇、甘油三酯、高密度脂蛋白胆固醇和脑卒中,针对每个亚表型分别构建多个候选亚表型PRS:冠心病多个候选亚表型PRS、体质指数多个候选亚表型PRS、血压多个候选亚表型PRS、2型糖尿病多个候选亚表型PRS、总胆固醇多个候选亚表型PRS、低密度脂蛋白胆固醇多个候选亚表型PRS、甘油三酯多个候选亚表型PRS、高密度脂蛋白胆固醇多个候选亚表型PRS和脑卒中多个候选亚表型PRS,并分别筛选冠心病最佳亚表型PRS、体质指数最佳亚表型PRS、血压最佳亚表型PRS、2型糖尿病最佳亚表型PRS、总胆固醇最佳亚表型PRS、低密度脂蛋白胆固醇最佳亚表型PRS、甘油三酯最佳亚表型PRS、高密度脂蛋白胆固醇最佳亚表型PRS和脑卒中最佳亚表型PRS;
其中,构建各个候选亚表型PRS的过程包括:
根据提取的P值大小分出多组SNP,对于每组SNP,基于队列人群数据,使用plink软件clumping命令按照r2<0.2修剪,得到多组SNP组合;其中,按照P值0.5, 0.4, 0.3, 0.2,0.1, 0.05, 0.01, 10-3, 10-4, 10-5, 10-6, 10-7从中选出9组、10组、11组或12组;
利用基因型数据,将个体SNP风险等位基因数根据其对应的效应值进行加权并求和构建多个纳入不同组合SNP的候选PRS,采用logistic回归模型评估这些候选PRS与冠心病的关联,比值比(odds ratio, OR)最大的评分被选作最佳亚表型PRS;其中所述个体SNP风险等位基因数为0、1或2;
(4)确定各个亚表型PRS的权重;
(5)将亚表型PRS的权重转化为SNP水平的权重;
(6)构建冠心病多基因遗传风险综合评分metaPRS。
2.根据权利要求1所述的方法,其中,与血压存在全基因组显著关联的单核苷酸多态性位点包括:与收缩压存在全基因组显著关联的单核苷酸多态性位点、与舒张压存在全基因组显著关联的单核苷酸多态性位点、与脉压存在全基因组显著关联的单核苷酸多态性位点、与平均动脉压存在全基因组显著关联的单核苷酸多态性位点和与高血压存在全基因组显著关联的单核苷酸多态性位点;与肥胖包括:与体重指数存在全基因组显著关联的单核苷酸多态性位点、与腰围存在全基因组显著关联的单核苷酸多态性位点和与腰臀比存在全基因组显著关联的单核苷酸多态性位点;与血脂存在全基因组显著关联的单核苷酸多态性位点包括:与总胆固醇存在全基因组显著关联的单核苷酸多态性位点、与低密度脂蛋白胆固醇存在全基因组显著关联的单核苷酸多态性位点、与甘油三酯存在全基因组显著关联的单核苷酸多态性位点和与高密度脂蛋白胆固醇存在全基因组显著关联的单核苷酸多态性位点。
3.根据权利要求2所述的方法,其中,所述冠心病多基因遗传风险综合评分是用于评估东亚人群冠心病发病风险。
4.根据权利要求1或3所述的方法,其中,步骤(2)中,进行基因分型的队列人群为东亚人群。
5.根据权利要求4所述的方法,其中,使用多重聚合酶链反应靶向扩增子测序技术进行基因分型。
6.根据权利要求1所述的方法,其中,步骤(4)中,确定各个亚表型PRS的权重的过程包括:
将各个亚表型PRS转化为均值为0、标准差为1的标准化评分;
利用训练集,将标化后的各个亚表型PRS及要调整的协变量共同放入弹性网状logistic回归模型,选择AUC最高的模型作为最终模型,从中获得每个PRS的系数(β1…βn)作为权重。
7.根据权利要求1所述的方法,其中,步骤(5)中,将亚表型PRS的权重转化为SNP水平的权重的过程按照以下模型进行:
Figure 687736DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
,…,
Figure 326528DEST_PATH_IMAGE004
是训练集中每个亚表型PRS的标准差,
Figure DEST_PATH_IMAGE005
是第i个SNP对应于每个亚表型的效应值,如果第
Figure 177197DEST_PATH_IMAGE006
个评分中未包含某个SNP,则该SNP的效应值大小
Figure DEST_PATH_IMAGE007
设为0。
8.根据权利要求1所述的方法,其中,步骤(6)中,构建的冠心病多基因遗传风险综合评分metaPRS为:
metaPRS=∑
Figure 929252DEST_PATH_IMAGE008
×Ni
其中,
Figure 220556DEST_PATH_IMAGE008
是指第i个SNP的效应值,Ni指个体所携带第i个SNP的效应等位基因数目。
9.根据权利要求8所述的方法,其中,以队列人群所有个体metaPRS的20%和80%百分位数为切点,划分个体冠心病遗传发病风险为低、中、高危人群。
10.一种用于构建冠心病多基因遗传风险综合评分的装置,执行如权利要求1所述的冠心病多基因遗传风险综合评分的构建方法,该装置包括:
基因分型模块,用于对权利要求1中所述的单核苷酸多态性位点的集合中的各SNP进行基因分型;
亚表型PRS构建模块,用于从全基因组关联研究结果中分别提取所测SNP对应于多个亚表型的危险等位基因、效应值及P值,其中所述多个亚表型包括:冠心病、体质指数、血压、2型糖尿病、总胆固醇、低密度脂蛋白胆固醇、甘油三酯、高密度脂蛋白胆固醇和脑卒中,并针对每个亚表型分别构建候选亚表型PRS、筛选最佳亚表型PRS;
模型训练模块,用于在训练集中确定各个亚表型PRS的权重;
metaPRS构建模块,用于将亚表型PRS的权重转化为SNP水平的权重并构建冠心病多基因遗传风险综合评分metaPRS。
11.根据权利要求10所述的装置,其中,所述metaPRS构建模块进一步用于评价所构建的metaPRS对冠心病发病风险预测和分层的作用。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现利用权利要求1至9任一项所述方法构建的冠心病多基因遗传风险综合评分评估个体冠心病发病风险。
CN202110579230.8A 2021-05-26 2021-05-26 冠心病的多基因遗传风险综合评分的构建方法与装置及应用 Active CN113506594B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110579230.8A CN113506594B (zh) 2021-05-26 2021-05-26 冠心病的多基因遗传风险综合评分的构建方法与装置及应用
PCT/CN2022/095221 WO2022247903A1 (zh) 2021-05-26 2022-05-26 冠心病多基因遗传风险评分及其构建方法与联合临床风险评估应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579230.8A CN113506594B (zh) 2021-05-26 2021-05-26 冠心病的多基因遗传风险综合评分的构建方法与装置及应用

Publications (2)

Publication Number Publication Date
CN113506594A CN113506594A (zh) 2021-10-15
CN113506594B true CN113506594B (zh) 2023-02-03

Family

ID=78008724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579230.8A Active CN113506594B (zh) 2021-05-26 2021-05-26 冠心病的多基因遗传风险综合评分的构建方法与装置及应用

Country Status (1)

Country Link
CN (1) CN113506594B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022247903A1 (zh) * 2021-05-26 2022-12-01 中国医学科学院阜外医院 冠心病多基因遗传风险评分及其构建方法与联合临床风险评估应用
CN117789819B (zh) * 2024-02-27 2024-06-11 北京携云启源科技有限公司 Vte风险评估模型的构建方法
CN118280575B (zh) * 2024-05-30 2024-08-13 西北大学 一种基于多源数据处理的冠心病风险预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
CN102758010A (zh) * 2012-06-07 2012-10-31 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点与环境因素组合及其应用
CN102757954A (zh) * 2012-06-07 2012-10-31 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点组合及其应用
CN111128298A (zh) * 2019-12-24 2020-05-08 大连海事大学 一种基于深度学习模型获取多基因风险评分的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101302563A (zh) * 2008-07-08 2008-11-12 上海中优医药高科技有限公司 一种多基因疾病遗传风险综合评估方法
CN102758010A (zh) * 2012-06-07 2012-10-31 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点与环境因素组合及其应用
CN102757954A (zh) * 2012-06-07 2012-10-31 中国医学科学院阜外心血管病医院 与冠心病相关的多个基因单核苷酸多态性位点组合及其应用
CN111128298A (zh) * 2019-12-24 2020-05-08 大连海事大学 一种基于深度学习模型获取多基因风险评分的方法及***

Also Published As

Publication number Publication date
CN113506594A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113506594B (zh) 冠心病的多基因遗传风险综合评分的构建方法与装置及应用
CN113012761B (zh) 脑卒中多基因遗传风险综合评分的构建方法与装置及应用
CN112133365B (zh) 评估肿瘤微环境的基因集、评分模型及其应用
CN109661475A (zh) 多重优化错配扩增(moma)靶标数目
CN113046429B (zh) 脑卒中多基因遗传风险评分及发病风险评估装置及其应用
US20230383349A1 (en) Methods of assessing risk of developing a disease
US20220367063A1 (en) Polygenic risk score for in vitro fertilization
US20120309639A1 (en) Compositions and Methods for Diagnosing Genome Related Diseases and Disorders
CN116287204A (zh) 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用
Bray et al. Transethnic and race-stratified genome-wide association study of fibroid characteristics in African American and European American women
Wang et al. Effects of angiotensinogen and angiotensin II type I receptor genes on blood pressure and left ventricular mass trajectories in multiethnic youth
CN115029431A (zh) 一种2型糖尿病基因检测试剂盒以及2型糖尿病遗传风险评估***
CN113643753B (zh) 冠心病多基因遗传风险评分及联合临床风险评估应用
EP4031688B1 (en) In vitro method for determining the risk of developing breast cancer in a subject
WO2022247903A1 (zh) 冠心病多基因遗传风险评分及其构建方法与联合临床风险评估应用
JP6564053B2 (ja) 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和***
CN118186072A (zh) 代谢性脂肪性肝病多基因检测试剂盒及遗传风险评估***
KR20190088037A (ko) 류마티스관절염 예후 예측용 snp 마커 세트
Seagle et al. Evidence of recent and ongoing admixture in the US and influences on health and disparities
JP7107883B2 (ja) てんかんのリスクを判定する方法
KR20220077892A (ko) 선천적 대사질환 위험도 점수를 이용한 심뇌혈관질환의 위험도 측정 방법
JP7097850B2 (ja) 遠視のリスクを判定する方法
Li Puberty and DNA Methylation with Lung Function in Young Adults and Asthma Acquisition During Adolescence and Young Adulthood
정유리 Predicting Coronary Artery Disease Risk using Polygenic Risk Scores and Clinical Variables in the East Asian Population

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant