CN112735535B - 预测模型训练、数据预测方法、装置和存储介质 - Google Patents

预测模型训练、数据预测方法、装置和存储介质 Download PDF

Info

Publication number
CN112735535B
CN112735535B CN202110355929.6A CN202110355929A CN112735535B CN 112735535 B CN112735535 B CN 112735535B CN 202110355929 A CN202110355929 A CN 202110355929A CN 112735535 B CN112735535 B CN 112735535B
Authority
CN
China
Prior art keywords
training
training sample
energy
information
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110355929.6A
Other languages
English (en)
Other versions
CN112735535A (zh
Inventor
杨子翊
叶兆丰
廖奔犇
张胜誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110355929.6A priority Critical patent/CN112735535B/zh
Publication of CN112735535A publication Critical patent/CN112735535A/zh
Application granted granted Critical
Publication of CN112735535B publication Critical patent/CN112735535B/zh
Priority to PCT/CN2022/079885 priority patent/WO2022206320A1/zh
Priority to EP22778504.5A priority patent/EP4318478A1/en
Priority to JP2023534153A priority patent/JP2023552416A/ja
Priority to US18/075,643 priority patent/US20230097667A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及一种预测模型训练方法、装置、计算机设备和存储介质。该方法包括:获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征;基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重并迭代执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。采用本方法能够提高训练得到的目标预测模型的预测准确性。

Description

预测模型训练、数据预测方法、装置和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种预测模型训练、数据预测方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了使用机器学习算法来预测化合物与靶向蛋白质之间的亲和力。目前,通过使用机器学习算法建立的模型来预测靶向蛋白质发生突变后与化合物之间的亲和力变化,进而确定靶向蛋白质对化合物是否产生耐药性,从而为医生用药提供参考。然而,目前通过机器学习算法建立的预测模型存在准确率低,模型泛化能力差的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高预测模型训练准确性,进而提高预测准确性的预测模型训练、数据预测方法、装置、计算机设备和存储介质。
一种预测模型训练方法,所述方法包括:
获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;
基于训练样本权重从训练样本集中确定当前训练样本;
将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;
基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
在其中一个实施例中,获取训练样本集,训练样本集包括各个训练样本对应的训练样本权重,包括:
获取各个训练样本对应的置信度,基于置信度确定各个训练样本对应的训练样本权重。
在其中一个实施例中,突变型能量特征包括第一突变型能量特征和第二突变型能量特征;
基于突变型蛋白质信息和化合物信息进行结合能量特征提取,得到突变型能量特征,包括:
基于突变型蛋白质信息和化合物信息使用非物理型函数进行结合能量特征提取,得到第一突变型能量特征;
基于突变型蛋白质信息和化合物信息使用物理型函数进行结合能量特征提取,得到第二突变型能量特征;
基于第一突变型能量特征和第二突变型能量特征进行融合,得到突变型能量特征。
在其中一个实施例中,在基于基础预测模型更新各个训练样本对应的训练样本权重之后,还包括:
获取当前学习参数,按照预设增加量对当前学习参数进行更新,得到更新学习参数,将更新学习参数作为当前学习参数。
一种预测模型训练装置,所述装置包括:
样本获取模块,用于获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;
样本确定模块,用于基于训练样本权重从训练样本集中确定当前训练样本;
训练模块,用于将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;
迭代模块,用于基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;
基于训练样本权重从训练样本集中确定当前训练样本;
将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;
基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;
基于训练样本权重从训练样本集中确定当前训练样本;
将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;
基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
上述预测模型训练方法、装置、计算机设备和存储介质,通过获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。即通过在迭代过程中不断更新训练样本权重,并且使用训练样本权重从训练样本集中确定当前训练样本,能够保证训练样本的质量,然后使用当前训练样本训练预测模型,从而使训练得到的目标预测模型能够提高预测的准确性和泛化性。
一种数据预测方法,所述方法包括:
获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征;
将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
一种数据预测装置,所述装置包括:
数据获取模块,用于获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
特征提取模块,用于基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
目标特征确定模块,用于基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征;
预测模块,用于将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征;
将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征;
将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
上述数据预测方法、装置、计算机设备和存储介质,通过获取待预测数据,然后确定待预测目标能量特征,将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,由于目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的,即通过目标预测模型来预测得到相互作用状态信息,由于训练得到的目标预测模型能够提高预测的准确性,进而使得到的相互作用状态信息提高了准确性。
附图说明
图1为一个实施例中预测模型训练方法的应用环境图;
图2为一个实施例中预测模型训练方法的流程示意图;
图3为一个实施例中预训练初始预测模型的流程示意图;
图4为一个实施例中得到初始相互作用状态信息的流程示意图;
图5为一个实施例中得到目标能量特征的流程示意图;
图6为一个实施例中得野生型能量特征的流程示意图;
图7为一个实施例中得到突变型能量特征的流程示意图;
图8为一个实施例中得到目标基础预测模型的流程示意图;
图9为一个实施例中得到基础预测模型的流程示意图;
图10为一个实施例中得到更新样本权重的流程示意图;
图11为一个实施例中数据预测方法的流程示意图;
图12为一个具体实施例中数据预测方应用场景的流程示意图;
图13为一个具体实施例中预测模型训练方法的流程示意图;
图14为一个具体实施例中预测模型训练方法的流程示意图;
图15为一个具体实施例中对比测试结果的示意图;
图16为图15具体实施例中准确率和召回率曲线指标的示意图;
图17为一个实施例中预测模型训练装置的结构框图;
图18为一个实施例中数据预测装置的结构框图;
图19为一个实施例中计算机设备的内部结构图;
图20为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
本申请提供的预测模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收到终端102发送的模型训练指令,服务器104根据模型训练指令从数据库106中获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;服务器104基于训练样本权重从训练样本集中确定当前训练样本;服务器104将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;服务器104基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种预测模型训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现,在本实施例中,包括以下步骤:
步骤202,获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的。
其中,蛋白质是指靶向蛋白质,比如,蛋白激酶。化合物是指与靶向蛋白质能够相互作用的药物。比如酪氨酸激酶抑制剂。蛋白质信息用于表征靶向蛋白质具体的信息,可以包括蛋白质结构,蛋白质理化性质等等,野生型蛋白质信息是指从大自然中获得的个体,也就是非人工诱变的蛋白质的信息,突变型蛋白质信息是指发生了突变的蛋白质信息。化合物信息是指与蛋白质能够相互作用的化合物的信息,可以包括化合物的结构,化合物的理化性质等等。比如,可以是药物结构。训练样本权重是指训练样本对应的权重,用于表征对应训练样本的质量,高质量的训练样本可以在训练机器学习模型时提升训练的质量。结合能量特征是指蛋白质和化合物相互作用时的特征,用于表征靶点蛋白质与化合物分子之间的相互作用能量信息,可以包括结构特征,理化性质特征以及能量特征等等,该结合能量特征是通过特征选择后得到的特征。野生型能量特征是指野生型蛋白质与化合物相互作用时提取得到的结合能量特征。突变型能量特征是指突变型蛋白质和化合物相互作用时提取得到的结合能量特征。目标能量特征用于表征突变型能量特征与野生型能量特征之间的差异。
具体地,服务器可以直接从数据库中获取到获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的。服务器还可以从互联网采集到各个训练样本,然后提取各个训练样本对应的目标能量特征并初始化各个训练样本对应的训练样本权重。服务器也可以从提供数据服务的第三方服务器中获取到训练样本集,比如可以从第三方云服务器中获取到训练样本集。
在一个实施例中,服务器可以获取到蛋白质信息、突变型蛋白质信息和化合物信息,基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到野生型能量特征,基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到突变型能量特征,计算野生型能量特征和突变型能量特征之间的差异,得到目标能量特征,同时,初始化对应的训练样本权重。
步骤204,基于训练样本权重从训练样本集中确定当前训练样本。
其中,当前训练样本是指当前训练时使用的训练样本。
具体地,服务器根据各个训练样本对应的训练样本权重从训练样本集中进行训练样本的选取,得到当前训练样本。比如,可以将训练样本权重大于预设权重阈值的训练样本作为当前训练样本,预设权重阈值是预先设置好的权重阈值。在一个具体的实施例中,可以将训练样本权重可以设置为0和1,即将各个训练样本对应的训练样本权重初始化为0或者1。当训练样本权重为1时,对应的训练样本为当前训练样本。在一个实施例中,服务器可以根据训练样本权重从训练样本集选取多个训练样本,得到当前训练样本集,该当前训练样本集中包括有多个训练样本。使用当前训练样本集进行基础预测模型的训练。
步骤206,将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型。
其中,当前目标能量特征是指当前训练样本对应的目标能量特征。预训练预测模型是指预先经过初步训练的预测模型,该预测模型是使用随机森林算法建立的,该预测模型可以用于预测突变前后蛋白质和化合物之间的亲和力变化。 基础预测模型是保持训练样本权重不变的情况下使用对应的当前训练样本进行训练得到。
具体地,服务器可以将前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到预测结果,根据该预测结果计算损失,根据损失反向更新预训练预测模型并返回将前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测的步骤迭代执行,直到当达到基础训练完成条件时,将达到基础训练完成条件的预测模型作为基础预测模型。其中,基础训练完成条件是指得到基础预测模型的条件,包括训练达到预先设置好的迭代次数上限或者损失达到预先设置好的阈值,或者模型的参数不再发生变化等等。
步骤208,判断模型是否训练完成,当模型训练完成时,执行步骤208a,当模型训练未完成时,执行步骤208b,并返回步骤204执行。
步骤208a,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
步骤208b,基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行。
其中,模型训练完成是指得到目标预测模型的条件,目标预测模型是指最终训练得到的用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息的模型。相互作用状态信息用于表征蛋白质突变前后与化合物之间的结合自由能的变化。结合自由能是指存在于配体与受体之间的相互作用。
具体地,服务器当得到基础预测模型时,进一步判断是否达到模型训练完成,该模型训练完成条件可以包括迭代次数达到预先设置好的模型训练迭代次数上限。当未达到模型训练完成条件,此时保持基于预测模型的参数不变,然后使用基础预测模型更新各个训练样本对应的训练样本权重,可以将各个训练样本对应的目标能量特征输入到基础预测模型中,得到各个训练样本对应的损失,根据各个训练样本对应的损失来更新各个训练样本对应的训练样本权重。当训练样本权重更新后,返回基于训练样本权重从训练样本集中确定当前训练样本的步骤继续迭代执行,直到达到模型训练完成条件时,将达到模型训练完成条件时的基础预测模型作为目标预测模型,该目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
上述预测模型训练方法,通过获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。即通过在迭代过程中不断更新训练样本权重,并且使用训练样本权重从训练样本集中确定当前训练样本,能够保证训练样本的质量,然后使用当前训练样本训练预测模型,从而使训练得到的目标预测模型能够提高预测的准确性和泛化性。
在一个实施例中,如图3所示,在步骤202之前,即在获取训练样本集之前,还包括:
步骤302,获取各个训练样本,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息。
步骤304,基于野生型蛋白质信息和化合物信息进行结合初始能量特征提取,得到野生型初始能量特征。
其中,结合初始能量特征是指未经过特征选取时提取得到的特征,可以包括非物理模型特征和基于物理和经验势能特征。其中,非物理模型特征包括晶体蛋白-化合物结构特征,配体和残基的理化性质特征和基于经验或描述符打分函数计算得到的能量特征等等。基于物理和经验势能特征是指基于互换的物理和仅有势能的建模程序计算得到的能量特征。野生型初始能量特征是指对野生型蛋白质信息和化合物信息相互作用时提取的结合初始能量特征。
具体地,服务器可以从数据库中获取到各个训练样本,该各个训练样本是预训练时使用的样本,该各个训练样本可以和训练样本集中的训练样本可以相同,也可以不同。服务器也可以从互联网采集到各个训练样本,服务器还可以从提供数据服务的服务器中获取到各个训练样本。每个训练样本中都包括野生型蛋白质信息、突变型蛋白质信息和化合物信息。此时,服务器对每个训练样本都进行特征提取,即使用野生型蛋白质信息和化合物信息进行结合初始能量特征提取,得到每个训练样本对应的野生型初始能量特征。
步骤306,基于突变型蛋白质信息和化合物信息进行结合初始能量特征提取,得到突变型初始能量特征,并基于野生型初始能量特征和突变型初始能量特征确定各个训练样本对应的目标初始能量特征。
其中,突变型初始能量特征是指对突变型蛋白质信息和化合物信息相互作用时提取的结合初始能量特征,目标初始能量特征用于表征野生型初始能量特征和突变型初始能量特征之间的差异。
具体地,服务器对突变型蛋白质信息和化合物信息进行结合初始能量特征提取,得到突变型初始能量特征,并计算基于野生型初始能量特征和突变型初始能量特征之间的差异,将该差异作为得到目标初始能量特征。比如,可以计算结构特征之间的差异,将该差异作为目标结构特征。
步骤308,将各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到各个训练样本对应的初始相互作用状态信息,初始预测模型是使用随机森林算法建立的。
其中,初始预测模型是指模型参数初始化的预测模型,该模型参数初始化可以是随时初始化,也可以是为零初始化等等。初始预测模型是使用随机森林算法建立的,随机森林指的是利用多棵树对样本进行训练并预测的一种分类器比如可以使用ExtraTree(极端随机树)算法来建立初始预测模型。初始相互作用状态信息是指使用初始预测模型进行预测得到的相互作用状态信息。
具体地,服务器预先使用随机森林算法建立模型参数初始化的初始预测模型,然后将各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到输出的各个训练样本对应的初始相互作用状态信息。
步骤310,基于各个训练样本对应的初始相互作用状态信息和各个训练样本对应的相互作用状态标签进行损失计算,得到各个训练样本对应的初始损失信息。
其中,相互作用状态标签是指真实的相互作用状态信息,每个训练样本都有对应的相互作用状态标签。初始损失信息用于表征初始相互作用状态信息与相互作用状态标签之间的误差。
具体地,服务器使用预先设置好的损失函数计算每个训练样本对应的初始相互作用状态信息与相互作用状态标签之间的损失,得到各个训练样本对应的初始损失信息。其中,损失函数可以是均方误差损失函数,平均绝对值误差损失函数等等。
步骤312,基于初始损失信息更新初始预测模型,并返回将各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤执行,直到预训练完成时,得到预训练预测模型和目标初始能量特征对应的特征重要性。
其中,预训练完成是指得到预训练预测模型的条件,是指预训练次数达到预先设置好的迭代次数,或者预训练的损失达到预先设置好的阈值或者预训练的预测模型参数不再发生变化。特征重要性用于表征目标初始能量特征的重要程度,特征重要性越高其对应的特征就越重要,对模型训练时的贡献就越多。
具体地,服务器使用初始损失信息计算梯度,然后使用梯度反向更新初始预测模型,得到更新后的预测模型,判断预训练是否完成,当预训练未完成时,将更新后的预测模型作为初始预测模型,并返回将各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤迭代执行,直到预训练完成时,将最后一次迭代得到的更新后的预测模型作为预训练预测模型,并得到目标初始能量特征对应的特征重要性。目标初始能量特征中的每个特征都有对应的特征重要性。
步骤316,基于预训练完成时各个训练样本对应的损失信息确定各个训练样本对应的训练样本权重,并基于特征重要性从目标初始能量特征中选取目标能量特征。
具体地,服务器可以使用预训练完成时各个训练样本对应的损失信息确定各个训练样本对应的训练样本权重,比如,可以将各个训练样本对应的损失信息与权重损失阈值进行比较,当损失信息大于权重损失阈值,对应的训练样本就为质量好的样本,可以设置对应的训练样本权重为1。当损失信息未大于权重损失阈值,对应的训练样本就为质量差的样本,可以设置对应的训练样本权重为0。通过特征重要性从目标初始能量特征中进行特征选择,得到目标能量特征,目标能量特征即是在预训练预测模型进一步训练时要提取得到的特征。
在上述实施例中,通过使用各个训练样本预先训练得到预训练模型,然后基于预训练完成时各个训练样本对应的损失信息确定各个训练样本对应的训练样本权重,并且基于特征重要性从目标初始能量特征中进行特征选择,得到目标能量特征,从而能够在进一步训练时提高训练效率,并且保证训练的准确性。
在一个实施例中,如图4所示,步骤308,将各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到各个训练样本对应的初始相互作用状态信息,初始预测模型是使用随机森林算法建立的,包括:
步骤402,将各个训练样本对应的目标初始能量特征输入到初始预测模型中;
步骤404,初始预测模型将各个训练样本对应的目标初始能量特征作为当前待划分集,并计算目标初始能量特征对应的初始特征重要性,基于初始特征重要性从目标初始能量特征中确定初始划分特征,基于初始划分特征将各个训练样本对应的目标初始能量特征进行划分,得到各个划分结果,划分结果中包括各个划分样本对应的目标初始能量特征,将各个划分结果作为当前待划分集,并返回计算目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到各个训练样本对应的初始相互作用状态信息。
其中,初始特征重要性是指目标初始能量特征对应的特征重要性,初始划分特征是指进行决策树划分的特征。划分结果是指对目标初始能量特征进行划分后的得到的,划分样本是指划分结果中的目标初始能量特征对应的训练样本。
具体地,服务器将各个训练样本对应的目标初始能量特征输入到初始预测模型中,初始预测模型对输入特征进行评分,得到目标初始能量特征对应的初始特征重要性。其中,可以使用信息增益、信息增益率、基尼系数、均方差等计算初始特征重要性。基于初始特征重要性从目标初始能量特征中确定初始划分特征,基于初始划分特征将各个训练样本对应的目标初始能量特征进行划分,即将超过该初始划分特征的目标初始能量特征作为一部分,将未超过该初始划分特征的目标初始能量特征作为另一部分,得到划分结果,划分结果中包括各个划分样本对应的目标初始能量特征,将各个划分结果作为当前待划分集,并返回计算目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到各个训练样本对应的初始相互作用状态信息,其中,划分完成是指每个树节点都不再能够进行划分时,即叶子节点对应只有唯一的目标初始能量特征,划分完成。初始相互作用状态信息是指初始预测模型预测得到的相互作用状态信息。
在上述实施例中,通过将各个训练样本对应的目标初始能量特征输入到初始预测模型中,初始预测模型通过计算目标初始能量特征对应的初始特征重要性,基于初始特征重要性从目标初始能量特征中确定初始划分特征,基于初始划分特征将各个训练样本对应的目标初始能量特征进行划分,得到各个划分结果,划分结果中包括各个划分样本对应的目标初始能量特征,将各个划分结果作为当前待划分集,并返回计算目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到各个训练样本对应的初始相互作用状态信息,提高了得到初始相互作用状态信息的准确性。
在一个实施例中,步骤202,即获取训练样本集,训练样本集包括各个训练样本对应的训练样本权重,包括步骤:
获取各个训练样本对应的置信度,基于置信度确定各个训练样本对应的训练样本权重。
其中,置信度用于表征对应训练样本质量好坏的程度。置信度越高说明训练样本对应的质量就越高,使用置信度高的训练样本训练得到的模型性能越好。
具体地,服务器在获取各个训练样本时,也可以同时获取到各个训练样本对应的置信度。然后可以直接将置信度之间作为各个训练样本对应的训练样本权重。其中,该置信度可以是人为设置的,也可以是预先对各个训练样本进行置信度评估得到的。在一个实施例中,也可以将各个训练样本对应的置信度与预先设置好的置信度阈值进行比较,当超过置信度阈值时,设置对应的训练样本权重为1,该训练样本为当前训练样本。当未超过置信度阈值时,设置对应的训练样本权重为0。
在上述实施例中,通过获取到置信度,根据置信度确定各个训练样本对应的训练样本权重,提高得到训练样本权重的效率。
在一个实施例中,如图5所示,步骤202,获取训练样本集,训练样本集包括各个训练样本对应的目标能量特征,包括:
步骤502,基于野生型蛋白质信息和化合物信息进行结合能量特征提取,得到野生型能量特征。
步骤504,基于突变型蛋白质信息和化合物信息进行结合能量特征提取,得到突变型能量特征。
其中,野生型能量特征包括但不限于野生型蛋白质特征,化合物特征以及野生型蛋白质信息和化合物信息相互作用时的能量特征。野生型蛋白质特征用于表征野生型蛋白质信息对应的特征,包括但不限于野生型蛋白质结构特征、野生型蛋白质理化性质特征。化合物特征包括但不限于化合物结构特征,化合物理化性质特征。突变型能量特征包括但不限于突变型蛋白质特征,化合物特征以及突变型蛋白质信息和化合物信息相互作用时的能量特征。突变型蛋白质特征用于表征突变型蛋白质信息对应的特征,包括但不限于突变型蛋白质结构特征、突变型蛋白质理化性质特征。
具体地,服务器使用野生型蛋白质信息和化合物信息进行特征提取,提取到野生型蛋白质特征和化合物特征,同时对野生型蛋白质和化合物相互作用时的能量特征进行提取,将野生型蛋白质特征、化合物特征以及能量特征作为野生型能量特征。服务器使用突变型蛋白质信息进行特征提取,得到突变型蛋白质特征,然后对突变型蛋白质和化合物相互作用时的能量特征进行提取,将提取得到的突变型蛋白质特征化合物特征以及能量特征作为突变型能量特征。
步骤506,计算野生型能量特征和突变型能量特征之间的差异,得到目标能量特征。
具体地,服务器计算野生型能量特征和突变型能量特征之间的差异,比如,计算野生型蛋白质特征与突变型蛋白质特征之间的差异,计算野生型蛋白质和化合物相互作用时的能量特征与突变型蛋白质和化合物相互作用时的能量特征之间的差异,得到目标能量特征。在一个具体的实施例中,可以计算野生型能量特征和突变型能量特征的特征差值,得到目标能量特征。
在上述实施例中,通过提取到野生型能量特征和突变型能量特征,然后计算野生型能量特征和突变型能量特征之间的差异,得到目标能量特征,能够提高得到目标能量特征的准确性。
在一个实施例中,野生型能量特征包括第一野生型能量特征和第二野生型能量特征;
如图6所示,步骤502,基于野生型蛋白质信息和化合物信息进行结合能量特征提取,得到野生型能量特征,包括:
步骤602,基于野生型蛋白质信息和化合物信息使用非物理型打分函数进行结合能量特征提取,得到第一野生型能量特征。
其中,非物理型打分函数是指基于经验或描述符打分函数,该打分函数会基于一些先验假设或对实验数据进行拟合,从而得到能量特征,该得到的能量特征不具有明显可解释的物理意义。第一野生型能量特征是指提取得到的第一部分能量特征。
具体地,服务器可以使用预先设置好的非物理型打分函数进行结合能量特征提取,将野生型蛋白质信息和化合物信息通过非物理型打分函数进行计算,得到计算结果,将计算结果作为第一野生型能量特征。其中,可以使用打分函数(用于评价理论获得的受体–配体结合模式合理性的函数)提取能量特征。
步骤602,基于野生型蛋白质信息和化合物信息使用物理型函数进行结合能量特征提取,得到第二野生型能量特征。
其中,物理型函数是指基于混合的物理和经验势能的能量函数,是有明确物理意义的,能量函数家族由基于实验数据拟合的力场函数,基于第一性原理的量化计算函数,基于连续介质的溶剂模型等组成。
具体地,服务器使用预先设置好的物理型函数基于野生型蛋白质信息和化合物信进行结合能量特征提取,得到第二野生型能量特征。例如,可以使用基于混合的物理和经验势能的建模程序Rosetta(基于蒙特卡罗模拟退火为算法核心的高分子建模软件库)中的能量函数计算能量特征。
步骤602,基于第一野生型能量特征和第二野生型能量特征进行融合,得到野生型能量特征。
具体地,服务器计算第一野生型能量特征和第二野生型能量特征之间的差值,得到野生型能量特征。
在上述实施例中,通过提取第一野生型能量特征和第二野生型能量特征,基于第一野生型能量特征和第二野生型能量特征进行融合,得到野生型能量特征,由于第一野生型能量特征和第二野生型能量特征能够更好地表征野生型靶点蛋白质与化合物分子之间的相互作用能量信息,从而使得到的野生型能量特征更加的准确。
在一个实施例中,突变型能量特征包括第一突变型能量特征和第二突变型能量特征;
如图7所述,步骤504,基于突变型蛋白质信息和化合物信息进行结合能量特征提取,得到突变型能量特征,包括:
步骤702,基于突变型蛋白质信息和化合物信息使用非物理型函数进行结合能量特征提取,得到第一突变型能量特征。
步骤704,基于突变型蛋白质信息和化合物信息使用物理型函数进行结合能量特征提取,得到第二突变型能量特征。
具体地,服务器使用预先设置好的非物理型函数对突变型蛋白质信息和化合物信息进行结合能量特征提取,得到第一突变型能量特征,然后使用预先设置好的物理型函数对突变型蛋白质信息和化合物信息进行结合能量特征提取,得到第二突变型能量特征。
步骤706,基于第一突变型能量特征和第二突变型能量特征进行融合,得到突变型能量特征。
具体地,服务器计算第一突变型能量特征和第二突变型能量特征之间的特征差值,得到突变型能量特征。
在上述实施例中,通过提取第一突变型能量特征和第二突变型能量特征,基于第一突变型能量特征和第二突变型能量特征进行融合,得到突变型能量特征,由于第一突变型能量特征和第二突变型能量特征能够更好地表征突变型靶点蛋白质与化合物分子之间的相互作用能量信息,从而使得到的突变型能量特征更加的准确。
在一个实施例中,如图8所示,步骤204,基于训练样本权重从训练样本集中确定当前训练样本,包括:
步骤802,获取蛋白质家族信息,基于蛋白质家族信息将训练样本集进行划分,得到各个训练样本组。
其中,体内氨基酸序列相似并且结构与功能十分相近的蛋白质构成“蛋白质家族”(protein family),同一蛋白质家族的成员称为“同源蛋白质”。蛋白质家族信息是指蛋白质家族的信息,训练样本组是指将同一蛋白质家族对应的各个训练样本划分到一起。
具体地,服务器可以直接从数据库中获取到蛋白质家族信息,该蛋白质家族信息可以是从互联网中获取到的,也可以是从提供数据服务的第三方服务器中获取到的。在一个实施例中,服务器也可以将训练样本中蛋白质信息的结构或者序列相似的蛋白质家族划分为同一个训练样本组,得到各个训练样本组
步骤804,基于训练样本权重从各个训练样本组中选取当前训练样本,得到当前训练样本集。
具体地,服务器使用训练样本权重从各个训练样本组中选取当前训练样本,即按照训练样本组中训练样本权重依次选取当前训练样本,并且从每个训练样本组都进行选取,得到当前训练样本集。
步骤206,将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型,包括:
步骤806,将当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到目标基础预测模型。
具体地,服务器将当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到目标基础预测模型。
在上述实施例中,通过将训练样本集按照蛋白质家族信息进行划分,得到各个训练样本组。然后基于训练样本权重从各个训练样本组中选取当前训练样本,得到当前训练样本集,从而使用当前训练样本集对预训练预测模型中进行基础训练,得到基础预测模型。即通过从各个训练样本组中选取当前训练样本,从而使选取的训练样本分布于空间各处而非集中在一个局部区域,从而保证在训练模型时,能够学习到训练样本中蕴含的全局信息,从而保证模型在训练过程中学习知识的全面性,进一步提高模型训练过程中的收敛速度,并提升训练得到模型的泛化能力。
在一个具体的实施例中,预训练预测模型的基本形式如下公式(1)所示。
Figure 177990DEST_PATH_IMAGE001
公式(1)
其中,n表示训练样本的总数,X表示训练样本集,
Figure 157447DEST_PATH_IMAGE002
, R表示实数集,m表示能量特征的数目。
Figure 500966DEST_PATH_IMAGE003
表示第i个训练样本,
Figure 958493DEST_PATH_IMAGE004
表示第i个训练样本对应 的相互作用状态标签。g表示预训练预测模型,w表示模型参数,L表示损失函数,v表示训练 样本权重。
Figure 304023DEST_PATH_IMAGE005
,b表示训练样本组的组数,即将训练样本集划分为b组:
Figure 188803DEST_PATH_IMAGE006
,其中,
Figure 282267DEST_PATH_IMAGE007
表示第j个训练样本组的训练样本,
Figure 543484DEST_PATH_IMAGE008
Figure 743521DEST_PATH_IMAGE009
表示第j个训练样本组中训练样本数量,且
Figure 2464DEST_PATH_IMAGE010
Figure 84690DEST_PATH_IMAGE011
表示第j个训练样本组中第1个训练样本对应的训练样本权重。
Figure 352860DEST_PATH_IMAGE012
表示第i个训练样本权重。
Figure 643290DEST_PATH_IMAGE013
表示训练样本难易度的参数,即表示训练样本在选取时是 从容易选取(置信度高)的样本到难选取(置信度低)的样本依次进行选取。
Figure 604292DEST_PATH_IMAGE014
表示样本多样 性的参数。即表示从多个训练样本组中选取样本。
Figure 173814DEST_PATH_IMAGE015
表示
Figure 980096DEST_PATH_IMAGE016
范数,
Figure 889146DEST_PATH_IMAGE017
表示
Figure 755471DEST_PATH_IMAGE018
范 数。其中,
Figure 15551DEST_PATH_IMAGE019
,b表示训练样本组的组数,j表示第j个训练样本组 的训练样本权重。即负范数倾向于选取置信度高的样本,即训练时结果误差较小的样本。负 范数有利于在多个训练样本组中选取训练样本,将多样性信息嵌入预测模型中。
在一个实施例中,基于训练样本权重从各个训练样本组中选取当前训练样本,得到当前训练样本集,包括:
获取当前学习参数,基于当前学习参数确定选取样本数和样本分布,基于样本数和样本分布按照训练样本权重从各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
其中,当前学习参数是指当前训练时使用的学习参数,该当前学习参数用于控制当前训练样本的选取。选取样本数是指当前要选取的训练样本数量。样本分布是指选取的当前训练样本在各个训练样本组中的分布。目标当前训练样本集是指使用当前学习参数选取得到的当前训练样本的集合。
具体地,服务器获取到当前训练样本参数,该当前训练样本参数的初始值可以是预先设置好的。服务器使用当前学习参数来计算当前在训练时所要选取的样本数和样本分布。然后基于样本数和样本分布按照训练样本权重从各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
在上述实施例中,通过使用当前学习参数来进一步控制训练样本的选取,从而得到目标当前训练样本集,能够使选取的训练样本更加准确,从而进一步使训练得到的预测模型更加的准确,并且提高预测模型的泛化能力。
在一个实施例中,如图9所示,步骤206,即将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型,包括:
步骤902,将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息。
其中,当前相互作用状态信息用于表征预测得到的当前训练样本中突变前后的蛋白质与化合物相互作用的变化。
具体地,服务器直接将当前训练样本对应的当前目标能量特征作为预训练预测模型的输入,预训练预测模型根据输入到当前目标能量特征进行预测,并输出预测结果,即当前相互作用状态信息。
步骤904,计算当前相互作用状态信息与当前训练样本对应的相互作用状态标签之间的误差,得到当前损失信息。
其中,当前损失信息是指当前训练样本对应的预测结果和真实结果之间的误差。
具体地,服务器获取到当前训练样本对应的相互作用状态标签,该相互作用状态标签可以是预先设置好的。相互作用状态标签可以是通过实验测得的突变前后蛋白质与化合物相互作用的变化。然后服务器使用预设损失函数计算当前相互作用状态信息与当前训练样本对应的相互作用状态标签之间的误差,得到当前损失信息。
步骤906,基于当前损失信息更新预训练预测模型,并返回将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息的步骤执行,直到达到基础训练完成条件时,得到基础预测模型。
具体地,服务器使用当前损失信息通过梯度下降算法来反向更新预训练预测模型中的参数,并返回将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息的步骤迭代执行,直到达到预先设置好的基础训练迭代次数或者模型参数不再发生变化时,将最后一次迭代的预训练预测模作为基础预测模型。
在一个具体的实施例中,预训练预测模型对应的优化函数如下公式(2)所示,该优化函数是一个表征的回归优化函数。
Figure 926656DEST_PATH_IMAGE020
公式(2)
其中,
Figure 955792DEST_PATH_IMAGE021
表示选取训练样本权重为超过权重阈值的训练样本进行训练。比如,当 训练样本权重仅包括0和1时,可以选取训练样本权重为1的训练样本进行训练。
在上述实施例中,通过保存训练样本权重不变,然后选取当前训练样本对预训练预测模型进行训练,得到基础预测模型,从而使训练的基础预测模型更加的准确。
在一个实施例中,如图10所示,步骤208b,基于基础预测模型更新各个训练样本对应的训练样本权重,包括:
步骤1002,将各个训练样本对应的目标能量特征输入到基础预测模型中,得到各个训练样本对应的基础相互作用状态信息。
其中,各个训练样本是指训练样本集中的每个训练样本。基础相互作用状态信息是指基础预测模型预测得到的每个训练样本对应的相互作用状态信息。该相互作用状态信息可以是野生型蛋白质和化合物的结合自由能与突变型蛋白质和化合物的结合自由能之间的相对差值。
具体的,服务器训练得到基础预测模型时,保持基础预测模型中的参数不变,更新训练样本集中每个训练样本对应的训练样本权重。即服务器将各个训练样本对应的目标能量特征输入到基础预测模型中,得到输出的各个训练样本对应的基础相互作用状态信息。
步骤1004,计算各个训练样本对应的基础相互作用状态信息与各个训练样本对应的相互作用状态标签之间的误差,得到基础损失信息。
其中,基础损失信息是指基础预测模型预测结果和真实结果之间的误差。
具体地,服务器使用预设损失函数来计算每个训练样本的误差,即计算基础相互作用状态信息与相互作用状态标签之间的误差,得到每个训练样本对应的基础损失信息。
步骤1006,基于基础损失信息对训练样本权重进行更新,得到各个训练样本对应的更新样本权重。
具体,服务器使用每个训练样本对应的基础损失信息对每个训练样本权重进行更新,服务器可以直接将每个训练样本对应的基础损失信息作为每个训练样本对应的更新样本权重。
在一个实施例中,步骤1006,即基于基础损失信息对训练样本权重进行更新,得到各个训练样本对应的更新样本权重,包括步骤:
获取当前学习参数,基于当前学习参数计算更新阈值;将更新阈值与各个训练样本对应的基础损失信息进行比较,得到各个训练样本对应的比较结果;根据各个训练样本对应的比较结果确定各个训练样本对应的更新样本权重。
其中,更新阈值是指更新训练样本权重的阈值。
具体地,服务器获取到当前学习参数,使用当前学习参数确定更新阈值。将更新阈值与各个训练样本对应的基础损失信息进行比较,当基础损失信息超过更新阈值时,说明该训练样本对应的预测误差较大,此时,将对应的训练样本权重更新为第一训练样本权重。当基础损失信息未超过更新阈值时,说明误差较小,此时,将对应的训练样本权重更新为第二训练样本权重。然后,在选取当前训练样本时,选取第二训练样本权重对应的训练样本为当前训练样本。
在一个实施例中,当前学习参数包括多样性学习参数和难易度学习参数;基于当前学习参数计算更新阈值,包括步骤:
获取各个训练样本组,从各个训练样本组中确定当前训练样本组,并计算当前训练样本组对应的样本秩。基于样本秩计算加权值,使用加权值对多样性学习参数进行加权,得到目标加权值。计算目标加权值与难易度学习参数的和,得到更新阈值。
其中,难易度学习参数是指衡量容易度的学习参数 难易度学习参数用于确定训练时选取的训练样本的置信程度。多样性学习参数是衡量多样性的学习参数。多样性学习参数用于确定训练时选取得到的训练样本在训练样本组中的分布。样本秩是指前训练样本组中训练样本的秩,一个向量组的秩是其最大无关组所含的向量个数。当前训练样本组是指当前需要更新训练样本权重的训练样本组。
具体地,服务器获取各个训练样本组,从各个训练样本组中确定当前训练样本组,并计算当前训练样本组对应的样本秩。基于样本秩计算加权值,使用加权值对多样性学习参数进行加权,得到目标加权值。计算目标加权值与难易度学习参数的和,得到当前训练样本组对应的更新阈值。在一个具体的实施例中,可以按照基础损失信息对各个训练样本组中的训练样本按照升序排序。得到各个排序后的训练样本组,对排序后的训练样本组中确定当前训练样本组,并计算得到当前训练样本组对应的更新阈值。
在一个具体的实施例中,可以使用如下所示的公式(3)来更新训练样本对应的训练样本权重。
Figure 258597DEST_PATH_IMAGE022
公式(3)
其中,a表示第j个训练样本组中的秩。
Figure 474815DEST_PATH_IMAGE023
表示第j个训练样本组第i个训练 样本对应的预测出的相互作用状态信息,
Figure 888479DEST_PATH_IMAGE024
表示第j个训练样本组第i个训练样本对应的 真实的相互作用状态标签。
Figure 568859DEST_PATH_IMAGE025
表示计算得到的更新阈值。当第j个 训练样本组第i个训练样本对应的误差小于更新阈值时,将对应的训练样本权重更新为1, 当第j个训练样本组第i个训练样本对应的误差大于等于更新阈值时,将对应的训练样本权 重更新为0。
在上述实施例中,通过不断的更新样本权重,重新选取当前训练样本进行训练,能够使得在训练过程中使用误差较大的训练样本进行训练,从而避免误差较大的训练样本对训练过程中的负面影响,进而提高训练得到的目标预测模型的准确性。
在一个实施例中,在基于基础预测模型更新各个训练样本对应的训练样本权重之后,还包括步骤:
获取当前学习参数,按照预设增加量对当前学习参数进行更新,得到更新学习参数,将更新学习参数作为当前学习参数。
具体地,服务器可以预先设置当前学习参数的更新条件,比如,预先设置好当前学习参数在每次权重更新后的增加量。然后按照预设增加量对当前学习参数进行更新,得到更新学习参数,将更新学习参数作为当前学习参数。在一个实施例中,服务器也可以获取到预先设置好的要增加的样本个数,通过预先设置好的要增加的样本个数来更新当前学习参数,得到更新学习参数,将更新学习参数作为当前学习参数。并且在当样本个数增加后,训练得到的损失信息从小变大时,训练完成,并将未增加样本个数时训练得到的预测模型作为最终得到的目标预测模型。
在一个实施例中,如图11所示,提供了一种数据预测方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现,在本实施例中,包括以下步骤:
步骤1102,获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息。
其中,待预测野生型蛋白质信息是指需要预测相互作用状态信息的野生型蛋白质信息。待预测突变型蛋白质信息是指需要预测相互作用状态信息的突变型蛋白质信息。待预测化合物信息是指需要预测相互作用状态信息的化合物信息。
具体地,服务器可以从互联网采集到待预测数据,也可以从终端中获取到待预测数据。服务器还可以直接从数据库中获取到待预测数据。在一个实施例中,服务器还可以获取到第三方服务器发送的待预测数据。第三方服务器可以是提供业务服务的服务器。待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息。在一个实施例中,服务器可以从终端中获取到待预测突变型蛋白质信息和待预测化合物信息,然后可以从数据库中获取到待预测突变型蛋白质信息对应的待预测野生型蛋白质信息,从而得到待预测数据。
步骤1104,基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征。
其中,待预测野生型能量特征是指提取得到的待预测野生型蛋白质信息和待预测化合物信息相互作用时的能量特征。待预测突变型能量特征是指提取得到的待预测突变型蛋白质信息和待预测化合物信息相互作用时的能量特征。
具体地,服务器基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,比如,可以根据待预测野生型蛋白质信息中的蛋白质结构和待预测化合物信息中的化合物结构来提取结构特征,然后根据待预测野生型蛋白质信息中的理化性质和待预测化合物信息中的理化性质来提取理化性质特征。理化性质是衡量化学物质特性的指标。是指物理性质和化学性质,物理性质包括熔沸点,常温下的状态,颜色,化学性质包括酸碱度等等。同时使用打分函数计算待预测野生型蛋白质信息和待预测化合物信息相互作用的能量特征以及使用基于混合的物理和经验势能的能量函数计算得到能量特征,从而得到了待预测野生型能量特征。然后基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征,比如,可以根据待预测突变型蛋白质信息中的蛋白质结构和待预测化合物信息中的化合物结构来提取结构特征,然后根据待预测突变型蛋白质信息中的理化性质和待预测化合物信息中的理化性质来提取理化性质特征,同时使用打分函数提取能量特征并使用基于物理和经验势能的能量函数提取能量特征,从而得到待预测突变型能量特征。
步骤1106,基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征。
具体地,服务器计算待预测野生型能量特征中每个特征值与待预测突变型能量特征对应的特征值之间的差异,得到待预测目标能量特征。
步骤1108,将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
其中,目标预测模型可以是上述预测模型训练方法中任意一实施例中训练得到的目模型。即目标预测模型可以是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
具体地,服务器将待预测目标能量特征输入目标预测模型中进行预测,得到输出的相互作用状态信息。在一个具体的实施例中,该相互作用状态信息是指待预测突变型蛋白质和待预测野生型蛋白质分别与待预测化合物的结合自由能的相对差值。然后将结合自由能的相对差值与耐药性阈值进行比较,当结合自由能的相对差值超过耐药性阈值,说明待预测突变型蛋白质已产生了耐药性,无法继续使用。当结合自由能的相对差值未超过耐药性阈值,说明待预测突变型蛋白质未产生耐药性,仍然能够正常使用。
上述数据预测方法、装置、计算机设备和存储介质,通过获取待预测数据,然后确定待预测目标能量特征,将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,由于目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的,即通过目标预测模型来预测得到相互作用状态信息,由于训练得到的目标预测模型能够提高预测的准确性,进而使得到的相互作用状态信息提高了准确性。
本申请还提供一种应用场景,该应用场景应用上述的数据预测方法。具体地:
如图12所示,为数据预测方法应用场景的流程示意图,具体来说:在预测靶向蛋白质突变引起耐药性的应用场景中,服务器获取到终端发送的待预测数据,该待预测数据包括两种不同类型的靶点蛋白质信息,包括野生型蛋白质信息和突变型蛋白质信息,以及化合物信息。然后使用野生型蛋白质信息和突变型蛋白质信息,以及化合物信息提取预测蛋白质突变后的亲和力具有参考价值的特征,包括非物理模型的特征和基于物理和经验势能的特征。非物理模型的特征如晶体蛋白-配体结构,配体和残基的理化性质,以及一些基于经验或描述符打分函数计算得到的能量特征等等,然后基于物理和经验势能的特征是使用基于混合的物理和经验势能的建模程序Rosetta计算得到的能量特征。然后进行特征选择,即通过在训练时的经过特征选择得到的目标能量特征从提取得到的特征中选取对应的特征,选取得到待预测目标能量特征,将待预测目标能量特征输入到目标预测模型中进行预测,得到预测出的结合自由能的差值。将该结合自由能的差值与耐药性阈值进行比较,当结合自由能的差值超过耐药性阈值时,说明该蛋白质突变是会引起耐药性的蛋白质突变。当结合自由能的差值未超过耐药性阈值时,说明该蛋白质突变是并不会引起耐药性的蛋白质突变。此时将预测结果发送到终端进行显示、
在一个具体地实施例中,如图13所示,提供一种预测模型的训练方法,具体包括以下步骤:
步骤1302,获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的。
步骤1304,获取蛋白质家族信息,基于蛋白质家族信息将训练样本集进行划分,得到各个训练样本组,获取当前学习参数,基于当前学习参数确定选取样本数和样本分布。基于样本数和样本分布按照训练样本权重从各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
步骤1306,将目标当前训练样本集中各个训练样本对应的目标能量特征输入到基础预测模型中,得到各个训练样本对应的基础相互作用状态信息,计算各个训练样本对应的基础相互作用状态信息与各个训练样本对应的相互作用状态标签之间的误差,得到基础损失信息。
步骤1302,计算各个训练样本组对应的样本秩。基于样本秩计算加权值,使用加权值对多样性学习参数进行加权,得到目标加权值,计算目标加权值与难易度学习参数的和,得到各个训练样本组的更新阈值。
步骤1308,将更新阈值与各个训练样本组中训练样本对应的基础损失信息进行比较,得到训练样本对应的比较结果,根据训练样本对应的比较结果确定各个训练样本组中训练样本对应的更新样本权重。
步骤1310,按照预设增加量对当前学习参数进行更新,得到更新学习参数,将更新学习参数作为当前学习参数,并返回基于当前学习参数确定选取样本数和样本分布的步骤执行,直到模型训练完成时,得到目标预测模型。
本申请还另外提供一种应用场景,该应用场景应用上述的预测模型训练方法。具体地:
如图14所示,为预测模型训练方法的流程示意图,具体来说:
获取到输入数据和训练样本组信息,该输入数据包括各个训练样本和对应的训练样本权重即为0或者为1,该训练样本组信息表明输入数据中的训练样本属于的训练样本组。此时初始化预测模型的模型参数和学习参数。
然后固定训练样本对应的训练样本权重不变,训练模型的参数,即根据初始化的学习参数选取训练样本权重为1的训练样本,得到当前训练样本,并提取当前训练样本对应的当前目标能量特征,将当前目标能量特征输入到初始化的预测模型中进行基础训练,当基础训练完成时,得到基础预测模型。
然后固定基础预测模型的参数不变,更新样本权重,即使用公式(3)来更新每个训练样本对应的训练样本权重,得到更新样本权重。
此时进一步更新初始化的学习参数,然后返回到固定训练样本对应的训练样本权重不变,来训练模型的参数的步骤继续迭代执行,直到模型训练完成时,输出训练完成时预测模型的模型参数以及训练样本权重,即得到目标预测模型。
在该实施例中,对训练得到的目标预测模型进行对比测试。具体来说,使用耐药性标准数据集Platinum(Platinum是一个广泛收集耐药性信息的数据库,是为了研究和理解错义突变对配体与蛋白质组相互作用的影响而开发的)和TKI。来进行训练和测试,其中,使用数据集Platinum训练得到目标预测模型,然后使用数据集TKI进行测试。通过采用RDKit(RDKit是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符生成,fingerprint生成,化合物结构相似性计算,2D和3D分子展示等), Biopython(Biopython为使用和研究生物信息学的开发者提供了一个在线的资源库),FoldX(计算蛋白结合自由能),PLIP(是一个蛋白配体非共价相互作用的分析工具),AutoDock(开源的分子模拟软件,最主要应用于执行配体—蛋白分子对接)等非物理模型工具生成对预测蛋白质突变后的亲和力变化对应的特征。并且使用基于混合的物理和经验势能的建模程序Rosetta计算能量特征。然后进行特征选取,得到最终选取的特征。具体如下表1所示 ,为最终选取的特征数表。
表1 特征数表
数据集 样本数 非物理模型特征 物理和经验势能特征 特征总数
Platinum 484 129 19 148
TKI 144 129 19 148
此时,对训练得到的目标预测模型进行对比测试,测试结果如图15所示,该图15中展示了实验测得的和预测得到的△△G值的散点图,△△G是指配体与受体的结合自由能的相对差值,即突变前后的蛋白质与分别化合物进行结合时对应的结合自由能的差值。其中,图15中第一行是只使用非物理模型特征来预测结合自由能的相对差值的结果示意图,图15中第二行是使用非物理模型特征以及物理和经验势能特征共同来预测结合自由能的相对差值的结果示意图。第一列为使用现有技术1进行测试得到的结合自由能的相对差值的散点图。第二列为使用现有技术2进行测试得到的结合自由能的相对差值的散点图。第三列为使用本申请技术方案进行测试得到的结合自由能的相对差值的散点图。其中,使用RMSE(均方根误差),Pearson(Pearson Correlation Coefficient是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系)和AUPRC(曲线下面积递减的精度召回曲线)作为评价指标。其中,分别计算RMSE,Pearson和AUPRC指标的均值,最小值和最大值,得到的结果如下表2所示。
表2 评价指标表
Figure 544030DEST_PATH_IMAGE026
其中,全部特征中本申请中的RMSE(越小越好)指标平均值为0.73,最小值为0.72,最大值为0.74,现对于其他明显均分误差较小。本申请中的Pearson(越大越好)指标也明显由于其他现有技术。本申请中AUPRC指标也优于其他现有技术。因此,本申请中相对于现有技术,预测的准确性明显提升。进一步,如图16所示,为对比测试结果中AUPRC指标的示意图。其中,每条曲线中从左往右第一个圆圈表示当以△△G> 1.36 kcal / mol为阈值时,测试样本得到对应的耐药性结果时,预测耐药性结果对应的精度和召回率。每条曲线中从左往右第二个圆圈表示将前15%△△G的测试样本作为划分耐药性结果时,预测耐药性结果对应的精度和召回率。从中明显可以看出,本申请的技术方案明显可以提升划分是否有耐药性的性能。
应该理解的是,虽然图2-14的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-14中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图17所示,提供了一种预测模型训练装置1700,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块1702、样本确定模块1704、训练模块1706和迭代模块1708,其中:
样本获取模块1702,用于获取训练样本集,训练样本集包括各个训练样本、各个训练样本对应的训练样本权重和各个训练样本对应的目标能量特征,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,目标能量特征基于野生型能量特征和突变型能量特征得到,野生型能量特征是基于野生型蛋白质信息和化合物信息进行结合能量特征提取得到,突变型能量特征是基于突变型蛋白质信息和化合物信息进行结合能量特征提取得到的;
样本确定模块1704,用于基于训练样本权重从训练样本集中确定当前训练样本;
训练模块1706,用于将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;
迭代模块1708,用于基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息。
在其中一个实施例中,预测模型训练装置1700,还包括:
预训练模块,用于获取各个训练样本,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;基于野生型蛋白质信息和化合物信息进行结合初始能量特征提取,得到野生型初始能量特征;基于突变型蛋白质信息和化合物信息进行结合初始能量特征提取,得到突变型初始能量特征,并基于野生型初始能量特征和突变型初始能量特征确定各个训练样本对应的目标初始能量特征;将各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到各个训练样本对应的初始相互作用状态信息,初始预测模型是使用随机森林算法建立的;基于各个训练样本对应的初始相互作用状态信息和各个训练样本对应的相互作用状态标签进行损失计算,得到各个训练样本对应的初始损失信息;基于初始损失信息更新初始预测模型,并返回将各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤执行,直到预训练完成时,得到预训练预测模型和目标初始能量特征对应的特征重要性;基于预训练完成时各个训练样本对应的损失信息确定各个训练样本对应的训练样本权重,并基于特征重要性从目标初始能量特征中选取目标能量特征。
在一个实施例中,预训练模块还用于将各个训练样本对应的目标初始能量特征输入到初始预测模型中;初始预测模型将各个训练样本对应的目标初始能量特征作为当前待划分集,并计算目标初始能量特征对应的初始特征重要性,基于初始特征重要性从目标初始能量特征中确定初始划分特征,基于初始划分特征将各个训练样本对应的目标初始能量特征进行划分,得到各个划分结果,划分结果中包括各个划分样本对应的目标初始能量特征,将各个划分结果作为当前待划分集,并返回计算目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到各个训练样本对应的初始相互作用状态信息。
在一个实施例中,样本获取模块1702还用于获取各个训练样本对应的置信度,基于置信度确定各个训练样本对应的训练样本权重。
在一个实施例中,样本获取模块1702还用于基于野生型蛋白质信息和化合物信息进行结合能量特征提取,得到野生型能量特征;基于突变型蛋白质信息和化合物信息进行结合能量特征提取,得到突变型能量特征;计算野生型能量特征和突变型能量特征之间的差异,得到目标能量特征。
在一个实施例中,野生型能量特征包括第一野生型能量特征和第二野生型能量特征;样本获取模块1702还用于基于野生型蛋白质信息和化合物信息使用非物理型打分函数进行结合能量特征提取,得到第一野生型能量特征;基于野生型蛋白质信息和化合物信息使用物理型函数进行结合能量特征提取,得到第二野生型能量特征;基于第一野生型能量特征和第二野生型能量特征进行融合,得到野生型能量特征。
在一个实施例中,突变型能量特征包括第一突变型能量特征和第二突变型能量特征;样本获取模块1702还用于基于突变型蛋白质信息和化合物信息使用非物理型函数进行结合能量特征提取,得到第一突变型能量特征;基于突变型蛋白质信息和化合物信息使用物理型函数进行结合能量特征提取,得到第二突变型能量特征;基于第一突变型能量特征和第二突变型能量特征进行融合,得到突变型能量特征。
在一个实施例中,样本确定模块1704还用于获取蛋白质家族信息,基于蛋白质家族信息将训练样本集进行划分,得到各个训练样本组;基于训练样本权重从各个训练样本组中选取当前训练样本,得到当前训练样本集。
训练模块1706还用于将当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到目标基础预测模型。
在一个实施例中,样本确定模块1704还用于获取当前学习参数,基于当前学习参数确定选取样本数和样本分布;基于样本数和样本分布按照训练样本权重从各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
在一个实施例中,训练模块1706还用于将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息;计算当前相互作用状态信息与当前训练样本对应的相互作用状态标签之间的误差,得到当前损失信息;基于当前损失信息更新预训练预测模型,并返回将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息的步骤执行,直到达到基础训练完成条件时,得到基础预测模型。
在一个实施例中,迭代模块1708还用于将各个训练样本对应的目标能量特征输入到基础预测模型中,得到各个训练样本对应的基础相互作用状态信息;计算各个训练样本对应的基础相互作用状态信息与各个训练样本对应的相互作用状态标签之间的误差,得到基础损失信息;基于基础损失信息对训练样本权重进行更新,得到各个训练样本对应的更新样本权重。
在一个实施例中,迭代模块1708还用于获取当前学习参数,基于当前学习参数计算更新阈值;将更新阈值与各个训练样本对应的基础损失信息进行比较,得到各个训练样本对应的比较结果;根据各个训练样本对应的比较结果确定各个训练样本对应的更新样本权重。
在一个实施例中,当前学习参数包括多样性学习参数和难易度学习参数;迭代模块1708还用于获取各个训练样本组,从各个训练样本组中确定当前训练样本组,并计算当前训练样本组对应的样本秩;基于样本秩计算加权值,使用加权值对多样性学习参数进行加权,得到目标加权值;计算目标加权值与难易度学习参数的和,得到更新阈值。
在一个实施例中,迭代模块1708获取当前学习参数,按照预设增加量对当前学习参数进行更新,得到更新学习参数,将更新学习参数作为当前学习参数。
在一个实施例中,如图18所示,提供了一种数据预测装置1800,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块1802、特征提取模块1804、目标特征确定模块1806和预测模块1808,其中:
数据获取模块1802,用于获取待预测数据,待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
特征提取模块1804,用于基于待预测野生型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于待预测突变型蛋白质信息和待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
目标特征确定模块1806,用于基于待预测野生型能量特征和待预测突变型能量特征确定待预测目标能量特征;
预测模块1808,用于将待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,目标预测模型是通过获取训练样本集,基于训练样本权重从训练样本集中确定当前训练样本;将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于基础预测模型更新各个训练样本对应的训练样本权重,并返回基于训练样本权重从训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的。
关于预测模型训练装置和数据预测装置的具体限定可以参见上文中对于预测模型训练方法和数据预测方法的限定,在此不再赘述。上述数据预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图19所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本数据和待预测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预测模型训练方法或者数据预测方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图20所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种预测模型训练方法和数据预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图19和图20中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (32)

1.一种预测模型训练方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,所述目标能量特征基于野生型能量特征和突变型能量特征得到,所述野生型能量特征是基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取得到,所述突变型能量特征是基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取得到的;
基于所述训练样本权重从所述训练样本集中确定当前训练样本;
将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;所述预训练预测模型是使用各个预训练的样本训练模型参数初始化的预测模型得到的;
基于所述基础预测模型更新所述各个训练样本对应的训练样本权重,得到更新样本权重,将所述更新样本权重作为训练样本权重,并返回基于训练样本权重从所述训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,所述目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息,所述更新样本权重是通过将更新阈值与所述各个训练样本对应的基础损失信息进行比较确定的,所述各个训练样本对应的基础损失信息是计算所述各个训练样本对应的基础相互作用状态信息与对应的相互作用状态标签之间的误差得到的,所述基础相互作用状态信息是使用所述基础预测模型得到的,所述更新阈值是获取各个训练样本组、多样性学习参数和难易度学习参数,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩,基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值,计算所述目标加权值与所述难易度学习参数的和得到的。
2.根据权利要求1所述的方法,其特征在于,在所述获取训练样本集之前,还包括:
获取所述各个训练样本,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;
基于所述野生型蛋白质信息和所述化合物信息进行结合初始能量特征提取,得到野生型初始能量特征;
基于所述突变型蛋白质信息和所述化合物信息进行结合初始能量特征提取,得到突变型初始能量特征,并基于所述野生型初始能量特征和突变型初始能量特征确定所述各个训练样本对应的目标初始能量特征;
将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到所述各个训练样本对应的初始相互作用状态信息,所述初始预测模型是使用随机森林算法建立的;
基于所述各个训练样本对应的初始相互作用状态信息和各个训练样本对应的相互作用状态标签进行损失计算,得到所述各个训练样本对应的初始损失信息;
基于所述初始损失信息更新所述初始预测模型,并返回将所述各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤执行,直到预训练完成时,得到预训练预测模型和所述目标初始能量特征对应的特征重要性;
基于预训练完成时所述各个训练样本对应的损失信息确定所述各个训练样本对应的训练样本权重,并基于所述特征重要性从所述目标初始能量特征中选取目标能量特征。
3.根据权利要求2所述的方法,其特征在于,将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到所述各个训练样本对应的初始相互作用状态信息,所述初始预测模型是使用随机森林算法建立的,包括:
将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中;
所述初始预测模型将所述各个训练样本对应的目标初始能量特征作为当前待划分集,并计算所述目标初始能量特征对应的初始特征重要性,基于所述初始特征重要性从所述目标初始能量特征中确定初始划分特征,基于所述初始划分特征将所述各个训练样本对应的目标初始能量特征进行划分,得到各个划分结果,所述划分结果中包括各个划分样本对应的目标初始能量特征,将所述各个划分结果作为当前待划分集,并返回计算所述目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到所述各个训练样本对应的初始相互作用状态信息。
4.根据权利要求1所述的方法,其特征在于,所述获取训练样本集,所述训练样本集包括所述各个训练样本对应的训练样本权重,包括:
获取所述各个训练样本对应的置信度,基于所述置信度确定所述各个训练样本对应的训练样本权重。
5.根据权利要求1所述的方法,其特征在于,所述获取训练样本集,所述训练样本集包括所述各个训练样本对应的目标能量特征,包括:
基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述野生型能量特征;
基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述突变型能量特征;
计算所述野生型能量特征和所述突变型能量特征之间的差异,得到目标能量特征。
6.根据权利要求5所述的方法,其特征在于,所述野生型能量特征包括第一野生型能量特征和第二野生型能量特征;
所述基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述野生型能量特征,包括:
基于所述野生型蛋白质信息和所述化合物信息使用非物理型打分函数进行结合能量特征提取,得到第一野生型能量特征;
基于所述野生型蛋白质信息和所述化合物信息使用物理型函数进行结合能量特征提取,得到第二野生型能量特征;
基于所述第一野生型能量特征和所述第二野生型能量特征进行融合,得到所述野生型能量特征。
7.根据权利要求5所述的方法,其特征在于,所述突变型能量特征包括第一突变型能量特征和第二突变型能量特征;
所述基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述突变型能量特征,包括:
基于所述突变型蛋白质信息和所述化合物信息使用非物理型函数进行结合能量特征提取,得到第一突变型能量特征;
基于所述突变型蛋白质信息和所述化合物信息使用物理型函数进行结合能量特征提取,得到第二突变型能量特征;
基于所述第一突变型能量特征和所述第二突变型能量特征进行融合,得到所述突变型能量特征。
8.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本权重从所述训练样本集中确定当前训练样本,包括:
获取蛋白质家族信息,基于所述蛋白质家族信息将所述训练样本集进行划分,得到各个训练样本组;
基于所述训练样本权重从所述各个训练样本组中选取当前训练样本,得到当前训练样本集;
所述将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型,包括:
将所述当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到目标基础预测模型。
9.根据权利要求8所述的方法,其特征在于,所述基于所述训练样本权重从所述各个训练样本组中选取当前训练样本,得到当前训练样本集,包括:
获取当前学习参数,基于所述当前学习参数确定选取样本数和样本分布;
基于所述样本数和所述样本分布按照所述训练样本权重从所述各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
10.根据权利要求1所述的方法,其特征在于,所述将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型,包括:
将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息;
计算所述当前相互作用状态信息与所述当前训练样本对应的相互作用状态标签之间的误差,得到当前损失信息;
基于所述当前损失信息更新所述预训练预测模型,并返回将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息的步骤执行,直到达到基础训练完成条件时,得到基础预测模型。
11.根据权利要求1所述的方法,其特征在于,所述基于所述基础预测模型更新所述各个训练样本对应的训练样本权重,包括:
将所述各个训练样本对应的目标能量特征输入到所述基础预测模型中,得到所述各个训练样本对应的基础相互作用状态信息;
计算所述各个训练样本对应的基础相互作用状态信息与所述各个训练样本对应的相互作用状态标签之间的误差,得到基础损失信息;
基于所述基础损失信息对所述训练样本权重进行更新,得到所述各个训练样本对应的更新样本权重。
12.根据权利要求11所述的方法,其特征在于,所述基于所述基础损失信息对所述训练样本权重进行更新,得到所述各个训练样本对应的更新样本权重,包括:
获取当前学习参数,基于所述当前学习参数计算更新阈值;
将所述更新阈值与所述各个训练样本对应的基础损失信息进行比较,得到所述各个训练样本对应的比较结果;
根据所述各个训练样本对应的比较结果确定所述各个训练样本对应的更新样本权重。
13.根据权利要求12所述的方法,其特征在于,所述当前学习参数包括多样性学习参数和难易度学习参数;
所述基于所述当前学习参数计算更新阈值,包括:
获取各个训练样本组,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩;
基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值;
计算所述目标加权值与所述难易度学习参数的和,得到所述更新阈值。
14.根据权利要求1所述的方法,其特征在于,在所述基于所述基础预测模型更新所述各个训练样本对应的训练样本权重之后,还包括:
获取当前学习参数,按照预设增加量对所述当前学习参数进行更新,得到更新学习参数,将所述更新学习参数作为当前学习参数。
15.一种数据预测方法,其特征在于,所述方法包括:
获取待预测数据,所述待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
基于所述待预测野生型蛋白质信息和所述待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于所述待预测突变型蛋白质信息和所述待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
基于所述待预测野生型能量特征和所述待预测突变型能量特征确定待预测目标能量特征;
将所述待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,所述目标预测模型是通过获取包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征的训练样本集,基于所述训练样本权重从所述训练样本集中确定当前训练样本;将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于所述基础预测模型更新所述训练样本权重,得到更新样本权重,将所述更新样本权重作为训练样本权重,并返回基于所述训练样本权重从所述训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的,所述预训练预测模型是使用各个预训练的样本训练模型参数初始化的预测模型得到的,所述更新样本权重是通过将更新阈值与所述各个训练样本对应的基础损失信息进行比较确定的,所述各个训练样本对应的基础损失信息是计算所述各个训练样本对应的基础相互作用状态信息与对应的相互作用状态标签之间的误差得到的,所述基础相互作用状态信息是使用所述基础预测模型得到的,所述更新阈值是获取各个训练样本组、多样性学习参数和难易度学习参数,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩,基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值,计算所述目标加权值与所述难易度学习参数的和得到的。
16.一种预测模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练样本集,所述训练样本集包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息,所述目标能量特征基于野生型能量特征和突变型能量特征得到,所述野生型能量特征是基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取得到,所述突变型能量特征是基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取得到的;
样本确定模块,用于基于所述训练样本权重从所述训练样本集中确定当前训练样本;
训练模块,用于将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;所述预训练预测模型是使用各个预训练的样本训练模型参数初始化的预测模型得到的;
迭代模块,用于基于所述基础预测模型更新所述各个训练样本对应的训练样本权重,得到更新样本权重,将所述更新样本权重作为训练样本权重,并返回基于训练样本权重从所述训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时,得到目标预测模型,所述目标预测模型用于预测输入的蛋白质信息与输入的化合物信息对应的相互作用状态信息,所述更新样本权重是通过将更新阈值与所述各个训练样本对应的基础损失信息进行比较确定的,所述各个训练样本对应的基础损失信息是计算所述各个训练样本对应的基础相互作用状态信息与对应的相互作用状态标签之间的误差得到的,所述基础相互作用状态信息是使用所述基础预测模型得到的,所述更新阈值是获取各个训练样本组、多样性学习参数和难易度学习参数,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩,基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值,计算所述目标加权值与所述难易度学习参数的和得到的。
17.根据权利要求16所述的装置,其特征在于,所述装置,还包括:
预训练模块,用于获取所述各个训练样本,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;基于所述野生型蛋白质信息和所述化合物信息进行结合初始能量特征提取,得到野生型初始能量特征;基于所述突变型蛋白质信息和所述化合物信息进行结合初始能量特征提取,得到突变型初始能量特征,并基于所述野生型初始能量特征和突变型初始能量特征确定所述各个训练样本对应的目标初始能量特征;将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中进行预测,得到所述各个训练样本对应的初始相互作用状态信息,所述初始预测模型是使用随机森林算法建立的;基于所述各个训练样本对应的初始相互作用状态信息和各个训练样本对应的相互作用状态标签进行损失计算,得到所述各个训练样本对应的初始损失信息;基于所述初始损失信息更新所述初始预测模型,并返回将所述各个训练样本对应的目标能量特征输入到初始预测模型中进行预测的步骤执行,直到预训练完成时,得到预训练预测模型和所述目标初始能量特征对应的特征重要性;基于预训练完成时所述各个训练样本对应的损失信息确定所述各个训练样本对应的训练样本权重,并基于所述特征重要性从所述目标初始能量特征中选取目标能量特征。
18.根据权利要求17所述的装置,其特征在于,所述预训练模块还用于将所述各个训练样本对应的目标初始能量特征输入到初始预测模型中;所述初始预测模型将所述各个训练样本对应的目标初始能量特征作为当前待划分集,并计算所述目标初始能量特征对应的初始特征重要性,基于所述初始特征重要性从所述目标初始能量特征中确定初始划分特征,基于所述初始划分特征将所述各个训练样本对应的目标初始能量特征进行划分,得到各个划分结果,所述划分结果中包括各个划分样本对应的目标初始能量特征,将所述各个划分结果作为当前待划分集,并返回计算所述目标初始能量特征对应的初始特征重要性的步骤迭代,直到划分完成时,得到所述各个训练样本对应的初始相互作用状态信息。
19.根据权利要求16所述的装置,其特征在于,所述样本获取模块还用于获取所述各个训练样本对应的置信度,基于所述置信度确定所述各个训练样本对应的训练样本权重。
20.根据权利要求16所述的装置,其特征在于,所述样本获取模块还用于基于所述野生型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述野生型能量特征;基于所述突变型蛋白质信息和所述化合物信息进行结合能量特征提取,得到所述突变型能量特征;计算所述野生型能量特征和所述突变型能量特征之间的差异,得到目标能量特征。
21.根据权利要求20所述的装置,其特征在于,所述野生型能量特征包括第一野生型能量特征和第二野生型能量特征;所述样本获取模块还用于基于所述野生型蛋白质信息和所述化合物信息使用非物理型打分函数进行结合能量特征提取,得到第一野生型能量特征;基于所述野生型蛋白质信息和所述化合物信息使用物理型函数进行结合能量特征提取,得到第二野生型能量特征;基于所述第一野生型能量特征和所述第二野生型能量特征进行融合,得到所述野生型能量特征。
22.根据权利要求20所述的装置,其特征在于,所述突变型能量特征包括第一突变型能量特征和第二突变型能量特征;所述样本获取模块还用于基于所述突变型蛋白质信息和所述化合物信息使用非物理型函数进行结合能量特征提取,得到第一突变型能量特征;基于所述突变型蛋白质信息和所述化合物信息使用物理型函数进行结合能量特征提取,得到第二突变型能量特征;基于所述第一突变型能量特征和所述第二突变型能量特征进行融合,得到所述突变型能量特征。
23.根据权利要求16所述的装置,其特征在于,所述样本确定模块还用于获取蛋白质家族信息,基于所述蛋白质家族信息将所述训练样本集进行划分,得到各个训练样本组;基于所述训练样本权重从所述各个训练样本组中选取当前训练样本,得到当前训练样本集;
所述训练模块还用于将所述当前训练样本集中各个当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到目标基础预测模型。
24.根据权利要求23所述的装置,其特征在于,所述样本确定模块还用于获取当前学习参数,基于所述当前学习参数确定选取样本数和样本分布;基于所述样本数和所述样本分布按照所述训练样本权重从所述各个训练样本组中选取当前训练样本,得到目标当前训练样本集。
25.根据权利要求16所述的装置,其特征在于,所述训练模块还用于将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息;计算所述当前相互作用状态信息与所述当前训练样本对应的相互作用状态标签之间的误差,得到当前损失信息;基于所述当前损失信息更新所述预训练预测模型,并返回将当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行预测,得到当前相互作用状态信息的步骤执行,直到达到基础训练完成条件时,得到基础预测模型。
26.根据权利要求16所述的装置,其特征在于,所述迭代模块还用于将所述各个训练样本对应的目标能量特征输入到所述基础预测模型中,得到所述各个训练样本对应的基础相互作用状态信息;计算所述各个训练样本对应的基础相互作用状态信息与所述各个训练样本对应的相互作用状态标签之间的误差,得到基础损失信息;基于所述基础损失信息对所述训练样本权重进行更新,得到所述各个训练样本对应的更新样本权重。
27.根据权利要求26所述的装置,其特征在于,所述迭代模块还用于获取当前学习参数,基于所述当前学习参数计算更新阈值;将所述更新阈值与所述各个训练样本对应的基础损失信息进行比较,得到所述各个训练样本对应的比较结果;根据所述各个训练样本对应的比较结果确定所述各个训练样本对应的更新样本权重。
28.根据权利要求27所述的装置,其特征在于,所述当前学习参数包括多样性学习参数和难易度学习参数;所述迭代模块还用于获取各个训练样本组,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩;基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值;计算所述目标加权值与所述难易度学习参数的和,得到所述更新阈值。
29.根据权利要求16所述的装置,其特征在于,所述迭代模块还用于获取当前学习参数,按照预设增加量对所述当前学习参数进行更新,得到更新学习参数,将所述更新学习参数作为当前学习参数。
30.一种数据预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待预测数据,所述待预测数据包括待预测野生型蛋白质信息、待预测突变型蛋白质信息和待预测化合物信息;
特征提取模块,用于基于所述待预测野生型蛋白质信息和所述待预测化合物信息进行结合能量特征提取,得到待预测野生型能量特征,基于所述待预测突变型蛋白质信息和所述待预测化合物信息进行结合能量特征提取,得到待预测突变型能量特征;
目标特征确定模块,用于基于所述待预测野生型能量特征和所述待预测突变型能量特征确定待预测目标能量特征;
预测模块,用于将所述待预测目标能量特征输入目标预测模型中进行预测,得到相互作用状态信息,所述目标预测模型是通过获取包括各个训练样本、所述各个训练样本对应的训练样本权重和所述各个训练样本对应的目标能量特征的训练样本集,基于所述训练样本权重从所述训练样本集中确定当前训练样本;将所述当前训练样本对应的当前目标能量特征输入到预训练预测模型中进行基础训练,当基础训练完成时,得到基础预测模型;基于所述基础预测模型更新所述训练样本权重,得到更新样本权重,将所述更新样本权重作为训练样本权重,并返回基于训练样本权重从所述训练样本集中确定当前训练样本的步骤执行,直到模型训练完成时得到的,所述预训练预测模型是使用各个预训练的样本训练模型参数初始化的预测模型得到的,所述更新样本权重是通过将更新阈值与所述各个训练样本对应的基础损失信息进行比较确定的,所述各个训练样本对应的基础损失信息是计算所述各个训练样本对应的基础相互作用状态信息与对应的相互作用状态标签之间的误差得到的,所述基础相互作用状态信息是使用所述基础预测模型得到的,所述更新阈值是获取各个训练样本组、多样性学习参数和难易度学习参数,从所述各个训练样本组中确定当前训练样本组,并计算所述当前训练样本组对应的样本秩,基于所述样本秩计算加权值,使用所述加权值对所述多样性学习参数进行加权,得到目标加权值,计算所述目标加权值与所述难易度学习参数的和得到的。
31.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。
32.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。
CN202110355929.6A 2021-04-01 2021-04-01 预测模型训练、数据预测方法、装置和存储介质 Active CN112735535B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110355929.6A CN112735535B (zh) 2021-04-01 2021-04-01 预测模型训练、数据预测方法、装置和存储介质
PCT/CN2022/079885 WO2022206320A1 (zh) 2021-04-01 2022-03-09 预测模型训练、数据预测方法、装置和存储介质
EP22778504.5A EP4318478A1 (en) 2021-04-01 2022-03-09 Prediction model training and data prediction methods and apparatuses, and storage medium
JP2023534153A JP2023552416A (ja) 2021-04-01 2022-03-09 予測モデルの訓練方法、データ予測方法、装置及びコンピュータプログラム
US18/075,643 US20230097667A1 (en) 2021-04-01 2022-12-06 Methods and apparatuses for training prediction model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110355929.6A CN112735535B (zh) 2021-04-01 2021-04-01 预测模型训练、数据预测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112735535A CN112735535A (zh) 2021-04-30
CN112735535B true CN112735535B (zh) 2021-06-25

Family

ID=75596362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110355929.6A Active CN112735535B (zh) 2021-04-01 2021-04-01 预测模型训练、数据预测方法、装置和存储介质

Country Status (5)

Country Link
US (1) US20230097667A1 (zh)
EP (1) EP4318478A1 (zh)
JP (1) JP2023552416A (zh)
CN (1) CN112735535B (zh)
WO (1) WO2022206320A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质
CN113284577B (zh) * 2021-05-24 2023-08-11 康键信息技术(深圳)有限公司 药品预测方法、装置、设备及存储介质
CN113255770B (zh) * 2021-05-26 2023-10-27 北京百度网讯科技有限公司 化合物属性预测模型训练方法和化合物属性预测方法
CN113409884B (zh) * 2021-06-30 2022-07-22 北京百度网讯科技有限公司 排序学习模型的训练方法及排序方法、装置、设备及介质
CN113889179B (zh) * 2021-10-13 2024-06-11 山东大学 基于多视图深度学习的化合物-蛋白质相互作用预测方法
CN114528973A (zh) * 2021-12-30 2022-05-24 北京达佳互联信息技术有限公司 业务处理模型的生成方法、业务处理方法和装置
CN114187979A (zh) * 2022-02-15 2022-03-15 北京晶泰科技有限公司 数据处理、模型训练、分子预测和筛选方法及其装置
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN115600511B (zh) * 2022-12-01 2023-03-17 北京金羽新材科技有限公司 电解质材料预测方法、装置和计算机设备
CN116994698A (zh) * 2023-03-31 2023-11-03 河北医科大学第一医院 基于深度学习的舍曲林剂量个体化推荐方法及装置
CN116913393B (zh) * 2023-09-12 2023-12-01 浙江大学杭州国际科创中心 一种基于强化学习的蛋白质进化方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其***
CN103116713B (zh) * 2013-02-25 2015-09-16 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN106650926A (zh) * 2016-09-14 2017-05-10 天津工业大学 一种稳健的boosting极限学习机集成建模方法
CN107679455A (zh) * 2017-08-29 2018-02-09 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
CN112530514A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321164B1 (en) * 1995-06-07 2001-11-20 Akzo Nobel N.V. Method and apparatus for predicting the presence of an abnormal level of one or more proteins in the clotting cascade
CN110008984B (zh) * 2019-01-22 2023-07-25 创新先进技术有限公司 一种基于多任务样本的目标欺诈交易模型训练方法和装置
CN111985274B (zh) * 2019-05-23 2023-08-04 中国科学院沈阳自动化研究所 一种基于卷积神经网络的遥感图像分割方法
CN110443419A (zh) * 2019-08-01 2019-11-12 太原理工大学 基于iceemdan与极限学习机的中长期径流预测方法
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其***
CN103116713B (zh) * 2013-02-25 2015-09-16 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN106650926A (zh) * 2016-09-14 2017-05-10 天津工业大学 一种稳健的boosting极限学习机集成建模方法
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
CN107679455A (zh) * 2017-08-29 2018-02-09 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112530514A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质

Also Published As

Publication number Publication date
US20230097667A1 (en) 2023-03-30
EP4318478A1 (en) 2024-02-07
WO2022206320A1 (zh) 2022-10-06
CN112735535A (zh) 2021-04-30
JP2023552416A (ja) 2023-12-15

Similar Documents

Publication Publication Date Title
CN112735535B (zh) 预测模型训练、数据预测方法、装置和存储介质
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Foll et al. Identifying the environmental factors that determine the genetic structure of populations
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
Wang et al. SE-OnionNet: a convolution neural network for protein–ligand binding affinity prediction
Tashkova et al. Parameter estimation with bio-inspired meta-heuristic optimization: modeling the dynamics of endocytosis
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
Conley et al. Estimating dynamic local interactions models
Partin et al. Learning curves for drug response prediction in cancer cell lines
Cannoodt et al. dyngen: a multi-modal simulator for spearheading new single-cell omics analyses
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
Komodromos et al. Variational Bayes for high-dimensional proportional hazards models with applications within gene expression
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
Wu et al. Generating life course trajectory sequences with recurrent neural networks and application to early detection of social disadvantage
CN115936773A (zh) 一种互联网金融黑产识别方法与***
CN112581250B (zh) 模型生成方法、装置、计算机设备和存储介质
Rong et al. Exploring network behavior using cluster analysis
Gower et al. Inference of population genetics parameters using discriminator neural networks: an adversarial Monte Carlo approach
González-Vargas et al. Validation methods for population models of gene expression dynamics
CN110599377A (zh) 在线学习的知识点排序方法和装置
Alshmrany LFD-CNN: Levy flight distribution based convolutional neural network for an adaptive learning style prediction in E-learning environment
Yin et al. Bayesian penalized Buckley-James method for high dimensional bivariate censored regression models
Lavesson et al. A method for evaluation of learning components

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042462

Country of ref document: HK