CN113707234B - 一种基于机器翻译模型的先导化合物成药性优化方法 - Google Patents

一种基于机器翻译模型的先导化合物成药性优化方法 Download PDF

Info

Publication number
CN113707234B
CN113707234B CN202110992135.0A CN202110992135A CN113707234B CN 113707234 B CN113707234 B CN 113707234B CN 202110992135 A CN202110992135 A CN 202110992135A CN 113707234 B CN113707234 B CN 113707234B
Authority
CN
China
Prior art keywords
optimization
character string
score
calculation
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110992135.0A
Other languages
English (en)
Other versions
CN113707234A (zh
Inventor
曹东升
付丽
杨梓宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110992135.0A priority Critical patent/CN113707234B/zh
Publication of CN113707234A publication Critical patent/CN113707234A/zh
Application granted granted Critical
Publication of CN113707234B publication Critical patent/CN113707234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例中提供了一种基于机器翻译模型的先导化合物成药性优化方法,属于医疗保健信息学技术领域,具体包括:训练翻译模型;根据机器学***均计算,得到初始分子字符串的得分;根据目标矢量和得分,利用优化算法迭代预设次数得到优化分数集合;将优化分数集合输入解码器,利用预设算法计算每个优化矢量对应的字符串,形成目标分子字符串集合。通过本公开的方案,提高了优化效率和适应性。

Description

一种基于机器翻译模型的先导化合物成药性优化方法
技术领域
本公开实施例涉及医疗保健信息学技术领域,尤其涉及一种基于机器翻译模型的先导化合物成药性优化方法。
背景技术
目前,药物研发的最大的挑战之一就是如何高效的进行先导化合物优化,这也是药物化学家们面临的一大难题。超过50%化合物因为没有合适的吸收、分布、代谢、***(ADMET)和安全性质从而在药物研发的过程中失败,而ADMET性质优化是一个难度极高的多目标优化任务,要求在提高分子的成药性同时保持分子的活性;另一方面,空间大、经验少、成本高、耗时长等因素也使得高效进行化合物药代动力学性质和安全性的优化成为一大难题。而现有的技术一般是通过计算生成新分子,接着利用虚拟筛选程序对所产生的新化合物进行筛选以获得符合候选化合物,然而计算量巨大,或者通过预测模型对分子整体进行预测,不能针对成药性特定指标进行优化,且优化后药物的成药性不高,优化效率和适应性较差。
可见,亟需一种优化效率和适应性强的基于机器翻译模型的先导化合物成药性优化方法。
发明内容
有鉴于此,本公开实施例提供一种基于机器翻译模型的先导化合物成药性优化方法,至少部分解决现有技术中存在优化效率和适应性较差的问题。
第一方面,本公开实施例提供了一种基于机器翻译模型的先导化合物成药性优化方法,包括:
利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;
根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;
将初始分子字符串输入所述编码器,生成目标矢量;
根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;
根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分;
根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;
将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
根据本公开实施例的一种具体实现方式,所述利用预设数量的样本分子字符串训练翻译模型的步骤,包括:
分别将每个所述样本分子字符串输入所述编码器,并将所述编码器的输出结果输入所述解码器;
将所述解码器的每个输出结果与其对应的样本分子字符串的真实标签的损失,并执行梯度更新。
根据本公开实施例的一种具体实现方式,所述根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组的步骤,包括:
从初始数据库内提取样本数据集;
从所述样本数据集中提取与每个所述药代动力学终点对应的数据训练XGBoost算法,得到每个所述药代动力学终点对应的计算模型;
根据全部所述药代动力学终点对应的计算模型形成所述预测模型组。
根据本公开实施例的一种具体实现方式,所述根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标的步骤,包括:
分析所述优化指令中包含的药代动力学终点;
根据所述优化指令中包含的药代动力学终点从所述预测模型组选取对应的计算模型;
将所述目标矢量分别输入每个所述计算模型,得到每个所述药代动力学终点对应的预测指标,并形成所述优化预测指标。
根据本公开实施例的一种具体实现方式,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤之前,所述方法还包括:
对每个所述药代动力学终点和所述计算指标设置对应的权重;
设定每个所述药代动力学终点和所述计算指标对应的常用性质范围和预设性质范围,其中,所述常用性质范围大于所述预设性质范围。
根据本公开实施例的一种具体实现方式,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤,包括:
分别根据每个所述药代动力学终点的权重和预测指标计算预测值,以及,根据根据所述计算指标的值和权重计算所述预测值;
根据每个所述预测值所在的性质范围确定每个预测值对应的预测得分,并形成所述初始分子字符串的得分。
根据本公开实施例的一种具体实现方式,所述利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合的步骤,包括:
根据Beam Search算法和所述优化矢量预测每个字符,直到形成字符串;
根据全部所述优化矢量对应的字符串形成所述目标分子字符串集合。
本公开实施例中的基于机器翻译模型的先导化合物成药性优化方案,包括:利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;根据机器学***均计算,得到所述初始分子字符串的得分;根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
本公开实施例的有益效果为:通过本公开的方案,对需要优化的每个药代动力学终点均建立一个计算模型,并分别对初始分子的各个指标进行独立优化并在加权平均计算后进行迭代优化,并将迭代结果整理输出为固定的目标分子字符串集合,提高了优化效率和适应性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的流程示意图;
图2为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的部分流程示意图;
图3为本公开实施例提供的另一种基于机器翻译模型的先导化合物成药性优化方法的部分流程示意图;
图4为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的具体实施过程示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
目前,药物研发的最大的挑战之一就是如何高效的进行先导化合物优化,这也是药物化学家们面临的一大难题。超过50%化合物因为没有合适的吸收、分布、代谢、***(ADMET)和安全性质从而在药物研发的过程中失败,而ADMET性质优化是一个难度极高的多目标优化任务,要求在提高分子的成药性同时保持分子的活性;另一方面,空间大、经验少、成本高、耗时长等因素也使得高效进行化合物药代动力学性质和安全性的优化成为一大难题。而现有的技术一般是通过计算生成新分子,接着利用虚拟筛选程序对所产生的新化合物进行筛选以获得符合候选化合物,然而计算量巨大,或者通过预测模型对分子整体进行预测,不能针对成药性特定指标进行优化,且优化后药物的成药性不高,优化效率和适应性较差。
本公开实施例提供一种基于机器翻译模型的先导化合物成药性优化方法,所述方法可以应用于计算机辅助药物设计场景的先导化合物成药性优化过程中。
参见图1,为本公开实施例提供的一种基于机器翻译模型的先导化合物成药性优化方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
S101,利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;
具体实施时,可以根据语言神经网络建立所述翻译模型,然后利用预设数量的样本分子字符串对所述翻译模型进行训练,提高了翻译的准确性和涉及化学空间的丰富性,以使得后续优化过程更精准。
S102,根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;
具体实施时,考虑到在优化过程中,是需要对分子的药代动力学(ADMET)性质进行具体改进,而一般影响成药性的药代动力学终点主要包括:logD7.4、LogS、Caco-2、MDCK细胞、血浆蛋白结合率(PPB)、AMES毒性、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)毒性共9个重要的ADMET终点。可以通过机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组,可以根据9个重要的ADMET终点分别建立模型,也可以根据任意个ADMET终点分别建立模型,在此不进行列举。
S103,将初始分子字符串输入所述编码器,生成目标矢量;
具体实施时,可以将需要优化的先导化合物分子对应的SMILES字符串作为所述初始分子字符串,然后将所述初始分子字符串输入所述编码器,生成所述目标矢量。
例如,为了避免循环神经网络(RNN)引发的梯度消失或梯度***的问题,编码器和解码器都应用了3层堆积门循环单元(GRU),每一层包含256、512和1024个单元。对于编码器模型,其最后一层为包含512个单元和双曲正切激活函数的完全连接层(信息瓶颈),并生成512维矢量作为所述目标矢量。通过信息瓶颈筛选后得到的512维矢量,象征SMILES中最显著的统计特征。当然,所述编码器的具体设置以及生成的所述目标矢量的维度可以根据实际需要进行设定。
S104,根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;
具体实施时,所述优化指令可以为针对所述初始分子字符串中特定的药代动力学终点进行优化,例如,当所述优化指令为对所述初始分子字符串中的血浆蛋白结合率(PPB)、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)进行优化时,则将所述目标矢量输入所述预测模型组中,由所述预测模型组中血浆蛋白结合率(PPB)、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)对应的计算模型对所述目标矢量进行分析处理,得到所述优化指令对应的优化预测指标。
S105,根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分;
所述初始分子字符串对应的计算指标可以根据所述初始分子字符串直接计算得到,在得到所述优化预测指标后,可以根据每个指标对成药性的影响进行所述加权平均计算,得到所述初始分子字符串的得分,以避免优化分子只关注性质的提升,而忽略重要结构信息,生成不期望的分子。
S106,根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;
具体实施时,为了进一步提高优化效率,在得到所述初始分子字符串的得分后,可以根据所述目标矢量和所述得分,利用优化算法迭代预设次数,得到多个优化矢量和每个所述优化矢量对应的优化得分,形成所述优化分数集合。
例如,利用粒子群优化算法(particle swarm optimization,简称PSO)结合翻译模型计算所得的优化矢量和优化得分,从而实现高效的分子优化。PSO是一种模拟群体智能,通过多个粒子在空间搜索中信息记录和比较,从而寻找最优点的随机优化方法。在此过程中,群中的每个粒子的信息由其位置x和速度v定义,其中评分f用于探索空间和指导优化。在本研究中,位置x为512维矢量值,评分f为优化分数。第i个粒子在迭代步骤k的运动受其自身历史最佳点和所有粒子的历史最佳点影响;每次迭代后,每个粒子将根据收集的信息及其状态更新其速度和位置,然后可以根据所述优化得分对所述优化分数集合内的优化矢量进行排序。
S107,将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
具体实施时,在得到所述优化分数集合后,可以将所述优化分数集合输入所述解码器,由所述解码器对所述优化分数集合中的每个优化矢量进行解码,生成规范的字符串Canonical SMILES,形成所述目标分子字符串集合,所述目标分子字符串集合中包含多个根据所述优化指令进行优化的分子,以便后续的验证与应用。
本实施例提供的基于机器翻译模型的先导化合物成药性优化方法,通过对需要优化的每个药代动力学终点均建立一个计算模型,并分别对初始分子的各个指标进行独立优化并在加权平均计算后进行迭代优化,并将迭代结果整理输出为固定的目标分子字符串集合,提高了优化效率和适应性。
在上述实施例的基础上,步骤S101所述的,利用预设数量的样本分子字符串训练翻译模型,包括:
分别将每个所述样本分子字符串输入所述编码器,并将所述编码器的输出结果输入所述解码器;
将所述解码器的每个输出结果与其对应的样本分子字符串的真实标签的损失,并执行梯度更新。
具体实施时,可以分别将每个所述样本分子字符串输入所述编码器,所述编码器生成每个所述样本分子字符串对应的512维矢量,然后将每个所述样本分子字符串对应的512维矢量输入所述解码器,然后将所述解码器的输出与真实标签进行损失计算,并执行梯度更新,以提高所述翻译模型的翻译精度。
在上述实施例的基础上,如图2所示,步骤S102所述的,根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组的步骤,包括:
S201,从初始数据库内提取样本数据集;
例如,可以通过对ChEMBL、EPA和DrugBank数据库检索和文献收集,得到ADMET数据集并对其进行数据预处理,筛除ADMET数据集的干扰数据和无效数据,形成所述样本数据集。
S202,从所述样本数据集中提取与每个所述药代动力学终点对应的数据训练XGBoost算法,得到每个所述药代动力学终点对应的计算模型;
例如,可以针对logD7.4、LogS、Caco-2、MDCK细胞、血浆蛋白结合率(PPB)、AMES毒性、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)毒性共9个重要的ADMET终点对所述样本数据集中提取对应的数据,并结合所述XGBoost算法对不同ADMET终点对应的数据进行学习,建立每个所述药代动力学终点对应的计算模型。当然,还可以采用其他的机器学习算法进行学习和建立模型。
S203,根据全部所述药代动力学终点对应的计算模型形成所述预测模型组。
在得到每个所述药代动力学终点对应的计算模型后,根据全部所述药代动力学终点对应的计算模型形成所述预测模型组。
进一步的,所述根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标的步骤,包括:
分析所述优化指令中包含的药代动力学终点;
根据所述优化指令中包含的药代动力学终点从所述预测模型组选取对应的计算模型;
将所述目标矢量分别输入每个所述计算模型,得到每个所述药代动力学终点对应的预测指标,并形成所述优化预测指标。
具体实施时,当所述优化指令中包含的药代动力学终点为对所述初始分子字符串中的血浆蛋白结合率(PPB)、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)进行优化时,则将所述目标矢量输入所述预测模型组中,由所述预测模型组中血浆蛋白结合率(PPB)、心脏毒性(hERG)、肝毒性和半数致死剂量(LD50)对应的计算模型,然后将将所述目标矢量分别输入每个所述计算模型,得到每个所述药代动力学终点对应的预测指标,并形成所述优化预测指标。
可选的,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤之前,所述方法还包括:
对每个所述药代动力学终点和所述计算指标设置对应的权重;
设定每个所述药代动力学终点和所述计算指标对应的常用性质范围和预设性质范围,其中,所述常用性质范围大于所述预设性质范围。
具体实施时,考虑到需要保证实现多目标优化任务且量化优化分子期望值,可以对每个所述药代动力学终点和所述计算指标设置对应的权重,以及,设定每个所述药代动力学终点和所述计算指标对应的常用性质范围和预设性质范围,从而保证对先导化合物成药性的优化,生成期望的分子。
进一步的,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤,包括:
分别根据每个所述药代动力学终点的权重和预测指标计算预测值,以及,根据根据所述计算指标的值和权重计算所述预测值;
根据每个所述预测值所在的性质范围确定每个预测值对应的预测得分,并形成所述初始分子字符串的得分。
例如,可以分别根据每个所述药代动力学终点的权重和预测指标计算预测值,以及,根据根据所述计算指标的值和权重计算所述预测值,然后判断所述预测值所在的范围,若所述预测值在所述预设性质范围内,则所述预测值对应的性质得分值为1,若所述预测值在所述预设性质范围外但仍在所述常用性质范围内,根据与目标范围距离远近对应为(0,1)的得分值,若所述预测值超出常用性质范围,则所述预测值对应的性质得分为0。
在上述实施例的基础上,如图3所示,步骤S107所述的,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合,包括:
S301,根据Beam Search算法和所述优化矢量预测每个字符,直到形成字符串;
具体实施时,Beam Search算法是一种启发式搜索算法,通过在有限的集合中扩展最有希望的节点来探索单词的最佳组合,以此迭代预测每个字符,可以将所述优化分数集合中的每个所述优化矢量代入所述Beam Search算法,迭代预测每个所述优化矢量中的每个字符,直到形成完整的字符串序列。当然,也可以选用其他的算法进行解码。
S302,根据全部所述优化矢量对应的字符串形成所述目标分子字符串集合。
具体实施时,进行相同步骤直到每个所述优化矢量均生成对应的字符串,然后将全部所述优化矢量对应的字符串形成所述目标分子字符串集合。上述本公开实施例提供的机器翻译模型的先导化合物成药性优化方法的具体优化流程如图4所示,最终生成所述目标分子字符串集合。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (4)

1.一种基于机器翻译模型的先导化合物成药性优化方法,其特征在于,包括:
利用预设数量的样本分子字符串训练翻译模型,其中,所述翻译模型包括编码器和解码器;
根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组;
所述根据机器学习算法建立多个药代动力学终点对应的计算模型,形成预测模型组的步骤,包括:
从初始数据库内提取样本数据集;
从所述样本数据集中提取与每个所述药代动力学终点对应的数据训练XGBoost算法,得到每个所述药代动力学终点对应的计算模型;
根据全部所述药代动力学终点对应的计算模型形成所述预测模型组;
将初始分子字符串输入所述编码器,生成目标矢量;
根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标;
所述根据接收到的优化指令将所述目标矢量输入预测模型组,得到所述优化指令对应的优化预测指标的步骤,包括:
分析所述优化指令中包含的药代动力学终点;
根据所述优化指令中包含的药代动力学终点从所述预测模型组选取对应的计算模型;
将所述目标矢量分别输入每个所述计算模型,得到每个所述药代动力学终点对应的预测指标,并形成所述优化预测指标;
根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分,其中,所述计算指标根据所述初始分子字符串直接计算得到;
所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤,包括:
分别根据每个所述药代动力学终点的权重和预测指标计算第一预测值,以及,根据所述计算指标的值和权重计算第二预测值;
根据每个预测值所在的性质范围确定每个预测值对应的预测得分,并形成所述初始分子字符串的得分;
所述根据每个预测值所在的性质范围确定每个预测值对应的预测得分,并形成所述初始分子字符串的得分的步骤,包括:
判断每个预测值所在的范围,若预测值在预设性质范围内,则预测值对应的性质得分值为1,若预测值在所述预设性质范围外但仍在常用性质范围内,根据与目标范围距离远近对应为(0,1)的得分值,若预测值超出常用性质范围,则预测值对应的性质得分为0;
根据所述目标矢量和所述得分,利用优化算法迭代预设次数得到优化分数集合,其中,所述优化分数集合包括多个优化矢量和每个所述优化矢量对应的优化得分;
将所述优化分数集合输入所述解码器,利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合。
2.根据权利要求1所述的方法,其特征在于,所述利用预设数量的样本分子字符串训练翻译模型的步骤,包括:
分别将每个所述样本分子字符串输入所述编码器,并将所述编码器的输出结果输入所述解码器;
将所述解码器的每个输出结果与其对应的样本分子字符串的真实标签的损失,并执行梯度更新。
3.根据权利要求1所述的方法,其特征在于,所述根据所述优化预测指标和所述初始分子字符串对应的计算指标进行加权平均计算,得到所述初始分子字符串的得分的步骤之前,所述方法还包括:
对每个所述药代动力学终点和所述计算指标设置对应的权重;
设定每个所述药代动力学终点和所述计算指标对应的常用性质范围和预设性质范围,其中,所述常用性质范围大于所述预设性质范围。
4.根据权利要求1所述的方法,其特征在于,所述利用预设算法计算每个所述优化矢量对应的字符串,形成目标分子字符串集合的步骤,包括:
根据BeamSearch算法和所述优化矢量预测每个字符,直到形成字符串;
根据全部所述优化矢量对应的字符串形成所述目标分子字符串集合。
CN202110992135.0A 2021-08-27 2021-08-27 一种基于机器翻译模型的先导化合物成药性优化方法 Active CN113707234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110992135.0A CN113707234B (zh) 2021-08-27 2021-08-27 一种基于机器翻译模型的先导化合物成药性优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110992135.0A CN113707234B (zh) 2021-08-27 2021-08-27 一种基于机器翻译模型的先导化合物成药性优化方法

Publications (2)

Publication Number Publication Date
CN113707234A CN113707234A (zh) 2021-11-26
CN113707234B true CN113707234B (zh) 2023-09-05

Family

ID=78655608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110992135.0A Active CN113707234B (zh) 2021-08-27 2021-08-27 一种基于机器翻译模型的先导化合物成药性优化方法

Country Status (1)

Country Link
CN (1) CN113707234B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334031A (zh) * 2021-12-21 2022-04-12 深圳晶泰科技有限公司 压药参数的改良处理方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034687A (zh) * 2012-11-29 2013-04-10 中国科学院自动化研究所 一种基于2-类异质网络的关联模块识别方法
CN103294933A (zh) * 2013-05-10 2013-09-11 司宏宗 一种药物筛选方法
WO2019018780A1 (en) * 2017-07-20 2019-01-24 The University Of North Carolina At Chapel Hill NON-TRANSIENT COMPUTER-READABLE METHODS, SYSTEMS, AND MEDIA FOR THE AUTOMATED DESIGN OF MOLECULES HAVING DESIRED PROPERTIES USING ARTIFICIAL INTELLIGENCE
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules
WO2020051714A1 (en) * 2018-09-13 2020-03-19 Cyclica Inc. Method and system for predicting properties of chemical structures
CN111126554A (zh) * 2018-10-31 2020-05-08 深圳市云网拜特科技有限公司 一种基于生成对抗网络的药物先导化合物筛选方法和***
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112116963A (zh) * 2020-09-24 2020-12-22 深圳智药信息科技有限公司 自动药物设计方法、***、计算设备及计算机可读存储介质
CN112133447A (zh) * 2020-08-14 2020-12-25 中南大学 胶体筛选模型的构建方法和胶体筛选方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3712897A1 (en) * 2019-03-22 2020-09-23 Tata Consultancy Services Limited Automated prediction of biological response of chemical compounds based on chemical information

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034687A (zh) * 2012-11-29 2013-04-10 中国科学院自动化研究所 一种基于2-类异质网络的关联模块识别方法
CN103294933A (zh) * 2013-05-10 2013-09-11 司宏宗 一种药物筛选方法
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
WO2019018780A1 (en) * 2017-07-20 2019-01-24 The University Of North Carolina At Chapel Hill NON-TRANSIENT COMPUTER-READABLE METHODS, SYSTEMS, AND MEDIA FOR THE AUTOMATED DESIGN OF MOLECULES HAVING DESIRED PROPERTIES USING ARTIFICIAL INTELLIGENCE
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules
WO2020051714A1 (en) * 2018-09-13 2020-03-19 Cyclica Inc. Method and system for predicting properties of chemical structures
CN111126554A (zh) * 2018-10-31 2020-05-08 深圳市云网拜特科技有限公司 一种基于生成对抗网络的药物先导化合物筛选方法和***
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN112133447A (zh) * 2020-08-14 2020-12-25 中南大学 胶体筛选模型的构建方法和胶体筛选方法
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及***
CN112116963A (zh) * 2020-09-24 2020-12-22 深圳智药信息科技有限公司 自动药物设计方法、***、计算设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹东升等.基于Markov性的半监督流行学习算法研究.中国科学:数学.2015,第45卷(第5期),703-712. *

Also Published As

Publication number Publication date
CN113707234A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Wang et al. Hat: Hardware-aware transformers for efficient natural language processing
Akay et al. A comprehensive survey on optimizing deep learning models by metaheuristics
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN112905801B (zh) 基于事件图谱的行程预测方法、***、设备及存储介质
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Moriya et al. Automation of system building for state-of-the-art large vocabulary speech recognition using evolution strategy
Vogel et al. Learning from flowsheets: A generative transformer model for autocompletion of flowsheets
CN116189809B (zh) 一种基于对抗攻击的药物分子重要节点预测方法
CN115240786A (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
Zheng et al. Ddpnas: Efficient neural architecture search via dynamic distribution pruning
Huang et al. Conditional diffusion based on discrete graph structures for molecular graph generation
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN113707234B (zh) 一种基于机器翻译模型的先导化合物成药性优化方法
CN110008482A (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN116993043A (zh) 一种电力设备故障溯源方法及装置
CN115240787A (zh) 基于深度条件循环神经网络的全新分子生成方法
Kwong et al. A genetic classification error method for speech recognition
Zhang et al. Design automation for fast, lightweight, and effective deep learning models: A survey
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Ross et al. GP-MoLFormer: A Foundation Model For Molecular Generation
CN110348001A (zh) 一种词向量训练方法和服务器
CN112100320B (zh) 一种术语生成方法、装置及存储介质
Bonilla et al. Predictive search distributions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant