CN110634539A - 基于人工智能的药物分子处理方法、装置及存储介质 - Google Patents

基于人工智能的药物分子处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110634539A
CN110634539A CN201910866714.3A CN201910866714A CN110634539A CN 110634539 A CN110634539 A CN 110634539A CN 201910866714 A CN201910866714 A CN 201910866714A CN 110634539 A CN110634539 A CN 110634539A
Authority
CN
China
Prior art keywords
drug
molecular
vector
attribute
grammar rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910866714.3A
Other languages
English (en)
Inventor
吴家祥
徐挺洋
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910866714.3A priority Critical patent/CN110634539A/zh
Publication of CN110634539A publication Critical patent/CN110634539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于人工智能的药物分子处理方法、装置、电子设备及存储介质;方法包括:响应于针对药物分子的生成请求,确定药物分子属性需求;获取随机采样的药物分子向量;对随机采样的药物分子向量进行变换处理,得到符合药物分子属性需求的药物分子向量;对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则;根据语法规则与药物分子的映射关系,生成第一语法规则对应的药物分子,以用于响应生成请求。通过本发明,能够得到满足特定药物分子属性需求的药物分子,满足用户对药物分子的需求。

Description

基于人工智能的药物分子处理方法、装置及存储介质
技术领域
本发明涉及智慧医学技术,尤其涉及一种基于人工智能的药物分子处理方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
将人工智能技术应用于药物研发中,通过机器的推理与决策的功能可以获得一些候选的药物分子,从而减小人工研发药物的时间开销。
但是,目前获得的候选药物分子往往不能满足用户的需求,例如,当用户需要候选药物分子满足亲水性,但是最终得到的候选药物分子并不满足亲水性,反而满足疏水性。
发明内容
本发明实施例提供一种基于人工智能的药物分子处理方法、装置、电子设备及存储介质,能够得到满足特定药物分子属性需求的药物分子,满足用户对药物分子的需求。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的药物分子处理方法,所述方法包括:
响应于针对药物分子的生成请求,确定药物分子属性需求;
获取随机采样的药物分子向量;
对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量;
对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则;
根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,以用于响应所述生成请求。
本发明实施例提供一种基于人工智能的药物分子处理装置,所述装置包括:
第一确定模块,用于响应于针对药物分子的生成请求,确定药物分子属性需求;
获取模块,用于获取随机采样的药物分子向量;
预测模块,用于对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量;
编码模块,用于对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则;
第二确定模块,用于根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,以用于响应所述生成请求。
上述技术方案中,所述获取单元还用于对服从多元高斯分布的药物分子向量集合进行随机采样处理,得到随机采样的药物分子向量。
上述技术方案中,所述预测模块还用于通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的药物属性;
将所述随机采样的药物分子向量对应的药物属性、与所述药物分子属性需求进行比对,根据比对结果更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
上述技术方案中,所述预测模块还用于通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的至少一个药物属性的概率值;
将所述随机采样的药物分子向量对应的至少一个药物属性的概率值、与药物分子属性需求中药物属性的概率值做差处理,得到对应的差值;
当所述差值大于差值阈值时,根据所述药物分子属性需求更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
上述技术方案中,所述编码模块还用于通过编码模型的至少一个解码器对所述符合所述药物分子属性需求的药物分子向量进行解码,生成针对所述药物分子向量的至少一个第一语法规则,所述编码模型中包括多个解码器。
上述技术方案中,编码模块还用于通过所述编码模型中的第n个解码器,对第n-1个解码器的输出、以及所述符合所述药物分子属性需求的药物分子向量进行解码,得到第n个解码器对应的所述药物分子向量的第一语法规则;
其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
上述技术方案中,所述第二确定模块还用于将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;
根据语法规则序列与药物分子的映射关系、以及所述对应所述药物分子向量的语法规则序列,得到所述第一语法规则对应的药物分子。
上述技术方案中,所述第二确定模块还用于将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;
根据分子线性输入规范与语法规则序列的映射关系、以及对应所述药物分子向量的语法规则序列,得到对应所述药物分子向量的分子线性输入规范;
根据所述分子线性输入规范与药物分子的映射关系、以及对应所述药物分子向量的分子线性输入规范,得到所述第一语法规则对应的药物分子。
上述技术方案中,所述装置还包括:
第一训练模块,用于通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量;
通过所述编码模型中的解码器对所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;
根据所述训练样本的语法规则以及训练样本的第二语法规则,更新所述编码模型的模型参数。
上述技术方案中,所述装置还包括:
拆解模块,用于对训练样本的分子线性输入规范对应的语法规则序列进行拆解,得到至少一个训练样本的语法规则。
上述技术方案中,所述解码器为第n个解码器,所述第一训练模块还用于通过所述编码模型中的第n个解码器,对第n-1个编码器的输出、以及所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;
其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
上述技术方案中,所述装置还包括:
第二训练模块,用于通过分子属性预测模型对训练样本的药物分子向量进行预测,得到对应所述训练样本的药物属性;
根据所述训练样本的药物属性以及标准的药物属性,确定所述分子属性预测模型的损失函数的值;
根据所述损失函数的值,更新所述分子属性预测模型的模型参数。
本发明实施例提供一种基于人工智能的药物分子处理设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的药物分子处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的药物分子处理方法。
本发明实施例具有以下有益效果:
1、通过药物分子模型中分子属性预测模型对随机采样的药物分子进行一系列的处理,得到符合药物分子属性需求的药物分子向量,以便高效地获得满足特定药物分子属性需求的药物分子;
2、通过药物分子模型中编码模型对药物分子属性需求的药物分子向量进行解码等处理,得到对应药物分子向量的语法规则,以便得到该语法规则对应的药物分子,通过引入语法规则的约束,提高药物分子的有效性。
附图说明
图1是本发明实施例提供的基于人工智能的药物分子处理***10的应用场景示意图;
图2是本发明实施例提供的基于人工智能的药物分子处理设备500的结构示意图;
图3是本发明实施例提供的基于人工智能的药物分子处理装置555的结构示意图;
图4A-4C是本发明实施例提供的基于人工智能的药物分子处理方法的流程示意图;
图5是本发明实施例提供的药物研发的流程示意图;
图6是本发明实施例提供的变分自编码器示意图;
图7是本发明实施例提供的分子线性输入规范语法规则集合的示意图;
图8是本发明实施例提供的SMILES表达式与语法规则序列的转换示意图;
图9是本发明实施例提供的分子属性预测模型示意图;
图10是本发明实施例提供的获得药物分子结构的示意图;
图11是本发明实施例提供的实验效果的对比示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)药物分子:药物的化学结构,例如苯环为一种药物分子。
2)药物分子属性:表征药物分子结构的属性,例如,带有极性基团的药物分子,对水有很大的亲和能力,可以吸引水分子,或溶解于水,该类药物分子形成的固体材料的表面,易被水所润湿、即该类药物分子属性为亲水性;某类药物分子与生命机体接触或进入生物活体体内后,能引起直接或间接损害作用、即该类药物分子属性为生物毒性(生物有害性)。
3)先导化合物:简称先导物,通过各种途径和手段得到的具有某种生物活性和化学结构的化合物,用于进一步的化合物结构改造。
4)分子线性输入规范(Simplified Molecular Input Line EntrySpecification,SMILES):一种用美国信息交换标准代码(American Standard Code forInformation Interchange,ASCII)字符串明确描述分子结构的规范。SMILES表达式可以用一串字符来描述一个三维化学结构,例如,环己烷(C6H12)的SMILES表达式为C1CCCCC1,即C1CCCCC1表示为环己烷。
5)语法规则:一个节点到至少一个节点的映射关系、即符号之间的转换关系,以向量或者索引的方式定义药物分子的部分结构。一种药物分子具有至少一个语法规则,将至少一个语法规则组成一个语法规则集合、即语法规则序列,该语法规则序列用于可以构成一个用于表征某一药物分子的树,用于唯一标识该药物分子。且在人工智能领域中,解码器可以识别语法规则,以确定该语法规则是否有效,而解码器并不能识别SMILES表达式的有效性。
为至少解决相关技术的上述技术问题,本发明实施例提供一种基于人工智能的药物分子处理方法、装置、电子设备和存储介质,能够得到满足特定药物分子属性需求的药物分子,满足用户对药物分子的需求。下面说明本发明实施例提供的于人工智能的药物分子处理设备的示例性应用,本发明实施例提供的于人工智能的药物分子处理设备可以是服务器,例如部署在云端的服务器,根据其他设备或者用户提供的药物分子属性需求,向用户提供与药物分子属性需求对应的有效的药物分子,例如,服务器根据其他设备获得包括药物分子属性需求的请求数据,根据请求数据中的药物分子属性需求数据,提取药物分子属性需求,通过药物分子模型根据药物分子属性需求,获得符合药物分子属性需求的有效的药物分子;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入的药物分子属性需求,获得符合药物分子属性需求的有效的药物分子,并显示在手持终端的显示界面上,或者通过扩音器以语音播报的方式播放该符合药物分子属性需求的药物分子,用户可以根据该药物分子快速地得到所需的药物,避免要咨询其他人或专业人士来获得所需的药物,以提高用户的体验感。
作为示例,参见图1,图1是本发明实施例提供的基于人工智能的药物分子处理***10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取药物分子属性需求,例如,当用户通过输入界面输入药物分子属性需求,输入完成后,终端自动获取药物分子属性需求,并生成针对药物分子的生成请求。
在一些实施例中,终端200本地执行本发明实施例提供的基于人工智能的药物分子处理方法来完成根据输入的药物分子属性需求,得到与符合药物分子属性需求的有效的药物分子,例如,在终端200上安装应用(Application,AP P),如药物查询助手APP,用户在药物查询助手APP中,输入药物分子属性需求,终端200根据药物分子属性需求,获得符合药物分子属性需求的有效的药物分子,并将药物分子显示在终端200的显示界面210上,或者通过语音播报的方式播放药物分子,以便用户可以根据该药物分子快速地得到所需的药物。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端100上输入的药物分子属性需求,并调用服务器100提供的基于人工智能的药物分子处理功能,服务器100通过本发明实施例提供的基于人工智能的药物分子处理方法获得符合药物分子属性需求的有效的药物分子,例如,在终端200上安装药物查询助手APP,用户在药物查询助手APP中,输入药物分子属性需求,终端通过网络300向服务器100发送药物分子属性需求的请求数据,服务器100接收到该请求数据后,提取请求数据中的药物分子属性需求,根据药物分子属性需求,获得符合药物分子属性需求的有效的药物分子,并返回药物分子至药物查询助手APP,将药物分子显示在终端200的显示界面210上,或者通过语音播报的方式播放药物分子,或者,服务器100直接通过药物分子,以便用户可以根据该药物分子快速地得到所需的药物。
继续说明本发明实施例提供的基于人工智能的药物分子处理设备的结构,基于人工智能的药物分子处理设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的基于人工智能的药物分子处理设备500的结构示意图,图2所示的基于人工智能的药物分子处理设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。基于人工智能的药物分子处理设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的药物分子处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的基于人工智能的药物分子处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的药物分子处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Applicati on Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在另一些实施例中,本发明实施例提供的基于人工智能的药物分子处理装置可以采用软件方式实现,图2示出了存储在存储器550中的基于人工智能的药物分子处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括药物分子模型以及用于训练药物分子模型的第一训练模块5556和第二训练模块5558;其中,药物分子模型用于实现本发明实施例提供的基于人工智能的药物分子处理方法中获得符合药物分子属性需求的有效的药物分子的功能,包括一系列的模块(将在下文进行说明),第一训练模块5556和第二训练模块5558用于实现本发明实施例提供的药物分子模型的训练功能。
结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的基于人工智能的药物分子处理方法,根据上文可以理解,本发明实施例提供的基于人工智能的药物分子处理方法可以由各种类型的基于人工智能的药物分子处理设备,例如智能终端和服务器等。
参见图3和图4A,图3是本发明实施例提供的基于人工智能的药物分子处理装置555的结构示意图,示出了基于人工智能的药物分子处理流程,图4A是本发明实施例提供的基于人工智能的药物分子处理方法的流程示意图,实现对药物分子模型中编码模型的训练功能,以本发明实施例提供的基于人工智能的药物分子处理方法应用于服务器为例,结合下文图3对图4A示出的步骤进行说明。
在步骤101A中,通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量。
基于人工智能的药物分子处理方法应用于药物分子模型,其中,药物分子模型包括分子属性预测模型和编码模型。通过分别训练分子属性预测模型和编码模型,来实现对药物分子模型的训练过程。
为了实现对药物分子模型中编码模型的训练过程,可以将训练样本输入至编码模型中。其中,编码模型包括至少一个编码器和至少一个解码器,其中编码器与解码器是一一对应的关系。
为了通过训练编码模型,使得编码模型可以输出对应药物分子的语法规则,可以基于预先定义好的语法规则集合,将训练样本(公开数据集中的分子结构)的SEILES表达式转换为一系列的语法规则、即语法规则序列。如图6所示,将训练样本的语法规则输入至编码模型中的编码器中,编码器根据输入的语法规则,可以输出符合该语法规则的多元高斯分布中的均值向量以及协方差矩阵,根据该均值向量以及协方差矩阵对训练样本的语法规则进行采样,可以得到训练样本的特征向量。
作为示例,参见图3,第一训练模块5556通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量。
在一些实施例中,通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量之前,还包括:对训练样本的分子线性输入规范对应的语法规则序列进行拆解,得到至少一个训练样本的语法规则。
由于编码模型包括至少一个编码器和至少一个解码器,其中,编码器与解码器是一一对应的关系。因此,如图6所示,可以将训练样本的SEILES表达式转换为语法规则序列进行拆分,得到至少一个训练样本的语法规则,并将该至少一个训练样本的语法规则分别输入至编码模型中的对应的各编码器中。
作为示例,参见图3,拆解模块5557对训练样本的分子线性输入规范对应的语法规则序列进行拆解,得到至少一个训练样本的语法规则,以便后续第一训练模块5556对编码模型进行训练。
在步骤102A中,通过编码模型中的解码器对训练样本的特征向量进行解码,得到对应训练样本的第二语法规则。
在通过编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量后,该训练样本的特征向量将被输入至对应的编码模型中的解码器中。对应的解码器对训练样本的特征向量进行解码,从而得到对应训练样本的第二语法规则。
在一些实施例中,其中,解码器为第n个解码器,则通过编码模型中的解码器对训练样本的特征向量进行解码,得到对应训练样本的第二语法规则,包括:通过编码模型中的第n个解码器,对第n-1个编码器的输出、以及训练样本的特征向量进行解码,得到对应训练样本的第二语法规则;其中,n大于或者等于2且小于或者等于N,N为编码模型中解码器的数量。
如图6所示,将训练样本中的第n个语法规则输入至第n个编码器后,通过采样得到训练样本中的第n个语法规则的特征向量,并将训练样本中的第n个语法规则的特征向量输入至第n个编码器,且第n-1个编码器输出的输出结果也会输入至第n个解码器。该第n个解码器会对第n-1个编码器的输出结果、以及训练样本中的第n个语法规则的特征向量进行解码,得到对应训练样本的第二语法规则(训练样本通过编码模型输出的语法规则)。由于,将第n-1个编码器的输出结果,加入到第n个编码器中,因此可以建立各语法规则直接的依赖关系,且通过该依赖关系,编码器可以有效地识别错误的语法规则,即将待生成的第二语法规则的概率设置为0。
作为示例,参见图3,第一训练模块5556通过编码模型中的解码器对训练样本的特征向量进行解码,得到对应训练样本的第二语法规则。
在步骤103A中,根据训练样本的语法规则以及训练样本的第二语法规则,更新编码模型的模型参数。
在通过编码模型中的解码器得到对应训练样本的第二语法规则后,可以根据训练样本的语法规则以及训练样本的第二语法规则,得到编码模型的损失函数的值,判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定编码模型的误差信号,将误差信息在编码模型中反向传播,并在传播的过程中更新各个层的模型参数。
作为示例,参见图3,第一训练模块5556根据训练样本的语法规则以及训练样本的第二语法规则,更新编码模型的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛,其中,编码模型属于神经网络模型。
参见图3和图4B,图4B是本发明实施例提供的基于人工智能的药物分子处理方法的流程示意图,在步骤101B中,通过分子属性预测模型对训练样本的药物分子向量进行预测,得到对应训练样本的药物属性;在步骤102B中,根据训练样本的药物属性以及标准的药物属性,确定分子属性预测模型的损失函数的值;在步骤103B中,根据损失函数的值,更新分子属性预测模型的模型参数。其中,图4A示出的步骤101A-103A是对药物分子模型中编码模型的训练过程,图4B示出的步骤101B-103B是对药物分子模型中分子属性预测模型的训练过程,步骤101A-103A与101B-103B并无明显的先后顺序。
在一些实施例中,将训练样本的药物分子向量输入至分子属性预测模型后,分子属性预测模型会根据训练样本的药物分子向量进行预测,输出对应训练样本的药物属性,其中,训练样本的药物属性可以是对应训练样本的药物属性的概率值,例如,该训练样本的药物属性为亲水性的概率为90%;该训练样本的药物属性可以是对应训练样本的药物属性的数值,例如,该训练样本的药物属性(摩尔质量)为58.5g/mol。
在获得对应训练样本的药物属性后,可以根据训练样本的药物属性以及标准的药物属性,确定分子属性预测模型的损失函数的值,判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定分子属性预测模型的误差信号,将误差信息在编码模型中反向传播,并在传播的过程中更新各个层的模型参数。当训练样本的药物属性可以是对应训练样本的药物属性的概率值,则标准的药物属性是对应标准的药物属性的概率值;当训练样本的药物属性可以是对应训练样本的药物属性的数值,则标准的药物属性是对应标准的药物属性的数值。
作为示例,参见图3,第二训练模块5558通过分子属性预测模型对训练样本的药物分子向量进行预测,得到对应训练样本的药物属性,并根据训练样本的药物属性以及标准的药物属性,确定分子属性预测模型的损失函数的值,最后根据损失函数的值,更新分子属性预测模型的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛,其中,分子属性预测模型属于神经网络模型。
下面参见图3和图4C,图4A是本发明实施例提供的基于人工智能的药物分子处理方法的流程示意图,基于人工智能的药物分子处理方法应用于药物分子模型,药物分子模型包括分子属性预测模型和编码模型,实现通过训练好的药物分子模型根据药物分子属性需求,获得符合药物分子属性需求的有效的药物分子,以本发明实施例提供的基于人工智能的药物分子处理方法应用于服务器为例,结合下文图3对图4C示出的步骤进行说明。
在步骤201中,响应于针对药物分子的生成请求,确定药物分子属性需求。
这里,用户可以在终端的输入界面中输入药物分子属性需求,例如,亲水性,当输入完成后,终端自动生成针对药物分子的生成请求,并向服务器发送该针对药物分子的生成请求,当服务器接收到该针对药物分子的生成请求后,对该生成请求进行解析,从而得到药物分子属性需求。
作为示例,参见图3,通过药物分子模型中的第一确定模块5551响应于针对药物分子的生成请求,确定药物分子属性需求,并将药物分子属性需求输入至预测模块5553中。
在步骤202中,获取随机采样的药物分子向量。
在一些实施例中,获取随机采样的药物分子向量,包括:对服从多元高斯分布的药物分子向量集合进行随机采样处理,得到随机采样的药物分子向量。
这里,药物分子向量集合(所有可能分子结构的集合),该集合中具有M个药物分子向量,M为大于1的自然数。如图10所示,药物分子向量集合服从多元高斯分布,设置多元高斯分布的均值向量为0、协方差矩阵为单位矩阵,对服从多元高斯分布的药物分子向量集合进行随机采样处理,从而得到随机采样的药物分子向量,以便后续对随机采样的药物分子向量进行预测以及变换等处理。
作为示例,参见图3,通过药物分子模型中的获取模块5552获取随机采样的药物分子向量,并将随机采样的药物分子向量输入至预测模块5553中。
在步骤203中,对随机采样的药物分子向量进行变换处理,得到符合药物分子属性需求的药物分子向量。
在服务器获取了随机采样的药物分子向量后,还可以通过训练好的分子属性预测模型对随机采样的药物分子向量进行变换处理,从而得到符合药物分子属性需求的药物分子向量,从而满足用户对药物属性的需求。
在一些实施例中,对随机采样的药物分子向量进行变换处理,得到符合药物分子属性需求的药物分子向量,包括:通过分子属性预测模型对随机采样的药物分子向量进行预测,获得随机采样的药物分子向量对应的药物属性;将随机采样的药物分子向量对应的药物属性、与药物分子属性需求进行比对,根据比对结果更新随机采样的药物分子向量,得到符合药物分子属性需求的药物分子向量。
在服务器获取了随机采样的药物分子向量后,首先可以通过训练好的分子属性预测模型对随机采样的药物分子向量进行预测,确定随机采样的药物分子向量对应的药物属性。其中,该药物属性可以是数值,例如该药物属性为摩尔质量,则将随机采样的药物分子向量对应的药物属性、与药物分子属性需求进行比对,得到比对结果,其中,药物分子属性需求也可以是数值,根据比对结果,如果确定随机采样的药物分子向量对应的药物属性与药物分子属性需求不同时,则更新随机采样的药物分子向量,得到符合药物分子属性需求的药物分子向量。
在一些实施例中,对随机采样的药物分子向量进行变换处理,得到符合药物分子属性需求的药物分子向量,包括:通过分子属性预测模型对随机采样的药物分子向量进行预测,获得随机采样的药物分子向量对应的至少一个药物属性的概率值;将随机采样的药物分子向量对应的至少一个药物属性的概率值、与药物分子属性需求中药物属性的概率值做差处理,得到对应的差值;当差值大于差值阈值时,根据药物分子属性需求更新随机采样的药物分子向量,得到药物分子属性需求的药物分子向量。
在服务器获取了随机采样的药物分子向量后,首先可以通过训练好的分子属性预测模型对随机采样的药物分子向量进行预测,获得随机采样的药物分子向量对应的至少一个药物属性的概率值,例如,随机采样的药物分子向量对应的亲水性的概率值为90%、生物毒性为50%。将随机采样的药物分子向量对应的至少一个药物属性的概率值、与药物分子属性需求中药物属性的概率值做差处理,得到对应的差值,例如随机采样的药物分子向量对应的亲水性的概率值为90%、药物分子属性需求中亲水性的概率值85%,则得到对应的差值为5%。当差值大于差值阈值时,根据药物分子属性需求更新随机采样的药物分子向量,得到药物分子属性需求的药物分子向量,例如差值阈值为6%,则对应的差值5%小于差值阈值,则根据药物分子属性需求更新随机采样的药物分子向量,得到药物分子属性需求的药物分子向量;当差值小于或者差值阈值时,该随机采样的药物分子向量符合药物分子属性需求,无需更新随机采样的药物分子向量。
作为示例,参见图3,通过药物分子模型中的预测模块5553通过分子属性预测模型对随机采样的药物分子向量进行变换处理,得到符合药物分子属性需求的药物分子向量,并将符合药物分子属性需求的药物分子向量输入至编码模块5554中。
在步骤204中,对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则。
当服务器获得了符合药物分子属性需求的药物分子向量后,还可以通过训练好的编码模型中的解码器对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则,从而通过在编码模型中引入语法规则的约束,得到对应药物分子向量的第一语法规则,后续根据语法规则得到的药物分子的有效性更强。
在一些实施例中,对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则,包括:通过编码模型的至少一个解码器对符合药物分子属性需求的药物分子向量进行解码,生成针对药物分子向量的至少一个第一语法规则;编码模型中包括多个解码器。
在对编码模型进行训练的过程中,编码模型中具有N个编码器,以及与编码器对应的N个解码器。当对编码模型训练完成后,则可通过N各解码器对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则。
在服务器得到符合药物分子属性需求的药物分子向量后,将符合药物分子属性需求的药物分子向量分别输入至N个编码器。通过编码模型的至少一个解码器对符合药物分子属性需求的药物分子向量进行解码,即可生成针对药物分子向量的至少一个第一语法规则。
在一些实施例中,通过编码模型的至少一个解码器对符合药物分子属性需求的药物分子向量进行解码,生成针对药物分子向量的至少一个第一语法规则,包括:通过编码模型中的第n个解码器,对第n-1个解码器的输出、以及符合药物分子属性需求的药物分子向量进行解码,得到第n个解码器对应的药物分子向量的第一语法规则;其中,n大于或者等于2且小于或者等于N,N为编码模型中解码器的数量。
如图10所示,将符合药物分子属性需求的药物分子向量分别输入至N个编码器后,第n-1个解码器根据符合药物分子属性需求的药物分子向量输出对应的输出结果至编码模型中的第n个解码器,第n个解码器会对第n-1个解码器的输出、以及符合药物分子属性需求的药物分子向量进行解码,得到第n个解码器对应的药物分子向量的第一语法规则,并将第n个解码器对应的药物分子向量的第一语法规则输入至第n+1个解码器,直至N个解码器输出对应的输出结果。
作为示例,参见图3,通过药物分子模型中的编码模块5553通过编码模型中的解码器对符合药物分子属性需求的药物分子向量进行解码,得到对应药物分子向量的第一语法规则,并将对应药物分子向量的第一语法规则输入至第二确定模块5555中。
在步骤205中,根据语法规则与药物分子的映射关系,生成第一语法规则对应的药物分子,以用于响应生成请求。
在服务器获得了第一语法规则后,还可以获得用户预先设置在本地的语法规则与药物分子的映射关系,从而根据语法规则与药物分子的映射关系,确定第一语法规则对应的药物分子,以响应生成请求。另外,语法规则与药物分子的映射关系也可以设置在其他的电子设备上,当服务器需要获得语法规则与药物分子的映射关系式,服务器可以通过与其他的电子设备进行交互以获得语法规则与药物分子的映射关系,从而根据语法规则与药物分子的映射关系,确定第一语法规则对应的药物分子,以响应生成请求。
在一些实施例中,根据语法规则与药物分子的映射关系,生成第一语法规则对应的药物分子,包括:将至少一个第一语法规则进行组合,得到对应药物分子向量的语法规则序列;根据语法规则序列与药物分子的映射关系、以及对应药物分子向量的语法规则序列,得到第一语法规则对应的药物分子。
在编码模型中的解码器依次输出对应的第一语法规则后,将输出的至少一个第一语法规则进行组合,从而得到对应药物分子向量的语法规则序列。在服务器获得了语法规则序列后,还可以获得语法规则序列与药物分子的映射关系,从而根据语法规则序列与药物分子的映射关系,确定对应的药物分子。另外,语法规则序列与药物分子的映射关系也可以设置在其他的电子设备上,当服务器需要获得语法规则序列与药物分子的映射关系时,服务器可以通过与其他的电子设备进行交互以获得语法规则序列与药物分子的映射关系,从而根据语法规则序列与药物分子的映射关系,确定第一语法规则对应的药物分子。
在一些实施例中,根据语法规则与药物分子的映射关系,确定第一语法规则对应的药物分子,包括:将至少一个第一语法规则进行组合,得到对应药物分子向量的语法规则序列;根据分子线性输入规范与语法规则序列的映射关系、以及对应药物分子向量的语法规则序列,得到对应药物分子向量的分子线性输入规范;根据分子线性输入规范与药物分子的映射关系、以及对应药物分子向量的分子线性输入规范,得到第一语法规则对应的药物分子。
在编码模型中的解码器依次输出对应的第一语法规则后,将输出的至少一个第一语法规则进行组合,从而得到对应药物分子向量的语法规则序列。在服务器获得了语法规则序列后,还可以获得分子线性输入规范与语法规则序列的映射关系,从而根据分子线性输入规范与语法规则序列的映射关系,确定对应药物分子向量的分子线性输入规范。服务器还可以通过与其他的电子设备(设置有分子线性输入规范与语法规则序列的映射关系)进行交互以获得分子线性输入规范与语法规则序列的映射关系,从而根据分子线性输入规范与语法规则序列的映射关系,确定对应药物分子向量的分子线性输入规范。当确定了对应药物分子向量的分子线性输入规范后,可以获得本地或者其他设备上的分子线性输入规范与药物分子的映射关系,并根据分子线性输入规范与药物分子的映射关系、以及对应药物分子向量的分子线性输入规范,得到第一语法规则对应的药物分子。
作为示例,参见图3,通过药物分子模型中的第二确定模块5555根据语法规则与药物分子的映射关系,可以确定第一语法规则对应的药物分子,以响应生成请求。
至此已经结合本发明实施例提供的基于人工智能的药物分子处理方法以及在基于人工智能的药物分子处理装置中的示例性应用,下面继续说明本发明实施例提供的基于人工智能的药物分子处理装置555中各个模块配合实现基于人工智能的药物分子处理的方案。
第一确定模块5551,用于响应于针对药物分子的生成请求,确定药物分子属性需求;
获取模块5552,用于获取随机采样的药物分子向量;
预测模块5553,用于对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量;
编码模块5554,用于对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则;
第二确定模块5555,用于根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,以用于响应所述生成请求。
在一些实施例中,所述获取单元5552还用于对服从多元高斯分布的药物分子向量集合进行随机采样处理,得到随机采样的药物分子向量。
在一些实施例中,所述预测模块5553还用于通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的药物属性;将所述随机采样的药物分子向量对应的药物属性、与所述药物分子属性需求进行比对,根据比对结果更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
在一些实施例中,所述预测模块5553还用于通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的至少一个药物属性的概率值;将所述随机采样的药物分子向量对应的至少一个药物属性的概率值、与药物分子属性需求中药物属性的概率值做差处理,得到对应的差值;当所述差值大于差值阈值时,根据所述药物分子属性需求更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
在一些实施例中,所述编码模型5554中包括多个解码器;所述编码模块还用于通过编码模型的至少一个解码器对所述符合所述药物分子属性需求的药物分子向量进行解码,生成针对所述药物分子向量的至少一个第一语法规则。
在一些实施例中,所述编码模块5554还用于通过所述编码模型中的第n个解码器,对第n-1个解码器的输出、以及所述符合所述药物分子属性需求的药物分子向量进行解码,得到第n个解码器对应的所述药物分子向量的第一语法规则;其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
在一些实施例中,所述第二确定模块5555还用于将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;根据语法规则序列与药物分子的映射关系、以及所述对应所述药物分子向量的语法规则序列,得到所述第一语法规则对应的药物分子。
在一些实施例中,所述第二确定模块5555还用于将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;根据分子线性输入规范与语法规则序列的映射关系、以及对应所述药物分子向量的语法规则序列,得到对应所述药物分子向量的分子线性输入规范;根据所述分子线性输入规范与药物分子的映射关系、以及对应所述药物分子向量的分子线性输入规范,得到所述第一语法规则对应的药物分子。
在一些实施例中,所述基于人工智能的药物分子处理装置555还包括:
第一训练模块5556,用于通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量;通过所述编码模型中的解码器对所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;根据所述训练样本的语法规则以及训练样本的第二语法规则,更新所述编码模型的模型参数。
在一些实施例中,所述基于人工智能的药物分子处理装置555还包括:
拆解模块5557,用于对训练样本的分子线性输入规范对应的语法规则序列进行拆解,得到至少一个训练样本的语法规则。
在一些实施例中,解码器为第n个解码器,所述第一训练模块5556还用于通过所述编码模型中的第n个解码器,对第n-1个编码器的输出、以及所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
在一些实施例中,所述基于人工智能的药物分子处理装置555还包括:
第二训练模块5558,用于通过分子属性预测模型对训练样本的药物分子向量进行预测,得到对应所述训练样本的药物属性;根据所述训练样本的药物属性以及标准的药物属性,确定所述分子属性预测模型的损失函数的值;根据所述损失函数的值,更新所述分子属性预测模型的模型参数。
本发明实施例还提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的药物分子处理方法,例如,如图4A-4C示出的基于人工智能的药物分子处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将说明本发明实施例在一个实际的基于人工智能的药物分子处理的应用场景中的示例性应用。
在相关技术中,基于机器学习的候选药物分子生成方法主要包括两种,即基于变分自编码器(Variational Auto-Encoder,VAE)和生成对抗网络(Gener ativeAdversarial Networks)两大类模型。在基于变分自编码器的方案中,药物分子结构往往被表示为SMILES表达式,从而将生成药物分子结构的问题转换成生成一个序列的问题。
基于变分自编码器的框架,在编码和解码部分分别使用一个包含3层门控循环单元(Gated Recurrent Unit,GRU)的网络结构,用于序列数据的特征提取和生成。另外,还可以通过多层卷积神经网络进行变分自编码器的编码和解码,同时引入了语法规则约束以提升药物分子生成的有效性,可以将语法规则建模成一个树状结构,以保证生成的药物分子结构可以完全符合化学规律的要求。通过采用了贝叶斯优化的方式,可以生成满足特定属性需求的药物分子结构。
基于变分自编码器的技术方案中,由于没有充分利用语法规则的约束,导致生成的分子结构中含有大量的无效结果(无效分子)。即使考虑语法规则的约束,但在生成满足特定属性需求的分子结构时,采用基于贝叶斯优化方法(高斯过程(GaussianProcesses)),而该方法在样本数量较多时,存在训练速度慢的问题、即时间复杂度是样本数量的三次方,训练过程不够高效。
在本发明实施例中,一方面通过引入语法规则的约束,提高生成药物分子的有效性,另一方面通过集成分子属性预测模型,避免了训练速度慢的问题,从而可以更加高效地生成满足特定属性需求的药物分子结构。
如图5所示,在药物研发过程中,在完成靶点识别(Target Selection)之后,需要获得大量的候选药物分子(Hit Generation)、即候选分子生成,该部分大约有106个分子;106个分子再经过后续的先导化合物识别(Lead Identifica tion)的筛选后,大约还有104个分子,以便后续先导化合物优化处理;104个分子通过先导化合物优化(LeadOptimization)的筛选以及更改后,得到最有希望成药的分子结构,该部分大约有103个分子;103个分子最后进入后续的动物试验和临床试验进行最终的验证,得到大约1个分子。因此,在候选药物分子生成阶段,如果可以高效地生成大量有效且地满足特定属性需求的分子结构,就可以提高药物研发过程的开发效率,降低药物研发的时间开销和试验成本。
本发明实施例针对药物研发过程中的候选药物分子生成问题,提出了一种基于人工智能的药物分子处理方案,通过结合语法规则约束和分子属性预测模型,可以高效地生成大量满足特定属性需求的有效分子结构,供后续的药物筛选和试验使用。
本发明实施例的实现过程分为三个阶段,分别是:1)变分自编码器模型的训练;2)分子属性预测模型的训练;3)基于变分自编码器和分子属性预测模型生成药物分子。
在第一阶段中,根据大量分子结构数据,训练得到一个变分自编码器模型(编码模型),用于后续药物分子的生成。如图6所示,采用两个包含多层GR U单元的循环神经网络(Recurrent Neural Networks),分别作为变分自编码器的编码器和解码器,同时将前一解码器的输出结果,加入到下一解码器的输入中,从而更加直接地建模序列数据的前后依赖关系。
在训练样本方面,可以使用公开数据集ZINC中提供的分子结构,并基于预先定义好的语法规则集合,将每个分子的SMILES表达式转换为一系列的语法规则、即语法规则序列,并将语法规则作为变分自编码器的输入。其中,变分自编码器的输出同样也是一系列的语法规则,对应于所生成分子结构的SMI LES表示式。对于任一SMILES表示式,基于语法规则集合,可以将其解析为对应的树状结构,并对该树状结构进行先序遍历,即可得到对应的语法规则序列。同样地,任一合法的语法规则序列,都可以构造相应的树状结构,进而得到对应的分子结构的SMILES表达式。如图7-8所示,图7是本发明实施例提供的分子线性输入规范语法规则集合的示意图,图8是本发明实施例提供的S MILES表达式与语法规则序列的转换示意图,苯环的SMILES表示式为c1cccc c1,根据图7所示的语法规则集合,可以将其解析为对应图8所示的树状结构,并对该树状结构进行先序遍历,即可得到对应图8所示的语法规则序列。
在本发明实施例中,基于第一阶段训练得到的变分自编码器模型,对于任一药物分子结构,可以得到其在隐空间中的特征表达(特征向量)。在第二阶段中,根据每个药物分子结构在隐空间中的特征表达,以及该药物分子的分子属性值(分子属性预测模型的输出),训练一个多层感知机(Multi-layer Perceptr on)模型,用于对分子属性值进行预测,如图9所示,例如,可以预测多层感知机输出的药物分子的属性是否具有亲水性或生物毒性。
在本发明实施例中,第三阶段:如图10所示,基于第一阶段训练得到的变分自编码器模型,以及第二阶段训练得到的分子属性预测模型,在使用变分自编码器模型生成分子结构的过程中,首先基于分子属性预测模型,对随机采样得到的隐空间中的特征表达进行优化,使其满足特定属性需求,然后再将其输入到变分自编码器的解码器中,这样获得的药物分子结构,可以在保证结构有效性的同时,也满足特定的分子属性需求。其中,根据多层感知机模型,可以计算当前隐空间中的特征表达对应的分子属性预测结果,并与期望的分子属性需求计算差值,作为分子属性预测模型的损失函数,再对输入的特征表达进行梯度更新,以降低分子属性预测值和期望值之间的差异。
在本发明实施例中,一方面通过引入语法规则的约束,提高了分子生成的有效率,另一方面还通过集成分子属性预测模型,可以更加高效地生成满足特定属性需求的分子结构。相比于不集成分子属性预测模型、或者采用其他分子结构生成模型(而非基于语法规则约束的变分自编码器),在给定相同的药物分子属性需求的情况下,本发明实施例中的药物分子模型可以取得更好的药物分子结构,提高生成药物分子的有效性。如图11所示,其中,“GVAE-Design”为本发明实施例的模型最终的实验效果、“GVAE-Random”为在不集成分子属性预测模型时的实验效果、“JTVAE-Random”为JTVAE模型(另一种分子结构生成模型,不基于语法规则约束)在不集成分子属性预测模型时的实验效果、“JTVAE-Design”为JTVAE模型在集成分子属性预测模型时的实验效果。由图11可知,本发明实施例中的模型在五项分子属性值(logP、SA、NPQ、QED、weight)上的有效率都是最高的,基本都在99%以上,仅药物分子的量化指标(Quantitative Estimation of Drug-likeness,QED)稍低,为96.8%。
综上所述,通过本发明实施例基于第一阶段训练得到的变分自编码器模型,以及第二阶段训练得到的分子属性预测模型,可以获得药物分子,具有以下有益效果:
1、通过引入语法规则的约束,提高生成药物分子的有效性。
2、通过集成分子属性预测模型,避免了训练速度慢的问题,从而可以更加高效地生成满足特定属性需求的药物分子结构。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种基于人工智能的药物分子处理方法,其特征在于,所述方法包括:
响应于针对药物分子的生成请求,确定药物分子属性需求;
获取随机采样的药物分子向量;
对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量;
对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则;
根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,以用于响应所述生成请求。
2.根据权利要求1所述的方法,其特征在于,所述获取随机采样的药物分子向量,包括:
对服从多元高斯分布的药物分子向量集合进行随机采样处理,得到随机采样的药物分子向量。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量,包括:
通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的药物属性;
将所述随机采样的药物分子向量对应的药物属性、与所述药物分子属性需求进行比对,根据比对结果更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量,包括:
通过分子属性预测模型对所述随机采样的药物分子向量进行预测,获得所述随机采样的药物分子向量对应的至少一个药物属性的概率值;
将所述随机采样的药物分子向量对应的至少一个药物属性的概率值、与药物分子属性需求中药物属性的概率值做差处理,得到对应的差值;
当所述差值大于差值阈值时,根据所述药物分子属性需求更新所述随机采样的药物分子向量,得到符合所述药物分子属性需求的药物分子向量。
5.根据权利要求1或2所述的方法,其特征在于,
所述对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则,包括:
通过编码模型的至少一个解码器对所述符合所述药物分子属性需求的药物分子向量进行解码,生成针对所述药物分子向量的至少一个第一语法规则;
所述编码模型中包括多个解码器。
6.根据权利要求5所述的方法,其特征在于,所述通过编码模型的至少一个解码器对所述符合所述药物分子属性需求的药物分子向量进行解码,生成针对所述药物分子向量的至少一个第一语法规则,包括:
通过所述编码模型中的第n个解码器,对第n-1个解码器的输出、以及所述符合所述药物分子属性需求的药物分子向量进行解码,得到第n个解码器对应的所述药物分子向量的第一语法规则;
其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
7.根据权利要求1或2所述的方法,其特征在于,所述根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,包括:
将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;
根据语法规则序列与药物分子的映射关系、以及所述对应所述药物分子向量的语法规则序列,得到所述第一语法规则对应的药物分子。
8.根据权利要求1或2所述的方法,其特征在于,所述根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,包括:
将至少一个第一语法规则进行组合,得到对应所述药物分子向量的语法规则序列;
根据分子线性输入规范与语法规则序列的映射关系、以及对应所述药物分子向量的语法规则序列,得到对应所述药物分子向量的分子线性输入规范;
根据所述分子线性输入规范与药物分子的映射关系、以及对应所述药物分子向量的分子线性输入规范,得到所述第一语法规则对应的药物分子。
9.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量;
通过所述编码模型中的解码器对所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;
根据所述训练样本的语法规则以及训练样本的第二语法规则,更新所述编码模型的模型参数。
10.根据权利要求9所述的方法,其特征在于,所述通过编码模型中的编码器中的均值向量以及协方差矩阵对训练样本的语法规则进行采样,得到训练样本的特征向量之前,所述方法还包括:
对训练样本的分子线性输入规范对应的语法规则序列进行拆解,得到至少一个训练样本的语法规则。
11.根据权利要求9或10所述的方法,其特征在于,所述解码器为第n个解码器,
所述通过所述编码模型中的解码器对所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则,包括:
通过所述编码模型中的第n个解码器,对第n-1个编码器的输出、以及所述训练样本的特征向量进行解码,得到对应所述训练样本的第二语法规则;
其中,n大于或者等于2且小于或者等于N,N为所述编码模型中解码器的数量。
12.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
通过分子属性预测模型对训练样本的药物分子向量进行预测,得到对应所述训练样本的药物属性;
根据所述训练样本的药物属性以及标准的药物属性,确定所述分子属性预测模型的损失函数的值;
根据所述损失函数的值,更新所述分子属性预测模型的模型参数。
13.一种基于人工智能的药物分子处理装置,其特征在于,所述装置包括:
第一确定模块,用于响应于针对药物分子的生成请求,确定药物分子属性需求;
获取模块,用于获取随机采样的药物分子向量;
预测模块,用于对所述随机采样的药物分子向量进行变换处理,得到符合所述药物分子属性需求的药物分子向量;
编码模块,用于对所述符合所述药物分子属性需求的药物分子向量进行解码,得到对应所述药物分子向量的第一语法规则;
第二确定模块,用于根据语法规则与药物分子的映射关系,生成所述第一语法规则对应的药物分子,以用于响应所述生成请求。
14.一种基于人工智能的药物分子处理设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的药物分子处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于人工智能的药物分子处理方法。
CN201910866714.3A 2019-09-12 2019-09-12 基于人工智能的药物分子处理方法、装置及存储介质 Pending CN110634539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910866714.3A CN110634539A (zh) 2019-09-12 2019-09-12 基于人工智能的药物分子处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910866714.3A CN110634539A (zh) 2019-09-12 2019-09-12 基于人工智能的药物分子处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110634539A true CN110634539A (zh) 2019-12-31

Family

ID=68972801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910866714.3A Pending CN110634539A (zh) 2019-09-12 2019-09-12 基于人工智能的药物分子处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110634539A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN112086144A (zh) * 2020-08-28 2020-12-15 深圳先进技术研究院 分子生成方法、装置、电子设备及存储介质
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN112309510A (zh) * 2020-10-31 2021-02-02 平安科技(深圳)有限公司 药物分子生成方法、装置、终端设备以及存储介质
CN112397157A (zh) * 2020-10-28 2021-02-23 星药科技(北京)有限公司 基于子图-变分自编码结构的分子生成方法
CN112509644A (zh) * 2020-12-18 2021-03-16 深圳先进技术研究院 一种分子优化方法、***、终端设备及可读存储介质
WO2021174895A1 (zh) * 2020-03-05 2021-09-10 腾讯科技(深圳)有限公司 逆合成处理方法、装置、电子设备及计算机可读存储介质
CN113569928A (zh) * 2021-07-13 2021-10-29 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法
WO2023185357A1 (zh) * 2022-03-31 2023-10-05 华为云计算技术有限公司 一种分子生成方法及相关装置
WO2024045957A1 (zh) * 2022-09-01 2024-03-07 腾讯科技(深圳)有限公司 属性模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US12027240B2 (en) 2020-03-05 2024-07-02 Tencent Technology (Shenzhen) Company Limited Electronic device, and computer-readable storage medium

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021174895A1 (zh) * 2020-03-05 2021-09-10 腾讯科技(深圳)有限公司 逆合成处理方法、装置、电子设备及计算机可读存储介质
US12027240B2 (en) 2020-03-05 2024-07-02 Tencent Technology (Shenzhen) Company Limited Electronic device, and computer-readable storage medium
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111695702B (zh) * 2020-06-16 2023-11-03 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN112086144A (zh) * 2020-08-28 2020-12-15 深圳先进技术研究院 分子生成方法、装置、电子设备及存储介质
CN112397157A (zh) * 2020-10-28 2021-02-23 星药科技(北京)有限公司 基于子图-变分自编码结构的分子生成方法
CN112309510A (zh) * 2020-10-31 2021-02-02 平安科技(深圳)有限公司 药物分子生成方法、装置、终端设备以及存储介质
WO2021180246A1 (zh) * 2020-10-31 2021-09-16 平安科技(深圳)有限公司 药物分子生成方法、装置、终端设备以及存储介质
CN112309510B (zh) * 2020-10-31 2023-09-05 平安科技(深圳)有限公司 药物分子生成方法、装置、终端设备以及存储介质
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN112509644A (zh) * 2020-12-18 2021-03-16 深圳先进技术研究院 一种分子优化方法、***、终端设备及可读存储介质
CN113569928A (zh) * 2021-07-13 2021-10-29 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法
CN113569928B (zh) * 2021-07-13 2024-01-30 湖南工业大学 一种列车运行状态检测数据缺失处理模型及重建的方法
WO2023185357A1 (zh) * 2022-03-31 2023-10-05 华为云计算技术有限公司 一种分子生成方法及相关装置
WO2024045957A1 (zh) * 2022-09-01 2024-03-07 腾讯科技(深圳)有限公司 属性模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN110634539A (zh) 基于人工智能的药物分子处理方法、装置及存储介质
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN111428015B (zh) 一种信息生成方法、装置、设备及存储介质
CN108563433B (zh) 一种基于lstm自动补全代码的装置
JP2021108096A (ja) 情報を出力する方法および装置
CN112182252B (zh) 基于药品知识图谱的智能用药问答方法及其设备
CN107729324A (zh) 基于并行处理的翻译方法和设备
JP2021108094A (ja) 対話モデルを生成するための方法及び装置
Wallace et al. Computational Psychiatry
US20230035504A1 (en) Audio processing method and apparatus, vocoder, electronic device, computer-readable storage medium, and computer program product
Taniguchi et al. Double articulation analyzer with deep sparse autoencoder for unsupervised word discovery from speech signals
CN111522921A (zh) 一种基于语句改写的面向端到端对话的数据增强方法
JP2022516227A (ja) 自然言語ソリューション
CN115019237A (zh) 多模态情感分析方法、装置、电子设备及存储介质
Sibley et al. Learning orthographic and phonological representations in models of monosyllabic and bisyllabic naming
Olaso et al. A Multi-lingual evaluation of the vAssist spoken dialog system. Comparing Disco and RavenClaw
Dori AND SYSTEM
CN116469374A (zh) 基于情感空间的语音合成方法、装置、设备及存储介质
CN117219052A (zh) 韵律预测方法、装置、设备、存储介质和程序产品
CN116306704A (zh) 篇章级文本机器翻译方法、***、设备及介质
CN117216544A (zh) 模型训练方法、自然语言处理方法、装置及存储介质
CN115862862A (zh) 疾病预测方法、装置及计算机可读存储介质
CN114330285B (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN113870827A (zh) 一种语音合成模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018905

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination