CN115171814A - 一种清洗小分子化合物的数据预处理***及其方法 - Google Patents

一种清洗小分子化合物的数据预处理***及其方法 Download PDF

Info

Publication number
CN115171814A
CN115171814A CN202210844053.6A CN202210844053A CN115171814A CN 115171814 A CN115171814 A CN 115171814A CN 202210844053 A CN202210844053 A CN 202210844053A CN 115171814 A CN115171814 A CN 115171814A
Authority
CN
China
Prior art keywords
text
smiles
compound
small molecule
small molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210844053.6A
Other languages
English (en)
Inventor
金羽童
吴俊峰
潘麓蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyi Technology Shanghai Co ltd
Original Assignee
Hong Kong Yuanyi Wisdom Co ltd
US One Smart Technology Co ltd
Huiyi Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hong Kong Yuanyi Wisdom Co ltd, US One Smart Technology Co ltd, Huiyi Technology Shanghai Co ltd filed Critical Hong Kong Yuanyi Wisdom Co ltd
Priority to CN202210844053.6A priority Critical patent/CN115171814A/zh
Priority to PCT/CN2022/109387 priority patent/WO2024016376A1/zh
Publication of CN115171814A publication Critical patent/CN115171814A/zh
Priority to US18/315,516 priority patent/US20240021276A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:S1文本预处理步骤,所述S1文本预处理步骤包括:将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本;S2化学图格式化步骤,所述S2化学图格式化步骤包括:将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学图信息。本发明还提供一种清洗小分子化合物的数据预处理***。本发明实现了全局数据集的清洗、去重、以及标准化,提供一种高效、快速、精准的端到端小分子化合物清洗整合方法。

Description

一种清洗小分子化合物的数据预处理***及其方法
技术领域
本发明属于医药与人工智能交叉技术领域,尤其涉及一种清洗小分子化合物的数据预处理***及其方法。
背景技术
传统的方法基于化学信息学的方法来实现化合物标准化,以获得小分子化合物的清洗整合方法。
但是随着大数据时代的到来,提出了高效精准、计算速度快速的要求。传统的基于化学信息学方法的算法效率较低,无法满足大数据时代的这种需求,而且各个开源算法数据标准并不统一。
具体而言,现在SMILES化合物信息来源众多(例如Chembl、PubChem 等开源数据库),缺乏统一标准化操作,不能够很好的区分干净和不干净的数据进行查重。
另外,目前基于规则,有部分清洗、去重流程方法。流程中仅针对搭建数据库,没有下游(例如:机器学习、深度学习)的实际应用。在利用该方法仍然能遇到不标准或者重复的结构。
此外,现在SMILES转用于图神经网络的数学图缺乏标准化,从个个开源框架调用的算法缺乏统一的标准。
基于以上,本申请提供了解决以上技术问题的技术方案。
发明内容
本发明的第一目的在于提供一种高效、快速、精准的端到端小分子化合物清洗整合方法。
本发明的第二目的在于获得一种高效、快速、精准的端到端小分子化合物清洗整合***。
本发明的第一方面提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:
S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES文本,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,
所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始 SMILES文本中去除多聚体成分,保留最长成分;
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5步骤:去除特殊SMILES文本信息;
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES 文本。
本发明的一个优选实施方式中,所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6步骤:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第二方面提供一种清洗小分子化合物的数据预处理***,适用于如权利要求1-5任意一项所述的数据预处理方法,其特征在于,包括:
S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始 SMILES文本中加减氢原子,实现去电荷;
S1-5单元设置为:去除特殊SMILES文本信息;
S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化 SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化单元中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6单元:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第三方面提供一种电子设备,其包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如本发明任意一项所述的清洗小分子化合物的数据预处理方法。
本发明能够带来以下至少一种有益效果:
本发明的方法基于大数据与自然语言处理技术结合一部分化学信息学实现了一种新的方法能够实现降低计算成本,最终实现数据预处理更精准,下游使用更方便。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明中数据处理方法流程图(有两个独立但可关联的部分);
图2是本发明中工作流程图;
图3是本发明中数据变量转换的示意图。
具体实施方式
以下对本发明的各个方面进行进一步详述。
除非另有定义或说明,本文中所使用的所有专业与科学用语与本领域技术熟练人员所熟悉的意义相同。此外任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。
以下对术语进行说明。
除非另有明确的规定和限定,本发明中所述的“或”,包含了“和”的关系。所述“和”相当于布尔逻辑运算符“AND”,所述“或”相当于布尔逻辑运算符“OR”,而“AND”是“OR”的子集。
可以理解到,尽管术语“第一”、“第二”等等可以在此用来说明不同的元件,但是这些元件不应被这些术语限制。这些术语仅仅用来将一个元件与另一个元件区分开。因此,第一元件可以被称为第二元件,而不背离本发明构思的教导。
本发明中,术语“含有”、“包含”或“包括”表示各种成分可一起应用于本发明的混合物或组合物中。因此,术语“主要由...组成”和“由...组成”包含在术语“含有”、“包含”或“包括”中。
除非另有明确的规定和限定,本发明的术语“相连”、“连通”、“连接”应作广义理解,例如,可以是固定连接,也可以是通过中介媒介间相连,可以是两个元件内部的连通或者两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
例如,如果一个元件(或部件)被称为在另一个元件上、与另一个元件耦合或者与另一个元件连接,那么所述一个元件可以直接地在所述另一个元件上形成、与之耦合或者与之连接,或者在它们之间可以有一个或多个介于中间的元件。相反,如果在此使用表述“直接在......上”、“直接与......耦合”和“直接与......连接”,那么表示没有介于中间的元件。用来说明元件之间的关系的其他词语应该被类似地解释,例如“在......之间”和“直接在......之间”、“附着”和“直接附着”、“相邻”和“直接相邻”等等。
另外需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向。使用的词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。可以理解到,在此,这些术语用来描述如在附图中所示的一个元件、层或区域相对于另一个元件、层或区域的关系。除了在附图中描述的取向之外,这些术语应该也包含装置的其他取向。
本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。例如,在附图中的元件的厚度可以为了清楚性起见而被夸张。
实施例
本发明中,发明人经过了广泛和深入的试验,发现本发明基于人工智能辅助药物设计的需求参考,构建了新的流程方法,进行端到端的小分子化合物 SMILES序列清洗、去重、以及转数学图标准化,为下游的人工智能模型提供更精准,更高效的数据预处理方法。
为了达到上述目的,本发明的第一方面提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:
S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES文本,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
示例性地而非限制性的,最终展示结果为Python list格式,为下游深度学习训练可保存为Python pickle格式。
本发明的一个优选实施方式中,所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始 SMILES文本中去除多聚体成分,保留最长成分;
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5步骤:去除特殊SMILES文本信息;
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES 文本。
更具体的,结合附图说明对S1步骤的各个部分说明如下。以下说明为示例性而非限制性的,因此本领域技术人员可以对以下各个步骤进行任意组合而均属于本发明的发明范围。
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本。
在一个具体的实施方式中,输入所述小分子化合物的原始数据,再进行化学结构标准化处理,最后处理为原始SMILES文本(通常为文本格式)。
具体的,在进行化学结构标准化时,利用预定的文本处理规则(S1-1部分) 进行文本整理。
具体的,所述预定的文本处理规则(S1-1部分)包括但不限于:
通过数规则将原始数据的文本修改成S1-1-1标准文本。
利用正则法拆分所有SMILES主要成分重组SMILES文本至S1-1-2标准文本。
重组的过程将利用文本规则进行SMILES序列成分拆分再进行计算最长链。通过最长链重组SMILES序列的S1-1-3标准文本。示例性而非限制性的,所述的S1-1-3标准文本例如为如图3所示的SMILES序列。
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分。
具体的,S1-2步骤用于将SMILES文本中的重金属部分去除。
更具体的,该部分利用文本处理规则(S1-2部分)进行操作。其中,需要去除的重金属定义为不存在共价键的原子。
示例性地而非限制性的,部分重金属原子的SMILES表示文本为:“[Li]”, “[Ca]”,“[Na+]”等原子的SMILES文本元素。
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始 SMILES文本中去除多聚体成分,保留最长成分;
具体的,S1-3步骤的目的在于将SMILES本文中的多聚体去除,保留最长的序列。
更具体的,在文本中,将按照“.”分隔符就行分割。
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
具体的,S1-4步骤的目的在于将SMILES文本中的电荷成分归零。更具体的,可以将此过程理解为文本处理规则(S1-4部分)。
更具体的,将共价键中的特殊成分进行修改。例如:“[O-]”修改成“O”。
S1-5步骤:去除特殊SMILES文本信息;
该步骤的目的在于将SMILES文本中的特殊标记或特殊原子去除。
更具体的,可以将此过程理解为文本处理规则(S1-5部分)。
示例性而非限制性地,修改的文本例如:”[1*]”,“*”,”[2H]”。
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES 文本。
本发明的一个优选实施方式中,所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
更具体的,结合附图对S2步骤说明如下。以下说明为示例性而非限制性的,因此本领域技术人员可以对以下各个步骤进行任意组合而均属于本发明的发明范围。
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素。
S2-1步骤的目的在于将标准化的SMILES序列拆分至每一个关键的文本元素(tokenization)。
具体的,所述文本元素包括:化学键标记、原子标记、手性标记、有机化合物环标记或其组合。
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图。
S2-2的目的在于通过文本处理规则算法将缺失的元素补全。SMILES通常隐藏部分信息,该步骤将恢复隐藏的信息到默认信息。
示例性而非限制性地,补全‘—’元素作为单键化合物共价键的标记元素。
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-3步骤的目的在于通过拆分元素的顺序分别将节点和边进行坐标标记。
示例性而非限制性地,节点元素为原子,边的元素为键。通过输入的标准化SMILES序列顺序进行0,…,N的坐标标记。
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
S2-4步骤的目的在于,通过步骤S2-3的坐标***整合节点与边的信息作为初始数学图,构建图。
示例性而非限制性地,图的构建将通过每个节点的坐标作为一个节点list 数据结构。同时通过步骤2补全过的化合物键信息(-,=,#,:等元素)进行左右节点的匹配创建数学图的边。
可选的,还可以通过其他标记的元素分别给节点或者边进行特殊标记作为数学图里的属性。
示例性而非限制性地,特殊标记包括但不限于:手性原子标记(@,@@, /,\)、原子号(通过规则查询)、单双三键(见步骤4的信息)、芳香性(通过规则识别)、是否在化合物环内(通过正则表达式进行数字识别)等属性。
本发明的一个优选实施方式中,还包括S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
示例性而非限制性地,可选择给数学图加氢原子。补全方法基于原子属性的规则完成,并且补全相关属性信息。
在一个具体实施方式中,还包括S2-6步骤:完整地输出所述小分子化合物的化学信息的数字化图结构。
示例性而非限制性地,输出如图3所示的化学结构图。
具体的,参见图1,示出了本发明的一个优选的具体实施方式。
该优选的具体实施方式的构思如下:本方法分为两大部分:文本预处理、文本转数学图。
文本预处理包括:
1.结构标准化
2.结构文本去重金属成分,保留有机化合物成分
3.结构文本去多聚体,保留最长成分
4.结构文本加减氢原子,实现去电荷
5.去除特殊SMILES文本信息
6.输出标准化的序列
文本转图包括:
1.拆分SMILES序列至核心元素
2.文本处理识别文本元素性质,识别并补全简化的化学信息
3.创造原子元素为节点的坐标***,构建数学图
4.添加节点与边的元素属性
5.补全氢原子信息
输出完整化合物图。
更具体的,S1流程为上半部分流程,此流程输出的数据可进行保存或者转换。以下为详细说明:
1.原始SMILES数据。数据格式为文本。SMILES序列为小分子化合物的文本表述方式,如图3所展示的案例。
2.化学结构标准化,利用文本处理规则进行文本整理。通过数规则将原始文本修改成方法中的标准文本。同时,利用正则法拆分所有SMILES主要成分重组SMILES文本至标准文本。重组的过程将利用文本规则进行SMILES序列成分拆分再进行计算最长链。通过最长链重组SMILES序列文本。
3.将SMILES本文中的多聚体去除,保留最长的序列。文本将按照“.”分隔符就行分割。
4.将SMILES文本中的重金属部分去除。该部分利用文本处理规则进行操作。重金属定义为不存在共价键的原子。在实例中部分重金属原子的SMILES 表示文本为:“[Li]”,“[Ca]”,“[Na+]”等原子的SMILES文本元素。
5.将SMILES文本中的电荷成分归零。该方法利用文本处理规则进行。将共价键中的特殊成分用规则修改。例如:”[O-]”修改成”O”
6.将SMILES文本中的特殊标记与特殊原子去除,该方法也利用文本处理规则。修改的文本例如:”[1*]”,“*”,”[2H]”。
7.将标准化的SMILES序列输出
图1的S2流程为下半部分流程,此流程输入为SMILES序列,输出的为数学图格式化变量:
1.拆分标准化的SMILES序列至每一个关键元素(tokenization)。元素包括:化学键标记、原子标记、手性标记、有机化合物环标记
2.通过文本处理规则算法将缺失的元素补全。SMILES通常隐藏部分信息,该步骤将恢复隐藏的信息到默认信息。比如:补全‘—’元素作为单键化合物共价键的标记元素。
3.通过拆分元素的顺序分别将节点和边进行坐标标记。在实例中,节点元素为原子,边的元素为键。通过输入的标准化SMILES序列顺序进行0,…, N的坐标标记。
4.通过步骤三的坐标***整合节点与边的信息作为初始数学图,构建图。
图的构建将通过每个节点的坐标作为一个节点list数据结构。同时通过步骤2补全过的化合物键信息(-,=,#,:等元素)进行左右节点的匹配创建数学图的边。
5.通过其他标记的元素分别给节点或者边进行特殊标记作为数学图里的属性。在实例中,特殊标记包括但不限于:手性原子标记(@,@@,/,\)、原子号(通过规则查询)、单双三键(见步骤4的信息)、芳香性(通过规则识别)、是否在化合物环内(通过正则表达式进行数字识别)等属性。
6.(可选)补全氢原子信息。在实例中可选择给数学图加氢原子。补全方法基于原子属性的规则完成,并且补全相关属性信息。
7.输出化学结构图,为图三的最终展示。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
参见图2所示,示出了S3步骤的工作流程。S3步骤包括:
S3-1获得原始药物数据集;
S3-2数据预处理(SMILES清洗);
S3-3机器学习、深度学习的工作流程;
S3-4:人工智能模型。
以下对S3步骤进行示例性说明:
示例一:
1.输入SMILES序列数据集
2.分别将每个序列进行图1所示的S1流程。根据参数决定是否标准化部分可选的步骤。
3.通过机器资源调配安排并行计算,提高计算效率。
4.输出清洗SMILES的数据集,并存储用于其他用途。存储方法为SQL类数据库或者csv、excel等表格格式。
示例二:
1.输入SMILES序列数据集
2.分别将每个序列进行图1所示的S1流程。
3.通过机器资源调配安排并行计算,提高计算效率。
4.输出清洗SMILES的数据集
5.分别将每个清洗过的SMILES序列进行图1所示的S2流程。
6.通过机器资源调配安排并行计算,提高计算效率。
7.输出所有化合物图数据变量。整个数据集为python list格式呈现,每个数学图有图3所示的节点list变量与边list变量。
8.如图2所示的最后2个步骤,保存数据用于机器学习、深度学习训练,保存方式为python pickle格式。
以图3为例,在一些实例中的整个流程为:
1.输入原始从某一个来源的SMILES格式数据
2.进行图1所示的S1流程;
3.进行图1所示的S2流程,输出可用于建模的数学图数据变量。
具体的,最终展示结果为Python list格式,为下游深度学习训练可保存为Python pickle格式。
综上所述,相较于原始的SMILES序列文本,本方法实现全局数据集清洗、去重、以及标准化。对有冲突的及原始数据不同的样本统一标准化进行下游分析。
相较于传统的ETL数据处理方法,本方法实现了从原始数据转换成能够用于训练的数据的方法,标准化了整个从原始数据到训练数据集到数据模型训练的工作流程。
本发明的第二方面提供一种清洗小分子化合物的数据预处理***,适用于本发明所述的数据预处理方法,其包括:
S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始 SMILES文本中加减氢原子,实现去电荷;
S1-5单元设置为:去除特殊SMILES文本信息;
S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化 SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化单元中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6单元:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第三方面提供一种电子设备,其包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如本发明任意一项所述的清洗小分子化合物的数据预处理方法。
基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (11)

1.一种清洗小分子化合物的数据预处理方法,其特征在于,所述数据预处理方法包括:
S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将小分子化合物的原始SMILES文本,预处理为小分子化合物的标准化SMILES文本;
S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
2.如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
3.如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5步骤:去除特殊SMILES文本信息;
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
4.如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
5.如权利要求4所述的清洗小分子化合物的数据预处理方法,其特征在于,还包括:
S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
6.一种清洗小分子化合物的数据预处理***,适用于如权利要求1-5任意一项所述的数据预处理方法,其特征在于,包括:
S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
7.如权利要求6所述的清洗小分子化合物的数据预处理***,其特征在于,
还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
8.如权利要求6所述的清洗小分子化合物的数据预处理***,其特征在于,
所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5单元设置为:去除特殊SMILES文本信息;
S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
9.如权利要求6所述的清洗小分子化合物的数据预处理***,其特征在于,
所述S2化学图格式化单元中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标***,构建所述小分子化合物的化学信息图的数字化坐标***;
S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标***,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
10.如权利要求9所述的清洗小分子化合物的数据预处理***,其特征在于,还包括:
S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
11.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-5中任意一项所述的清洗小分子化合物的数据预处理方法。
CN202210844053.6A 2022-07-18 2022-07-18 一种清洗小分子化合物的数据预处理***及其方法 Pending CN115171814A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210844053.6A CN115171814A (zh) 2022-07-18 2022-07-18 一种清洗小分子化合物的数据预处理***及其方法
PCT/CN2022/109387 WO2024016376A1 (zh) 2022-07-18 2022-08-01 一种清洗小分子化合物的数据预处理***及其方法
US18/315,516 US20240021276A1 (en) 2022-07-18 2023-05-11 Data preprocessing system for cleaning small molecule compound and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844053.6A CN115171814A (zh) 2022-07-18 2022-07-18 一种清洗小分子化合物的数据预处理***及其方法

Publications (1)

Publication Number Publication Date
CN115171814A true CN115171814A (zh) 2022-10-11

Family

ID=83495947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844053.6A Pending CN115171814A (zh) 2022-07-18 2022-07-18 一种清洗小分子化合物的数据预处理***及其方法

Country Status (3)

Country Link
US (1) US20240021276A1 (zh)
CN (1) CN115171814A (zh)
WO (1) WO2024016376A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11456061B2 (en) * 2016-01-22 2022-09-27 Council Of Scientific & Industrial Research Method for harvesting 3D chemical structures from file formats
CN110767271B (zh) * 2019-10-15 2021-01-08 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN111755078B (zh) * 2020-07-30 2022-09-23 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和***
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法

Also Published As

Publication number Publication date
US20240021276A1 (en) 2024-01-18
WO2024016376A1 (zh) 2024-01-25

Similar Documents

Publication Publication Date Title
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
CN107545025B (zh) 利用形态学标准查询数据库
CN108021683B (zh) 一种基于三维标注的相似模型检索实现方法
CN103186541A (zh) 一种映射关系生成方法及装置
Zhang et al. Generic face adjacency graph for automatic common design structure discovery in assembly models
CN104239580B (zh) 基于值‑列映射的通用单字段拆分数据抽取方法和装置
CN111400354B (zh) 基于mes***的机床制造bom存储查询及树形结构构建方法
CN112231417A (zh) 数据分类方法、装置、电子设备及存储介质
CN110196849A (zh) 基于大数据治理技术实现用户画像构建处理的***及其方法
CN115171814A (zh) 一种清洗小分子化合物的数据预处理***及其方法
Li et al. Research and application of computer aided design system for product innovation
CN117196028A (zh) 基于知识图谱的医学知识图谱生产方法和***
CN104361028A (zh) 一种根据书籍目录提取书籍知识点的方法及***
CN107085603A (zh) 一种数据处理方法及装置
Wang et al. Feature ordering for neural incremental attribute learning based on Fisher's linear discriminant
WO2004038582A1 (ja) データ処理方法およびデータ処理プログラム
CN114880690A (zh) 一种基于边缘计算的源数据时序精化方法
CN113688250A (zh) 一种基于词性和语序分析的法律知识图谱自动构建方法
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质
Lin et al. Circular pattern discovery
CN109815297A (zh) 一种不依赖关系数据库的树状结构存取运算***
CN113704574B (zh) 地址标准化的方法及装置
CN111862328B (zh) 一种基于小样本的三维网格分割结果标签化的方法
CN113448933B (zh) 业务数据处理方法、装置、电子设备及介质
CN112966013B (zh) 知识展示方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230316

Address after: Building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Huiyi Technology (Shanghai) Co.,Ltd.

Address before: 201316 building C, No. 888, Huanhu West Second Road, Lingang New Area, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant before: Huiyi Technology (Shanghai) Co.,Ltd.

Applicant before: Hong Kong Yuanyi Wisdom Co.,Ltd.

Applicant before: U.S. One Smart Technology Co.,Ltd.