CN115908775A - 化学结构式的识别方法、装置、存储介质及电子设备 - Google Patents

化学结构式的识别方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115908775A
CN115908775A CN202110935708.6A CN202110935708A CN115908775A CN 115908775 A CN115908775 A CN 115908775A CN 202110935708 A CN202110935708 A CN 202110935708A CN 115908775 A CN115908775 A CN 115908775A
Authority
CN
China
Prior art keywords
chemical
chemical structure
image
text
conversion model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110935708.6A
Other languages
English (en)
Inventor
郑明月
蒋华良
钟飞盛
熊嘉诚
刘小红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Almai Biotechnology Co ltd
Shanghai Institute of Materia Medica of CAS
Original Assignee
Suzhou Almai Biotechnology Co ltd
Shanghai Institute of Materia Medica of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Almai Biotechnology Co ltd, Shanghai Institute of Materia Medica of CAS filed Critical Suzhou Almai Biotechnology Co ltd
Priority to CN202110935708.6A priority Critical patent/CN115908775A/zh
Priority to PCT/CN2022/107752 priority patent/WO2023020210A1/zh
Publication of CN115908775A publication Critical patent/CN115908775A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了化学结构式的识别方法、装置、存储介质及电子设备,识别方法包括:获取化学结构图像,化学结构图像中包含至少一个完整的化学结构式;利用预先训练好的转换模型将化学结构图像转换为其对应的化学文本,转换模型对化学结构图中完整的化学结构式进行单次转换。相较于将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。

Description

化学结构式的识别方法、装置、存储介质及电子设备
技术领域
本公开涉及化学信息学技术领域,特别涉及化学结构式的识别方法、装置、存储介质及电子设备。
背景技术
在期刊和专利等出版物中,有机化合物通常以化学结构式的形式来表示。但这些化学结构图像并不是计算机能够识别的化学语言。因此,自动从此类图像文件中识别出计算机可读的化学结构对应的化学文本(包括但不限于Inchi,Smiles,IUPAC),可以使化学家快速地获取有参考价值的“化学数据”。
现有技术中通过InDraw,KingDraw等方法进行识别读取,具体地,将图像矢量化之后将线条和节点解释为键和原子,涉及图像分割、图像细化、线条增强、光学字符识别以及重建分子,也即其需要将完整的化学结构式进行分割,将每个线条分别进行转换得到每个线条对应的小分子,之后,将小分子按照预设规则和语法进行组合以得到化学结构式对应的化学文本。但这些方法需要提取转化规则和总结语法,开发周期长、开发成本高、维护困难;并且,现有方法在处理模糊和噪声较大的图像时,识别结果的准确率较低。
发明内容
有鉴于此,本公开实施例的目的在于提供一种化学结构式的识别方法、装置、存储介质及电子设备,用于解决现有技术中需要提取转化规则和总结语法,开发周期长、开发成本高、维护困难,以及在处理模糊和噪声较大的图像时,识别结果的准确率较低等问题。
第一方面,本公开实施例提供了一种化学结构式的识别方法,其中,包括:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
在一种可能的实施方式中,在利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本之前,还包括:
识别每个完整的化学结构式在所述化学结构图像中所占的区域;
按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
在一种可能的实施方式中,所述利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,包括:
将所述化学结构子图像作为所述转换模型的输入,以使所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本。
在一种可能的实施方式中,所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本,包括:
所述转换模型对所述化学结构子图像进行计算,得到多个候选文本以及每个候选文本对应的概率值;
选取所述概率值最大的所述候选文本作为所述化学结构子图像对应的化学文本。
在一种可能的实施方式中,训练所述转换模型的步骤包括:
获取训练集,所述训练集包括第一图像样本和其对应的第一文本样本;
将所述第一图像样本转化为第一输入向量,并将所述第一输入向量输入至待训练的转换模型中,得到第一实际文本;
计算所述第一实际文本与所述第一文本样本之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的转换模型的参数,直至所述第一误差落入所述允许范围内。
在一种可能的实施方式中,识别方法还包括:
所述待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的转换模型中,得到第二实际文本;
计算每个所述第二实际文本与所述验证集包括的第二文本样本之间的第二误差;
将最小的第二误差对应的调整参数后的转换模型作为转换模型。
第二方面,本公开实施例还提供了一种化学结构式的识别装置,其包括:
获取模块,其配置为获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
转换模块,其配置为利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
在一种可能的实施方式中,识别装置还包括裁剪模块,其配置为:
识别每个完整的化学结构式在所述化学结构图像中所占的区域;
按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
第三方面,本公开实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
第四方面,本公开实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
相较于现有技术中将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开实施例通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开所提供的化学结构式的识别方法的流程图;
图2示出了本公开所提供的识别方法中一种训练转换模型的流程图;
图3示出了本公开所提供的识别方法中另一种训练转换模型的流程图;
图4示出了本公开所提供的化学结构式的识别装置的结构示意图;
图5示出了本公开所提供的电子设备的结构示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所申请的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
第一方面,为便于对本公开进行理解,首先对本公开所提供的一种化学结构式的识别方法进行详细介绍。如图1所示,为本公开实施例提供的化学结构式的识别方法具体包括以下步骤:
S101,获取化学结构图像,其中,化学结构图像中包含至少一个完整的化学结构式。
这里,在期刊和专利等出版物中,有机化合物通常以化学结构式的形式来表示。进而,用户在查阅期刊、专利等出版物时,期刊、专利等文件中的任意一页便可以作为化学结构图像。
其中,化学结构图像可以是JPG格式、PNG格式等。
S102,利用预先训练好的转换模型将化学结构图像转换为其对应的化学文本,其中,转换模型对化学结构图中完整的化学结构式进行单次转换。
在具体实施中,存在一个化学结构图像中包含多个完整的化学结构式的情况,因此,在利用预先训练好的转换模型将化学结构图像转换为其对应的化学文本之前,先识别每个完整的化学结构式在化学结构图像中所占的区域,之后,按照化学结构式所占的区域裁剪化学结构图像,得到多个化学结构子图像,每个化学结构子图像中仅包含一个完整的化学结构式,也即每次针对一个完整的化学结构式进行转换。
这里,本公开实施例无需完整的化学结构式进行分割,将每个线条分别进行转换得到每个线条对应的小分子,之后将小分子按照预设规则和语法进行组合以得到化学结构式对应的化学文本,而是利用图形处理器(Graphics Processing Unit,GPU)辅助转换模型,在提高对化学结构子图像的识别、处理速度的基础上,对化学结构子图像进行一次性转换,便能够得到化学文本,相较于对化学结构子图像进行分割、多次转换、重新组合,开发周期、开发成本均较低,运算规则简单,运算效率较高,还提高了识别结果准确率。
其中,化学结构子图像可以是预设形状、还可以是预设尺寸等,本公开实施例对此不做具体限定。
在具体实施过程中,将化学结构子图像作为转换模型的输入,按照预设转换算法将化学结构子图像转换为特征向量,以使转换模型对化学结构子图像对应的特征向量进行计算,其中,预设转换算法可以为化学结构子图像与特征向量之间的映射关系等。之后,转换模型输出化学结构子图像对应的化学文本,进而完成化学结构式向化学文本的转换。
可选地,转换模型在对化学结构子图像进行转换时,对化学结构子图像对应的特征向量进行计算之后,得到多个候选文本以及每个候选文本对应的概率值;其中,每个候选文本均为化学结构子图像中的化学结构式可能对应的文本。进一步地,选取概率值最大的候选文本作为化学结构子图像对应的化学文本。
本公开实施例还提供了训练转换模型的方法,具体参照图2示出的步骤,其包括S201-S204。
S201,获取训练集,训练集包括第一图像样本和其对应的第一文本样本。
S202,将第一图像样本转化为第一输入向量,并将第一输入向量输入至待训练的转换模型中,得到第一实际文本。
S203,计算第一实际文本与第一文本样本之间的第一误差是否在允许范围内。
S204,若误差不在允许范围内,调整待训练的转换模型的参数,直至误差落入允许范围内。
在具体实施中,先获取训练集,训练集包括第一图像样本和其对应的第一文本样本,该第一文本样本为人工转换得到的,或者由预设算法进行自动转换之后人工进行校验之后得到的。
之后,按照预设转换算法将第一图像样本转化为第一输入向量,其中,可以基于预先建立的字典将第一图像样本转化为第一输入向量,其中,该字典中包括图像样本与输入向量之间的映射关系以及候选文本与输出向量之间的映射关系。之后,将第一输入向量输入至待训练的转换模型中,经待训练的转换模型对第一输入向量进行计算,得到第一实际文本,当然,待训练的转换模型也会计算得到多个候选文本,而第一实际文本为待训练的转换模型计算得到的概率值最大的候选文本。其中,待训练的转换模型对第一输入向量进行计算得到的为第一输出向量,基于字典将第一输出向量转化为候选文本。
本公开实施例中的待训练的转换模型包括但不限于随机森林、支持向量机、神经网络等,可选地,待训练的转换模型用特征提取器-翻译器架构,特征提取器和翻译器均由神经网络组成。当然,本领域技术人员应知晓的是,上述为本公开的一个实施例,并不限定于此。
在得到第一实际文本之后,计算第一实际文本与第一文本样本之间的第一误差,并确定该第一误差是否在允许范围内。若误差不在允许范围内,调整待训练的转换模型的参数,利用调整参数之后的转换模型进行下一轮将训练,直至第一误差落入允许范围内,完成转换模型的训练。
在具体实施中,模型中的处理层数量不同或处理层的顺序不同均可能导致计算得到的结果不同,因此,可以预先建立多个待训练的转换模型,在对每个待训练的转换模型完成训练之后,利用验证集确定最终的转换模型,具体参照图3示出的方法流程图,步骤包括S301-S303。
S301,待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的转换模型中,得到第二实际文本。
S302,计算每个第二实际文本与验证集包括的第二文本样本之间的第二误差。
S303,将最小的第二误差对应的调整参数后的转换模型作为转换模型。
这里,在待训练的转换模型为多个的情况下,利用验证集包括的第二图像样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的转换模型中,得到第二实际文本,其中,将第二图像样本转化为第二输入向量的方式与将第一图像样本转化为第一输入向量的方式相同,在此,便不做过多赘述。
在得到每个调整参数后的转换模型对应的第二实际文本之后,计算该第二实际文本与验证集包括的第二文本样本之间的第二误差,也即该调整参数后的转换模型产生的误差。
之后,从多个第二误差中选取最小的第二误差,将最小的第二误差对应的调整参数后的转换模型作为转换模型。
进一步地,还可以利用测试集对最终确定的转换模型进行测试,以进一步验证转换模型的准确性。另外,还可以周期性的对转换模型进行更新训练,以确保转换模型的准确性。
相较于现有技术中将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开实施例通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。
基于同一发明构思,本公开的第二方面还提供了一种化学结构式的识别装置,由于本公开中的装置解决问题的原理与本公开上述化学结构式的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,化学结构式的识别装置包括:
获取模块401,其配置为获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
转换模块402,其配置为利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
在另一实施例中,化学结构式的识别装置还包括裁剪模块403,其配置为:
识别每个完整的化学结构式在所述化学结构图像中所占的区域;
按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
在另一实施例中,转换模块402具体配置为:
将所述化学结构子图像作为所述转换模型的输入,以使所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本。
在另一实施例中,转换模块402中转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本时,具体包括:
所述转换模型对所述化学结构子图像进行计算,得到多个候选文本以及每个候选文本对应的概率值;
选取所述概率值最大的所述候选文本作为所述化学结构子图像对应的化学文本。
在另一实施例中,化学结构式的识别装置还包括第一训练模块404,其配置为:
获取训练集,所述训练集包括第一图像样本和其对应的第一文本样本;
将所述第一图像样本转化为第一输入向量,并将所述第一输入向量输入至待训练的转换模型中,得到第一实际文本;
计算所述第一实际文本与所述第一文本样本之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的转换模型的参数,直至所述第一误差落入所述允许范围内。
在另一实施例中,化学结构式的识别装置还包括第二训练模块405,其配置为:
所述待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的转换模型中,得到第二实际文本;
计算每个所述第二实际文本与所述验证集包括的第二文本样本之间的第二误差;
将最小的第二误差对应的调整参数后的转换模型作为转换模型。
相较于现有技术中将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开实施例通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。
本公开的第三方面还提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤:
S11,获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
S12,利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
计算机程序被处理器执行利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本之前,还具体被处理器执行如下步骤:识别每个完整的化学结构式在所述化学结构图像中所占的区域;按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
计算机程序被处理器执行利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本时,具体被处理器执行如下步骤:将所述化学结构子图像作为所述转换模型的输入,以使所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本。
计算机程序被处理器执行转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本时,还被处理器执行如下步骤:所述转换模型对所述化学结构子图像进行计算,得到多个候选文本以及每个候选文本对应的概率值;选取所述概率值最大的所述候选文本作为所述化学结构子图像对应的化学文本。
计算机程序被处理器执行识别方法时,还被处理器执行如下步骤:获取训练集,所述训练集包括第一图像样本和其对应的第一文本样本;将所述第一图像样本转化为第一输入向量,并将所述第一输入向量输入至待训练的转换模型中,得到第一实际文本;计算所述第一实际文本与所述第一文本样本之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的转换模型的参数,直至所述第一误差落入所述允许范围内。
计算机程序被处理器执行识别方法时,还被处理器执行如下步骤:所述待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的转换模型中,得到第二实际文本;计算每个所述第二实际文本与所述验证集包括的第二文本样本之间的第二误差;将最小的第二误差对应的调整参数后的转换模型作为转换模型。
相较于现有技术中将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开实施例通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本公开的第四方面还提供了一种电子设备,如图5所示,该电子设备至少包括存储器501和处理器502,存储器501上存储有计算机程序,处理器502在执行存储器501上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序执行的方法如下:
S21,获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
S22,利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
处理器在执行存储器上存储的利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本之前,还执行如下计算机程序:识别每个完整的化学结构式在所述化学结构图像中所占的区域;按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
处理器在执行存储器上存储的利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本时,还执行如下计算机程序:将所述化学结构子图像作为所述转换模型的输入,以使所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本。
处理器在执行存储器上存储的转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本时,还执行如下计算机程序:所述转换模型对所述化学结构子图像进行计算,得到多个候选文本以及每个候选文本对应的概率值;选取所述概率值最大的所述候选文本作为所述化学结构子图像对应的化学文本。
处理器在执行存储器上存储的识别方法时,还执行如下计算机程序:获取训练集,所述训练集包括第一图像样本和其对应的第一文本样本;将所述第一图像样本转化为第一输入向量,并将所述第一输入向量输入至待训练的转换模型中,得到第一实际文本;计算所述第一实际文本与所述第一文本样本之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的转换模型的参数,直至所述第一误差落入所述允许范围内。
处理器在执行存储器上存储的识别方法时,还执行如下计算机程序:所述待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的转换模型中,得到第二实际文本;计算每个所述第二实际文本与所述验证集包括的第二文本样本之间的第二误差;将最小的第二误差对应的调整参数后的转换模型作为转换模型。
相较于现有技术中将化学结构图像进行图像矢量化之后以对得到的线条和节点分别进行转换,进而组合形成化学文本,本公开实施例通过预先训练好的转换模型将期刊、专利等出版物中的化学结构图像中的每个完整的化学结构式进行单次转换,进而一次性得到完整的化学结构式对应的完整的化学文本,开发周期较短,开发成本较低,易于维护,在处理模糊和噪声较大的图像时,能够确保识别结果准确率较高。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本邻域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

Claims (10)

1.一种化学结构式的识别方法,其特征在于,包括:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
2.根据权利要求1所述的识别方法,其特征在于,在利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本之前,还包括:
识别每个完整的化学结构式在所述化学结构图像中所占的区域;
按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
3.根据权利要求2所述的识别方法,其特征在于,所述利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,包括:
将所述化学结构子图像作为所述转换模型的输入,以使所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本。
4.根据权利要求3所述的识别方法,其特征在于,所述转换模型对所述化学结构子图像进行计算,输出所述化学结构子图像对应的化学文本,包括:
所述转换模型对所述化学结构子图像进行计算,得到多个候选文本以及每个候选文本对应的概率值;
选取所述概率值最大的所述候选文本作为所述化学结构子图像对应的化学文本。
5.根据权利要求1所述的识别方法,其特征在于,训练所述转换模型的步骤包括:
获取训练集,所述训练集包括第一图像样本和其对应的第一文本样本;
将所述第一图像样本转化为第一输入向量,并将所述第一输入向量输入至待训练的转换模型中,得到第一实际文本;
计算所述第一实际文本与所述第一文本样本之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的转换模型的参数,直至所述第一误差落入所述允许范围内。
6.根据权利要求5所述的识别方法,其特征在于,还包括:
所述待训练的转换模型为多个的情况下,将验证集包括的第二图像样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的转换模型中,得到第二实际文本;
计算每个所述第二实际文本与所述验证集包括的第二文本样本之间的第二误差;
将最小的第二误差对应的调整参数后的转换模型作为转换模型。
7.一种化学结构式的识别装置,其特征在于,包括:
获取模块,其配置为获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
转换模块,其配置为利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
8.根据权利要求7所述的识别装置,其特征在于,还包括裁剪模块,其配置为:
识别每个完整的化学结构式在所述化学结构图像中所占的区域;
按照所述化学结构式所占的区域裁剪所述化学结构图像,得到多个化学结构子图像。
9.一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取化学结构图像,其中,所述化学结构图像中包含至少一个完整的化学结构式;
利用预先训练好的转换模型将所述化学结构图像转换为其对应的化学文本,其中,所述转换模型对所述化学结构图中完整的化学结构式进行单次转换。
CN202110935708.6A 2021-08-16 2021-08-16 化学结构式的识别方法、装置、存储介质及电子设备 Pending CN115908775A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110935708.6A CN115908775A (zh) 2021-08-16 2021-08-16 化学结构式的识别方法、装置、存储介质及电子设备
PCT/CN2022/107752 WO2023020210A1 (zh) 2021-08-16 2022-07-26 化学结构式的识别方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110935708.6A CN115908775A (zh) 2021-08-16 2021-08-16 化学结构式的识别方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115908775A true CN115908775A (zh) 2023-04-04

Family

ID=85239461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110935708.6A Pending CN115908775A (zh) 2021-08-16 2021-08-16 化学结构式的识别方法、装置、存储介质及电子设备

Country Status (2)

Country Link
CN (1) CN115908775A (zh)
WO (1) WO2023020210A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721713A (zh) * 2023-08-09 2023-09-08 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436447A (zh) * 2010-09-29 2012-05-02 国际商业机器公司 化学物质的信息的处理和匹配方法、***及存储***
CN108062529B (zh) * 2017-12-22 2024-01-12 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
CN108334839B (zh) * 2018-01-31 2021-09-14 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN114868192A (zh) * 2019-12-26 2022-08-05 富士胶片株式会社 信息处理装置、信息处理方法及程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721713A (zh) * 2023-08-09 2023-09-08 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置
CN116721713B (zh) * 2023-08-09 2023-10-31 北京望石智慧科技有限公司 一种面向化学结构式识别的数据集构建方法和装置

Also Published As

Publication number Publication date
WO2023020210A1 (zh) 2023-02-23

Similar Documents

Publication Publication Date Title
US11948066B2 (en) Processing sequences using convolutional neural networks
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、***、设备及介质
CN109844773B (zh) 使用卷积神经网络处理序列
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107731228B (zh) 英文语音信息的文本转换方法和装置
CN112800785B (zh) 多模态机器翻译方法、装置、电子设备和存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110704597B (zh) 对话***可靠性校验方法、模型生成方法及装置
EP3732629A1 (en) Training sequence generation neural networks using quality scores
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN116628490A (zh) 图文音多模态预训练模型方法、装置、电子设备和介质
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN116881470A (zh) 一种生成问答对的方法及装置
CN111241843B (zh) 基于复合神经网络的语义关系推断***和方法
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
CN112069805A (zh) 结合rpa与ai的文本标注方法、装置、设备及存储介质
CN116306777A (zh) 模型精度损失定位方法、装置和电子设备
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN116821327A (zh) 文本数据处理方法、装置、设备、可读存储介质及产品
CN111160487A (zh) 人脸图像数据集的扩充方法和装置
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备
CN118155270B (zh) 模型训练方法、人脸识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination