CN108334839B - 一种基于深度学习图像识别技术的化学信息识别方法 - Google Patents

一种基于深度学习图像识别技术的化学信息识别方法 Download PDF

Info

Publication number
CN108334839B
CN108334839B CN201810098220.0A CN201810098220A CN108334839B CN 108334839 B CN108334839 B CN 108334839B CN 201810098220 A CN201810098220 A CN 201810098220A CN 108334839 B CN108334839 B CN 108334839B
Authority
CN
China
Prior art keywords
atoms
chemical
deep learning
identified
chemical bond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810098220.0A
Other languages
English (en)
Other versions
CN108334839A (zh
Inventor
井建军
魏凯
郑成伟
黄麒展
张帅
刘威
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Qingyuan Precision Agriculture Technology Co ltd
Original Assignee
Qingdao Qingyuan Precision Agriculture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Qingyuan Precision Agriculture Technology Co ltd filed Critical Qingdao Qingyuan Precision Agriculture Technology Co ltd
Priority to CN201810098220.0A priority Critical patent/CN108334839B/zh
Publication of CN108334839A publication Critical patent/CN108334839A/zh
Priority to PCT/CN2018/105414 priority patent/WO2019148852A1/zh
Application granted granted Critical
Publication of CN108334839B publication Critical patent/CN108334839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于图像识别技术领域,具体涉及一种基于深度学习图像识别技术的化学信息识别方法。所述方法包括以下步骤:(1)对输入的图像使用节点目标识别器进行识别;(2)对步骤(1)中识别的节点使用手写字体目标识别器进行文本内容的识别,进而确定节点对应的具体原子;(3)将上述多个识别出的原子两两结合,再次使用化学键目标识别器对两原子间的化学键进行识别;(4)在数据库中查找上述识别出的原子的属性,计算结构式的相关属性,输出;或者,将上述识别出的原子及原子间的化学键存储为自定义king格式的文件或绘制在新的图片中,输出。本发明可解决手绘及图片上的化学结构式或反应式识别问题,可广泛应用于化学工作者的日常工作中。

Description

一种基于深度学习图像识别技术的化学信息识别方法
技术领域
本发明属于图像识别技术领域,具体涉及一种基于深度学习图像识别技术的化学信息识别方法。
背景技术
目前,深度学习在图像识别方面已广泛应用,其主要应用场景为人脸识别、车牌识别、常用物体识别及植物识别。但是深度学习图像识别技术在化学结构式或反应式图像识别方面并没有应用。
发明内容
为解决手绘及图片上的化学结构式或反应式识别问题,本发明的目的是将用户在工具或纸上绘制的化学结构式或反应式拍照上传后得到相应结构式或反应式的组成及结构式的相关属性。
为实现上述目的,本发明提供一种基于深度学习图像识别技术的化学信息识别方法,其包括以下步骤:
(1)对输入的图像使用基于深度学习图像识别技术的节点目标识别器进行节点的识别;
(2)对步骤(1)中识别的节点使用基于深度学习图像识别技术的手写字体目标识别器进行文本内容的识别,进而确定节点对应的具体原子;
(3)将上述多个识别出的原子两两结合,再次使用基于深度学习图像识别技术的化学键目标识别器对两原子间的化学键进行识别;
(4)在数据库中查找上述识别出的原子的属性,包括相对原子质量、同位素质量及丰度、常用化学价等信息,计算结构式的相关属性,输出;
或者,将上述识别出的原子及原子间的化学键存储为自定义king格式的文件,输出;
或者,将上述识别出的原子及原子间的化学键绘制在新的图片中,输出。
另外,还包括以下步骤:
(5)对输入的图像使用基于深度学习图像识别技术的箭头目标识别器进行箭头的识别;
然后将上述识别出的箭头与步骤(2)(3)识别出的原子及原子间的化学键存储为自定义king格式的文件,输出;
或者,将上述识别出的箭头与步骤(2)(3)识别出的原子及原子间的化学键绘制在新的图片中,输出。
其中,步骤(1)(3)(5)中所述的基于深度学习图像识别技术的目标识别器是预先使用基于深度学习图像识别技术,Ross Girshick团队提出的faster-rcnn算法进行离线训练得到的,用于识别图像中的箭头、原子及其空间坐标以及化学键。
其中,步骤(2)中所述的基于深度学习图像识别技术的手写字体目标识别器是预先使用基于深度学习图像识别技术,Caffe的LeNet模型进行离线训练得到的,用于识别图像中的文本内容。
优选地,对所述的目标识别器进行离线训练的步骤包括采用图像集来离线训练所述目标识别器。
训练所述目标识别器使用的图像集包括:(a)手写字体图片;(b)多种及多类型化学键连接的节点;(c)单键、双键、三键等常用化学键;(d)化学中常用箭头图片。
更优选地,使用所述图像集(a)在LeNet模型中训练一个手写字体识别器,用于确定节点是元素周期表中的元素还是纯文本或者是不用显示的“碳”元素。
使用所述图像集(b)在faster-rcnn算法中训练一个节点目标识别器,用于确定图像中所有节点及其空间坐标。
使用所述图像集(c)在faster-rcnn算法中训练一个化学键目标识别器,用于确定原子间的化学键类型及原子间是否存在化学键。
使用所述图像集(d)在faster-rcnn算法中训练一个箭头目标识别器,用于确定输入图像中是否存在箭头及其空间位置坐标。
其中,步骤(3)具体包括以下步骤:
步骤(31),对于识别出的所有原子,两两组合,使用所述化学键目标识别器,识别其中是否含有化学键,并在含有化学键时识别出化学键的类型;
步骤(32),根据上述识别出是否含有化学键及化学键的类型,对两原子添加关联,关联类型为识别出的化学键类型。
其中,在步骤(4)中所述的计算结构式的相关属性包括:
步骤(41),根据原子及原子间的化学键,保证原子最外层8电子稳定结构,自动补氢,统计原子的类型及原子的个数,生成化学结构式的分子式;
步骤(42),根据原子及原子间的化学键转通用的smiles名称,按照公开的smiles协议格式将结构式转smiles名称;
步骤(43),通过对应的smiles在数据库中查找化学结构式对应的英文名称;
步骤(44),计算分子式的精准分子质量、相对分子质量、质荷比对应丰度。
步骤(44)中计算分子式的精准分子质量,由分子式中所有原子同位素丰度最大的原子质量加和求得;计算相对分子质量,由分子式中所有原子相对原子质量加和求得;计算质荷比对应丰度,由方程式(a+b)n展开式系数计算,a、b代表相同原子的同位素,n代表分子中此原子的个数。
其中,步骤(4)所述自定义king是使用UTF8格式编码的文本文件,各在线结构式编辑器可自行解析文件内容,可在编辑器中再次编辑。
本发明相对于现有技术的有益效果在于:本发明对手绘化学结构式或反应式及图片中的化学结构式或反应式,通过识别节点、识别原子、识别化学键、识别箭头处理后,可通过识别的内容得到计算机认识的化学结构式或反应式,并通过一些计算可得到结构式的相关属性,可广泛应用于化学工作者的日常工作中,例如结构式编辑器、word文档等,节省了画图时间,提高了工作效率。
附图说明
图1为本发明所述方法的流程示意图;
图2为本发明所述自定义king格式示意图。
具体实施方式
以下结合具体实施例和附图对本发明做进一步解释。
实施例1
如图1所示,一种基于深度学习图像识别技术的化学信息识别方法,其包括以下步骤:
步骤1,对输入的图像使用基于深度学习图像识别技术的箭头目标识别器进行箭头的识别;
步骤2,对输入的图像使用基于深度学习图像识别技术的节点目标识别器进行节点的识别;
步骤3,对步骤2中识别的节点使用基于深度学习图像识别技术的手写字体目标识别器进行文本内容的识别,进而确定节点对应的具体原子;
步骤4,将上述多个识别出的原子两两结合,再次使用基于深度学习图像识别技术的化学键目标识别器对两原子间的化学键进行识别;
步骤5,在数据库中查找上述识别出的原子的属性,包括相对原子质量、同位素质量及丰度、常用化学价等信息,计算结构式的相关属性,输出;
或者,步骤6,将上述识别出的箭头、原子及原子间的化学键存储为自定义king格式的文件,输出;
或者,步骤7,将上述识别出的箭头、原子及原子间的化学键绘制在新的图片中,输出。
其中,步骤1、步骤2及步骤4中所述的基于深度学习图像识别技术的目标识别器是预先使用基于深度学习图像识别技术,Ross Girshick团队提出的faster-rcnn算法进行离线训练得到的,用于识别图像中的原子及其空间坐标以及识别图像中的化学键,步骤3中所述的基于深度学习图像识别技术的手写字体识别器是预先使用基于深度学习图像识别技术,Caffe的LeNet模型进行离线训练得到的,用于识别图像中的文本内容,对所述的目标识别器进行离线训练的步骤包括采用图像集来离线训练所述目标识别器,所述图像集包括:(a)手写字体图片:在Caffe的LeNet模型中训练一个手写字体识别器,用于确定节点是元素周期表中的元素还是纯文本或者是不用显示的“碳”元素;(b)多种及多类型化学键连接的节点:在RossGirshick团队提出的faster-rcnn算法中训练一个节点目标识别器,用于确定图像中所有节点及其空间坐标;(c)单键、双键、三键等常用化学键:在Ross Girshick团队提出的faster-rcnn算法中训练一个化学键目标识别器,用于确定原子间的化学键类型及原子间是否存在化学键;(d)化学中常用箭头图片:在Ross Girshick团队提出的faster-rcnn算法中训练一个箭头目标识别器,用于确定输入图像中是否存在箭头及其空间位置坐标。
步骤4具体包括以下步骤:
步骤41,对于识别出的所有原子,两两组合,使用所述化学键目标识别器,识别其中是否含有化学键,并在含有化学键时识别出化学键的类型;
步骤42,根据上述识别出是否含有化学键及化学键的类型,对两原子添加关联,关联类型为识别出的化学键类型。
在步骤5中所述的计算结构式的相关属性包括:
步骤51,根据原子及原子间的化学键,保证原子最外层8电子稳定结构,自动补氢,统计原子的类型及原子的个数,生成化学结构式的分子式;
步骤52,根据原子及原子间的化学键转通用的smiles名称,按照公开的smiles协议格式将结构式转smiles名称;
步骤53,通过对应的smiles在数据库中查找化学结构式对应的英文名称;
步骤54,计算分子式的精准分子质量、相对分子质量、质荷比对应丰度:计算分子式的精准分子质量,由分子式中所有原子同位素丰度最大的原子质量加和求得;计算相对分子质量,由分子式中所有原子相对原子质量加和求得;计算质荷比对应丰度,由方程式(a+b)n展开式系数计算,a、b代表相同原子的同位素,n代表分子中此原子的个数,例如:氯(Cl)元素,同位素有Cl35-34.96885、Cl37-36.9659,对应的丰度为75.78%、24.22%,分子式Cl2质荷比及对应丰度计算为,(Cl35+Cl37)2对应展开式为,(Cl35)2+2Cl35Cl37+(Cl37)2,则质荷比m/z有三种,分别是:Cl35+Cl35=34.96885+34.96885=69.9377、Cl35+Cl37=34.96885+36.9659=71.93475、Cl37+Cl37=36.9659+36.9659=73.9318;对应的丰度为:Cl35*Cl35=75.78%*75.78%=0.57426084、Cl35*Cl37*2=75.78%*24.22%*2=0.36707832、Cl37*Cl37=24.22%*24.22%=0.05866084,归一化后对应的丰度如表1所示:
表1分子式Cl2归一化后对应的丰度
m/z 丰度
69.9377 100%
71.93475 63.9%
73.9318 10.2%
步骤6所述自定义king是使用UTF8格式编码的文本文件,各在线结构式编辑器可自行解析文件内容,可在编辑器中再次编辑,如图2所示格式:
图2中AtomBlock存储原子,包含以下格式:
Begin Atom
Index Type x y HCount
End Atom
其中,识别出多个原子就在Begin Atom及End Atom间添加多组相同格式的文本。Index是序数,从1开始递增;Type是元素名称,例:“C”;x是原子在平面中的x坐标;y是原子在平面中的y坐标;HCount是该原子配价的氢数。
图2中BondBlock存储原子间的化学键,包含以下格式:
Begin Bond
Index Type Atom1index Atom2index
End Bond
其中,识别出多个化学键就在Begin Bond及End Bond间添加多组相同格式的文本。Index是序数,从1开始递增;Type是化学键类型;Atom1index是连接的其中一个原子在Atom Block中的序数;Atom2index是连接的另一个原子在Atom Block中的序数。
图2中Text Block存储纯文本信息,包含以下格式:
Begin Text
Index x y Text
End Text
其中,识别出多个纯文本就在Begin Text及End Text间添加多组相同格式的文本。Index是序数,从1开始递增;x是纯文本在平面中的x坐标;y是纯文本在平面中的y坐标;Text是纯文本的内容。
图2中Shape Block存储箭头信息包含以下格式:
Begin Shape
Index x1,y1;x2,y2
End Shape
其中,识别出多个箭头就在Begin Shape及End Shape间添加多组相同格式的文本。Index是序数,从1开始递增;x1是箭头在平面中的起点x坐标;y1是箭头在平面中的起点y坐标;x2是箭头在平面中的终点x坐标;y2是箭头在平面中的终点y坐标。
当然,上述内容仅为本发明的较佳实施例,不能被认为用于限定对本发明的实施例范围。本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的均等变化与改进等,均应归属于本发明的专利涵盖范围内。

Claims (10)

1.一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,包括以下步骤:
(1)对输入的图像使用基于深度学习图像识别技术的节点目标识别器进行节点的识别;
(2)对步骤(1)中识别的节点使用基于深度学习图像识别技术的手写字体目标识别器进行文本内容的识别,进而确定节点对应的具体原子;
(3)将上述多个识别出的原子两两结合,再次使用基于深度学习图像识别技术的化学键目标识别器对两原子间的化学键进行识别;
(4)在数据库中查找上述识别出的原子的属性,计算结构式的相关属性,输出;
或者,将上述识别出的原子及原子间的化学键存储为自定义king格式的文件,输出;
或者,将上述识别出的原子及原子间的化学键绘制在新的图片中,输出。
2.根据权利要求1所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,还包括以下步骤:
(5)对输入的图像使用基于深度学习图像识别技术的箭头目标识别器进行箭头的识别;
然后将上述识别出的箭头与步骤(2)(3)识别出的原子及原子间的化学键存储为自定义king格式的文件,输出;
或者,将上述识别出的箭头与步骤(2)(3)识别出的原子及原子间的化学键绘制在新的图片中,输出。
3.根据权利要求2所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,步骤(1)(2)(3)(5)中所述的基于深度学习图像识别技术的目标识别器是预先使用基于深度学习图像识别技术进行离线训练得到的。
4.根据权利要求3所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,对所述的目标识别器进行离线训练的步骤包括采用图像集来离线训练所述目标识别器。
5.根据权利要求4所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,训练所述目标识别器使用的图像集包括:(a)手写字体图片;(b)多种及多类型化学键连接的节点;(c)常用化学键;(d)化学中常用箭头图片。
6.根据权利要求5所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,使用所述图像集(a)在LeNet模型中训练一个手写字体识别器,用于确定节点是元素周期表中的元素还是纯文本或者是不用显示的“碳”元素;
使用所述图像集(b)在faster-rcnn算法中训练一个节点目标识别器,用于确定图像中所有节点及其空间坐标;
使用所述图像集(c)在faster-rcnn算法中训练一个化学键目标识别器,用于确定原子间的化学键类型及原子间是否存在化学键;
使用所述图像集(d)在faster-rcnn算法中训练一个箭头目标识别器,用于确定输入图像中是否存在箭头及其空间位置坐标。
7.根据权利要求1~6任意一项所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,步骤(3)具体包括以下步骤:
步骤(31),对于识别出的所有原子,两两组合,使用所述化学键目标识别器,识别其中是否含有化学键,并在含有化学键时识别出化学键的类型;
步骤(32),根据上述识别出是否含有化学键及化学键的类型,对两原子添加关联,关联类型为识别出的化学键类型。
8.根据权利要求1~6任意一项所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,在步骤(4)中所述的计算结构式的相关属性包括:
步骤(41),根据原子及原子间的化学键,保证原子最外层8电子稳定结构,自动补氢,统计原子的类型及原子的个数,生成化学结构式的分子式;
步骤(42),根据原子及原子间的化学键转通用的smiles名称,按照公开的smiles协议格式将结构式转smiles名称;
步骤(43),通过对应的smiles在数据库中查找化学结构式对应的英文名称;
步骤(44),计算分子式的精准分子质量、相对分子质量、质荷比对应丰度。
9.根据权利要求8所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,步骤(44)中计算分子式的精准分子质量,由分子式中所有原子同位素丰度最大的原子质量加和求得;计算相对分子质量,由分子式中所有原子相对原子质量加和求得;计算质荷比对应丰度,由方程式(a+b)n展开式系数计算,a、b代表相同原子的同位素,n代表分子中此原子的个数。
10.根据权利要求1~6任意一项所述的一种基于深度学习图像识别技术的化学信息识别方法,其特征在于,步骤(4)所述自定义king是使用UTF8格式编码的文本文件。
CN201810098220.0A 2018-01-31 2018-01-31 一种基于深度学习图像识别技术的化学信息识别方法 Active CN108334839B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810098220.0A CN108334839B (zh) 2018-01-31 2018-01-31 一种基于深度学习图像识别技术的化学信息识别方法
PCT/CN2018/105414 WO2019148852A1 (zh) 2018-01-31 2018-09-13 一种基于深度学习图像识别技术的化学信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810098220.0A CN108334839B (zh) 2018-01-31 2018-01-31 一种基于深度学习图像识别技术的化学信息识别方法

Publications (2)

Publication Number Publication Date
CN108334839A CN108334839A (zh) 2018-07-27
CN108334839B true CN108334839B (zh) 2021-09-14

Family

ID=62927657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810098220.0A Active CN108334839B (zh) 2018-01-31 2018-01-31 一种基于深度学习图像识别技术的化学信息识别方法

Country Status (2)

Country Link
CN (1) CN108334839B (zh)
WO (1) WO2019148852A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334839B (zh) * 2018-01-31 2021-09-14 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN110413740B (zh) * 2019-08-06 2022-10-14 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN114846508A (zh) 2019-12-16 2022-08-02 富士胶片株式会社 图像分析装置、图像分析方法及程序
EP3937106A1 (en) * 2020-07-08 2022-01-12 Tata Consultancy Services Limited System and method of extraction of information and graphical representation for design of formulated products
CN111897987B (zh) * 2020-07-10 2022-05-31 山西大学 一种基于演化计算多视图融合的分子结构图检索方法
EP4364110A1 (en) * 2021-06-28 2024-05-08 Limited Liability Company Syntelly Method and system for recognizing chemical information from document images
CN115908775A (zh) * 2021-08-16 2023-04-04 中国科学院上海药物研究所 化学结构式的识别方法、装置、存储介质及电子设备
CN114464273A (zh) * 2021-12-22 2022-05-10 天翼云科技有限公司 分子结构数据库构建方法、装置、电子设备及存储介质
CN114581924A (zh) * 2022-03-01 2022-06-03 苏州阿尔脉生物科技有限公司 化学反应流程图中元素的提取方法及装置
CN114842486A (zh) * 2022-07-04 2022-08-02 南昌大学 一种手写化学结构式识别方法、***、存储介质以及设备
CN114898391A (zh) * 2022-07-12 2022-08-12 苏州阿尔脉生物科技有限公司 一种化学反应路线的确定方法、装置及电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157736A (en) * 1991-04-19 1992-10-20 International Business Machines Corporation Apparatus and method for optical recognition of chemical graphics
JP3545075B2 (ja) * 1994-12-28 2004-07-21 富士通株式会社 化合物解析装置
CN101261554A (zh) * 2008-04-21 2008-09-10 东莞市步步高教育电子产品有限公司 公式、表达式的手写输入及计算***和方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
US20100163316A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Handwriting Recognition System Using Multiple Path Recognition Framework
CN102033866A (zh) * 2009-09-29 2011-04-27 国际商业机器公司 用于校验化学名称的方法及***
US8718375B2 (en) * 2010-12-03 2014-05-06 Massachusetts Institute Of Technology Sketch recognition system
US9558403B2 (en) * 2011-08-26 2017-01-31 Council Of Scientific And Industrial Research Chemical structure recognition tool
CN102693303B (zh) * 2012-05-18 2017-06-06 上海极值信息技术有限公司 一种公式化数据的搜索方法及装置
CN103700084A (zh) * 2012-09-28 2014-04-02 淮海工学院 基于区域尺寸和弯曲度的化学分子结构图分割方法
US10346681B2 (en) * 2015-09-26 2019-07-09 Wolfram Research, Inc. Method and computing device for optically recognizing mathematical expressions
CN106980856B (zh) * 2016-01-15 2020-11-27 北京字节跳动网络技术有限公司 公式识别方法及***和符号推理计算方法及***
CN105894931A (zh) * 2016-06-06 2016-08-24 宁波市铭时三维科技发展有限公司 含有二维码用3d打印分子结构模型作为化学教具的方法
CN106372456B (zh) * 2016-08-26 2019-01-22 浙江工业大学 一种基于深度学习的蛋白质结构预测方法
CN106650686A (zh) * 2016-12-30 2017-05-10 南开大学 一种基于隐马尔科夫模型的联机手写化学符号识别方法
CN106874688B (zh) * 2017-03-01 2019-03-12 中国药科大学 基于卷积神经网络的智能化先导化合物发现方法
CN107169485B (zh) * 2017-03-28 2020-10-09 北京捷通华声科技股份有限公司 一种数学公式识别方法和装置
CN108334839B (zh) * 2018-01-31 2021-09-14 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法

Also Published As

Publication number Publication date
WO2019148852A1 (zh) 2019-08-08
CN108334839A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN108334839B (zh) 一种基于深度学习图像识别技术的化学信息识别方法
CN106384094B (zh) 一种基于书写风格建模的中文字库自动生成方法
CN111782772A (zh) 基于ocr技术的文本自动生成方法、装置、设备及介质
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN109472234B (zh) 一种手写输入智能识别的方法
CN105574133A (zh) 一种多模态的智能问答***及方法
WO2023138023A1 (zh) 基于图神经网络的多模态文档信息抽取方法、设备、介质
CN113052023A (zh) Cad图纸解析方法、装置、设备及存储介质
CN105335348A (zh) 基于目标语句的依存句法分析方法、装置及服务器
CN110083580B (zh) 一种Word文档向PowerPoint文档转换的方法及***
CN113010711B (zh) 一种基于深度学习的影视海报自动生成方法与***
CN115917613A (zh) 文档中文本的语义表示
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN114359943A (zh) Ofd版式文档段落识别方法及装置
CN103678593A (zh) 一种基于空间场景草图描述的交互式空间场景检索方法
CN115359492A (zh) 文本图像匹配模型训练方法、图片标注方法、装置、设备
CN109784236B (zh) 一种识别铁路图纸中表格内容的方法
CN114821255A (zh) 多模态特征的融合方法、装置、设备、介质和产品
CN113536798A (zh) 一种多实例文档关键信息抽取方法和***
CN105912723A (zh) 一种自定义字段的存储方法
CN116089142A (zh) 一种新型的服务故障根因分析方法
CN112231473A (zh) 一种基于多模态深度神经网络模型的商品分类方法
CN113065475A (zh) 一种cad图例快速精准识别方法
CN111144256A (zh) 基于视频动态分析的电子表格公式合成与错误检测方法
CN113393179B (zh) 一种基于时序差分的数据集成***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant