CN111709293B

CN111709293B - 一种基于ResUNet神经网络的化学结构式分割方法

Info

Publication number: CN111709293B
Application number: CN202010419502.3A
Authority: CN
Inventors: 王毅刚; 邵***
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-10-03
Anticipated expiration: 2040-05-18
Also published as: CN111709293A

Abstract

本发明公开了一种基于ResUNet神经网络的化学结构式分割方法。本发明步骤如下：步骤(1)构造训练集T，训练集T包括手动标注训练集T‑1和自动生成训练集T‑2两部分；步骤(2)将训练集T送入ResUNet神经网络进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的ResUNet神经网络模型保存；步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割。本发明在ResUNet神经网络基础上，提出一种改进的ResUNet神经网络，同时，提出一种自动生成大量化学结构式训练集的方法进行训练集的生成，从而使ResUNet神经网络能够对化学结构式进行分割，达到以大量数据提升神经网络识别精度的目的。

Description

一种基于ResUNet神经网络的化学结构式分割方法

技术领域

本发明属于计算机检测技术领域，具体涉及一种基于ResUNet神经网络的化学结构式分割方法，本发明在ResUNet神经网络基础上，提出一种改进的ResUNet神经网络，同时，提出一种自动生成大量化学结构式训练集的方法进行训练集的生成，从而使ResUNet神经网络能够对化学结构式进行分割，达到以大量数据提升神经网络识别精度的目的。

背景技术

科学实验通常至关重要的一部分是快速处理和吸收新获得的数据。此外，新的研究方法也离不开收集、分析和利用先前发表的实验数据。这对于小分子药物的发现尤其适用，其中实验测试的分子集合用于虚拟筛选程序、定量结构活性/性质关系(QSAR/QSPR)分析或基于物理建模方法的验证。由于产生大量实验数据的难度和费用，许多药物发现项目被迫依赖于相对较小的内部实验数据库。解决药物发现中普遍缺乏适当的训练集数据的一个有希望的解决方案是利用目前正在发表的数据。Medline报告每天发表超过2000多篇新的生命科学论文，鉴于新的实验数据以如此高的速度进入公共文献，解决与数据提取和管理相关的问题，并尽可能地自动化这些过程变得越来越重要。生命科学中从公开的来源，如期刊文章和专利文件中提取化学结构仍然是困难和非常耗时的。

目前，大量书籍和其它出版物依然只有纸质版或扫描版可得，造成重用上的困难。一方面，纸质版或扫描版的材料不便于进行检索，导致分散在大量文献中的信息不容易被发现，从而得不到充分利用。另一方面，对这些材料进行进一步处理涉及繁琐和易误的重新输入工作。

化学结构式识别的研究进展缓慢，主要原因是：一、在文档中公式被自然语言环绕，难以定位；二，由于化学结构式结构复杂,符号种类繁多且字体多样、大小不一,具有非规则性，逻辑性，复杂性等特征。

目前的化学结构式的识别方法都分为两个步骤：一、将化学结构式从自然语言中定位并分割出来；二、将分割出的化学结构式送入识别引擎中进行识别。其中，当前的化学结构式分割方法基本上是基于传统图像处理方法来完成的，其分割准确度较低，并无法处理一些如自然语言和化学分子式距离较近等特殊情况。

发明内容

基于此，为了提高化学结构式的定位与分割准确度，本发明在 ResUNet神经网络基础上，提出一种改进的ResUNet神经网络，同时，提出一种自动生成大量化学结构式训练集的方法进行训练集的生成，从而使ResUNet神经网络能够对化学结构式进行分割，达到以大量数据提升神经网络识别精度的目的。

一种基于ResUNet神经网络的化学结构式分割方法，包括如下步骤：

步骤(1)构造训练集T，训练集T包括手动标注训练集T-1和自动生成训练集T-2两部分。其中，手动标注出版物中的化学式作为部分训练集T-1，并使用一种自动生成化学结构式训练集的方法生成训练集T-2，训练集T-1和训练集T-2的容量比例为1：50；

步骤(2)将训练集T送入改进的ResUNet神经网络进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的ResUNet神经网络模型保存；

步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割。

进一步的，使用所述的一种自动生成化学结构式训练集的方法，基于排版模板的图像随机填充生成训练集，其构建方法包括如下步骤：

a.构造排版模板，在文字区域随机生成文本数据。

b.生成大量化学结构式图像。

c.在排版模板中寻找空白位置随机填充化学结构式图像式并标记。

进一步的，所述构造排版模板的方法包括以下步骤：

a-1.手动标定200页出版物中的文字区域，并进行旋转、上下左右反转进行数据扩充，共生成排版模板1000页,手动标记的排版模板如附图2所示。

a-2.将互联网文字和随机文本生成器产生的文字作为文本数据，并随机将文本数据填充排版模板中的文字区域，生成结果如附图3所示。

进一步的，所述生成大量化学结构式图像方法包括以下步骤：

b-1.将PubChem数据库中可用的5700万分子数据，使用Indigo 软件随机将其中的部分分子数据渲染成各种类型(键宽度、字符大小等)的256x256像素的3通道PNG格式图像。

b-2.将图像进行角度旋转，上下左右反转的数据扩充操作，共生成10万张小分子化学结构式图像。

进一步的，所述在排版模板中寻找空白位置随机填充化学结构式图像并标记的方法包括以下步骤：

c-1.随机取出生成的化学结构式图像，经过随机缩放比例后放置在文本区域外的空白位置，得到训练集T-2中数据部分，如附图4 所示。

c-2.逐像素的标记化学结构式图像所占用像素的位置，得到训练集T-2的标签部分，如附图5所示。

进一步的，所述改进ResUNet神经网络，其实现为：

将训练集T作为改进ResUNet神经网络的输入图像，输入图像为 512×512×3大小，经过第一层7×7卷积后输出大小为256×256×64的特征图res-1；接着先使用3×3大小的最大值池化，再经过重复三次1×1大小、3×3大小、1×1大小共9次卷积，输出128×128×256大小的特征图res-2；再接着经过重复四次1×1大小、3×3 大小、1×1大小共12次卷积，输出64×64×512大小特征图res-3，接着经过重复六次1×1大小、3×3大小、1×1大小共18次卷积，输出32×32×1024大小特征图res-4；接着经过重复三次1×1大小、 3×3大小、1×1大小共9次卷积，输出16×16×2048大小特征图 res-5；接着再进行1×1大小卷积，输出16×16×1024大小特征图 conv-1；接着进行2×2上采样，将输出特征图up-1与特征图res-4 拼接得到32×32×2048大小特征图concat-1；接着进行3×3大小卷积,输出32×32×512大小特征图conv-2；接着进行2×2上采样，将输出特征图up-2与特征图res-3拼接得到64×64×1024大小特征图concat-2；接着进行3×3大小卷积,输出64×64×256大小特征图conv-3；接着进行2×2上采样，将输出特征图up-3与特征图res-2 拼接得到128×128×512大小特征图concat-3；接着进行3×3大小卷积,输出128×128×64大小特征图conv-4；接着进行2×2上采样，将输出特征图up-4与特征图res-1拼接得到256×256×128大小特征图concat-4；接着进行3×3大小卷积,输出256×256×64大小特征图conv-5；最后，经过2×2上采样和1×1大小卷积，输出与原输入图像大小对应的512×512×2结果图。

本发明有益效果如下：

本发明在ResUNet神经网络基础上，提出一种改进的ResUNet神经网络，同时，提出一种自动生成大量化学结构式训练集的方法进行训练集的生成，从而使ResUNet神经网络能够对化学结构式进行分割，达到以大量数据提升神经网络识别精度的目的。

附图说明

图1为本发明改进的ResUNet神经网络流程示意图；

图2为本发明手动标记模板样例示意图；

图3为本发明随机文本填充后的模板样例示意图；

图4为本发明随机填充化学结构式后的模板样例示意图；

图5为本发明模板对应的标记样例示意图；

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明一种基于ResUNet神经网络的化学结构式分割方法进行详细说明。

使用所述的一种自动生成化学结构式训练集的方法，基于排版模板的图像随机填充生成训练集，其构建方法包括如下步骤：

a.构造排版模板，在文字区域随机生成文字数据，手动标定200 页出版物中的文字区域，并进行旋转、上下左右反转进行数据扩充，共生成模板1000页,手动标记模板如附图2所示，将互联网文字和随机文本生成器产生的文字作为文本数据，并随机将文本数据填充排版模板中的文字区域，生成结果如附图3所示。

b.生成大量化学结构式图像，使用PubChem数据库中可用的5700 万分子数据，使用Indigo软件随机将其中的部分分子数据渲染成各种类型(键宽度、字符大小等)的256x256像素的3通道PNG格式图像，将图像进行角度旋转，上下左右反转数据扩充操作，共生成10 万张小分子化学结构式图像。

c.在排版模板中寻找空白位置随机填充化学结构式并标记，随机取出生成的化学结构式图像，经过随机缩放比例后放置在文本区域外的空白位置，如附图4所示。逐像素的标记化学结构式图像所占用像素的位置，如附图5所示。

步骤(2)如图1所示构造改进的ResUNet神经网络，将训练数据集送入改进的ResUNet神经网络进行训练，达到训练指定次数或者 Loss曲线不再下降且精度不再提高为止，将训练好的模型保存；

进一步的，所述改进ResUNet神经网络，其流程为：将训练集T 作为改进ResUNet神经网络的输入图像，输入图像为512×512×3大小，经过第一层7×7卷积后输出大小为256×256×64的特征图res-1；接着先使用3×3大小的最大值池化，再经过重复三次1×1大小、3 ×3大小、1×1大小共9次卷积，输出128×128×256大小的特征图 res-2；再接着经过重复四次1×1大小、3×3大小、1×1大小共12 次卷积，输出64×64×512大小特征图res-3，接着经过重复六次1 ×1大小、3×3大小、1×1大小共18次卷积，输出32×32×1024 大小特征图res-4；接着经过重复三次1×1大小、3×3大小、1×1 大小共9次卷积，输出16×16×2048大小特征图res-5；接着再进行1×1大小卷积，输出16×16×1024大小特征图conv-1；接着进行2×2上采样，将输出特征图up-1与特征图res-4拼接得到32× 32×2048大小特征图concat-1；接着进行3×3大小卷积,输出32× 32×512大小特征图conv-2；接着进行2×2上采样，将输出特征图 up-2与特征图res-3拼接得到64×64×1024大小特征图concat-2；接着进行3×3大小卷积,输出64×64×256大小特征图conv-3；接着进行2×2上采样，将输出特征图up-3与特征图res-2拼接得到 128×128×512大小特征图concat-3；接着进行3×3大小卷积,输出 128×128×64大小特征图conv-4；接着进行2×2上采样，将输出特征图up-4与特征图res-1拼接得到256×256×128大小特征图 concat-4；接着进行3×3大小卷积,输出256×256×64大小特征图conv-5；最后，经过2×2上采样和1×1大小卷积，输出与原输入图像大小对应的512×512×2结果图。

根据下表构造改进的ResUNet神经网络：

步骤(3)使用步骤(2)中训练好的神经网络进行分割，得到分割结果。

Claims

1.一种基于ResUNet神经网络的化学结构式分割方法，其特征在于包括如下步骤：

步骤(1)构造训练集T，训练集T包括手动标注训练集T-1和自动生成训练集T-2两部分；

步骤(2)将训练集T送入ResUNet神经网络进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的ResUNet神经网络模型保存；

步骤(3)使用步骤(2)中训练好的ResUNet神经网络模型对化学结构式进行分割；

所述的训练集T-2是通过一种自动生成化学结构式训练集的方法，基于排版模板的图像随机填充生成训练集，其构建方法包括如下步骤：

a.构造排版模板，在文字区域随机生成文本数据；

b.生成大量化学结构式图像；

c.在排版模板中寻找空白位置随机填充化学结构式图像并标记；

将手动标注出版物中的化学结构式作为训练集T-1，且训练集T-1和训练集T-2的容量比例为1：50；

所述构造排版模板的方法包括以下步骤：

a-1.手动标定200页出版物中的文字区域，并进行旋转、上下左右反转进行数据扩充，共生成排版模板1000页；

a-2.将互联网文字和随机文本生成器产生的文字作为文本数据，并随机将文本数据填充排版模板中的文字区域；

所述生成大量化学结构式图像方法包括以下步骤：

b-1.将PubChem数据库中可用的5700万分子数据，使用Indigo软件随机将其中的部分分子数据渲染成各种类型的256x256像素的3通道PNG格式图像；

b-2.将图像进行角度旋转、上下左右反转的数据扩充操作，共生成10万张小分子化学结构式图像；

所述在排版模板中寻找空白位置随机填充化学结构式图像并标记的方法包括以下步骤：

c-1.随机取出生成的化学结构式图像，经过随机缩放比例后放置在文本区域外的空白位置，得到训练集T-2中数据部分；

c-2.逐像素的标记化学结构式图像所占用像素的位置，得到训练集T-2的标签部分；

所述ResUNet神经网络为改进后的ResUNet神经网络，其实现为：

将训练集T作为改进后的ResUNet神经网络的输入图像，输入图像为512×512×3大小，经过第一层7×7卷积后输出大小为256×256×64的特征图res-1；接着先使用3×3大小的最大值池化，再经过重复三次1×1大小、3×3大小、1×1大小共9次卷积，输出128×128×256大小的特征图res-2；再接着经过重复四次1×1大小、3×3大小、1×1大小共12次卷积，输出64×64×512大小特征图res-3，接着经过重复六次1×1大小、3×3大小、1×1大小共18次卷积，输出32×32×1024大小特征图res-4；接着经过重复三次1×1大小、3×3大小、1×1大小共9次卷积，输出16×16×2048大小特征图res-5；接着再进行1×1大小卷积，输出16×16×1024大小特征图conv-1；接着进行2×2上采样，将输出特征图up-1与特征图res-4拼接得到32×32×2048大小特征图concat-1；接着进行3×3大小卷积,输出32×32×512大小特征图conv-2；接着进行2×2上采样，将输出特征图up-2与特征图res-3拼接得到64×64×1024大小特征图concat-2；接着进行3×3大小卷积,输出64×64×256大小特征图conv-3；接着进行2×2上采样，将输出特征图up-3与特征图res-2拼接得到128×128×512大小特征图concat-3；接着进行3×3大小卷积,输出128×128×64大小特征图conv-4；接着进行2×2上采样，将输出特征图up-4与特征图res-1拼接得到256×256×128大小特征图concat-4；接着进行3×3大小卷积,输出256×256×64大小特征图conv-5；最后，经过2×2上采样和1×1大小卷积，输出与原输入图像大小对应的512×512×2结果图。