CN112085067A

CN112085067A - 一种高通量筛选dna损伤反应抑制剂的方法

Info

Publication number: CN112085067A
Application number: CN202010829597.6A
Authority: CN
Inventors: 王毅; 王锐; 荀德金; 陈雪纯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-12-15
Anticipated expiration: 2040-08-17
Also published as: CN112085067B

Abstract

本发明公开了一种高通量筛选DNA损伤反应抑制剂的方法，包括如下步骤：S1、对基于U‑Net网络的细胞核分割网络模型进行训练；S2、构建细胞核类别判定网络模型并进行训练；S3、利用高内涵成像设备对DNA损伤反应抑制剂作用后的细胞进行拍摄获得待分析图像；将待分析图像输入细胞核分割网络模型后再输入细胞核类别判定网络模型，统计每种DNA损伤反应抑制剂对应的损伤细胞核占比，损伤细胞核占比越小，DNA损伤反应抑制剂的效果越好。本发明所述的方法能够自动地批量地针对高内涵成像设备获取到的图像进行分割和类别决策，通过统计分析可以初步筛选出具有进一步研究价值的化合物。

Description

一种高通量筛选DNA损伤反应抑制剂的方法

技术领域

本发明涉及DNA损伤、药物筛选和深度学习技术领域，具体涉及一种高通量筛选DNA损伤反应抑制剂的方法。

背景技术

生物体受到各种内源性和外源性因素(例如活性氧，DNA复制错误，紫外线照射，电离辐射和遗传毒性剂)时，会引起DNA损伤。DNA损伤的积累被证明与器官衰老和癌症发展密切相关。

尽管抑制DNA损伤或优化DNA修复过程是否延缓人类衰老尚存疑问，但证据表明，预防DNA损伤和促进DNA修复是与年龄有关的疾病(包括血管疾病、代谢性疾病、神经退行性疾病)的关键治疗靶标。

此外，由于肿瘤组织蓄积DNA损伤的可能性较高，因此DNA损伤反应抑制剂(DDR)也可用于治疗癌症。因此，开发一种快速准确地高通量的DDR筛选方法具有重要的学术价值。

核病灶的发生是一种常见的DNA损伤指标，在生物计量学、个体辐射敏感性评估和毒性评估中有着广泛的应用。核病灶的形成是由双链断裂处某些DDR蛋白的积累或修饰引起的。

DDR蛋白包括γH2AX，53BP1，RAD51，MRE11/RAD50/NBS1复合物等。通过免疫荧光，免疫组织化学分析或荧光蛋白等标记方法，在荧光显微镜下可以看见病灶。通常，病灶的数量与辐射剂量密切相关，研究人员可以通过计算病灶的数量和计算每个核或每个DNA区域的病灶来量化DNA损伤。

目前，一些可以进行批量处理的自动化方法在某些情况下并不总是令人满意。

在当前的开源软件中，FoCo具有友好的图形用户界面，但是由于亮度在各个细胞之间的变化以及在采集设置中逐批变化，需要手动调整强度参数，这通常会引入较大的误差。

Focinator是一个基于ImageJ的宏，它仅使用最大值标准来检测Foci，也具有FoCo的类似限制。

FindFoci允许手动训练参数，但是人们标记Foci(焦点)很费力且容易出错，尤其是在背景干扰较大的情况下。此外，在细胞密度较大时会存在一些相互粘连的细胞核，使用上述基于阈值分割的方法不能很好的分割出来。

因此，迫切地，需要一种能够批量地处理高内涵成像平台获取的大量图像数据，能够进行快速准确地图像分割，再进行细胞核是否损伤的判别，最后使用统计分析进行药物筛选的方法。

发明内容

本发明提供了一种高通量筛选DNA损伤反应抑制剂的方法，自动地批量地针对高内涵成像设备获取到的图像进行单细胞核分割和类别决策，通过统计分析可以初步筛选出具有进一步研究价值的化合物。

一种高通量筛选DNA损伤反应抑制剂的方法，包括如下步骤：

S1、对基于U-Net网络的细胞核分割网络模型进行训练；

S2、构建细胞核类别判定网络模型并进行训练；

S3、利用高内涵成像设备对DNA损伤反应抑制剂作用后的细胞进行拍摄获得待分析图像；将待分析图像输入细胞核分割网络模型后再输入细胞核类别判定网络模型，统计每种DNA损伤反应抑制剂对应的损伤细胞核占比，损伤细胞核占比越小，DNA损伤反应抑制剂的效果越好。

本发明所述的细胞核分割模型能够实现将不同型号的高内涵成像平台拍摄的图像，自动地进行分割，实现了不同批次之间图像分割的自动化适应，改善了细胞核粘连情况下分割不开的情况，提高了细胞背景干扰较大情况下分割的鲁棒性。

本发明提所述的细胞核分割模型使用了深度学***台获取到的图像，输出是提取得到的特征图。

所述解码器逐步修复物体的细节和空间维度，同时，编码器和解码器之间存在快捷连接，能够帮助解码器更好地修复目标细节。其输入是编码器提取得到的特征图，输出是与输入图像相同大小的掩膜图像。利用该掩膜图像可以将一张图像中的单个细胞核分割出来。

本发所述的细胞核类别判定模型能够判别输入的单细胞核图像是否损伤，准确率高，减少手动计数所消耗的时间，还能够输出每个细胞核对应每个类别的概率，以方便后续的统计分析。

本发明所述的细胞核类别判定模型使用了深度学习的方法，使用VGG-19网络架构，使用卷积神经网络进行特征提取，使用池化层进行图像放缩，经过几组卷积池化之后，得到较高维的特征信息，最后利用该高维的特征信息进行图像的分类，输入是单细胞核的图像，输出是该细胞核的类别判定结果。

本发明所述的高通量筛选DNA损伤反应抑制剂的方法，通过对上述细胞核类别判定的结果进行统计分析，与对照组和阳性药的结果进行比较分析，通过计算每个DNA损伤反应抑制剂获取到的图像中受损伤细胞核所占的比例，最后进行排序进行统计分析。选取排名靠前的几个化合物可以进行后续的药效验证实验，如量效曲线实验、彗星实验等。

本发明与现有技术相比，具有以下效果：

本发明所述的高通量筛选DNA损伤反应抑制剂的方法可以针对不同药物来源的图像自动地进行处理，准确率高，批量地处理高内涵成像平台获取的大量图像数据，为药效实验提供基础。

附图说明

图1为本发明所述的高通量筛选DNA损伤反应抑制剂的方法的整体流程图，图中的FociNet指细胞核分割模型和细胞核类别判定模型。

图2为本发明所述的的细胞核分割模型的网络架构示意图。

图3为本发明所述的细胞核类别判定模型的网络架构示意图。

图4为本发明使用建立好的细胞核分割模型和细胞核类别判定模型进行DDR药物筛选的流程图，图中的FociNet指细胞核分割模型和细胞核类别判定模型。

具体实施方式

以下结合附表和实施例对本发明的技术方案作进一步详细说明。以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供了高通量筛选DNA损伤反应抑制剂的方法。

S1、对基于U-Net网络的细胞核分割网络模型进行训练。

所述的细胞核分割网络模型用于将高内涵成像设备拍摄的图像数据进行图像分割，得到图像数据对应的掩膜图像之后，使用该掩膜图像对原始图像进行裁切，以获取单细胞核图像。

S11、构建第一U-Net网络和第二U-Net网络。

所述的U-Net网络包括编码器和解码器，编码器和解码器之间存在快捷连接，所述的编码器的结构包含了4～5个子块，除了最后一个子块，每个子块包括两个卷积层和一个池化层，使用elu作为激活函数，在两个卷积层之间加入了一个Dropout层；最后一个子块仅包括两个卷积层，使用elu作为激活函数，在两个卷积层之间加入了一个Dropout层。

其中编码器能够自动地进行特征提取，随着层数的增加，提取到的特征会越来越抽象，反映更高维的信息，其输入是高内涵成像平台获取到的图像，输出是提取得到的特征图。解码器逐步修复物体的细节和空间维度，同时，编码器和解码器之间存在快捷连接，能够帮助解码器更好地修复目标细节。解码器输入是编码器提取得到的特征图，输出是与输入图像相同大小的掩膜图像。

编码器中的子块数会对模型的分割效果有一定的影响，子块个数太少，模型训练不充分，提取不到比较高维的特征，子块个数太大，模型训练过程缓慢，也会使模型产生较多的冗余参数。通常子块的个数为4到5个。

如图2所示，本实施例所述的编码器的结构包含了5个子块，每个子块又包含了一定数量的卷积层和池化层。

第一个子块包含两个卷积层和一个池化层，使用elu作为激活函数，在两个卷积层之间加入了一个Dropout层，目的是在训练过程中随机的丢掉一些特征，以防止过拟合和增加模型的鲁棒性。卷积层可以用于提取特征，池化层用于对图像进行放缩，以提取更高维的特征；

同样地，第二个子块、第三个子块、第四个子块也包含两个卷积层和一个池化层，使用elu作为激活函数，在两个卷积层之间也加入了一个Dropout层；

第五个子块仅包含两个卷积层，使用elu作为激活函数，在两个卷积层之间同样加入了一个Dropout层。

本实施例所述的解码器的结构包括4个子块，每个子块包含了一定数量的转置卷积层和快捷连接层，转置卷积层用于将特征图放缩回一个之前的尺寸，快捷连接层用于将编码器中的特征图和转置卷积层放缩后的对应尺寸的图像进行连接，通过信息共享，能够帮助解码器更好地修复目标细节。解码器接在编码器之后，每一个子块都首先使用一个转置卷积层进行特征放缩，然后与对应尺寸的编码器的特征图进行通信，最后连接两个卷积层，并在两个卷积层之间加入了一个Dropout层，两个卷积层的激活函数同样使用了elu，最后在第四个子块之后连接一个卷积层，输出最终的掩膜图像。

在构建好上述编码器和解码器的结构后，让编码器和解码器对输入的样本进行学习即实现自身的参数优化，才能获得能够进行细胞核分割的编码器和解码器。由于高内涵获取到的图像并没有对应的掩模图像，人工标注会耗费大量的时间，因此，首先考虑在网络上寻找现有的数据集，我们一共找到了两种训练集。

S12、DATA-SCIENCE-BOWL-2018数据集先经过resize函数，然后用于训练第一U-Net网络。

所述的DATA-SCIENCE-BOWL-2018数据集来源于https：//github.com/kamalkraj/DATA-SCIENCE-BOWL-2018/tree/master/dada。特征是其背景差异较大，图像来源较为复杂，可以用于一个粗糙的网络用于抑制一些背景干扰比较大的情况。损失函数为交叉熵损失函数。

针对不同来源的高内涵成像平台拍摄的图像，由于不同平台拍摄的图像的大小、不同实验人员的设置不同，因此需要在U-Net网络模型之前加一个大小调节层resize函数，对于长宽不等的情况，大小调节层会对原始图像进行裁切，以获得长宽相等的图像，然后，我们将裁切后的图像进行放缩，最终统一到512*512的尺寸输入U-Net网络模型。

S13、BBBC039图片数据集经过resize函数，然后用于训练第二U-Net网络。

BBBC039数据集的背景和感兴趣的区域对比非常明显，经前一套数据集训练的网络进行预处理的原因，很好地避免了用后一套数据集训练地网络对背景干扰较大地情况下模型地适用性差地情况；同时后一套图像中有很多细胞核粘连的情况，非常适合我们的分割场景。通过本网络训练好的模型，可以对前一个网络预处理后的图像进行更加精细的图像分割，最终得到原始输入图像的掩膜图像。

输入细胞核分割网络模型的图像首先经过U-Net网络，得到第一掩膜图像；待测图像与第一掩膜图像相乘后输入第二U-Net网络，得到第二掩膜图像，待测图像与第二掩膜图像相乘后，再经连通域算法得到每个连通区域的所有像素点的位置，进而把每个联通区域单***切出来。

通过该掩膜图像，使用连通域算法，可以获取到图像中每个连通的区域包含的所有像素点的位置，进而可以把每个联通区域单独的裁切出来。由于不同细胞核的大小不等，使用每个细胞核各自长宽进行裁切将会给后续的细胞核类别判定模型造成麻烦，我们根据细胞生物学的先验知识，确立了将每一个连通区域(通常为一个细胞核的区域，也会有极少量分割不开的情况)放入一个256*256的容器中，该图像除了提取到的细胞核的区域，其余区域的像素值均为0。每一个连通区域均被放置在该容器的中间。这样就从原始图像中裁切出了每一个单独的细胞核区域。

S2、构建细胞核类别判定网络模型并进行训练。

S21、构建基于VGG-19网络的细胞核类别判定网络模型。

如图3所示。具体地，我们采用了VGG-19的网络架构。

子块的个数会对模型的分类效果有一定的影响，如果子块个数太少，模型训练不充分，不能提取到高维的特征，不适合后续的分类决策，子块个数太大，模型训练过程缓慢，会产生较大的冗余参数，通常子块的个数为4到5个。

该细胞核类别判定网络模型分为依次连接的5个子块和2个全连接层，前两个子块均包含两个卷积层和一个池化层，卷积层的激活函数使用relu，后3个子块均包含4个卷积层和一个池化层，卷积层的激活函数也使用relu；第一个全连接层的激活函数为relu，后一个全连接层的激活函数为softmax。

模型的输入为使用细胞核分割模型后裁切得到的一个个单细胞核的图像。经过5个子块之后，将获取到的特征图拉伸成一维的向量。

全连接层的层数同样会在一定程度上影响模型的分类效果，通常情况下，如果层数较小，模型训练不充分，容易欠拟合，达不到很好的分类效果，如果层数较大，又容易过拟合，不能应用于实际的分类场景。此处，在优化网络结构的过程中，我们发现我们前面5个子块提取到的特征非常适合我们的分类场景，因此仅使用两个全连接层就可以达到很好的分类效果，因此没有加入更多的全连接层。在构建好上述框架之后，我们让该网络结构对输入的样本进行学习即实现自身的参数优化，最终训练得到能够进行细胞核分类的模型。

S22、获取单细胞图片数据集对细胞核类别判定网络模型进行训练。

损失函数为交叉熵损失函数。

将对照组和阳性药通过高内涵拍摄的图像使用细胞核分割网络进行分割，得到相应的单细胞核图像，然后从这些单细胞核图像中人工挑选出三类图像各2000张，每张图像均经过严格的筛选和考证，三个类别为损伤、未损伤和无信号，具有弥散性EGFP信号且无聚集的荧光亮点或聚集的荧光亮点计数为1到4的EGFP病灶的核被标记为未损伤类型，具有4个以上EGFP病灶的核被标记为损伤类型。没有EGFP信号或显示泛核噪声的细胞核是不表达EGFP的细胞或照明不佳的细胞，因此被标记为无信号类型。

对于标注好的数据集，我们使用了数据扩增的方法，对原始的图像进行旋转90度，180度和270度的操作，将最终的数据集扩增到(2000*3)*(1+3)共24000张，然后随机地将数据集按照4：1的比例分为训练集、验证集。

训练集直接参与模型训练，用于调整模型的参数，验证集间接参与模型的训练，在每个批次训练好之后，会在验证集上进行验证，用于调整模型的超参数和对模型的能力进行初步评估。此外，我们又额外标注了300张单细胞核的图像作为测试集，测试集不参与训练，直接用于对最后的模型进行评估。最终我们的模型在训练集上的准确率达到99.03％，在验证集上的准确率达到99.15％，在测试集上的准确率达到了99.02％。通过使用训练好的模型，可以对之后输入的单细胞核的图像进行预测，输出每个细胞核对应的类别。

S31、利用高内涵成像设备对DNA损伤反应抑制剂作用后的细胞进行拍摄获得待分析图像；

S32、将待分析图像输入训练好的细胞核分割网络模型中得到单细胞核图像；

S33、再将单细胞核图像输入到训练好的细胞核类别判定网络模型进行分类决策；

S34、统计每种DNA损伤反应抑制剂对应的损伤细胞核占比，损伤细胞核占比越小，DNA损伤反应抑制剂的效果越好。

如图4所示，选取了一个对照组、一个辐射损伤组和一个阳性药组，通过高内涵成像设备进行拍摄，然后使用训练好的细胞核分割模型进行分割，得到一系列的单细胞核图像，之后将单细胞核图像输入细胞核类型判定模型中进行分类决策。统计计算每组的所有图像中损伤细胞核所占的比例。

对照组和辐射损伤组之间存在显著的差异，对照组的损伤细胞核占比较少，辐射损伤组的损伤细胞核较多。在加入阳性药WR-1065干预之后，损伤细胞核的比例与对照组相当，与辐射损伤组存在显著差异，表明DNA损伤反应抑制剂在一定程度上可能抑制了DNA损伤反应过程，之后可以通过量效曲线、彗星实验等进一步验证。

Claims

1.一种高通量筛选DNA损伤反应抑制剂的方法，其特征在于，包括如下步骤：

S1、对基于U-Net网络的细胞核分割网络模型进行训练；

S2、构建细胞核类别判定网络模型并进行训练；

2.根据权利要求1所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的细胞核分割网络模型的结构包括两个串联的U-Net网络，输入细胞核分割网络模型的待分析图像首先经过第一U-Net网络，得到第一掩膜图像；待分析图像与第一掩膜图像相乘后输入第二U-Net网络，得到第二掩膜图像，待分析图像与第二掩膜图像相乘后，再经连通域算法得到每个连通区域的所有像素点的位置，进而把每个联通区域单***切出来。

3.根据权利要求1所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的对基于U-Net网络的细胞核分割网络模型进行训练，具体如下：

S11、构建第一U-Net网络和第二U-Net网络；

S12、DATA-SCIENCE-BOWL-2018数据集先经过resize函数，然后用于训练第一U-Net网络；

S13、BBBC039图片数据集先经过resize函数，然后用于训练第二U-Net网络。

4.根据权利要求3所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的第一U-Net网络和第二U-Net网络的结构均包括编码器和解码器，编码器和解码器之间存在快捷连接；

所述编码器的结构包含了4～5个子块；除最后一个子块外，每个子块包括依次连接的两个卷积层和一个池化层，使用elu作为激活函数，在两个卷积层之间加入了一个Dropout层；最后一个子块包括两个卷积层，使用elu作为激活函数，在两个卷积层之间加入了一个Dropout层；

所述解码器的结构包括4～5个子块；每一个子块都首先使用一个转置卷积层，然后连接两个卷积层，并在两个卷积层之间加入了一个Dropout层，两个卷积层的激活函数均使用了elu，最后的子块后连接一个卷积层，输出最终的掩膜图像。

5.根据权利要求1所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的细胞核类别判定网络模型基于VGG-19网络、ResNet或DenseNet。

6.根据权利要求1或5所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的构建细胞核类别判定网络模型并进行训练，具体如下：

S21、构建基于VGG-19网络的细胞核类别判定网络模型；

7.根据权利要求6所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，获取单细胞图片数据集对细胞核类别判定网络模型进行训练，具体如下：

S221、使用S1训练好的细胞核分割网络模型对高内涵设备拍摄的图像进行分割，得到相应的单细胞核图像；

S222、从所述的单细胞核图像中人工挑选出损伤细胞核、未损伤细胞核和无信号三类图像各1800～2200张并进行标注；

S223、使用数据扩增方法对原始的三类图像进行扩增，然后按比例分为训练集和验证集；

S224、训练集对细胞核类别判定网络模型训练，调整模型参数，验证集间接参与模型的训练，在每个批次训练好之后，用验证集进行验证，调整模型的超参数。

8.根据权利要求1所述的高通量筛选DNA损伤反应抑制剂的方法，其特征在于，所述的将待分析图像输入细胞核分割网络模型后再输入细胞核类别判定网络模型，具体如下：将待分析图像输入训练好的细胞核分割网络模型中得到单细胞核图像；再将单细胞核图像输入到训练好的细胞核类别判定网络模型进行分类决策。