CN113807259A - 一种基于多尺度特征融合的染色体***相定位与排序的方法 - Google Patents
一种基于多尺度特征融合的染色体***相定位与排序的方法 Download PDFInfo
- Publication number
- CN113807259A CN113807259A CN202111095809.3A CN202111095809A CN113807259A CN 113807259 A CN113807259 A CN 113807259A CN 202111095809 A CN202111095809 A CN 202111095809A CN 113807259 A CN113807259 A CN 113807259A
- Authority
- CN
- China
- Prior art keywords
- model
- chromosome
- training
- split
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 208000035126 Facies Diseases 0.000 title claims abstract description 24
- 230000024321 chromosome segregation Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 121
- 210000000349 chromosome Anatomy 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000009191 jumping Effects 0.000 claims abstract description 4
- 230000004807 localization Effects 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000002759 z-score normalization Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 32
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 238000012821 model calculation Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 4
- 239000012535 impurity Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000000394 mitotic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000031864 metaphase Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多尺度特征融合的染色体***相定位与排序的方法,包括如下步骤:步骤S1:开始;步骤S2:获取训练集;步骤S3:得到增强过的染色体样本图像;步骤S4:获取输入张量A;步骤S5:训练***相定位模型;步骤S6:最终获取用于模型训练的训练集;步骤S7:最终获取用于训练染色体***相排序模型的输入张量B;步骤S8:输出***相扫描结果;步骤S9:判断是否结束***相扫描,若否则跳到步骤S2,否则结束。本发明通过训练深度学习模型对分割出的***相图像进行特征提取和排序能够大大提升排序效果,通过将分割出的***相图像拼接成一个张量来进行并行计算,能够进一步减小额外模型计算对算法检测速度带来的影响。
Description
技术领域
本发明属于一种基于多尺度特征融合的染色体***相定位与排序的方法。
背景技术
染色体核型分析是以染色体中期***相为研究对象,借助显带技术并充分利用染色体的形态特征和纹理特征来对染色体进行排序和编号,从而完成对染色体的分析,核型分析为细胞遗传分析研究提供重要的依据。利用显微镜自动扫描平台进行染色体核型的自动分析,关键是能够在通过计算机来完成染色体***相的定位,并对所定位提取的***相质量进行排序,从而获得更有研究价值的***相位置,然后根据具***置分割出***相图像,从而进行相应的核型分析。
传统的染色体***相寻找任务通常利用人工在显微镜下寻找定位,并调节显微镜放大倍数,从而确认***相的质量,该方法会耗费大量人力,同时检测的准确程度也会随着检测人员的匹配程度而下降。利用计算机辅助染色体***相的定位与质量排序是现在最流行的方式,利用显微镜相机将样本图像扫描置计算机,并利用图像分析技术进行***相的筛选,能够在一定程度上大大减轻医生的负担。但利用传统的计算机图像分析算法进行染色体***相特征的提取、聚类、分类等工作通常在图像杂质较多,背景较复杂的情况下容易造成失效,算法的鲁棒性较差。
随着深度学习的快速发展,利用神经网络进行医学图像分析已经成为一个重要的研究方向。目前流行的深度学习图像分析方法通常利用简单线性网络或者卷积神经网络来进行建模和分析,这些方法通常利用多层神经网络提取图像的抽象语义特征来完成图像的分类,但是对于检测图像中体积较小的目标时难以达到很好的效果。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于多尺度特征融合的染色体***相定位与排序的方法。
为实现上述目的,本发明提供如下技术方案:
一种基于多尺度特征融合的染色体***相定位与排序的方法,包括如下步骤:
步骤S1:开始;
步骤S2:显微镜扫描读取待检测的染色体样本图像,通过人工标注出所扫描样本图像中的染色体***相目标,并对标记好的标签进行多轮检查,防止错误标记对模型训练带来的负面影响,获取用于模型训练的训练集;
步骤S3:每次取出训练集中的一部分染色体样本图像进行数据增强,随机选取四张图像进行拼接,并在拼接所获得的图像上随机复制一定比例的染色体***相目标,得到增强过的染色体样本图像;
步骤S4:将增强过的染色体样本图像进行归一化处理,从而获取输入***相定位模型的输入张量A;
步骤S5:将输入张量A输入到***相定位模型中进行计算得到输出张量 C,从而预测***相目标位置,然后得到定位结果,然后训练***相定位模型;
步骤S6:根据定位结果置裁剪出染色体***相图像,利用人工对该染色体***相图像进行等级评定,再次获取标签,经过多轮的标签检查,防止错误标记对模型训练带来的负面影响,最终获取用于模型训练的训练集;
步骤S7:利用训练样本增强算法对训练集进行随机反转和旋转,并进行 Z-Score标准化处理,选取训练集中的一部分染色体***相图像将尺寸放缩到96×96,拼接预处理过后的染色体***相图像为一个张量,最终获取用于训练染色体***相排序模型的输入张量B;
步骤S8:将输入张量B输入到***相排序模型中计算得到输出张量H,然后训练***相排序模型,与此同时,利用该输出张量H预测所有输入***相图像的等级类别归类,并根据等级对所有的***相样本进行排序,有限输出质量等级更高的***相目标,从而输出***相扫描结果;
步骤S9:判断是否结束***相扫描,若否则跳到步骤S2,否则结束。
作为优选,归一化处理的计算公式为f(x,y)表示染色体样本图像中位于坐标(x,y)的像素值, M表示染色体样本图像中的最小像素值,R表示染色体样本图像的像素值范围,p(x,y)表示归一化处理之后的染色体样本图像位于坐标(x,y)处的像素值。
作为优选,所述训练***相定位模型的流程如下:
步骤C1:计算目标损失值Lobj和边界框损失值Lbox,所述
述p表示***相定位模型预测边界框内存在***相的概率,所述z表示对应位置实际情况下是否存在边界框,z=0表示不存在,z=1表示存在,所述α表示为存在***相(z=1)和不存在***相(z=0)的平衡权重参数,所述β用来减小易分类样本对总体损失值的贡献,所述
步骤C2:计算总损失值lossa,所述lossa=Lobj+λLbox,λ为平衡两种损失值在总损失值中的占比;
步骤C3:对总损失值lossa进行反向求导更新优化***相定位模型的网络权重参数,至此完成一轮模型的训练,记录总损失值lossa;
步骤C4:重复步骤C1,根据所记录的总损失值lossa绘制损失曲线,观察损失曲线,当***相定位模型的总损失值lossa收敛时停止训练,从而完成训练***相定位模型。
所述Z-Score标准化处理的公式为
所述f(x,y)表示输入图像位于坐标(x,y)的像素值,所述n(x,y)表示标准化处理过后的图像位于坐标(x,y)的像素值,σ表示数据集的像素均值,所述μ表示数据集的像素方差。
作为优选,所述训练***相排序模型的流程如下:
P第i个元素的值,Zi表示向量Z第i个元素的值;
步骤q3:对模型的损失值lossb进行反向求导更新优化***相排序模型的网络权重参数,至此完成一轮模型的训练,记录模型的损失值lossb;
步骤q4:重复步骤q3,根据所记录的模型的损失值lossb绘制损失曲线,观察损失曲线,当模型的损失值lossb收敛时停止训练,从而完成训练***相排序模型。
作为优选,***相定位模型的神经网络模型包括特征提取层、特征融合层、输出层,所述特征提取层利用CSPN模块进行特征提取。
作为优选,将输入张量A输入到***相定位模型中进行计算的过程为通过特征提取层获取特征张量,然后利用上采样获取两个不同尺度的特征张量,分别与特征提取层中对应尺度的特征张量通过特征融合层进行融合,通过输出层最终得到输出张量C。
作为优选,***相排序模型的神经网络模型包括特征提取层、全连接层、输出层,所述特征提取层利用CSPN模块进行特征提取。
作为优选,将输入张量B输入到***相排序模型中计算的过程为将输入张量B输入到***相排序模型中进行计算,经过CSPN模块完成特征提取,从而获取特征张量,并利用全连接层对该特征张量进行序列化,通过输出层最终得到输出张量H。
本发明的有益效果如下:
1、传统的染色体核型分析依赖于人工在显微镜下进行染色体***相的定位和筛选,本发明采用深度学习的方法,利用专业人员标注的数据集来训练神经网络模型并利用所训练的模型完成染色体***相的全自动检测和排序,大大提升了检测的效率,采用本发明所提出的染色体***相自动检测与排序算法,可以减小人工镜检时因疲劳造成的误差,同时分析速度大大提升;
2、由于在10倍镜下进行染色体***相检测拥有更大的检测视野,检测速度更快,但该视野下染色体***相的体积通常较小,会牺牲一定的检测准确率,针对以上问题,本发明通过提取训练样本的多尺度特征并进行特征融合,以此来防止下采样导致的特征丢失,通过该方法不但能够提升在10倍镜样本图像下染色体***相的检测准确度,还能够有效的解决随着神经网络结构加深带来的网络退化问题;
3、相比于利用传统的计算机图像技术对样本图像进行阈值分割并且利用图像形态学操作和聚类分类算法进行连通域筛选来获得染色体***相,本发明利用深度学习技术来完成染色体***相的定位能够更有效的区分背景杂质和***相目标,并且能够有效的防止样本成像光照不均匀或者噪声对检测结果所造成的影响,算法性能更强。
4、利用传统机器学习方法进行染色体***相的定位,检测效果通常依赖于人工提取的***相特征的质量,并且能够利用的特征有限,本发明利用深度学习的方法来进行染色体***相的定位,能够通过训练自动提取***相的深层特征,并且能够通过大量的样本来进一步的提升模型的泛化性,对于制片流程和成像质量差异较大的样本,也能够通过添加训练样本来提升模型对该类样本的检测能力;
5、本发明利用CSPN模块来进行特征提取,相比于只采用单一的卷积层来进行特征提取,利用该模块能够更有效的提取染色体***相的深层特征,采用了层次化特征融合的方式来提升模型在10倍镜下对小目标的检测准确率,同时利用截断梯度流的方式来防止过多的重复梯度信息被用于模型的训练,能够有效的防止梯度***问题;
6、为了提升模型训练的效果,本发明在染色体检测和排序模型的训练过程中都利用所设计的数据预处理算法对训练集样本进行了特征增强,分别采用了归一化和Z-Score标准化的方式对样本图像进行了处理,使特征分布更加集中,通过该方法进行训练能够有效的提升模型对样本特征的学习能力,使模型的训练速度和训练结果都有所提升;
7、本发明通过训练深度学习模型对分割出的***相图像进行特征提取和排序能够大大提升排序效果,通过将分割出的***相图像拼接成一个张量来进行并行计算,能够进一步减小额外模型计算对算法检测速度带来的影响。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的流程图;
图2为***相定位模型的神经网络模型图;
图3为CSPN模块结构图;
图4为***相排序模型结构图;
图5为待检测的样本图像1;
图6为待检测的样本图像2;
图7为待检测的样本图像3;
图8为待检测的样本图像4;
图9为待检测的样本图像1的***相检测结果;
图10为待检测的样本图像2的***相检测结果;
图11为待检测的样本图像3的***相检测结果;
图12为待检测的样本图像4的***相检测结果;
图13为待排序的***相图像;
图14为***相等级排序结果。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
相较于利用传统的计算机图形学和机器学习的方法进行染色体***相的定位,采用深度学习方法能够不依赖于人工提取的***相特征,利用大量标注的样本来进行模型的训练,在训练集规模有所保证的前提下,模型往往能够取得更好的泛化性。本发明基于深度学习技术,提出了一种基于多尺度特征融合的染色体***相定位和排序方法,该方法首先利用卷积神经网络提取染色体样本图像在多个尺度上的特征,然后进行特征融合预测图像中可能存在的***相目标,最后根据预测的***相位置分割出***相图像并预测***相的质量等级,从而完成染色体***相的定位与排序,方法流程图如图1所示,包括如下步骤:
步骤S1:开始;
步骤S2:显微镜扫描读取待检测的染色体样本图像,如图5到图8所示,通过人工标注出所扫描样本图像中的染色体***相目标,并对标记好的标签进行多轮检查,防止错误标记对模型训练带来的负面影响,获取用于模型训练的训练集;
步骤S3:每次取出训练集中的一部分染色体样本图像进行数据增强,随机选取四张图像进行拼接,并在拼接所获得的图像上随机复制一定比例的染色体***相目标,得到增强过的染色体样本图像;
步骤S4:将增强过的染色体样本图像进行归一化处理,从而获取输入***相定位模型的输入张量A;
步骤S5:将输入张量A输入到***相定位模型中进行计算得到输出张量 C,从而预测***相目标位置,然后得到定位结果,如图9到图12所示,然后训练***相定位模型;
步骤S6:根据定位结果置裁剪出染色体***相图像,如图13所示,利用人工对该染色体***相图像进行等级评定,再次获取标签,经过多轮的标签检查,防止错误标记对模型训练带来的负面影响,最终获取用于模型训练的训练集;
步骤S7:利用训练样本增强算法对训练集进行随机反转和旋转,并进行 Z-Score标准化处理,选取训练集中的一部分染色体***相图像将尺寸放缩到96×96,拼接预处理过后的染色体***相图像为一个张量,最终获取用于训练染色体***相排序模型的输入张量B;
步骤S8:将输入张量B输入到***相排序模型中计算得到输出张量H,然后训练***相排序模型,与此同时利用该输出张量H预测所有输入***相图像的等级类别归类,并根据等级对所有的***相样本进行排序,有限输出质量等级更高的***相目标,从而输出***相扫描结果,如图14所示;
步骤S9:判断是否结束***相扫描,若否则跳到步骤S2,否则结束。
本发明所提出的方法主要包含两个部分,首先需要在10倍镜下完成染色体样本图像的扫描,然后将样本图像尺寸缩小到608×608输入到染色体***相定位模型当中获取该样本中可能存在的染色体***相位置,然后根据染色体***相定位模型的预测结果扫描并采集染色体***相图像,将图像尺寸放缩到96×96输入到染色体***相排序模型当中,预测***相图像的质量等级。
参见图2是申请的一个实施例所提供的染色体***相定位模型的神经网络结构,该模型主要由特征提取层、特征融合层以及输出层三部分组成,其中特征提取层主要利用CSPN模块进行特征提取,模块结构如图3所示。方法首先需要利用所提出的训练方法对该模型进行训练,训练步骤包括:
步骤1:利用显微镜自动扫描平台在10倍镜下扫描染色体样本图像,通过人工标注出所扫描样本图像中的染色体***相目标,并对标记好的标签进行多轮检查,防止错误标记对模型训练带来的负面影响,获取用于模型训练的训练集;
步骤2:每次取出训练集中的一部分样本图像进行数据增强,随机选取四张图像进行拼接,并在拼接所获得的图像上随机复制一定比例的染色体***相目标,以此来增强样本的背景和目标多样性,将增强过后的图像进行归一化处理,获取用于输入模型训练的输入张量;
步骤3:将输入张量输入染色体***相定位模型中进行计算,通过特征提取层获取特征张量,并在特征融合层将特征张量进行上采样和特征张量拼接融合,以此来完成多尺度特征的融合,最终利用融合的特征预测样本中可能存在染色体***相目标位置,获取输出张量;
步骤4:利用所设计的损失函数lossa计算模型的损失值,将输出张量和该样本对应的标签输入损失函数当中进行计算损失值,并对损失值进行反向求导更新优化模型的网络权重参数,至此完成一轮模型的训练,记录损失值;
步骤5:重复步骤4,根据所记录的损失值绘制损失曲线,观察损失曲线,当模型的损失值收敛时停止训练,获取最终用于染色体***相定位的模型;
参见图4是申请的一个实施例所提供的染色体***相排序模型的神经网络结构,该模型主要利用CSPN模块进行特征提取,最终经过两个全连接层获取一个输出向量,获取对输入***相图像的等级类别的预测结果,利用所设计的训练方法对模型进行训练,训练步骤包括:
步骤1:根据训练好的染色体***相定位模型扫描***相目标并分割出***相目标的图像,利用人工对该***相进行等级评定,获取标签。经过多轮的标签检查,防止错误标记对模型训练带来的负面影响,最终获取用于模型训练的训练集。
步骤2:利用所设计的训练样本增强算法对训练样本进行随机反转和旋转,并进行Z-Score标准化处理,选取一部分样本将尺寸放缩到96×96,拼接预处理过后的***相样本图像为一个张量,最终获取用于训练染色体***相排序模型的输入张量;
步骤3:将输入张量输入到模型中进行计算,经过CSPN模块完成特征提取获取特征张量,并利用全连接层对该特征张量进行序列化,最终输出一个长度为6的输出张量用于预测该输入图像的等级类别。
步骤4:利用所设计的损失函数lossb计算模型的损失值,将模型的输出张量和样本标签输入损失函数当中计算损失值,并对损失值进行反向求导更新优化模型的网络权重参数,至此完成一轮模型的训练,记录损失值。
步骤5:重复步骤4,根据所记录的损失值绘制损失曲线,观察损失曲线,当模型的损失值收敛时停止训练,获取最终用于染色体***相排序的模型。
归一化处理的计算公式为f(x,y)表示染色体样本图像中位于坐标(x,y)的像素值, M表示染色体样本图像中的最小像素值,R表示染色体样本图像的像素值范围,p(x,y)表示归一化处理之后的染色体样本图像位于坐标(x,y)处的像素值。
为了保证染色体***相定位模型所预测***相边界框的准确,本发明利用目标损失Lobj和边界框损失Lbox两种损失值来在训练中约束模型的收敛。
所述训练***相定位模型的流程如下:
步骤C1:计算目标损失值Lobj和边界框损失值Lbox,所述
述p表示***相定位模型预测边界框内存在***相的概率,所述z表示对应位置实际情况下是否存在边界框,z=0表示不存在,z=1表示存在,所述α表示为存在***相(z=1)和不存在***相(z=0)的平衡权重参数,所述β用来减小易分类样本对总体损失值的贡献,边界框损失Lbox主要用于衡量染色体***相定位模型所预测的边界框坐标与标签对应的实际边界框坐标的偏差,本发明利用预测边界框与实际边界框的重叠面积,中心点距离以及长宽比来衡量两边界框的相似程度,所述所述Dc表示两边界框中心点的距离,所述Dp表示预测边界框与实际边界框的最小闭包区域的对角线距离,所述A 表示预测边界框与实际边界框的交并比,所述γ用来衡量两个边界框长宽比的相似性,所述所述w表示实际边界框的宽,所述h 表示实际边界框的高,所述wp表示预测边界框的宽,所述hp表示预测边界框的高;
由于Lbox的损失值通常大于Lobj,为了保证两种损失值都能够在模型的训练中对模型起到约束作用,防止模型对边界框坐标或者目标置信度的预测出现过度拟合,因此需要利用权重λ来平衡两种损失在总损失中的占比,此外通过调节λ还能够在一定程度上通过人工调整参数来提升模型对不同数据集进行***相检测的准确度。
步骤C2:计算总损失值lossa,所述lossa=Lobj+λLbox,λ为平衡两种损失值在总损失值中的占比:
步骤C3:对总损失值lossa进行反向求导更新优化***相定位模型的网络权重参数,至此完成一轮模型的训练,记录总损失值lossa;
步骤C4:重复步骤C1,根据所记录的总损失值lossa绘制损失曲线,观察损失曲线,当***相定位模型的总损失值lossa收敛时停止训练,从而完成训练***相定位模型。
为了能够保证模型训练过程中更容易收敛,需要对输入的染色体***相样本图像进行Z-Score标准化处理。
所述Z-Score标准化处理的公式为
所述f(x,y)表示输入图像位于坐标(x,y)的像素值,所述n(x,y)表示标准化处理过后的图像位于坐标(x,y)的像素值,σ表示数据集的像素均值,所述μ表示数据集的像素方差。
所述训练***相排序模型的流程如下:
P第i个元素的值,Zi表示向量Z第i个元素的值,利用Softmax函数来将向量Z的值限定在区间[0,1]内,将Softmax函数的输出结果标记为Pi,以此来表示模型预测该***相为各等级的概率,Softmax函公式为
步骤q2:计算模型的损失值lossb,所述其中n=6表示期望的染色体***相质量等级类别个数,所述向量Y表示通过人工标注的标签,它表示该***相实际的质量等级,Yi表示向量Y第i个元素的值,为了保证***相排序模型能够准确的预测***相的质量类别,本发明利用交叉熵损失函数lossb来在训练过程中监督模型的参数优化;
步骤q3:对模型的损失值lossb进行反向求导更新优化***相排序模型的网络权重参数,至此完成一轮模型的训练,记录模型的损失值lossb;
步骤q4:重复步骤q3,根据所记录的模型的损失值lossb绘制损失曲线,观察损失曲线,当模型的损失值lossb收敛时停止训练,从而完成训练***相排序模型。
***相定位模型的神经网络模型包括特征提取层、特征融合层、输出层,所述特征提取层利用CSPN模块进行特征提取。
将输入张量A输入到***相定位模型中进行计算的过程为通过特征提取层获取特征张量,然后利用上采样获取两个不同尺度的特征张量,分别与特征提取层中对应尺度的特征张量通过特征融合层进行融合,通过输出层最终得到输出张量C。
***相排序模型的神经网络模型包括特征提取层、全连接层、输出层,所述特征提取层利用CSPN模块进行特征提取。
将输入张量B输入到***相排序模型中计算的过程为将输入张量B输入到***相排序模型中进行计算,经过CSPN模块完成特征提取,从而获取特征张量,并利用全连接层对该特征张量进行序列化,通过输出层最终得到输出张量H。
本发明分别利用损失函数lossa和lossb来完成染色体***相定位模型以及排序模型的训练,首先需要将两个模型的权重参数进行随机初始化,然后将对应的训练集样本输入到模型中进行计算,获取预测张量,然后根据损失函数计算相应的损失值,并将损失值反向求导更新优化网络的权重参数,通过不断优化模型的权重参数使模型的损失值逐渐收敛,最终获得用于染色体***相定位以及排序的深度学习模型。
本实施例展示了进行染色体***相定位和排序模型的训练以及利用所训练模型进行***相的检测和排序的工作流程。本发明所提出的***相定位和排序算法能够利用深度学习技术自动完成***相的扫描和排序工作,相比于现有的染色体***相自动扫描和排序算法,该算法能够通过添加训练样本来提升模型的泛化性,算法对样本背景杂质和噪声不敏感,鲁棒性更强,算法准确率更高,即使在制片流程和样本成像质量差异较大的情况下也能取得很好的***相扫描和排序效果。
1、传统的染色体核型分析依赖于人工在显微镜下进行染色体***相的定位和筛选,本发明采用深度学习的方法,利用专业人员标注的数据集来训练神经网络模型并利用所训练的模型完成染色体***相的全自动检测和排序,大大提升了检测的效率,采用本发明所提出的染色体***相自动检测与排序算法,可以减小人工镜检时因疲劳造成的误差,同时分析速度大大提升;
2、由于在10倍镜下进行染色体***相检测拥有更大的检测视野,检测速度更快,但该视野下染色体***相的体积通常较小,会牺牲一定的检测准确率,针对以上问题,本发明通过提取训练样本的多尺度特征并进行特征融合,以此来防止下采样导致的特征丢失,通过该方法不但能够提升在10倍镜样本图像下染色体***相的检测准确度,还能够有效的解决随着神经网络结构加深带来的网络退化问题;
3、为了提升模型进行染色体***相位置预测的准确性,本发明对***相位置预测任务进行明确的量化,将待检测的样本图像划分为多个网格单元,通过预测每个网格单元中***相对于网格中心点的偏移距离来完成对染色体***相位置的预测,利用该方法能够提升模型进行染色体***相位置预测的准确率,并且能够加快神经网络模型训练时的收敛速度;
4、相比于利用传统的计算机图像技术对样本图像进行阈值分割并且利用图像形态学操作和聚类分类算法进行连通域筛选来获得染色体***相,本发明利用深度学习技术来完成染色体***相的定位,能够更有效的区分背景杂质和***相目标,并且能够有效的;
5、利用传统机器学习方法进行染色体***相的定位,检测效果通常依赖于人工提取的***相特征的质量,并且能够利用的特征有限,本发明利用深度学习的方法来进行染色体***相的定位,能够通过训练自动提取***相的深层特征,并且能够通过大量的样本来进一步的提升模型的泛化性,对于制片流程和成像质量差异较大的样本,也能够通过添加训练样本来提升模型对该类样本的检测能力;
6、本发明利用CSPN模块来进行特征提取,相比于只采用单一的卷积层来进行特征提取,利用该模块能够更有效的提取染色体***相的深层特征,采用了层次化特征融合的方式来提升模型在10倍镜下对小目标的检测准确率,同时利用截断梯度流的方式来防止过多的重复梯度信息被用于模型的训练,能够有效的防止梯度***问题;
7、为了提升模型训练的效果,本发明在染色体检测和排序模型的训练过程中都利用所设计的数据预处理算法对训练集样本进行了特征增强,分别采用了归一化和Z-Score标准化的方式对样本图像进行了处理,使特征分布更加集中,通过该方法进行训练能够有效的提升模型对样本特征的学习能力,使模型的训练速度和训练结果都有所提升;
8、本发明通过训练深度学习模型对分割出的***相图像进行特征提取和排序能够大大提升排序效果,通过将分割出的***相图像拼接成一个张量来进行并行计算,能够进一步减小额外模型计算对算法检测速度带来的影响。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,包括如下步骤:
步骤S1:开始;
步骤S2:显微镜扫描读取待检测的染色体样本图像,通过人工标注出所扫描样本图像中的染色体***相目标,并对标记好的标签进行多轮检查,防止错误标记对模型训练带来的负面影响,获取用于模型训练的训练集;
步骤S3:每次取出训练集中的一部分染色体样本图像进行数据增强,随机选取四张图像进行拼接,并在拼接所获得的图像上随机复制一定比例的染色体***相目标,得到增强过的染色体样本图像;
步骤S4:将增强过的染色体样本图像进行归一化处理,从而获取输入***相定位模型的输入张量A;
步骤S5:将输入张量A输入到***相定位模型中进行计算得到输出张量C,从而预测***相目标位置,然后得到定位结果,然后训练***相定位模型;
步骤S6:根据定位结果置裁剪出染色体***相图像,利用人工对该染色体***相图像进行等级评定,再次获取标签,经过多轮的标签检查,防止错误标记对模型训练带来的负面影响,最终获取用于模型训练的训练集;
步骤S7:利用训练样本增强算法对训练集进行随机反转和旋转,并进行Z-Score标准化处理,选取训练集中的一部分染色体***相图像将尺寸放缩到96×96,拼接预处理过后的染色体***相图像为一个张量,最终获取用于训练染色体***相排序模型的输入张量B;
步骤S8:将输入张量B输入到***相排序模型中计算得到输出张量H,然后训练***相排序模型,与此同时利用该输出张量H预测所有输入***相图像的等级类别归类,并根据等级对所有的***相样本进行排序,有限输出质量等级更高的***相目标,从而输出***相扫描结果;
步骤S9:判断是否结束***相扫描,若否则跳到步骤S2,否则结束。
3.根据权利要求1所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述训练***相定位模型的流程如下:
步骤C1:计算目标损失值Lobj和边界框损失值Lbox,所述
所述p表示***相定位模型预测边界框内存在***相的概率,所述z表示对应位置实际情况下是否存在边界框,z=0表示不存在,z=1表示存在,所述α表示为存在***相(z=1)和不存在***相(z=0)的平衡权重参数,所述β用来减小易分类样本对总体损失值的贡献,所述
所述Dp表示预测边界框与实际边界框的最小闭包区域的对角线距离,所述A表示预测边界框与实际边界框的交并比,所述γ用来衡量两个边界框长宽比的相似性,
表示实际边界框的高,所述wp表示预测边界框的宽,所述hp表示预测边界框的高;
步骤C2:计算总损失值lossa,所述,lossa=Lobj+λLbox,λ为平衡两种损失值在总损失值中的占比;
步骤C3:对总损失值lossa进行反向求导更新优化***相定位模型的网络权重参数,至此完成一轮模型的训练,记录总损失值lossa;
步骤C4:重复步骤C1,根据所记录的总损失值lossa绘制损失曲线,观察损失曲线,当***相定位模型的总损失值lossa收敛时停止训练,从而完成训练***相定位模型。
5.根据权利要求1所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述训练***相排序模型的流程如下:
步骤q3:对模型的损失值lossb进行反向求导更新优化***相排序模型的网络权重参数,至此完成一轮模型的训练,记录模型的损失值lossb;
步骤q4:重复步骤q3,根据所记录的模型的损失值lossb绘制损失曲线,观察损失曲线,当模型的损失值lossb收敛时停止训练,从而完成训练***相排序模型。
6.根据权利要求1所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述***相定位模型的神经网络模型包括特征提取层、特征融合层、输出层,所述特征提取层利用CSPN模块进行特征提取。
7.根据权利要求6所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述将输入张量A输入到***相定位模型中进行计算的过程为通过特征提取层获取特征张量,然后利用上采样获取两个不同尺度的特征张量,分别与特征提取层中对应尺度的特征张量通过特征融合层进行融合,通过输出层最终得到输出张量C。
8.根据权利要求1所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述***相排序模型的神经网络模型包括特征提取层、全连接层、输出层,所述特征提取层利用CSPN模块进行特征提取。
9.根据权利要求8所述一种基于多尺度特征融合的染色体***相定位与排序的方法,其特征在于,所述将输入张量B输入到***相排序模型中计算的过程为将输入张量B输入到***相排序模型中进行计算,经过CSPN模块完成特征提取,从而获取特征张量,并利用全连接层对该特征张量进行序列化,通过输出层最终得到输出张量H。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095809.3A CN113807259B (zh) | 2021-09-18 | 2021-09-18 | 一种基于多尺度特征融合的染色体***相定位与排序的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095809.3A CN113807259B (zh) | 2021-09-18 | 2021-09-18 | 一种基于多尺度特征融合的染色体***相定位与排序的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807259A true CN113807259A (zh) | 2021-12-17 |
CN113807259B CN113807259B (zh) | 2022-11-18 |
Family
ID=78939617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111095809.3A Active CN113807259B (zh) | 2021-09-18 | 2021-09-18 | 一种基于多尺度特征融合的染色体***相定位与排序的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807259B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020047738A1 (zh) * | 2018-09-04 | 2020-03-12 | 安徽中科智能感知大数据产业技术研究院有限责任公司 | 多尺度特征融合网络结合定位模型的害虫自动计数方法 |
CN112288706A (zh) * | 2020-10-27 | 2021-01-29 | 武汉大学 | 一种自动化的染色体核型分析以及异常检测方法 |
CN112330652A (zh) * | 2020-11-13 | 2021-02-05 | 深圳大学 | 基于深度学习的染色体识别方法、装置和计算机设备 |
CN112381806A (zh) * | 2020-11-18 | 2021-02-19 | 上海北昂医药科技股份有限公司 | 基于多尺度融合方法的双着丝粒畸变染色体分析预测方法 |
CN113313678A (zh) * | 2021-05-20 | 2021-08-27 | 上海北昂医药科技股份有限公司 | 一种基于多尺度特征融合的***形态学自动分析方法 |
CN113393461A (zh) * | 2021-08-16 | 2021-09-14 | 北京大学第三医院(北京大学第三临床医学院) | 基于深度学习的***中期染色体图像质量筛选方法和*** |
-
2021
- 2021-09-18 CN CN202111095809.3A patent/CN113807259B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020047738A1 (zh) * | 2018-09-04 | 2020-03-12 | 安徽中科智能感知大数据产业技术研究院有限责任公司 | 多尺度特征融合网络结合定位模型的害虫自动计数方法 |
CN112288706A (zh) * | 2020-10-27 | 2021-01-29 | 武汉大学 | 一种自动化的染色体核型分析以及异常检测方法 |
CN112330652A (zh) * | 2020-11-13 | 2021-02-05 | 深圳大学 | 基于深度学习的染色体识别方法、装置和计算机设备 |
CN112381806A (zh) * | 2020-11-18 | 2021-02-19 | 上海北昂医药科技股份有限公司 | 基于多尺度融合方法的双着丝粒畸变染色体分析预测方法 |
CN113313678A (zh) * | 2021-05-20 | 2021-08-27 | 上海北昂医药科技股份有限公司 | 一种基于多尺度特征融合的***形态学自动分析方法 |
CN113393461A (zh) * | 2021-08-16 | 2021-09-14 | 北京大学第三医院(北京大学第三临床医学院) | 基于深度学习的***中期染色体图像质量筛选方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113807259B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103518224B (zh) | 用于分析微生物生长的方法 | |
CN109829882B (zh) | 一种糖尿病视网膜病变分期预测方法 | |
CN111724355B (zh) | 一种鲍鱼体型参数的图像测量方法 | |
CN110827310A (zh) | Ct图像自动检测方法与*** | |
CN113763340B (zh) | 基于多任务深度学习强直性脊柱炎的自动分级方法 | |
CN113658174B (zh) | 基于深度学习和图像处理算法的微核组学图像检测方法 | |
CN105046259B (zh) | 基于多特征融合的日冕物质抛射检测方法 | |
CN112819821B (zh) | 一种细胞核图像检测方法 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
CN111126393A (zh) | 车辆外观改装判断方法、装置、计算机设备及存储介质 | |
US20220058369A1 (en) | Automated stereology for determining tissue characteristics | |
CN115457044B (zh) | 基于类激活映射的路面裂缝分割方法 | |
CN115953666B (zh) | 一种基于改进Mask-RCNN的变电站现场进度识别方法 | |
CN112381806A (zh) | 基于多尺度融合方法的双着丝粒畸变染色体分析预测方法 | |
CN115019103A (zh) | 基于坐标注意力群组优化的小样本目标检测方法 | |
CN115359264A (zh) | 一种密集型分布的粘连细胞深度学习识别方法 | |
CN117252842A (zh) | 一种飞机蒙皮缺陷检测及网络模型训练方法 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
CN113313678A (zh) | 一种基于多尺度特征融合的***形态学自动分析方法 | |
CN117422699A (zh) | 公路检测方法、装置、计算机设备及存储介质 | |
Kirthiga et al. | A survey on crack detection in concrete surface using image processing and machine learning | |
CN112465821A (zh) | 一种基于边界关键点感知的多尺度害虫图像检测方法 | |
CN113807259B (zh) | 一种基于多尺度特征融合的染色体***相定位与排序的方法 | |
Iqbal et al. | Towards Efficient Segmentation and Classification of White Blood Cell Cancer Using Deep Learning | |
CN113705729B (zh) | 垃圾分类模型建模方法、垃圾分类方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method for chromosome division phase localization and sorting based on multi-scale feature fusion Granted publication date: 20221118 Pledgee: Industrial Bank Co.,Ltd. Shanghai Pengpu Sub branch Pledgor: SHANGHAI BEION PHARMACEUTICAL TECHNOLOGY CO.,LTD. Registration number: Y2024310000281 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |