CN114140668A - 胃部部位识别模型训练方法、部位识别方法及装置 - Google Patents
胃部部位识别模型训练方法、部位识别方法及装置 Download PDFInfo
- Publication number
- CN114140668A CN114140668A CN202111498820.4A CN202111498820A CN114140668A CN 114140668 A CN114140668 A CN 114140668A CN 202111498820 A CN202111498820 A CN 202111498820A CN 114140668 A CN114140668 A CN 114140668A
- Authority
- CN
- China
- Prior art keywords
- stomach
- training
- cascade
- image
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000002784 stomach Anatomy 0.000 title claims abstract description 115
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000002775 capsule Substances 0.000 claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims description 19
- 230000002496 gastric effect Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000747 cardiac effect Effects 0.000 claims description 3
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 abstract 2
- 229960004134 propofol Drugs 0.000 abstract 2
- 230000006870 function Effects 0.000 description 19
- 238000001514 detection method Methods 0.000 description 4
- 210000002318 cardia Anatomy 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 210000001187 pylorus Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30092—Stomach; Gastric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种胃部部位识别模型训练方法,包括:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集;通过ResNest主干网络,提取该训练样本集的高维特征;将该高维特征、该目标区域的轮廓及该部位标签输入Cascade Mask RCNN网络;生成每个已标注的样本图像的预测框体;根据每个该proposal及其对应的该目标区域的轮廓,得到IOU;对于各个级联检测器采用不同的预设IOU阈值范围来将各个该已标注的样本图像划分为正样本图像或负样本图像;前一该级联检测器的输出作为后一该级联检测器的输入,直至完成各个该级联检测器的训练;当损失函数满足预设条件时,得到胃部部位识别模型。该模型可以对胶囊内窥镜采集的胃部图像进行自动识别,实现对图像的部位分类、分割及边界框界定。
Description
技术领域
本发明涉及医疗器械技术械领域,尤其涉及一种胃部部位识别模型训练方法、部位识别方法、装置及存储介质。
背景技术
现有的磁控胶囊内窥镜***存在大磁体和胶囊内窥镜位置关系的不确定性,在临床检查中,医生依靠对胶囊内窥镜位置的估计和个人经验,手动操作磁控设备控制胶囊内窥镜的位置和姿态。因为缺少具体的胶囊内窥镜位置坐标信息,医生只能根据胶囊内窥镜采集的图像来判断胶囊内窥镜的大致位置,这导致检查结果的准确性及全面性受到医生的经验影响较大。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供一种胃部部位识别模型训练方法、部位识别方法、装置及存储介质,应用于胶囊内窥镜,旨在能够通过训练后的胃部部位识别模型对胶囊内窥镜采集的图像进行识别,识别出图像对应的胃部部位,进而实现基于视觉引导的磁控胶囊内窥镜的自动巡航扫描。
本发明实施例提供一种胃部部位识别模型训练方法,应用于胶囊内窥镜,包括:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
通过ResNest主干网络,提取所述训练样本集的高维特征;
将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;
生成每个所述已标注的样本图像的至少一个预测框体;
根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
当损失函数满足预设条件时,得到胃部部位识别模型。
在一些实施例中,通过ResNest主干网络,提取所述训练样本集的高维特征包括:
通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;
通过元素求和对至少两个所述分支进行融合,得到融合结果;
对所述融合结果进行全局平均池化处理,生成通道统计信息;
通过两个全连接层和Softmax函数,得到通道权重;
将通道与所述通道权重融合,得到融合后的cardinal组;
各个所述融合后的cardinal组沿通道方向串联;
输出结果,所述结果包括串联的结果V和快捷链接X。
在一些实施例中,所述训练方法采用Cascade Mask RCNN网络进行分类预测。
在一些实施例中,所述Cascade Mask RCNN网络对所述已标注的样本的兴趣区域进行预测,得到类别标签及矩形框坐标。
本发明实施例提供一种胃部部位识别模型训练装置,包括:
标注单元:配置为标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
特征提取单元,配置为通过ResNest主干网络,提取所述训练样本集的高维特征;
输入单元,配置为将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;
预测框体生成单元,配置为生成每个所述已标注的样本图像的至少一个预测框体;
IOU计算单元,配置为根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
划分单元,配置为对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
训练单元,配置为前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
模型确定单元,配置为当损失函数满足预设条件时,得到胃部部位识别模型。
在一些实施例中,所述特征提取单元包括:
卷积子单元,配置为通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;
第一融合子单元,配置为通过元素求和对至少两个所述分支进行融合,得到融合结果;
池化处理子单元,配置为对所述融合结果进行全局平均池化处理,生成通道统计信息;
计算子单元,配置为通过两个全连接层和Softmax函数,得到通道权重;
第二融合子单元,配置为将通道与所述通道权重融合,得到融合后的cardinal组;
串联子单元,配置为各个所述融合后的cardinal组沿通道方向串联;
输出子单元,配置为输出结果,所述结果包括串联的结果V和快捷链接X。
本发明实施例提供一种应用上述任意一实施例所述的胃部部位识别模型进行胃部部位识别的方法,应用于胶囊内窥镜,包括如下步骤:
接收胶囊内窥镜拍摄的胃部部位图像;
将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。
本发明实施例提供一种胃部部位识别装置,包括:
第一接收单元,配置为接收胶囊内窥镜拍摄的胃部部位图像;
输入单元,配置为将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
第二接收单元,配置为接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述任意一实施例所述的方法中所执行的操作。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述实施例所述的方法中所执行的操作。
本发明实施例提供的一种胃部部位识别模型训练方法,包括:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;通过ResNest主干网络,提取所述训练样本集的高维特征;将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;生成每个所述已标注的样本图像的至少一个预测框体;根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;当损失函数满足预设条件时,得到胃部部位识别模型。以Cascade Mask Rcnn ResNeSt 200作为初始模型,用已标注的胃部部位图像对初始模型进行训练,得到胃部部位识别模型,该胃部部位识别模型可以对胶囊内窥镜采集的胃部图像进行自动识别,实现对图像进行部位分类、分割以及边界框的界定。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。
图1为本发明实施例中一种胃部部位识别模型训练方法的流程图;
图2为本发明实施例中另一种胃部部位识别模型训练方法的流程图;
图3为本发明实施例中一种胃部部位识别模型训练装置的结构示意图;
图4为本发明实施例中另一种胃部部位识别模型训练装置的结构示意图;
图5为本发明实施例中一种胃部部位识别方法的流程图;
图6为本发明实施例中一种胃部部位识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
目前,在目标检测、实例分割和语义分割等领域,深度学习均取得了突破性的进展。在深度学习技术发展起来之前,人体胃部部位的自动识别还未能实现;深度学习结合计算机视觉,使得这一目标成为可能。而要实现磁控胶囊内窥镜的自动巡航,部位的自动识别则成为关键性的基础。
本发明实施例提供一种胃部部位识别模型训练方法及胃部部位识别方法,应用于胶囊内窥镜,通过训练后的胃部部位识别模型对胃部目标部位进行识别,不仅对目标部位进行检测,并对其做出精确分割,此方法属于计算机视觉中的实例分割。根据磁控胶囊内窥镜的专家共识,选取了9个具有明显特征和位置信息的部位,分别为贲门、胃底、胃小弯、胃角、胃窦、幽门、上胃体腔、下胃体腔和胃大弯。首先对胶囊内窥镜采集的胃部的图像进行部位的标注,然后由经验丰富的专家医生对标注图像进行审核,通过审核的标注图像再输入到深度学习模型中进行训练。如图1所示,本发明实施例提供一种胃部部位识别模型训练方法,应用于胶囊内窥镜,包括如下步骤:
S01:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
S02:通过ResNest主干网络,提取所述训练样本集的高维特征;
S03:将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade MaskRCNN网络;
S04:生成每个所述已标注的样本图像的至少一个预测框体;
S05:根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
S06:对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
S07:前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
S08:当损失函数满足预设条件时,得到胃部部位识别模型。
具体地,所有的样本图像是由胶囊内窥镜在对胃部进行检查过程中拍摄的胃部的图像,首先对所有样本图像进行去重处理,保留相似度小于80%的样本图像。采用多边形框标注样本图像的目标区域轮廓,并添加部位标签。每张图像至少标注两次,之后计算至少两个目标区域轮廓的重合度,重合度大于80%的视为对比通过,反之则不通过,返回重新标注;对通过的标注再次进行审核和确认,确定最终的标注框和标签,得到已标注的样本图像,并保存用以模型的训练。
标注时须按照如下要求进行:对能够识别的部位进行标注,一张图像中可包含多个分割标注区域,但避免区域标注框互相重叠(胃窦及幽门除外);避免标注明显被粘液、气泡等遮挡的区域;使用多边形框标注时,避免使用凹多边形,即中心点需保持在多边形中;由于镜头晃动、未聚焦导致的模糊图像,不予标注;近拍的图像,难以分辨区域的图像,不予标注;胃部明显收缩的图像,不予标注。本发明实施例采用的深度学***行堆叠相同拓扑结构的模块代替原来ResNet的三层卷积的模块,在不明显增加参数量级的情况下提升了模型的准确率,同时由于拓扑结构相同,超参数也减少了,200指的是神经网络的层数。因此我们采用的深度学习模型是三种方法的结合,使用的框架为Pytorch+detectron2,包括Mask Rcnn,Cascade,ResNeSt 200。
本发明实施例采用ResNest作为主干网络结构,用以提取训练样本集中已标注样本图像的高维特征,其中高维特征是指经多个卷积操作后得到的特征。
如图2所示,进一步地,S02通过ResNest主干网络,提取所述训练样本集的高维特征包括如下步骤:
S0201:通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;
S0202:通过元素求和对至少两个所述分支进行融合,得到融合结果;
S0203:对所述融合结果进行全局平均池化处理,生成通道统计信息;
S0204:通过两个全连接层和Softmax函数,得到通道权重;
S0205:将通道与所述通道权重融合,得到融合后的cardinal组;
S0206:各个所述融合后的cardinal组沿通道方向串联;
S0207:输出结果,所述结果包括串联的结果V和快捷链接X。
具体地,ResNest作为一个单独的计算网络,主要包含特征图组和注意力分散操作。特征组:每一张输入的已标注样本图像都可以被划分为多个特征组,数量取决于定义的超参数cardinality K,因此也可称之为cardinal组。在每一个cardinal组之中,又被再次分成R个Split单元。因此总的特征组数量为G=KR,后续对于每一个组进行一系列的变换运算。Split的方法是使用多个卷积核对输入进行卷积,以形成多个分支。
上标k指代cardinal的组数,下标c指代融合后的通道数,H和W分别指代特征图像的高和宽。
经过全局平均池化操作后,网络仅仅得到的是一个全局描述,这个描述并不能作为该通道的权重。基于此,我们通过两个全连接层,包括样本正则化、激励函数ReLU和Softmax函数,得到全面的通道级别的依赖。接着,在cardinal组内,将各个Split单元结合权重进行融合,采用的是乘积相加的形式。经过融合后的cardinal组,沿通道方向进行串联:
V=Concat(V1,V2,…VK)
最终ResNest模块的输出Y是由串联的结果V和一个快捷链接X叠加得到:Y=V+X。
输入的训练样本集经过主干网络ResNest提取特征之后,就进入到Mask CascadeRCNN网络部分,一同被输入到该网络的还有已标注的样本图像的标注信息,标注信息包括目标区域的轮廓及部位标签。Cascade RCNN网络是从Faster RCNN网络的基础上发展而来的,也继续沿用了Faster RCNN网络中核心的Region预测框体Network(RPN)。在训练阶段,RPN网络计算并生成预测框体,即模型分割出的目标区域,并送入到后续网络计算每个预测框体和金标准(标注的样本图像的目标区域的轮廓)之间的IOU(intersection overunion),设定IOU阈值,比如0.5,将计算出的IOU与IOU阈值进行比较,IOU大于或等于IOU阈值时,对应的预测框体为正样本;IOU小于IOU阈值时,对应的预测框体为负样本,分别并对这些正样本及负样本进行采样,再送入ROI Pooling部分,最后进行类别的分类和边界框的回归。然而在推理阶段,由于并不知道金标准,因此无法计算IOU,直接进入ROI Pooling部分进行分类和边界框回归,这就导致了在训练阶段的预测框体输入质量高,而在推理阶段的质量低,这样的不匹配造成了识别效果的降低。在实验中,我们观察到当输入的计算出的IOU与设置的IOU阈值接近,则这个模型的识别结果会比其他输入IOU的模型好。CascadeRCNN正是基于这两点而提出,采用了检测器级联的结构,设置不同的预设IOU阈值界定样本训练模型,前一个检测器的输出是后一个检测器的输入,预设IOU阈值逐步上升,比如依次是0.5,0.6,0.7。它的核心是,使用不同的预设IOU阈值划分正负样本,让每一级的检测器都专注于检测IOU在某一范围内的预测框体,因为输出IOU普遍大于输入IOU,因此检测效果会越来越好。
模型训练的目标是最小化损失函数,本发明实施例的部位识别的任务目标包括目标部位的检测、分类和分割,因此损失函数由三部分构成:
L=Lcls+Lbox+Lmask
在每一级检测器t中,头部网络中都包含一个分类器ht和一个回归器ft,专注于该级预设IOU阈值ut下的优化(ut>ut-1)。其中分类和边界框的损失函数可以表示为:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt]Lbox(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
g表示输入xt的金标注结果,λ=1是衡量分类和边界框损失函数的平衡参数,yt表示在预设IOU阈值ut下的标签。分割部分的损失是跟分类和边界框并行计算的,如果有k个分类,特征图的分别率为m×m,那么分割部分的损失函数的输出维度为k×m×m,对于m×m中的每个点,都会输出k个二值掩膜,每个类别使用sigmoid函数输出。在计算损失时,并不是每个类别的sigmoid输出都计算二值交叉熵损失,而是该像素属于哪个类,哪个类的sigmoid输出才要计算损失。并且在测试的时候,是通过分类分支预测的类别来选择相应的掩膜预测。这样使得分类预测和掩膜预测彻底解耦合。
当模型达到收敛,即损失函数满足预设条件时,导出权重文件,得到胃部部位识别模型。
在一些实施例中,该胃部部位识别模型训练方法还包括:将测试样本集输入所述胃部部位识别模型,得到识别结果;当识别结果中的预测框体与真实标注框体的重合度IOU大于或等于预设IOU阈值时,且预测标签与标注的部位标签一致时,识别结果正确,其中真实标注框体即为标注的样本图像的目标区域的轮廓;当识别结果中的预测框体与真实标注框体的重合度IOU小于预设IOU阈值时,或者预测标签与标注的部位标签不一致时,识别结果错误。最终根据识别结果正确的统计数量及识别结果错误的统计数量来评价胃部部位识别模型的好坏,比如可以根据统计数量来计算该胃部部位识别模型的召回率Recall及精确率Precision,对于每一类的真实标签,召回率为被正确识别的数量占真实标签数量的百分比;精确率为被识别为某个部位中真实为该部位的百分比。
计算公式如下:
TP:True positive,FN:False negative,FP:False positive
以贲门为例,在测试集中真实标注框体数有244个,模型识别出了223个,而正确的识别结果有206个,由此计算可得:召回率=206/244=84.4%,精确率=206/223=92.4%。
本发明实施例提供的一种胃部部位识别模型训练方法,包括:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;通过ResNest主干网络,提取所述训练样本集的高维特征;将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;生成每个所述已标注的样本图像的至少一个预测框体;根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;当损失函数满足预设条件时,得到胃部部位识别模型。以Cascade Mask Rcnn ResNeSt 200作为初始模型,用已标注的胃部部位图像对初始模型进行训练,得到胃部部位识别模型,该胃部部位识别模型可以对胶囊内窥镜采集的胃部图像进行自动识别,实现对图像进行部位分类、分割以及边界框的界定。
如图3所示,本发明实施例提供一种胃部部位识别模型训练装置,包括:
标注单元:配置为标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
特征提取单元,配置为通过ResNest主干网络,提取所述训练样本集的高维特征;
输入单元,配置为将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;
预测框体生成单元,配置为生成每个所述已标注的样本图像的至少一个预测框体;
IOU计算单元,配置为根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
划分单元,配置为对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
训练单元,配置为前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
模型确定单元,配置为当损失函数满足预设条件时,得到胃部部位识别模型。
如图4所示,在一些实施例中,特征提取单元包括:
卷积子单元,配置为通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;
第一融合子单元,配置为通过元素求和对至少两个所述分支进行融合,得到融合结果;
池化处理子单元,配置为对所述融合结果进行全局平均池化处理,生成通道统计信息;
计算子单元,配置为通过两个全连接层和Softmax函数,得到通道权重;
第二融合子单元,配置为将通道与所述通道权重融合,得到融合后的cardinal组;
串联子单元,配置为各个所述融合后的cardinal组沿通道方向串联;
输出子单元,配置为输出结果,所述结果包括串联的结果V和快捷链接X。
关于胃部部位识别模型训练装置的具体描述可以参见上述实施例中对于胃部部位识别模型训练方法中对应部分的描述,在此不再赘述。
如图5所示,本发明实施例提供一种应用上述任意一实施例所述的胃部部位识别模型进行胃部部位识别的方法,应用于胶囊内窥镜,包括如下步骤:
S21:接收胶囊内窥镜拍摄的胃部部位图像;
S22:将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
S23:接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。
具体地,实时接收胶囊内窥镜拍摄的胃部部位图像,将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度,其中预测标签为胃部部位名称,比如贲门、胃底、胃小弯、胃角、胃窦、幽门、上胃体腔、下胃体腔或胃大弯;分割区域坐标是指掩膜轮廓坐标,坐标包括X轴坐标和Y轴坐标;掩膜质心坐标信息包括X轴坐标、Y轴坐标。
本发明实施例提供一种胃部部位识别方法,应用于胶囊内窥镜,基于胃部部位识别模型对胃部部位进行识别,能够自动、快速、精确地对目标部位做出检测和分割,进而对于磁控胶囊内窥镜胃部检查,提供关键的信息,辅助医生判断和操作。
如图6所示,本发明实施例提供一种胃部部位识别装置,包括:
第一接收单元,配置为接收胶囊内窥镜拍摄的胃部部位图像;
输入单元,配置为将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
第二接收单元,配置为接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。关于胃部部位识别装置的具体描述可以参见上述实施例对胃部部位识别方法中对应部分的描述,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述实施例的胃部部位识别模型训练方法中所具有的操作。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述实施例的胃部部位识别方法中所具有的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一种计算机可以存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (10)
1.一种胃部部位识别模型训练方法,应用于胶囊内窥镜,其特征在于,包括:标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
通过ResNest主干网络,提取所述训练样本集的高维特征;
将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade Mask RCNN网络;
生成每个所述已标注的样本图像的至少一个预测框体;
根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
当损失函数满足预设条件时,得到胃部部位识别模型。
2.根据权利要求1所述的胃部部位识别模型训练方法,其特征在于,通过ResNest主干网络,提取所述训练样本集的高维特征包括:
通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;通过元素求和对至少两个所述分支进行融合,得到融合结果;
对所述融合结果进行全局平均池化处理,生成通道统计信息;
通过两个全连接层和Softmax函数,得到通道权重;
将通道与所述通道权重融合,得到融合后的cardinal组;
各个所述融合后的cardinal组沿通道方向串联;
输出结果,所述结果包括串联的结果V和快捷链接X。
3.根据权利要求1所述的胃部部位识别模型训练方法,其特征在于,所述训练方法采用Cascade Mask RCNN网络进行分类预测。
4.根据权利要求3所述的胃部部位识别模型训练方法,其特征在于,所述Cascade MaskRCNN网络对所述已标注的样本的兴趣区域进行预测,得到类别标签及矩形框坐标。
5.一种胃部部位识别模型训练装置,其特征在于,包括:
标注单元:配置为标注样本图像的目标区域的轮廓及部位标签,得到训练样本集,所述训练样本集包括至少两个已标注的样本图像;
特征提取单元,配置为通过ResNest主干网络,提取所述训练样本集的高维特征;输入单元,配置为将所述高维特征、所述目标区域的轮廓及所述部位标签输入Cascade MaskRCNN网络;
预测框体生成单元,配置为生成每个所述已标注的样本图像的至少一个预测框体;IOU计算单元,配置为根据每个所述预测框体及其对应的所述目标区域的轮廓,得到IOU;
划分单元,配置为对于各个级联检测器采用不同的预设IOU阈值范围来将各个所述已标注的样本图像划分为正样本图像或负样本图像;
训练单元,配置为前一所述级联检测器的输出作为后一所述级联检测器的输入,直至完成各个所述级联检测器的训练;
模型确定单元,配置为当损失函数满足预设条件时,得到胃部部位识别模型。
6.根据权要求5所述的胃部部位识别模型训练装置,其特征在于,所述特征提取单元包括:
卷积子单元,配置为通过至少两个卷积核对所述已标注的样本图像进行卷积,得到至少两个分支;
第一融合子单元,配置为通过元素求和对至少两个所述分支进行融合,得到融合结果;
池化处理子单元,配置为对所述融合结果进行全局平均池化处理,生成通道统计信息;
计算子单元,配置为通过两个全连接层和Softmax函数,得到通道权重;
第二融合子单元,配置为将通道与所述通道权重融合,得到融合后的cardinal组;串联子单元,配置为各个所述融合后的cardinal组沿通道方向串联;
输出子单元,配置为输出结果,所述结果包括串联的结果V和快捷链接X。
7.一种应用权利要求1-6任意一项所述的胃部部位识别模型进行胃部部位识别的方法,应用于胶囊内窥镜,其特征在于,包括如下步骤:
接收胶囊内窥镜拍摄的胃部部位图像;
将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。
8.一种胃部部位识别装置,其特征在于,包括:
第一接收单元,配置为接收胶囊内窥镜拍摄的胃部部位图像;
输入单元,配置为将所述胃部部位图像输入胃部部位识别模型,以使所述胃部部位识别模型对所述胃部部位图像进行识别;
第二接收单元,配置为接收所述胃部部位图像的识别结果,所述识别结果包括预测标签、分割区域坐标信息、掩膜质心坐标信息、掩膜面积及预测标签置信度。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至4所述的方法中所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求7所述的方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111498820.4A CN114140668A (zh) | 2021-12-09 | 2021-12-09 | 胃部部位识别模型训练方法、部位识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111498820.4A CN114140668A (zh) | 2021-12-09 | 2021-12-09 | 胃部部位识别模型训练方法、部位识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114140668A true CN114140668A (zh) | 2022-03-04 |
Family
ID=80385198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111498820.4A Pending CN114140668A (zh) | 2021-12-09 | 2021-12-09 | 胃部部位识别模型训练方法、部位识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114140668A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511887A (zh) * | 2022-03-31 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 组织图像的识别方法、装置、可读介质和电子设备 |
CN115223193A (zh) * | 2022-06-19 | 2022-10-21 | 浙江爱达科技有限公司 | 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法 |
CN115661138A (zh) * | 2022-12-13 | 2023-01-31 | 北京大学第三医院(北京大学第三临床医学院) | 基于dr影像的人体骨骼轮廓检测方法 |
CN117974668A (zh) * | 2024-04-02 | 2024-05-03 | 青岛美迪康数字工程有限公司 | 基于ai的新型胃黏膜可视度评分量化方法、装置和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615037A (zh) * | 2018-05-31 | 2018-10-02 | 武汉大学人民医院(湖北省人民医院) | 基于深度学习的可控胶囊内镜操作实时辅助***及操作方法 |
CN110335669A (zh) * | 2019-06-03 | 2019-10-15 | 武汉大学 | 一种人工智能扫描内窥影像样本库管理*** |
CN111489327A (zh) * | 2020-03-06 | 2020-08-04 | 浙江工业大学 | 一种基于Mask R-CNN算法的癌细胞图像检测与分割方法 |
CN111916206A (zh) * | 2020-08-04 | 2020-11-10 | 重庆大学 | 一种基于级联的ct影像辅助诊断*** |
CN111932518A (zh) * | 2020-08-12 | 2020-11-13 | 杭州深睿博联科技有限公司 | 一种深度学习的全景牙片病灶检测及分割方法及装置 |
CN113177912A (zh) * | 2021-04-13 | 2021-07-27 | 北京科技大学 | 一种基于深度学习的胃息肉检测方法及装置 |
US20210334994A1 (en) * | 2020-04-21 | 2021-10-28 | Daegu Gyeongbuk Institute Of Science And Technology | Multiple instance learning method |
-
2021
- 2021-12-09 CN CN202111498820.4A patent/CN114140668A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615037A (zh) * | 2018-05-31 | 2018-10-02 | 武汉大学人民医院(湖北省人民医院) | 基于深度学习的可控胶囊内镜操作实时辅助***及操作方法 |
CN110335669A (zh) * | 2019-06-03 | 2019-10-15 | 武汉大学 | 一种人工智能扫描内窥影像样本库管理*** |
CN111489327A (zh) * | 2020-03-06 | 2020-08-04 | 浙江工业大学 | 一种基于Mask R-CNN算法的癌细胞图像检测与分割方法 |
US20210334994A1 (en) * | 2020-04-21 | 2021-10-28 | Daegu Gyeongbuk Institute Of Science And Technology | Multiple instance learning method |
CN111916206A (zh) * | 2020-08-04 | 2020-11-10 | 重庆大学 | 一种基于级联的ct影像辅助诊断*** |
CN111932518A (zh) * | 2020-08-12 | 2020-11-13 | 杭州深睿博联科技有限公司 | 一种深度学习的全景牙片病灶检测及分割方法及装置 |
CN113177912A (zh) * | 2021-04-13 | 2021-07-27 | 北京科技大学 | 一种基于深度学习的胃息肉检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
HANG ZHANG 等;: "《ResNeSt: Split-Attention Networks》", 《ARXIV:SUBMIT/3129194》 * |
ZHAOWEI CAI 等;: "《Cascade R-CNN: Delving into High Quality Object Detection》", 《ARXIV:1712.00726V1》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511887A (zh) * | 2022-03-31 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 组织图像的识别方法、装置、可读介质和电子设备 |
CN114511887B (zh) * | 2022-03-31 | 2022-07-05 | 北京字节跳动网络技术有限公司 | 组织图像的识别方法、装置、可读介质和电子设备 |
CN115223193A (zh) * | 2022-06-19 | 2022-10-21 | 浙江爱达科技有限公司 | 一种基于病灶特征重要性的胶囊内窥镜图像病灶识别方法 |
CN115661138A (zh) * | 2022-12-13 | 2023-01-31 | 北京大学第三医院(北京大学第三临床医学院) | 基于dr影像的人体骨骼轮廓检测方法 |
CN117974668A (zh) * | 2024-04-02 | 2024-05-03 | 青岛美迪康数字工程有限公司 | 基于ai的新型胃黏膜可视度评分量化方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114140668A (zh) | 胃部部位识别模型训练方法、部位识别方法及装置 | |
EP3989119A1 (en) | Detection model training method and apparatus, computer device, and storage medium | |
CN111008974A (zh) | 多模型融合的股骨颈骨折区域定位和分割方法及*** | |
KR20180064863A (ko) | 딥러닝을 이용한 수완부 방사선 영상으로부터 골 성숙도(smi) 자동 분석방법 | |
CN111611851B (zh) | 模型生成方法、虹膜检测方法及装置 | |
US20230117134A1 (en) | A method of and system for calcium scoring of coronary arteries | |
CN114821189B (zh) | 一种基于眼底图像的病灶图像分类与识别方法 | |
CN112991280A (zh) | 视觉检测方法、***及电子设备 | |
KR102188649B1 (ko) | 영상 처리 장치 및 방법 | |
Zeren et al. | Comparison of SSD and faster R-CNN algorithms to detect the airports with data set which obtained from unmanned aerial vehicles and satellite images | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其*** | |
Lee et al. | Enhancement for automatic extraction of RoIs for bone age assessment based on deep neural networks | |
CN112741651A (zh) | 一种内窥镜超声影像的处理方法及*** | |
CN112991281A (zh) | 视觉检测方法、***、电子设备及介质 | |
CN117649657A (zh) | 基于改进Mask R-CNN的骨髓细胞检测*** | |
CN114399731B (zh) | 一种单粗点监督下的目标定位方法 | |
Gangula et al. | Detection, classification and counting rbcs and wbcs using deep learning | |
Sadafi et al. | Active learning enhances classification of histopathology whole slide images with attention-based multiple instance learning | |
CN111160219B (zh) | 对象完整度评估方法、装置、电子设备及存储介质 | |
Kupas et al. | Solving the problem of imbalanced dataset with synthetic image generation for cell classification using deep learning | |
Chandana | Multi-class Cervical Cancer Classification using Transfer Learning-based Optimized SE-ResNet152 model in Pap Smear Whole Slide Images | |
Zhang et al. | Intelligent measurement of spinal curvature using cascade gentle AdaBoost classifier and region-based DRLSE | |
Kadir et al. | Fine-tuning of explainable CNNs for skin lesion classification based on dermatologists' feedback towards increasing trust | |
Seyedhashemi et al. | Detecting Tumors in MRI Scans using a Convolutional Neural Network | |
Li et al. | Microscopy image recognition method of stomatal open and closed states in living leaves based on improved YOLO-X |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220304 |
|
RJ01 | Rejection of invention patent application after publication |