CN112053399B

CN112053399B - 一种胶囊内镜视频中消化道器官的定位方法

Info

Publication number: CN112053399B
Application number: CN202010923742.7A
Authority: CN
Inventors: 王连生
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2024-02-09
Anticipated expiration: 2040-09-04
Also published as: CN112053399A

Abstract

本发明公开了一种胶囊内镜视频中消化道器官的定位方法，其包括步骤：S1、使用感知哈希算法对相似图片进行过滤，去除相似度较高的图片；S2、利用二分查找算法搜索目标位置；S3、对胶囊内镜图像进行分类。本发明通过相似图片过滤、目标位置搜索、图片分类实现了胶囊内镜视频中不同器官的分类，且分类结果准确，且使用的时间较短，实现了胶囊内镜视频中消化道器官的快速定位，解决了人工阅片工作量大、耗时长的难题。

Description

一种胶囊内镜视频中消化道器官的定位方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种胶囊内镜视频中消化道器官的定位方法。

背景技术

胶囊内镜进入人体内后会随着消化道的蠕动而移动，能够对传统消化内镜无法到达的部位进行拍摄，从而实现对消化道的全面观察。目前消化内镜图像的诊断主要依靠人工阅片，然而胶囊内镜以2Hz的拍摄频率产生数万帧图像数据，这极大地增加了医生的工作负荷，且耗时较长，效率较低。此外，大部分消化道疾病只会在特定器官中发生，因此，快速定位到目标器官、忽略无关内容能够减少阅片时间，提高诊疗效率。

在现有的工作中，最常见的方法是基于颜色和纹理特征来理解胶囊内镜图像，将手动提取的特征用于机器学习算法，对图像进行分类。但依赖于手动提取特征的方法不能充分利用图像特征，算法的准确率难以提高；而且对于实际应用也不够便利。

发明内容

为解决上述问题，本发明提供了一种胶囊内镜视频中消化道器官的定位方法。

本发明采用以下技术方案：

一种胶囊内镜视频中消化道器官的定位方法，其包括以下步骤：

S1、使用感知哈希算法对相似图片进行过滤，去除相似度较高的图片；

S2、利用二分查找算法搜索目标位置；

S3、对胶囊内镜图像进行分类。

进一步地，步骤S1具体包括以下步骤：

S11、将图片缩放到固定尺寸32×32，并且将结果保存为256阶的灰度图；

S12、计算所述灰度图的离散余弦相似度(DCT)，保留左上角的8×8个像素作为该图的最低频率表示；

S13、计算步骤S13得到的8×8个像素的均值，在这64个像素中，像素值比均值大的记为1，反之记为0，进而得到一个64位的编码串；

S14、比较两张图片对应的编码串，计算它们之间的汉明距离，该距离参数用于反映两个等长编码串的相似度；

S15、按图片之间的相似度将一段完整视频划分为若干个区间，在每一段区间中，只保留处于中间位置的一张图像，从而过滤视频中的冗余图像。

进一步地，步骤S15具体为：首先，将视频的第一帧图像作为一个区间的起始，对于视频序列中的每一帧图片，都计算其与最近区间的第一帧图像和最后一帧图像之间的汉明距离d1、d2，若d1和d2都大于预设的阈值t，则将当前图片作为下一区间的起点，然后，再计算，重复这一过程，最终能够将一段完整视频按图片之间的相似度划分为若干个区间，最后，在每一段区间中，只保留处于中间位置的一张图像，就可以过滤视频中的冗余图像。

进一步地，所述阈值设为6。

进一步地，步骤S2具体为：根据所拍摄的器官，分别使用0-3这四个数字为所有图像进行标注，将视频映射为一个基本有序的数组，此时，二分查找算法选择一个位置后，便以此位置为中心，取长度为2n+1的视频序列，并对这2n+1个预测结果使用多数投票策略确定中心位置最终所属的类别，在二分搜索的过程中，左右边界的移动方式为：

Left＝Mid+1+n或Right＝Mid-1-n，其中，Left、Mid、Right分别表示区间左端点、中间位置和右端点，当中心值与目标值相等或区间长度小于等于1时，算法终止。

进一步地，步骤S3包括以下步骤：

S31、无用图像的移除：使用ResNet-18对选中的图像进行二分类，判断图像中消化道内部被遮挡面积是否超过2/3，若是，则移除相应图像，如果一个序列中的所有帧都需要被移除，那么二分查找算法将向右继续选择其他序列，重复上述步骤；

S32、消化道器官分类：在排除干扰图像后，对当前选择的图像使用SENet-154判断图片中包含的器官类别，输出图像中所拍摄的消化道器官的类别标签。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明在分类之前使用感知哈希算法对相似图片进行过滤，相当于对图片进行预处理，去除大量高度相似的图片，大大减少需要进行定位的图片数量，缩短计算时间的同时，还避免错误的预测，造成定位结果错误；此外，本发明还采用二分查找算法，无需对视频中的每一帧图像都进行分类，极大地缩短了运行时间；在分类时，使用两个不同的分类网络，先在排除待分类图片中消化道管壁被大面积遮挡的情况后，再判断当前图片所对于的器官种类，提高了分类的效率和准确性，本发明的定位方法具有快速、准确的优点，解决了人工阅片工作量大、耗时长的难题。

附图说明

图1为本发明定位方法的示意图；

图2为本发明感知哈希算法流程图；

图3为图片定位抽象化过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

一种胶囊内镜视频中消化道器官的定位方法，如图1所示，其包括以下步骤：

由于胶囊内镜在体内的运动完全依赖于消化道蠕动，而消化道蠕动的速度较慢，胶囊内镜很有可能在某一个位置停留较长时间，并因此拍摄出大量高度相似的图片，同时，为了提高算法的鲁棒性，在定位时，分类器对以某个位置为中心、长度为2n+1帧的视频序列的每帧图像都进行分类，通过对整个序列的分类结果进行多数投票来确定该位置最终所属的类别。但对于性能较稳定的深度神经网络而言，高度相似的图片有可能同时被错误预测，造成定位结果错误。针对上述问题，模型使用感知哈希算法对视频序列做下采样以移除冗余图像，确保这2n+1帧图像的内容多样性。

如图2所示，步骤S1具体包括以下步骤：

步骤S15具体为：首先，将视频的第一帧图像作为一个区间的起始，对于视频序列中的每一帧图片，都计算其与最近区间的第一帧图像和最后一帧图像之间的汉明距离d1、d2，若d1和d2都大于预设的阈值t＝6，则将当前图片作为下一区间的起点，然后，再计算，重复这一过程，最终能够将一段完整视频按图片之间的相似度划分为若干个区间，最后，在每一段区间中，只保留处于中间位置的一张图像，就可以过滤视频中的冗余图像。

S2、利用二分查找算法搜索目标位置；

进一步地，步骤S2具体为：由于胶囊内镜图像的相对顺序与其拍摄位置和拍摄时间有关，若根据所拍摄的器官，分别使用0～3这四个数字为所有图像进行标注，那么可将一段视频映射为一个基本有序的数组。此时，二分查找算法选择一个位置后，便以此位置为中心，取长度为2n+1的视频序列，并对这2n+1个预测结果使用多数投票策略确定中心位置最终所属的类别，在二分搜索的过程中，左右边界的移动方式为：

对应的抽象化过程如图3所示，图中每个矩形都代表一帧图像，矩形中的数字代表对应图像在视频中的位置序号，矩形下方的数字则是图像的类别标签。若两张相邻的图片具有不同的标注，那么模型就将后者的位置看作是视频中两个器官对应区间的分界点。实际上，为了减小错误的分类结果对定位的影响，在二分查找时，模型结合先验知识对预测结果进行了限制，即：食道和胃的分界处应该在视频的前半部分；查找下一个分界点时，搜索空间应从已经确定的最后一个分界点开始。

S3、对胶囊内镜图像进行分类。

由于部分受检者的术前准备不够充分，消化道内残留的内容物在拍摄时会对消化道管壁造成遮挡，不利于器官分类时的特征提取和后续的分类，故使用参数量适中且性能较好的分类模型ResNet-18对无用图像进行更加快速的识别。

其中，SENet-154是在64×4d ResNeXt-152模型的基础上整合了SE(Squeeze-and-Excitation)模块。该网络的改进之处在于：

(1)每个瓶颈结构中第一个1×1卷积层的通道数减半，以在减少计算量的同时尽可能维持模型性能；

(2)用3个级联的3×3卷积层代替了第一个7×7卷积层，并且使用步长为2的3×3卷积层代替了步长为2的1×1卷积层以保留空间信息；

(3)在最后的分类层之前，加入舍弃率为0.5的Dropout层；

(4)在训练时使用label-smoothing策略。label-smoothing通过q′(y|x)＝(1-c)*q(y|x)+c*u(y)获得类别y的新的分布，其中，q(y|x)为类别y的真实分布，u(y)是与y有关却独立于x的固定的已知分布，c的范围为[0，1]。此处将c设置为0.1，而u(y)为与类别有关的均匀分布，即1/4。label-smoothing策略以一定的概率c，将原始的真实分布替换为在分布u(k)中的随机变量。因从u(y)中为y引入噪声，限制模型输出过高的预测概率，该策略能够在一定程度上抑制过拟合。

(1)SENet-154的准确率和敏感度

本实施例采用准确率和敏感度作为评价的指标，分别得到结果如下表1和表2。与VGG-16相比，SENet-154的准确率分别超出3.2％、2.3％、2.1％和0.4％；与SEResNet-101相比，分别超出0.9％、2.0％、0.7％和1.4％。可见，SENet-154的准确率高于另外两个网络。

由表2可以看出，SENet-154在对大肠图像的分类中，具有最高的敏感度，达到88.4％；虽然在对小肠图像的分类中，其敏感度略低于SEResNet-101，但在对胃部图像的分类中，其敏感度比SEResNet-101高4.9％；SENet-154对胃部图像分类时，其敏感度略低于VGG-16，但在对小肠图像的分类中，其敏感度比VGG-16高出了3.6％。综上，SENet-154对不同器官分类的敏感度整体表现较好。

表1 SENet-154准确率比较

表2不同模型对器官分类的敏感度

(2)二分查找的效率

本发明中使用二分查找的目的在于减少分类模型需要判别的图片数量，缩短算法的运行时间。选择不同长度的待分类序列时，模型对应的运行时间如表3所示，表中“DNBS”表示不进行二分搜索的定位过程，此时算法对视频中的所有数据按顺序逐一进行预测。对一个序列长度为10万帧的视频而言，在异步8线程的运行条件下，对所有图片计算感知哈希编码的时间约为51s。而在对图像进行逐一预测时，模型对一套完整视频的预测时间约为3小时。可见，二分查找算法大大缩短了定位所需要的时间。

表3二分查找算法在不同待分类序列长度下的运行时间

综上，本发明首先使用感知哈希算法去除冗余图像，再利用二分查找算法确定要进行分类的图片，最后利用SENet-154对不器官进行分类，从而实现胶囊内镜视频中不同消化道器官的快速定位，解决了人工阅片的难题，大大提高了效率，且具有较高的准确率和敏感度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种胶囊内镜视频中消化道器官的定位方法，其特征在于：包括以下步骤：

S2、利用二分查找算法搜索目标位置；

步骤S2具体为：根据所拍摄的器官，分别使用0-3这四个数字为所有图像进行标注，将视频映射为一个基本有序的数组，此时，二分查找算法选择一个位置后，便以此位置为中心，取长度为2n+1的视频序列，并对这2n+1个预测结果使用多数投票策略确定中心位置最终所属的类别，在二分搜索的过程中，左右边界的移动方式为：

或/>，其中，/>分别表示区间左端点、中间位置和右端点，当中心值与目标值相等或区间长度小于等于1时，算法终止；

S3、对胶囊内镜图像进行分类；

步骤S3包括以下步骤：

2.如权利要求1所述的一种胶囊内镜视频中消化道器官的定位方法，其特征在于：步骤S1具体包括以下步骤：

S12、计算所述灰度图的离散余弦相似度，保留左上角的8×8个像素作为该图的最低频率表示；

3.如权利要求2所述的一种胶囊内镜视频中消化道器官的定位方法，其特征在于：步骤S15具体为：首先，将视频的第一帧图像作为一个区间的起始，对于视频序列中的每一帧图片，都计算其与最近区间的第一帧图像和最后一帧图像之间的汉明距离d1、d2，若d1和d2都大于预设的阈值t，则将当前图片作为下一区间的起点，然后，再计算，重复这一过程，最终能够将一段完整视频按图片之间的相似度划分为若干个区间，最后，在每一段区间中，只保留处于中间位置的一张图像，就可以过滤视频中的冗余图像。

4.如权利要求3所述的一种胶囊内镜视频中消化道器官的定位方法，其特征在于：所述阈值设为6。