CN114782388A

CN114782388A - 基于图像识别的内窥镜进退镜时间确定方法及装置

Info

Publication number: CN114782388A
Application number: CN202210472934.XA
Authority: CN
Inventors: 刘威; 刘腾营; 边成; 张志诚
Original assignee: Xiaohe Medical Instrument Hainan Co ltd
Current assignee: Xiaohe Medical Instrument Hainan Co ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-22
Also published as: WO2023207564A1

Abstract

本公开涉及一种基于图像识别的内窥镜进退镜时间确定方法及装置，内窥镜进退镜时间确定方法包括：获取当前内窥镜图像和位置状态；根据预训练好的内窥镜图像识别模型对所述当前内窥镜图像进行处理，得到识别结果；根据所述当前内窥镜图像的识别结果和位于所述当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果；根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，所述目标位置包括体内、回盲或体外，如此，通过上述方式，可以准确地确定出内窥镜镜体达到体内、回盲以及体外的时刻，进而可以确定内窥镜进退镜时间，便于提升进镜效率以及检查质量。

Description

基于图像识别的内窥镜进退镜时间确定方法及装置

技术领域

本公开涉及医疗图像技术领域，具体地，涉及一种基于图像识别的内窥镜进退镜时间确定方法及装置。

背景技术

在相关技术中，内窥镜检查例如结肠镜检查是指利用电子肠镜从体外进入肠道，开始进镜过程直到肠道末端，然后开始退镜，对肠道进行观察和诊断，在退镜过程结束后将电子肠镜退出体外，而回盲部(即人体中回肠末端与盲肠互相交接的部位)通常是开启退镜的依据，基于此，整个进退镜过程可以分为进镜区间、回盲区间和退镜区间，由于进镜区间的时长影响进镜效率，退镜区间的时长影响检测质量，因此，在进退镜过程中如何准确确定出进镜区间以及退镜区间的时长对提升进镜效率以及检查质量是至关重要。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种基于图像识别的内窥镜进退镜时间确定方法，所述内窥镜进退镜时间确定方法包括：

获取当前内窥镜图像和位置状态，所述位置状态用于表征在获取所述当前内窥镜图像前内窥镜镜体的位置；

根据预训练好的内窥镜图像识别模型对所述当前内窥镜图像进行处理，得到识别结果；

根据所述当前内窥镜图像的识别结果和位于所述当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果，所述融合结果用于表征获取所述当前内窥镜图像时所述内窥镜镜体的位置；

根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，所述目标位置包括体内、回盲或体外。

第二方面，本公开提供一种基于图像识别的内窥镜进退镜时间确定装置，所述内窥镜进退镜时间确定装置包括：

获取模块，用于获取当前内窥镜图像和位置状态，所述位置状态用于表征在获取所述当前内窥镜图像前内窥镜镜体的位置；

识别模块，用于根据预训练好的内窥镜图像识别模型对所述当前内窥镜图像进行处理，得到识别结果；

融合模块，用于根据所述当前内窥镜图像的识别结果和位于所述当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果，所述融合结果用于表征获取所述当前内窥镜图像时所述内窥镜镜体的位置；

确定模块，用于根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，所述目标位置包括体内、回盲或体外。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面中所述内窥镜进退镜时间确定方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面中所述内窥镜进退镜时间确定方法的步骤。

通过上述技术方案，由于融合结果用于表征获取当前内窥镜图像时内窥镜镜体的位置，且位置状态用于表征在获取当前内窥镜图像前内窥镜镜体的位置，因此，将融合结果和位置状态相比，以此来确定内窥镜镜体到达体内、回盲或体外的时刻，由于内窥镜镜体到达体内、回盲和体外的时刻可以反映进镜区间以及退镜区间的时长，如此便于提升进镜效率以及检查质量；且融合结果是当前内窥镜图像的识别结果和位于当前内窥镜图像前预设帧数的内窥镜图像的识别结果来确定的，如此可以实现内窥镜镜体的当前位置的准确预估。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据本公开一示例性实施例示出的一种基于图像识别的内窥镜进退镜时间确定方法的流程图。

图2是根据本公开一示例性实施例示出的一种结肠镜检查区间的示意图。

图3是根据本公开一示例性实施例示出的一种内窥镜图像识别模型的结构示意图。

图4是根据本公开一示例性实施例示出的一种基于图像识别的内窥镜进退镜时间确定方法的另一流程图。

图5是根据本公开一示例性实施例示出的一种基于图像识别的内窥镜进退镜时间确定装置的框图。

图6是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

同时，可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

正如背景技术所言，在进退镜过程中如何准确确定出进镜区间以及退镜区间的时长对提升进镜效率以及检查质量是至关重要。而识别进镜区间以及退镜区间依赖于对图像的识别，即对图像进行分类，根据分类结果来确定电子肠镜所处的位置。而在真实的结肠镜检查过程中，肠道环境非常复杂，充斥着粪便、气泡等杂物，电子肠镜在扭曲的肠道内行进，由于电子肠镜的摄像头的不稳定性，会产生非常多的模糊、过曝等低质图像；不同的电子肠镜导致采集的图像的分辨率差异较大；回盲瓣图像在整个肠镜视频中占比非常小，标注数据较为匮乏，且标注数据中或多或少存在一定的噪声，导致深度模型很容易在训练数据上过拟合，此外，回盲瓣由于自身结构原因，在整张图像中的占比较小，且由于摄像头晃动、拍摄角度等不同程度的影响，导致回盲瓣图像特征不明显，使得回盲瓣结构无法在图像中很好呈现，这些因素使得对图像的识别算法的鲁棒性具有较高要求，如此，才能确保基于分类结果准确地确定出内窥镜镜体到达各目标位置的时刻。

有鉴于此，本公开提供一种基于图像识别的内窥镜进退镜时间确定方法，将用于表征获取当前内窥镜图像时内窥镜镜体的位置的融合结果，与用于表征在获取当前内窥镜图像前内窥镜镜体的位置的位置状态进行相比，以此来确定内窥镜镜体到达体内、回盲或体外的时刻，根据内窥镜镜体到达体内、回盲和体外的时刻，即可反映出进镜区间以及退镜区间的时长，如此便于提升进镜效率以及检查质量；且融合结果是当前内窥镜图像的识别结果和位于当前内窥镜图像前预设帧数的内窥镜图像的识别结果来确定的，如此可以实现内窥镜镜体的当前位置的准确预估。

图1是根据本公开一示例性实施例示出的一种基于图像识别的内窥镜进退镜时间确定方法的流程图。该内窥镜进退镜时间确定方法可以应用于内窥镜检测设备，参照图1，该内窥镜进退镜时间确定方法可以包括：

步骤S101，获取当前内窥镜图像和位置状态，位置状态用于表征在获取当前内窥镜图像前内窥镜镜体的位置。

步骤S102，根据预训练好的内窥镜图像识别模型对当前内窥镜图像进行处理，得到识别结果。

步骤S103，根据当前内窥镜图像的识别结果和位于当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果，融合结果用于表征获取当前内窥镜图像时内窥镜镜体的位置。

步骤S104，根据融合结果、位置状态和当前内窥镜图像对应的时刻，确定内窥镜镜体到达目标位置的时刻，目标位置包括体内、回盲或体外。

在对上述步骤进行解释说明之前，首先对内窥镜镜体(例如结肠镜镜体)在结肠镜检查过程中涉及的位置进行示例性说明。参照图2，在检查过程中，结肠镜镜体从体外(肠道外)进入肠道，开始进镜过程直到肠道末端，然后开始退镜。其中，进镜区间至退镜区间均位于体内(肠道内)，且进镜区间至退镜区间的分界称为回盲区间，因此，回盲也可以看做体内的一种特殊位置。结合前文，内窥镜镜体的位置可以分为体外、体内(图2所示的肠镜检查区间)和回盲(图2所示的回盲区间)。图2中从左至右所示箭头，第一个箭头表示为结肠镜镜体从体外到达体内的时刻，第二个箭头表示为结肠镜镜体到达回盲的时刻，第三个箭头表示为结肠镜镜体从体内到达体外的时刻，根据第一个箭头和第二箭头所示时刻可以确定进镜时长，根据第二个箭头和第三箭头所示时刻可以确定退镜时长。

以下以内窥镜镜体为结肠镜镜体为例对上述步骤进行解释说明。另外，在内窥镜镜体为结肠镜镜体时，下文所述内窥镜图像可以为结肠镜图像。

在步骤S101之前，可以对内窥镜图像识别模型进行训练，其中，内窥镜图像识别模型是一种分类模型，用于对内窥镜图像进行分类。在一些实施例中，内窥镜图像识别模型可以通过以下方式训练得到：获取内窥镜图像样本；对内窥镜图像样本进行数据增强，得到内窥镜图像增强样本；根据内窥镜图像增强样本对内窥镜图像识别模型进行训练，以得到训练好的内窥镜图像识别模型。

在本实施例中，为保证数据多样性，可以从不同结肠镜设备中进行抽样得到不同的内窥镜图像。示例地，抽帧频率可以是5帧/次，表征每间隔5帧进行抽样。

在本实施例中，可以对得到内窥镜图像进行预处理，得到预处理后的内窥镜图像。示例地，预处理可以是过滤模糊图像，以便于模型的训练。

在得到内窥镜图像后，可以对内窥镜图像进行人工标注，进而得到内窥镜图像样本，内窥镜图像样本是携带样本标签的，该样本标签用于指示内窥镜图像样本的类别。人工标注流程可以是：首先，人工筛选出具有回盲区间的内窥镜图像，从筛选出的内窥镜图像中抽帧，再由人工从抽帧得到内窥镜图像中标注出含有回盲瓣的内窥镜图像(回盲瓣：回肠末端朝向盲肠的上下两片半月形的皱襞)。结合上述标注流程，内窥镜图像可以标注为三个类别，三个类别分别是回盲瓣图像(位于回盲部位区间且图像中含有回盲瓣的图像)、体内图像(位于肠道内且没有回盲瓣的图像)和体外图像(位于肠道外的图像)。

在本实施例中，在将内窥镜图像样本输入至内窥镜图像识别模型之前，可以对内窥镜图像样本进行数据增强。通过数据增强后的内窥镜图像样本对内窥镜图像识别模型进行训练，如此可以解决回盲瓣图像在所有内窥镜图像样本中因占比非常小，以及标注数据中存在一定的噪声，导致内窥镜图像识别模型很容易在训练数据上过拟合，提升内窥镜图像识别模型的鲁棒性。

示例地，数据增强可以包括增加随机高斯噪声、增加运动模糊、增加颜色变化、图像多尺度缩放和图像随机翻转等等。

在一些实施例中，参照3，内窥镜图像识别模型可以包括CNN(ConvolutionalNeural Network，卷积神经网络)网络、特征聚合层和全连接层。在此情况下，根据内窥镜图像增强样本对内窥镜图像识别模型进行训练的步骤可以包括：将内窥镜图像增强样本输入至CNN网络进行特征提取处理，得到CNN网络输出的特征信息；将特征信息输入至特征聚合层进行广义均值池化，得到目标特征信息；将目标特征信息输入至全连接层，得到预测识别结果；根据预测识别结果和内窥镜图像增强样本对应的样本标签，确定损失函数；根据损失函数，调整内窥镜图像识别模型的参数。

在实际应用中，如前文所述，由于回盲瓣图像的标注数据少且存在噪声导致CNN网络容易在训练数据上过拟合，为防止训练得到的内窥镜图像识别模型过拟合，可以选取例如可以是具有多条输入路径(可以理解为特征采样路径)的CNN网络，例如Se-ResNet50网络，如此，便可以将正则化方法作用于Se-ResNet50网络，以防止模型的过拟合，提高模型鲁棒性。

示例地，正则化方法例如可以是droppath，droppath可以将Se-ResNet50网络中的多条输入路径随机“失效”，以使得Se-ResNet50网络可以选取不同输入路径来实现对内窥镜图像增强样本的特征信息的提取，由于不同输入路径采样得到的特征信息不同，进而避免模型的过拟合。

在实际应用中，如前文所述，回盲瓣由于自身结构原因，在整张内窥镜图像中的占比较小，这与物体通常位于图像中心的ImageNet图像库(用于视觉对象识别软件研究的大型可视化数据库)中的图像存在较大差异，且由于镜头晃动、拍摄角度等因素使得回盲瓣结构无法在内窥镜图像中很好呈现，进而引起CNN网络提取的回盲瓣图像的特征信息存在不明显的问题。为解决回盲瓣图像的特征信息不明显的问题，利用特征聚合层对CNN网络输出的特征信息进行广义均值池化，得到目标特征信息，如此可以使目标特征信息包含更多应该回盲瓣结构的图像特征信息。

示例地，CNN网络输出的特征信息可以表征为：

其中，K为特征信息的通道数，第k个通道的特征信息f_k拥有W×H个激活值。

特征聚合层输出的目标特征信息可以表征为：

其中，f^g为特征聚合层输出的目标特征信息，T表示矩阵的倒置，

为对CNN网络输出的第k个通道对应的特征信息进行广义均值化得到的信息，q_k为池化参数。经实验表明，当q_k为3时，模型性能最佳。

全连接层是一个分类头，用于根据目标特征信息输出内窥镜图像增强样本属于各个类别的概率，这里的类别包括体外图像、体内图像和回盲瓣图像，对应的，体外图像对应体外概率，体内图像对应体内概率，回盲瓣图像对应回盲概率。

损失函数可以表征为：

其中，L_cls为损失函数的值，i为0，1，2，可以用于分别表示体外图像、体内图像和回盲瓣图像这三个类别，当内窥镜图像增强样本的样本标签的类别为0时，在上述损失函数中，y₀＝1，y₁＝y₂＝0，p_i表征对应类别所对应的概率。

在本实施例，根据损失函数的值调整内窥镜图像识别模型的参数。例如可以采用反向传播的方式，依次对全连接层、特征聚合层、CNN网络涉及的参数进行调整。

在一些实施例中，同时为了确保训练过程中三个类别的内窥镜图像样本数据的样本平衡，从每个类别的内窥镜图像中分别采样128张组合成一个批次进行训练，每次迭代的损失值为所有内窥镜图像的损失之和的均值，这样保证每次训练过程中三个类别的贡献大致均衡。在此情况下，CNN网络可以采用正则化方法作用于一个批次中的部分样本。

在得到训练好的内窥镜图像识别模型后，则可以利用训练好的内窥镜图像识别模型对内窥镜图像进行处理。可以理解的是，在开启结肠镜检测时，执行获取当前内窥镜图像和位置状态的步骤。

在一些实施例中，当前内窥镜图像可以是内窥镜检测设备中本地存储的图像，也可以是从其他设备上获取的图像，本实施在此不作限定。

在一些实施例中，当前内窥镜图像可以是在结肠镜检查过程中实时获取的图像，以此可以根据当前内窥镜图像实时确定结肠镜检查过程中结肠镜的进退镜时间。

需要说明的是，在结肠镜镜体当前拍摄到的当前内窥镜图像时内窥镜镜体的位置，相较于拍摄的当前内窥镜图像前的内窥镜图像表征的位置发生变化时，则表征结肠镜镜体当前到达了新的位置，如此，便可以通过检查结肠镜镜体的位置变化情况和当前内窥镜图像对应的时刻来确定内窥镜镜体到达目标位置(包括前文所述体内、回盲和体外)的时刻，进而根据确定的内窥镜镜体到达各目标位置的时刻，确定内窥镜进退镜时间。因此，上述步骤S103可以包括：通过用于表征在获取当前内窥镜图像前内窥镜镜体的位置的位置状态，以及用于表征获取当前内窥镜图像时内窥镜镜体的位置的融合结果，来确定内窥镜镜体是否满足到达目标位置的预设条件(可以理解为前后图像表征的位置发生变化的条件)，在确定内窥镜镜体满足到达目标位置对应的预设条件的情况下，将当前内窥镜图像对应的时刻确定为内窥镜镜体到达目标位置的时刻。

需要说明的是，由于涉及多个位置，且在确定内窥镜镜体的当前位置是否发生变化时，是将当前位置的上一位置与当前位置进行比较，因此，在确定内窥镜镜体满足到达目标位置对应的预设条件的情况下，还需要根据目标位置更新位置状态，更新后的位置状态表征内窥镜镜体已位于目标位置。

位置状态是用于表征获取当前内窥镜图像前内窥镜镜体的位置，在一些实施例中，示例地，可以设置三种状态信息，并进行标记，标记的结果用于确定位置状态，即用于确定是否到达体内、是否到达回盲以及是否到达体外。基于此，根据读取各状态信息的标记的信息，则可以确定位置状态。

示例地，分别用inbody、inileo和outbody这三种状态信息来表示，用false和true来进行标记。例如，inbody＝false表征未到达体内，inileo＝false表征未到达回盲，outbody＝false表征未到达体外；inbody＝true表征到达体内，inileo＝true表征到达回盲，outbody＝true表征到达体外。

在一些实施例中，识别结果包括当前内窥镜图像分别属于体内图像、体外图像和回盲图像的概率，对应的，根据当前内窥镜图像的识别结果和位于当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定的融合结果可以包括体外融合概率和回盲融合概率。需要说明的是，位于当前内窥镜图像前预设帧数的内窥镜图像是位于当前内窥镜图像前连续的预设帧数的内窥镜图像。

示例地，体外融合概率可以是包括当前内窥镜图像在内连续5帧(其中4帧为位于当前内窥镜图像前的内窥镜图像)内窥镜图像的体外概率之和的均值。示例地，回盲融合概率可以是包括当前内窥镜图像在内连续250帧(其中249帧为位于当前内窥镜图像前的内窥镜图像)内窥镜图像的回盲概率之和。需要说明的，上述示例对预设帧数并不造成限定。

在一些实施例中，对于当前内窥镜图像前的历史帧内窥镜图像而言，历史帧内窥镜图像的识别结果可以存储于结肠镜设备的内存中，便于融合结果的计算。

在一些实施例中，由于是根据当前内窥镜图像前预设帧数的内窥镜图像进行融合结果的计算，因此，对于内存中不参与针对当前内窥镜图像对应的融合结果计算的历史帧内窥镜图像的识别结果而言，可以自动进行删除，以节省内存空间。

结合前文，以目标位置分别为体内、回盲和体外为例，对本公开确定进退镜时间进行说明。首先，在开启结肠镜检查时，可以初始化位置状态的三种状态信息，初始化的结果为inbody＝false，inileo＝false，outbody＝false；并初始化内窥镜镜体到达各目标位置的时刻，初始化的结果为inbodytime(表征到达体内的时刻)＝0，inileotime(表征到达回盲的时刻)＝0，outbodytime(表征到达体外的时刻，等同于离开体内的时刻)＝0。在此情况下，参照图4，在图4右侧虚线框内示意了结肠镜从体外到体内，再到回盲，再从体内退出到体外这个过程中更新位置状态和依次确定到达、回盲和体外的时刻。

具体来讲，首先，在位置状态(初始化得到的位置状态)表征内窥镜镜***于体外且体外融合概率小于等于第一预设概率阈值(图4所示H1)的情况下，确定内窥镜镜体满足到达体内的预设条件(即inbody＝false且outprob≤H1)，则可以将当前内窥镜图像对应的时刻T确定为内窥镜镜体到达体内的时刻，并根据本次到达的目标位置(体内)，将初始化结果中的位置状态中的inbody＝false更新为inbody＝true，得到新的位置状态；

接着，会获取当前内窥镜图像的下一内窥镜图像作为新的当前内窥镜图像，并获取新的位置状态，且在该位置状态表征内窥镜镜***于体内、未位于回盲且回盲融合概率大于等于第二预设概率阈值(图4所示H2)的情况下，确定内窥镜镜体满足到达回盲对应的预设条件(inbody＝true、inileo＝false且ileoprob≥H2)，则可以将当前内窥镜图像对应的时刻T确定为内窥镜镜体到达回盲的时刻，并根据本次到达的目标位置(回盲)，将本次获取的位置状态中的inileo＝false更新为inileo＝true。

再接着，会获取当前内窥镜图像的下一内窥镜图像作为新的当前内窥镜图像，并获取新的位置状态，且在该位置状态表征内窥镜镜***于回盲且体外融合概率大于等于第三预设概率阈值(图4所示H3)的情况下，确定内窥镜镜体满足到达体外对应的预设条件(inbody＝true、outbody＝false且outprob≥H3)，则可以将当前内窥镜图像对应的时刻T确定为内窥镜镜体到达体外的时刻，并根据本次到达的目标位置(体外)，将本次获取的位置状态中的outbody＝false更新为outbody＝true。

其中，H1、H2以及H3可以根据实际情况进行设定，本实施例在此不作限定。

上述图4所示过程为一个结肠镜从体外到体内，再到回盲，再从体内退出到体外这个过程中更新位置状态和依次确定到达、回盲和体外的时刻的示例性说明。

其中，当前内窥镜图像对应的时刻T可以通过以下方式确定：确定当前内窥镜图像的帧序号，根据当前内窥镜图像的帧序号与当前内窥镜图像对应视频的帧率的乘积结果确定为当前内窥镜图像对应的时刻T。例如，帧率为25帧/秒，当前内窥镜图像的帧序号为25，则可以确定当前内窥镜图像对应的时刻T为1秒。

此外，为提高确定到达各目标位置的时刻的准确性，在确定到达回盲和体外的时刻时，对应的预设条件还可以包括一个时间的判断条件。示例地，针对判断是否到达回盲时，设定的预设条件可以是满足inbody＝true、inileo＝false、ileoprob≥H2且T>inbodytime。

在一些实施例中，可以将inbody、inileo、outbody、inbodytime、inileotime、outbodytime对应的值实时同步显示在结肠镜设备上，便于医生查看。

通过上述方式，能够实时确定帧率为25的肠镜视频中内窥镜镜体到达各目标位置的时刻，以及是否到达各个目标位置的指示信息，并能够将结肠镜在人体内的用于指示是否到达各个目标位置的指示信息实时同步更新在结肠镜设备上。

基于同一发明构思，本公开实施例还提供一种基于图像识别的内窥镜进退镜时间确定装置，参照图5，所述内窥镜进退镜时间确定装置500包括：

获取模块501，用于获取当前内窥镜图像和位置状态，所述位置状态用于表征在获取所述当前内窥镜图像前内窥镜镜体的位置；

识别模块502，用于根据预训练好的内窥镜图像识别模型对所述当前内窥镜图像进行处理，得到识别结果；

融合模块503，用于根据所述当前内窥镜图像的识别结果和位于所述当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果，所述融合结果用于表征获取所述当前内窥镜图像时所述内窥镜镜体的位置；

确定模块504，用于根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，所述目标位置包括体内、回盲或体外。

可选的，所述确定模块504包括：

第一确定子模块，用于根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件；

第二确定子模块，用于在确定所述内窥镜镜体满足到达所述目标位置对应的预设条件的情况下，将所述当前内窥镜图像对应的时刻确定为所述内窥镜镜体到达所述目标位置的时刻，并根据所述目标位置更新所述位置状态。

可选的，所述识别结果包括所述当前内窥镜图像分别属于体内图像、体外图像和回盲图像的概率，所述目标位置为所述体内，所述融合结果包括体外融合概率，所述第一确定子模块具体用于在所述位置状态表征所述内窥镜镜***于所述体外且所述体外融合概率小于等于第一预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述体内对应的预设条件。

可选的，所述目标位置为所述回盲，所述融合结果包括回盲融合概率，所述第一确定子模块具体用于在所述位置状态表征所述内窥镜镜***于所述体内、未位于所述回盲且所述回盲融合概率大于等于第二预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述回盲对应的预设条件。

可选的，所述目标位置为所述体外，所述第一确定子模块具体用于在所述位置状态表征所述内窥镜镜***于所述回盲且所述体外融合概率大于等于第三预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述体外对应的预设条件。

可选的，所述内窥镜进退镜时间确定装置500还包括：

样本获取模块，用于获取内窥镜图像样本；

数据增强模块，用于对所述内窥镜图像样本进行数据增强，得到内窥镜图像增强样本；

训练模块，用于根据所述内窥镜图像增强样本对内窥镜图像识别模型进行训练，以得到训练好的内窥镜图像识别模型。

可选的，所述内窥镜图像识别模型包括CNN网络、特征聚合层和全连接层，所述训练模块包括：

提取子模块，用于将所述内窥镜图像增强样本输入至所述CNN网络进行特征提取处理，得到所述CNN网络输出的特征信息；

池化子模块，用于将所述特征信息输入至所述特征聚合层进行广义均值池化，得到目标特征信息；

预测子模块，用于将所述目标特征信息输入至所述全连接层，得到预测识别结果；

第三确定子模块，用于根据所述预测识别结果和所述内窥镜图像增强样本对应的样本标签，确定损失函数；

调整子模块，用于根据所述损失函数，调整内窥镜图像识别模型的参数。

可选的，所述提取子模块具体用于将所述内窥镜图像增强样本输入至所述CNN网络，得到所述CNN网络采用正则化方法进行特征提取处理，得到特征信息。

基于同一发明构思，本公开实施例还提供一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现上述内窥镜进退镜时间确定方法的步骤。

基于同一发明构思，本公开实施例还提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现上述内窥镜进退镜时间确定方法的步骤。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、结肠镜设备等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，电子设备可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取当前内窥镜图像和位置状态，所述位置状态用于表征在获取所述当前内窥镜图像前内窥镜镜体的位置；根据预训练好的内窥镜图像识别模型对所述当前内窥镜图像进行处理，得到识别结果；根据所述当前内窥镜图像的识别结果和位于所述当前内窥镜图像前预设帧数的内窥镜图像的识别结果，确定融合结果，所述融合结果用于表征获取所述当前内窥镜图像时所述内窥镜镜体的位置；根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，所述目标位置包括体内、回盲或体外。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取获取当前内窥镜图像和位置状态的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种基于图像识别的内窥镜进退镜时间确定方法，所述内窥镜进退镜时间确定方法包括：

根据本公开的一个或多个实施例，示例2提供了示例1的方法，所述根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，包括：

根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件；

在确定所述内窥镜镜体满足到达所述目标位置对应的预设条件的情况下，将所述当前内窥镜图像对应的时刻确定为所述内窥镜镜体到达所述目标位置的时刻，并根据所述目标位置更新所述位置状态。

根据本公开的一个或多个实施例，示例3提供了示例2的方法，所述识别结果包括所述当前内窥镜图像分别属于体内图像、体外图像和回盲图像的概率，所述目标位置为所述体内，所述融合结果包括体外融合概率，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

在所述位置状态表征所述内窥镜镜***于所述体外且所述体外融合概率小于等于第一预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述体内对应的预设条件。

根据本公开的一个或多个实施例，示例4提供了示例3的方法，所述目标位置为所述回盲，所述融合结果包括回盲融合概率，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

在所述位置状态表征所述内窥镜镜***于所述体内、未位于所述回盲且所述回盲融合概率大于等于第二预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述回盲对应的预设条件。

根据本公开的一个或多个实施例，示例5提供了示例4的方法，所述目标位置为所述体外，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

在所述位置状态表征所述内窥镜镜***于所述回盲且所述体外融合概率大于等于第三预设概率阈值的情况下，确定所述内窥镜镜体满足到达所述体外对应的预设条件。

根据本公开的一个或多个实施例，示例6提供了示例1-5任一项的方法，其特征在于，所述内窥镜图像识别模型通过以下方式训练得到：

获取内窥镜图像样本；

对所述内窥镜图像样本进行数据增强，得到内窥镜图像增强样本；

根据所述内窥镜图像增强样本对内窥镜图像识别模型进行训练，以得到训练好的内窥镜图像识别模型。

根据本公开的一个或多个实施例，示例7提供了示例6的方法，所述内窥镜图像识别模型包括CNN网络、特征聚合层和全连接层，所述根据所述内窥镜图像增强样本对内窥镜图像识别模型进行训练包括：

将所述内窥镜图像增强样本输入至所述CNN网络进行特征提取处理，得到所述CNN网络输出的特征信息；

将所述特征信息输入至所述特征聚合层进行广义均值池化，得到目标特征信息；

将所述目标特征信息输入至所述全连接层，得到预测识别结果；

根据所述预测识别结果和所述内窥镜图像增强样本对应的样本标签，确定损失函数；

根据所述损失函数，调整内窥镜图像识别模型的参数。

根据本公开的一个或多个实施例，示例8提供了示例7的方法，所述将所述内窥镜图像增强样本输入至所述CNN网络进行特征提取处理，得到所述CNN网络输出的特征信息，包括：

将所述内窥镜图像增强样本输入至所述CNN网络，得到所述CNN网络采用正则化方法进行特征提取处理，得到特征信息。

根据本公开的一个或多个实施例，示例9提供了一种基于图像识别的内窥镜进退镜时间确定装置，所述内窥镜进退镜时间确定装置包括：

根据本公开的一个或多个实施例，示例10提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现示例1-8中任一项所述内窥镜进退镜时间确定方法的步骤。

根据本公开的一个或多个实施例，示例11提供了一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现示例1-8中任一项所述内窥镜进退镜时间确定方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种基于图像识别的内窥镜进退镜时间确定方法，其特征在于，所述内窥镜进退镜时间确定方法包括：

2.根据权利要求1所述的内窥镜进退镜时间确定方法，其特征在于，所述根据所述融合结果、所述位置状态和所述当前内窥镜图像对应的时刻，确定所述内窥镜镜体到达目标位置的时刻，包括：

3.根据权利要求2所述的内窥镜进退镜时间确定方法，其特征在于，所述识别结果包括所述当前内窥镜图像分别属于体内图像、体外图像和回盲图像的概率，所述目标位置为所述体内，所述融合结果包括体外融合概率，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

4.根据权利要求3所述的内窥镜进退镜时间确定方法，其特征在于，所述目标位置为所述回盲，所述融合结果包括回盲融合概率，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

5.根据权利要求4所述的内窥镜进退镜时间确定方法，其特征在于，所述目标位置为所述体外，所述根据所述融合结果和所述位置状态，确定所述内窥镜镜体是否满足到达所述目标位置对应的预设条件，包括：

6.根据权利要求1-5中任一所述的内窥镜进退镜时间确定方法，其特征在于，所述内窥镜图像识别模型通过以下方式训练得到：

获取内窥镜图像样本；

7.根据权利要求6所述的内窥镜进退镜时间确定方法，其特征在于，所述内窥镜图像识别模型包括CNN网络、特征聚合层和全连接层，所述根据所述内窥镜图像增强样本对内窥镜图像识别模型进行训练包括：

根据所述损失函数，调整内窥镜图像识别模型的参数。

8.根据权利要求7所述的内窥镜进退镜时间确定方法，其特征在于，所述将所述内窥镜图像增强样本输入至所述CNN网络进行特征提取处理，得到所述CNN网络输出的特征信息，包括：

9.一种基于图像识别的内窥镜进退镜时间确定装置，其特征在于，所述内窥镜进退镜时间确定装置包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-8中任一项所述内窥镜进退镜时间确定方法的步骤。

11.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-8中任一项所述内窥镜进退镜时间确定方法的步骤。