CN113920355A

CN113920355A - 部位类别识别方法及检查质量监控***

Info

Publication number: CN113920355A
Application number: CN202111090617.3A
Authority: CN
Inventors: 戴捷
Original assignee: Zidong Information Technology Suzhou Co ltd
Current assignee: Zidong Information Technology Suzhou Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-01-11

Abstract

本公开提供一种部位类别识别方法，包括：对多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量，多个目标图像为连续帧图像；对每个目标图像的图像表示向量进行特征提取，获取每个目标图像的具有第一预设维度的特征表示向量；对每个目标图像的具有第一预设维度的特征表示向量进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量；基于每个目标图像的具有第二预设维度的图像压缩中间表示向量获取每个目标图像的最终图像特征；及基于所有目标图像的最终图像特征以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。本公开还提供一种基于部位类别识别的检查质量监控***。

Description

部位类别识别方法及检查质量监控***

技术领域

本公开涉及图像识别技术领域、检查质量监控技术领域，尤其涉及部位类别识别方法、以及基于部位类别识别的检查质量监控***。

背景技术

根据全球的癌症统计数据显示，发病率排名前10的肿瘤中有4个来自消化道。包括消化道良性、癌前性和恶性疾病在内的消化道疾病正在严重威胁着患者的生活质量和生命安全，造成了巨大的卫生负担。消化道肿瘤在我国的各类恶性肿瘤中发病率也处于首位。由于消化道内窥镜在消化道癌症诊断方面效果显著，已被推荐为消化道癌症的主要诊断方法。具体来说，消化道内窥镜可以直接探及消化道内的病变组织区域，以供医疗人员做出相应的诊断，在消化道内窥镜下可以做组织活检对早期的消化道癌前疾病或者是癌前病变的诊断及鉴别良性恶性溃疡都有重要作用。

目前胃镜内窥镜检查是识别上消化道疾病的重要手段。然而，由于上消化道牵涉的部位较多，例如：上消化道包括正镜口咽部、正镜食管、正镜贲门、倒镜贲门、倒镜胃底A前壁、倒镜胃底P后壁等几十个部位，胃镜医生在操作胃镜的时候很有可能漏掉一些部位，造成这些部位的疾病漏诊。

发明内容

为了解决上述技术问题中的至少一个，本公开提供一种部位类别识别方法、装置、基于部位类别识别的检查质量监控***、电子设备及存储介质。

本公开的部位类别识别方法、装置、基于部位类别识别的检查质量监控***、电子设备及存储介质通过以下技术方案实现。

根据本公开的一个方面，提供一种部位类别识别方法，包括：对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量（P），所述多个目标图像为连续帧图像；对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）；对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇）；基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂）；以及基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。

根据本公开的至少一个实施方式的部位类别识别方法，对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X），包括：使用VIT网络对每个目标图像的图像表示向量（P）进行特征提取，以获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）。

根据本公开的至少一个实施方式的部位类别识别方法，对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇），包括：对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），对每个目标图像的特征表示子向量（X_k）进行压缩处理，获得每个目标图像的第一预设份数（k）的特征压缩向量；以及，将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），所述第二预设维度小于所述第一预设维度。

例如，第一预设维度L为1000，切分后的维度L1=200，则生成k=5个特征表示子向量。

根据本公开的至少一个实施方式的部位类别识别方法，基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂），包括：基于每个目标图像的图像压缩中间表示向量（X＇）使用RNN网络获取每个目标图像的最终图像特征（X＂）。

根据本公开的至少一个实施方式的部位类别识别方法，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系，所述多个已标注部位类别的目标图像为连续帧图像。

根据本公开的至少一个实施方式的部位类别识别方法，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系（模型训练过程），包括：对多个已标注部位类别的目标图像进行向量化表示，以获得每个已标注部位类别的目标图像的图像表示向量（P），所述多个已标注部位类别的目标图像为连续帧图像；对每个已标注部位类别的目标图像的图像表示向量（P）进行特征提取，获取每个已标注部位类别的目标图像的具有第一预设维度（L）的特征表示向量（X）；对每个已标注部位类别的目标图像的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），对每个已标注部位类别的目标图像的特征表示子向量（X_k）进行压缩处理，获得每个已标注部位类别的目标图像的第一预设份数（k）的特征压缩向量；将每个已标注部位类别的目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），所述第二预设维度小于所述第一预设维度；基于每个已标注部位类别的目标图像的图像压缩中间表示向量（X＇）获取每个已标注部位类别的目标图像的最终图像特征（X＂）；将各个已标注部位类别的目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；S214、将所述集成相加特征复制为第二预设份数，所述第二预设份数等于总的部位类别个数；以及，基于所述第二预设份数的集成相加特征以及各个已标注部位类别的目标图像的部位类别获取各个部位类别之间的依赖关系。

根据本公开的至少一个实施方式的部位类别识别方法，对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），包括：

使用局部连接层对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k）。

根据本公开的至少一个实施方式的部位类别识别方法，将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），包括：使用局部连接层中的全连接层将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇）。

根据本公开的至少一个实施方式的部位类别识别方法，基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值，包括：将各个目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；将所述集成相加特征复制为第二预设份数，所述第二预设份数等于总的部位类别个数；以及基于所述第二预设份数的集成相加特征以及预先获取的各个部位类别之间的依赖关系生成每个目标图像的各个部位类别的预测值。

根据本公开的另一个方面，提供一种部位类别识别装置，包括：特征提取层，所述特征提取层对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）；多层局部连接网络（LC），所述多层局部连接网络对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇）；多层循环神经网络（RNN），所述多层循环神经网络基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂）；以及，分类器，所述分类器基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。

根据本公开的至少一个实施方式的部位类别识别装置，所述特征提取层包括多个VIT网络，每个VIT网络包括一个用于获取序列特征及信息的多头注意力层、一个用于非线性变换的前馈传播层以及两个用于归一化的加和标准化层；所述两个用于归一化的加和标准化层分别设置在所述多头注意力层和所述前馈传播层之前，所述前馈传播层位于所述多头注意力层之后，所述VIT网络的每一层的输出直接作为下一层的输入。

根据本公开的至少一个实施方式的部位类别识别装置，所述多层局部连接网络包括多个共享局部连接层，每个共享局部连接层包括全连接层，使用全连接层将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇）。

根据本公开的至少一个实施方式的部位类别识别装置，所述分类器包括集成相加模块以及注意力网络；所述集成相加模块将各个目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；所述集成相加特征被复制为第二预设份数，所述第二预设份数等于总的部位类别个数；所述注意力网络基于所述第二预设份数的集成相加特征以及预先获取的各个部位类别之间的依赖关系生成每个目标图像的各个部位类别的预测值。

根据本公开的至少一个实施方式的部位类别识别装置，所述分类器包括softmax层，使用以下公式输出每个目标图像的各个部位类别的概率值：

其中，P _i为第i个部位类别的概率值，N为部位类别的总的个数，v _i为第i个部位类别的预测值；基于每个目标图像的各个部位类别的概率值输出各个部位类别的预测值。

根据本公开的又一个方面，提供一种基于部位类别识别的检查质量监控***，包括客户端，所述客户端包括视频处理模块，所述视频处理模块接收来自内窥镜装置的视频数据，并按照预设时间长度将所述视频数据切分为多个视频片段，并从每个视频片段抽取多个目标图像，所述多个目标图像为连续帧图像；所述客户端还包括部位类别识别装置，所述部位类别识别装置对每个视频片段的多个目标图像进行部位类别识别，以获得每个视频片段的各个目标图像的部位类别识别结果；所述客户端还包括检查质量分析分析模块，所述检查质量分析模块接收来自所述部位类别识别装置的每个视频片段的各个目标图像的部位类别识别结果，并通过显示装置进行实时显示，所述检查质量分析分析模块统计每个视频片段的各个目标图像的部位类别识别结果中各个类别部位的累积显示时间长度；以及所述客户端还包括结果汇总报告生成模块，所述结果汇总报告生成模块基于所述检查质量分析分析模块统计的所述类别部位的累积显示时间长度生成结果汇总报告。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，还包括服务器端，所述服务器端包括数据处理模块，所述数据处理模块包括预处理模块，所述预处理模块接收来自所述客户端的视频处理模块的每个视频片段的所述多个目标图像，对所述多个目标图像进行预处理，所述部位类别识别装置对每个视频片段的预处理后的多个目标图像进行部位类别识别。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，所述数据处理模块包括标注模块，所述标注模块对每个视频片段的各个目标图像进行部位类别标注，获得每个视频片段的多个已标注部位类别的目标图像，以用于所述部位类别识别装置的训练。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，所述预处理模块对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量（P）。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，所述服务器端还包括训练模块，所述训练模块基于每个视频片段的多个已标注部位类别的目标图像对所述部位类别识别装置进行训练，获得训练后的部位类别识别装置。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，所述客户端设置于计算机设备。

根据本公开的至少一个实施方式的基于部位类别识别的检查质量监控***，所述部位类别识别装置为上述任一项的部位类别识别装置。

根据本公开的又一个方面，提供一种电子设备，包括：存储器，所述存储器存储执行指令；以及，处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的部位类别识别方法。

根据本公开的再一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一项所述的部位类别识别方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的部位类别识别方法的流程图。

图2是根据本公开的一个实施方式的模型训练过程的流程示意图。

图3是根据本公开的一个实施方式的提供的部位信息标注示意图。

图4是采用处理***的硬件实现方式的部位类别识别装置的结构示意图。

图5示出了本公开的一个实施方式的部位类别识别装置的模型示意图。

图6示出了本公开的一个实施方式的局部连接层的结构示意图。

图7示出了本公开的基于部位类别识别的检查质量监控***的结构示意框图。

图8是本公开的一个实施方式的检查质量监控***提供的实时结果显示图。

图9是本公开的一个实施方式的基于部位类别识别的检查质量监控***提供的检查报告的显示图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

图1是根据本公开的一个实施方式的部位类别识别方法的流程示意图。

参考图1，部位类别识别方法S100，包括：S102、对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量（P），所述多个目标图像为连续帧图像；S104、对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）；S106、对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇）；S108、基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂）；以及S110、基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。

本公开的部位类别识别方法是一种基于人工智能的图像识别的部位（例如消化道的各个部位）识别技术。

虽然现有技术中已经出现相关技术，可以辅助医生的检查，但现有技术中的消化道部位识别技术往往基于单图片分类方法，没有考虑视频中相邻图像的部位类别（标签）存在一定的关系（联系），而单图片分类方法无法捕捉这些关系。例如：现有的识别技术在识别过程中，发现“食管”的图像会被误分为“十二指肠”，而本公开的部位类别识别方法能够利用相邻的图像标签信息，来避免这种错误，因为相邻的图像很多是“食管”的标签，“食管”和“十二指肠”不可能同时出现（两者无依赖关系）。本公开的部位类别识别方法具有更高的预测准确程度。

对于上述实施方式的部位类别识别方法S100，优选地，S104、对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X），包括：

使用VIT网络对每个目标图像的图像表示向量（P）进行特征提取，以获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）。

其中，VIT网络属于现有技术，其能够将输入的目标图像表示为图像块序列。

上文描述的具有第一预设维度（L）的特征表示向量表示为：

，其中，f _VIT为VIT网络函数，P为目标图像的图像表示向量。

示例性地，各个目标图像的特征表示向量（X）的维度可以为1000，即L为1000。

对于上述各个实施方式的部位类别识别方法S100，优选地，S106、对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇），包括：对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），对每个目标图像的特征表示子向量（X_k）进行压缩处理，获得每个目标图像的第一预设份数（k）的特征压缩向量；以及将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），所述第二预设维度小于所述第一预设维度。

对于上述各个实施方式的部位类别识别方法S100，优选地，S108、基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂），包括：基于每个目标图像的图像压缩中间表示向量（X＇）使用RNN网络获取每个目标图像的最终图像特征（X＂）。

即，

，其中，f _RNN为RNN网络函数。

对于上述各个实施方式的部位类别识别方法S100，优选地，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系，所述多个已标注部位类别的目标图像为连续帧图像。

对于上述各个实施方式的部位类别识别方法S100，优选地，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系（模型训练过程中获取各个部位类别之间的依赖关系），包括：S202、对多个已标注部位类别的目标图像进行向量化表示，以获得每个已标注部位类别的目标图像的图像表示向量（P），所述多个已标注部位类别的目标图像为连续帧图像；S204、对每个已标注部位类别的目标图像的图像表示向量（P）进行特征提取，获取每个已标注部位类别的目标图像的具有第一预设维度（L）的特征表示向量（X）；S206、对每个已标注部位类别的目标图像的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），对每个已标注部位类别的目标图像的特征表示子向量（X_k）进行压缩处理，获得每个已标注部位类别的目标图像的第一预设份数（k）的特征压缩向量；S208、将每个已标注部位类别的目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），所述第二预设维度小于所述第一预设维度；S210、基于每个已标注部位类别的目标图像的图像压缩中间表示向量（X＇）获取每个已标注部位类别的目标图像的最终图像特征（X＂）；S212、将各个已标注部位类别的目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；S214、将所述集成相加特征复制为第二预设份数，所述第二预设份数等于总的部位类别个数；以及，S216、基于所述第二预设份数的集成相加特征以及各个已标注部位类别的目标图像的部位类别获取各个部位类别之间的依赖关系。

参考图2，图2示出了上述模型训练过程S200的流程示意图。

其中，每个已标注部位类别的目标图像可被标注一个或两个以上的部位类别，例如图3，该已标注部位类别的目标图像被标注了四个部位类别（正镜胃窦G大弯、正镜胃窦L小弯、正镜胃窦A前壁、正镜胃窦P后壁），即通过所有已标注部位类别的目标图像的集成相加特征来获取各个部位类别的依赖关系（依存关系）。

其中，上文描述的最终图像特征（X＂）可以是方向梯度直方图特征(Histogram ofOriented Gradient, HOG)的形式。

优选地，所述多个已标注部位类别的目标图像提取自同一视频片段。

上文描述的第一预设份数k与上文描述的第二预设维度的数值相同。

其中，上文描述的目标图像可以是内窥镜装置采集的消化道的各个部位的图像等。

其中，上文描述的部位类别可以是内窥镜图像的消化道的各个部位的部位类别，例如：正镜口咽部、正镜食管、正镜贲门、倒镜贲门、倒镜胃底A前壁、倒镜胃底P后壁、倒镜胃底G大弯、倒镜胃底L小弯、正镜胃体中上部A前壁、正镜胃体中上部P后壁、正镜胃体中上部G大弯、正镜胃体中上部L小弯、倒镜胃体中上部A前壁、倒镜胃体中上部P后壁、倒镜胃体中上部G大弯、倒镜胃体中上部L小弯、正镜胃体下部A前壁、正镜胃体下部P后壁、正镜胃体下部G大弯、正镜胃体下部L小弯、正镜胃角、倒镜胃角A前壁、倒镜胃角P后壁、倒镜胃角L小弯、正镜胃窦A前壁、正镜胃窦P后壁、正镜胃窦G大弯、正镜胃窦L小弯、正镜幽门、正镜十二指肠球部、正镜十二指肠降部、正镜十二指肠***、肠胃镜外部。

对于上述各个实施方式的部位类别识别方法S100，优选地，对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k），包括：使用局部连接层对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行切分，获得第一预设份数（k份）的特征表示子向量（X_k）。

其中，每个目标图像的特征表示子向量（X_k）为：

其中，k=L/L ₁。例如，第一预设维度L为1000，切分后的维度L1=200，则生成k=5个特征表示子向量。本公式描述了k个特征表示子向量（X_k）。

对于上述各个实施方式的部位类别识别方法S100，优选地，将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇），包括：使用局部连接层中的全连接层将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇）。

其中，图像压缩中间表示向量（X＇）表示为：

其中，f _MLP为全连接网络函数，

。

相对于特征表示向量（X），经过（共享）局部连接层后的图像压缩中间表示向量（X＇）的维度更小。

对于上述各个实施方式的部位类别识别方法S100，优选地，S110、基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值，包括：将各个目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；将所述集成相加特征复制为第二预设份数，所述第二预设份数等于总的部位类别个数；以及基于所述第二预设份数的集成相加特征以及预先获取的各个部位类别之间的依赖关系生成每个目标图像的各个部位类别的预测值。

其中，例如，基于第二预设份数的集成相加特征以及预先获取的各个部位类别之间的依赖关系输出每个目标图像的N个类别特征（N即为部位类别的个数）之后，对每个目标图像的N个类别特征进行解码（利用分类器的全连接层的N个全连接操作分别解码N个类别特征，输出每个目标图像的N个类别预测值。

在模型的训练过程中，各个已标注部位类别的目标图像的最终图像特征（X＂）集成相加获得集成相加特征并复制N份（第二预设份数）后，经过注意力层（参考图5）学习各个部位类别之间的依赖关系，再经过全连接层和softmax层（即使用包括全连接层+softmax层的分类网络（分类器））。

根据本公开的另一个方面，提供一种部位类别识别装置（即一种部位类别识别模型）。

根据本公开的一个实施方式的部位类别识别装置1000，包括：特征提取层1002、所述特征提取层1002对每个目标图像的图像表示向量（P）进行特征提取，获取每个目标图像的具有第一预设维度（L）的特征表示向量（X）；多层局部连接网络1004（LC），所述多层局部连接网络1004对每个目标图像的具有第一预设维度（L）的特征表示向量（X）进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量（X＇）；多层循环神经网络1006（RNN），所述多层循环神经网络1006基于每个目标图像的具有第二预设维度（k）的图像压缩中间表示向量（X＇）获取每个目标图像的最终图像特征（X＂）；以及，分类器1008，所述分类器1008基于所有目标图像的最终图像特征（X＂）以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。

本公开的部位类别识别装置1000可以以计算机程序架构的方式实现。

现有技术中比较常用的捕捉序列信息的模型可以是循环神经网络（RNN）模型或者Transformer模型。但是，由于RNN模型的计算单元不能并行计算，RNN模型的计算时间较多，且Transformer模型虽然有并行优势（计算时间较少），但是该模型的模型参数较多，会消耗大量的显存。因此，本公开提出了新的部位类别识别装置（序列标注模型，Multi-LC-RNN）。

对于上述实施方式的部位类别识别装置1000，优选地，所述特征提取层1002包括多个VIT网络，每个VIT网络包括一个用于获取序列特征及信息的多头注意力层、一个用于非线性变换的前馈传播层以及两个用于归一化的加和标准化层；所述两个用于归一化的加和标准化层分别设置在所述多头注意力层和所述前馈传播层之前，所述前馈传播层位于所述多头注意力层之后，所述VIT网络的每一层的输出直接作为下一层的输入。

其中，特征提取层1002包括多个VIT网络，以提高特征提取层1002的特征提取速度。

对于上述各个实施方式的部位类别识别装置1000，优选地，所述多层局部连接网络1004包括多个共享局部连接层，每个共享局部连接层包括全连接层，使用全连接层将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量（X＇）。

对于上述各个实施方式的部位类别识别装置1000，优选地，所述分类器1008包括集成相加模块以及注意力网络；所述集成相加模块将各个目标图像的最终图像特征（X＂）进行集成相加，获得集成相加特征；所述集成相加特征被复制为第二预设份数，所述第二预设份数等于总的部位类别个数；所述注意力网络基于所述第二预设份数的集成相加特征以及预先获取的各个部位类别之间的依赖关系生成每个目标图像的各个部位类别的预测值。

对于上述实施方式的部位类别识别装置1000，优选地，所述分类器1008包括softmax层，使用以下公式输出每个目标图像的各个部位类别的概率值：

其中，P _i为第i个部位类别的概率值，N为部位类别的总的个数，v _i为第i个部位类别的预测值（属于第i个部位类别，或者不属于第i个部位类别）；基于每个目标图像的各个部位类别的概率值输出各个部位类别的预测值。

示例性地，分类器1008利用RNN得到提取的目标图像的最终图像特征，在输入注意力网络前根据部位类别的个数复制最终图像特征，例如当部位类别有33种的情况下，复制最终图像特征为33份，接着利用注意力网络捕捉各个部位类别（例如消化道部位类别）之间的依赖关系并输出33个类别特征，利用33个全连接操作分别解码类别特征，输出目标图像的33个类别预测值，具体方法为：每个分类器最后一层的全连接层中的每个全连接操作包含2个神经元，得到最后的2个结果为分布概率 P=[p1,p2]，其中p1是分类为该部位类别的概率，p2是不为该部位类别的概率，且p1+p2=1。如果p1≥p2，表示判断该目标图像被分类为该部位类别，当p1<p2，表示判断该目标图像不分类为该部位类别。本公开不对部位类别的具体数量进行特别定。

图4为采用处理***的硬件实现方式的部位类别识别装置1000的结构示意图。

该部位类别识别装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如***设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

根据本公开的又一个方面，提供一种电子设备，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的部位类别识别方法。

图5示出了本公开的一个实施方式的部位类别识别装置1000的模型示意图，模型的第一层特征提取层用于学***成一维后进入第二层R个共享局部连接层，将得到的图像压缩中间表示进入第三层RNN，获得特征集成相加，以用于得到最终的部位标签序列（每个图像的类别标签可以包括一个或两个以上的部位类别信息）。

根据本公开的又一个方面，提供一种基于部位类别识别的检查质量监控***。

参考图7，基于部位类别识别的检查质量监控***10包括客户端100，所述客户端100包括视频处理模块，所述视频处理模块接收来自内窥镜装置的视频数据，并按照预设时间长度将所述视频数据切分为多个视频片段，并从每个视频片段抽取多个目标图像，所述多个目标图像为连续帧图像；所述客户端100还包括部位类别识别装置，所述部位类别识别装置对每个视频片段的多个目标图像进行部位类别识别，以获得每个视频片段的各个目标图像的部位类别识别结果；所述客户端100还包括检查质量分析分析模块，所述检查质量分析模块接收来自所述部位类别识别装置的每个视频片段的各个目标图像的部位类别识别结果，并通过显示装置（例如计算机显示屏）进行实时显示，所述检查质量分析分析模块统计每个视频片段的各个目标图像的部位类别识别结果中各个类别部位的累积显示时间长度；以及所述客户端100还包括结果汇总报告生成模块，所述结果汇总报告生成模块基于所述检查质量分析分析模块统计的所述类别部位的累积显示时间长度生成结果汇总报告。

其中，视频处理模块接收来自内窥镜装置（例如消化道内窥镜装置）的视频数据，按照固定时间切分视频片段，对切分后的视频进行抽取以获得帧图片数据，具体地，对视频数据进行视频帧的抽取，其中视频帧的抽取采用一定的时间间隔，本公开不对具体的间隔时间作特别限定。例如，一段时长为5分钟的原生检测视频，以1分钟为时间段进行切分，共得到5段视频片段，每段视频片段以200ms为时间间隔进行抽取，共取得5组300幅视频帧图像（即连续帧图像）。

对于上述实施方式的基于部位类别识别的检查质量监控***10，还包括服务器端200，所述服务器端200包括数据处理模块，所述数据处理模块包括预处理模块，所述预处理模块接收来自所述客户端的视频处理模块的每个视频片段的所述多个目标图像，对所述多个目标图像进行预处理（缩放裁剪处理、随机水平翻转处理、标准化处理等），所述部位类别识别装置对每个视频片段的预处理后的多个目标图像进行部位类别识别。

其中，预处理模块进行的图片预处理操作包括以下几种中的一种或多种：缩放裁剪处理、随机水平翻转处理、标准化处理。缩放裁剪处理用于将输入图片处理成固定的尺寸。标准化处理是指在图片的RGB维度上减去数据对应维度的统计平均值，以消除公共的部分、凸显个体之间的特征和差异。随机水平翻转处理是为了进行数据增强来提高模型的泛化能力。

本公开不对图片缩放裁剪的取值作限定。比如，将不同输入图片的尺寸缩放为640*640*3的大小，随后裁剪为384*384*3的大小，剪去图片四个边角的黑色冗余部分，最后进行数据标准化得到最终的输入图像的特征（例如上文描述的图像表示向量（P））。

对于上述各个实施方式的基于部位类别识别的检查质量监控***10，所述数据处理模块包括标注模块，所述标注模块对每个视频片段的各个目标图像进行部位类别标注，获得每个视频片段的多个已标注部位类别的目标图像，以用于所述部位类别识别装置的训练。

具体地，标注模块标注每张图像的部位类别信息，获得每一段视频的所有目标图像的标签序列。

对于上述各个实施方式的基于部位类别识别的检查质量监控***10，所述预处理模块对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量（P）。

对于上述各个实施方式的基于部位类别识别的检查质量监控***10，所述服务器端还包括训练模块，所述训练模块基于每个视频片段的多个已标注部位类别的目标图像对所述部位类别识别装置（模型）进行训练，获得训练后的部位类别识别装置（模型）。

训练模块对部位类别识别装置（模型）训练之后保存部位类别识别装置（模型），客户端能够获取训练后的部位类别识别装置（模型）。

可以采用梯度下降算法训练部位类别识别装置（模型），在训练时可以采用如下损失函数：

；

其中，M表示一个视频片段中的图片张数，N表示内窥镜图片（例如胃镜图片）的总类别数，

表示第i张图片第j个类别的标签值，

表示第i张图片第j个类别的预测输出。

可选地，在训练过程中，设置批大小为64，初始学习率为0.00001，阈值Threshold为2秒，采用Adam优化器，在其它实施方式中，模型训练时对应的超参数也可以不同，批大小和初始学习率也可以为其它值，本公开不对训练过程中的各个参数取值作特别限定。

其中，客户端可以设置于计算机设备，服务器端设置于服务器。

对于上述各个实施方式的基于部位类别识别的检查质量监控***10，优选地，检查质量监控***10为上文描述的部位类别识别装置1000。

可使用测试数据集对本公开的检查质量监控***10的部位类别识别装置进行测试，包括使用预测结果（即识别结果）计算MAP指标和F1指标，F1是精确度和召回率的等权调和平均（F1-Score），用于评估部位类别识别装置的识别精度。

表1示出了本公开的部位类别识别装置（模型）与现有技术中的单图片多层Transformer模型、单图片RNN模型在MAP、F1以及图片的识别时间三个指标的对比结果。

表1

由表1可以看出，本公开的部位类别识别装置相对于现有技术中的单图片分类模型（不考虑图片帧的序列的分类模型）有了一定程度的精度提高（MAP提高幅度在3%左右，F1-Score提高幅度在3%），有效地解决了现有技术中的单图片输入模型无法预测视频中图片分类的问题，通过结合序列信息捕捉视频相邻帧图片部位标签之间的关系，本公开的部位类别识别装置（模型）获得了更好的部位识别性能。同时，本公开的部位类别识别装置相对于利用RNN进行序列标注的模型在MAP和F1-Score性能上面有一定程度的提升，并且所花费的时间也有所减少。从表1中示出的实验结果可以看出，本公开的部位类别识别装置（模型）在分类性能和分类效率方面都明显优于传统的RNN模型。

本公开的检查质量监控***10的检查质量分析分析模块，通过显示装置向用户显示部位类别识别装置识别的实时结果，根据当前时间前面所有时刻的部位类别识别的识别结果计算目前已经观察部位（展示部位）的时间累积，公式如下：

T=n*m

其中，假设部位p被检测到n次，每两帧间隔m毫秒，T即为部位p的累积观察时间。

分别判断累积观察时间（累积展示时间）大于阈值Threshold的部位类别和小于阈值Threshold的部位类别，累积观察时间大于阈值的部位记为已观察部位，小于阈值的部位记为未观察部位，如图8所示，中间显示当前内窥镜图像和其预测的标签结果，左侧显示未识别到的部位，右侧显示已经识别到的部位，下方进度条显示当前识别过程的完成比例，通过显示各部位的识别完成情况，能够辅助医生的检查工作。

本公开的检查质量监控***10的结果汇总报告生成模块基于检查质量分析分析模块统计的所述类别部位的累积显示时间长度生成结果汇总报告并通过显示设备显示，如图9所示，检查报告分别显示每个消化道部位的名称、对应图像、对应观察时间，下方显示漏检部位。

本公开的检查质量监控***10可以辅助医生进行规范操作，实时提醒已经检查的部位和未检查的部位，避免遗漏观察部位。

本公开的部位类别识别方法以及检查质量监控***解决了传统的单图片输入模型无法很好地预测视频中图片分类的问题，通过结合序列信息捕捉视频相邻帧图片部位标签之间的关系，从而获得比现有基于单图片分类方法更好的部位识别性能，能够实时监控内窥镜（胃镜）检查过程中的部位，帮助医生避免遗漏***位。

本公开的部位类别识别装置（Multi-LC-RNN模型）首先对图片表示利用局部连接网络（LC）进行多次不同的压缩，然后通过多个小型RNN（参数很小），最后集成多个RNN的结果。由于多个LC网络和小型RNN网络的运行都可以并行，本公开的部位类别识别方法（装置）的计算时间相对于传统RNN模型具有较大的改善。进一步地，同时，本公开的基于上文描述的集成相加的部位类别识别方法能够进一步提升分类的正确率。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种部位类别识别方法，其特征在于，包括：

对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量，所述多个目标图像为连续帧图像；

对每个目标图像的图像表示向量进行特征提取，获取每个目标图像的具有第一预设维度的特征表示向量；

对每个目标图像的具有第一预设维度的特征表示向量进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量；

基于每个目标图像的具有第二预设维度的图像压缩中间表示向量获取每个目标图像的最终图像特征；以及

基于所有目标图像的最终图像特征以及预先获取的各个部位类别之间的依赖关系，生成每个目标图像的各个部位类别的预测值。

2.根据权利要求1所述的部位类别识别方法，其特征在于，对每个目标图像的图像表示向量进行特征提取，获取每个目标图像的具有第一预设维度的特征表示向量，包括：

使用VIT网络对每个目标图像的图像表示向量进行特征提取，以获取每个目标图像的具有第一预设维度的特征表示向量。

3.根据权利要求1所述的部位类别识别方法，其特征在于，对每个目标图像的具有第一预设维度的特征表示向量进行维度压缩，以获得每个目标图像的具有第二预设维度的图像压缩中间表示向量，包括：

对每个目标图像的具有第一预设维度的特征表示向量进行切分，获得第一预设份数的特征表示子向量，对每个目标图像的特征表示子向量进行压缩处理，获得每个目标图像的第一预设份数的特征压缩向量；以及

将每个目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量，所述第二预设维度小于所述第一预设维度。

4.根据权利要求1所述的部位类别识别方法，其特征在于，基于每个目标图像的具有第二预设维度的图像压缩中间表示向量获取每个目标图像的最终图像特征，包括：

基于每个目标图像的图像压缩中间表示向量使用RNN网络获取每个目标图像的最终图像特征。

5.根据权利要求1所述的部位类别识别方法，其特征在于，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系，所述多个已标注部位类别的目标图像为连续帧图像。

6.根据权利要求5所述的部位类别识别方法，其特征在于，至少基于提取自内窥镜装置的多个已标注部位类别的目标图像获取所述各个部位类别之间的依赖关系，包括：

对多个已标注部位类别的目标图像进行向量化表示，以获得每个已标注部位类别的目标图像的图像表示向量，所述多个已标注部位类别的目标图像为连续帧图像；

对每个已标注部位类别的目标图像的图像表示向量进行特征提取，获取每个已标注部位类别的目标图像的具有第一预设维度的特征表示向量；

对每个已标注部位类别的目标图像的特征表示向量进行切分，获得第一预设份数的特征表示子向量，对每个已标注部位类别的目标图像的特征表示子向量进行压缩处理，获得每个已标注部位类别的目标图像的第一预设份数的特征压缩向量；

将每个已标注部位类别的目标图像的特征压缩向量进行拼接以获得具有第二预设维度的图像压缩中间表示向量，所述第二预设维度小于所述第一预设维度；

基于每个已标注部位类别的目标图像的图像压缩中间表示向量获取每个已标注部位类别的目标图像的最终图像特征；

将各个已标注部位类别的目标图像的最终图像特征进行集成相加，获得集成相加特征；

将所述集成相加特征复制为第二预设份数，所述第二预设份数等于总的部位类别个数；以及

基于所述第二预设份数的集成相加特征以及各个已标注部位类别的目标图像的部位类别获取各个部位类别之间的依赖关系。

7.一种基于部位类别识别的检查质量监控***，其特征在于，包括客户端，所述客户端包括视频处理模块，所述视频处理模块接收来自内窥镜装置的视频数据，并按照预设时间长度将所述视频数据切分为多个视频片段，并从每个视频片段抽取多个目标图像，所述多个目标图像为连续帧图像；

所述客户端还包括部位类别识别装置，所述部位类别识别装置对每个视频片段的多个目标图像进行部位类别识别，以获得每个视频片段的各个目标图像的部位类别识别结果；

所述客户端还包括检查质量分析分析模块，所述检查质量分析模块接收来自所述部位类别识别装置的每个视频片段的各个目标图像的部位类别识别结果，并通过显示装置进行实时显示，所述检查质量分析分析模块统计每个视频片段的各个目标图像的部位类别识别结果中各个类别部位的累积显示时间长度；以及

所述客户端还包括结果汇总报告生成模块，所述结果汇总报告生成模块基于所述检查质量分析分析模块统计的所述类别部位的累积显示时间长度生成结果汇总报告。

8.根据权利要求7所述的基于部位类别识别的检查质量监控***，其特征在于，还包括服务器端，所述服务器端包括数据处理模块，所述数据处理模块包括预处理模块，所述预处理模块接收来自所述客户端的视频处理模块的每个视频片段的所述多个目标图像，对所述多个目标图像进行预处理，所述部位类别识别装置对每个视频片段的预处理后的多个目标图像进行部位类别识别。

9.根据权利要求8所述的基于部位类别识别的检查质量监控***，其特征在于，所述数据处理模块包括标注模块，所述标注模块对每个视频片段的各个目标图像进行部位类别标注，获得每个视频片段的多个已标注部位类别的目标图像，以用于所述部位类别识别装置的训练。

10.根据权利要求8所述的基于部位类别识别的检查质量监控***，其特征在于，所述预处理模块对提取自内窥镜装置的多个目标图像进行向量化表示，以获得每个目标图像的图像表示向量。