CN113593707A

CN113593707A - 胃早癌模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN113593707A
Application number: CN202111147191.0A
Authority: CN
Inventors: 邢达奇; 胡珊; 张阔; 刘奇为
Original assignee: Wuhan Endoangel Medical Technology Co Ltd
Current assignee: Wuhan Endoangel Medical Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-11-02
Anticipated expiration: 2041-09-29
Also published as: CN113593707B

Abstract

本申请提供一种胃早癌模型训练方法、装置、计算机设备及存储介质，训练方法包括：获取胃早癌图片样本集；对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片的特征向量；根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型。采用本方法，将多个胃早癌病灶特征量化成特征向量，进而对模型进行训练，得到的模型综合识别多个胃早癌病灶特征，准确度更高。

Description

胃早癌模型训练方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种胃早癌模型训练方法、装置、计算机设备及存储介质。

背景技术

胃癌是全球第三大致死性肿瘤。在我国，胃癌的发病率和死亡率占所有恶性肿瘤的第二位，每年剥夺近50万人的生命，且呈现年轻化趋势。早期胃癌的5年生存率大于90%，晚期胃癌低于25%。癌症的早期发现、早期诊断及早期治疗是提高患者生存率的主要策略。白光内镜（white light endoscopy，WLE）是消化内镜技术的基础，是筛查消化道早期病变最普通又最重要的手段。

日本早期胃癌研究领域专家八木一芳在其论著当中总结了早期胃癌的常见白光内镜下病灶特征，如多具有色调改变及表面形态不规则，边界多清晰，自发性出血等；英国胃肠病学协会指南中亦引用、总结了早期胃癌的常见白光内镜下诊断依据，如结节样改变、轻微***或凹陷、不寻常的黏膜中断等。综合WLE下病灶特征进行病灶性质的推理和诊断，是内镜医师诊断早期胃癌的基本思路。

由于胃早癌的病灶特征的特征属性较多，且各特征属性下的特征类别多样化，目前基于深度学习的胃早癌识别方法，其胃早癌识别模型只能识别单一的胃早癌病灶特征，缺少量化综合考虑多个特征维度的病灶特征，导致训练的胃早癌识别模型准确度不高。

发明内容

基于此，有必要针对上述技术问题，提供一种胃早癌模型训练方法、装置、计算机设备及存储介质，将多个胃早癌病灶特征量化成特征向量，进而对模型进行训练，得到的模型综合识别多个胃早癌病灶特征，准确度更高。

第一方面，本申请提供一种胃早癌模型训练方法，包括：

获取胃早癌图片样本集；

对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片的特征向量；

根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型。

在本申请一些实施例中，所述对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片的特征向量，包括：

对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片包含的病灶特征信息；

根据所述病灶特征信息确定预设特征属性的特征值；

根据所述特征值确定所述特征向量。

在本申请一些实施例中，所述预设特征属性包含多分类特征属性和二分类特征属性，所述多分类特征属性包含至少三个特征类别，所述二分类特征属性包含两个特征类别，所述特征值包含第一特征值和第二特征值，所述根据所述病灶特征信息确定预设特征属性的特征值，包括：

根据所述病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，所述特征类别包含第一特征类别和第二特征类别，所述第一特征类别对应多分类特征属性，所述第二特征类别对应二分类特征属性，所述预设类别对应关系为各预设特征属性病灶特征信息与特征类别的对应关系；

根据所述第一特征类别得到多个所述第一特征值，所述第一特征值的数量与所述多分类特征属性的特征分类数量相同；

根据所述第二特征类别得到第二特征值。

在本申请一些实施例中，所述根据所述特征值确定所述特征向量，包括：

根据预设特征类别权重和所述特征值确定预设特征维度的所述特征向量，所述预设特征维度的数量与特征值的数量对应。

在本申请一些实施例中，所述胃早癌图片样本集包括正样本和负样本，所述根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型，包括：

从所述特征向量中选取至少两个特征维度的特征值作为组合特征；

根据多个所述组合特征分别对预设初始模型进行训练，得到多个胃早癌模型；

根据所述胃早癌图片样本集的正负样本标注信息，计算所述多个胃早癌模型的识别准确度；

根据所述识别准确度确定所述胃早癌识别模型。

在本申请一些实施例中，所述获取胃早癌图片样本集，包括：

获取白光模式下待识别胃病灶的初始胃镜图片；

对所述初始胃镜图片进行背景识别和背景裁剪，得到所述胃镜图片；

对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集。

在本申请一些实施例中，所述对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集，包括：

通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片；

通过所述预设识别模型对所述胃镜预处理图片进行识别，得到包含病灶特征的病灶图片；

对所述病灶图片进行标记得到所述胃早癌图片样本集。

在本申请一些实施例中，所述通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片，包括：

根据所述胃镜图片的尺寸和所述样本图片的尺寸，确定图片缩放比例；

根据所述样本图片和所述图片缩放比例，确定缩小之后的所述胃镜预处理图片各像素点在所述胃镜图片中的映射区域；

当所述图片缩放比例为整数时，根据所述映射区域的像素均值确定所述胃镜预处理图片中对应像素点的像素值；

当所述图片缩放比例非整数时，根据所述映射区域的各像素点的像素值和像素权重，确定所述胃镜预处理图片中对应像素点的像素值，所述像素权重为所述映射区域的各像素点与对应的所述胃镜图片中的像素点的比例值。

第二方面，本申请提供一种胃早癌模型训练装置，包括：

样本获取模块，用于获取胃早癌图片样本集；

特征识别模块，与所述样本获取模块通讯连接，用于对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片预设特征维度的特征向量；

模型训练模块，与所述样本获取模块和所述特征识别模块通讯连接，用于根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型。

在本申请一些实施例中，所述特征识别模块还用于对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片包含的病灶特征信息；根据所述病灶特征信息确定预设特征属性的特征值；根据所述特征值确定所述特征向量。

在本申请一些实施例中，所述特征识别模块还用于根据所述病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，所述特征类别包含第一特征类别和第二特征类别，所述第一特征类别对应多分类特征属性，所述第二特征类别对应二分类特征属性，所述预设类别对应关系为各预设特征属性病灶特征信息与特征类别的对应关系；根据所述第一特征类别得到多个所述第一特征值，所述第一特征值的数量与所述多分类特征属性的特征分类数量相同；根据所述第二特征类别得到第二特征值，所述预设特征属性包含多分类特征属性和二分类特征属性，所述多分类特征属性包含至少三个特征类别，所述二分类特征属性包含两个特征类别，所述特征值包含第一特征值和第二特征值。

在本申请一些实施例中，所述特征识别模块还用于根据预设特征类别权重和所述特征值确定预设特征维度的所述特征向量，所述预设特征维度的数量与特征值的数量对应。

在本申请一些实施例中，所述模型训练模块还用于从所述特征向量中选取至少两个特征维度的特征值作为组合特征；根据多个所述组合特征分别对预设初始模型进行训练，得到多个胃早癌模型；根据所述胃早癌图片样本集的正负样本标注信息，计算所述多个胃早癌模型的识别准确度；根据所述识别准确度确定所述胃早癌识别模型，所述胃早癌图片样本集包括正样本和负样本。

在本申请一些实施例中，所述样本获取模块还用于获取白光模式下待识别胃病灶的初始胃镜图片；对所述初始胃镜图片进行背景识别和背景裁剪，得到所述胃镜图片；对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集。

在本申请一些实施例中，所述样本获取模块还用于通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片；通过所述预设识别模型对所述胃镜预处理图片进行识别，得到包含病灶特征的病灶图片；对所述病灶图片进行标记得到所述胃早癌图片样本集。

在本申请一些实施例中，所述样本获取模块还用于根据所述胃镜图片的尺寸和所述样本图片的尺寸，确定图片缩放比例；根据所述样本图片和所述图片缩放比例，确定缩小之后的所述胃镜预处理图片各像素点在所述胃镜图片中的映射区域；当所述图片缩放比例为整数时，根据所述映射区域的像素均值确定所述胃镜预处理图片中对应像素点的像素值；当所述图片缩放比例非整数时，根据所述映射区域的各像素点的像素值和像素权重，确定所述胃镜预处理图片中对应像素点的像素值，所述像素权重为所述映射区域的各像素点与对应的所述胃镜图片中的像素点的比例值。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现的胃早癌模型训练方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行的胃早癌模型训练方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

上述胃早癌模型训练方法、装置、计算机设备及存储介质，将多个胃早癌病灶特征量化成特征向量，进而对模型进行训练，得到的模型综合识别多个胃早癌病灶特征，准确度更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中胃早癌模型训练方法的场景示意图；

图2是本申请实施例中胃早癌模型训练方法的流程示意图；

图3是本申请实施例中初始胃镜图片裁剪成胃镜图片的示意图；

图4是本申请实施例中9*9的胃镜图片缩小为3*3的胃镜预处理图片的示意图；

图5是本申请实施例中9*9的胃镜图片缩小为2*2的胃镜预处理图片的示意图；

图6是本申请实施例中映射区域的边缘像素为原始像素点的一部分的示意图；

图7是本申请实施例中确定特征类别的示意图；

图8是本申请实施例中确定特征值的示意图；

图9是本申请实施例中确定组合特征的示意图；

图10是本申请实施例中胃早癌模型训练装置的结构示意图；

图11是本申请实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在本申请实施例中，胃早癌模型训练方法主要涉及人工智能(ArtificialIntelligence，AI)中的计算机视觉技术（Computer Vision，CV）。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（OpticalCharacter Recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，需要说明的是，本申请提供的胃早癌模型训练方法由于是在计算机设备中执行，各计算机设备的处理对象均以数据或信息的形式存在，例如时间，实质为时间信息，可以理解的是，后续实施例中若提及尺寸、数量、位置等，均为对应的数据存在，以便计算机设备进行处理，具体此处不作赘述。

在本申请实施例中，还需说明的是，本申请实施例提供的胃早癌模型训练方法，可以应用于如图1所示的胃早癌模型训练***中。其中，该胃早癌模型训练***包括终端100和服务器200，终端100可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端100具体可以是台式终端或移动终端，终端100具体还可以是手机、平板电脑、笔记本电脑等中的一种，又或是安装于监控现场用于信息采集、存储、传输的摄像头。服务器200可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出1个服务器200，可以理解的，该胃早癌模型训练***还可以包括一个或多个其他服务器，具体此处不作限定。另外，如图1所示，该胃早癌模型训练***还可以包括存储器，用于存储数据，如存储胃早癌图片样本集。

还需说明的是，图1所示胃早癌模型训练***的场景示意图仅仅是一个示例，本发明实施例描述的胃早癌模型训练***以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着胃早癌模型训练***的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种胃早癌模型训练方法，主要以该方法应用于上述图1中的服务器200来举例说明，该方法包括步骤S201~S203，具体如下：

S201，获取胃早癌图片样本集。

其中，胃早癌图片样本集为包含胃早癌病灶特征的胃部的病灶图片，胃早癌病灶特征包括但不限于病灶色调、边界是否清晰、病灶形态、表面是否规则、表面是否有白苔、表面是否有自发性出血等，一张病灶特征至少包含一种病灶特征。

此外，胃早癌图片样本集用于训练模型，因此胃早癌图片样本集包括正样本和负样本，正样本中为确定是胃早癌的病灶图片，负样本为确定不是胃早癌的病灶图片，正样本和负样本的病灶图片均进行了相应标记。

具体地，服务器200执行胃早癌模型训练任务之前，用户可通过终端100向服务器200发送任务请求，任务请求携带需要进行训练的胃早癌图片样本集。服务器200在接收到任务请求之后，即可按照胃早癌模型训练方法，基于胃早癌图片样本集进行训练。又或者，服务器200执行胃早癌模型训练任务之前，服务器200无需获取终端100发送的任务请求，此时的终端100是具有摄像功能的摄像机，终端100定时或实时采集获取到胃早癌图片样本集之后，即可发送至服务器200执行图片检测任务。而更进一步的是，终端100上可装载有图像获取装置，终端100定时或实时采集视频或图像，截取胃早癌图片样本集发送至服务器200，以使服务器200执行胃早癌模型训练任务。

在一个实施例中，本步骤包括：S301，获取白光模式下待识别胃病灶的初始胃镜图片；S302，对所述初始胃镜图片进行背景识别和背景裁剪，得到所述胃镜图片；S303，对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集。

其中，在胃镜下用白光模式观察胃部，对实时胃镜视频进行采帧，获得白光模式下的初始胃镜图片，一方面白光模式下的数据更加容易获取，另一方面白光模式下获取的图片更加容易处理，因此后续数据分析处理的速度更快。

将实时胃镜视频解码为图片，获取白光模式下待识别胃病灶的初始胃镜图片，实时胃镜视频没有做任何识别分析，因此逐帧对初始胃镜图片进行识别，例如实时胃镜视频为每秒20帧。由于获取的初始胃镜图片可能包含默认设置显示的其他信息，与后续的模型训练并不相关，因此对初始胃镜图片进行背景识别，其中由于获取的是白光模式下的图片，因此背景识别更加快速准确。之后，对初始胃镜图片进行背景裁剪，裁剪掉图片无效区域，只留下关心的胃镜主体区域，也就是胃镜图片，如图3所示。

之后，对胃镜图片进行识别，判断其是否包含病灶特征，此外，还需进一步标记是否为胃早癌，最后得到胃早癌图片样本集。

在一个实施例中，步骤S303，对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集包括：S401，通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片；S402，通过所述预设识别模型对所述胃镜预处理图片进行识别，得到包含病灶特征的病灶图片；S403，对所述病灶图片进行标记得到所述胃早癌图片样本集。

其中，识别胃镜图片中的病灶特征时，一般通过病灶特征分类网络进行识别。训练病灶特征分类网络时，为了使训练效率最大化，会使用模型的预训练权重，而神经网络预训练权重的样本集一般设有一定的尺寸，因此训练时同样使用了同样大小的样本集进行微调。为了保证识别的准确性，识别时使用的图片大小也要与训练时保持一致。因此，将胃镜图片缩小至预设识别模型的样本图片的尺寸得到胃镜预处理图片，预设识别模型为识别胃镜图片中的病灶特征的模型，例如Resnet50网络。样本图片为训练预设识别模型时的样本。

通过区域插值法将胃镜图片缩小成胃镜预处理图片，通过区域插值法进行缩小不会产生波纹效应，且缩小后图片质量高。区域插值法是根据图片缩放前后像素区域的对应关系进行插值的一种方法。

然后通过预设识别模型对胃镜预处理图片进行识别，得到包含病灶的病灶图片，其中病灶图片中可能包含一种病灶特征，也可能包含多种病灶特征。但是包含有病灶特征并不一定是胃早癌，因此需要进一步对包含病灶的病灶图片进行标记，区分正样本和负样本，最终得到胃早癌图片样本集。

在一个实施例中，步骤S403，对所述病灶图片进行标记得到所述胃早癌图片样本集包括：S501，根据所述胃镜图片的尺寸和所述样本图片的尺寸，确定图片缩放比例；S502，根据所述样本图片和所述图片缩放比例，确定缩小之后的所述胃镜预处理图片各像素点在所述胃镜图片中的映射区域；S503，当所述图片缩放比例为整数时，根据所述映射区域的像素均值确定所述胃镜预处理图片中对应像素点的像素值；S504，当所述图片缩放比例非整数时，根据所述映射区域的各像素点的像素值和像素权重，确定所述胃镜预处理图片中对应像素点的像素值，所述像素权重为所述映射区域的各像素点与对应的所述胃镜图片中的像素点的比例值。

具体的，根据胃镜图片的尺寸和样本图片的尺寸确定图片缩放比例，图片缩放比例为原图宽高除以缩小后宽高的倍数，其中图片缩放比例包括图片宽缩放比例和图片高缩放比例，两者可以相同也可以不相同。由于将胃镜图片缩小之后得到胃镜预处理图片，因此胃镜预处理图片的尺寸与样本图片的尺寸相同。

区域插值法是根据图片缩放前后像素区域的对应关系进行插值的一种方法，因此根据样本图片和图片缩放比例，确定缩小之后的胃镜预处理图片各像素点在胃镜图片中的映射区域。如图4所示，例如，胃镜图片的尺寸为9*9，样本图片的尺寸为3*3，也就是胃镜预处理图片的尺寸为3*3，则胃镜预处理图片左上角的像素点对应的胃镜图片中的映射区域为胃镜图片左上角3*3的区域。

其中，将图片左上角的像素点定义为坐标原点，则第一行的像素点的坐标一次为（0，0）、（0，1）、（0，2）等，第一列的像素点的坐标一次为（0，0）、（1，0）、（2，0）等。胃镜预处理图片中坐标为(X,Y)的像素点，其在胃镜图片中对应的映射区域的左上角的像素点坐标为( X*S_{y ,}Y*S_y),映射区域右下角的像素点坐标为（（x+1）*s_x-1，（y+1）*s_y-1）。其中，S_x为坐标X方向的图片缩放比例，S_y为坐标Y方向的图片缩放比例。其中，图片缩放比例可能为整数也可能非整数。

当图片缩放比例为整数时，胃镜预处理图片的一个像素点在胃镜图片对应的映射区域内所有的像素点都是完整的，如图4所示，胃镜图片的尺寸为9*9，胃镜预处理图片的尺寸为3*3，胃镜预处理图片左上角的像素点对应的胃镜图片中的映射区域为胃镜图片左上角3*3的区域。因此根据映射区域的像素均值确定胃镜预处理图片中对应像素点的像素值，例如胃镜预处理图片的一个像素点的像素值为映射区域内所有的像素点的像素值的平均值。

当图片缩放比例非整数时，胃镜预处理图片的一个像素点在胃镜图片对应的映射区域的边缘像素可能只是原始像素点的一部分，如图5和图6所示，胃镜图片的尺寸为9*9，胃镜预处理图片的尺寸为2*2，胃镜预处理图片左上角的像素点对应的胃镜图片中的映射区域为胃镜图片左上角4.5*4.5的区域，映射区域在胃镜图片中与其它像素点相邻的边缘位置的像素点只是原始像素点的一半，映射区域右下角的像素点只是原始像素点的1/4，其中原始像素点是映射区域的像素点在胃镜图片中对应的像素点。

根据映射区域的各像素点的像素值和像素权重，确定胃镜预处理图片中对应像素点的像素值，像素权重为映射区域的各像素点与对应的胃镜图片中的像素点的比例值，如图4所示，胃镜图片的尺寸为9*9，胃镜预处理图片的尺寸为2*2，则映射区域右下角的像素点的像素值对应的像素权重为1/4，映射区域在胃镜图片中与其它像素点相邻的边缘位置的像素点（除去映射区域右下角的像素点）的像素权重为1/2，映射区域其它的像素点（除去映射区域在胃镜图片中与其它像素点相邻的边缘位置的像素点）的像素权重为1。

因此，胃镜预处理图片中坐标为(x,y)的像素点的像素值F(x,y)的计算方式为：

，其中S_x为坐标X方向的图片缩放比例，S_y为坐标Y方向的图片缩放比例，f(x₀,y₀)为胃镜图片中坐标为 (x₀,y₀)的像素点的像素值，W(x₀,y₀)为胃镜图片中坐标为(x₀,y₀)的像素点在映射区域的像素权重，A为映射区域的面积。

本申请的实施例中通过区域插值法将胃镜图片缩小成胃镜预处理图片不会产生波纹效应，且缩小后图片质量高。对于缩放倍数不为整数时，边缘像素可能仅有一部分纳入映射区域，通过像素权重进行像素值的计算，使得区域插值法的适用范围更广，不限制胃镜图片与胃镜预处理图片的尺寸大小。

S202，对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片预设特征维度的特征向量。

具体地，对胃早癌图片样本集中的各病灶图片进行特征识别，分析病灶图片包含的病灶特征，基于病灶特征得到各病灶图片预设特征维度的特征向量。其中每个病灶图片的分析方式都完全相同。预设特征维度为预设的与病灶特征类别相关，将各个病灶特征量化得到特征向量，便于将多个不同的病灶特征综合起来进行分析判别。

在一个实施例中，本步骤包括：S601，对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片包含的病灶特征信息；S602，根据所述病灶特征信息确定预设特征属性的特征值；S603，根据所述特征值确定所述特征向量。

其中，病灶特征信息对胃早癌识别最有效的病灶特征，这些特征可从相关医学文献或者临床经验中总结筛选。例如日本早期胃癌研究领域专家八木一芳在其论著当中总结了早期胃癌的常见白光内镜下病灶特征，如多具有色调改变及表面形态不规则，边界多清晰，自发性出血等；英国胃肠病学协会指南中亦引用、总结了早期胃癌的常见白光内镜下诊断依据，如结节样改变、轻微***或凹陷、不寻常的黏膜中断等。

具体地，对胃早癌图片样本集中的各病灶图片进行特征识别，得到各病灶图片包含的病灶特征信息，根据病灶特征信息确定预设特征属性的特征值。

其中，预设特征属性为预设的病灶特征信息所属的多个种类，例如病灶色调、边界是否清晰、病灶形态、表面是否规则、表面是否有白苔、表面是否有自发性出血。将识别得到的病灶特征信息分别基于预设特征属性进行对应，从而得到预设特征属性对应的特征值，进而确定特征向量。

此外，可以使用同一特征识别网络对各病灶图片进行特征识别，但是由于各个预设特征属性的病灶特征的表现形式不同，可以针对不同的预设特征属性训练不同的特征识别模型，分别用不同的特征识别模型识别含有哪种或哪几种病灶特征。

在一个实施例中，所述预设特征属性包含多分类特征属性和二分类特征属性，所述多分类特征属性包含至少三个特征类别，所述二分类特征属性包含两个特征类别，所述特征值包含第一特征值和第二特征值，步骤S602，根据所述病灶特征信息确定预设特征属性的特征值包括：S701，根据所述病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，所述特征类别包含第一特征类别和第二特征类别，所述第一特征类别对应多分类特征属性，所述第二特征类别对应二分类特征属性，所述预设类别对应关系为各预设特征属性病灶特征信息与特征类别的对应关系；S702，根据所述第一特征类别得到多个所述第一特征值，所述第一特征值的数量与所述多分类特征属性的特征分类数量相同；S703，根据所述第二特征类别得到第二特征值。

其中，预设特征属性包含多分类特征属性和二分类特征属性，多分类特征属性包含至少三个特征类别，例如预设特征属性病灶色调、病灶形态以及表面是否规则均为多分类特征属性，病灶色调包括红、白及红白相间三个特征类别，病灶形态包括***、平坦以及凹陷三个特征类别，表面是否规则均为包括规则、不规则以及结节样改变三个特征类别，预设特征属性边界是否清晰、表面是否有白苔以及表面是否有自发性出血均为二分类特征属性，均只包括是和否两个特征类别。

由于预设特征属性不同，病灶特征信息的描述对应不同，因此为了进行量化以及便于统计，将各个预设特征属性的不同特征类别分别对应不同的标记，也就是设置预设类别对应关系，预设类别对应关系为各预设特征属性病灶特征信息与特征类别的对应关系，例如，“病灶色调（0、1、2分别对应红、白、红白相间）”，“病灶形态（0、1、2分别对应***、平坦、凹陷）”，“表面规则程度（0、1、2分别对应规则、不规则、结节样改变）”，“是否表面溃疡/白苔（0、1分别对应否、是）”，“是否自发性出血（0、1分别对应否、是）”，“是否边界清晰（0、1分别对应否、是）”等。其中，当某一预设特征属性的特征类别更多时，可以依次继续排列。预设类别对应关系中的数字并没有实际意义，其主要用于在同一预设特征属性下对各特征类别进行区别标记。

另外，由于多分类特征属性和二分类特征属性在后续的特征向量中的表达方式不同，分别需要不同数量的特征值才能将相应的预设特征属性描述清楚，因此在根据病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别时，得到的特征类别也不相同。

其中，特征类别包含第一特征类别和第二特征类别，第一特征类别对应多分类特征属性，第二特征类别对应二分类特征属性，可以通过任意方式的标记将第一特征类别和第二特征类别进行区别。

如图7所示，根据病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，Model1、Model2以及Model3为多分类特征属性，具体地，每个都是三分类的，分别对应第一特征类别2、1、2，Model4、Model5以及Model6为二分类特征属性，分别对应第二特征类别0、0、1。根据各预设特征属性的特征类别得到对应的特征值，特征值包含第一特征值和第二特征值，多分类特征属性的第一特征类别对应多个第一特征值，第一特征值的数量与多分类特征属性的特征类别数量相同，即每个多分类特征属性对应特征类别数量的第一特征值，二分类特征属性的第二特征类别对应一个第二特征值，即每个二分类特征属性对应一个第二特征值。如图8所示，多分类特征属性的Model1、Model2以及Model3均得到三个第一特征值，二分类特征属性的Model4、Model5以及Model6则均只有一个第二特征值，二分类特征属性只需要一个特征值即可将其对应的特征描述清楚，多分类特征属性则需要与其所包含的特征类别的数量相同的特征值才能描述清楚。

其中，同一个预设特征属性下的不同特征类别，当用数字表示特征类别时，其特征类别的编号一定会存在大小的差别，例如，病灶色调（0、1、2分别对应红、白、红白相间）。某些情况下，其数字编号有大小的含义，如“小，中，大”用“0，1，2”来表示，有着其对应的数学大小意义。但在本申请中，特征类别的编号仅仅是一种代号，用于在同一预设特征属性下对各特征类别进行区别标记，并没有表示数学大小的目的，如果直接用特征类别的编号进行最终的拟合，会造成偏差，所以将多类别特征属性的不同特征类别拆分为多种特征，分别得到各个拆分之后的特征对应的第一特征值，可以有效避免这种偏差。

本申请的实施例通过预设类别对应关系将不同预设特征属性的病灶特征信息进行量化，转化为对应的特征类别，以将不同预设特征属性的病灶特征信息综合起来，在模型训练中能够拟合更多的病灶特征，使得训练得到的模型能够识别分析更多的病灶特征，识别准确率更高。

在一个实施例中，步骤S603，根据所述特征值确定所述特征向量包括：S801，根据预设特征类别权重和所述特征值确定预设特征维度的所述特征向量，所述预设特征维度的数量与特征值的数量对应。

其中，预设特征维度的数量与特征值的数量对应，更具体地预设特征维度的数量为所有的第一特征值和第二特征值的数量之和。如图7和图8所示，Model1、Model2以及Model3为多分类特征属性，具体地，每个都是三分类的，Model4、Model5以及Model6为二分类特征属性，对应的预设特征维度的数量n=3+3+3+1+1+1=12，即统计各个预设特征属性下所有的特征值的数量。

此外，同一种预设特征属性的不同特征类别对最终识别胃早癌的重要性是不一样的，拆分为独立的特征后，可以通过分配不同的权重系数，使重要的特征类别影响更大，从而让预测更加准确。也就是根据预设特征类别权重和特征值确定预设特征维度的特征向量。

S203，根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型。

其中，预设初始模型可以是任意学习模型，例如Gaussian Naive Bayes,KNN，Logistic Regression，Random Forest，SVM，GBDT等经典机器学习算法模型。

根据胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型，其中，可以分别对不同的预设初始模型进行训练，选取其中得到的最优的模型作为最终的胃早癌识别模型。

在一个实施例中，本步骤包括：S901，从所述特征向量中选取至少两个特征维度的特征值作为组合特征；S902，根据多个所述组合特征分别对预设初始模型进行训练，得到多个胃早癌模型；S903，根据所述胃早癌图片样本集的正负样本标注信息，计算所述多个胃早癌模型的识别准确度；S904，根据所述识别准确度确定所述胃早癌识别模型。

其中，特征向量包含预设特征维度的特征值，但是在进行模型训练时，所选取的特征值的数量过多或过少都可能导致模型训练效果不佳。特征值的数量过多，数据处理量大，想要将选取的特征值全部拟合难度较大。特征值的数量过少，可能导致必要的特征残缺，训练的模型识别准确度较低。

因此，从特征向量中选取至少两个特征维度的特征值作为组合特征，其中一种组合特征如图9所示。根据多个组合特征分别对预设初始模型进行训练得到多个胃早癌模型。进一步地，由于预设特征维度的数量有限，可以穷举所有的组合特征，逐一将每一种组合特征对预设初始模型进行训练得到对应的胃早癌模型。

进一步地，由于预设初始模型可以选取不同的学习模型，可以逐一对不同的预设初始模型进行训练。其中，预设初始模型的类型为M，组合特征的总数量为C，最终得到的胃早癌模型的数量T为：T=M*C。

从所有的胃早癌模型中选取其中得到的最优的模型作为最终的胃早癌识别模型。将胃早癌图片样本集作为测试集或者重新获取新的样本作为测试集，测试集中同样包含正样本和负样本，正样本中为确定是胃早癌的病灶图片，负样本为确定不是胃早癌的病灶图片，正样本和负样本的病灶图片均进行了相应标记。通过测试集对所有的胃早癌模型进行测试，得到各个胃早癌模型的识别准确度，根据识别准确度选取其中识别准确度最高的胃早癌模型确定为胃早癌识别模型。

本申请的实施例中将多个胃早癌病灶特征量化成特征向量，进而对模型进行训练，得到的模型综合识别多个胃早癌病灶特征，准确度更高。

本申请提供一种胃早癌模型训练方法，通过在消化内镜白光模式下观察胃病灶，使用深度学习网络识别胃病灶的不同病灶特征，对病灶特征进行数据处理，然后使用机器学习方法精心训练得到胃早癌识别模型，具体方法如下：

步骤S1，在胃镜下用白光模式观察胃部，对实时胃镜视频进行采帧，获得白光模式下的初始胃镜图片。

步骤S2，将初始胃镜图片裁剪并缩小得到胃镜预处理图片，裁剪掉图片无效区域，只留下关心的胃镜主体区域，然后采用区域插值法进行缩小，其具体缩小步骤与上述实施例中相同。

步骤S3，使用病灶分类模型判断当前帧的胃镜预处理图片是否含有病灶，若含有病灶则继续S4，否则进行下一帧。

步骤S4，对S3中判断为包含病灶的病灶图片，分别用不同的病灶特征分类模型识别含有哪种或哪几种病灶特征，进行标记。准备各特征的胃镜图片样本集，分别训练识别各病灶特征的深度卷积网络，本例使用Resnet50网络。同时标记病灶图片属于胃早癌图片样本集的正样本还是负样本。

步骤S5，S4标记的病灶特征中，为多分类特征的，将特征列拆分，***为多个单独的特征列，二分类的特征保持不变。

步骤S6，训练最终的胃早癌识别模型时，采用了穷举训练法。将S5处理后的特征向量，输入到预设初始模型中进行训练，输出最终的胃早癌识别模型。

为了更好实施本申请实施例中的胃早癌模型训练方法，在胃早癌模型训练方法基础之上，本申请实施例中还提供一种胃早癌模型训练装置，如图10所示，所述胃早癌模型训练装置10包括：

样本获取模块11，用于获取胃早癌图片样本集；

特征识别模块12，与所述样本获取模块11通讯连接，用于对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片预设特征维度的特征向量；

模型训练模块13，与所述样本获取模块11和所述特征识别模块12通讯连接，用于根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型。

在本申请一些实施例中，所述特征识别模块12还用于对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片包含的病灶特征信息；根据所述病灶特征信息确定预设特征属性的特征值；根据所述特征值确定所述特征向量。

在本申请一些实施例中，所述特征识别模块12还用于根据所述病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，所述特征类别包含第一特征类别和第二特征类别，所述第一特征类别对应多分类特征属性，所述第二特征类别对应二分类特征属性，所述预设类别对应关系为各预设特征属性病灶特征信息与特征类别的对应关系；根据所述第一特征类别得到多个所述第一特征值，所述第一特征值的数量与所述多分类特征属性的特征分类数量相同；根据所述第二特征类别得到第二特征值，所述预设特征属性包含多分类特征属性和二分类特征属性，所述多分类特征属性包含至少三个特征类别，所述二分类特征属性包含两个特征类别，所述特征值包含第一特征值和第二特征值。

在本申请一些实施例中，所述特征识别模块12还用于根据预设特征类别权重和所述特征值确定预设特征维度的所述特征向量，所述预设特征维度的数量与特征值的数量对应。

在本申请一些实施例中，所述模型训练模块13还用于从所述特征向量中选取至少两个特征维度的特征值作为组合特征；根据多个所述组合特征分别对预设初始模型进行训练，得到多个胃早癌模型；根据所述胃早癌图片样本集的正负样本标注信息，计算所述多个胃早癌模型的识别准确度；根据所述识别准确度确定所述胃早癌识别模型，所述胃早癌图片样本集包括正样本和负样本。

在本申请一些实施例中，所述样本获取模块11还用于获取白光模式下待识别胃病灶的初始胃镜图片；对所述初始胃镜图片进行背景识别和背景裁剪，得到所述胃镜图片；对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集。

在本申请一些实施例中，所述样本获取模块11还用于通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片；通过所述预设识别模型对所述胃镜预处理图片进行识别，得到包含病灶特征的病灶图片；对所述病灶图片进行标记得到所述胃早癌图片样本集。

在本申请一些实施例中，所述样本获取模块11还用于根据所述胃镜图片的尺寸和所述样本图片的尺寸，确定图片缩放比例；根据所述样本图片和所述图片缩放比例，确定缩小之后的所述胃镜预处理图片各像素点在所述胃镜图片中的映射区域；当所述图片缩放比例为整数时，根据所述映射区域的像素均值确定所述胃镜预处理图片中对应像素点的像素值；当所述图片缩放比例非整数时，根据所述映射区域的各像素点的像素值和像素权重，确定所述胃镜预处理图片中对应像素点的像素值，所述像素权重为所述映射区域的各像素点与对应的所述胃镜图片中的像素点的比例值。

在本申请一些实施例中，胃早癌模型训练装置10可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该胃早癌模型训练装置10的各个程序模块，比如，图1所示的样本获取模块11、特征识别模块12以及模型训练模块13。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的胃早癌模型训练方法中的步骤。

例如，图11所示的计算机设备可以通过如图10所示的胃早癌模型训练装置10中的样本获取模块11执行步骤S201。计算机设备可通过特征识别模块12执行步骤S202。计算机设备可通过模型训练模块13执行步骤S203。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种胃早癌模型训练方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种计算机设备，包括一个或多个处理器；存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述胃早癌模型训练方法的步骤。此处胃早癌模型训练方法的步骤可以是上述各个实施例的胃早癌模型训练方法中的步骤。

在本申请一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器进行加载，使得处理器执行上述胃早癌模型训练方法的步骤。此处胃早癌模型训练方法的步骤可以是上述各个实施例的胃早癌模型训练方法中的步骤。

本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种胃早癌模型训练方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种胃早癌模型训练方法，其特征在于，包括：

获取胃早癌图片样本集；

2.如权利要求1所述的胃早癌模型训练方法，其特征在于，所述对所述胃早癌图片样本集中的各病灶图片进行特征识别，得到所述各病灶图片的特征向量，包括：

根据所述病灶特征信息确定预设特征属性的特征值；

根据所述特征值确定所述特征向量。

3.如权利要求2所述的胃早癌模型训练方法，其特征在于，所述预设特征属性包含多分类特征属性和二分类特征属性，所述多分类特征属性包含至少三个特征类别，所述二分类特征属性包含两个特征类别，所述特征值包含第一特征值和第二特征值，所述根据所述病灶特征信息确定预设特征属性的特征值，包括：

根据所述病灶特征信息和预设类别对应关系确定各预设特征属性的特征类别，所述特征类别包含第一特征类别和第二特征类别，所述第一特征类别对应多分类特征属性，所述第二特征类别对应二分类特征属性，所述预设类别对应关系为各预设特征属性的病灶特征信息与特征类别的对应关系；

根据所述第二特征类别得到第二特征值。

4.如权利要求3所述的胃早癌模型训练方法，其特征在于，所述根据所述特征值确定所述特征向量，包括：

5.如权利要求1或2所述的胃早癌模型训练方法，其特征在于，所述胃早癌图片样本集包括正样本和负样本，所述根据所述胃早癌图片样本集和所述特征向量对预设初始模型进行训练，得到胃早癌识别模型，包括：

根据所述识别准确度确定所述胃早癌识别模型。

6.如权利要求1所述的胃早癌模型训练方法，其特征在于，所述获取胃早癌图片样本集，包括：

获取白光模式下待识别胃病灶的初始胃镜图片；

7.如权利要求6所述的胃早癌模型训练方法，其特征在于，所述对所述胃镜图片进行识别标记，得到所述胃早癌图片样本集，包括：

对所述病灶图片进行标记得到所述胃早癌图片样本集。

8.如权利要求7所述的胃早癌模型训练方法，其特征在于，所述通过区域插值法将所述胃镜图片缩小至预设识别模型的样本图片的尺寸，得到胃镜预处理图片，包括：

9.一种胃早癌模型训练装置，其特征在于，包括：

样本获取模块，用于获取胃早癌图片样本集；

10.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至8中任一项所述的胃早癌模型训练方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，计算机程序被处理器进行加载，以执行权利要求1至8中任一项所述的胃早癌模型训练方法中的步骤。