CN115345819A

CN115345819A - 一种胃癌图像识别***、装置及其应用

Info

Publication number: CN115345819A
Application number: CN202210461368.2A
Authority: CN
Inventors: 朱圣韬; 张澍田; 闵力; 陈蕾
Original assignee: Beijing Friendship Hospital
Current assignee: Beijing Friendship Hospital
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2022-11-15
Also published as: CN109671053A

Abstract

本发明涉及一种胃癌图像识别***、装置及其应用，该***包括数据输入模块、数据预处理模块、图像识别模型构建模块和病变识别模块；同时该***可以实现自我训练，从而准确的识别胃癌图像中的病变部位。

Description

一种胃癌图像识别***、装置及其应用

技术领域

本发明属于医学领域，更具体的涉及利用图像识别***实现病理图像识别的技术领域。

背景技术

虽然胃癌的发病率从1975年起逐渐下降，但2012年仍有将近100万的新发病例，使之成为世界第五大最常见的恶性肿瘤。在死亡率方面，胃癌是世界第三大癌症死因。

胃癌的预后极大程度上取决于它的分歧。有研究表明胃早癌的5年生存率几乎超过90％，而进展期胃癌的生存率却低于20％。所以，在高风险患癌人群中早期发现和规律随诊是降低胃癌发病率、提高患者生存率的最有效的手段。

由于普通白光内镜诊断胃癌(尤其是浅表平坦型病变)的误诊、漏诊率相当高，各种内镜诊断技术应运而生。但是应用这些内镜设备不仅需要的高超的操作技巧，还需要可观的经济支持。因此，急需研发一种发现、诊断胃早癌及癌前病变的简单易得、经济实用并且安全可靠的诊断技术。

发明内容

发明人在长期的医学实践中，为了减少人为内镜诊断所带来的各种问题，利用机器学习技术，经过多次开发、反复优化和训练获得了可用于胃癌诊断的***，辅以***而严格的图像筛选和预处理，进一步提高了训练的效能。本发明的诊断***能够非常精准的识别病理图像(如胃镜图片和实时图像)中的癌症病变部位，其识别率甚至已经超过了内科专家医师。

本发明的第一个方面提供了一种胃癌图像识别***，其包括：

a、数据输入模块，用于输入包含胃癌病变部位的图像，所述图像优选为内窥镜图像；

b、数据预处理模块，用于接收来自数据输入模块的图像，并精确框选胃癌的病变部位，在框选内的部分定义为阳性样本，而框选外的部分定义为阴性样本，并输出病变部位的坐标信息和/或病变类型信息；优选在框选前，所述模块还预先对图像进行脱敏处理，去除病患个人信息；

优选的，所述框选能够生成一个包含病灶部位的矩形框或正方形框；所述坐标信息优选为所述矩形框或正方形框的左上角和右下角的点的坐标信息；

还优选的，框选部位由下述方法确定：2n位内镜医师以“背对背”方式进行框选，即将2n人随机分成n组，2人/组，同时将所有图像随机分成 n份，并随机分配给各组医师进行框选；当框选完成后，对比每组两位医师的框选结果，并对两位医师之间框选结果的一致性进行评估，最终确定框选部位，其中n为1-100之间的自然数，例如1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100；

进一步优选的，所述对两位医师之间框选结果的一致性进行评估的标准如下：

针对每一张病变图片，对比每组两位医师的框选结果的重叠面积，如果每组两位医师分别框选的部位重叠部分的面积(即交集)大于该两者的并集所覆盖的面积的50％，则认为两位医师的框选判断结果一致性好，并且将上述交集对应的对角线坐标，即左上角和右下角的点的坐标，保存为目标病变最终的定位；

若重叠部分的面积(即交集)小于该两者的并集所覆盖的面积的50％，则认为两位医师的框选判断结果相差较大，此类病变图片被单独挑选出来，由所有参与框选工作的2n位医师共同讨论确定目标病变的最终位置；

c、图像识别模型构建模块，能够接收经数据预处理模块处理后的图像，用于构建并训练基于神经网络的图像识别模型，所述神经网络优选为卷积神经网络；

d、病变识别模块，用于将待检图像输入到训练后的图像识别模型，并基于图像识别模型的输出结果判定待检图像中是否存在病变和/或病变的位置。

在一个实施方案中，所述图像识别模型构建模块包括特征提取器、候选区域生成器和目标识别器，其中：

所述特征提取器用于对来自数据预处理模块的图像进行特征提取从而获得特征图，优选的，所述特征提取通过卷积操作进行；

所述候选区域生成器用于基于所述特征图生成若干候选区域；

所述目标识别器计算所述候选区域的分类得分，所述得分指示该区域属于所述阳性样本和/或所述阴性样本的概率；同时目标识别器能够对每个区域的边框位置提出调整值，从而针对每个区域的边框位置进行调整，进而精确定病灶位置；优选的，所述分类得分和调整值的训练中使用了损失函数(Loss function)；

还优选的，在进行所述训练时，采用基于mini-batch的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域的mini-batch；随后从每张图片中随机抽样256个候选区域直到阳性候选区域和阴性候选区域的比例接近1:1，随后计算对应的mini-batch的损失函数；若一张图片中阳性候选区域的数量少于128个，则用阴性候选区域去填补这个 mini-batch；

进一步优选的，将前50000个mini-batch的学习率设置为0.001，将后50000个mini-batch的学习率设置为0.0001；动量项优选设置为0.9，权值衰减优选设置为0.0005。

在另一个实施方案中，其中所述特征提取器能够对输入的任意尺寸和 /或分辨率的图像进行特征提取，所述图像可以是原图尺寸和/或分辨率，也可以是改变尺寸和/或分辨率后输入的图像，获得多维(例如256维或 512维)的特征图；

具体的，所述特征提取器包含X个卷积层和Y个采样层，其中第i 个(i在1-X之间)卷积层包含个Q_i个尺寸为m*m*p_i的卷积核，其中m*m 表示卷积核的长和宽的像素值，p_i等于上一个卷积层的卷积核数量Q_i-1，在第i个卷积层中，卷积核以步长L对来自上一级的数据(例如原图、第 i-1个卷积层、或者采样层)进行卷积操作；每个采样层包含1个以步长 2L移动的，大小为2L*2L的卷积核，对卷积层输入的图像进行卷积操作；其中，经过特征提取器进行特征提取后，最终获得Qx维的特征图；

其中X在1-20之间，例如，1、2、3、4、5、6、7、8、9、10、11、 12、13、14、15、16、17、18、19或20；Y在1-10之间，例如1、2、3、4、5、6、7、8、9或10；m在2-10之间，例如2、3、4、5、6、7、8、9 或10；p在1-1024之间，Q在1-1024之间，p或Q的数值分别例如1、2、 3、4、5、6、7、8、9、10、11、12、13、14、15、16、32、64、128、256、 512或1024。

在另一个实施方案中，其中所述候选区域生成器在所述特征图中设置滑动窗口，滑动窗口的大小为n×n，例如3×3；使滑动窗口沿特征图滑动，同时对于滑动窗口所在的每一个位置，其中心点与原图中的相应位置存在对应关系，并以所述相应位置为中心在原图中生成k个具有不同的尺度和长宽比的候选区域；其中，如果k个候选区域具有x种(例如3种)不同的尺度和长宽比，则k＝x²(例如k＝9)。

在另一个实施方案中，所述目标识别器又包括中间层，分类层和边框回归层，其中中间层用于映射滑窗操作所形成的候选区域的数据，是一个多维(例如256维或512维)的向量；

分类层和边框回归层分别与中间层连接，分类层用于判定该目标候选区域是前景(即阳性样本)还是背景(即阴性样本)，边框回归层用于生成候选区域中心点的x坐标和y坐标、以及候选区域的宽w和高h。

本发明的第二个方面提供了一种胃癌图像的识别装置，包括存储有胃癌诊断图像、图像预处理程序以及可训练的图像识别程序的存储单元，优选还包括运算单元和显示单元；

所述装置能够利用包含胃癌病变的图像的图像识别程序进行训练(优选为有监督训练)，从而使经过训练后的图像识别程序能够对待检图像中胃癌病变部位进行识别；

优选的，所述待检图像是内镜照片或者实时影像。

在一个实施方案中，其中所述图像预处理程序在所述的胃癌诊断图像中精确框选胃癌的病变部位，框选内的部分定义为阳性样本，而框选外的部分定义为阴性样本，并输出病变的位置坐标信息和/或病变类型信息；优选在框选前，还预先对图像进行脱敏处理，去除病患个人信息；

优选的，所述框选能够生成一个包含病灶部位的矩形框或正方形框；所述坐标信息优选为左上角和右下角的点的坐标信息；

还优选的，框选部位由下列方法确定：2n位内镜医师以“背对背”方式进行框选，即将2n人随机分成n组，2人/组，同时将所有图像随机分成n份，并随机分配给各组医师进行框选；当框选完成后，对比每组两位医师的框选结果，并对两位医师之间框选结果的一致性进行评估，最终确定框选部位，其中n为1-100之间的自然数，例如1、2、3、4、5、6、7、8、 9、10、20、30、40、50、60、70、80、90或100；

针对每一张病变图像，对比每组2位医师的框选结果的重叠面积，如果每组两位医师分别框选的部位重叠部分的面积(即交集)大于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果一致性好，并且将上述交集对应的对角线坐标保存为目标病变最终的定位；

若重叠部分的面积(即交集)小于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果相差较大，此类病变图片被单独挑选出来，由所有参与框选工作的2n位医师共同讨论确定目标病变的最终位置。

在另一个实施方案中，所述图像识别程序为可训练的基于神经网络的图像识别程序，所述神经网络优选为卷积神经网络；优选的，所述图像识别程序包括特征提取器、候选区域生成器和目标识别器，其中：

所述特征提取器用于对图像进行特征提取从而获得特征图，优选的，所述特征提取通过卷积操作进行；

所述目标识别器计算所述候选区域的分类得分，所述得分指示该区域属于所述阳性样本和/或所述阴性样本的概率；同时目标识别器能够对每个区域的边框位置提出调整值，从而针对每个区域的边框位置进行调整，从而精确定病灶位置；优选的，所述分类得分和调整值的训练中使用了损失函数(Loss function)；

在另一个实施方案中，其中在进行所述训练时，采用基于mini-batch 的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域的mini-batch。随后从每张图片中随机抽样256个候选区域直到阳性候选区域和阴性候选区域的比例接近1:1，随后计算对应的mini-batch的损失函数。若一张图片中阳性候选区域的数量少于128个，则用阴性候选区域去填补这个mini-batch；

优选的，将前50000个mini-batch的学习率设置为0.001，将后50000 个mini-batch的学习率设置为0.0001；动量项优选设置为0.9，权值衰减优选设置为0.0005。

其中X在1-20之间，例如，1、2、3、4、5、6、7、8、9、10、11、 12、13、14、15、16、17、18、19或20；Y在1-10之间，例如1、2、3、 4、5、6、7、8、9或10；m在2-10之间，例如2、3、4、5、6、7、8、9或10；p在1-1024之间，Q在1-1024之间，p或Q的数值分别例如1、2、 3、4、5、6、7、8、9、10、11、12、13、14、15、16、32、64、128、256、 512或1024。

本发明的第三个方面提供了本发明第一个方面的***或第二个方面的装置在胃癌和/或胃癌前病变的预测和诊断中的用途。

本发明的第四个方面提供了本发明第一个方面的***或第二个方面的装置在胃癌图像或胃癌图像中病变部位的识别中的用途。

本发明的第五个方面提供了本发明第一个方面的***或第二个方面的装置在胃癌和/或胃癌前病变的实时诊断中的用途。

本发明的第六个方面提供了本发明第一个方面的***或第二个方面的装置在胃癌图像或胃癌图像中病变部位的实时识别中的用途。

经过发明人长期的摸索发现，由于胃癌病变部位存在着自身特点，即病变部位不够显著，与周边组织界限不够清晰，因此图像识别模型训练的难度比起来常规的任务(如识别生活中物体)的难度更大，稍加不慎即会导致训练难以收敛从而导致失败。而在本发明中，发明人通过基于神经网络的图像识别模型，改进了其训练方法(例如通过框选精确界定训练图像中的目标病变位置，提高了图像识别模型的识别精准度等)，从而得到了一种对内镜图片中的胃癌病灶的智能高效识别的识别***(和/或装置)，其识别率高于普通的内镜医师。使用机器学习加强后的实时诊断***，还能够对消化道病变及其位置和概率进行实时监控和识别，从而能够极大提升普通医生对胃癌的检出率，降低误诊率，为胃癌诊断提供了安全可靠的技术。

附图说明

图1包含胃癌病灶部位的内窥镜图像

图2框选过程示意图

图3本发明的图像识别***所鉴定得到的胃癌的病灶部位。

具体实施方案

除非另外说明，本公开中使用的术语具有所属领域普通技术人员理解的一般含义。下面是一些术语在本公开内容中的含义，如果跟其他定义有不一致，以以下定义为准。

定义

术语“胃癌”，是指源于胃粘膜上皮细胞的恶性肿瘤，包含早期胃癌和进展期胃癌。

术语“模块”，是指能够实现特定效果的功能集合，所述模块可以仅由计算机执行，也可以由人工执行，或者由计算机和人工一同完成。

获取病变数据

获取病变数据步骤的关键作用在于得到用于深度学习的样本材料。

在一个实施方案中，所述获取过程可以具体包括采集和初筛的步骤。

所述“采集”是指按照“诊断为胃癌”的标准在所有的内镜数据库中搜索采集所有患有胃癌的患者的所有内镜诊断图像，例如被诊断为“胃癌” 的患者所属文件夹内所有的图片，即某患者在整个内镜检查过程中所有存储的图片，因此还可能包括目标部位病变以外的胃镜检查图片，例如该患者被诊断为良性溃疡、息肉等，但其名下的文件夹中还包含了食管、胃底、胃体、十二指肠等检查过程中各部位存储的图片。

所述“初筛”是对采集得到的胃癌患者的病理图像进行筛选的步骤，具体可以由经验丰富的内镜医师依据病例中“内镜检查所见”结合“病理诊断”中的相关内容描述来进行的。由于用于深度学习网络的图片必须是质量清晰、特征准确的，否则会导致学习难度加大或者识别结果不准确。因此病变数据初筛的模块和/或步骤能够把存在明确胃癌病灶部位的图片从一套检查图片中挑选出来。

重要的是，初筛会结合病人活检后组织病理学结果即“病理诊断”中对萎缩部位的描述，精确定位病变，同时兼顾图片清晰度、拍摄角度、放大程度等，尽量选择那些清晰度高、放大程度适中、能窥见病变全貌的内镜图像。

通过初筛，能够保证输入训练集的图片均是高质量的包含确定病变部位的图像，从而提高录入训练的数据集的特征准确性，以便人工智能网络能够更好地从中归纳、总结出萎缩性病变的图像特征，提高诊断准确率。

病变数据预处理

所述的预处理即完成精确框选胃癌的病灶部位的过程，在框选内的部分定义为阳性样本，而框选外的部分定义为阴性样本，并输出病灶的位置坐标信息和病灶类型信息。

在一个实施方案中，病变数据预处理全部或者部分是通过“图像预处理程序”所实现的。

术语“图像预处理程序”，是指能够实现图像中目标区域的框选，从而标示出目标区域类型和范围的程序。

在一个实施方案中，图像预处理程序还能够对图像进行脱敏处理，去除病患个人信息。

在一个实施方案中，图像预处理程序是一个利用计算机编程语言编写的能够执行前述功能的软件。

在另一个实施方案中，图像预处理程序是能够执行框选功能的软件。

在一个具体实施方案中，执行框选功能的软件能够将待处理的图片导入软件，并在操作界面显示该图片，此时实施框选操作人员(例如医生) 只需在拟框出的目标病变部位沿着自左上至右下的(或其它的对角方向) 方向拖动鼠标，从而形成一个涵盖目标病变的矩形框或正方形框，且同时后台生成并存储该矩形框左上角和右下角的准确坐标以唯一定位。

为了保证预处理(或者框选)的准确性，本发明进一步加强了对框选质量控制，这也是本发明的方法/***能够获得更大准确性的一个重要保证，具体方式如下：选择2n位(例如6位、8位、10位等)内镜医师以“背对背”方式进行框选，即2n人随机分成n组，2人/组，同时将所有筛选后的训练图像随机也等分成n份，并随机分配给各组医师进行框选；当框选完成后，对比每组2位医师的框选结果，并对两位医师之间框选结果的一致性进行评估，最终确定框选部位。

在一个实施方案中，一致性的评价标准为：对同一张病变图片来说，对比每组2位医师的框选结果也即对比对角坐标所确定的矩形框的重叠面积，我们规定若两矩形框重叠部分的面积(即交集)大于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果一致性好，并且将上述交集对应的对角线坐标保存为目标病变最终的定位。相反地，若两矩形框重叠部分的面积(即交集)小于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果相差较大，那么这样的病变图片将会被软件后台单独挑选出来，后期集中由所有参与框选工作的医师共同商讨确定目标病变的最终位置。

图像识别模型

术语“图像识别模型”是指基于机器学习和/或深度学习的原理构建的算法，也可以被称为“可训练的图像识别模型”或“图像识别程序”。

在一个实施方案中，该程序是一种神经网络，所述的神经网络优选是卷积神经网络；在另一个实施方案中，所述神经网络基于LeNet-5、RCNN、 SPP、Fast-RCNN和/或Faster-RCNN架构的卷积神经网络；其中 faster-RCNN可以看做是Fast-RCNN与RPN的组合，在一个实施方案中，基于faster-RCNN网络。

图像识别程序至少包括下列层级：原图特征提取层、候选区域选定层和目标识别层，通过预设的算法调整可训练参数。

术语“原图特征提取层”是指能够对所输入的待训练图像经过数学计算从而多维度提取原图信息的层级或层级组合。所述层实际上可以表示多个不同功能层的组合。

在一个实施方案中，原图特征提取层可以基于ZF或VGG16网络。

术语“卷积层”，是指在原图特征提取层中，负责对原始输入图像或者经过采样层处理后的图像信息进行卷积操作，从而提取信息的网络层。所述卷积操作实际上是通过一个特定大小的卷积核(如3*3)以一定的步长 (比如1个像素)在输入的图像上滑动，在卷积核移动的过程中将图片上的像素和卷积核的对应权重相乘，最后将所有乘积相加得到一个输出而实现的。在图像处理中，往往把图像表示为像素的向量，因此一副数字图像可以看作一个二维空间的离散函数，例如表示为f(x,y),假设有对于二维卷积操作函数C(u,v)，则会产生输出图像g(x,y)＝f(x,y)*C(u,v),利用卷积可以实现对图像模糊处理和信息提取。

术语“训练”是指通过输入大量经过人工标注的样本，对可训练的图像识别程序进行参数的反复自调，从而实现预期的目的，即实现识别胃癌图像中的病变部位。

在一个实施方案中，本发明基于faster-rcnn网络，并在步骤S4中采用如下的端到端的训练方法：

(1)使用在ImageNet上预训练的模型初始化目标候选区域生成网络 (RPN)的参数，并对该网络进行微调；

(2)同样使用ImageNet上的预训练的模型初始化Fast R-CNN网络参数，随后利用(1)中RPN网络提取的region proposal进行训练；

(3)使用(2)的Fast R-CNN网络重新初始化RPN,固定卷积层微调 RPN网络，其中只微调中RPN的cls和/或reg层；

(4)固定(2)中Fast R-CNN的卷积层，使用(3)中RPN提取的region proposal对Fast R-CNN网络进行微调，其中仅微调Fast R-CNN的全连接层。

术语“候选区域选定层”：是指通过算法实现在原始图像上选定特定的区域用于分类识别和边框回归的层级或层级组合，与原图特征提取层类似，所述层也可以表示多个不同层的组合。

在一个实施方案中候选区域选定层针对原始的输入层直接连接。

在一个实施方案中，候选区域选定层与原图特征提取层的最后一层直接连接。

在一个实施方案中，“候选区域选定层”可以基于RPN。

术语“目标识别层”术语“采样层”，有时候可以叫做池化层，其操作类似于卷积层，只不过采样层的卷积核为只取对应位置的最大值、平均值等 (最大池化、平均池化)。

术语“特征图”，也叫feature map，是指经过原图特征提取层对原图图像进行卷积运算后获得的小面积高维度的多通道图像，作为示例，特征图可以是尺度为51*39的256通道图像。

术语“滑动窗口”是指在特征图上生成的小尺寸(如2*2,3*3)的窗口，沿着特征图的每一个位置移动，虽然特征图尺寸也并不大，但是由于特征图已经经过多层的数据提取(如卷积)，因此在特征图上使用较小的滑动窗口即可实现更大的视野。

术语“候选区域”，也可以称为候选窗口、目标候选区域、reference box、bounding box，另外在本文中也可以与anchor或anchor box替换使用。

在一个实施方案中，首先通过滑动窗口定位至特征图的一个位置，针对该位置，生成k个不同面积不同比例的矩形或正方形窗口，例如9个，并锚定于该位置的中心，因此也叫做anchor或anchor box，并基于特征图中每一个滑窗与原图的中心位置的关系，形成候选区域，所述候选区域本质上可以认为是最后一层卷积层上所移动的滑窗(3*3)所对应的原图区域范围。

在本发明的一个实施方案中，k＝9，在产生候选区域时包括下述步骤：

(1)首先按照不同面积和长宽比生成9种anchor box，该anchor box 不以特征图或者原始输入图像的大小发生变化；

(2)对于每张输入图像，根据图像大小计算每一个滑窗所对应原图的中心点；

(3)基于上述计算建立滑窗位置和原图位置的映射关系。

术语“中间层”，是指利用滑窗形成目标候选区域后，将特征图进一步映射到一个多维(例如256维或512维)的向量中，可将该层视为一个新的层级，本发明中称之为为中间层。中间层后连接分类层和窗口回归层。

术语“分类层”(cls_score)，与中间层输出的连接的一条支路，该支路能够输出2k个得分，分别对应k个目标候选区域的两个得分，其中一个是前景(即阳性样本)得分，一个是背景(即阴性样本)得分，这个分数可以判断该目标候选区域是真正的目标还是背景。因此对于每一个滑窗位置，分类层即可从高维度(例如256维)特征中输出属于前景(即阳性样本)和背景(即阴性样本)的概率。

具体的，在一个实施方案中，当候选区域与任意ground-truth box(真实样本边界，即需要识别的对象在原始图像中的边界)的IOU(交并比) 大于0.7是，可以被认为是阳性样本或正标签，当候选区域与任意 ground-truth box的IOU小于0.3时，则认为是背景(即阴性样本)，从而对每个anchor分配了类标签。其中IOU从数学含以上表示了候选区域与ground-truth box的重叠度，其计算方法如下：

IOU＝(A∩B)/(A∪B)

分类层可以输出k+1维数组p，表示属于k类和背景的概率。对每个 RoI(Region ofInteresting)输出离散型概率分布，p则由k+1类的全连接层利用softmax计算得出。数学表达如下：

p＝(p₀，p₁，...，p_k)

术语“窗口回归层”(bbox_pred)，与中间层输出的连接的另一条支路，与分类层并列。该层能够输出在每一个位置上，9个anchor对应窗口应该平移缩放的参数。分别对应k个目标候选区域，每个目标候选区域有4个边框位置调整值，这4个边框位置调整值指的是目标候选区域的左上角的x_a坐标、y_a坐标和目标候选区域的高h_a和宽w_a的调整值。该支路的作用是对目标候选区域位置进行微调，使最后得到的结果位置更加准确。

窗口回归层可以输出bounding box回归的位移，输出4*K维数组t，表示分别属于k类时，应该平移缩放的参数。数学表达如下：

k表示类别的索引，

是指相对于object proposal尺度不变的平移，

是指对数空间中相对于object proposal的高与宽。

在一个实施方案中，本发明通过损失函数(Loss function)实现对分类层和窗口回归层的同时训练，该函数是由classification loss(即分类层 softmax loss)和regression loss(即L1 loss)按一定比重组成的。：

计算softmax loss需要候选区域对应ground truth的标定结果和预测结果；计算regression loss需要三组信息：

(1)预测候选区域中心位置坐标x,y和宽高w,h；

(2)候选区域周边9个锚点reference boxes中的每一个中心点位置坐标x_a,y_a和宽高w_a,h_a。

(3)真实标定框(ground truth)对应的中心点位置坐标x*,y*和宽高w*,h*。

计算regression loss和总Loss方式如下：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，p_i为anchor预测为目标的概率。

有两个数值，

等于0为负标签，

等于1是正标签。

t_i表示预测的候选区域的4个参数化坐标的向量集合。

表示postive anchor对应的ground truth包围盒的坐标向量。

在一个实施方案中，在损失函数的训练时，采用基于mini-batch的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域 (anchor)的mini-batch。随后从每张图片中随机抽样256个anchor直到阳性anchor和阴性anchor的比例接近1:1，随后计算对应的mini-batch 的损失函数(Loss function)。若一张图片中阳性anchor的数量少于128 个，则用阴性anchor去填补这个mini-batch。

在一个具体实施方案中，将前50000个mini-batch的学习率设置为 0.001，将后50000个mini-batch的学习率设置为0.0001；动量项优选设置为0.9，权值衰减优选设置为0.0005。

经过上述训练后，将训练后的深度学习网络用于识别目标病变的内镜图片。在一个实施方案中，分类评分被设定为0.85，即深度学习网络确认病变概率超过85％的病灶才会被标示出来，从而该图片被判定为阳性；相反，如果一张图片中没有检测到可疑的病变区域，那么这张图片就被判定为阴性。

实施例

1.免除知情同意声明：

(1)本研究仅利用北京友谊医院消化科内镜中心在以往临床诊疗中获得的内镜图片及相关临床资料，进行回顾性的观察研究，不会对患者病情、治疗、预后甚至生命安全造成任何影响；

(2)由主要研究者一人单独完成所有数据采集工作，并在图片数据采集完成后，立即应用特殊软件对所有图片进行抹去个人信息处理，确保在后续的医师筛选、框选及人工智能编程专家录入训练、调试及测试过程中，并未造成患者隐私信息的泄露；

(3)消化科内镜中心电子病历查询***中，并未设置“联系方式”或 “家庭住址”等词条可显示，即该***并未录入患者的联系信息，故本研究无法追溯到纳入患者签署知情同意书。

2.病理图像采集

入选标准：

(1)自2013年1月1日起至2017年6月10日止于北京友谊医院消化内镜中心接受内镜检查(包括电子胃镜、电子结肠镜、超声内镜、电子染色内镜、放大内镜及色素内镜)的患者；

(2)镜下诊断“胃癌”(包括且不区分早期胃癌和进展期胃癌)的患者；

排除标准：

(1)消化道恶性肿瘤累及部位广泛或不明确者；

(2)仅患有胰胆***恶性肿瘤者；

(3)同时合并其他***恶性肿瘤者；

(2)内镜图片不清晰和/或拍摄角度不符合要求者。

3、实验流程和结果

(1)数据采集：由研究者从北京友谊医院消化科内镜中心电子病历 ***中查找出于2013年1月1日至2017年6月10日之间接受内镜检查 (包括电子胃镜、电子结肠镜、超声内镜、电子染色内镜、放大内镜及色素内镜)，并且镜下诊断为“胃癌”(包括且不区分早期胃癌和进展期胃癌)的患者的内镜图片及相关临床资料；

(2)抹去个人信息：采集完成后立即对所有图片进行抹去个人信息处理。

(3)图片筛选：对所有处理后的图片进行精加工，筛选出有明确病理结果确认为胃癌的病例所对应的内镜图片，并根据活检病理部位，最终筛选出每个病例中包含目标病变部位的清晰、背景干扰少的图片，共计 3774张；

(4)构建测试数据集：测试图片共100张，包括有病理结果确认的 “胃癌”(早期胃癌和进展期胃癌均可)50张，再另在数据库中随机采集有病理结果确证的胃的“非肿瘤性病变”(包括胃良性溃疡、息肉、间质瘤、脂肪瘤、异位胰腺)内镜图片50张。具体操作包括：

首先从步骤(3)筛选出的所有胃癌图片中随机选取50张；

再另在数据库中随机采集有病理结果确证的胃的“非肿瘤性病变”

(包括胃良性溃疡、息肉、间质瘤、脂肪瘤、异位胰腺)内镜图片50张，并立即对上述50张图片进行抹去个人信息处理；

(5)构建训练数据集：从步骤(3)筛选出的胃癌图片中，排除步骤 (4)中随机选择用于构建测试数据集的图片，剩余3724张用于深度学习网络训练，从而构成训练数据集；

(6)框选目标病变：6位内镜医师以“背对背”方式，将6人随机分成 3组，2人/组；所有筛选后的训练图片随机等分成3份，并随机分配给各组医师进行框选。病变框选步骤的实施基于自行编写的软件，所述软件能够将待处理的图片导入软件后即可在操作界面显示该图片，此时医师需在拟框出的目标病变部位沿着自左上至右下的方向拖动鼠标，从而形成一个涵盖目标病变的矩形框，且同时后台生成并存储该矩形框左上角和右下角的准确坐标以唯一定位。

框选完成后，对比每组2位医师的框选结果，对同一张病变图片来说，对比对角坐标所确定的矩形框的重叠面积，经过测试后，最终确定若两矩形框重叠部分的面积(即交集)大于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果一致性好，并且将上述交集对应的对角线坐标保存为目标病变最终的定位。相反若两矩形框重叠部分的面积(即交集)小于该两者的并集所覆盖的面积的50％，则认为2位医师的框选判断结果相差较大，那么这样的病变图片将会被软件后台(或者人工标记)单独挑选出来，后期集中由所有参与框选工作的医师共同商讨确定目标病变的最终位置。

(7)录入训练：将上述所有框选完成的图片录入基于faster-rcnn卷积神经网络中进行训练，并测试了ZF和VGG16两种网络结构；训练采用端对端的方式；

其中ZF网络具有5个卷积层、3个全连层和一个softmax分类输出层，VGG16网络具有13个卷积层、3个全连层以及一个softmax分类输出层，在Faster-RCNN的框架下，ZF和VGG16模型均是用来提取训练图像特征的基础CNN。

训练时，采用基于mini-batch的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域(anchor)的mini-batch。随后从每张图片中随机抽样256个anchor直到阳性anchor和阴性anchor的比例接近1:1，随后计算对应的mini-batch的损失函数(Loss function)。若一张图片中阳性anchor的数量少于128个，则用阴性anchor去填补这个 mini-batch。

将前50000个mini-batch的学习率设置为0.001，将后50000个 mini-batch的学习率设置为0.0001；动量项优选设置为0.9，权值衰减优选设置为0.0005。

在训练时使用的损失函数(Loss Function)如下：

上式中，i代表每个batch中anchor的索引，p_i代表anchor是否为目标(Object)的概率；p_i*是该anchor的真实标签：当anchor为Object 则标签为1，反之则标签为0。t_i是一个4维向量分别表示bounding box 的参数化坐标，而t_i*则表示用于bounding box回归预测中的bounding box 参数化坐标的标签。

(8)测试及结果统计：利用测试数据集(包括50张胃癌和50张胃“非肿瘤性病变”的图片)，分别对人工智能***、不同年资的消化科医师进行测试，比较、评价两者在诊断方面的敏感性、特异性、准确率、一致性等指标，并进行统计学分析。测试中，将训练后的深度学习网络用于识别目标病变的内镜图片时的分类评分设定为0.85，即深度学习网络确认病变概率超过85％的病灶才会被标示出来，从而该图片被判定为阳性；相反，如果一张图片中没有检测到可疑的病变区域，那么这张图片就被判定为阴性。

结果如下：

基于国家消化疾病临床研究中心的平台，共有在胃癌内镜下病变诊断测试中，89名参与医师总体的敏感性波动于48％～100％范围，其中位数为88％，平均敏感性为87％；特异性波动于10％～98％范围(其中位数 78％，平均特异性为74％)，准确率则波动于51％～91％范围(其中位数 82％，平均准确率为80％)。而深度学***，不过特异性相对于中位数水平偏低，准确率也稍低于医师的中位数水平，但是考虑到深度学习网络模型诊断模型的在识别中具有极佳的稳定性，而不同医师在特异性、准确率方面具有极大的波动和不稳定性，因此使用人工智能识别病灶仍然能够有效的排除医师个体差异带来的诊断偏差，因而具有良好的应用前景。

其中，敏感性也叫做敏感度(sensitivity，SEN)，又称真阳性率(true positiverate，TPR)，即实际患病又被诊断标准正确地诊断出来的百分比。

特异性，也叫做特异度(specificity，SPE)，又称真阴性率(true negative rate，TNR)，反映了筛检试验确定非病人的能力。

准确率＝正确识别的个体总数/识别出的个体总数。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种胃癌图像识别***，其包括：

优选的，所述框选能够生成一个包含病变部位的矩形框或正方形框；所述坐标信息优选为所述矩形框或正方形框的左上角和右下角的点的坐标信息；

还优选的，框选的部位由下述方法确定：2n位内镜医师以“背对背”方式进行框选，即将2n人随机分成n组，2人/组，同时将所有图像随机分成n份，并随机分配给各组医师进行框选；当框选完成后，对比每组两位医师的框选结果，并对两位医师之间框选结果的一致性进行评估，最终确定框选部位，其中n为1-100之间的自然数，例如1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100；

2.根据权利要求1所述的***，所述图像识别模型构建模块包括特征提取器、候选区域生成器和目标识别器，其中：

还优选的，在进行所述训练时，采用基于mini-batch的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域的mini-batch；随后从每张图片中随机抽样256个候选区域直到阳性候选区域和阴性候选区域的比例接近1:1，随后计算对应的mini-batch的损失函数；若一张图片中阳性候选区域的数量少于128个，则用阴性候选区域去填补这个mini-batch；

3.根据权利要求2所述的***，其中所述特征提取器能够对输入的任意尺寸和/或分辨率的图像进行特征提取，所述图像可以是原图尺寸和/或分辨率，也可以是改变尺寸和/或分辨率后输入的图像，获得多维(例如256维或512维)的特征图；

具体的，所述特征提取器包含X个卷积层和Y个采样层，其中第i个(i在1-X之间)卷积层包含个Q_i个尺寸为m*m*p_i的卷积核，其中m*m表示卷积核的长和宽的像素值，p_i等于上一个卷积层的卷积核数量Q_i-1，在第i个卷积层中，卷积核以步长L对来自上一级的数据(例如原图、第i-1个卷积层、或者采样层)进行卷积操作；每个采样层包含1个以步长2L移动的，大小为2L*2L的卷积核，对卷积层输入的图像进行卷积操作；其中，经过特征提取器进行特征提取后，最终获得Qx维的特征图；

其中X在1-20之间，例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20；Y在1-10之间，例如1、2、3、4、5、6、7、8、9或10；m在2-10之间，例如2、3、4、5、6、7、8、9或10；p在1-1024之间，Q在1-1024之间，p或Q的数值分别例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、32、64、128、256、512或1024。

4.根据权利要求2或3所述的***，其中所述候选区域生成器在所述特征图中设置滑动窗口，滑动窗口的大小为n×n，例如3×3；使滑动窗口沿特征图滑动，同时对于滑动窗口所在的每一个位置，其中心点与原图中的相应位置存在对应关系，并以所述相应位置为中心在原图中生成k个具有不同的尺度和长宽比的候选区域；其中，如果k个候选区域具有x种(例如3种)不同的尺度和长宽比，则k＝x²(例如k＝9)。

5.根据权利要求2-4中任一项所述的***，所述目标识别器又包括中间层，分类层和边框回归层，其中中间层用于映射滑窗操作所形成的候选区域的数据，是一个多维(例如256维或512维)的向量；

6.一种胃癌图像的识别装置，包括存储有胃癌诊断图像、图像预处理程序以及可训练的图像识别程序的存储单元，优选还包括运算单元和显示单元；

优选的，所述待检图像是内镜照片或者实时影像。

7.根据权利要求6所述的装置，其中所述图像预处理程序在所述的胃癌诊断图像中精确框选胃癌的病变部位，框选内的部分定义为阳性样本，而框选外的部分定义为阴性样本，并输出病变的位置坐标信息和/或病变类型信息；优选在框选前，还预先对图像进行脱敏处理，去除病患个人信息；

还优选的，框选部位由下列方法确定：2n位内镜医师以“背对背”方式进行框选，即将2n人随机分成n组，2人/组，同时将所有图像随机分成n份，并随机分配给各组医师进行框选；当框选完成后，对比每组两位医师的框选结果，并对两位医师之间框选结果的一致性进行评估，最终确定框选部位，其中n为1-100之间的自然数，例如1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100；

8.根据权利要求6或7所述的装置，所述图像识别程序为可训练的基于神经网络的图像识别程序，所述神经网络优选为卷积神经网络；优选的，所述图像识别程序包括特征提取器、候选区域生成器和目标识别器，其中：

所述目标识别器计算所述候选区域的分类得分，所述得分指示该区域属于所述阳性样本和/或所述阴性样本的概率；同时目标识别器能够对每个区域的边框位置提出调整值，从而针对每个区域的边框位置进行调整，从而精确定病灶位置；优选的，所述分类得分和调整值的训练中使用了损失函数(Loss function)。

9.根据权利要求6至8中任一项所述的装置，其中在进行所述训练时，采用基于mini-batch的梯度下降法，即对每一张训练图片产生一个包含多个阳性和阴性候选区域的mini-batch。随后从每张图片中随机抽样256个候选区域直到阳性候选区域和阴性候选区域的比例接近1:1，随后计算对应的mini-batch的损失函数。若一张图片中阳性候选区域的数量少于128个，则用阴性候选区域去填补这个mini-batch；

优选的，将前50000个mini-batch的学习率设置为0.001，将后50000个mini-batch的学习率设置为0.0001；动量项优选设置为0.9，权值衰减优选设置为0.0005。

10.根据权利要求8或9所述的装置，其中所述特征提取器能够对输入的任意尺寸和/或分辨率的图像进行特征提取，所述图像可以是原图尺寸和/或分辨率，也可以是改变尺寸和/或分辨率后输入的图像，获得多维(例如256维或512维)的特征图；

11.根据权利要求8至10中任一项所述的装置，其中所述候选区域生成器在所述特征图中设置滑动窗口，滑动窗口的大小为n×n，例如3×3；使滑动窗口沿特征图滑动，同时对于滑动窗口所在的每一个位置，其中心点与原图中的相应位置存在对应关系，并以所述相应位置为中心在原图中生成k个具有不同的尺度和长宽比的候选区域；其中，如果k个候选区域具有x种(例如3种)不同的尺度和长宽比，则k＝x²(例如k＝9)。

12.根据权利要求8至11中任一项所述的装置，所述目标识别器又包括中间层，分类层和边框回归层，其中中间层用于映射滑窗操作所形成的候选区域的数据，是一个多维(例如256维或512维)的向量；

13.根据权利要求1至5中任一项所述的***或权利要求6至12任一项所述的装置在胃癌和/或胃癌前病变的预测和诊断中的用途。

14.根据权利要求1至5中任一项所述的***或权利要求6至12任一项所述的装置在胃癌图像或胃癌图像中病变部位的识别中的用途。

15.根据权利要求1至5中任一项所述的***或权利要求6至12任一项所述的装置在胃癌和/或胃癌前病变的实时诊断中的用途。

16.根据权利要求1至5中任一项所述的***或权利要求6至12任一项所述的装置在胃癌图像或胃癌图像中病变部位的实时识别中的用途。