CN111341437B

CN111341437B - 基于舌图像的消化道疾病判断辅助***

Info

Publication number: CN111341437B
Application number: CN202010108365.1A
Authority: CN
Inventors: 左秀丽; 周嘉伟; 冯健; 李延青; 李�真; 邵学军; 季锐; 杨晓云
Original assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Current assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2022-02-11
Anticipated expiration: 2040-02-21
Also published as: CN111341437A

Abstract

本发明属于消化道疾病判断辅助领域，提供了一种基于舌图像的消化道疾病判断辅助***，包括舌图像采集部，其用于采集完整舌图像；舌特征处理部，其用于提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的TF‑IDF向量；消化道疾病判断部，其用于计算当前完整舌图像对应的舌特征文本描述的TF‑IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐。其根据舌图像的舌特征自动判断消化道疾病，不受时间和空间范围的影响，能够提高消化道疾病判断的准确率。

Description

基于舌图像的消化道疾病判断辅助***

技术领域

本发明属于消化道疾病判断辅助领域，尤其涉及一种基于舌图像的消化道疾病判断辅助***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

舌是人体消化道中的重要组成器官之一，由许多纵横交错的横纹肌组成，外覆有特殊的黏膜结构。在中医学上，舌通过经络与脏腑之间发生联系，尤其与脾、胃联系密切，故中医学上常常以舌象推断消化道的疾患。舌诊是中医学中望诊的一部分，舌的质、苔等变化与特征和消化道疾病的联系密切，在中医学上常常被用来作为决定诊断和治疗的参考，在中医临床技能上占据重要地位。在消化道疾病发生时，舌的质、苔、齿痕等特征往往呈现规律性改变，而这些改变均可以通过肉眼或图像的方式加以捕捉和分析。

发明人发现，消化道疾病判断存在以下问题：1)现有的消化道疾病检测辅助手段众多，包括血样检测、钡餐显影、消化内镜等，但这些操作很多会对患者造成一定的伤害或不适，且在使用时间和空间范围上受到较大限制；2)不同的消化道疾病类型具有特定舌特征，但是目前根据舌特征来判断消化道疾病均是根据中医医师的经验、知识进行的现场总结与推测，使用的时间和空间范围同样受限，而且可能由于人为误差影响消化道疾病判断的准确率。

发明内容

为了解决上述问题，本发明提供一种基于舌图像的消化道疾病判断辅助系统，其根据舌图像的舌特征与各类消化道疾病的对应关系，通过计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离自动判断消化道疾病类型，不受时间和空间范围的影响，能够提高消化道疾病判断的便捷性，并辅助医师促进诊断准确率的提升。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一方面提供一种基于舌图像的消化道疾病判断辅助***，包括：

舌图像采集部，其用于采集完整舌图像；

舌特征处理部，其用于提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的TF-IDF向量；

消化道疾病判断部，其用于计算当前完整舌图像对应的舌特征文本描述的 TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，其中，k 为大于或等于1的正整数。

本发明的第二方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

接收完整舌图像；

提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的 TF-IDF向量；

计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，其中，k为大于或等于1的正整数。

本发明的第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

接收完整舌图像；

本发明的有益效果是：

(1)本发明针对完整舌图像进行处理，为辅助判断消化道疾病类型提供了准确的数据基础，能够保障消化道疾病判断辅助***对于消化道疾病判断的准确性；

(2)本发明通过计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，不受时间和空间范围的影响，根据舌图像的舌特征与各类消化道疾病的对应关系自动判断消化道疾病类型，提高了消化道疾病判断的便捷性，提升了辅助医师诊断的准确率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的一种基于舌图像的消化道疾病判断辅助***的原理图；

图2是本发明实施例的舌图像关键点示意图；

图3是本发明实施例的利用soft-MTCNN进行舌关键点检测和舌检测流程图；

图4是本发明实施例的PNet网络示意图；

图5是本发明实施例的RNet网络示意图；

图6是本发明实施例的ONet网络示意图；

图7是本发明实施例的基于卷积网络和多层LSTM的句子生成器生成舌特征文本描述流程图；

图8是本发明实施例的FastText的模型结构示意图；

图9是本发明实施例的获取相应消化道疾病内镜诊断报告所对应的消化道疾病类型的具体过程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

TF-IDF：term frequency–inverse document frequency，词频-逆文档频率；

TF-IDF的主要思想是：如果某个词或短语在一个舌图像描述中出现的频率 TF高，且在其他舌图像描述中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上就是TF*IDF，其中TF(Term Frequency)，表示词条在舌图像描述中出现的频率；IDF(Inverse Document Frequency)，其主要思想就是，如果包含这个词的舌图像描述越少，则这个词的区分度就越大，也就是IDF越大，取TF-IDF值较大的k个词，作为舌图像描述的关键词对应的特征向量，进而得到舌图像对应的TF-IDF向量。

实施例一

图1给出了本实施例的一种基于舌图像的消化道疾病判断辅助***的原理，如图1所示，本实施例的一种基于舌图像的消化道疾病判断辅助***，包括：

(1)舌图像采集部，其用于采集完整舌图像。

为了保证采集到的舌图像是完整的，本实施例采用改进的MTCNN网络称之为soft-MTCNN进行舌关键点检测和舌检测，如图2所示，本实施例标注了5 个舌关键点分别称为舌根(2个)，舌腰(2个)和舌尖(1个)，目的是通过检测舌的5个关键点可以精确的检测到完整的舌图像，合格的舌图像应该是能够清晰的看到舌的5个关键点和舌检测的检测框。所述舌关键点的数量为五个均位于舌轮廓线上。

其中，soft-MTCNN网络模型由串联连接的PNet网络、RNet网络和ONet 网络构成；所述PNet网络的输入量为舌图像，其输出结果为判断舌图像中包含舌的概率并标记所有可能的舌边界框；所述RNet网络的输入量为PNet网络的输出结果，RNet网络的输出结果为存在舌的舌边界框；所述ONet网络的输入量为RNet网络的输出量，ONet网络的输出结果为舌关键点及其位置信息。

如图3所示，本实施例的利用soft-MTCNN进行舌关键点检测和舌检测的实现流程如下：

步骤101：通过PNet网络得到候选框；

如图4所示，对于输入的舌图像将图像缩放至12*12*3的大小，在训练的时候网络Head有3个支路分别用来做舌分类(该预测框是否包含舌)，舌框的回归和舌关键点定位；在测试的时候这一步的输出只有N个bounding box的4 个坐标信息和score,当然这4个坐标信息已经用回归支路的输出进行了修改， score可以看做是分类，输出舌的概率。

步骤102：通过RNet网络删除无舌的候选框；

如图5所示，这一步的输入是P-Net生成的bounding box裁剪的图像,每个bounding box的大小都resize成24*24*3。同样在测试的时候这一步的输出只有 M个bounding box的4个坐标信息和score,4个坐标信息也用回归支路的输出进行修正。

步骤103：使用ONet网络调整结果，输出舌的预测边界框和5个特征点的位置并基于两个信息自动拍照；

如图6所示，ONet网络的输入信息是R-Net输出的bounding box，并将大小调整为48*48*3,输出包含P个bouning box的4个坐标信息，score和关键点信息，如果采集的图像中包含了bounding box和5个舌的关键点信息，则启动图像采集设备(比如：移动端相机设备)自动拍照。

(2)舌特征处理部，其用于提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的TF-IDF向量。

如图7所示，基于深度学习构建舌图像生成舌的质、苔等变化的文本描述过程，其采用Image Caption技术，Image Caption技术指自动从一张图片生成描述性语句，不仅指出图片中包含的物体，而且能够表达图片中物体的相互关系，他们的属性以及他们共同参与的活动。本实施例采用端到端的训练方式将图像的特征提取和文本生成统一成一个端到端的模型，本施例创新性的将最新的 EfficientNet-B7与多层LSTM结合进行舌图像的Image Caption任务。

移动端自动拍摄的舌图像经过图像的Resize操作后，将图像变为224*224*3 大小，然后基于EfficientNet-B7提取图像的特征，经过拉直运算和线性操作后，作为舌图像的特征提取。将获取的舌图像特征作为多层LSTM的输入，多层 LSTM预测文本描述比如：舌色淡白色，舌形老嫩，苔质厚、燥润，苔色白苔，苔型局部聚集型。其中，EfficientNets是谷歌开发的模型，EfficientNets的具体结构可根据《EfficientNet:Rethinking ModelScaling for Convolutional Neural Networks》得到，该文献提出了一种新型模型缩放方法，该方法使用一种简单但高效的复合系数(compound coefficient)以更加结构化的方式扩展CNN。 Efficient-B7是扩展基线模型后得到的网络。

舌图像的特征包括舌***、舌色、舌形、舌苔。

舌***：舌黏膜的表面有许多小突起，即为舌***，舌***分为丝状***、菌状***、叶状***、轮廓***，***之间大小不一形状相似，不同疾病情况下舌***的平均体积、密度、分布情况和颜色会产生变化；

舌色：舌本身在不同的健康状况下会显出不同的颜色，可有淡白色、红色、绛色、青紫色，反应不同的疾病状态；

舌形：整体舌形可以分为老嫩、胖瘦、齿痕、舌疮等，主要由舌结构的改变反应而来；

舌苔：包含苔质、苔色、苔型；

苔质：厚薄(识别外轮廓)、燥润(识别反光程度)、腐逆(识别反光连续性和***大小)；

苔色：白苔、黄苔、黑灰苔；

苔型：特异性识别舌苔分布情况，可有全舌覆盖型、局部聚集型、部分剥落型。

(3)消化道疾病判断部，其用于计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，其中，k为大于或等于1的正整数。

在具体实施中，在所述消化道疾病判断部中，各类消化道疾病对应的舌图像描述特征向量的计算过程为：

获取各类消化道疾病对应的舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，进而计算出所有舌特征文本描述对应的TF-IDF向量，进而生成文档向量矩阵，对文档向量矩阵降维后聚类得到各类消化道疾病对应的舌图像描述特征向量。

在具体实施中，采用FastText作为诊断报告的文本分类模型，FastText结合了自然语言处理(NLP)和机器学习的成功历练，包括使用词袋以及n-gram表征语句，还使用了`子词`(subword)信息，并通过隐藏表征在类别间共享信息，使用层次softmax。FastText的模型结构如图8所示。

步骤301：FastText的输入(input)

如图8所示，x₁,x₂,...,x_N-1,x_N表示一个文本中的n-gram向量，每个特征是词向量的平均值，因为每个字有字向量，使用n-gram时，将n个字的向量取平均，例如将“欢”，“迎”，“你”三个字的向量平均后得到”欢迎你”这个词的词向量x_k，作为FastText的输入。

步骤302：隐藏层

在隐藏层将得到的所有n-gram的词向量求平均，得到最终的一个向量，此时的情况有点像CBOW中得到的向量，和CBOW相似，此时的向量要经过一个softmax层，只是不同于CBOW的普通softmax,FastText中使用分层softmax。

步骤303：输出层采用分层softmax；

对于包含大量类别的数据集，FastText使用一个分层分类器(而非扁平式结构，传统的softmax)。不同的类别被整合进树形结构中，FastText模型使用了层次softmax技巧，层次softmax的技巧建立在Huffman编码的基础上，对标签进行编码，能够极大的缩小模型预测目标的数量，Fasttext也利用了类别不平衡的这个事实(一些类别出现的次数比其他类别要多)，通过使用Huffman算法建立了用于表征类别的树形结构，因此，频繁出现类别的树形结构的深度要比不频繁出现类别的属性结构的深度更小，这也进一步的提高了计算效率。

在所述消化道疾病判断部中，获取各类消化道疾病对应的舌特征文本描述的过程为：

从数据库中调取消化道疾病内镜诊断报告，每个消化道疾病内镜诊断报告均与舌特征文本描述相关联；

利用诊断报告的文本分类模型得到相应消化道疾病内镜诊断报告所对应的消化道疾病类型，进而得到各类消化道疾病对应的舌特征文本描述。

在具体实施中，消化道疾病内镜诊断报告以图像的形式上传，需要通过OCR 技术提取诊断报告中的文本。如图9所示，本实施例采用端到端的识别方式将 OCR中的文本检测和文本识别整合到一个端到端的网络中，文本检测采用去掉了全连接层的YOLO V2框架融合RPN网络，得到候选的文字区域，通过双线性采样将大小不同的文字区域统一特征映射为高度一致宽度变长的特征序列，文本识别的过程采用RNN+CTC的结构从而得到识别的字符串，最后利用识别的打分情况反过来对检测的bounding box进行NMS(Non-maximumsuppression，非极大值抑制)，得到精确的检测框。

其中，文本检测的YOLO V2网络为：使用YOLO V2的前18个卷积层和5 个最大池化层，去掉了最后的全连接层，最后输出的特征图为W/32*H/32*1024 其中W和H为输入图像的宽和高。

获取相应消化道疾病内镜诊断报告所对应的消化道疾病类型的具体过程为：

步骤401：候选检测框的获取；

候选框(Region Proposals)的获取中采用类似Faster R-CNN中的RPN的 Anchor机制，过程中回归的参数为5个，除了正常的RPN回归的x,y,w,h的相对值，还有文本的角度值θ，每个Anchor包含14个Anchor Box,这14个Anchor Box的大小是通过K-means聚类通过训练集得到的，正负样本的选择标准为 Anchor Box与Ground Truth的最大IoU对应的样本为正样本，其余为负样本，候选检测框的获取中最后使用了NMS作为后处理。

步骤402：双线性采样；

双线性采样(Bilinear Sampling)目的是将前面文本检测得到的大小不同的Region Proposal对应的特征图统一固定成高度一致的特征图，为了输入到识别的 RNN中，需要固定的高度，但宽度是可变的,并且双线性采样过程中应该保持特征不会变形太多。

步骤403文本识别；

步骤402中得到的特征图经过RNN和CTC解码后可以得到OCR 识别的文本结果，本发明实施例RNN结构采用的是卷积+池化 +Recurrent卷积+Batch Norm的结构，最后接Softmax，损失函数采用 CTC损失。

本实施例通过计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，不受时间和空间范围的影响，根据舌图像的舌特征与各类消化道疾病的对应关系自动判断消化道疾病类型，提高了消化道疾病类型判断的准确性。

实施例二

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序该程序被处理器执行时实现以下步骤：

接收完整舌图像；

在具体实施中，各类消化道疾病对应的舌图像描述特征向量的计算过程为：

其中，获取各类消化道疾病对应的舌特征文本描述的过程为：

实施例三

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

接收完整舌图像；

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于舌图像的消化道疾病判断辅助***，其特征在于，包括：

舌图像采集部，其用于采集完整舌图像；

舌特征处理部，其用于提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的TF-IDF向量；舌特征包括舌***、舌色、舌形、舌苔、苔质、苔色和苔型；

消化道疾病判断部，其用于计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，其中，k为大于或等于1的正整数；

在所述消化道疾病判断部中，各类消化道疾病对应的舌图像描述特征向量的计算过程为：

从数据库中调取消化道疾病内镜诊断报告，每个消化道疾病内镜诊断报告均与舌特征文本描述相关联；利用诊断报告的文本分类模型得到相应消化道疾病内镜诊断报告所对应的消化道疾病类型，进而得到各类消化道疾病对应的舌特征文本描述；基于加载的预料库生成当前舌特征文本描述的词袋，进而计算出所有舌特征文本描述对应的TF-IDF向量，进而生成文档向量矩阵，对文档向量矩阵降维后聚类得到各类消化道疾病对应的舌图像描述特征向量；

在所述舌图像采集部中，采用soft-MTCNN网络模型来检测舌图像中的舌关键点，以保证舌图像的完整性；

所述soft-MTCNN网络模型由串联连接的PNet网络、RNet网络和ONet网络构成；所述PNet网络的输入量为舌图像，其输出结果为判断舌图像中包含舌的概率并标记所有可能的舌边界框；所述RNet网络的输入量为PNet网络的输出结果，RNet网络的输出结果为存在舌的舌边界框；所述ONet网络的输入量为RNet网络的输出量，ONet网络的输出结果为舌关键点及其位置信息；

其中，基于深度学习构建舌图像生成舌特征文本描述，其过程为：舌图像经过图像的Resize操作后，经过EfficientNet-B7进行特征提取，提取的特征经过拉直运算和线性操作后作为多层LSTM的输入，由多层LSTM输出舌图像特征的文本描述。

2.如权利要求1所述的基于舌图像的消化道疾病判断辅助***，其特征在于，消化道疾病内镜诊断报告以图像形式存储在数据库内。

3.如权利要求1所述的基于舌图像的消化道疾病判断辅助***，其特征在于，所述舌关键点的数量为五个均位于舌轮廓线上，这五个舌关键点由两个舌根关键点、两个舌腰关键点和一个舌尖关键点构成。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

接收完整舌图像；

提取完整舌图像的舌特征并生成舌特征文本描述，基于加载的预料库生成当前舌特征文本描述的词袋，计算出相应舌图像对应的舌特征文本描述的TF-IDF向量；舌特征包括舌***、舌色、舌形、舌苔、苔质、苔色和苔型；

计算当前完整舌图像对应的舌特征文本描述的TF-IDF向量与各类消化道疾病对应的舌图像描述特征向量的距离，按照距离升序对消化道疾病类型排序，筛选出排在前k个消化道疾病并进行推荐，其中，k为大于或等于1的正整数；

各类消化道疾病对应的舌图像描述特征向量的计算过程为：

采用soft-MTCNN网络模型来检测舌图像中的舌关键点，以保证舌图像的完整性；

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

接收完整舌图像；

各类消化道疾病对应的舌图像描述特征向量的计算过程为：