CN111260608A

CN111260608A - 一种基于深度学习的舌部区域检测方法及***

Info

Publication number: CN111260608A
Application number: CN202010017676.7A
Authority: CN
Inventors: 杨强; 柴胜; 刘华根; 何韦澄; 王玉鑫
Original assignee: Laikang Technology Co Ltd
Current assignee: Laikang Technology Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-09

Abstract

本发明公开了一种基于深度学习的舌部区域检测方法及***，包括：对获取的包含舌部的图像数据集进行标注，并对标注后的图像数据集进行预处理，以获取第一图像数据集；设置多种固定参考框的比例大小，并采用k‑means聚类的方式进行聚类，以获取多个聚类中心参考框；基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型；利用所述第一检测模型对不包含舌部的图像数据集进行检测，以获取误检的误检图像数据集；调整所述第一检测模型的网络结构，修改输出层维度，并利用所述第一图像数据集和误检图像数据集重新进行训练，以确定舌部检测模型，用于舌部区域的检测。

Description

一种基于深度学习的舌部区域检测方法及***

技术领域

本发明涉及深度学习算法技术领域，并且更具体地，涉及一种基于深度学习的舌部区域检测方法及***。

背景技术

目前很多基于中医理论的舌诊算法，在进行舌诊分析的时候，都是通过固定装置或者设备，要求被采集者在固定的距离与固定的区域伸出舌头。然后通过对图片中这一固定区域内的像素点进行分析。由于现实世界中，不同的人舌头伸出的状态、伸出的大小不尽相同，使用固定的区域，可能出现背景像素多于舌头区域像素的情况，对于实际舌诊分析有很大影响。

而且，现有的技术应用场景有很大的局限性。存在主要问题包括：1.对用户有很多的舌象拍摄要求，需要用户在拍摄界面的提示框内伸出舌头，十分不便，且应用场景有限；2.十分粗略的将提示框区域作为舌头真实区域进行舌诊分析，实际情况中背景区域像素占比可能非常大，这会影响舌诊分析的准确性。

因此，需要一种舌部区域检测方法，以准确地、智能地确定舌头区域。

发明内容

本发明提出一种基于深度学习的舌部区域检测方法及***，以解决如何准确地、智能地确定舌部区域的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种基于深度学习的舌部区域检测方法，所述方法包括：

对获取的包含舌部的图像数据集进行标注，并对标注后的图像数据集进行预处理，以获取第一图像数据集；

设置多种固定参考框的比例大小，并采用k-means聚类的方式进行聚类，以获取多个聚类中心参考框；

基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型；

利用所述第一检测模型对不包含舌部的图像数据集进行检测，以获取误检的误检图像数据集；

调整所述第一检测模型的网络结构，修改输出层维度，并利用所述第一检测模型的除最后一层外的参数初始化模型，并利用所述第一图像数据集和误检图像数据集重新进行训练，以确定舌部检测模型，用于舌部区域的检测。

优选地，其中所述对获取的包含舌部的图像数据集进行标注，包括：

利用标注工具Labelimg对获取的包含舌部的图像数据集中的舌部区域进行标注，以矩形框的形式标注出舌部的位置。

优选地，其中所述对标注后的图像数据集进行预处理，以获取第一图像数据集，包括：

按照第一预设数量阈值选取标注后的图像数据集中的数据进行数据增强处理，以获取扩充数据集；

对标注后的图像数据集和扩充数据集按照预设的图像比例进行等比例缩放和填充处理，并同步调整标注框在图像中的坐标位置，以获取第一图像数据集。

优选地，其中所述数据增强处理包括：

水平翻转处理、预设角度范围阈值内的正时针旋转和逆时针旋转处理、预设比例阈值的上下左右的平移处理、按照预设裁剪比例阈值的随机剪裁图片边缘内的像素处理、高斯滤波处理和缩放处理中的至少一项。

优选地，其中所述基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型，包括:

模型主干网络采用DarkNet-53，融合13*13，26*26和52*52三个不同尺度的特征映射图进行目标预测，每种不同尺度大小的特征图使用3个不同大小的固定参考框，共确定9个固定参考框；

确定输出层维度为3*(1+5)＝18；其中，3表示预测三个边框，1表示预测类别只有一类，5表示预测目标的中心坐标、长宽以及目标得分；

选取所述第一图像数据集中的第二预设数量阈值的数据训练数据集，剩余的数据作为验证集，进行模型训练，以确定第一检测模型。

根据本发明的另一个方面，提供了一种基于深度学习的舌部区域检测***，所述***包括：

数据处理单元，用于对获取的包含舌部的图像数据集进行标注，并对标注后的图像数据集进行预处理，以获取第一图像数据集；

聚类单元，用于设置多种固定参考框的比例大小，并采用k-means聚类的方式进行聚类，以获取多个聚类中心参考框；

第一检测模型确定单元，用于基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型；

误检数据获取单元，用于利用所述第一检测模型对不包含舌部的图像数据集进行检测，以获取误检的误检图像数据集；

舌部检测模型确定单元，用于调整所述第一检测模型的网络结构，修改输出层维度，并利用所述第一检测模型的除最后一层外的参数初始化模型，并利用所述第一图像数据集和误检图像数据集重新进行训练，以确定舌部检测模型，用于舌部区域的检测。

优选地，其中所述数据处理单元，对获取的包含舌部的图像数据集进行标注，包括：

优选地，其中所述数据处理单元，对标注后的图像数据集进行预处理，以获取第一图像数据集，包括：

优选地，其中所述数据增强处理包括：

优选地，其中所述第一检测模型确定单元，基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型，包括:

本发明提供了一种基于深度学习的舌部区域检测方法及***，通过利用深度卷积网络训练舌部检测模型，可以对不同的场景下、不同光照、不同像素、不同图像大小下采集的舌象照片进行判断，确定是否存在舌头以及舌头区域的大小和位置；检测的目标只有一个，使用的是比较简单的卷积结构，网络层数也只有53层，在保障准确性的同时，可以达到实时检测的效果，非常方便各种设备各种应用使用；减少了对用户的拍摄要求，舌头在图像中的任意位置均可正确检测。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于深度学习的舌部区域检测方法100的流程图；

图2为根据本发明实施方式的聚类距离设置的示意图；

图3为根据本发明实施方式的确定舌部检测模型的示意图；以及

图4为根据本发明实施方式的基于深度学习的舌部区域检测***400的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于深度学习的舌部区域检测方法100的流程图。如图1所示，本发明实施方式提供的基于深度学习的舌部区域检测方法，通过利用深度卷积网络训练舌部检测模型，可以对不同的场景下、不同光照、不同像素、不同图像大小下采集的舌象照片进行判断，确定是否存在舌头以及舌头区域的大小和位置；检测的目标只有一个，使用的是比较简单的卷积结构，网络层数也只有53层，在保障准确性的同时，可以达到实时检测的效果，非常方便各种设备各种应用使用；减少了对用户的拍摄要求，舌头在图像中的任意位置均可正确检测。本发明实施方式提供的基于深度学习的舌部区域检测方法100从步骤101处开始，在步骤101对获取的包含舌部的图像数据集进行标注，并对标注后的图像数据集进行预处理，以获取第一图像数据集。

优选地，其中所述数据增强处理包括：

在本发明的实施方式中，采集包含舌头的图片数据集A，借助标注工具Labelimg对数据集中的舌头区域进行标注，以矩形框的形式标注出舌部的位置。然后，选取第一预设数量阈值40％的数据进行数据增强，包括:水平180度翻转，逆时针15度到正时针15度之间的旋转、上下左右1％——10％的平移、随机剪裁图片边缘20％以内的像素、滤波器大小为3*3、5*5……17*17的高斯滤波、缩放等以及它们之间的任意组合。最后，将图像等比例缩放，使得缩放后的长边为416。如果缩放后的高为h，且h小于416，则在图像的上下各填充高宽为(208-0.5*h，416)的像素区域，像素值设为固定大小128，并同步调整标注框在图像中的坐标位置，最终确定第一图像数据集。

在步骤102，设置多种固定参考框的比例大小，并采用k-means聚类的方式进行聚类，以获取多个聚类中心参考框。

在本发明的实施方式中，为了检测图片中不同比例不同尺寸的舌头，设置9种不同比例大小的固定参考框anchor。具体地，采用k-means聚类的方式，在所有的标注图片中随机选择9个标注框高宽与原图高宽的比值作为聚类的中心anchor。聚类距离的设置如图2所示，B1、B2的长宽为分别为不同图片里标注框高宽与原图高宽的比值。将B1、B2的中心重合，取B1、B2交集的区域和并集的区域比值作为k-means聚类的距离。在经过多轮聚类以后，便可以得到9个聚类中心anchor。

在步骤103，基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型。

在本发明的实施方式中，训练模型的主干网络采用DarkNet-53，融合13*13，26*26，52*52这三个不同尺度的特征映射图进行目标预测，每种不同尺度大小的特征图使用3个不同大小的anchor，总计9个anchor。由于只有一个检测目标，则输出层维度为3*(1+5)＝18，其中3表示预测三个bounding box，1表示预测类别只有一类，5表示预测目标的中心坐标、长宽以及目标得分。然后，使用第一图像数据集中80％的数据作为训练数据集，20％的数据作为验证集，进行模型训练，得到第一检测模型。

在步骤104，利用所述第一检测模型对不包含舌部的图像数据集进行检测，以获取误检的误检图像数据集。

在步骤105，调整所述第一检测模型的网络结构，修改输出层维度，并利用所述第一检测模型的除最后一层外的参数初始化模型，并利用所述第一图像数据集和误检图像数据集重新进行训练，以确定舌部检测模型，用于舌部区域的检测。

本发明实施方式获取的第一检测模型具有很高的目标检测召回率，但是所述第一检测模型在不包含舌部的图像数据集上具有很高的误检率。因此，在获取了不包含舌部的普通图像数据后，利用所述第一检测模型对不包含舌部的图像数据集进行检测，收集第一检测模型在不包含舌部的图像数据集中误检的数据，将误检的数据作为目标检测的第二类目标。

然后，调整第一检测模型的网络结构，将输出层维度改为3*(2+5)＝21，其他结构保持不变，并使用第一检测模型的除最后一层以外的参数初始化新模型，增加误检的数据作为训练数据，重新训练模型，得到最终的舌部检测模型。

图3为根据本发明实施方式的确定舌部检测模型的示意图。如图3所示，确定舌部检测模型的过程包括：

(1)采集包含舌头的图片数据集A，以及不包含舌头的普通数据集B。

(2)数据标注。对数据集A进行标注，借助标注工具Labelimg对数据集中的舌头区域进行标注，以矩形框的形式标注出舌头的位置。

(3)数据增强。对A数据集中40％左右的图片进行数据增强处理，以扩充已有数据集。

(4)数据缩放处理。将图像等比例缩放，使得缩放后的长边为416。如果缩放后的高为h，且h小于416，则在图像的上下各填充高宽为(208-0.5*h，416)的像素区域，像素值设为固定大小128，并同步调整标注框在图像中的坐标位置。

(5)模型构建与训练。为了检测图片中不同比例不同尺寸的舌头，设置9种不同比例大小的anchor。采用k-means聚类的方式进行聚类，确定9个聚类中心anchor。主干网络采用DarkNet-53，融合13*13，26*26，52*52这三个不同尺度的特征映射图进行目标预测，每种不同尺度大小的特征图使用3个不同大小的anchor，总计9个anchor。由于只有一个检测目标，则输出层维度为3*(1+5)＝18，其中3表示预测三个bounding box，1表示预测类别只有一类，5表示预测目标的中心坐标、长宽以及目标得分。使用数据集A中80％的数据作为训练数据集，10％的数据作为验证集，进行模型训练，得到模型M0。

(6)确定误检数据。M0在非舌头数据集B上具有很高的误检率，收集M0在数据集B中误检的数据，将误检的区域作为目标检测的第二类目标。

(7)修改M0的网络结构，将输出层维度改为3*(2+5)＝21，其他结构保持不变，并使用M0的除最后一层以外的参数初始化新模型。增加M0在数据集B中误检的数据作为训练数据，重新训练模型，得到模型M1。

本发明实施方式先定义好要检测的目标，然后训练基础网络模型M0，再使用M0误检的区域作为背景目标，微调模型，迭代生成新模型，应用深度卷积网络智能的在图片中判断有无舌头以及舌头所在的位置，可以达到实时检测的效果，非常方便各种设备的使用。

图4为根据本发明实施方式的基于深度学习的舌部区域检测***400的结构示意图。如图4所示，本发明实施方式提供的基于深度学习的舌部区域检测***400，包括：数据处理单元401、聚类单元402、第一检测模型确定单元403、误检数据获取单元404和舌部检测模型确定单元405。

优选地，所述数据处理单元401，用于对获取的包含舌部的图像数据集进行标注，并对标注后的图像数据集进行预处理，以获取第一图像数据集。

优选地，其中所述数据处理单元401，对获取的包含舌部的图像数据集进行标注，包括：利用标注工具Labelimg对获取的包含舌部的图像数据集中的舌部区域进行标注，以矩形框的形式标注出舌部的位置。

优选地，其中所述数据处理单元401，对标注后的图像数据集进行预处理，以获取第一图像数据集，包括：按照第一预设数量阈值选取标注后的图像数据集中的数据进行数据增强处理，以获取扩充数据集；对标注后的图像数据集和扩充数据集按照预设的图像比例进行等比例缩放和填充处理，并同步调整标注框在图像中的坐标位置，以获取第一图像数据集。

优选地，其中所述数据增强处理包括：水平翻转处理、预设角度范围阈值内的正时针旋转和逆时针旋转处理、预设比例阈值的上下左右的平移处理、按照预设裁剪比例阈值的随机剪裁图片边缘内的像素处理、高斯滤波处理和缩放处理中的至少一项。

优选地，所述聚类单元402，用于设置多种固定参考框的比例大小，并采用k-means聚类的方式进行聚类，以获取多个聚类中心参考框。

优选地，所述第一检测模型确定单元403，用于基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型。

优选地，其中所述第一检测模型确定单元403，基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型，包括:

优选地，所述误检数据获取单元404，用于利用所述第一检测模型对不包含舌部的图像数据集进行检测，以获取误检的误检图像数据集。

优选地，所述舌部检测模型确定单元405，用于调整所述第一检测模型的网络结构，修改输出层维度，并利用所述第一检测模型的除最后一层外的参数初始化模型，并利用所述第一图像数据集和误检图像数据集重新进行训练，以确定舌部检测模型，用于舌部区域的检测。

本发明的实施例的基于深度学习的舌部区域检测***400与本发明的另一个实施例的基于深度学习的舌部区域检测方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的舌部区域检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的包含舌部的图像数据集进行标注，包括：

3.根据权利要求1所述的方法，其特征在于，所述对标注后的图像数据集进行预处理，以获取第一图像数据集，包括：

4.根据权利要求3所述的方法，其特征在于，所述数据增强处理包括：

5.根据权利要求1所述的方法，其特征在于，所述基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型，包括:

6.一种基于深度学习的舌部区域检测***，其特征在于，所述***包括：

7.根据权利要求6所述的***，其特征在于，所述数据处理单元，对获取的包含舌部的图像数据集进行标注，包括：

8.根据权利要求6所述的***，其特征在于，所述数据处理单元，对标注后的图像数据集进行预处理，以获取第一图像数据集，包括：

9.根据权利要求8所述的***，其特征在于，所述数据增强处理包括：

10.根据权利要求6所述的***，其特征在于，所述第一检测模型确定单元，基于DarkNet网络结构进行训练，根据所述多个聚类中心参考框确定输出层维度，并根据所述第一图像数据集进行训练，以确定第一检测模型，包括: