CN106529598A

CN106529598A - 一种基于不均衡医疗图像数据集的分类方法与***

Info

Publication number: CN106529598A
Application number: CN201610997896.4A
Authority: CN
Inventors: 韩赫; 李建强; 张苓琳; 胡启东
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2017-03-22
Anticipated expiration: 2036-11-11
Also published as: CN106529598B

Abstract

本发明公开一种基于不均衡医疗图像数据集的分类方法与***，包括：提取原始医疗图像绿色通道分量；利用直方图均衡化修正提取出的灰度图像；分别从修正后的图像提取纹理特征、小波特征、轮辅特征；对提取出的特征样本按样本间距离排序；对排序后的样本划分均匀特征子集，且保证子集间的差异性；使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器；组合子分类器，投票得出最终分类结果。采用本发明的技术方案，对多分类集成学习中负样本分类准确率有明显提升，这对于如医疗领域中数据集样本分布高度倾斜、多分类器训练中负样本准确率有明显提升。有助于减少误诊，从而提高分类器的实用价值。

Description

一种基于不均衡医疗图像数据集的分类方法与***

技术领域

本发明属于机器学习领域，尤其涉及一种基于不均衡医疗图像数据集的分类方法与***。

背景技术

在许多现实机器学习分类任务中，分类器的训练数据集往往存在高度的不均衡分布问题，即一些类的样本数量远远多于其他类的样本。而传统的学习算法为了分类器的整体分类精度常常偏向于将少数类错分为多数类，然而在很多现实问题中，少数类的分类精度反而更重要。如疾病诊断、***诈骗侦测、网络入侵侦测。对于此类分类问题，如医疗领域的数据集都有一个共同的特征就是数据集样本分布高度倾斜，正样本(即正常样本)的数量远高于负样本(即患病样本)的数量。用这样的数据集训练出来的分类器会有明显的“有偏性”，会将负样本错分为正样本，这对于病患来说是十分严重的，造成误诊，错过最佳治疗时间。所以有效地提高负样本的分类准确性至关重要。同样的例子还有漏过一笔***诈骗的损失要比拒绝一个正常人的损失小得多。所以对于少数类分类精度更高的学习方法往往更有实用意义。

这种现实中普遍存在的数据集不均衡问题的已经阻碍着将机器学习的成果推向实际应用，期刊“International Journal of Computer Science and Network”2013年2月第1期第2卷中的由Rushi Longadge,Snehalata Dongre所著的论文“Class ImbalanceProblem in Data Mining:Review”中总结分析了解决此问题现有方法。具体分为三大类：抽样，算法，特征选择。抽样又分为欠采样和过采样，其中欠采样中应用最广泛的是随机欠采样，随机欠采样通过随机移除多数类中的样本来达到样本均衡。但是该方法存在一个问题，就是移除的多数类样本中的有用信息同时也被移除，将导致信息丢失，影响最终分类器的准确率。而过采样中应用最广泛的是随机过采样，随机过采样通过复制生成少数类样本来达到均衡分布。但是该方法也存在问题，就是额外的生成数据不仅增加了训练时间，而且额外生成的相似少数类样本很有可能导致分类器过拟合；算法通常为引入“Cost-sensitive”学习方法，即通过提高少数类样本的错分损失，类似于增加少数类样本的权值，以达到数据分布的带权均衡。但是该方法存在一个问题就是多数类样本与少数类样本间的权值差并不存在一个通用值，这往往需要根据经验判断或者反复实验；特征选择则是通过选取现有特征集的一个子集来是分类器达到最优性能，这有利于高纬度的特征训练集。但是与算法一样，子集的选取同样不存在通用子集，也需要经验判断和反复实验。

会议“International Conference on Knowledge Discovery&Data Mining”1998年164--168页由Philip K Chan,Salvatore J Stolfo所著的“Toward Scalable Learningwith Non-Uniform Class and Cost Distributions:A Case Study in Credit CardFraud Detection”中提出了一种均匀采样方法，与之前的采样方法不同的是，该方法不仅不必忽略多数类中的样本，导致有用信息丢失。而且不会生成额外的样本点，产生训练时间增加，或者导致产生的分类器有过拟合问题。具体实现过程如下：

1.先将训练集中最多类样本数量除以少数类样本数量结果向上取整，确定训练子集数量。

2.之后将除多数类按子集数量平均划分。

3.然后从中抽取划分后的一份，与少数类样本数量的样本数量差从其他份中随机抽取凑足。

4.最后与全部少数类样本凑为一个样本均匀子集，以此类推生成所有子集。

该方法不仅利用了全部样本，没有造成样本信息丢失，同时起到了均衡训练集中少数类样本不均衡问题。且最终实验证明，利用该采样方法不仅提高了集成学习分类器的整体准确率，而且对于少数类样本分类的准确率有了明显提升。

综上所述，在集成学习中的训练数据集不均衡问题的解决办法中，预处理中的采样方法往往有更好的适用性。然而上述的采样方法都仅仅考虑了训练集中少数类样本与多数类样本的数量均衡问题，而没有考虑到集成学习算法的一个性质，即子分类器间的差异性。因为在集成学习中，要获得好的集成，个体学习器应“好而不同”，就是个体学习器要有一定的准确性，即学习器性能不能太差，而且要有多样性，即学习器间要具有差异。在相同的学习算法下，增加差异性最简单的办法就是增加训练集间的差异性。

发明内容

针对集成学习中训练集的不均衡问题，本发明提供一种基于不均衡医疗图像数据集的分类方法与***。

本发明提出了一种新的采样方法，采样前计算多数类中各样本与少数类样本中心点间的闵可夫斯基距离，在多数类中抽取与少数类数量相同的样本时先抽取距离较远的样本。这样在保证训练集均匀的前提下，同时增加了训练集间的差异。根据集成学习的性质，不仅提高分级中少数类的准确率，而且提高了***的整体准确率。这对于分类器的现实应用有很强的实际意义。

为实现上述目的，本发明采用如下的技术方案：

本发明提供一种基于不均衡医疗图像数据集的分类方法，包括：

提取原始医疗图像绿色通道分量；

利用直方图均衡化修正提取出的灰度图像；

分别从修正后的图像提取纹理特征、小波特征、轮辅特征；

对提取出的特征样本按样本间距离排序；

对排序后的样本划分均匀特征子集，且保证子集间的差异性；

使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器；

组合子分类器，投票得出最终分类结果。

作为优选，所述绿色通道分量是彩色医疗图像含有红、绿、蓝3个分量中的绿色分量。

作为优选，所述直方图均衡化是一种利用灰度变换自动调节图像对比度质量的方法。

作为优选，所述灰度图像即提取绿色通道分量图像。

作为优选，所述纹理特征、小波特征、轮辅特征分别为：医疗图像根据纹理分析处理后提取出的特征、小波变化处理后提取出的特征、轮辅方法处理后提取出的特征。

作为优选，所述样本间距离即利用闵可夫斯基距离公式计算得的距离。

作为优选，所述按样本间距离排序过程为：此处以三分类为例，首先计算出最少数类中样本的中心点，然后将次少数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序，再计算出少数类与次少数类中所有样本的中心点，最后将多数类中各样本根据与此中心点的闵可夫斯基距离从远到近排序，多分类以此类推。

作为优选，所述划分均匀特征子集过程为：练集中最多类样本数量除以最少类样本数量结果向上取整，确定训练子集数量；之后将除最少类外的其他类按子集数量平均划分，然后其他类各抽取划分后的一份，与最少类样本数量的样本数量差从该份的相邻份抽取凑足；最后各类等数量的样本凑为一个样本均匀子集，以此类推生成所有均匀子集。

作为优选，所述保证子集间的差异性为根据距离排序后的有序数据集，按训练子集数量划分后的子集同样有序，且互相之间存在差异性，即距离从远到近。

作为优选，所述使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器即为将划分好的特征子集分别交给SVM算法和BP神经网络算法训练，生成两倍于特征子集的子分类器。

作为优选，所述组合子分类器，投票得出最终分类结果为：测试医疗图像分别由训练好的子分类器分类，统计分类结果，最多类即为最终分类结果。

本发明还提供一种基于不均衡医疗图像数据集的分类***，包括：

绿色通道分类提取装置，被配置为提取原始医疗图像绿色通道分量；

直方图均衡化装置，被配置为利用直方图均衡化修正提取出的灰度图像；

特征提取装置，被配置为分别从修正后的图像提取纹理特征、小波特征、轮辅特征；

样本排序装置，被配置为对提取出的特征样本按样本间距离排序；

均匀采样装置，被配置为对排序后的样本划分均匀特征子集，且保证子集间的差异性；

子分类器训练装置，被配置为使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器；

结果投票装置，被配置为组合子分类器，投票得出最终分类结果。

作为优选，所述灰度图像即提取绿色通道分量图像。

作为优选，所述样本排序装置处理过程为：此处以三分类为例，首先计算出最少数类中样本的中心点，然后将次少数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序，再计算出少数类与次少数类中所有样本的中心点，最后将多数类中各样本根据与此中心点的闵可夫斯基距离从远到近排序，多分类以此类推。

作为优选，所述均匀采样装置处理过程为：练集中最多类样本数量除以最少类样本数量结果向上取整，确定训练子集数量；之后将除最少类外的其他类按子集数量平均划分，然后其他类各抽取划分后的一份，与最少类样本数量的样本数量差从该份的相邻份抽取凑足；最后各类等数量的样本凑为一个样本均匀子集，以此类推生成所有均匀子集。

作为优选，所述子分类器训练装置即为将划分好的特征子集分别交给SVM算法和BP神经网络算法训练，生成两倍于特征子集的子分类器。

根据权利要求12所述的基于不均衡医疗图像数据集的分类***，其特征在于，所述结果投票装置处理过程为：测试医疗图像分别由训练好的子分类器分类，统计分类结果，最多类即为最终分类结果。

本发明提出的新采样方法对集成学习的多分类中负样本分类准确率有明显提升，这对于如医疗领域中数据集样本分布高度倾斜、多分类器训练中负样本准确率有明显提升。有助于减少误诊，从而提高分类器的实用价值。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的标号指示类似的部分，其中：

图1示出了根据本发明一个实施例的基于不均衡医疗图像数据集的分类***的一个详细框图；

图2示出了根据本发明一个实施例的基于不均衡医疗图像数据集的分类方法的一个详细框图；

图3示出了根据本发明一个实施例的均匀采样示意图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

鉴于以上所述的多个问题，本发明提出了一种基于不均衡医疗图像数据集的分类方法与***。下面结合图1和图2，说明根据本发明基于不均衡医疗图像数据集的分类方法与***的示例。图1示出了根据本发明一个实施例的基于不均衡医疗图像数据集的分类***的一个详细框图；图2示出了根据本发明一个实施例的基于不均衡医疗图像数据集的分类方法的一个详细框图；

如图1所示，根据本发明一种基于不均衡医疗图像数据集的分类***包括绿色通道分类提取装置101、直方图均衡化装置102、特征提取装置103、样本排序装置104、均匀采样装置105、子分类器训练装置106、结果投票装置107。它们的功能如下：提取原始医疗图像绿色通道分量(即，执行步骤S201)。利用直方图均衡化修正提取出的灰度图像(即，执行步骤S202)。分别从修正后的图像提取纹理特征、小波特征、轮辅特征(即，执行步骤S203)。对提取出的特征样本按样本间距离排序(即，执行步骤S204)。对排序后的样本划分均匀特征子集，且保证子集间的差异性(即，执行步骤S205)。使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器(即，执行步骤S206)。为组合子分类器，投票得出最终分类结果(即，执行步骤S207)。

具体地，样本排序装置104引入闵可夫斯基距离计算样本间的距离，排序规则是根据多数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序的。均匀采样装置105则是利用排序后的样本集进行均匀采样，因为样本集有序，则可以获得具有差异性的样本子集。下面，给出由根据本发明基于不均衡医疗图像数据集的分类方法与***的示例：

此处以眼底图像为例介绍具体过程。彩色眼底图像含有红、绿、蓝3个分量。由于红色分量亮度最高，血管和背景对比度低，不易将目标血管和眼底背景区分；蓝色分量对比度和亮度均低，且噪声干扰严重；绿色分量的亮度适中，而且血管与背景对比度较高，能很好反应彩色眼底血管分布。所以对训练集提取绿色通道(G通道)分量。

直方图均衡化是一种利用灰度变换自动调节图像对比度质量的方法，基本思想是通过灰度级的概率密度函数求出灰度变换函数，它是一种以累计分布函数变换方法为基础的直方图修正法。所以对训练集提取绿色通道分类后的灰度图像使用直方图均衡化来修正图像。

对于修正后的灰度图像，分别通过小波变换、轮辅方法和纹理分析从处理提取特征集，做为三种独立数据集用以之后训练分类器。此时的训练集变为三个独立的特征集，分别为小波特征集，轮辅特征集和纹理特征集。

对于这三个医疗领域的数据集都有一个共同的特征就是数据集样本分布高度倾斜，正样本(即正常样本)的数量远高于负样本(即患病样本)的数量。用这样的数据集训练出来的分类器会有明显的“有偏性”，会将负样本错分为正样本，这对于病患来说是十分严重的，造成误诊，错过最佳治疗时间。所以有效地提高负样本的分类准确性至关重要。

如背景技术中所说现有的解决办法并不能彻底解决该问题，于是结合现有方法，提出了一种不仅可以保证训练集中正负样本分布均衡，而且可以提高训练子集间样本差异性的采样方法，从而有效提高负样本的分类准确率和分类器的整体准确率。具体过程为：引入闵可夫斯基距离计算样本间的距离，计算公式如下：

其中，d₁₂为样本的x₁和x₂间的距离，p表示样本点属性的维数，k为属性值的个数。

此处以三分类为例，首先计算出最少数类中样本的中心点，然后将次少数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序，再计算出少数类与次少数类中所有样本的中心点，最后将多数类中各样本根据与此中心点的闵可夫斯基距离从远到近排序。排序后的样本为之后的差异性抽样做好准备。

对于排好序的三个特征样本集，分别采样改进后的均匀采样，如图3所示，以三分类为例，先将训练集中最多类(即第一类)样本数量除以最少类(即第三类)样本数量结果向上取整，确定训练子集数量。之后将除最少类外的其他类按子集数量平均划分。然后其他类各抽取划分后的一份，与最少类样本数量的样本数量差从该份的相邻份抽取凑足。最后各类等数量的样本凑为一个样本均匀子集，以此类推生成所有子集。

到此，利用新的采样方法，生成的训练子集不仅正负样本分布均衡，而且子集间也存在差异性，由这些子集训练出的子分类器集成的分类器负样本的准确率和整体准确率都会有所提升。而且该采样方法在二分类与多分类都适用。

之后由上一步获得的三类特征数据集采样获得的特征子集，分别使用支持向量机和BP神经网络学习算法训练获得两倍与特征子集且相互独立的子分类器。

最终将全部相独立的子分类器进行组合，测试眼底图像分别由训练好的子分类器分类，统计分类结果，最多类即为最终分类结果。

该方法和***不仅适用于眼底图像分类，其他不均衡的医疗图像分类均适用。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种基于不均衡医疗图像数据集的分类方法，其特征在于，包括：

提取原始医疗图像绿色通道分量；

利用直方图均衡化修正提取出的灰度图像；

分别从修正后的图像提取纹理特征、小波特征、轮辅特征；

对提取出的特征样本按样本间距离排序；

组合子分类器，投票得出最终分类结果。

2.根据权利要求1所述的基于不均衡医疗图像数据集的分类方法，其特征在于，所述按样本间距离排序过程为：首先计算出最少数类中样本的中心点，然后将次少数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序，再计算出少数类与次少数类中所有样本的中心点，最后将多数类中各样本根据与此中心点的闵可夫斯基距离从远到近排序，多分类以此类推。

3.根据权利要求1所述的基于不均衡医疗图像数据集的分类方法，其特征在于，所述划分均匀特征子集过程为：练集中最多类样本数量除以最少类样本数量结果向上取整，确定训练子集数量；之后将除最少类外的其他类按子集数量平均划分，然后其他类各抽取划分后的一份，与最少类样本数量的样本数量差从该份的相邻份抽取凑足；最后各类等数量的样本凑为一个样本均匀子集，以此类推生成所有均匀子集。

4.根据权利要求1所述的基于不均衡医疗图像数据集的分类方法，其特征在于，所述保证子集间的差异性为根据距离排序后的有序数据集，按训练子集数量划分后的子集同样有序，且互相之间存在差异性，即距离从远到近。

5.根据权利要求1所述的基于不均衡医疗图像数据集的分类方法，其特征在于，所述使用SVM算法与BP神经网络算法分别训练特征子集产生子分类器即为将划分好的特征子集分别交给SVM算法和BP神经网络算法训练，生成两倍于特征子集的子分类器。

6.一种基于不均衡医疗图像数据集的分类***，其特征在于，包括：

7.根据权利要求6所述的基于不均衡医疗图像数据集的分类***，其特征在于，所述样本排序装置处理过程为：此处以三分类为例，首先计算出最少数类中样本的中心点，然后将次少数类中各样本根据与少数类中心点的闵可夫斯基距离从远到近排序，再计算出少数类与次少数类中所有样本的中心点，最后将多数类中各样本根据与此中心点的闵可夫斯基距离从远到近排序，多分类以此类推。

8.根据权利要求6所述的基于不均衡医疗图像数据集的分类***，其特征在于，所述均匀采样装置处理过程为：练集中最多类样本数量除以最少类样本数量结果向上取整，确定训练子集数量；之后将除最少类外的其他类按子集数量平均划分，然后其他类各抽取划分后的一份，与最少类样本数量的样本数量差从该份的相邻份抽取凑足；最后各类等数量的样本凑为一个样本均匀子集，以此类推生成所有均匀子集。

9.根据权利要求6所述的基于不均衡医疗图像数据集的分类***，其特征在于，所述保证子集间的差异性为根据距离排序后的有序数据集，按训练子集数量划分后的子集同样有序，且互相之间存在差异性，即距离从远到近。

10.根据权利要求6所述的基于不均衡医疗图像数据集的分类***，其特征在于，所述子分类器训练装置即为将划分好的特征子集分别交给SVM算法和BP神经网络算法训练，生成两倍于特征子集的子分类器。