CN110263804B

CN110263804B - 一种基于安全半监督聚类的医学影像分割方法

Info

Publication number: CN110263804B
Application number: CN201910371366.2A
Authority: CN
Inventors: 郭丽; 甘海涛; 夏思雨; 厉振华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2021-08-03
Anticipated expiration: 2039-05-06
Also published as: CN110263804A

Abstract

本发明公开一种基于安全半监督聚类的医学影像分割方法，涉及半监督FCM聚类和密度峰值聚类方法。首先，采用k‑近邻方法构造局部图，得到图正则项。其次，利用FCM聚类和密度聚类方法估计标记和未标记样本的置信度。然后，在原半监督FCM聚类方法的目标函数中引入样本的置信度加权和基于局部图的正则项，得到安全半监督聚类方法的目标函数。最后，通过迭代优化隶属度矩阵和聚类中心得到聚类结果。本发明解决了标记样本的安全使用问题，同时解决了未标记样本的安全使用问题，提高了对医学影像分割的准确性和鲁棒性。

Description

一种基于安全半监督聚类的医学影像分割方法

技术领域

本发明涉及一种基于半监督聚类的医学影像分割方法，尤其是指一种基于安全半监督聚类的医学影像分割方法，属于基于医学图像的数据挖掘领域。

背景技术

随着可视化技术的不断发展，现代医学已越来越离不开医学影像的信息处理，医学影像在临床诊断、教学科研等方面正发挥着重要的作用。基于半监督聚类的医学影像分割方法集成有限的人工监督信息，即在图像上点击有限的几个点以标识对应区域之间的关系，将这些点作为基于半监督聚类的医学影像分割方法中的带有标签信息的样本数据，利用这些样本数据来指导聚类，从而提高算法性能，使图像分割更加准确。医学影像中的标记一般是由专家完成的，但是在标记过程中可能因为各种情况出现错误标记，并且医学影像往往携带有噪音点和离群点，传统的基于半监督聚类的医学影像分割方法在聚类过程中并没有考虑到以上两个方面。

在该情况下，传统的半监督聚类方法的性能可能比相应的无监督学习方法差，这在一定程度上限制了半监督聚类在医学影像分割中的应用。换句话说，标记数据可能对性能有害，与此同时未标记数据中的噪音点和离群点对性能也有很大的影响。传统的半监督聚类一般认为先验知识有利于学习效果，然而收集到的先验知识(如错误标记样本和噪音)，有可能导致学习性能的退化。Xuesong Yin指出了错误的先验知识会导致学习性能的下降。基于上述两个方面，设计安全的半监督学习方法是有意义的。因此，本发明专利试图研发一种不同样本具有不同安全度的机制，以实现聚类性能不低于原无监督聚类和半监督聚类方法。

发明内容

本发明针对传统的基于半监督聚类的医学影像分割方法未同时考虑标记样本和未标记样本的风险性，可能导致最后的分割效果下降的缺点，提出了一种基于安全半监督聚类的医学影像分割方法。

首先，本发明采用k-近邻方法构造局部图，得到图正则项。其次，利用FCM聚类和密度聚类方法估计标记和未标记样本的置信度。然后，在原半监督FCM聚类方法的目标函数中引入样本的置信度加权和基于局部图的正则项，得到安全半监督聚类方法的目标函数。最后，通过迭代优化隶属度矩阵和聚类中心得到聚类结果。技术方案：一种基于安全半监督聚类的医学影像分割方法，该方法包含以下步骤：

步骤一：输入标记和未标记医学影像数据集；

步骤二：对数据集进行FCM聚类，得到数据集的预测标签；

步骤三：运用密度峰值聚类方法，通过未标记样本的局部密度以及与具有较高密度点的最小距离得到未标记样本的置信度，通过标记样本在相同标记样本簇中局部密度以及在与具有较高密度点的最小距离得到标记样本的置信度，并将置信度归一化；

步骤四：构造局部图，目的是将置信度低的标记样本输出限制为邻近样本的输出；

步骤五：将信息整合，构建目标函数；

步骤六：采用迭代优化方法求解优化问题；

步骤七：判定未标记样本的类别，实现医学影像分割。

与传统的半监督聚类方法相比，本发明利用样本之间的密度和距离来衡量样本的置信度，通过构造局部图将置信度低的标记样本限制为近邻样本的输出，使得每个样本都能被安全合理地使用，聚类更加准确和鲁棒。本发明解决了标记样本的安全使用问题，同时解决了未标记样本的安全使用问题，提高了对医学影像分割的准确性和鲁棒性。

附图说明

图1为本发明具体实施流程图。

具体实施方式

结合说明书附图进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权力要求所限定的范围。

为了更好地说明本发明的目的和优点，下面结合附图1和实施例对本发明方法的实施方式做进一步详细说明。

步骤一：输入标记和未标记医学影像数据集；

输入医学影像数据集的标记样本子集：X_l＝[x₁,...,x_l]，对应的标签为y_k∈{1,...,c}，未标记样本子集：X_u＝[x_l+1,...,x_n]。

步骤二：对数据集进行FCM聚类，得到数据集的预测标签；

通过FCM聚类得到数据集的预测标签：

使用Kuhn-Munkres算法将预测标签

映射到等效标签

与给定标签

是一致的。

未标记样本的局部密度：

其中，j＝[1,2,...,n],k＝[l+1,...,n]，dist(k，j)是点x_k与x_j的欧式距离，d_c为截断距离。

未标记样本与具有较高密度点的最小距离：

而对于具有最大密度的数据点：

未标记样本置信度：γ_k＝ρ_k/δ_k (4)

未标记样本置信度归一化：

标记样本在相同标记样本簇中的局部密度：

其中，j_y＝[1,2,...q]，k′＝[1,2,...,l]，j_y表示样本集中与标记样本点x_k′标签相同的样本的集合。

标记样本在相同标记样本簇中与具有较高密度点的最小距离：

而对于具有最大密度的数据点：

标记样本置信度：

标记样本置信度归一化：

步骤四：构造k-近邻局部图，目的是将置信度低的标记样本输出限制为邻近样本的输出；

构建标记样本的局部邻域图，则局部图边权W＝[w_k′r]_n×n计算为：

其中，N_p(x_k′)指x_k′最近邻的p个数据，x_k′为标记样本点，x_r为近邻样本点，σ表示高斯核函数的宽度参数。

步骤五：将信息整合，构建目标函数。

目标函数如下所示：

限制条件如下：

步骤六：采用迭代优化方法求解优化问题；

通过最小化上述优化问题，可得到最优解。为了简化计算，将m值设定为2。本发明采用拉格朗日乘子法求解样本隶属度和聚类中心。

未标记样本的隶属度u_ik：

其中，

标记样本的隶属度u_ik′：

其中，

聚类中心v_i：

通过迭代计算得到最终的隶属度矩阵U和聚类中心V。当

或达到最大迭代次数时，迭代终止，其中t为当前迭代次数，η是设定的阈值。

步骤七：判定未标记样本的类别，实现医学影像的分割。

得到隶属度矩阵U后，依据隶属度最大原则去模糊化，得到未标记样本的类别，最后进行图像分割，取得结果。

Claims

1.一种基于安全半监督聚类的医学影像分割方法，其特征在于，该方法具体包括以下步骤：

步骤一：输入标记和未标记医学影像数据集；

输入医学影像数据集的标记样本子集：X_l＝[x₁,...,x_l]，对应的标签为y_k∈{1,...,c}，未标记样本子集：X_u＝[x_l+1,...,x_n]；

步骤二：对数据集进行FCM聚类，得到数据集的预测标签；

通过FCM聚类得到数据集的预测标签：

使用Kuhn-Munkres算法将预测标签

映射为

使映射标签

与给定标签y_k类别上保持一致；

步骤三：运用密度峰值聚类方法，通过未标记样本的局部密度和未标记样本与具有较高密度点的最小距离，得到未标记样本的置信度，通过标记样本在相同标记样本簇中局部密度和标记样本与具有较高密度点的最小距离，得到标记样本的置信度，并将置信度归一化；

未标记样本的局部密度：

其中，j＝[1,2,...,n],k＝[l+1,...,n]，dist(k，j)是点x_k与x_j的欧式距离，d_c为截断距离；

未标记样本与具有较高密度点的最小距离：

而对于具有最大密度的数据点：

未标记样本置信度：γ_k＝ρ_k/δ_k (4)

未标记样本置信度归一化：

标记样本在相同标记样本簇中的局部密度：

其中，j_y＝[1,2,...q]，k′＝[1,2,...,l]，j_y表示样本集中与标记样本点x_k′标签相同的样本的集合；

而对于具有最大密度的数据点：

标记样本置信度：

标记样本置信度归一化：

其中，N_p(x_k′)指x_k′最近邻的p个数据，x_k′为标记样本点，x_r为近邻样本点，σ表示高斯核函数的宽度参数；

步骤五：将信息整合，构建目标函数；

目标函数如下所示：

限制条件如下：

步骤六：采用迭代优化方法求解优化问题；

通过最小化上述优化问题，可得到最优解；为了简化计算，将m值设定为2；本发明采用拉格朗日乘子法求解样本隶属度和聚类中心；

未标记样本的隶属度u_ik：

其中，

标记样本的隶属度u_ik′：

其中，

聚类中心v_i：

通过迭代计算得到最终的隶属度矩阵U和聚类中心V；当

或达到最大迭代次数时，迭代终止，其中t为当前迭代次数，η是设定的阈值；

步骤七：判定未标记样本的类别，实现医学影像的分割；