CN116434880B

CN116434880B - 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法

Info

Publication number: CN116434880B
Application number: CN202310204380.XA
Authority: CN
Inventors: 李述; 单云霄; 李帅; 崔禹欣; 李福祥
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-09-08
Anticipated expiration: 2043-03-06
Also published as: CN116434880A

Abstract

本发明提供一种基于模糊自洽式聚类集成的高熵合金硬度预测方法，属于合金硬度预测技术领域。为解决现有方法无法有效避免类簇标签值的大小对对象间关系的影响，共识结果很难准确地映射出基聚类结果间的实际差异，且处理不确定性关系的能力较弱的问题。本发明方法将基聚类结果作为样本点特征，将基聚类结果采用缩放的哑变量的形式表示；采用模糊算子构建所有样本点的关系矩阵；基于关系矩阵计算各样本点的局部密度和相对距离，以识别聚类中心和分配非中心点，并构建再分配策略对共识聚类结果中的不确定性样本点进行修正。本发明消除了基聚类结果间划分差异的影响，从模糊算子的角度审视对象间的模糊关系，有效地提升对模糊关系的处理能力。

Description

一种基于模糊自洽式聚类集成的高熵合金硬度预测方法

技术领域

本发明涉及合金硬度预测技术领域，具体而言，涉及一种基于模糊自洽式聚类集成的高熵合金硬度预测方法。

背景技术

高熵合金(HEAs)具有高硬度、良好的耐磨性、优异的低温断裂韧性、优异的磁性能等一些优质的物理机械性能。对高熵合金的硬度预测时，针对给定的未知高熵合金数据集，其包含内在属性和规律均存在较大差异的合金材料，差异较大的合金彼此之间存在较为复杂的内部关系，导致模型对于某一类合金的硬度预测值有较大的偏差。

聚类是一种用于解决无监督问题的先进分析技术，致力于将给定数据集中相似度较高的样本点划分到同一类簇，差异相对较大的样本点彼此分开，是机器学习和数据挖掘领域的热点研究课题。现已成功应用于诸多实际场景，如图像模式识别、医学研究、推荐***、文本挖掘和工程***等。针对对高熵合金的硬度预测中难点，现有研究“一种基于改进密度峰值聚类算法的高熵合金硬度预测方法CN114613456A”，通过改进的密度峰值聚类算法，解决了由于高熵合金数据集数据结构差异大而导致的模型不能较好的学习数据集内部结构特征的问题，提升了模型的预测能力。

聚类集成(CE)模型相较于传统的单一聚类模型，能够通过整合多个基本聚类结果获得具有更好聚类效果和稳健性能的集成结果。在CE模型中有起着桥梁般作用的关键一步是如何处理基聚类结果矩阵，该步处理的好坏将直接影响模型最终的聚类性能。现有的CE方法通常采用两种方式来处理基聚类结果矩阵。第一种是发展较为成熟且被绝大多数人广泛使用的方法，其主张将行向量作为共识过程的输入，现有研究“一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法CN115691700A”，解决了现有的集成聚类算法不能对不同共识结果间产生的划分冲突进行有效地整合的问题，最终达到了令人满意的聚类效果。第二种是一种相关研究较少的处理方法，其主张将基聚类结果的标签值直接作为原始数据的特征表示。该方法能够有效克服第一种方法存在的缺陷，即不同基聚类结果间的类簇不对应。同时，由于第二种处理方式处于起步阶段，它还存在一些缺点：1)无法有效避免类簇标签值的大小对对象间关系计算的影响；2)默认所有基聚类结果是等贡献力的对于最终的共识结果，很难准确地映射出基聚类结果间的实际差异。不同的处理方式将直接导致有效信息提取的质量，从而影响最终的集成效果。此外，虽然关于对象间相似性关系的定义方法层出不穷，但其实从计算本质上来看差别并不明显。而且大多数定义方法的耦合度是固定的，导致处理不确定性关系的能力较弱，无法适用于所有类型的数据结构。在分配类簇标签时不可避免的会出现某种程度的模糊现象。因此，很有必要从一种全新的角度重新审视对象间的不确定性，以提高模型的灵活性以及处理模糊关系的能力。

发明内容

本发明要解决的技术问题是：

现有方法无法有效避免类簇标签值的大小对对象间关系计算的影响，并默认所有基聚类结果是等贡献力的，最终的共识结果很难准确地映射出基聚类结果间的实际差异；同时对于处理不确定性关系的能力较弱，无法有效解决共识结果中的不确定性的问题。

本发明为解决上述技术问题所采用的技术方案：

本发明提供了一种基于模糊自洽式聚类集成的高熵合金硬度预测方法，包括如下步骤：

S1、针对高熵合金数据集，采用基聚类算法对数据集进行多次划分，生成基聚类结果，将基聚类结果作为样本点特征，将基聚类结果采用哑变量的形式表示，再对结果进行缩放的加权处理，得到原始数据缩放的哑变量特征表示；

S2、采用模糊算子定义所述缩放的哑变量特征表示下任意两个样本点之间的模糊关系，得到所有样本点构成的关系矩阵；

S3、将关系矩阵作为共识策略的输入，基于所述关系矩阵计算各样本点的局部密度和相对距离，基于局部密度和相对距离识别聚类中心和分配非中心点，得到初阶共识聚类结果π^θ；

S4、构建再分配策略对初阶共识聚类结果中的不确定性样本点进行修正，得到终阶共识聚类结果π^*；

S5、将终阶共识聚类结果中的不同类簇各自建立回归模型，进行高熵合金硬度预测计算。

进一步地，S1具体包括如下步骤：

S11、针对高熵合金数据集DX＝{dx₁,dx₂,…,dx_N}，其中N是样本数量，通过基聚类算法{A₁,A₂,…,A_L}对数据集DX进行L次划分，得到基聚类结果矩阵其中π_ij表示第i个划分对第j个样本点分配的标签值，即第i个划分下的基聚类结果和类簇个数分别为/>和|C(r_i)|，将基聚类结果作为样本点特征；

S12、将基聚类结果采用哑变量的形式表示，即对于任意一个样本点dx_j，表示为：

其中，的长度为|C(r_i)|，从左到右每个位置的值依次代表第1簇至第|C(r_i)|簇，/>只有在第π_ij个位置的值为1，其余位置的值均为0；

S13、在S12的基础上对基聚类结果进行缩放的加权处理，其缩放系数ω_i基于DBI指数，具体形式为：

其中，DBI_i为第i个划分下基聚类结果的DBI指标得分；

则样本点dx_j表示为：

其中，的长度为|C(r_i)|，从左到右每个位置的值依次代表第1簇至第|C(r_i)|簇，/>只有在第π_ij个位置的值为ω_i，其余位置的值均为0；

最终得到原始数据缩放的哑变量特征表示。

进一步地，S2所述模糊算子的定义为：

设映射S:[0,1]²→[0,1],对于有γ-模糊算子/>

进一步地，S2中采用γ-模糊算子定义任意两个样本点d^*x_j和d^*x_k之间的模糊关系f_jk，具体为：

其中，γ∈[-1,0]。

进一步地，S3对于任一样本点d^*x_j，其局部密度ρ_j的计算方法为：

其中，d_c为截断距离。

进一步地，S3对于任一样本点d^*x_j，其相对距离δ_j的计算方法为：

如果d^*x_j为非最大局部密度点，其相对距离δ_j为：

此时δ_j由距离d^*x_j最近的邻居d^*x_k确定，且d^*x_k具有相对较大的局部密度值；

如果d^*x_j为最大局部密度点，则其相对距离δ_j记作δ_max，表示为：

δ_max＝max_k(f_jk)。

进一步地，S3中所述聚类中心的识别过程为：首先绘制二维决策图，其横纵坐标分别对应于ρ和δ；其次，将所有样本点映射到决策图中，任意一个点d^*x_j的位置由ρ_j和δ_j所确定，最后，通过识别决策图中右上角ρ_j和δ_j同时较大的样本点成为聚类中心；

所述非中心点的分配原则为该点与其距离最近的点同簇，且该近邻点具有较大的局部密度。

进一步地，S4中所述不确定性样本点的定义为：对于任意的样本点d^*x_j，如果其相对样本点d^*x_k与最近邻样本点d^*x_q在初阶共识聚类结果π^θ中所在的簇不一致，则样本点d^*x_j为不确定性样本点，其中，相对样本点d^*x_k为获得点d^*x_j的相对距离δ_j时定位到的点。

进一步地，所述再分配策略的实施过程为：

Step1：构建对应于所有样本点{d^*x₁,d^*x₂,…d^*x_N}的两个向量，一个向量储存的是相对样本点对应的簇标签，另一个向量储存的是最近邻样本点对应的簇标签；

Step2：将两个向量对应位置簇标签值不一致的不确定性样本点挑出放到集合Q中；

Step3：计算π^θ中每个簇的均值向量其中C^*为π^θ的类簇数；利用所述γ-模糊算子/>评估Q中每个不确定性点与V^mv中所有均值向量之间的模糊关系；

Step4：利用最大隶属度原则将不确定性点分配给与其具有最大模糊关系的类簇。

进一步地，所述γ-模糊算子需满足的基本条件的证明方法为：

推论1：构造的γ-模糊算子为S三角模，需满足S三角模中的四个基本条件：

(1)交换律：S(u,v)＝S(v,u)；

(2)结合律：S(S(u,v),p)＝S(u,S(v,p))；

(3)单调性：若u₁≤u₂,v₁≤v₂,则S(u₁,v₁)≤S(u₂,v₂)；

(4)边界条件：S(u,0)＝u；

证明：(1)交换律：对于则有：

即S(u,v)＝S(v,u)；

(2)结合律：对于则有：

即S(S(u,v),p)＝S(u,S(v,p))；

(3)单调性：对于且u₁≤u₂,v₁≤v₂，则有：

又∵γ∈[-1,0]，∴上式即S(u₁,v₁)≤S(u₂,v₂)；

(4)边界条件：对于有：

即S(u,0)＝u，得证。

相较于现有技术，本发明的有益效果是：

本发明是一种基于模糊自洽式聚类集成的高熵合金硬度预测方法，将基聚类结果作为样本点特征，将基聚类结果缩放的哑变量表示作为原始数据点的新特征，根本上消除无实际意义的类簇标签值对样本点间实际关系的影响，并消除了基聚类结果间划分差异对集成结果准确性的影响。本发明设计了一种可根据实际问题的不确定性调节耦合强度模糊算子，并首次从模糊算子的角度重新审视了CE问题中对象间的模糊关系，有效地提升了CE模型对模糊关系的处理能力。针对集成结果中的模糊对象提出了一种再分配策略以获得更高质量的终阶集成结果；本发明方法有效地强化了传统CE方法处理模糊关系的能力和鲁棒性。

附图说明

图1为本发明实施例中模糊自洽式聚类集成完成聚类的整体流程图；

图2为本发明实施例中将基聚类结果进行缩放加权的哑变量表示的流程图；

图3为本发明实施例中多个模型硬度预测结果对比图，其中，从上向下依次为线性SVR模型、SKTDPC+线性SVR模型、BCESF-DSC+线性SVR模型以及本发明方法，在90％训练集、10％测试集下运行40次的平均预测结果与实验结果的拟合情况图；

图4为本发明实施例中多个模型硬度预测结果对比图，其中，从上向下依次为线性SVR模型、SKTDPC+线性SVR模型、BCESF-DSC+线性SVR模型以及本发明方法，在80％训练集、20％测试集下运行40次的平均预测结果与实验结果的拟合情况图；

图5为本发明实施例中多个模型硬度预测结果对比图，其中，从上向下依次为线性SVR模型、SKTDPC+线性SVR模型、BCESF-DSC+线性SVR模型以及本发明方法，在70％训练集、30％测试集下运行40次的平均预测结果与实验结果的拟合情况图。

具体实施方式

在本发明的描述中，应当说明的是，在本发明的实施例中所提到的术语“第一”、“第二”、“第三”仅用于描述目的，并不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者多个该特征。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

结合图1至图2所示，本发明提供一种基于模糊自洽式聚类集成的高熵合金硬度预测方法，包括如下步骤：

S1、针对高熵合金数据集，采用基聚类算法对数据集进行多次划分，生成基聚类结果，将基聚类结果作为样本点特征，将基聚类结果采用哑变量的形式表示，再对结果进行缩放的加权处理，得到原始数据缩放的哑变量特征表示。

S1具体包括如下步骤：

S13、在S12的基础上对基聚类结果进行缩放的加权处理，其缩放系数ω_i基于DBI(Davies-Bouldin)指数，具体形式为：

其中，DBI_i为第i个划分下基聚类结果的DBI指标得分，其值越小表示聚类效果越好；

则样本点dx_j表示为：

最终得到原始数据缩放的哑变量特征表示。

S12的处理方式可以从根本上消除无实际意义的类簇标签值对样本点间关系远近的影响。现有方法默认所有基聚类结果的贡献力是恒等的，但是，在实际随机生成的多个基聚类结果间一定存在着或多或少的划分差异；为了对原始数据更准确地刻画，S13将所有的基聚类结果赋予各自的缩放系数ω，采用缩放系数ω_i衡量第i个基聚类结果的贡献力。

S2、采用模糊算子定义所述缩放的哑变量特征表示下任意两个样本点之间的模糊关系，得到所有样本点构成的关系矩阵。

所述模糊算子的定义为：

设映射S:[0,1]²→[0,1],对于有γ-模糊算子/>

所述γ-模糊算子需满足的基本条件的证明方法为：

(1)交换律：S(u,v)＝S(v,u)；

(2)结合律：S(S(u,v),p)＝S(u,S(v,p))；

(3)单调性：若u₁≤u₂,v₁≤v₂,则S(u₁,v₁)≤S(u₂,v₂)；

(4)边界条件：S(u,0)＝u；

证明：(1)交换律：对于则有：

即S(u,v)＝S(v,u)；

(2)结合律：对于则有：

即S(S(u,v),p)＝S(u,S(v,p))；

(3)单调性：对于且u₁≤u₂,v₁≤v₂，则有：

又∵γ∈[-1,0]，∴上式即S(u₁,v₁)≤S(u₂,v₂)；

(4)边界条件：对于有：

即S(u,0)＝u，得证。

S2中采用γ-模糊算子定义任意两个样本点d^*x_j和d^*x_k之间的模糊关系f_jk，具体为：

其中，γ∈[-1,0]。

f_jk的值越小，表示样本点d^*x_j和d^*x_k的距离越近，即两者之间的吸引力越强。此外，γ在不同的取值下两者之间的耦合强度也会随之改变。一般来说，当数据集中存在较多不确定的数据点时，γ往往取值会偏小一点。反之，γ取值则会偏大一点。

所述γ-模糊算子属于参数化类型的模糊算子。该算子在实际应用中具有较强的可伸缩性，可根据实际问题需要通过调节参数γ来控制模糊算子的耦合强度。因此，在CE模型的设计中引入γ-模糊算子/>能够有效地提升其对模糊关系的处理能力，进而改善CE模型的聚类效果和泛化能力。

S3、将关系矩阵作为共识策略的输入，基于所述关系矩阵计算各样本点的局部密度和相对距离，基于局部密度和相对距离识别聚类中心和分配非中心点，得到初阶共识聚类结果π^θ。

对于任一样本点d^*x_j，其局部密度ρ_j的计算方法为：

其中，d_c为截断距离，是该共识策略的唯一超参数。

对于任一样本点d^*x_j，其相对距离δ_j的计算方法为：

如果d^*x_j为非最大局部密度点，其相对距离δ_j为：

δ_max＝max_k(f_jk)。

S3中所述聚类中心的识别过程为：首先绘制二维决策图，其横纵坐标分别对应于ρ和δ；其次，将所有样本点映射到决策图中，任意一个点d^*x_j的位置由ρ_j和δ_j所确定，最后，通过识别决策图中右上角ρ_j和δ_j同时较大的样本点成为聚类中心；

S4、构建再分配策略对初阶共识聚类结果中的不确定性样本点进行修正，得到终阶共识聚类结果π^*。

考虑到不管在共识过程中使用哪种类型的处理策略，在分配类簇标签时都不可避免的会出现不同程度的模糊现象。也就是说，在初阶共识聚类结果π^θ中仍然存在着某些具有不确定性的样本点。这些不确定性点需要一种有效的处理方式对其重新分配，以获得稳定且准确的共识结果。因此，本发明设计了一种能够降低不确定性、提高聚类效果的再分配策略。

首先，对所述不确定性样本点的定义为：对于任意的样本点d^*x_j，如果其相对样本点d^*x_k与最近邻样本点d^*x_q在初阶共识聚类结果π^θ中所在的簇不一致，则样本点d^*x_j为不确定性样本点，其中，相对样本点d^*x_k为获得点d^*x_j的相对距离δ_j时定位到的点。

所述再分配策略的实施过程为：

以此完成对不确定性点的修正，得到终阶共识聚类结果π^*。

S5中所采用的回归模型为线性SVR模型。

为验证本发明方法的准确性，针对一个包含601个样本点的高熵合金数据集，样本点特征参数类型为：相位参数、力学参数、加工制备参数、元素成分摩尔占比参数。相位参数包括价电子浓度、电负性差、原子半径差、混合焓、混合熵、电子浓度和内聚能；力学参数包括功函数、模量失配、剪切模量差、剪切模量和熔点；加工制备参数包括铸态、增材制造、粉末冶金、加工硬化和均质化；元素成分摩尔占比参数包括锂、镁、铝、硅、钪、钛、钒、铬、锰、铁、镍、钴、铜、锌、锆、铌、钼、锡、铪、钽和钨的摩尔占比。

针对该数据集分别采用线性SVR模型、SKTDPC+线性SVR模型、BCESF-DSC+线性SVR模型以及本发明方法对数据集中样本点进行硬度预测。其中SVR模型即将数据集直接采用SVR算法进行高熵合金硬度预测；SKTDPC+线性SVR模型基于背景技术中“一种基于改进密度峰值聚类算法的高熵合金硬度预测方法”，BCESF-DSC+线性SVR模型基于背景技术中“一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法”，本发明方法及各模型的预测结果如图3、图4和图5所示。

从上述的对比结果图可以非常直观地看到，在不同的训练集与测试集的分配比例下，本发明方法的预测能力相较于原始SVR模型有大幅度的提升，R²已经实现了高达50％左右的提升。此外，本发明方法相比相较于现有的预测能力较强的SKTDPC+线性SVR模型、BCESF-DSC+线性SVR模型R²也呈现出13％和8％左右的提升。值得注意的是，当某一类方法逐渐发展成熟到达一定高度时，往往模型性能的提升幅度会随之变得越来越小，相对应的提升难度也随之飙升。在这种情况下，本发明所提出的方法还能够突破百分之十几的指标值是极其艰难的。此外，还可以发现，本发明方法在不同的实验设置下均呈现出很稳定的预测效果。而且本发明方法的思想具有普适性，当遇到与本发明研究内容类似的情况时，可以考虑将该方法与其它回归模型结合，以从根本上提高模型的预测能力。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于模糊自洽式聚类集成的高熵合金硬度预测方法，其特征在于包括如下步骤：

S1具体包括如下步骤：

S11、针对高熵合金数据集DX＝{dx₁，dx₂，...，dx_N}，其中N是样本数量，通过基聚类算法{A₁，A₂，...，A_L}对数据集DX进行L次划分，得到基聚类结果矩阵其中π_ij表示第i个划分对第j个样本点分配的标签值，即第i个划分下的基聚类结果和类簇个数分别为和|C(r_i)|，将基聚类结果作为样本点特征；

其中，DBI_i为第i个划分下基聚类结果的DBI指标得分；

则样本点dx_j表示为：

其中，的长度为|C(r_i)|，从左到右每个位置的值依次代表第1簇至第|C(r_i)|簇，只有在第π_ij个位置的值为ω_i，其余位置的值均为0；

最终得到原始数据缩放的哑变量特征表示；

所述模糊算子的定义为：

设映射S：[0，1]²→[0，1]，对于γ∈[-1，0]，有γ-模糊算子/>

采用γ-模糊算子定义任意两个样本点d^*x_j和d^*x_k之间的模糊关系f_jk，具体为：

其中，γ∈[-1，0]；

2.根据权利要求1所述的方法，其特征在于S3对于任一样本点d^*x_j，其局部密度ρ_j的计算方法为：

其中，d_c为截断距离。

3.根据权利要求2所述的方法，其特征在于S3对于任一样本点d^*x_j，其相对距离δ_j的计算方法为：

如果d^*x_j为非最大局部密度点，其相对距离δ_j为：

δ_max＝max_k(f_jk)。

4.根据权利要求3所述的方法，其特征在于S3中所述聚类中心的识别过程为：首先绘制二维决策图，其横纵坐标分别对应于ρ和δ；其次，将所有样本点映射到决策图中，任意一个点d*x_j的位置由ρ_j和δ_j所确定，最后，通过识别决策图中右上角ρ_j和δ_j同时较大的样本点成为聚类中心；

5.根据权利要求4所述的方法，其特征在于S4中所述不确定性样本点的定义为：对于任意的样本点d^*x_j，如果其相对样本点d^*x_k与最近邻样本点d^*x_q在初阶共识聚类结果π^θ中所在的簇不一致，则样本点d^*x_j为不确定性样本点，其中，相对样本点d^*x_k为获得点d^*x_j的相对距离δ_j时定位到的点。

6.根据权利要求5所述的方法，其特征在于所述再分配策略的实施过程为：

step1：构建对应于所有样本点{d^*x₁，d^*x₂，...d^*x_N}的两个向量，一个向量储存的是相对样本点对应的簇标签，另一个向量/>储存的是最近邻样本点对应的簇标签；

7.根据权利要求1所述的方法，其特征在于所述γ-模糊算子需满足的基本条件的证明方法为：

(1)交换律：S(u，v)＝S(v，u)；

(2)结合律：S(S(u，v)，p)＝S(u，S(v，p))；

(3)单调性：若u₁≤u₂，v₁≤v₂，则S(u₁，v₁)≤S(u₂，v₂)；

(4)边界条件：S(u，0)＝u；

证明：(1)交换律：对于则有：

即S(u，v)＝S(v，u)；

(2)结合律：对于则有：

即S(S(u，v)，p)＝S(u，S(v，p))；

(3)单调性：对于且u₁≤u₂，v₁≤v₂，则有：

又∵γ∈[-1，0]，∴上式即S(u₁，v₁)≤S(u₂，v₂)；

(4)边界条件：对于有：

即S(u，0)＝u，得证。