CN116738297B

CN116738297B - 一种基于深度自编码的糖尿病分型方法和***

Info

Publication number: CN116738297B
Application number: CN202311022792.8A
Authority: CN
Inventors: 王伟好; 肖佩; 潘琦; 陈子豪; 李影
Original assignee: Beijing Qs Medical Technology Co ltd
Current assignee: Beijing Qs Medical Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-21
Anticipated expiration: 2043-08-15
Also published as: CN116738297A

Abstract

本发明提出了一种基于深度自编码的糖尿病分型方法和***。所述糖尿病分型方法包括：从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据；构建基于深度自编码的糖尿病分型模型，并利用所述训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块；利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型。所述糖尿病分型***包括与所述糖尿病分型方法对应的模块。

Description

一种基于深度自编码的糖尿病分型方法和***

技术领域

本发明提出了一种基于深度自编码的糖尿病分型方法和***，属于深度学习模型建立技术领域。

背景技术

目前通用的糖尿病分类方法将糖尿病分为1型糖尿病、2型糖尿病，其中90%的属于2型糖尿病。而2型糖尿病在病因、临床表现、预后等方面在不同的个体中可出现不同表现，异质性较高，临床结局也各有差异。因此，目前的糖尿病分型方法并不能满足临床中的工作需要，也不能针对糖尿病患者进行个体化的精准治疗。在此背景下亟需一套针对糖尿病人群而设计的疾病分型模型。

传统机器学习的聚类方法难以准确评估样本之间相似性、难以对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类；同时，如果神经网络仅仅作为一个特征提取器，其在学习过程中没有明确地纳入聚类促进目标，因此学习到的深度神经网络，不一定会输出适合聚类的降维数据。

发明内容

本发明提供了一种基于深度自编码的糖尿病分型方法和***，用以解决现有糖尿病分型模型无法对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类的问题，所采取的技术方案如下：

一种基于深度自编码的糖尿病分型方法，所述糖尿病分型方法包括：

从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据；

构建基于深度自编码的糖尿病分型模型，并利用训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块；

利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型。

进一步地，从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据，包括：

从所述糖尿病临床数据库中提取临床数据样本；

针对所述临床数据样本进行数据预处理，获得预处理后的临床数据样本；

针对预处理后的临床数据样本按照预设的训练数据和验证数据的数据比例进行划分，获得与所述数据比例对应的训练数据和验证数据。

进一步地，针对所述临床数据样本进行数据预处理，获得预处理后的临床数据样本，包括：

对所述临床数据样本去除空值，获得无空值的临床样本数据；

将所述无空值的临床样本数据去除N个标准差之外的异常值，获得去异常值的临床样本数据；

对所述去异常值的临床样本数据进行连续变量归一化和分类变量编码处理，获得预处理后的临床数据样本。

进一步地，将所述无空值的临床样本数据去除N个标准差之外的异常值，获得去异常值的临床样本数据，包括：

针对所述临床样本数据进行平均值计算和标准差计算，获得所述临床样本数据对应的平均值和标准差；

利用所述临床样本数据对应的平均值和标准差确定异常值的阈值系数N，并通过所述阈值系数N确定异常值的范围，其中，所述的阈值系数N和异常值的范围通过如下公式获取：

其中，N表示阈值系数；X _p表示临床样本数据的平均值；X _c表示临床样本数据的标准差；P表示百分位点，P的取值范围为0.71-0.74；λ表示调整系数，当X _c-（1+P ²）X _p>0时，λ=-（1-P），当X _c-（1+P ²）X _p<0时，λ=1；ΔP表示第一调整因子；X _ymax和X _ymin表示异常值的范围的上限值和下限值；

遍历数据集中的每个数据点，判断其是否超出异常值的范围；

当所述临床样本数据超出所述异常值的范围后，将超出所述异常值的范围临床样本数据作为异常值；

根据异常值与所述异常值的范围之间的关系，获取所述异常值的替代值，并将所述替代值代替所述异常值及其对应位置，同时，将所述异常值予以删除。

进一步地，所述替代值通过如下公式获取：

其中，X _t表示异常值对应的替代值；X _p表示临床样本数据的平均值；X表示所述临床样本数据的原始数据点对应的数值；X _c表示临床样本数据的标准差；P表示百分位点，P的取值范围为0.71-0.74；X _ymax和X _ymin表示异常值的范围的上限值和下限值。

进一步地，对所述去异常值的临床样本数据进行连续变量归一化和分类变量编码处理，获得预处理后的临床数据样本，包括：

设置连续变量的缩放策略，其中，所述缩放策略对应公式如下：

其中，X _s表示缩放后的临床样本数据的数据点对应的数值；X表示所述临床样本数据的原始数据点对应的数值；X _min表示临床样本数据的原始数据集中的最小数据值；X _max表示临床样本数据的原始数据集中的最大数据值；X _rmin和X _rmax表示临床样本数据在变量缩放中预设的缩放数据的数据下限值和数据上限值；

按照所述连续变量的缩放策略，对所述临床样本数据中需要进行归一化的连续变量进行缩放和标准化处理，生成连续变量归一化后的数据信息；

在所述连续变量归一化后的数据信息中确定需要进行编码处理的分类变量，根据分类变量的特征对所述连续变量归一化后的数据信息进行分类变量编码处理，获得分类编码转换后的样本数据，其中，所述类编码转换后的样本数据即为预处理后的临床数据样本。

进一步地，构建基于深度自编码的糖尿病分型模型，并利用训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型，包括：

构建基于深度自编码的糖尿病分型模型；

利用训练数据对深度自编码器进行训练，获得训练后的深度自编码器；

将所述训练后的深度自编码器中的M个深度自编码器与Kmens聚类模块通过KL散度方式进行联合损失优化，形成带有Kmens聚类的深度自编码器；其中，带有Kmens聚类的深度自编码器的糖尿病分型模型即为所述训练后的糖尿病分型模型，并且所述深度自编码器M的具体值通过如下公式获取：

其中，M表示联合Kmens聚类模块的深度自编码器的个数，且，M为向下取整，当通过计算获得M=0时，令M =1，当通过/>计算获得M>M ₀时，令M =M ₀-1；A ₀表示临床样本数据中出现异常值的数据个数；A表示临床样本数据的样本数据总个数；M ₀表示于深度自编码的糖尿病分型模型中的深度自编码器的总个数；ΔM表示第二调整因子。

进一步地，利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型，包括：

将所述验证数据输入至训练后的糖尿病分型模型，获得糖尿病分型后的聚类指标雷达图；

将所述聚类指标雷达图中所表示的指标数据与验证数据中的每种类型糖尿病的特征进行比较；

当比较结果表示糖尿病分型模型符合验证数据的特征分布规则范围时，则判定当前所述训练后的糖尿病分型模型即为最终的糖尿病分型模型；

当比较结果表示糖尿病分型模型不符合验证数据的特征分布规则范围时，则利用第一调整因子和第二调整因子分别对异常值的阈值系数N和编码器个数M进行调整；并利用调整后的异常值的阈值系数N和编码器个数M重新获取训练后的糖尿病分型模型，直至训练后的糖尿病分型模型的验证结果符合验证数据的特征分布规则范围。

进一步地，所述第一调整因子和第二调整因子通过如下公式获取：

其中，ΔP表示第一调整因子；ΔM表示第二调整因子；K表示不符合验证数据的特征分布规则范围的数据个数；X _mi表示第i个不符合验证数据的特征分布规则范围的数据值；X _si表示第i个不符合验证数据的特征分布规则范围的数据对应的缩放后的数据值；X _h表示特征分布规则范围中与所述第i个不符合验证数据的特征分布规则范围的数据最近的数据点对应的数据值；X _p表示临床样本数据的平均值；X _c表示临床样本数据的标准差；X _c1表示验证数据对应的标准差的数值。

一种基于深度自编码的糖尿病分型***，所述糖尿病分型***包括：

数据提取模块，用于从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据；

模型构建及训练模块，用于构建基于深度自编码的糖尿病分型模型，并利用所述训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块；

验证调整模块，用于利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型。

本发明有益效果：

本发明提出的一种基于深度自编码的糖尿病分型方法和***通过将聚类目标添加到优化过程中，即将预训练好的自编码器的编码器部分拿出来，与Kmens聚类模块通过KL散度进行联合损失优化的方式，能够针对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类，同时，本发明提出的一种基于深度自编码的糖尿病分型方法和***获得的最终糖尿病分型模型能够保证所有经过深度自编码器输出的数据均是适合聚类的降维数据。

附图说明

图1为本发明所述糖尿病分型方法的流程图；

图2为本发明所述糖尿病分型***的***框图；

图3为本发明所述糖尿病分型模型的Kmens聚类模块增加原理图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提出了一种基于深度自编码的糖尿病分型方法，如图1所示，所述糖尿病分型方法包括：

S1、从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据；

S2、构建基于深度自编码的糖尿病分型模型，并利用训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块，所述Kmens聚类模块的原理如图3所示，其中 DEC的英文DeepEmbeddedClustering的缩写，含义为自编码聚类算法，encoder含义为编码器，decoder含义为解码器；

S3、利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型。

上述技术方案的工作原理为：S1、从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据：在这一步骤中，从糖尿病临床数据库中获取一定数量的临床数据样本。这些数据样本包含了与糖尿病相关的临床特征和标签。训练数据用于构建模型，验证数据用于评估模型的性能。

S2、构建基于深度自编码的糖尿病分型模型，并利用所述训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型：

在这一步骤中，使用深度自编码模型构建糖尿病分型模型。深度自编码是一种无监督学习方法，通过多层神经网络将输入数据进行编码和解码，以提取数据的高级特征表示。通过对训练数据进行模型训练，可以获得一个经过优化的糖尿病分型模型，其中包含了对输入数据进行有意义的特征提取和表示的能力。

其中，可以采用一种带有多个深度自编码器的神经网络模型，所述神经网络模型的结构可以采用但不限制于如下网络模型结构：

以下是堆叠自编码器用于糖尿病类型分型的神经网络模型的组成结构：

输入层（Input Layer）：接收糖尿病患者的临床特征作为输入。

编码器（Encoder）：由多个自编码器组成的层，每个自编码器负责学习输入数据的不同层次的抽象特征表示。每个自编码器由编码器部分和解码器部分组成。其中，每个自编码器包括如下两个部分：

a. 编码器部分：包含一个或多个隐藏层和激活函数，将输入数据压缩为更低维的编码表示。

b. 解码器部分：与编码器部分对称，包含一个或多个隐藏层和激活函数，将编码表示映射回原始输入维度。

解码器（Decoder）：最后一个自编码器的解码器部分输出作为整个模型的输出。

输出层（Output Layer）：由一个或多个神经元组成的层，输出属于不同糖尿病类型的概率分布。

S3、利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型：

在这一步骤中，使用验证数据集对训练后的糖尿病分型模型进行评估和验证。通过将验证数据输入到训练后的模型中，可以获得模型对新样本的预测结果。根据验证结果，可以评估模型的性能和准确度。如果验证结果不满足要求，可以对糖尿病分型模型进行调整和优化，例如调整模型的超参数、增加训练数据量等，以获得最终的糖尿病分型模型。

上述技术方案的效果为：本实施例提出的一种基于深度自编码的糖尿病分型方法通过将聚类目标添加到优化过程中，即将预训练好的自编码器的编码器部分拿出来，与Kmens聚类模块通过KL散度进行联合损失优化的方式，能够针对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类，同时，本实施例提出的一种基于深度自编码的糖尿病分型方法获得的最终糖尿病分型模型能够保证所有经过深度自编码器输出的数据均是适合聚类的降维数据。

本发明的一个实施例，从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据，包括：

S101、从所述糖尿病临床数据库中提取临床数据样本；

S102、针对所述临床数据样本进行数据预处理，获得预处理后的临床数据样本；

S103、针对预处理后的临床数据样本按照预设的训练数据和验证数据的数据比例进行划分，获得与所述数据比例对应的训练数据和验证数据。

其中，针对所述临床数据样本进行数据预处理，获得预处理后的临床数据样本，包括：

S1021、对所述临床数据样本去除空值，获得无空值的临床样本数据；

S1022、将所述无空值的临床样本数据去除N个标准差之外的异常值，获得去异常值的临床样本数据；

S1023、对所述去异常值的临床样本数据进行连续变量归一化和分类变量编码处理，获得预处理后的临床数据样本。

上述技术方案的工作原理为：从数据库中获取糖尿病患者的临床数据样本。针对数据样本进行数据预处理。数据预处理是为了清洗和准备数据，以便后续分析和建模。在这个步骤中，进行了以下子步骤：

对临床数据样本去除空值，为了处理临床数据中的缺失值，缺失值可能会影响后续分析和建模的结果，因此需要将包含空值的样本进行处理或剔除。

将无空值的临床样本数据去除N个标准差之外的异常值，旨在检测和移除数据中的异常值。异常值可能是由于测量错误或其他异常情况导致的，如果不进行处理，可能会对建模和分析产生不良影响。这里的N代表一个阈值，可以是标准差的倍数，根据具体情况来确定。

对去除异常值的临床样本数据进行连续变量归一化和分类变量编码处理，目的是对不同类型的特征进行合适的处理，使得它们具有可比性和可用性。连续变量归一化可以将不同范围的连续变量缩放到相同的范围内，常见的方法包括MinMax Scaling或Z-score标准化。分类变量编码处理是将分类变量转换为数值表示，常见的方法有独热编码（One-Hot Encoding）或标签编码（Label Encoding）等。

按照预设的训练数据和验证数据的比例进行划分，主要是将预处理后的临床数据样本按照预设的比例划分为训练数据和验证数据集。训练数据用于模型的训练，验证数据用于评估模型性能和进行调整。

上述技术方案的效果为：本实施例的上述技术方案通过对糖尿病临床数据进行数据预处理和划分，提供了清洁的数据样本以及用于训练和验证的数据集。本实施例的上述技术方案有助于减少数据中的噪声和异常值，并将数据转换为适合建模的形式，从而提高模型的准确性和稳定性。

本发明的一个实施例，将所述无空值的临床样本数据去除N个标准差之外的异常值，获得去异常值的临床样本数据，包括：

步骤1、针对所述临床样本数据进行平均值计算和标准差计算，获得所述临床样本数据对应的平均值和标准差；

步骤2、利用所述临床样本数据对应的平均值和标准差确定异常值的阈值系数N，并通过所述阈值系数N确定异常值的范围，其中，所述的阈值系数N和异常值的范围通过如下公式获取：

步骤3、遍历数据集中的每个数据点，判断其是否超出异常值的范围；

步骤4、当所述临床样本数据超出所述异常值的范围后，将超出所述异常值的范围临床样本数据作为异常值；

步骤5、根据异常值与所述异常值的范围之间的关系，获取所述异常值的替代值，并将所述替代值代替所述异常值及其对应位置，同时，将所述异常值予以删除。

其中，所述替代值通过如下公式获取：

上述技术方案的工作原理为：针对临床样本数据进行平均值计算和标准差计算，获得临床样本数据对应的平均值和标准差。平均值计算是求取数据样本的平均数，标准差计算是衡量数据样本的离散程度。

利用临床样本数据对应的平均值和标准差确定异常值的阈值系数N，并通过该阈值系数N确定异常值的范围。阈值系数N是根据平均值和标准差来确定异常值的临界范围，通常是将N乘以标准差。

遍历数据集中的每个数据点，判断其是否超出异常值的范围。对于每个数据点，通过与异常值的阈值范围进行比较来确定是否属于异常值。

当临床样本数据超出异常值的范围后，将超出异常值的范围的临床样本数据标记为异常值。这一步骤是将超过异常值范围的数据点标记为异常，以便后续处理。

根据异常值与异常值的范围之间的关系，获取异常值的替代值，并将替代值代替异常值及其对应位置。在这一步骤中，可以根据具体情况采取不同的策略来替代异常值，例如使用均值、中位数或其他统计量作为替代值。同时，将异常值从数据集中删除，以保证数据的准确性和一致性。

上述技术方案的效果为：本实施例的上述技术方案通过计算临床样本数据的平均值和标准差，确定异常值的范围，并将超出范围的数据点标记为异常值。然后，根据异常值与范围之间的关系，获取异常值的替代值，并将替代值代替异常值。这样可以有效地处理临床样本数据中的异常值，以确保数据的质量和可靠性。

同时，利用上述公式获取的阈值系数N能够有效提高异常值的范围设置的准确性及其与临床样本数据之间的匹配性，防止阈值系数N过大导致异常值筛选敏感度降低，降低异常值提出的准确性，进而导致后续训练的分类模型的精度和准确度降低的问题发生；同时，有能过防止阈值系数N过小导致异常值筛选敏感度过高，进而导致有效的训练数据被误剔除的问题发生。通过上述公式可以根据临床样本数据的平均值和标准差，以及其他参数和调整因子，确定异常值的阈值系数N，并进一步确定异常值的范围。这有助于识别和处理临床数据中的异常值，提高数据筛选的准确性和可靠性。

另一方面，通过上述公式获取的替代值能够结合临床样本数据的平均值和标准差，以及百分位点和异常值的范围的上限值和下限值进行设置，结合每个异常数据的数据值的实际分布情况进行设置，有效提高上述替代值设置的合理性和准确性，同时，通过上述替代值的设置能够有效降低替代值的无异常性，进而提高后续模型训练的准确性。

本发明的一个实施例，对所述去异常值的临床样本数据进行连续变量归一化和分类变量编码处理，获得预处理后的临床数据样本，包括：

第一步、设置连续变量的缩放策略，其中，所述缩放策略对应公式如下：

第二步、按照所述连续变量的缩放策略，对所述临床样本数据中需要进行归一化的连续变量进行缩放和标准化处理，生成连续变量归一化后的数据信息；

第三步、在所述连续变量归一化后的数据信息中确定需要进行编码处理的分类变量，根据分类变量的特征对所述连续变量归一化后的数据信息进行分类变量编码处理，获得分类编码转换后的样本数据，其中，所述类编码转换后的样本数据即为预处理后的临床数据样本。

上述技术方案的工作原理为：设置连续变量的缩放策略，在这一步中，需要确定对连续变量采取的缩放策略，例如使用但不限制于最小-最大缩放、标准化等。

按照所述连续变量的缩放策略，对临床样本数据中需要进行归一化的连续变量进行缩放和标准化处理，生成连续变量归一化后的数据信息。根据选择的缩放策略，对连续变量进行相应的处理，使其值在一定范围内或满足特定的分布特征。

在连续变量归一化后的数据信息中确定需要进行编码处理的分类变量。根据分类变量的特征，确定哪些变量需要进行编码处理，例如使用独热编码、标签编码等方法将分类变量转换为数值表示。

最终，通过连续变量归一化和分类变量编码处理，可以获得预处理后的临床数据样本，其中，连续变量已经经过缩放的标准化处理，分类变量已经转换为数值表示。

上述技术方案的效果为：通过上述方式的预处理可以消除数据之间的量纲差异，提高模型训练的效果，并确保不同类型的特征都能够被正确地输入到模型中。同时，通过设置连续变量的缩放策略、对连续变量进行缩放和标准化处理，以及对分类变量进行编码处理，对临床样本数据进行预处理。这样可以提高数据的可比性和模型的训练效果，为后续的糖尿病类型分型模型构建提供更好的数据基础。

另一方面，通过上述缩放策略获取的缩放后的数值能够数据缩放的合理性，能够最大限度实现数据在一定范围内的分布特征的全面性，进而提高后续训练数据的质量和验证数据的验证效力，防止数据缩放不合理导致训练数据和验证数据的数据质量降低，进而导致前期模型训练准确性较低，以及，后续模型验证的准确性较低的问题发生。

本发明的一个实施例，构建基于深度自编码的糖尿病分型模型，并利用所述训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型，包括：

S201、构建基于深度自编码的糖尿病分型模型；

S202、利用训练数据对深度自编码器进行训练，获得训练后的深度自编码器；

S203、将所述训练后的深度自编码器中的M个深度自编码器与Kmens聚类模块通过KL散度方式进行联合损失优化，形成带有Kmens聚类的深度自编码器；其中，带有Kmens聚类的深度自编码器的糖尿病分型模型即为所述训练后的糖尿病分型模型，并且所述深度自编码器M的具体值通过如下公式获取：

上述技术方案的工作原理为：构建基于深度自编码的糖尿病分型模型。其中，深度自编码器是一种神经网络模型，由编码器和解码器组成，用于学习输入数据的紧凑表示和重构能力。

利用训练数据对深度自编码器进行训练，获得训练后的深度自编码器。在这一步中，使用训练数据来训练深度自编码器，通过最小化重构误差来优化模型参数，使其能够更好地重构输入数据。

将训练后的深度自编码器中的M个深度自编码器与Kmeans聚类模块通过KL散度方式进行联合损失优化，形成带有Kmeans聚类的深度自编码器。在这一步中，将训练后的深度自编码器与Kmeans聚类模块结合起来，通过最小化KL散度来优化模型，使得编码后的表示能够更好地与Kmeans聚类结果相匹配。

上述技术方案的效果为：通过上述技术方案构建一个具有Kmeans聚类的深度自编码器，该模型可以将输入数据进行编码和解码，并通过聚类方法对数据进行分组和分类。深度自编码器通过学习数据的特征表示，而Kmeans聚类模块通过聚类算法将数据进行分类。通过联合优化，可以使得模型能够更好地对糖尿病数据进行分型，从而实现糖尿病分型的目的。

同时，上述技术方案通过将聚类目标添加到优化过程中，即将预训练好的自编码器的编码器部分拿出来，与Kmens聚类模块通过KL散度进行联合损失优化的方式，能够针对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类，同时，上述实施例提出的技术方案获得的最终糖尿病分型模型能够保证所有经过深度自编码器输出的数据均是适合聚类的降维数据。

本实施例提出的技术方案通过结合深度自编码器和Kmeans聚类模块，通过联合损失优化的方式，构建了一个用于糖尿病分型的模型。这样的模型可以自动学习数据的特征表示并进行聚类，为糖尿病分型提供了一种有效的方法。

另一方面，通过上述公式计算得到的深度自编码器的个数M的调整因子用于确定深度自编码器在糖尿病分型模型中的数量。这个调整因子的作用是根据异常值的数量和总样本数量来调整深度自编码器的个数，以适应数据的特点和复杂度。同时，通过上述公式获取的嵌有聚类模型深度自编码器的个数，能够结合样本数据的实际情况，有效提高带有聚类模型深度自编码器的个数合理性，防止带有聚类模型深度自编码器的个数设置过多导致模型结构复杂导致响应速度降低的问题发生，同时，防止带有聚类模型深度自编码器的个数设置过少，导致聚类效果较差的问题发生。

本发明的一个实施例，利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型，包括：

S301、将所述验证数据输入至训练后的糖尿病分型模型，获得糖尿病分型后的聚类指标雷达图；

S302、将所述聚类指标雷达图中所表示的指标数据与验证数据中的每种类型糖尿病的特征进行比较；

S303、当比较结果表示糖尿病分型模型符合验证数据的特征分布规则范围时，则判定当前所述训练后的糖尿病分型模型即为最终的糖尿病分型模型；

S304、当比较结果表示糖尿病分型模型不符合验证数据的特征分布规则范围时，则利用第一调整因子和第二调整因子分别对异常值的阈值系数N和编码器个数M进行调整；并利用调整后的异常值的阈值系数N和编码器个数M重新获取训练后的糖尿病分型模型，直至训练后的糖尿病分型模型的验证结果符合验证数据的特征分布规则范围。

其中，所述第一调整因子和第二调整因子通过如下公式获取：

上述技术方案的工作原理为：将验证数据输入训练后的糖尿病分型模型，获得糖尿病分型后的聚类指标雷达图。聚类指标雷达图用于表示不同指标在不同糖尿病类型上的分布情况。

将聚类指标雷达图中的指标数据与验证数据中每种类型糖尿病的特征进行比较。通过比较，可以评估训练后的糖尿病分型模型是否符合验证数据的特征分布规则范围。

如果比较结果表示糖尿病分型模型符合验证数据的特征分布规则范围，那么当前的训练后的糖尿病分型模型被判定为最终的糖尿病分型模型。

如果比较结果表示糖尿病分型模型不符合验证数据的特征分布规则范围，那么需要进行调整。利用第一调整因子和第二调整因子分别对异常值的阈值系数N和编码器个数M进行调整。通过调整后的阈值系数N和编码器个数M重新训练糖尿病分型模型，直至验证结果符合验证数据的特征分布规则范围。

上述技术方案的效果为：本实施例的上述技术方案通过不断调整异常值的阈值系数N和编码器个数M，使训练后的糖尿病分型模型逐渐趋近于验证数据的特征分布规则范围。通过迭代调整，最终得到符合验证数据特征的糖尿病分型模型，提高了模型的准确性和适应性。

同时，通过将验证数据与训练后的模型进行比较，并不断调整异常值的阈值系数和编码器个数，以最终获得符合验证数据特征分布规则的糖尿病分型模型。有效提高模型的拟合能力和准确性，使其能够更好地应用于实际的糖尿病分型任务中。

本发明实施例提出了一种基于深度自编码的糖尿病分型***，如图2所示，所述糖尿病分型***包括：

上述技术方案的工作原理为：首先，通过数据提取模块从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据；

然后，利用模型构建及训练模块构建基于深度自编码的糖尿病分型模型，并利用所述训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块；

最后，通过验证调整模块利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型。

上述技术方案的效果为：本实施例提出的一种基于深度自编码的糖尿病分型***通过将聚类目标添加到优化过程中，即将预训练好的自编码器的编码器部分拿出来，与Kmens聚类模块通过KL散度进行联合损失优化的方式，能够针对数据分布稀疏、簇类结构不清晰的高维数据进行有效聚类，同时，本实施例提出的一种基于深度自编码的糖尿病分型***获得的最终糖尿病分型模型能够保证所有经过深度自编码器输出的数据均是适合聚类的降维数据。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度自编码的糖尿病分型方法，其特征在于，所述糖尿病分型方法包括：

利用验证数据对训练后的所述糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型；

其中，所述从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据，包括：确定异常值的阈值系数N，并通过所述阈值系数N确定异常值的范围，并利用确定的异常值的范围获取所述临床数据样本中的异常值；并且，所述的阈值系数N和异常值的范围通过如下公式获取：

；

其中，利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型，包括：

当比较结果表示糖尿病分型模型符合验证数据的特征分布规则范围时，则判定当前训练后的所述糖尿病分型模型即为最终的糖尿病分型模型；

当比较结果表示糖尿病分型模型不符合验证数据的特征分布规则范围时，则利用第一调整因子和第二调整因子分别对异常值的阈值系数N和编码器个数M进行调整；并利用调整后的异常值的阈值系数N和编码器个数M重新获取训练后的糖尿病分型模型，直至训练后的糖尿病分型模型的验证结果符合验证数据的特征分布规则范围；

；

2.根据权利要求1所述的糖尿病分型方法，其特征在于，从糖尿病临床数据库中提取临床数据样本作为训练数据和验证数据，包括：

从所述糖尿病临床数据库中提取临床数据样本；

3.根据权利要求2所述的糖尿病分型方法，其特征在于，针对所述临床数据样本进行数据预处理，获得预处理后的临床数据样本，包括：

4.根据权利要求3所述的糖尿病分型方法，其特征在于，将所述无空值的临床样本数据去除N个标准差之外的异常值，获得去异常值的临床样本数据，包括：

利用所述临床样本数据对应的平均值和标准差确定异常值的阈值系数N，并通过所述阈值系数N确定异常值的范围；

5.根据权利要求4所述的糖尿病分型方法，其特征在于，所述替代值通过如下公式获取：

；

6.根据权利要求3所述的糖尿病分型方法，其特征在于，对所述去异常值的临床样本数据进行连续变量归一化和分类变量编码处理，获得预处理后的临床数据样本，包括：

；

7.根据权利要求1所述的糖尿病分型方法，其特征在于，构建基于深度自编码的糖尿病分型模型，并利用训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型，包括：

构建基于深度自编码的糖尿病分型模型；

；

其中，M表示联合Kmens聚类模块的深度自编码器的个数，且，M为向下取整，当通过计算获得M=0时，令M =1，当通过/>计算获得M >M ₀时，令M =M ₀-1，；A ₀表示临床样本数据中出现异常值的数据个数；A表示临床样本数据的样本数据总个数；M ₀表示于深度自编码的糖尿病分型模型中的深度自编码器的总个数；ΔM表示第二调整因子。

8.一种基于深度自编码的糖尿病分型***，其特征在于，所述糖尿病分型***包括：

模型构建及训练模块，用于构建基于深度自编码的糖尿病分型模型，并利用训练模型对所述糖尿病分型模型进行训练，获得训练后的糖尿病分型模型；其中，所述糖尿病分型模型的部分深度自编码器中嵌有Kmens聚类模块；

验证调整模块，用于利用验证数据对所述训练后的糖尿病分型模型进行验证，并基于验证结果确定是否需要对所述糖尿病分型模型进行调整，获得最终的糖尿病分型模型；

；