CN116384450A - 面向医疗数据的深度卷积模糊神经网络及其训练方法 - Google Patents

面向医疗数据的深度卷积模糊神经网络及其训练方法 Download PDF

Info

Publication number
CN116384450A
CN116384450A CN202310431951.3A CN202310431951A CN116384450A CN 116384450 A CN116384450 A CN 116384450A CN 202310431951 A CN202310431951 A CN 202310431951A CN 116384450 A CN116384450 A CN 116384450A
Authority
CN
China
Prior art keywords
fuzzy
layer
algorithm
convolution
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310431951.3A
Other languages
English (en)
Inventor
周文晖
刘晓敏
何丽莉
李熙
白洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310431951.3A priority Critical patent/CN116384450A/zh
Publication of CN116384450A publication Critical patent/CN116384450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种面向医疗数据的深度卷积模糊神经网络及其训练方法,包括基于深度卷积模糊神经网络的医疗数据可解释性预测模型(IP‑DCFNN)IP‑DCFNN由三个部分组成:模糊逻辑前件部分:模糊逻辑前件部分提取输入数据,输入数据通过模糊逻辑前件部分中的隶属函数的运算从数值转化为一组对于模糊语言标量的隶属度值;深度卷积计算部分:深度卷积部分提取输入规则权重中的隐藏特征,并将隐藏层权重转换为高纬度信息表示;模糊结果表示部分:模糊结果表示部分是用来处理模糊推理中去模糊化的过程。本发明涉及计算机技术技术领域,本发明所述的IP‑DCFNN在模糊推理***的基础上加入深度卷积神经网络的理念来达到针对医疗数据的可解释性预测能力。

Description

面向医疗数据的深度卷积模糊神经网络及其训练方法
技术领域
本发明涉及计算机技术技术领域,特别涉及一种面向医疗数据的深度卷积模糊神经网络及其训练方法。
背景技术
模糊推理***受限于其数据通路和复杂的结构,面对大规模、高纬度数据时往往需要极高的计算成本,同时又很难表达出数据之间的关系,造成模糊推理***的预测结果精度不如一些拥有网络结构的算法模型。
神经网络相关算法虽然能够有效处理高维数据,但是由于其通过大量神经元的拓扑关系构建前馈传播的网络路径,导致其中隐藏层的神经元迭代出的权重系数不能产生与结果的直接联系,也不能表示出与所处理任务直接的相关的现实意义,即一般所说的“黑盒”性质,这导致神经网络缺乏可解释性,影响了结果的可信度和接受度。
相比于其他类型数据,医疗数据的各种属性特征之间往往更具有潜在关联,患者的不同生理指标或体态表征数据之间蕴含了部分逻辑联系,这就使得一些普通的推理模型不能够很好的处理医学数据。
发明内容
有鉴于此,本发明旨在提出一种面向医疗数据的深度卷积模糊神经网络,以在模糊推理***的基础上加入深度神经网络的理念来达到既有可解释性又能处理高维数据的能力。
为达到上述目的,本发明的技术方案是这样实现的:
一种面向医疗数据的深度卷积模糊神经网络其特征在于:包括基于深度卷积模糊神经网络的医疗数据可解释性预测模型(IP-DCFNN);
所述IP-DCFNN由三个部分组成:
模糊逻辑前件部分:所述模糊逻辑前件部分提取输入数据,所述输入数据通过所述模糊逻辑前件部分中的隶属函数的运算从数值转化为一组对于模糊语言标量的隶属度值;
深度卷积计算部分:所述深度卷积部分提取输入规则权重中的隐藏特征,并将隐藏层权重转换为高纬度信息表示;
模糊结果表示部分:所述模糊结果表示部分是用来处理模糊推理中去模糊化的过程。
进一步的,所述隶属函数
Figure BDA0004190591260000021
用于将数值输入数据映射到0和1区间内;
所述输入数据xi为[x1,…,xn]区间内,所述隶属函数
Figure BDA0004190591260000022
将输入数据xi映射到模糊集[低,高]中,其中k=1,...,K且表示模糊语言变量的选择,隶属函数的参数为μ和σ;
所述模糊逻辑前件部分采用Takagi-Sugeno模糊模型来形成
Figure BDA0004190591260000023
Figure BDA0004190591260000024
中描述的模糊规则;
将输入数据的不同维度所生成出的模糊变量进行排列组合来构造规则的前件,通过累乘规则前件中每个模糊变量对应的隶属度,可以得到规则的初始激发强度,所述初始激发强度代表了规则的功能性权重;
第j条规则的初始激发强度由规则前件中所有模糊变量的隶属度计算得到,具体公式为
Figure BDA0004190591260000025
即模糊规则的权重是由每个模糊变量进行“AND”模糊逻辑运算得到。
进一步的,所述深度卷积部分将所述模糊逻辑前件部分生成的初始激发强度作为初始输入,并输出最终的激发强度,其与初始激发强度维度相同;
所述深度卷积计算部分主要由卷积层和全连接层组成;
所述卷积层包括一维卷积层、ReLU激活层和最大池化层;
所述全连接层包括Linear线性层和ReLU激活层;
所述初始输入经过
Figure BDA0004190591260000031
卷积处理被所述一维卷积核扩展到高维,并在所述全连接层中展平到初始维度,其中,/>
Figure BDA0004190591260000032
表示第l层卷积层的中第i个数据单元,/>
Figure BDA0004190591260000033
表示第l层卷积核的第a权重,bl表示该层的偏置;
所述卷积层之后所串联的网络层是全连接的,表示第l层的每个节点都连接到第l-1层的所有节点,参数w代表连接权重,b代表节点的偏置,所述神经网络的前馈传播的公式为
Figure BDA0004190591260000034
在所述卷积层之后所串联的网络层中,激活函数定义为σ(x)=1/(1+e-x),采用一维卷积来处理输入的激发强度。
进一步的,所述模糊结果表示部分对于所述深度卷积计算部分中输出的最终激发强度[W′1,W′2,...,W′N],使用归一化算法计算归一化权重并表示出每个规则的激活等级;
所述归一算法的公式为
Figure BDA0004190591260000035
其中,/>
Figure BDA0004190591260000036
表示规则j的归一化激发强度并且代表该规则对总权重的贡献;
模糊规则的后件部分是输入数据的线性组合,表示为
Figure BDA0004190591260000037
而/>
Figure BDA0004190591260000038
即为第j条规则的后件参数;
总输出Z定义为所有规则输出的加权和,具体公式为
Figure BDA0004190591260000039
Figure BDA0004190591260000041
其中,每个规则的权重指的是此规则归一化后的激发强度;
对于后续参数
Figure BDA0004190591260000042
的计算,使用最小二乘估计器(LSE)来获得优化结果,令/>
Figure BDA0004190591260000043
且θ=[θ1,θ2,...,θN]T,令F=[f1,f2,...,fN],并设估计误差为e,则可得Z的修正公式为Z=Fθ+e,其结果的均方误差函数在
Figure BDA0004190591260000044
中定义,其中m表示数据集的长度,而yt表示数据集的第t个数据的实际标签,/>
Figure BDA0004190591260000045
表示来自数据集的第t个输入数据;
优化目标为最小化平方误差,当将
Figure BDA0004190591260000046
代入Z=Fθ+e时,可以用LSE拟合数据并得到F中的后件参数。
进一步的,模糊结果表示部分输出预测结果
Figure BDA0004190591260000047
使用均方误差(MSE)来计算损失值并使用反向传播算法(GD)更新IP-FDCNN的参数,损失函数为/>
Figure BDA0004190591260000048
相对于现有技术,本发明具有以下优势:
本发明所述的面向医疗数据的深度卷积模糊神经网络,通过在设有模糊推理***的基础上加入深度神经网络的理念来达到既有可解释性又能处理高维数据的能力,具体来说,本发明将模糊推理***的模糊化与去模糊化的部分使用网络架构表现,并在模糊化与去模糊化的中间***深度卷积计算的功能模块,通过此功能模块中深度卷积网络的高纬度数据映射和处理能力,提升整个模型***的数据处理能力。虽然深度卷积部分的隐藏权重仍然由于神经网络的拓扑限制不能很好解释,但是模糊化和去模糊化的部分可以提取出较为丰富的规则库和隶属度信息,从而达到不损失***可解释性的情况下提升***处理数据的能力。
本发明的另一目的在于提出一种面向医疗数据的深度卷积模糊神经网络的训练方法,通过提出基于网格划分的模糊隶属度参数初始化算法,可以根据数据分布情况自适应的初始化模型中模糊隶属函数的参数,大大提高了训练效率。
为达到上述目的,本发明的技术方案是这样实现的:
一种面向医疗数据的深度卷积模糊神经网络的训练方法,包括模型参数的初始化和参数的迭代更新两个阶段,所述面向医疗数据的深度卷积模糊神经网络的训练方法采用混合学习方法,具体参数在前馈传播和反向传播过程中通过不同的算法学习更新。
进一步地,面向医疗数据的深度卷积模糊神经网络的训练方法采用的混合学习方法如下:
前件参数位于模糊逻辑前件部分,其初始化算法为网格划分的初始化算法,其更新时机为反向传播,其更新算法为由梯度下降算法;
后件参数位于模糊结果表示部分,其初始化算法为零初始化算法,其更新时机为前馈传播,其更新算法为最小二乘估计算法;
结点权重位于深度卷积计算部分,其初始化算法为He-标准化算法,其更新时机为反向传播,其更新算法为由梯度下降算法;
结点偏置位于深度卷积计算部分,其初始化算法为He-标准化算法,其更新时机为反向传播,其更新算法为由梯度下降算法。
进一步地,模糊逻辑前件部分的前件参数表示为
Figure BDA0004190591260000051
中的各隶属函数中的{μ,σ},其中μ表示模糊中心,σ表示模糊宽度;
初始化前件参数采用基于网格划分的初始化算法(Grid Partition-basedInitialization Algorithm);
所述网格分区(Grid Partition)是一种划分数据空间的方法,它根据每个特征的隶属度函数将输入数据空间划分为与轴平行的网格子空间;
基于网格分区的初始化算法根据网格划分出的预定义分区网格初始化每个隶属函数的参数,对于落在网格中的数据样本,模糊中心μ初始化为此网格中数据的中位数,模糊宽度σ初始化为网格中数据规模的线性近似,其系数来自线性拟合;
深度卷积计算部分的参数是卷积层和全连接层神经元的权重和偏差,其采用He-uniform的算法来初始化参数,具体步骤为:
A、抽取样本形成[-limit,limit]的均匀分布;
B、limit在
Figure BDA0004190591260000061
中计算,/>
Figure BDA0004190591260000062
表示第l层中输入神经元的数量;
模糊结果表示部分的后件参数是对每个规则的输出线性表达中的参数,具体为Rulej
Figure BDA0004190591260000063
Figure BDA0004190591260000064
中规则的结果部分所示;
在训练模型之前对所有后件参数应用简单的零初始化(即模型中所有的后件参数在训练开始时均赋值成0)。
进一步地,IP-DCFNN模型采用混合学习方法训练;
该模型在前馈过程中通过最小二乘估计算法(LSE)更新后件参数,在反向传播过程中通过梯度下降算法(GD)更新前件参数和隐藏层参数;
在反向传播过程中,梯度如
Figure BDA0004190591260000065
所示计算,其中C表示/>
Figure BDA0004190591260000066
中所计算出的损失值,#(n)表示第l层受到第l+1层中节点影响的节点数;
通过计算出的梯度值,再逐层反向更新网络层中节点的权重。
相对于现有技术,本发明具有以下优势:
本发明所述的面向医疗数据的深度卷积模糊神经网络的训练方法通过基于网格划分的模糊隶属度参数初始化算法,可以根据数据分布情况自适应的初始化模型中模糊隶属函数的参数,大大提高了训练效率。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法的结构示意图;
图2为本发明实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法的模糊逻辑前件部分的隶属函数;
图3为本发明实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法的深度卷积计算部分的简要结构;
图4为本发明实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法的深度卷积计算部分的Conv1d层;
图5为本发明实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法的网格划分示意图;
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“背”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面将参考附图并结合实施例来详细说明本发明。
本实施例涉及一种面向医疗数据的深度卷积模糊神经网络及其训练方法,包括基于深度卷积模糊神经网络的医疗数据可解释性预测模型(IP-DCFNN);
如图1所示,IP-DCFNN由三个部分组成:模糊逻辑前件部分:模糊逻辑前件部分提取输入数据,输入数据通过模糊逻辑前件部分中的隶属函数的运算从数值转化为一组对于模糊语言标量的隶属度值;深度卷积计算部分:深度卷积部分提取输入规则权重中的隐藏特征,并将隐藏层权重转换为高纬度信息表示;模糊结果表示部分:模糊结果表示部分是用来处理模糊推理中去模糊化的过程;具体而言,模糊逻辑前件部分和模糊结果表示部分分别作为模型中模糊规则的模糊化和去模糊化工具,而深度卷积计算部分则以高维表示来处理隐藏权重。虽然深度卷积部分的过程大多采用神经网络的架构,隐藏层权重是不可解释的,但我们可以从其他两部分得到可解释的信息,如模糊隶属度、模糊规则和每条规则的触发强度等。因而,该模型可以以可解释的方式处理医学数据,并避免预测准确度的下降。
模糊逻辑前件部分是为了形成模糊if-then规则的基本框架并表示规则中的模糊前件。在这一部分,输入数据将被模糊逻辑提取,输入数据将通过隶属函数的运算从数值转化为一组对于模糊语言标量的隶属度值。
如图2所示,隶属函数μ*(x)用于将数值输入数据映射到0和1区间内的某个值,其表示在限定模糊语言集中的隶属度。对于隶属度函数来说,高斯隶属度函数相对于其他函数形式具有更强的表达能力和更好的表现效果,因此在本实施例提出的模型中,本实施例使用高斯隶属函数来计算隶属度;具体来说,对于[x1,...,xn]中的输入数据xi,利用隶属函数
Figure BDA0004190591260000081
将其映射到模糊集[低,高]中,其中k=1,...,K(K表示模糊集的大小,此处为2)且表示模糊语言变量的选择;隶属函数的参数为μ和σ,它们极大地影响了模糊***的逼近能力,在IP-DCFNN模型中,本实施例应用了基于网格划分的初始化算法来初始化这些参数,并在模型训练期间的每次迭代中通过梯度下降算法更新它们。
模糊逻辑前件部分采用Takagi-Sugeno模糊模型来形成
Figure BDA0004190591260000091
Figure BDA0004190591260000092
中描述的模糊规则(TS规则)。TS Rulej(j=1,...,N and N=Kn)描述了第j条模糊规则的内容。“IF”后面的部分是规则的前件,以模糊语言变量的形式表示每个输入数据,其中xi(i=1,2,...,n)是输入数据,/>
Figure BDA0004190591260000094
是模糊集合中的模糊变量。“THEN”后面的部分是规则的后件,通过输入变量的非模糊化线性组合来表示规则的结果,其中输出fj表示规则j的最终激发强度。
模糊逻辑前件部分可以自适应生成N条规则(这里特指生成规则的前件),其中N=Kn(n是输入数据的维数,K是模糊集的大小),从中可以看出自适应生成的基本方法是将输入数据的不同维度所生成出的模糊变量进行排列组合来构造规则的前件,通过累乘规则前件中每个模糊变量对应的隶属度,可以得到规则的初始激发强度,它代表了规则的功能性权重。正如在
Figure BDA0004190591260000093
中,第j条规则的初始激发强度由规则前件中所有模糊变量的隶属度计算得到,即模糊规则的权重是由每个模糊变量进行“AND”模糊逻辑运算得到。
深度卷积计算部分负责从输入规则权重中提取隐藏特征,并将隐藏层权重转换为高纬度信息表示,以此来表征不同规则之间的隐藏关系。神经网络的复杂结构可以表示非线性关系,大大提高了整个模型的处理能力;具体而言,这部分的简要结构如图3所示,深度卷积部分将模糊逻辑前件部分生成的初始激发强度作为初始输入,并输出最终的激发强度,其与初始激发强度维度相同;深度卷积计算部分主要由卷积层和全连接层组成,数据将在卷积层中被一维卷积核扩展到高维,并在全连接层中展平到初始维度。
输入数据经过
Figure BDA0004190591260000101
卷积处理。/>
Figure BDA0004190591260000102
表示第l层卷积层的中第i个数据单元,/>
Figure BDA0004190591260000103
表示第l层卷积核的第a权重,bl表示该层的偏置。在网络中,激活函数定义为σ(x)=1/(1+e-x)。如图4所示,本实施例采用一维卷积来处理输入的激发强度,从而挖掘输入权重之间的关系;卷积层之后所串联的网络层是全连接的,表示第l层的每个节点都连接到第l-1层的所有节点,参数w代表连接权重,b代表节点的偏置,前馈传播的公式为
Figure BDA0004190591260000104
该层将帮助隐藏权重的维度数量转换为与该部分输入相同的规模,并为下一部分去模糊化做准备。
模糊结果表示部分是用来处理模糊推理中去模糊化的过程,有助于将模糊逻辑的运算中间量转换为模型最终输出的明确结果;对于上一部分输出的最终激发强度[W′1,W′2,...,W′N],此部分使用归一化算法计算归一化权重并表示出每个规则的激活等级。归一化公式如
Figure BDA0004190591260000105
所示,/>
Figure BDA0004190591260000106
表示规则j的归一化激发强度并且意味着该规则对总权重的贡献。从归一化的激发强度,可以解释性地推断出每条规则在规则库的重要性地位。
在上文所描述的TS规则中,模糊规则的后件部分是输入数据的线性组合,表示为
Figure BDA0004190591260000107
而/>
Figure BDA0004190591260000108
即为第j条规则的后件参数;总输出Z定义为所有规则输出的加权和,具体而言,每个规则的权重指的是经
Figure BDA0004190591260000109
规则归一化后的激发强度;如此,在模糊结果表示部分,规则的结果将会形成并且模糊逻辑的中间量将被转化为数值输出,使模型能够给出预测结果;对于后续参数/>
Figure BDA00041905912600001010
的计算,本实施例使用最小二乘估计器(LSE)来获得优化结果;令/>
Figure BDA00041905912600001011
且θ=[θ1,θ2,...,θN]T,令F=[f1,f2,...,fN],并假设估计误差为e,则可得z的修正公式Z=Fθ+e;结果的均方误差函数在
Figure BDA0004190591260000111
中定义,其中,m表示数据集的长度,而yt表示数据集的第t个数据的实际标签,/>
Figure BDA0004190591260000112
表示来自数据集的第t个输入数据;因此,优化目标是最小化平方误差;当将
Figure BDA0004190591260000113
代入Z=Fθ+e时,即可以用LSE拟合数据并得到F中的后件参数;模糊结果表示部分输出预测结果/>
Figure BDA0004190591260000114
本实施例使用均方误差(MSE)来计算损失值并使用反向传播算法(GD)更新IP-FDCNN的参数,损失函数如/>
Figure BDA0004190591260000115
IP-DCFNN采用混合学习方法,IP-DCFNN模型的训练过程可以分为两个阶段,模型参数的初始化和参数的迭代更新;在训练过程中,部分参数对模型的最终性能起着至关重要的作用,这些参数如表1所示:
Figure BDA0004190591260000116
表1
这些参数分布在IP-DCFNN的三个组成部分中;其中,结果参数(后件参数)在前馈传播过程中由最小二乘估计算法(LSE)更新,而其他参数在反向传播过程中由梯度下降(GD)算法更新;即这些参数在前馈和反向传播等过程中通过不同的算法学习更新。
参数的初始化算法情况如表1所示,模糊逻辑前件部分的前件参数表示为
Figure BDA0004190591260000121
的各隶属函数中的{μ,σ},其中μ表示模糊中心,σ表示模糊宽度;初始化前件参数采用基于网格划分的初始化算法(GridPartition-basedInitializationAlgorithm),具体而言,网格分区(GridPartition)是一种划分数据空间的方法,它根据每个特征的隶属度函数将输入数据空间划分为与轴平行的网格子空间;如图5所示,以两个维度为例,在每个维度上,由模糊集对应的模糊函数将此维度沿轴向平行的方向划分,数据的多个维度的划分将整个数据集分割成了小网格,每个网格分区可以表示模糊变量的一种组合;基于网格分区的初始化算法根据网格划分出的预定义分区网格初始化每个隶属函数的参数;对于落在网格中的数据样本,模糊中心μ初始化为此网格中数据的中位数,模糊宽度σ初始化为网格中数据规模的线性近似,其系数来自线性拟合。
基于前文所述,前件参数的初始化算法步骤为下:
1)将输入空间按照属性特征划分为不同的维度;
2)对每个数据维度,将数据进行排序,并按照对应特征的模糊集合中模糊变量的数量对当前单维特征数据进行等额切分;
3)对每一个切分的数据单元,计算对应的模糊变量的隶属度函数参数(u,θ):
其中,u为当前数据单元中特征数据值的中位数,θ为当前数据单元中特征数据值的最大值与最小值的差值的ρ倍,其中ρ来自隶属度函数计算结果与特征数据分布范围的线性拟合系数。
深度卷积计算部分的参数是卷积层和全连接层神经元的权重和偏差,其采用He-uniform的算法来初始化参数,具体步骤为:
A、抽取样本形成[-limit,limit]的均匀分布;
B、limit在
Figure BDA0004190591260000122
中计算;
Figure BDA0004190591260000123
表示第l层中输入神经元的数量;模糊结果表示部分的结果参数(后件参数)是对每个规则的输出线性表达中的参数,具体为
Figure BDA0004190591260000131
Figure BDA0004190591260000132
中规则的结果部分所示;与其他参数不同的是,结果参数是在前向传播过程中产生的,其依赖于前向传播过程中的单次迭代情况,而与历史迭代无关,即相邻的两次迭代中的后件参数没有直接关系;在训练模型之前对所有后件参数应用简单的零初始化(即模型中所有的后件参数在训练开始时均赋值成0)。
IP-DCFNN模型采用混合学习方法训练;该模型在前馈过程中通过最小二乘估计算法(LSE)更新后件参数,在反向传播过程中通过梯度下降算法(GD)更新前件参数和隐藏层参数;在反向传播过程中,梯度如
Figure BDA0004190591260000133
所示计算,其中C表示/>
Figure BDA0004190591260000134
中所计算出的损失值,#(n)表示第l层受到第l+1层中节点影响的节点数;通过计算出的梯度值,再逐层反向更新网络层中节点的权重。
模型的训练策略如下:
1)通过初始化算法初始化模型参数;
2)通过隶属度函数将输入数据转化为相对于模糊变量的隶属值;
3)通过对模糊变量的排列组合,生成规则库中的所有规则及其初始激发强度;
4)通过卷积计算单元中的卷积核处理初始激发强度,得到最终激发强度;
5)归一化激发强度,并通过最小二乘估计方法计算模糊后件参数;
6)通过模糊后件中的输入线性计算函数计算最终的结果程度值;
7)采用均方误差计算损失值,并计算模糊逻辑前件部分和深度卷积计算部分的梯度值;
8)利用梯度下降算法更新模糊前件参数、隐藏层参数(结点权重、结点偏置)。
本实施例所述的面向医疗数据的深度卷积模糊神经网络及其训练方法在模糊推理***的基础上加入深度神经网络的理念来达到既有可解释性又能处理高维数据的能力,具体来说,将模糊推理***的模糊化与去模糊化的部分使用网络架构表现,并在模糊化与去模糊化的中间***深度卷积计算的功能模块,通过此功能模块中深度卷积网络的高纬度数据映射和处理能力,提升整个模型***的数据处理能力;虽然深度卷积部分的隐藏权重仍然由于神经网络的拓扑限制不能很好解释,但是模糊化和去模糊化的部分可以提取出较为丰富的规则库和隶属度信息,从而达到不损失***可解释性的情况下提升***处理数据的能力。
同时,通过提出基于网格划分的模糊隶属度参数初始化算法,可以根据数据分布情况自适应的初始化模型中模糊隶属函数的参数,避免了针对模糊推理***部分的参数初始化会很大影响得带效果和最终能力的情况,大大提高了训练效率。
本模型通过结合模糊推理网络与深度卷积计算单元,面向患者医疗数据进行针对性处理,模型中的卷积单元通过对模糊规则权重的高维映射计算,能够进一步挖掘医疗数据中患者生理信息中的关联信息和潜在特征表达,因此本模型更有利于推理分析患者医疗数据相关的任务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种面向医疗数据的深度卷积模糊神经网络,其特征在于:包括基于深度卷积模糊神经网络的医疗数据可解释性预测模型(IP-DCFNN);
所述IP-DCFNN由三个部分组成:
模糊逻辑前件部分:所述模糊逻辑前件部分提取输入数据,所述输入数据通过所述模糊逻辑前件部分中的隶属函数的运算从数值转化为一组对于模糊语言标量的隶属度值;
深度卷积计算部分:所述深度卷积部分提取输入规则权重中的隐藏特征,并将隐藏层权重转换为高纬度信息表示;
模糊结果表示部分:所述模糊结果表示部分是用来处理模糊推理中去模糊化的过程。
2.根据权利要求1所述的面向医疗数据的深度卷积模糊神经网络,其特征在于:
所述隶属函数
Figure FDA0004190591250000011
用于将数值输入数据映射到0和1区间内;
所述输入数据xi为[x1,...,xn]区间内,所述隶属函数
Figure FDA0004190591250000012
将输入数据xi映射到模糊集[低,高]中,其中k=1,...,K且表示模糊语言变量的选择,隶属函数的参数为μ和σ;
所述模糊逻辑前件部分采用Takagi-Sugeno模糊模型来形成Rulei:IF x1 is
Figure FDA0004190591250000013
x2 is
Figure FDA0004190591250000014
…xn is/>
Figure FDA0004190591250000015
THEN
Figure FDA0004190591250000016
中描述的模糊规则;
将输入数据的不同维度所生成出的模糊变量进行排列组合来构造规则的前件,通过累乘规则前件中每个模糊变量对应的隶属度,可以得到规则的初始激发强度,所述初始激发强度代表了规则的功能性权重;
第j条规则的初始激发强度由规则前件中所有模糊变量的隶属度计算得到,具体公式为
Figure FDA0004190591250000021
即模糊规则的权重是由每个模糊变量进行“AND”模糊逻辑运算得到。
3.根据权利要求2所述的面向医疗数据的深度卷积模糊神经网络,其特征在于:
所述深度卷积部分将所述模糊逻辑前件部分生成的初始激发强度作为初始输入,并输出最终的激发强度,其与初始激发强度维度相同;
所述深度卷积计算部分主要由卷积层和全连接层组成;
所述卷积层包括一维卷积层、ReLU激活层和最大池化层;
所述全连接层包括Linear线性层和ReLU激活层;
所述初始输入经过
Figure FDA0004190591250000022
卷积处理被所述一维卷积核扩展到高维,并在所述全连接层中展平到初始维度,其中,/>
Figure FDA0004190591250000023
表示第l层卷积层的中第i个数据单元,
Figure FDA0004190591250000024
表示第l层卷积核的第a权重,bl表示该层的偏置;
所述卷积层之后所串联的网络层是全连接的,表示第l层的每个节点都连接到第l-1层的所有节点,参数w代表连接权重,b代表节点的偏置,所述神经网络的前馈传播的公式为
Figure FDA0004190591250000025
在所述卷积层之后所串联的网络层中,激活函数定义为σ(x)=1/(1+e-x),采用一维卷积来处理输入的激发强度。
4.根据权利要求3所述的面向医疗数据的深度卷积模糊神经网络,其特征在于:
所述模糊结果表示部分对于所述深度卷积计算部分中输出的最终激发强度[W′1,W′2,...,W′N],使用归一化算法计算归一化权重并表示出每个规则的激活等级;
所述归一算法的公式为
Figure FDA0004190591250000031
其中,/>
Figure FDA0004190591250000032
表示规则j的归一化激发强度并且代表该规则对总权重的贡献;
模糊规则的后件部分是输入数据的线性组合,表示为
Figure FDA0004190591250000033
Figure FDA0004190591250000034
即为第j条规则的后件参数;
总输出Z定义为所有规则输出的加权和,具体公式为
Figure FDA0004190591250000035
Figure FDA0004190591250000036
其中,每个规则的权重指的是此规则归一化后的激发强度;
对于后续参数
Figure FDA0004190591250000037
的计算,使用最小二乘估计器(LSE)来获得优化结果,令/>
Figure FDA0004190591250000038
且θ=[θ1,θ2,...,θN]T,令F=[f1,f2,...,fN],并设估计误差为e,则可得Z的修正公式为Z=Fθ+e,其结果的均方误差函数在
Figure FDA0004190591250000039
中定义,其中m表示数据集的长度,而yt表示数据集的第t个数据的实际标签,/>
Figure FDA00041905912500000310
表示来自数据集的第t个输入数据;
优化目标为最小化平方误差,当将
Figure FDA00041905912500000311
代入Z=Fθ+e时,可以用LSE拟合数据并得到F中的后件参数。
5.根据权利要求4所述的面向医疗数据的深度卷积模糊神经网络,其特征在于:
模糊结果表示部分输出预测结果
Figure FDA00041905912500000312
使用均方误差(MSE)来计算损失值并使用反向传播算法(GD)更新IP-FDCNN的参数,损失函数为/>
Figure FDA0004190591250000041
6.一种面向医疗数据的深度卷积模糊神经网络的训练方法,其特征在于:
包括模型参数的初始化和参数的迭代更新两个阶段,所述面向医疗数据的深度卷积模糊神经网络的训练方法采用混合学习方法,具体参数在前馈传播和反向传播过程中通过不同的算法学习更新。
7.根据权利要求6所述的面向医疗数据的深度卷积模糊神经网络的训练方法,其特征在于:面向医疗数据的深度卷积模糊神经网络的训练方法采用的混合学习方法如下:
前件参数位于模糊逻辑前件部分,其初始化算法为网格划分的初始化算法,其更新时机为反向传播,其更新算法为由梯度下降算法;
后件参数位于模糊结果表示部分,其初始化算法为零初始化算法,其更新时机为前馈传播,其更新算法为最小二乘估计算法;
结点权重位于深度卷积计算部分,其初始化算法为He-标准化算法,其更新时机为反向传播,其更新算法为由梯度下降算法;
结点偏置位于深度卷积计算部分,其初始化算法为He-标准化算法,其更新时机为反向传播,其更新算法为由梯度下降算法。
8.根据权利要求7所述的面向医疗数据的深度卷积模糊神经网络的训练方法,其特征在于:
模糊逻辑前件部分的前件参数表示为
Figure FDA0004190591250000042
中的各隶属函数中的{μ,σ},其中μ表示模糊中心,σ表示模糊宽度;
初始化前件参数采用基于网格划分的初始化算法(Grid Partition-basedInitialization Algorithm);
所述网格分区(Grid Partition)是一种划分数据空间的方法,它根据每个特征的隶属度函数将输入数据空间划分为与轴平行的网格子空间;
基于网格分区的初始化算法根据网格划分出的预定义分区网格初始化每个隶属函数的参数,对于落在网格中的数据样本,模糊中心μ初始化为此网格中数据的中位数,模糊宽度σ初始化为网格中数据规模的线性近似,其系数来自线性拟合;
深度卷积计算部分的参数是卷积层和全连接层神经元的权重和偏差,其采用He-uniform的算法来初始化参数,具体步骤为:
A、抽取样本形成[-limit,limit]的均匀分布;
B、limit在
Figure FDA0004190591250000051
中计算,/>
Figure FDA0004190591250000052
表示第l层中输入神经元的数量;
模糊结果表示部分的后件参数是对每个规则的输出线性表达中的参数,具体为Rulej:IF x1 is
Figure FDA0004190591250000053
x2 is/>
Figure FDA0004190591250000054
…xn is/>
Figure FDA0004190591250000055
THEN
Figure FDA0004190591250000056
中规则的结果部分所示;
在训练模型之前对所有后件参数应用简单的零初始化(即模型中所有的后件参数在训练开始时均赋值成0)。
9.根据权利要求8所述的面向医疗数据的深度卷积模糊神经网络的训练方法,其特征在于:
IP-DCFNN模型采用混合学习方法训练;
该模型在前馈过程中通过最小二乘估计算法(LSE)更新后件参数,在反向传播过程中通过梯度下降算法(GD)更新前件参数和隐藏层参数;
在反向传播过程中,梯度如
Figure FDA0004190591250000057
所示计算,其中C表示/>
Figure FDA0004190591250000058
中所计算出的损失值,#(n)表示第l层受到第l+1层中节点影响的节点数;
通过计算出的梯度值,再逐层反向更新网络层中节点的权重。
CN202310431951.3A 2023-04-21 2023-04-21 面向医疗数据的深度卷积模糊神经网络及其训练方法 Pending CN116384450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310431951.3A CN116384450A (zh) 2023-04-21 2023-04-21 面向医疗数据的深度卷积模糊神经网络及其训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310431951.3A CN116384450A (zh) 2023-04-21 2023-04-21 面向医疗数据的深度卷积模糊神经网络及其训练方法

Publications (1)

Publication Number Publication Date
CN116384450A true CN116384450A (zh) 2023-07-04

Family

ID=86975046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310431951.3A Pending CN116384450A (zh) 2023-04-21 2023-04-21 面向医疗数据的深度卷积模糊神经网络及其训练方法

Country Status (1)

Country Link
CN (1) CN116384450A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272233A (zh) * 2023-11-21 2023-12-22 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272233A (zh) * 2023-11-21 2023-12-22 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质
CN117272233B (zh) * 2023-11-21 2024-05-31 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN106600059B (zh) 基于改进rbf神经网络的智能电网短期负荷预测方法
Ebadzadeh et al. IC-FNN: a novel fuzzy neural network with interpretable, intuitive, and correlated-contours fuzzy rules for function approximation
Puchalsky et al. Agribusiness time series forecasting using Wavelet neural networks and metaheuristic optimization: An analysis of the soybean sack price and perishable products demand
Ivakhnenko et al. The review of problems solvable by algorithms of the group method of data handling (GMDH)
CN110647980A (zh) 一种基于gru神经网络的时间序列预测方法
CN114399032B (zh) 一种电能表计量误差预测方法及***
Han et al. An improved fuzzy neural network based on T–S model
CN113159389A (zh) 一种基于深度森林生成对抗网络的金融时间序列预测方法
CN116384450A (zh) 面向医疗数据的深度卷积模糊神经网络及其训练方法
de Campos Souza et al. Fuzzy neural networks based on fuzzy logic neurons regularized by resampling techniques and regularization theory for regression problems
CN110874374A (zh) 基于粒度直觉模糊认知图的在线时间序列预测方法及***
CN113836823A (zh) 一种基于负荷分解和优化双向长短期记忆网络的负荷组合预测方法
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
CN113298131B (zh) 一种基于注意力机制的时序数据缺失值插补方法
Liu et al. An RBF neural network based on improved black widow optimization algorithm for classification and regression problems
CN113887717A (zh) 一种基于深度学习预测神经网络训练时长的方法
Sa’ad et al. A structural evolving approach for fuzzy systems
Li et al. Bayesian robust multi-extreme learning machine
CN113128666A (zh) 基于Mo-S-LSTMs模型的时间序列多步预测方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理***
Springer et al. Robust parameter estimation of chaotic systems
CN111524348A (zh) 一种长短期交通流预测模型及方法
CN116632834A (zh) 一种基于SSA-BiGRU-Attention的短期电力负荷预测方法
Espinós Longa et al. Swarm Intelligence in Cooperative Environments: Introducing the N-Step Dynamic Tree Search Algorithm
CN115081323A (zh) 求解多目标约束优化问题的方法及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination