CN114239738B - 小样本的医疗数据分类方法及相关设备 - Google Patents

小样本的医疗数据分类方法及相关设备 Download PDF

Info

Publication number
CN114239738B
CN114239738B CN202111574162.2A CN202111574162A CN114239738B CN 114239738 B CN114239738 B CN 114239738B CN 202111574162 A CN202111574162 A CN 202111574162A CN 114239738 B CN114239738 B CN 114239738B
Authority
CN
China
Prior art keywords
attribute
evidence
sample
category
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111574162.2A
Other languages
English (en)
Other versions
CN114239738A (zh
Inventor
孙建彬
王小燕
赵青松
游雅倩
赵蕊蕊
剧伦豪
姜江
杨克巍
葛冰峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111574162.2A priority Critical patent/CN114239738B/zh
Publication of CN114239738A publication Critical patent/CN114239738A/zh
Application granted granted Critical
Publication of CN114239738B publication Critical patent/CN114239738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/257Belief theory, e.g. Dempster-Shafer

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种小样本的医疗数据分类方法及相关装置;包括:确定医疗数据集中样本的属性和类别,为每个属性设置参考值、参考证据和参考证据权重;对于每个属性,计算费希尔得分、皮尔逊相关系数和互信息,并进行融合,得到关于该属性的参考证据的可靠性因子;根据该属性和该属性对应的参考值,构成在属性与全部类别之间的相似度分布,根据相似度分布构建该属性的参考证据矩阵;利用相似度分布和参考证据矩阵,对属性的参考证据进行加权,得到属性的属性证据,并对属性的参考证据的参考证据权重进行加权,得到属性的属性证据权重,利用可靠性因子和属性证据权重对全部属性证据进行融合,根据融合结果对样本进行分类决策。

Description

小样本的医疗数据分类方法及相关设备
技术领域
本申请的实施例涉及数据处理的技术领域,尤其涉及一种小样本的医疗数据分类方法及相关设备。
背景技术
在现有的医疗数据分类中,例如多导睡眠图评估方法,多利用大量不同的监测信号作为数据的多个特征或属性,并基于每个特征所产生的数值对睡眠健康进行评估,但在实际应用中,大量的监测信号来自于对身体不同部位进行监测,并使用不同的特殊一起,这往往意味着需要病患付出大量的成本,并且很多信号数据的监测过程需要在特殊的场所进行,这带来的监测成本和数据分析成本十分高昂,但少量的监测数据所形成的样本数量小,数据分类难以精确。
基于此,需要一种能够实现在有限数据的基础上,对医疗数据进行有效分类的方案。
发明内容
有鉴于此,本申请的目的在于提出一种小样本的医疗数据分类方法及相关设备。
基于上述目的,本申请提供了小样本的医疗数据分类方法,包括:
确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,为每个所述属性匹配多个参考值,并为每个所述参考值赋予对应的参考证据,为每个所述参考证据赋予对应的参考证据权重;
对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息;
对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子;
对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵;
对于每个所述属性,根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策。
进一步地,还包括:
基于对样本进行分类决策的结果,得到对所述医疗数据集的分类准确度;
对于每个所述属性的全部所述参考值,去除边界位置的两个所述参考值;
利用剩余的所述参考值和全部所述参考权重构建参数分布矩阵;
利用所述参数分布矩阵构建约束条件;
采取遗传算法,并基于所述约束条件,将所述分类准确度作为优化目标,构建优化模型,对所述参考值和所述参考权重进行全局性的迭代优化。
进一步地,对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,包括:
对于每个所述属性,计算该属性在全部所述类别中的类间均值、该属性在每个所述类别中的类内均值和类内方差;
利用所述类间均值、类内均值和类内方差计算所述费希尔得分;
对于每个所述属性,计算该属性与每个所述类别的协方差、该属性在全部所述类别中的类间方差,对于每个所述类别,计算该类别的类别方差;
利用所述协方差、所述类间方差和所述类别方差计算每个所述属性与每个所述类别之间的的所述皮尔逊相关系数;
对于每个所述属性和每个所述类别,利用该属性的值域和该类别的值域计算该属性和该类别之间的互信息。
进一步地,对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子,包括:
对于每个所述属性,执行如下操作:
对所述费希尔得分、所述皮尔逊相关系数和所述互信息的计算结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性;
将所述属性可靠性等价为关于该属性的所述参考证据的所述可靠性因子。
进一步地,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,包括:
在每个所述样本上,对于每个所述属性中的每个所述参考值,计算该参考值与相邻的另一所述参考值的第一差值;并计算该属性与相邻的另一所述参考值的第二差值;根据所述第一差值与所述第二差值的比例确定该属性与该参考值的匹配度;
基于该属性,利用全部所述参考值的所述匹配度,和全部所述类别构成所述相似度分布。
进一步地,利用全部所述参考值的所述匹配度,和全部所述类别构成所述相似度分布,包括:
对于每个所述类别,在全部所述样本中,计算属于同一所述属性和同一所述参考值的所述匹配度之和,作为所述相似度分布的第一参数;
对于每个所述类别,在全部所述样本中,计算全部所述属性的所述第一参数之和,作为所述相似度分布的第二参数;
利用所述第一参数、所述第二参数和所述匹配度构成所述相似度分布。
进一步地,根据所述相似度分布构建该属性的参考证据矩阵,包括:
在所述类别确定的情况下,对于每个所述属性所匹配的每个所述参考值,根据所述相似度分布中的所述第一参数和所述第二参数的比例,构造将该属性取值为该参考值的似然;
通过对每个类别分别进行规范化的似然,得到每个所述参考证据判定所述样本时的参考证据信度;
在所述属性确定的情况下,根据该属性的每个所述参考证据的所述参考证据信度和所述类别,构造所述参考证据矩阵。
进一步地,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,包括:
基于所述参考证据矩阵的分布,响应于确定该属性取值在两个相邻的所述参考值之间,根据所述两个参考值的所述匹配度和所述参考证据信度,得到该属性的证据信度;根据所述两个参考值的所述匹配度和所述参考证据权重,得到该属性的所述属性证据权重;
将所述属性证据权重、所述证据信度和所述可靠性因子结合,得到该属性的属性证据。
进一步地,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策,包括:
对于每个所述属性证据,依据证据推理规则中的融合规则,利用所述可靠性因子和所述属性证据权重对该样本的全部属性证据进行融合,得到该属性证据将该样本判定为各个所述类别的判别信度;
将最大的所述判别信度所对应的所述类别作为该样本的类别,以对所述医疗数据集中各所述样本进行分类决策。
基于同一发明构思,本申请还提供了一种小样本的医疗数据分类装置,与存储有医疗数据集的数据库连接,包括:预处理模块、可靠性因子模块、参考证据矩阵模块和分类决策模块;
其中,所述预处理模块,被配置为确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,为每个所述属性匹配多个参考值,并为每个所述参考值赋予对应的参考证据,为每个所述参考证据赋予对应的参考证据权重;
所述可靠性模块,被配置为对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息;对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子;
所述参考证据模块,被配置为对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵;
所述分类决策模块,被配置为对于每个所述属性,根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的小样本的医疗数据分类方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述小样本的医疗数据分类方法。
从上面所述可以看出,本申请提供的小样本医疗数据分类方法及相关设备,基于数据的属性、类别,综合考虑了费希尔得分、皮尔逊相关系数和互信息,来对属性可靠性,也即参考证据可靠性因子进行多准则评价,并进一步通过构建相似度分布和参考证据矩阵的方式,建立类别与参考值之间的联系,并采取对参考证据加权的方式获取属性证据,使得属性证据更加可靠,实现了对分类时各个参数的优化,提高了对小样本数据的分类准确率,从而实现依靠少量的监测数据,对睡眠健康的状态进行精确有效地分类。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的小样本的医疗数据分类方法的流程图;
图2为本申请实施例的小样本的医疗数据分类装置模块示意图;
图3为本申请实施例的待优化参数的参数分布矩阵示意图;
图4为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请的实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如背景技术部分所述,相关的小样本的医疗数据分类方法还难以满足实际应用的需要。
申请人在实现本申请的过程中发现,相关的小样本医疗数据分类方法存在的主要问题在于:一些典型的医疗数据,由于各种原因,往往难以获取大量的有效数据样本,例如多导睡眠图评估,需要记录大量的数据,但在更多情况时,由于病患对身体需要进行多处,多类信号的监测,并且需要在特殊的场所进行,成本十分高昂,难以负担,少部分数据的测量可以借助日常的穿戴设备进行,但由于以此获取的数据样本小,少量监测所得到的小样本数据,难以产生准确的分类效果。
在相关技术中,通常将样本数量小于等于预定的有限数量的数据集作为小样本条件的数据集,例如,预定的有限数量为30个、40、50等,具体的数量可根据实际情况或者具体经验进行更改或设定。
对于小样本数据集的数据分类或数据处理等操作必须使用统计量的精确分布来进行统计推断,这也是当前处理小样本数据的困难之处。
可以理解的是,小样本条件是相对于“大样本”而言样本数量较少的情况,而非必须以30个样本数量作为限定,例如,相对于千万条数据持有量的大样本数据集而言,100个或200个样本的数据集依然可以看作是小样本数据集,进而需要采取更加精确的数据处理方式。
容易理解的是,对于小样本条件下的数据分类方法同样也可以适用于“大样本”数据集,而“大样本”条件下的数据处理方法,由于精确度不够高,而难以适用于小样本条件下的数据处理。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
以下,通过具体的实施例,来详细说明本申请的技术方法。
参考图1,本申请一个实施例的小样本的医疗数据分类方法,包括以下步骤:
步骤S101、确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,为每个所述属性匹配多个参考值,并为每个所述参考值赋予对应的参考证据,为每个所述参考证据赋予对应的参考证据权重。
在本申请的实施例中,以人类睡眠健康监测作为具体的示例,在人类睡眠健康的监测技术中,多采用PSG(多导睡眠图)作为评估手段,其中,PSG需要通过多个传感器监测患者的多项体征,以得到关于被监测患者睡眠状态的多项信号,例如在每次监测得到的一个数据样本中,可以包括患者的呼吸节律、心率、脑电图、心电图、眼电图、肌电图、SPO2(脉搏氧饱和度)和HR(心率)等十几项体征,并在每次测量得到的数据中,将上述的多项信号作为该次测量得到的数据样本的多个属性,依据上述的十多项属性,来推断患者处于深度入睡、浅度入睡或清醒等睡眠状态。
在本实施例中,可以将采集的患者数据作为医疗数据集,将每次采集的患者数据作为该医疗数据集中的一个数据样本,在本申请中也简称样本,将深度入睡、浅度入睡和清醒等睡眠状态作为对样本进行分类的多个类别。
在本实施例中,该医疗数据集中的样本具备初始分类的类别,但由于在实际监测存在各种条件的限制,所监测到的可用样本数量往往很少,难以做到对样本的精确分类,也就是说该医疗数据集所具备的初始分类的类别会存在着较大误差,在本实施例中,将在该医疗数据集的样本具备初始分类的情况下,再次对数据量小的小样本医疗数据集进行精确分类。
首先,设定医疗数据集中具备K个样本,并且为了描述方便,将每个样本具备的上述多个属性设定为M个属性:x={x1,x2,...,xM},医疗数据集所具备的多个类别设定为N个类别:Θ={y1,y2,...,yn,...,yN},其中yn是第n个类别,则一个样本向量可以表示为:x={(x1,x2,...,xM),yn},并且能够被分解为M个样本对{(xi,yn),i=1,2,...,M}。
进一步地,还需要对每个属性设置多个参考值,在本实施例中,将各个属性的参考值个数均设置为6个,并表示为:其中,i表示第i个属性,Ji=6,i=1,2,...,M。
进一步地,为每个参考值设置一个对应的参考证据,将下述计算得到的属性可靠性,作为关于该属性的参考证据的可靠性因子,并为每个参考证据设置一个参考证据权重。
其中,对于参考证据权重的取值,可以是在考虑多个因素之后认为主观决定的,目的是反映该参考证据权重所对应的参考证据与其他参考证据相比较的相对重要性。
步骤S102、对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息;对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子。
在本申请的实施例中,对于该医疗数据集中的每个属性,需要计算其属性可靠性,在本实施例中,采用了多准则评价的方式对属性进行评价,将评价的结果进行融合,作为该属性的属性可靠性,并进一步地,将该属性的可靠性,等价为下述关于该属性的参考证据的可靠性因子。
具体地,需要确定单独依据该属性直接判定隶属于各个类别的样本及其数量,并对于每个属性,计算其Fisher(费希尔)得分、Pearson(皮尔逊)相关系数和互信息。
对于Fisher得分的计算,可以采取如下的公式进行:
其中,xi表示在M个属性中的第i个属性,N表示该医疗数据集所具备的N个类别;nj表示在第j(j=1,2,...,N)个类别中样本的个数;μj表示第j类样本中属性xi的类内均值;σj表示和第j类样本中属性xi的类内方差,μ表示属性xi在全部类别中的类间均值;当Fisher得分越大,则属性的类间距离越大且类内距离越小,意味着此种属性会使证据推理分类器具有更高的分类准确度。
对于Pearson相关系数的计算,可以采取如下的公式进行:
其中,Cov(xi,y)表示属性xi与类别y的协方差,Var(xi)表示基于全部类别时,属性xi的类间方差,Var(y)表示类别y的类别方差。
进一步地,Pearson相关系数的数值介于0到1之间,数值越大,则表明该属性与该类别之间的相关性越强,若数值为0,则表明该属性与该类别无线性相关关系;其中,若上述公式的绝对值内的数值大于零,则表明该属性与该特征为正相关,若上述公式的绝对值内的数值小于零,则表明该属性与该特征为负相关。
对于互信息的计算,可以采取如下的公式进行:
其中,基于给定数据集的样本数为K,属性个数为M,用x1,x2,...,xm表示,y表示样本的类别,特征xi的值域为Vi,y的值域为Vy,其中p(vi,vy)表示属性xi的取值为vi且类别y的取值为vy的概率。I(xi,y)的值越大,表示特征xi与类别y的关联度越大。
进一步地,对于每个属性,对计算得到的费希尔得分、皮尔逊相关系数和互信息的结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性。
具体地,对于给定的属性,计算得到的费希尔得分、皮尔逊相关系数和互信息的结果表示为:
其中,pi,j表示第i个评价准则计算的第j个属性的结果,M为属性个数,S1、S2和S3分别表示该属性的费希尔得分、皮尔逊相关系数和互信息的计算结果。
进一步地,采取如下所示的公式,对费希尔得分、皮尔逊相关系数和互信息的计算结果进行归一化处理:
其中ri,j表示第i个评价准则计算的第j个属性的结果,并可以将其进一步表示为:
其中,R1、R2和R3分别表示该属性的费希尔得分、皮尔逊相关系数和互信息在经过归一化处理后的计算结果。
进一步地,由于每个单一准则有其特有的排序打分规则,因此,融合各个评价准则得到的结果才能全面多方位地衡量属性的可靠性,具体地,采用如下公式,对三个评价准则的结果进行融合:
其中,rj表示M个属性中第j个属性的属性可靠性。
在本实施例中,可以将该属性的可靠性等价于参考证据的可靠性因子。
步骤S103、对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵。
在本申请的实施例中,对于每个属性,采用如下所示的匹配度计算公式可以得到该属性与其每个参考值的相似度:
αi,j'=0,j'=1,...Ji,j'≠j,j+1
其中,αi,j表示第k个样本的M个属性中的第i个属性的值与该属性的第j个参考值/>的匹配度,该匹配度描述了属性/>与参考值/>之间的相似程度。
具体地,如上述公式所示,在每个样本上,对于每个属性中的每个参考值,计算该参考值与相邻的另一参考值的第一差值;并计算该属性与相邻的另一参考值的第二差值;根据第一差值与第二差值的比例确定该属性与该参考值的匹配度。
由于参考值的介入,可以将属性xi和类别y的关系近似地转化为属性xi的具体参考值和类别y之间的关系,结合上述的匹配度,可以进一步将医疗数据集中的样本对(xi,y)转换并且唯一地表示为如下表1所示的类别y的一个相似度分布:
表1样本对(xi,y)在属性xi上的相似度分布
其中,an,j是属性值与参考值/>可以计算匹配度且属于yn类的所有样本对的匹配度之和,将其作为第一参数。
是属于类别yn的样本对的所有参考值的匹配度之和,将其作为第二参数。
是在参考值/>确定的情况下,对于属性值/>在样本对的所有类别中与参考值/>的匹配度之和,将其作为第三参数,并且有/>
由第一参数,第二参数和第三参数共同构成了如上所示的相似度分布。
根据表1可知,在类别确定的情况下,可以构造我们可以构造属性xi的值为参考值的似然,记为cn,j
进一步地,可以将每个参考值的参考证据定义为:当属性xi的值取参考值/>时,将样本判定为类别yn的参考证据信度为/>并且,将上述属性的可靠性等价为参考证据的可靠性因子/>
进一步地,参考证据的参考证据信度/>可以利用如下公式,通过规范化的似然求得:
进一步地,根据上述计算,对于每个属性xi,均可以得到如表2所示的关于该属性的参考证据矩阵:
表2属性xi的参考证据矩阵
步骤S104、对于每个所述属性,根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策。
在本申请的实施例中,依据参考证据矩阵的分布,对于本实施例中具有M个属性的第k个样本:若其第i个属性/>取值在区间/>内,则将激活与参考值/>和/>对应的两个在参考证据矩阵中相邻的参考证据/>和/>并进行加权,以计算该属性的属性证据。
具体的,如下公式所示,利用该属性与两个参考值的匹配度,以及两个参考证据的参考证据信度完成参考证据和/>的加权:
其中,得到的结果pn,i表示:在的取值在区间/>内,也即激活/>和/>的情况下,该样本k的类别被认为是yn的证据信度,也即关于属性/>的属性证据ei的证据信度。
进一步地,对于参考证据和/>的参考证据权重/>与/>采取如下所示的公式,以相同的方式进行加权:
其中,得到的结果wi表示:关于属性的属性证据ei的属性证据权重。
将上述计算得到的关于该属性的属性可靠性等价为该属性证据的可靠性因子,结合该属性证据的属性证据权重,可靠性因子和证据信度,得到完整的属性证据ei
进一步地,根据上述方式,可以获得M个属性的所有M条属性证据:e1,e2,...,eM
进一步地,基于证据推理规则中的融合规则,结合属性证据权重和可靠性因子对M条属性证据进行融合。
其中,相互独立的两属性条证据e1和e2可通过证据推理融合规则进行融合,并得到e1和e2联合共同支持命题θ的信度函数pθ,e(2),计算方法如式所示:
当M条证据进行融合时,联合支持命题θ的信度函数mθ,e(i)也可表示为:
结合属性证据权重和可靠性因子对M条证据进行融合后,得到关于样本类别的如下融合函数,并将其作为分类器,以对医疗数据集进行分类:
P(xk)={(yn,pn,e(M)),n=1,...,N}
其中,yn表示第n个类别,pn,e(M)表示样本属于类别yn的信度,根据融合后的结果P(xk),判断样本xk类别为最大信度pn,e(m)对应的类别yn
在本申请的实施例中,基于上述构建的分类器,可以直接使用该分类器对医疗数据中的样本进行分类,还可以根据需求,进一步对包括参考值和参考证据权重在内的参数进行全局性的参数优化。
具体地,对于每个属性而言,根据其相似度分布,确定其左右边界参考值和/>可以理解的是,参考值/>和/>的值是由样本k中属性i的最小值和最大值确定,即分别为和/>
因此,在待优化参数中,可以将边界参考值去掉,参考值和参考证据权重可以表示为:
在不考虑结构性优化,只对参数进行优化的情况下,又基于在本实施例中各个属性的参考值个数均为固定的6个,也即,Ji=6,i=1,2,...,M,因此,对于每个属性,其待优化参数的个数可以采用如下公式表达:
M×(Ji-2)+M×Ji=10M
进一步地,为全部属性构建如图3所示的参数分布矩阵,可以得知,图3的参数分布矩阵中,每行表示了对于每个属性,其待优化参数包括:4M个参考值,和6M个参考证据权重,其中,M表示属性个数。
进一步地,基于参考证据权重的取值均在0-1之间,利用上述的参数分布矩阵为待优化参数构建必要的约束条件:
进一步地,为待优化参数构建优化模型,具体地,将参考值和参考证据权重的分类准确度作为优化目标,则带有约束条件的优化模型可以表示为:
其中,totalNum表示参与分类操作的样本总数,rightNum表示分类正确的样本数量,进一步采取单目标遗传算法,通过对参考值和参考证据权重的迭代来实现对其全局性的优化。
可见,本申请提供的小样本医疗数据分类方法及相关设备,基于数据的属性、类别,综合考虑了费希尔得分、皮尔逊相关系数和互信息,来对属性可靠性,也即参考证据可靠性因子进行多准则评价,并进一步通过构建相似度分布和参考证据矩阵的方式,建立类别与参考值之间的联系,并采取对参考证据加权的方式获取属性证据,使得属性证据更加可靠,实现了对分类时各个参数的优化,提高了对小样本数据的分类准确率,从而实现依靠少量的监测数据,对睡眠健康的状态进行精确有效地分类。
需要说明的是,本申请的实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请的实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种小样本的医疗数据分类的装置。
参考图2,所述小样本的医疗数据分类装置,与存储有医疗数据集的数据库连接,包括:预处理模块201、可靠性因子模块202、参考证据矩阵模块203和分类决策模块204;
其中,所述预处理模块201,被配置为确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,为每个所述属性匹配多个参考值,并为每个所述参考值赋予对应的参考证据,为每个所述参考证据赋予对应的参考证据权重。
所述可靠性模块202,被配置为对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息;对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子。
所述参考证据模块203,被配置为对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵。
所述分类决策模块204,被配置为对于每个所述属性,根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的小样本的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的小样本的医疗数据分类方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本申请实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的装置用于实现前述任一实施例中相应的小样本的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的小样本的医疗数据分类方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的小样本的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请的实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请的实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请的实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请的实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请的实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种小样本的医疗数据分类方法,其特征在于,应用于存储有医疗数据集的数据库,包括:
确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,为每个所述属性匹配多个参考值,并为每个所述参考值赋予对应的参考证据,为每个所述参考证据赋予对应的参考证据权重;
对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息;
对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子;
对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵;
对于每个所述属性,根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策;
其中,所述对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,包括,
对于每个所述属性,计算该属性在全部所述类别中的类间均值、该属性在每个所述类别中的类内均值和类内方差;
利用所述类间均值、类内均值和类内方差计算所述费希尔得分;
对于每个所述属性,计算该属性与每个所述类别的协方差、该属性在全部所述类别中的类间方差,对于每个所述类别,计算该类别的类别方差;
利用所述协方差、所述类间方差和所述类别方差计算每个所述属性与每个所述类别之间的所述皮尔逊相关系数;
对于每个所述属性和每个所述类别,利用该属性的值域和该类别的值域计算该属性和该类别之间的互信息;
所述对每个所述属性的所述费希尔得分、所述皮尔逊相关系数和所述互信息进行融合,得到关于该属性的所述参考证据的可靠性因子,包括,
对于每个所述属性,执行如下操作:
对所述费希尔得分、所述皮尔逊相关系数和所述互信息的计算结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性;
将所述属性可靠性等价为关于该属性的所述参考证据的所述可靠性因子;
所述根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,包括,
在每个所述样本上,对于每个所述属性中的每个所述参考值,计算该参考值与相邻的另一所述参考值的第一差值;并计算该属性与相邻的另一所述参考值的第二差值;根据所述第一差值与所述第二差值的比例确定该属性与该参考值的匹配度;
基于该属性,利用全部所述参考值的所述匹配度,和全部所述类别构成所述相似度分布。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于对样本进行分类决策的结果,得到对所述医疗数据集的分类准确度;
对于每个所述属性的全部所述参考值,去除边界位置的两个所述参考值;
利用剩余的所述参考值和全部所述参考证据权重构建参数分布矩阵;
利用所述参数分布矩阵构建约束条件;
采取遗传算法,并基于所述约束条件,将所述分类准确度作为优化目标,构建优化模型,对所述参考值和所述参考证据权重进行全局性的迭代优化。
3.根据权利要求1所述的方法,其特征在于,所述利用全部所述参考值的所述匹配度,和全部所述类别构成所述相似度分布,包括:
对于每个所述类别,在全部所述样本中,计算属于同一所述属性和同一所述参考值的所述匹配度之和,作为所述相似度分布的第一参数;
对于每个所述类别,在全部所述样本中,计算全部所述属性的所述第一参数之和,作为所述相似度分布的第二参数;
利用所述第一参数、所述第二参数和所述匹配度构成所述相似度分布。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度分布构建该属性的参考证据矩阵,包括:
在所述类别确定的情况下,对于每个所述属性所匹配的每个所述参考值,根据所述相似度分布中的所述第一参数和所述第二参数的比例,构造将该属性取值为该参考值的似然;
通过对每个类别分别进行规范化的似然,得到每个所述参考证据判定所述样本时的参考证据信度;
在所述属性确定的情况下,根据该属性的每个所述参考证据的所述参考证据信度和所述类别,构造所述参考证据矩阵。
5.根据权利要求4所述的方法,其特征在于,所述对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重,包括:
基于所述参考证据矩阵的分布,响应于确定该属性取值在两个相邻的所述参考值之间,根据所述两个参考值的所述匹配度和所述参考证据信度,得到该属性的证据信度;根据所述两个参考值的所述匹配度和所述参考证据权重,得到该属性的所述属性证据权重;
将所述属性证据权重、所述证据信度和所述可靠性因子结合,得到该属性的属性证据。
6.根据权利要求5所述的方法,其特征在于,所述利用所述可靠性因子和所述属性证据权重对全部所述属性证据进行融合,根据融合结果对所述样本进行分类决策,包括:
对于每个所述属性证据,依据证据推理规则中的融合规则,利用所述可靠性因子和所述属性证据权重对该样本的全部属性证据进行融合,得到该属性证据将该样本判定为各个所述类别的判别信度;
将最大的所述判别信度所对应的所述类别作为该样本的类别,以对所述医疗数据集中各所述样本进行分类决策。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的方法。
CN202111574162.2A 2021-12-21 2021-12-21 小样本的医疗数据分类方法及相关设备 Active CN114239738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111574162.2A CN114239738B (zh) 2021-12-21 2021-12-21 小样本的医疗数据分类方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111574162.2A CN114239738B (zh) 2021-12-21 2021-12-21 小样本的医疗数据分类方法及相关设备

Publications (2)

Publication Number Publication Date
CN114239738A CN114239738A (zh) 2022-03-25
CN114239738B true CN114239738B (zh) 2023-10-24

Family

ID=80760824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111574162.2A Active CN114239738B (zh) 2021-12-21 2021-12-21 小样本的医疗数据分类方法及相关设备

Country Status (1)

Country Link
CN (1) CN114239738B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507365A (zh) * 2019-09-02 2020-08-07 中南大学 一种基于模糊聚类的置信规则自动生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2838923T3 (es) * 2014-10-24 2021-07-02 Koninklijke Philips Nv Pronóstico médico y predicción de la respuesta a tratamiento usando múltiples actividades de la ruta de señalización celular
US20210383272A1 (en) * 2020-06-04 2021-12-09 Samsung Electronics Co., Ltd. Systems and methods for continual learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507365A (zh) * 2019-09-02 2020-08-07 中南大学 一种基于模糊聚类的置信规则自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模糊分布熵和复值模糊分布熵的癫痫脑电信号自动分类算法研究;张涛;中国博士学位论文全文数据库 信息科技辑;E070-4 *

Also Published As

Publication number Publication date
CN114239738A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN108351862B (zh) 利用人工智能和用户输入来确定发育进展的方法和装置
Shany et al. Are we stumbling in our quest to find the best predictor? Over‐optimism in sensor‐based models for predicting falls in older adults
CN116386869B (zh) 一种基于多变量的病情危重程度评估方法
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
WO2021031817A1 (zh) 情绪识别方法、装置、计算机装置及存储介质
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Uddin Addressing accuracy paradox using enhanched weighted performance metric in machine learning
Chen et al. Calibration of medical diagnostic classifier scores to the probability of disease
Hasan et al. Employment of ensemble machine learning methods for human activity Recognition
CN114255830A (zh) 基于规则分类器的增量医疗数据的分类方法及相关设备
CN111785372A (zh) 基于关联规则的协同过滤疾病预测***及其电子设备
Santoyo-Ramón et al. A study on the impact of the users’ characteristics on the performance of wearable fall detection systems
CN116842330B (zh) 一种可对比历史记录的保健信息处理方法及装置
Yadav et al. Breast cancer prediction using SVM with PCA feature selection method
CN114239738B (zh) 小样本的医疗数据分类方法及相关设备
CN110957046A (zh) 医疗健康案例知识匹配方法和***
US11955245B2 (en) Method and system for mental index prediction
CN114239741B (zh) 基于证据推理分类器的医疗数据分类方法及相关设备
CN109543187A (zh) 电子病历特征的生成方法、装置及存储介质
CN113990514A (zh) 医师诊疗行为的异常检测装置、计算机设备及存储介质
KR20190031192A (ko) 건강 위험 예측 방법
Asanza et al. Classification of subjects with Parkinson’s disease using finger tapping dataset
CN114239742B (zh) 基于规则分类器的医疗数据分类方法及相关设备
CN114121296A (zh) 基于数据驱动的临床信息规则提取方法、存储介质及设备
CN114049637A (zh) 一种目标识别模型的建立方法、***、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant