CN110033862B - 一种基于加权有向图的中医量化诊断***及存储介质 - Google Patents

一种基于加权有向图的中医量化诊断***及存储介质 Download PDF

Info

Publication number
CN110033862B
CN110033862B CN201910295314.1A CN201910295314A CN110033862B CN 110033862 B CN110033862 B CN 110033862B CN 201910295314 A CN201910295314 A CN 201910295314A CN 110033862 B CN110033862 B CN 110033862B
Authority
CN
China
Prior art keywords
weight
characteristic data
matrix
directed graph
sparse matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910295314.1A
Other languages
English (en)
Other versions
CN110033862A (zh
Inventor
孙鑫亮
杨涛
章颖
李鑫欣
汪叶群
苏璐萍
高佳奕
于婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Chinese Medicine
Original Assignee
Nanjing University of Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Chinese Medicine filed Critical Nanjing University of Chinese Medicine
Priority to CN201910295314.1A priority Critical patent/CN110033862B/zh
Publication of CN110033862A publication Critical patent/CN110033862A/zh
Application granted granted Critical
Publication of CN110033862B publication Critical patent/CN110033862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于加权有向图的中医量化诊断***及存储介质,属于中医信息处理领域。包括:权重计算模块,按照预定策略计算特征数据的权重;有向图构造模块,根据所述权重与所述特征数据之间关系构造加权有向图;推理诊断模块,将待检测的事例通过所述有向图构造模块进行推理,获取所述事例对应结果。本发明提供一种基于加权有向图的中医量化诊断***,将复杂的病机中的特征数据以有向图直观地表现出来,通过症状与证型的权重关系完成对病机的动态构建,相比目前智能辨证***中穷尽列举标准证名模式的方法,能更好的显示对于构建的中医模型评测结,且诊断的适应性广,准确度好,能有效提高中医的诊断效率。

Description

一种基于加权有向图的中医量化诊断***及存储介质
技术领域
本发明属于中医信息处理领域,尤其涉及一种基于加权有向图的中医量化诊断***及存 储介质。
背景技术
辨证论治是中医学的特色与精华,其中辨证是中医立法、处方和用药的前提。中医辨证 是通过四诊(望、闻、问、切)搜集临床信息(症状和体征),运用中医学理论进行抽象与概括,最终得到中医证型的过程。由于中医辨证依赖中医专家的经验,具有主观性和、复杂性和模糊性特点,导致中医辨证较难量化和重复,阻碍了中医现代化的发展。
随着信息技术的发展,越来越多的新方法和技术被引入到中医药研究领域。以知识工程、 机器学习、模式识别等技术为代表的人工智能技术逐步被引入中医辨证研究中,取得了一些 进展。然而上述研究大多集中在针对某一疾病或某几个证型的识别和判断,难以有效应对临 床上复杂的病情变化。在中医临床实际中,患者病情较为复杂,证型往往不会单一出现,常 常多个证型交织重叠,采用传统的人工智能技术不能进行有效地的建模和分析;此外,在传 统分析过程中,临床信息大多以二进制来表示(赋值“1”为出现某症状,“0”未出现), 以临床信息的二进制数值参与建模,忽视了临床信息本身的权重,难以取得令人满意的效果。
中国专利公开号为CN102298663A,公开了一种中医自动识别证型的检测方法,包含以下 步骤:建立标准客观化的中医病例数据库;针对该标准化中医样本数据库,以基于协关系的 属性筛选方法,计算各个属性间的互信息及对称不确定性,基于启发式规则,挑选出对于证 型检测贡献度较大的症状属性集合;利用挑选出的关键属性集合以及病例数据库中的样本信 息构建分类训练样本集合,通过计算属性的信息增益率,确定决策属性,同时控制每个节点 的样本下限并记录分类误差,以增量学习的方式读取所有训练样本及准训练样本,最后得到 分类规则;利用得到的分类规则进行新样本的证型识别检测。但是该方案只在肝硬化的自动 辨证问题作了研究,对于推广到中医其他证型的自动判别领域还没有具体的解决办法。
中国专利公开号为CN104615894B,公开了一种基于k近邻标签特定权重特征的中医诊断 方法及***。上述方法包括以下步骤:按照预设权重确定策略获取不同类别下事例的特征数 据权重信息;根据不同类别下事例的特征数据权重信息,获取任意两个事例的加权欧几里得 距离并选择预设数目加权欧几里得距离最小的事例;对选择的所述事例采用k近邻标签特定 权重特征多标记学习方法即ML-LSWAKNN进行处理,获取所述事例对应的评价指标,充分考虑 了特征加权对分类的影响,大大提高了分类的精度。
上述方案采用邻近算法,或者说K最近邻(KNN,k-NearestNeighbor)分类算法是数据挖 掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个 样本都可以用它最接近的k个邻居来代表。该方法的思路是:如果一个样本在特征空间中的 k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个 类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最 邻近的一个或者几个样本的类别来决定待分样本所属的类别。其中K为临近数,即在预测目 标点时取几个临近的点来预测。因此K值得选取非常重要,因为:如果当K的取值过小时, 一旦有噪声得成分存在们将会对预测产生比较大影响,例如取K值为1时,一旦最近的一个 点是噪声,那么就会出现偏差,K值的减小就意味着整体模型变得复杂,容易发生过拟合; 如果K的值取的过大时,就相当于用较大邻域中的训练实例进行预测,学习的近似误差会增 大。这时与输入目标点较远实例也会对预测起作用,使预测发生错误。因此虽然能够进行权 重标记,但K的最佳取值难以确定,导致后期的结果不够准确。
相似度计算主要任务是衡量对象之间的相似程度,是信息检索、推荐***、数据挖掘等 的一个基础性计算。在K最近邻(KNN,K-NearestNeighbor)分类算法中用到的欧几里得度量 (Euclidean Metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个 点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的 欧氏距离就是两点之间的实际距离,较为直观,易于理解,但在高维空间中,欧氏距离的表现 往往差强人意。中医症状空间是一个典型的高维空间,有上百个症状,每个症状用0或1来 表示,0为未出现某症状,1为出现某症状。假设证型1对应症状向量[0,0,0,0,0,0,0,0,1,1], 证型2对应[1,1,0,0,0,0,0,0,0,0],那么两者之间的欧氏距离S12=2;证型3对应症状向量 [1,1,1,1,1,1,1,1,0,0],证型4对应[0,0,0,1,1,1,1,1,1,1],两者之间的欧式距离
Figure BDA0002026289760000021
显然S34大于S12,理论上证型1和证型2更加相似,但实际上证型1和证型2没有任何相 关性,反而是证型3和证型4有多个症状重叠,相似性更高。这样导致症状空间中样本出现 的阳性症状较少(标记为1的症状)而阴性症状较多(标记为0的症状),导致相似度计算 受到阴性症状的影响较大,影响模型效果。
发明内容
1、要解决的问题
针对现有技术中,中医临床上,证候往往不会单一出现,时常交织在一起,传统的数据 挖掘技术无法同时进行建模和分析的问题,本发明提供一种基于加权有向图的中医量化诊断 ***,将复杂的病机中的特征数据以有向图直观地表现出来,通过症状与证型的权重关系完 成对病机的动态构建,相比目前智能辨证***中穷尽列举标准证名模式的方法,能更好的显 示对于构建的中医模型评测结果,且诊断的适应性广,准确度好,能有效提高中医的诊断效 率。
2、技术方案
第一方面,本发明提供一种基于加权有向图的中医量化诊断***,包括:权重计算模块, 按照预定策略计算特征数据的权重;有向图构造模块,根据所述权重与所述特征数据之间关 系构造加权有向图;推理诊断模块,将待检测的事例通过所述有向图构造模块进行推理,获 取所述事例对应结果。
进一步的,所述预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。
进一步的,所述权重计算模块包括特征数据矩阵构建子模块、特征数据相关度确定子模 块以及特征数据权重获取子模块;其中
所述特征数据矩阵构建子模块用于将特征数据转换成稀疏矩阵;
所述特征数据相关度确定子模块根据所述稀疏矩阵按照所述预定策略计算特征数据的相 关度;
所述特征数据权重获取子模块用于对所述特征数据的相关度进行标准化处理,获得所述 特征数据的权重。
进一步的,所述特征数据矩阵构建子模块的数据处理过程为:
(1)根据不同类别的特征数据分别构建稀疏矩阵A和稀疏矩阵B;
Figure BDA0002026289760000031
(2)分别从所述稀疏矩阵A中取出单个元素列和分别从矩阵B取出单个元素做“与”运算, 获得矩阵Ci;
Figure BDA0002026289760000032
其中m表 示矩阵中的列数,n表示矩阵中的行数。
进一步的,所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏 矩阵Ci,按照互信息计算方法计算特征数据的相关度,具体为:
Figure BDA0002026289760000041
Figure BDA0002026289760000042
p(x,y)=ci=x,n=y (3)
Figure BDA0002026289760000043
其中,x表示症状、y表示证型,p(x)表示稀疏矩阵A中amn项在其所在列中出现的概率,amn是所述稀疏矩阵A中的元素,用0或1表示;p(y)表示所述稀疏矩阵B中bmn项在其所在列中出现 的概率,bmn是所述稀疏矩阵B中的元素,用0或1表示;p(x,y)表示矩阵C中cmn出现的的概率, PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率,m表示矩阵中的列 数,n表示矩阵中的行数。
进一步的,所述特征数据权重获取子模块的处理过程为:
获取所述特征数据的相关度
Figure BDA0002026289760000044
计算所述特征数据的权重: WF=(wf1,wf2,...wfk,...wfn),其中,
Figure BDA0002026289760000045
进一步的,根据所述稀疏矩阵A、所述稀疏矩阵B,和所述特征数据的权重,利用三元组 构成有向图。
更进一步的,所述待检测的事例通过所述有向图构造模块进行推理的方法具体为:
将待检测的事例的与所述特征数据相对应,得出所述特征数据对应的权重;
根据所述特征数据对应的权重进行加权求和,得出参考结果和其对应权重和;
対所述对应权重和降序排序,取阈值对参考结果进行舍弃,获取所述事例对应的最优结 果。
第二方面,本发明提供一种计算机可读存储介质,所述计算机存储介质存储有上述任意 一项所述的中医量化诊断***。
3、有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明提供一种基于加权有向图的中医量化诊断***,将复杂的病机中的特征数据 以有向图直观地表现出来,通过症状与证型的权重关系完成对病机的动态构建,相比目前智 能辨证***中穷尽列举标准证名模式的方法,能更好的显示对于构建的中医模型评测结,且 诊断的适应性广,准确度好,能有效提高中医的诊断效率;
(2)本发明在对特征数据权值进行归一化的处理,将原始数据均转换为无量纲化指标测 评值,即各指标值都处于同一个数量级别上,让各个特征对结果做出的贡献相同,可以进行 综合测评分析,提高计算的精确度;
(3)本发明待检测的事例的与特征数据相对应,得出所述特征数据对应的权重;根据所 述特征数据对应的权重进行加权求和,得出参考结果和其对应权重和;対所述对应权重和降 序排序,取阈值对参考结果进行舍弃,获取所述事例对应的最优结果,将结果进行排序输出, 便于患者或者医生对概率较大的证型进行论证治疗;
(4)本发明通过按照互信息方法计算,得到的权重信息构建的加权有向图,依据中医诊 疗思维实现,可以更好的实现中医专家经验抽取与模型的构建;
(5)本发明提供的***结构简单,设计合理,易于使用。
附图说明
图1为本发明中医量化诊断***结构图;
图2为本发明中医量化诊断***构建的有向图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清 楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要 注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术 人员所理解的通常意义。
在本申请中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、 整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、 操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并 不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚 地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释 为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触 摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。 还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例 如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是, 终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文 字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、 电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持 应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程 序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户 接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或 多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可 以支持具有对用户而言直观且透明的用户界面的各种应用程序。
实施例1
本实施例提供了一种基于加权有向图的中医量化诊断***,如图1所示,包括:权重计 算模块,按照预定策略计算特征数据的权重;有向图构造模块,根据所述权重与所述特征数 据之间关系构造加权有向图;推理诊断模块,将待检测的事例通过所述有向图构造模块进行 推理,获取所述事例对应结果。将复杂的病机中的特征数据以有向图直观地表现出来,通过 症状与证型的权重关系完成对病机的动态构建,相比目前智能辨证***中穷尽列举标准证名 模式的方法,能更好的显示对于构建的中医模型评测结,且诊断的适应性广,准确度好,能 有效提高中医的诊断效率。
其中,权重计算模块,按照预定策略计算特征数据权重;
此处特征数据指的是中医上的证型和症状,症状(symptom)是指疾病过程中机体内的一 系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。 临床常见的重要症状有发热、疼痛、体重改变、浮肿、呼吸困难、咳嗽、咳痰、咯血、食欲 减退、消化不良、吞咽困难、恶心呕吐、呕血、便血、黄疸、排尿异常、贫血、休克等。证 型,是中医所特有的一种名称。证,既证候,是指疾病发展过程中某一个阶段的病理属性的 概括。中医将人体分为阴阳气血,又将病因分为风寒暑湿燥热痰及虚实等。证型就是由不同 的病因引起阴阳气血的不同变化导致人体的不同疾病状态。它们可以通过execl、csv和txt 等数据形式进行存储;预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。 在本实例中采用互信息计算方法,但不用于限制本发明。具体的,所述权重计算模块包括特 征数据矩阵构建子模块、特征数据相关度确定子模块以及特征数据权重获取子模块;其中所 述特征数据矩阵构建子模块用于将特征数据转换成稀疏矩阵;所述特征数据相关度确定子模 块用于根据所述稀疏矩阵按照所述预定策略计算特征数据的相关度;所述特征数据权重获取 子模块用于对所述特征数据的相关度进行标准化处理,获得所述特征数据的权重。
进一步的,所述特征数据矩阵构建子模块的数据处理过程为:
(1)根据不同类别的特征数据分别构建稀疏矩阵A和稀疏矩阵B;具体的把特征数据按照 症状和证型进行分类,再经过处理得到的矩阵形式,稀疏矩阵A中的元素为amn,稀疏矩阵B中的 元素为bmn,m表示矩阵中的列数,n表示矩阵中的行数;矩阵中的值为0或1,矩阵的列名为症状 或证型,1代表此条病案中有这个症状,0代表没有。
Figure BDA0002026289760000071
(2)分别从所述稀疏矩阵A中取出单个元素列和分别从矩阵B取出单个元素做“与”运算, 获得矩阵Ci
Figure BDA0002026289760000072
对新构造的矩阵Ci元素为cmn,矩阵内的元素同样是0或者1,其结果为稀疏矩阵A和B运算而 来,列名不做要求,为纯运算的到的矩阵。
所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏矩阵Ci,按 照互信息计算方法计算特征数据的相关度,具体为:
Figure BDA0002026289760000073
Figure BDA0002026289760000074
p(x,y)=ci=x,n=y (3)
Figure BDA0002026289760000081
其中,x表示症状、y表示证型,p(x)表示稀疏矩阵A中amn项在其所在列中出现的概率, amn是所述稀疏矩阵A中的元素,用0或1表示;p(y)表示所述稀疏矩阵B中bmn项在其所在列 中出现的概率,bmn是所述稀疏矩阵B中的元素,用0或1表示;p(x,y)表示矩阵C中cmn出现的的概率,PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率,m表示矩阵中的列数,n表示矩阵中的行数。需要说明的是,互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信 息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
所述特征数据权重获取子模块具体用于,获取所述特征数据的相关度:
Figure BDA0002026289760000082
计算所述特征数据的权重WF=(wf1,wf2,...wfk,...wfn), 其中,
Figure BDA0002026289760000083
需要说明的是,在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量 纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数 值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,本实施例在 对特征数据权值进行归一化的处理,将原始数据均转换为无量纲化指标测评值,即各指标值 都处于同一个数量级别上,让各个特征对结果做出的贡献相同,可以进行综合测评分析,提 高计算的精确度。
有向图构造模块,根据所述权重与所述特征数据之间关系构造加权有向图。
进一步的,根据所述稀疏矩阵A、所述稀疏矩阵B,和所述特征数据的权重,利用三元组 构成有向图。
还需要说明的是,有向图是一种图论模型,其核心在于如何确定边的方向和权重,现有 技术多采用人工设定边的方向,利用统计学习方法确定权重。在中医诊断领域,边的方向也 是人工设定,边的权重多采用频数或者条件概率等,本实施例中采用的是点式互信息作为权 重的计算。有向图构造过程如下:根据不同特征数据之间的权重信息,如稀疏矩阵A、所述 稀疏矩阵B,和稀疏矩阵A、所述稀疏矩阵B中元素的权重,构造三元组形成加权有向图。
具体的,若每个症状ZZ由不同的向量表示形式如:症状ZZ=[ZX,WF],则三元网络有向图 的构成表示为{ZZ,ZX,WF},其中ZX表示症状,WF表示权值。
构建的有向图如图2所示,ZX(1)、ZX(2)、ZX(3)表示三个不同证型,ZZ(1)、ZZ(2)…… ZZ(k)表示ZX(1)的k个症状,其中ZZ(1)是ZX(1)、ZX(2)和ZX(3)的公共症状,ZZ(2)是ZX(1) 和ZX(2)的公共症状,ZZ(3)、ZZ(4)……、ZZ(k)为ZX(1)独有的症状,通过下图可以发现当 某个症状所在证型越多时,相比较此证型中的其他症状而言,此症状对应该证型的权重应该 较小;当某个证型的症状总数越少时,相比较此证型中某个症状在其他证型中的权重而言, 该症状在此证型中的权重应该较大。
推理诊断模块,将待检测的事例的与所述特征数据相对应,得出所述特征数据对应的权 重;根据所述特征数据对应的权重进行加权求和,得出参考结果和其对应权重和;対所述对 应权重和降序排序,取阈值对参考结果进行舍弃,获取所述事例对应的最优结果,対所述对 应权重降序排序,取阈值对参考结果进行舍弃,获取所述事例对应的最优结果。
具体的,如图2所示,现从某患者的病历中抽取的症状信息包含症状ZZ(1)、ZZ(2)、ZZ(3)、 ZZ(4)、……ZZ(k),通过折半查找算法确定类别得到该类别对应的权重,折半查找算法为本 领域常用技术手段,在此不赘述。则该患者为证型zx的概率为:
P(ZX)=Sum(WFxk)=WF(11)+WF(12)+WF(13)+WF(14)+WF(15)+…+WF(1k),対证型的权 重降序排序,取阈值对参考结果进行舍弃,具体的阈值可以取到中位数前面排序靠前的证型, 对中位数后面的排序进行舍弃,获取所述事例对应的最优结果,其中WF(xk)(k=1,2,3,…n) 为所述特征数据的权重,权重越大说明对结果的贡献率越高。
本实施例将复杂的病机中的特征数据以有向图直观地表现出来,以病机的有向图定义为 基础,通过症状与证型的权重关系完成对病机的动态构建;将待检测的事例的与特征数据相 对应,得出所述特征数据对应的权重;根据所述特征数据对应的权重进行加权求和,得出参 考结果和其对应权重和;対所述对应权重和降序排序,取阈值对参考结果进行舍弃,获取所 述事例对应的最优结果,相比目前智能辨证***中穷尽列举标准证名模式的方法,可有效回 避目前中医智能辨证领域中共同存在的瓶颈问题即证型***的问题,为中医智能辨证领域提 供了新方向。需要说明的是,证型***为中医辨证电脑***的医理设计中,确定了48项辨证 基本内容(即辨证元素),存取了1500个标准证名模式(即复合证型),并在其研究中,采取了 “调阈、兼容”等办法,并通过模糊数学相关理论,如利用空间度量法、变换减维(或增维) 法等对48项模元(即标准证型模式)进行模糊聚类分析,可形成500多个演绎证名模式。基于 模式匹配的智能辨证模型中,必须确定标准证型模式。理论上讲,48个基本辨证要素的所有 排列组合是肯定能够覆盖临床的,但一方面,其数据量(248)却是一个天文数字,将其各种组 合予以编排是不可能的,另外一方面,临床上也并非各个辨证要素都可以任意排列组合,如{实 火,阳虚}或{外风,实寒,实火}等组合方式在中医理论体系下是不能构成证型的。这就是目 前中医智能辨证领域中共同存在证型***问题。
如图1所示,本实施例还提供了一种有向图的中医量化诊断方法,详细步骤表述如下:
步骤一:按十折交叉验证方法从原始数据中划分训练数据train_data和测试数据test_data;
步骤二:For标签向量L中的每个标签l执行步骤三——步骤五;
步骤三:依照权重确定方法,利用train_data数据计算各个特征的点式互信息然后将点 式互信息归一化处理作为每个特征的权重信息;
步骤四:在所有test_data数据中,依照公式(1)计算取自test_data数据的每一个未知事 例与train_data事例之间对应的权重,选出K个权重最大的事例N(K);
步骤五:End for。
为了说明本方法的有效性,我们进行了相关实验:选择418诊次冠心病数据作为研究对象, 利用模型对样本进行训练。***自动计算产生(症状,证型,权重)的三元组。为了便于加 载和调用,后台将其转换为JSON格式进行存储,即{证型:{症状1:权重1,症状2:权重2……}} 下面以症状“心气不足”、“肺阴亏虚”为例进行说明:{'心气不足':{'心慌':0.17970033 096330984,'胸闷':0.1426162709006604,'头晕':0.09675323697280372,'头痛':0.06133919 561179082,'咽喉痛':0.54120158784469415,'腰部酸痛':0.049497041840412495,'双下肢凹 陷性水肿':04621506196625556,'乏力':0.04621232129119378,'纳差':0.0407775007851630 54,'夜寐欠安':0.030477793526566727,'小便频':0.027262711151846412,'便秘':024742634905585082,'大便调':0.023804154276122487}}。
{'肺阴亏虚':{'心慌':0.14956935140308092,'胸闷':0.12866125182845342,'头晕':0. 08022981081402662,'头痛':0.05275585322018142,'咽喉痛':0.052129023680618475,'腰部 酸痛':0.04847449413050493,'双下肢凹陷性水肿':04621506196625556,'乏力':0.04142249 1758973445,'纳差':032739345289794476,'夜寐欠安':0.028341493055174725,'小便频':0. 024742634905585082,'便秘':0.023804154276122487,'大便调':0.023528103602116983}}。
模型有效性测试:
从样本中随机抽取10%样本进行测试,进行10次随机抽样,计算结果与原始标注的诊断 结果进行比对,一致的记为1,否则为0,计算模型的1-错误率,覆盖率,排序损失,平均精度, 汉明损失,用于评价模型效果。
相关指标的定义如下:
1-错误率(One Error,OE↓),该指标用于考察在样本的概念标记排序序列中,序列最前 端的标记不属于样本标记集合的情况。其指标表达式为:
Figure BDA0002026289760000111
排序第一H(xi)=1,否则H(xi)=0。
覆盖率(Coverage↓),该指标用于考察在样本的概念标记排序序列中,覆盖隶属于样本 的所有概念标记所需的搜索深度情况。其指标表达式为:
Figure BDA0002026289760000112
其中C(xi)={l|f(xi,l)≥f(xi,li'),l∈y},且
Figure BDA0002026289760000113
排序损失(Ranking Loss,RL↓),该指标用于考察在样本的概念标记排序序列中出现排序 错误的情况。其指标表达式为:
Figure BDA0002026289760000114
其中
Figure BDA0002026289760000115
平均精度(Average Precision,AVP↑),该指标用于考察在样本的概念标记排序序列中, 排在隶属于该样本的概念标记之前的标记仍属于样本标记集合的情况。
Figure BDA0002026289760000116
其中
Figure BDA0002026289760000117
汉明损失(Hamming Loss,HL↓),该指标用于考察样本在单个标记上的误分类情况,即隶 属于该样本的概念标记未出现在标记集合中而不属于该样本的概念标记出现在标记集合中。
Figure BDA0002026289760000118
其中Q为标签总数,h(xi)为分类结果。
注:↑表示值越大效果越好,↓表示值越小效果越好,m为记录的条数。
模型各指标计算结果如下表所示:
表1模型评价
Figure BDA0002026289760000121
需要说明的是,得出的结果用多标记问题常用的几个评价指标Hamming_Loss、Average_Precision、One_Error、Ranking_Loss、Coverage来进行评价,本发明构建的模型能更准确显示评测结果,One_Error反映了模型诊断结果与真实结果相比的误判率;Average_Precision反映了模型诊断结果与真实诊断结果的相似度;Ranking_Loss反映了模型 诊断结果中各个子项的排序与真实诊断结果对应情况的误差率;Hamming_Loss反映了模型诊 断结果中各个子项与真实诊断结果对应情况的误判率;Coverage反映了模型诊断结果与真实 诊断结果相比的冗余情况。因此本发明的模型测试,不仅要考虑了各项指标的数值意义,还 关注其中医角度的结果阐释。
实施例2
本实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有实施例1描述的 ***。
所述计算机可读存储介质可以包括终端(计算机)的内部存储单元,例如终端的硬盘或 内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的 插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存 卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储 单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端 所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要 输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件 的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究 竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员 可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本 发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单 元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露终端和方法,可以通过其它的方 式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为 一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者 可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也 可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可 以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以 存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对 现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来, 该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个 人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存 储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以 对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围, 其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种基于加权有向图的中医量化诊断***,其特征在于,包括:
权重计算模块,按照预定策略计算特征数据的权重;
有向图构造模块,根据所述权重与所述特征数据之间关系构造加权有向图;
推理诊断模块,将待检测的事例通过所述有向图构造模块进行推理,获取所述事例对应结果;
所述权重计算模块包括特征数据矩阵构建子模块、特征数据相关度确定子模块以及特征数据权重获取子模块;其中
所述特征数据矩阵构建子模块用于将特征数据转换成稀疏矩阵;
具体包括:把特征数据按照症状和证型进行分类,再经过处理得到的矩阵形式,分别构建稀疏矩阵A和稀疏矩阵B;
所述特征数据相关度确定子模块根据所述稀疏矩阵按照所述预定策略计算特征数据的相关度;
所述特征数据权重获取子模块用于对所述特征数据的相关度进行标准化处理,获得所述特征数据的权重;
根据稀疏矩阵A、所述稀疏矩阵B,和稀疏矩阵A、所述稀疏矩阵B中元素的权重,构造三元组形成加权有向图;当某个症状所在证型越多时,相比较此证型中的其他症状而言,此症状对应该证型的权重应该较小;当某个证型的症状总数越少时,相比较此证型中某个症状在其他证型中的权重而言,该症状在此证型中的权重应该较大;
所述待检测的事例通过所述有向图构造模块进行推理的方法具体为:
将待检测的事例的与所述特征数据相对应,得出所述特征数据对应的权重;
根据所述特征数据对应的权重进行加权求和,得出参考结果和其对应权重和;
対所述对应权重和降序排序,取阈值对参考结果进行舍弃,获取所述事例对应的最优结果。
2.根据权利要求1所述的一种基于加权有向图的中医量化诊断***,其特征在于,所述预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。
3.根据权利要求1所述的一种基于加权有向图的中医量化诊断***,其特征在于,所述特征数据矩阵构建子模块的数据处理过程为:
(1)根据不同类别的特征数据分别构建稀疏矩阵A和稀疏矩阵B;
Figure FDA0003567147820000021
(2)分别从所述稀疏矩阵A中取出单个元素列和分别从矩阵B取出单个元素做“与”运算,获得矩阵Ci;
Figure FDA0003567147820000022
其中,稀疏矩阵A中的元素为amn,稀疏矩阵B中的元素为bmn,矩阵Ci元素为cmn,m表示矩阵中的列数,n表示矩阵中的行数,i表示矩阵Ci的下标数。
4.根据权利要求2或3任意一项所述的一种基于加权有向图的中医量化诊断***,其特征在于,所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏矩阵Ci,按照互信息计算方法计算特征数据的相关度,具体为:
Figure FDA0003567147820000023
Figure FDA0003567147820000024
p(x,y)=ci=x,n=y (3)
Figure FDA0003567147820000025
其中,x表示症状、y表示证型,p(x)表示稀疏矩阵A中amn项在其所在列中出现的概率,amn是所述稀疏矩阵A中的元素,用0或1表示;p(y)表示所述稀疏矩阵B中bmn项在其所在列中出现的概率,bmn是所述稀疏矩阵B中的元素,用0或1表示;p(x,y)表示矩阵C中cmn出现的概率,PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率,m表示矩阵中的列数,n表示矩阵中的行数。
5.根据权利要求3所述的一种基于加权有向图的中医量化诊断***,其特征在于,所述特征数据权重获取子模块的处理过程为:
获取所述特征数据的相关度
Figure FDA0003567147820000031
计算所述特征数据的权重:WF=(wf1,wf2,...wfk,...wfn),其中,
Figure FDA0003567147820000032
6.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有如权利要求1-5任意一项所述的中医量化诊断***。
CN201910295314.1A 2019-04-12 2019-04-12 一种基于加权有向图的中医量化诊断***及存储介质 Active CN110033862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295314.1A CN110033862B (zh) 2019-04-12 2019-04-12 一种基于加权有向图的中医量化诊断***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295314.1A CN110033862B (zh) 2019-04-12 2019-04-12 一种基于加权有向图的中医量化诊断***及存储介质

Publications (2)

Publication Number Publication Date
CN110033862A CN110033862A (zh) 2019-07-19
CN110033862B true CN110033862B (zh) 2022-05-17

Family

ID=67238224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295314.1A Active CN110033862B (zh) 2019-04-12 2019-04-12 一种基于加权有向图的中医量化诊断***及存储介质

Country Status (1)

Country Link
CN (1) CN110033862B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477302A (zh) * 2020-03-07 2020-07-31 深圳问止中医健康科技有限公司 一种数据的中医辩证算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN103473409A (zh) * 2013-08-25 2013-12-25 浙江大学 一种基于知识库的fpga故障自动诊断方法
CN106933994A (zh) * 2017-02-27 2017-07-07 广东省中医院 一种基于中医药知识图谱的核心症证关系构建方法
CN107609389A (zh) * 2017-08-24 2018-01-19 南京理工大学 一种基于图像内容相关性的验证方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN103473409A (zh) * 2013-08-25 2013-12-25 浙江大学 一种基于知识库的fpga故障自动诊断方法
CN106933994A (zh) * 2017-02-27 2017-07-07 广东省中医院 一种基于中医药知识图谱的核心症证关系构建方法
CN107609389A (zh) * 2017-08-24 2018-01-19 南京理工大学 一种基于图像内容相关性的验证方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于医学知识图谱的疾病智能诊断研究;刘路;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20190115(第1期);第3.5,4.1节 *

Also Published As

Publication number Publication date
CN110033862A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
ElShawi et al. Interpretability in healthcare: A comparative study of local machine learning interpretability techniques
Chiu et al. Multimodal depression detection on instagram considering time interval of posts
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
US9665824B2 (en) Rapid image annotation via brain state decoding and visual pattern mining
Sun et al. Diagnosis and analysis of diabetic retinopathy based on electronic health records
Berrendero et al. The mRMR variable selection method: a comparative study for functional data
CN109935337B (zh) 一种基于相似性度量的病案查找方法及***
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Xu et al. Intelligent syndrome differentiation of traditional Chinese medicine by ANN: a case study of chronic obstructive pulmonary disease
Wang et al. Attention-based multi-instance neural network for medical diagnosis from incomplete and low quality data
Dong et al. Cervical cell classification based on the CART feature selection algorithm
Ghavidel et al. An ensemble data mining approach to discover medical patterns and provide a system to predict the mortality in the ICU of cardiac surgery based on stacking machine learning method
CN114530248A (zh) 确定心血管疾病潜在不适当处方的风险预警模型的方法
Chiu et al. Integrating structured and unstructured EHR data for predicting mortality by machine learning and latent Dirichlet allocation method
CN110033862B (zh) 一种基于加权有向图的中医量化诊断***及存储介质
Di Corso et al. Simplifying text mining activities: scalable and self-tuning methodology for topic detection and characterization
Pina et al. Clustering clinical data in R
Siregar et al. Comparison of Classification Algorithm Performance for Diabetes Prediction Using Orange Data Mining
Thakur et al. RNN-CNN based cancer prediction model for gene expression
Chen et al. Auxiliary Diagnosis of Breast Cancer Based on Machine Learning and Hybrid Strategy
Akhtar et al. Data Mining Techniques to Construct a Model: Cardiac Diseases
US20220108799A1 (en) System and method for transmitting a severity vector
Shanmugavalli et al. Data mining based predictive analysis of diabetic diagnosis in health care: overview
Chandra Impacts of data synthesis: a metric for quantifiable data standards and performances
Hand et al. A note on using the F-measure for evaluating data linkage algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant