CN110033862B

CN110033862B - 一种基于加权有向图的中医量化诊断***及存储介质

Info

Publication number: CN110033862B
Application number: CN201910295314.1A
Authority: CN
Inventors: 孙鑫亮; 杨涛; 章颖; 李鑫欣; 汪叶群; 苏璐萍; 高佳奕; 于婧
Original assignee: Nanjing University of Chinese Medicine
Current assignee: Nanjing University of Chinese Medicine
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2022-05-17
Anticipated expiration: 2039-04-12
Also published as: CN110033862A

Abstract

本发明公开了一种基于加权有向图的中医量化诊断***及存储介质，属于中医信息处理领域。包括：权重计算模块，按照预定策略计算特征数据的权重；有向图构造模块，根据所述权重与所述特征数据之间关系构造加权有向图；推理诊断模块，将待检测的事例通过所述有向图构造模块进行推理，获取所述事例对应结果。本发明提供一种基于加权有向图的中医量化诊断***，将复杂的病机中的特征数据以有向图直观地表现出来，通过症状与证型的权重关系完成对病机的动态构建，相比目前智能辨证***中穷尽列举标准证名模式的方法，能更好的显示对于构建的中医模型评测结，且诊断的适应性广，准确度好，能有效提高中医的诊断效率。

Description

一种基于加权有向图的中医量化诊断***及存储介质

技术领域

本发明属于中医信息处理领域，尤其涉及一种基于加权有向图的中医量化诊断***及存储介质。

背景技术

辨证论治是中医学的特色与精华，其中辨证是中医立法、处方和用药的前提。中医辨证是通过四诊(望、闻、问、切)搜集临床信息(症状和体征)，运用中医学理论进行抽象与概括，最终得到中医证型的过程。由于中医辨证依赖中医专家的经验，具有主观性和、复杂性和模糊性特点，导致中医辨证较难量化和重复，阻碍了中医现代化的发展。

随着信息技术的发展，越来越多的新方法和技术被引入到中医药研究领域。以知识工程、机器学习、模式识别等技术为代表的人工智能技术逐步被引入中医辨证研究中，取得了一些进展。然而上述研究大多集中在针对某一疾病或某几个证型的识别和判断，难以有效应对临床上复杂的病情变化。在中医临床实际中，患者病情较为复杂，证型往往不会单一出现，常常多个证型交织重叠，采用传统的人工智能技术不能进行有效地的建模和分析；此外，在传统分析过程中，临床信息大多以二进制来表示(赋值“1”为出现某症状，“0”未出现)，以临床信息的二进制数值参与建模，忽视了临床信息本身的权重，难以取得令人满意的效果。

中国专利公开号为CN102298663A，公开了一种中医自动识别证型的检测方法，包含以下步骤：建立标准客观化的中医病例数据库；针对该标准化中医样本数据库，以基于协关系的属性筛选方法，计算各个属性间的互信息及对称不确定性，基于启发式规则，挑选出对于证型检测贡献度较大的症状属性集合；利用挑选出的关键属性集合以及病例数据库中的样本信息构建分类训练样本集合，通过计算属性的信息增益率，确定决策属性，同时控制每个节点的样本下限并记录分类误差，以增量学习的方式读取所有训练样本及准训练样本，最后得到分类规则；利用得到的分类规则进行新样本的证型识别检测。但是该方案只在肝硬化的自动辨证问题作了研究，对于推广到中医其他证型的自动判别领域还没有具体的解决办法。

中国专利公开号为CN104615894B，公开了一种基于k近邻标签特定权重特征的中医诊断方法及***。上述方法包括以下步骤：按照预设权重确定策略获取不同类别下事例的特征数据权重信息；根据不同类别下事例的特征数据权重信息，获取任意两个事例的加权欧几里得距离并选择预设数目加权欧几里得距离最小的事例；对选择的所述事例采用k近邻标签特定权重特征多标记学习方法即ML-LSWAKNN进行处理，获取所述事例对应的评价指标，充分考虑了特征加权对分类的影响，大大提高了分类的精度。

上述方案采用邻近算法，或者说K最近邻(KNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。该方法的思路是：如果一个样本在特征空间中的 k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。其中K为临近数，即在预测目标点时取几个临近的点来预测。因此K值得选取非常重要，因为：如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减小就意味着整体模型变得复杂，容易发生过拟合；如果K的值取的过大时，就相当于用较大邻域中的训练实例进行预测，学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用，使预测发生错误。因此虽然能够进行权重标记，但K的最佳取值难以确定，导致后期的结果不够准确。

相似度计算主要任务是衡量对象之间的相似程度，是信息检索、推荐***、数据挖掘等的一个基础性计算。在K最近邻(KNN，K-NearestNeighbor)分类算法中用到的欧几里得度量 (Euclidean Metric)(也称欧氏距离)是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离,较为直观，易于理解，但在高维空间中，欧氏距离的表现往往差强人意。中医症状空间是一个典型的高维空间，有上百个症状，每个症状用0或1来表示，0为未出现某症状，1为出现某症状。假设证型1对应症状向量[0,0,0,0,0,0,0,0,1,1]，证型2对应[1,1,0,0,0,0,0,0,0,0]，那么两者之间的欧氏距离S12＝2；证型3对应症状向量 [1,1,1,1,1,1,1,1,0,0]，证型4对应[0,0,0,1,1,1,1,1,1,1]，两者之间的欧式距离

显然S34大于S12，理论上证型1和证型2更加相似，但实际上证型1和证型2没有任何相关性，反而是证型3和证型4有多个症状重叠，相似性更高。这样导致症状空间中样本出现的阳性症状较少(标记为1的症状)而阴性症状较多(标记为0的症状)，导致相似度计算受到阴性症状的影响较大，影响模型效果。

发明内容

1、要解决的问题

针对现有技术中，中医临床上，证候往往不会单一出现，时常交织在一起，传统的数据挖掘技术无法同时进行建模和分析的问题，本发明提供一种基于加权有向图的中医量化诊断 ***，将复杂的病机中的特征数据以有向图直观地表现出来，通过症状与证型的权重关系完成对病机的动态构建，相比目前智能辨证***中穷尽列举标准证名模式的方法，能更好的显示对于构建的中医模型评测结果，且诊断的适应性广，准确度好，能有效提高中医的诊断效率。

2、技术方案

第一方面，本发明提供一种基于加权有向图的中医量化诊断***，包括：权重计算模块，按照预定策略计算特征数据的权重；有向图构造模块，根据所述权重与所述特征数据之间关系构造加权有向图；推理诊断模块，将待检测的事例通过所述有向图构造模块进行推理，获取所述事例对应结果。

进一步的，所述预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。

进一步的，所述权重计算模块包括特征数据矩阵构建子模块、特征数据相关度确定子模块以及特征数据权重获取子模块；其中

所述特征数据矩阵构建子模块用于将特征数据转换成稀疏矩阵；

所述特征数据相关度确定子模块根据所述稀疏矩阵按照所述预定策略计算特征数据的相关度；

所述特征数据权重获取子模块用于对所述特征数据的相关度进行标准化处理，获得所述特征数据的权重。

进一步的，所述特征数据矩阵构建子模块的数据处理过程为：

(1)根据不同类别的特征数据分别构建稀疏矩阵A和稀疏矩阵B；

(2)分别从所述稀疏矩阵A中取出单个元素列和分别从矩阵B取出单个元素做“与”运算，获得矩阵Ci；

其中m表示矩阵中的列数，n表示矩阵中的行数。

进一步的，所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏矩阵C_i，按照互信息计算方法计算特征数据的相关度，具体为：

p(x,y)＝c_i＝x,n＝y (3)

其中，x表示症状、y表示证型，p(x)表示稀疏矩阵A中a_mn项在其所在列中出现的概率，a_mn是所述稀疏矩阵A中的元素，用0或1表示；p(y)表示所述稀疏矩阵B中b_mn项在其所在列中出现的概率，b_mn是所述稀疏矩阵B中的元素，用0或1表示；p(x,y)表示矩阵C中c_mn出现的的概率， PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率，m表示矩阵中的列数，n表示矩阵中的行数。

进一步的，所述特征数据权重获取子模块的处理过程为：

获取所述特征数据的相关度

计算所述特征数据的权重： WF＝(wf1,wf2,...wfk,...wfn),其中，

进一步的，根据所述稀疏矩阵A、所述稀疏矩阵B，和所述特征数据的权重，利用三元组构成有向图。

更进一步的，所述待检测的事例通过所述有向图构造模块进行推理的方法具体为：

将待检测的事例的与所述特征数据相对应，得出所述特征数据对应的权重；

根据所述特征数据对应的权重进行加权求和，得出参考结果和其对应权重和；

対所述对应权重和降序排序，取阈值对参考结果进行舍弃，获取所述事例对应的最优结果。

第二方面，本发明提供一种计算机可读存储介质，所述计算机存储介质存储有上述任意一项所述的中医量化诊断***。

3、有益效果

相比于现有技术，本发明的有益效果为：

(1)本发明提供一种基于加权有向图的中医量化诊断***，将复杂的病机中的特征数据以有向图直观地表现出来，通过症状与证型的权重关系完成对病机的动态构建，相比目前智能辨证***中穷尽列举标准证名模式的方法，能更好的显示对于构建的中医模型评测结，且诊断的适应性广，准确度好，能有效提高中医的诊断效率；

(2)本发明在对特征数据权值进行归一化的处理，将原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，让各个特征对结果做出的贡献相同，可以进行综合测评分析，提高计算的精确度；

(3)本发明待检测的事例的与特征数据相对应，得出所述特征数据对应的权重；根据所述特征数据对应的权重进行加权求和，得出参考结果和其对应权重和；対所述对应权重和降序排序，取阈值对参考结果进行舍弃，获取所述事例对应的最优结果，将结果进行排序输出，便于患者或者医生对概率较大的证型进行论证治疗；

(4)本发明通过按照互信息方法计算，得到的权重信息构建的加权有向图，依据中医诊疗思维实现，可以更好的实现中医专家经验抽取与模型的构建；

(5)本发明提供的***结构简单，设计合理，易于使用。

附图说明

图1为本发明中医量化诊断***结构图；

图2为本发明中医量化诊断***构建的有向图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

在本申请中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

实施例1

本实施例提供了一种基于加权有向图的中医量化诊断***，如图1所示，包括：权重计算模块，按照预定策略计算特征数据的权重；有向图构造模块，根据所述权重与所述特征数据之间关系构造加权有向图；推理诊断模块，将待检测的事例通过所述有向图构造模块进行推理，获取所述事例对应结果。将复杂的病机中的特征数据以有向图直观地表现出来，通过症状与证型的权重关系完成对病机的动态构建，相比目前智能辨证***中穷尽列举标准证名模式的方法，能更好的显示对于构建的中医模型评测结，且诊断的适应性广，准确度好，能有效提高中医的诊断效率。

其中，权重计算模块，按照预定策略计算特征数据权重；

此处特征数据指的是中医上的证型和症状，症状(symptom)是指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。临床常见的重要症状有发热、疼痛、体重改变、浮肿、呼吸困难、咳嗽、咳痰、咯血、食欲减退、消化不良、吞咽困难、恶心呕吐、呕血、便血、黄疸、排尿异常、贫血、休克等。证型，是中医所特有的一种名称。证，既证候，是指疾病发展过程中某一个阶段的病理属性的概括。中医将人体分为阴阳气血，又将病因分为风寒暑湿燥热痰及虚实等。证型就是由不同的病因引起阴阳气血的不同变化导致人体的不同疾病状态。它们可以通过execl、csv和txt 等数据形式进行存储；预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。在本实例中采用互信息计算方法，但不用于限制本发明。具体的，所述权重计算模块包括特征数据矩阵构建子模块、特征数据相关度确定子模块以及特征数据权重获取子模块；其中所述特征数据矩阵构建子模块用于将特征数据转换成稀疏矩阵；所述特征数据相关度确定子模块用于根据所述稀疏矩阵按照所述预定策略计算特征数据的相关度；所述特征数据权重获取子模块用于对所述特征数据的相关度进行标准化处理，获得所述特征数据的权重。

(1)根据不同类别的特征数据分别构建稀疏矩阵A和稀疏矩阵B；具体的把特征数据按照症状和证型进行分类，再经过处理得到的矩阵形式，稀疏矩阵A中的元素为a_mn，稀疏矩阵B中的元素为b_mn，m表示矩阵中的列数，n表示矩阵中的行数；矩阵中的值为0或1，矩阵的列名为症状或证型，1代表此条病案中有这个症状，0代表没有。

(2)分别从所述稀疏矩阵A中取出单个元素列和分别从矩阵B取出单个元素做“与”运算，获得矩阵C_i；

对新构造的矩阵Ci元素为c_mn，矩阵内的元素同样是0或者1，其结果为稀疏矩阵A和B运算而来，列名不做要求，为纯运算的到的矩阵。

所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏矩阵C_i，按照互信息计算方法计算特征数据的相关度，具体为：

p(x,y)＝c_i＝x,n＝y (3)

其中，x表示症状、y表示证型，p(x)表示稀疏矩阵A中a_mn项在其所在列中出现的概率， a_mn是所述稀疏矩阵A中的元素，用0或1表示；p(y)表示所述稀疏矩阵B中b_mn项在其所在列中出现的概率，b_mn是所述稀疏矩阵B中的元素，用0或1表示；p(x,y)表示矩阵C中c_mn出现的的概率，PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率，m表示矩阵中的列数，n表示矩阵中的行数。需要说明的是，互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

所述特征数据权重获取子模块具体用于，获取所述特征数据的相关度：

计算所述特征数据的权重WF＝(wf1,wf2,...wfk,...wfn), 其中，

需要说明的是，在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，本实施例在对特征数据权值进行归一化的处理，将原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，让各个特征对结果做出的贡献相同，可以进行综合测评分析，提高计算的精确度。

有向图构造模块，根据所述权重与所述特征数据之间关系构造加权有向图。

还需要说明的是，有向图是一种图论模型，其核心在于如何确定边的方向和权重，现有技术多采用人工设定边的方向，利用统计学习方法确定权重。在中医诊断领域，边的方向也是人工设定，边的权重多采用频数或者条件概率等，本实施例中采用的是点式互信息作为权重的计算。有向图构造过程如下：根据不同特征数据之间的权重信息，如稀疏矩阵A、所述稀疏矩阵B，和稀疏矩阵A、所述稀疏矩阵B中元素的权重，构造三元组形成加权有向图。

具体的，若每个症状ZZ由不同的向量表示形式如：症状ZZ＝[ZX,WF],则三元网络有向图的构成表示为{ZZ，ZX，WF}，其中ZX表示症状，WF表示权值。

构建的有向图如图2所示，ZX(1)、ZX(2)、ZX(3)表示三个不同证型，ZZ(1)、ZZ(2)…… ZZ(k)表示ZX(1)的k个症状，其中ZZ(1)是ZX(1)、ZX(2)和ZX(3)的公共症状，ZZ(2)是ZX(1) 和ZX(2)的公共症状，ZZ(3)、ZZ(4)……、ZZ(k)为ZX(1)独有的症状，通过下图可以发现当某个症状所在证型越多时，相比较此证型中的其他症状而言，此症状对应该证型的权重应该较小；当某个证型的症状总数越少时，相比较此证型中某个症状在其他证型中的权重而言，该症状在此证型中的权重应该较大。

推理诊断模块，将待检测的事例的与所述特征数据相对应，得出所述特征数据对应的权重；根据所述特征数据对应的权重进行加权求和，得出参考结果和其对应权重和；対所述对应权重和降序排序，取阈值对参考结果进行舍弃，获取所述事例对应的最优结果，対所述对应权重降序排序，取阈值对参考结果进行舍弃，获取所述事例对应的最优结果。

具体的，如图2所示，现从某患者的病历中抽取的症状信息包含症状ZZ(1)、ZZ(2)、ZZ(3)、 ZZ(4)、……ZZ(k)，通过折半查找算法确定类别得到该类别对应的权重，折半查找算法为本领域常用技术手段，在此不赘述。则该患者为证型zx的概率为：

P(ZX)＝Sum(WFxk)＝WF(11)+WF(12)+WF(13)+WF(14)+WF(15)+…+WF(1k)，対证型的权重降序排序，取阈值对参考结果进行舍弃，具体的阈值可以取到中位数前面排序靠前的证型，对中位数后面的排序进行舍弃，获取所述事例对应的最优结果，其中WF(xk)(k＝1,2,3,…n) 为所述特征数据的权重，权重越大说明对结果的贡献率越高。

本实施例将复杂的病机中的特征数据以有向图直观地表现出来，以病机的有向图定义为基础，通过症状与证型的权重关系完成对病机的动态构建；将待检测的事例的与特征数据相对应，得出所述特征数据对应的权重；根据所述特征数据对应的权重进行加权求和，得出参考结果和其对应权重和；対所述对应权重和降序排序，取阈值对参考结果进行舍弃，获取所述事例对应的最优结果，相比目前智能辨证***中穷尽列举标准证名模式的方法，可有效回避目前中医智能辨证领域中共同存在的瓶颈问题即证型***的问题，为中医智能辨证领域提供了新方向。需要说明的是，证型***为中医辨证电脑***的医理设计中，确定了48项辨证基本内容(即辨证元素)，存取了1500个标准证名模式(即复合证型)，并在其研究中，采取了 “调阈、兼容”等办法，并通过模糊数学相关理论，如利用空间度量法、变换减维(或增维) 法等对48项模元(即标准证型模式)进行模糊聚类分析，可形成500多个演绎证名模式。基于模式匹配的智能辨证模型中，必须确定标准证型模式。理论上讲，48个基本辨证要素的所有排列组合是肯定能够覆盖临床的，但一方面，其数据量(248)却是一个天文数字，将其各种组合予以编排是不可能的，另外一方面，临床上也并非各个辨证要素都可以任意排列组合，如{实火，阳虚}或{外风，实寒，实火}等组合方式在中医理论体系下是不能构成证型的。这就是目前中医智能辨证领域中共同存在证型***问题。

如图1所示，本实施例还提供了一种有向图的中医量化诊断方法，详细步骤表述如下：

步骤一：按十折交叉验证方法从原始数据中划分训练数据train_data和测试数据test_data；

步骤二：For标签向量L中的每个标签l执行步骤三——步骤五；

步骤三：依照权重确定方法，利用train_data数据计算各个特征的点式互信息然后将点式互信息归一化处理作为每个特征的权重信息；

步骤四：在所有test_data数据中，依照公式(1)计算取自test_data数据的每一个未知事例与train_data事例之间对应的权重，选出K个权重最大的事例N(K)；

步骤五：End for。

为了说明本方法的有效性，我们进行了相关实验:选择418诊次冠心病数据作为研究对象，利用模型对样本进行训练。***自动计算产生(症状，证型，权重)的三元组。为了便于加载和调用，后台将其转换为JSON格式进行存储，即{证型:{症状1:权重1,症状2:权重2……}} 下面以症状“心气不足”、“肺阴亏虚”为例进行说明：{'心气不足':{'心慌':0.17970033 096330984,'胸闷':0.1426162709006604,'头晕':0.09675323697280372,'头痛':0.06133919 561179082,'咽喉痛':0.54120158784469415,'腰部酸痛':0.049497041840412495,'双下肢凹陷性水肿':04621506196625556,'乏力':0.04621232129119378,'纳差':0.0407775007851630 54,'夜寐欠安':0.030477793526566727,'小便频':0.027262711151846412,'便秘':024742634905585082,'大便调':0.023804154276122487}}。

{'肺阴亏虚':{'心慌':0.14956935140308092,'胸闷':0.12866125182845342,'头晕':0. 08022981081402662,'头痛':0.05275585322018142,'咽喉痛':0.052129023680618475,'腰部酸痛':0.04847449413050493,'双下肢凹陷性水肿':04621506196625556,'乏力':0.04142249 1758973445,'纳差':032739345289794476,'夜寐欠安':0.028341493055174725,'小便频':0. 024742634905585082,'便秘':0.023804154276122487,'大便调':0.023528103602116983}}。

模型有效性测试：

从样本中随机抽取10％样本进行测试，进行10次随机抽样，计算结果与原始标注的诊断结果进行比对，一致的记为1，否则为0，计算模型的1-错误率,覆盖率,排序损失,平均精度，汉明损失，用于评价模型效果。

Claims

1.一种基于加权有向图的中医量化诊断***，其特征在于，包括：

权重计算模块，按照预定策略计算特征数据的权重；

有向图构造模块，根据所述权重与所述特征数据之间关系构造加权有向图；

推理诊断模块，将待检测的事例通过所述有向图构造模块进行推理，获取所述事例对应结果；

所述权重计算模块包括特征数据矩阵构建子模块、特征数据相关度确定子模块以及特征数据权重获取子模块；其中

具体包括：把特征数据按照症状和证型进行分类，再经过处理得到的矩阵形式，分别构建稀疏矩阵A和稀疏矩阵B；

所述特征数据权重获取子模块用于对所述特征数据的相关度进行标准化处理，获得所述特征数据的权重；

根据稀疏矩阵A、所述稀疏矩阵B，和稀疏矩阵A、所述稀疏矩阵B中元素的权重，构造三元组形成加权有向图；当某个症状所在证型越多时，相比较此证型中的其他症状而言，此症状对应该证型的权重应该较小；当某个证型的症状总数越少时，相比较此证型中某个症状在其他证型中的权重而言，该症状在此证型中的权重应该较大；

所述待检测的事例通过所述有向图构造模块进行推理的方法具体为：

2.根据权利要求1所述的一种基于加权有向图的中医量化诊断***，其特征在于，所述预定策略包括互信息计算方法、置信度计算方法和信息熵计算方法。

3.根据权利要求1所述的一种基于加权有向图的中医量化诊断***，其特征在于，所述特征数据矩阵构建子模块的数据处理过程为：

其中，稀疏矩阵A中的元素为a_mn，稀疏矩阵B中的元素为b_mn，矩阵Ci元素为c_mn，m表示矩阵中的列数，n表示矩阵中的行数，i表示矩阵Ci的下标数。

4.根据权利要求2或3任意一项所述的一种基于加权有向图的中医量化诊断***，其特征在于，所述特征数据相关度确定子模块用于根据所述稀疏矩阵A、稀疏矩阵B和稀疏矩阵C_i，按照互信息计算方法计算特征数据的相关度，具体为：

p(x,y)＝c_i＝x,n＝y (3)

其中，x表示症状、y表示证型，p(x)表示稀疏矩阵A中a_mn项在其所在列中出现的概率，a_mn是所述稀疏矩阵A中的元素，用0或1表示；p(y)表示所述稀疏矩阵B中b_mn项在其所在列中出现的概率，b_mn是所述稀疏矩阵B中的元素，用0或1表示；p(x,y)表示矩阵C中c_mn出现的概率，PMI(x,y)为所述稀疏矩阵A和所述稀疏矩阵B中每个元素同时出现的概率，m表示矩阵中的列数，n表示矩阵中的行数。

5.根据权利要求3所述的一种基于加权有向图的中医量化诊断***，其特征在于，所述特征数据权重获取子模块的处理过程为：

获取所述特征数据的相关度

计算所述特征数据的权重：WF＝(wf1,wf2,...wfk,...wfn),其中，

6.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有如权利要求1-5任意一项所述的中医量化诊断***。