CN106991283B - 一种基于分形技术的病案库构建方法 - Google Patents
一种基于分形技术的病案库构建方法 Download PDFInfo
- Publication number
- CN106991283B CN106991283B CN201710206758.4A CN201710206758A CN106991283B CN 106991283 B CN106991283 B CN 106991283B CN 201710206758 A CN201710206758 A CN 201710206758A CN 106991283 B CN106991283 B CN 106991283B
- Authority
- CN
- China
- Prior art keywords
- fractal
- medical record
- attribute
- attributes
- max
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005516 engineering process Methods 0.000 title claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000003638 chemical reducing agent Substances 0.000 claims abstract description 4
- 230000009467 reduction Effects 0.000 claims description 7
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract 3
- 238000000605 extraction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于分形技术的病案库构建方法;其包括输入数据集、尺度筛选、样本缩减、属性约简器、输出病案库;本发明基于分形技术抓取病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减与重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。本发明主要用于医院对于历史病案库进行分类、整理与分析,帮助医务人员基于历史病案认识疾病、诊治疾病和预防疾病。
Description
技术领域
本发明涉及一种病案库构建方法,尤其是一种基于分形技术的病案库构建方法。
背景技术
属性约简是指从数据集的原始属性集合中得到一个属性子集,该属性子集可以充分体现数据集的主要特征,具有和原始属性集合基本同等的区分能力。
这里,属性也常称为特征。属性约简主要存在两种基本途径:特征抽取(featureextraction)与特征选择(featureselection)。特征抽取主要分为线性特征抽取技术与非线性特征抽取技术,无论是线性还是非线性特征抽取技术,其输出的特征空间的属性都是人工构造的,和原有的特征空间的特征之间不存在明显对应关系,因而不便于人们理解。特征选择技术依据某个准则从众多原始特征中选择部分最能反映模式类别统计特性的相关特征,从而达到降低特征空间维度的效果。与特征抽取技术相比,该方法所得到的特征空间没有经过抽象的旋转及变换,便于最终结果的分析与理解,因而是在实际应用中比较常见的方法。
分形理论是现代非线性科学研究中十分活跃的一个数学分支,它的基本思想是利用整体与局部相似的特点,将一个复杂现象看成是由简单现象迭代而成,从而揭示复杂现象中所蕴含的规律和特性,特别适合于解决复杂问题。对于具有分形特征的物体而言,分形维数是一个重要的指标,它能够定量地描述分形集的复杂程度。近几年来,研究表明分形维数在数据挖掘领域有着非常特殊的作用,将分形技术应用于机器学习领域能够更好地克服传统机器学习技术的不足,更加有效地解决在结构复杂、高维数据集上的数据建模与分析问题。
其中,
现有技术一:“Fast feature selection using fractaldimension”中提出的基于分形维的特征选择方法FDR北京中星微电子有限公司黄英的专利《基于视频监控的人数统计方法和***》,于2009年01月7日向中国国家知识产权局申请专利并获得批准,于2009年01月8日公开,公开号为:CN101477641FDR算法的主要思想是每次删除对数据集整体分形维数影响最小的属性,最终保留分形维数与数据集整体分形维数的差值满足一定阈值要求的属性子集。
现有技术一的缺点:
目前已知分形维数算法的最优时间复杂度为O(NlogN)(N为数据点数目),为了每次删除对当前属性集分形维数影响最小的属性,FDR算法需要(E—D)(E+D+1)/2次(D为需要保留的属性数目,E为数据空间属性数目)扫描数据集并计算当前属性子集对应的分形维数,相应地,FDR算法总的时间复杂度为O(E NlogN)。从本质上分析,FDR算法仍然属于基于特征子集优劣的特征选择算法,引入了大量分形维数的计算工作,因而无法应用于高维数据特征选择工作.其中,现有技术二:闫光辉和李战怀于2008在计算机研究与发展上发表论文《两阶段无监督顺序前向分形属性规约算法》,研究了一种基于分形的属性规约方法。该方法首先利用分形对属性集进行相似属性分组和冗余属性排除,然后产生最大无关属性子集。此方法相比FDR算法在效率上有所提高。
现有技术二的缺点
该方法的缺点主要有:
1.该方法需要计算的分形维平均次数也较多。
1)相似属性分组时需要计算每个属性的分形维;
2)冗余属性排除时需要在每个相似属性分组中两两属性之间的计算分形维;
3)在利用前向算法向候选最大无关属性组中添加属性时也需要不断计算分形维。
2.该算法无法排除2个以上属性之间的依赖性。
3.该算法对数据集属性间相关性或冗余较小或较大时都不好。
发明内容
本发明的目的在于克服现有技术的不足,在此提供一种基于分形技术的病案库构建方法;本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
本发明是这样实现的,提供一种基于分形技术的病案库构建方法,其特征在于:包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(5)k←0
(6)do k←k+1
属性
(8)ds←计算属性子集D(S)的分形维数
(11)对Wk+1(A)作归一化处理
(12)until k=kmax;
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
本发明的优点在于:本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
附图说明
图1是本发明病案库维护流程。
具体实施方式
下面将对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进提供一种基于分形技术的病案库构建方法,可以按照如下实施;包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(5)k←0
(6)do k←k+1
(8)ds←计算属性子集D(S)的分形维数
(11)对Wk+1(A)作归一化处理
(12)until k=kmax;
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
考虑到实际数据分布的多样性和复杂性,仅以某一分形维数为特征难以区分单一分形集和多重分形集,为了能更准确地描述一个数据集的分形特征,本文使用了多重分形维数。
算法:计算多重分形维度
多重分形维数Dq采用推广G-P(Grassberger-Procaccia)算法计算。给定q值,Dq的计算方法如下:
步骤1:以r0为初值,13.14.增量Δr为步长,重复计算一系列离散r对应的q阶关联积分Cq(r)。
给定r的Cq(r)的计算方法如下:
若X为数据集,记为X={x1,x2,…,xN},其中,数据项xi具有M个属性,可以看作是M维空间中的点,由这些点组成M维欧氏空间中的一个子集。
定义xi到xj点的距离为dij。以xi点为中心、以r为半径作球,计算全部点均位于球内的概率,计算公式如下:
其中,δ(x)是Heaviside阶跃函数:
因此,q阶关联积分可以通过下式计算:
步骤2:确定分形标度区
根据步骤1中计算得到的一系列Cq(r)绘制ln Cq(r)-
lnr曲线。数据集具有多重分形性质,则ln Cq(r)-
lnr曲线中间有一段是直线,这段直线对应于分形标度区,记为[rmin,rmax]
步骤3:计算广义维数Dq
在分形标度区中用最小二乘法拟合其斜率,得到Dq的值。
本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (1)
1.一种基于分形技术的病案库构建方法,其特征在于:包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,
以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},A={A1,A1,…,Am}E表示包括n个元组的对象集,kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(5)k←0
(6)do k←k+1
(8)ds←计算属性子集D(S)的分形维数
(11)对Wk+1(A)作归一化处理
(12)until k=kmax;
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710206758.4A CN106991283B (zh) | 2017-03-31 | 2017-03-31 | 一种基于分形技术的病案库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710206758.4A CN106991283B (zh) | 2017-03-31 | 2017-03-31 | 一种基于分形技术的病案库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106991283A CN106991283A (zh) | 2017-07-28 |
CN106991283B true CN106991283B (zh) | 2020-07-17 |
Family
ID=59415926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710206758.4A Active CN106991283B (zh) | 2017-03-31 | 2017-03-31 | 一种基于分形技术的病案库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991283B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101881826A (zh) * | 2009-05-06 | 2010-11-10 | 中国人民解放军海军航空工程学院 | 扫描模式海杂波局部多重分形目标检测器 |
WO2012144695A1 (en) * | 2011-04-20 | 2012-10-26 | Im Co., Ltd. | Prostate cancer diagnosis device using fractal dimension value |
US8892388B2 (en) * | 2010-09-30 | 2014-11-18 | Schlumberger Technology Corporation | Box counting enhanced modeling |
CN104778481A (zh) * | 2014-12-19 | 2015-07-15 | 五邑大学 | 一种大规模人脸模式分析样本库的构建方法和装置 |
CN105824937A (zh) * | 2016-03-17 | 2016-08-03 | 合肥工业大学 | 一种基于二进制萤火虫算法的属性选择方法 |
-
2017
- 2017-03-31 CN CN201710206758.4A patent/CN106991283B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101881826A (zh) * | 2009-05-06 | 2010-11-10 | 中国人民解放军海军航空工程学院 | 扫描模式海杂波局部多重分形目标检测器 |
US8892388B2 (en) * | 2010-09-30 | 2014-11-18 | Schlumberger Technology Corporation | Box counting enhanced modeling |
WO2012144695A1 (en) * | 2011-04-20 | 2012-10-26 | Im Co., Ltd. | Prostate cancer diagnosis device using fractal dimension value |
CN104778481A (zh) * | 2014-12-19 | 2015-07-15 | 五邑大学 | 一种大规模人脸模式分析样本库的构建方法和装置 |
CN105824937A (zh) * | 2016-03-17 | 2016-08-03 | 合肥工业大学 | 一种基于二进制萤火虫算法的属性选择方法 |
Non-Patent Citations (5)
Title |
---|
两阶段无监督顺序前向分形属性规约算法;闫光辉,李战怀;《计算机研究与发展》;20081231;第45卷(第11期);全文 * |
分形技术在案例库维护中的应用;倪志伟 等;《计算机应用》;20090630;第29卷(第6期);引言、第1-4节 * |
基于分形理论的一种新的机器学习方法:分形学习;倪志伟 等;《中国科学技术大学学报》;20130430;第43卷(第4期);全文 * |
基于分形维数的属性约简;郭平 等;《计算机科学》;20071231;第34卷(第9期);全文 * |
基于分形维数的数据挖掘技术研究综述;倪丽萍 等;《计算机科学》;20081231;第35卷(第1期);第2-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN106991283A (zh) | 2017-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sussman et al. | A consistent adjacency spectral embedding for stochastic blockmodel graphs | |
US10073906B2 (en) | Scalable tri-point arbitration and clustering | |
US20070250522A1 (en) | System and method for organizing, compressing and structuring data for data mining readiness | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN110457405B (zh) | 一种基于血缘关系的数据库审计方法 | |
CN107292097B (zh) | 基于特征组的中医主症选择方法 | |
David et al. | Hierarchical data organization, clustering and denoising via localized diffusion folders | |
Deng et al. | An improved fuzzy clustering method for text mining | |
CN111125469B (zh) | 一种社交网络的用户聚类方法、装置以及计算机设备 | |
Ding et al. | A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search① | |
Shim et al. | Active cluster annotation for wafer map pattern classification in semiconductor manufacturing | |
CN114067915A (zh) | 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法 | |
Jia et al. | A Feature Weighted Spectral Clustering Algorithm Based on Knowledge Entropy. | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
Song et al. | Latent semantic analysis for vector space expansion and fuzzy logic-based genetic clustering | |
Mandal et al. | Unsupervised non-redundant feature selection: a graph-theoretic approach | |
De Araujo et al. | Automatic cluster labeling based on phylogram analysis | |
CN106991283B (zh) | 一种基于分形技术的病案库构建方法 | |
CN108664548B (zh) | 一种退化条件下的网络访问行为特征群体动态挖掘方法及*** | |
Kumar et al. | A new Initial Centroid finding Method based on Dissimilarity Tree for K-means Algorithm | |
Ramkumar et al. | An effective analysis of data clustering using distance-based K-means Algorithm | |
CN114118299A (zh) | 一种结合相似性度量和社区发现的聚类方法 | |
Umale et al. | Overview of k-means and expectation maximization algorithm for document clustering | |
Morvan et al. | Graph sketching-based space-efficient data clustering | |
Feng et al. | A genetic k-means clustering algorithm based on the optimized initial centers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |