CN111986815B - 基于共现关系的项目组合挖掘方法及相关设备 - Google Patents
基于共现关系的项目组合挖掘方法及相关设备 Download PDFInfo
- Publication number
- CN111986815B CN111986815B CN202010893345.XA CN202010893345A CN111986815B CN 111986815 B CN111986815 B CN 111986815B CN 202010893345 A CN202010893345 A CN 202010893345A CN 111986815 B CN111986815 B CN 111986815B
- Authority
- CN
- China
- Prior art keywords
- occurrence
- graph
- relation
- item
- treatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003745 diagnosis Methods 0.000 claims abstract description 86
- 201000010099 disease Diseases 0.000 claims abstract description 85
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 85
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000003814 drug Substances 0.000 claims description 52
- 238000010586 diagram Methods 0.000 claims description 31
- 238000012216 screening Methods 0.000 claims description 12
- 229940079593 drug Drugs 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 206010063385 Intellectualisation Diseases 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000009412 basement excavation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及数据处理领域,公开了一种基于共现关系的项目组合挖掘方法及相关设备,应用于智慧医疗领域。该方法通过对病历数据进行预处理,按照病种进行分类,并提取其中的治疗项目,并以治疗项目为图节点构建初始共现关系网络,并对其进行简化得到项目共现关系图,利用项目组合挖掘模型进行进行组合挖掘得到完全子图,基于完全子图输出治疗项目组合数据集,该方法与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况;同时还提高了医师的诊断效率,进一步的也为后续的医疗智能化提供了可能。此外,本发明还涉及区块链技术,治疗项目和共现关系可存储于区块链中。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种基于共现关系的项目组合挖掘方法及相关设备。
背景技术
随着医学电子病历的推广和普及,越来越多的临床病历被电子化和数据化,成为计算机可以直接处理的数据来源。而伴随着大数据技术的不断发展,人们越来越多的利用计算机技术手段分析来自患者和人群的大量医疗保健数据,获取有价值的隐含信息,用于辅助临床研究人员、临床医生、管理人员、研究人员以及卫生政策制定者.
目前,对于医疗临床上的医疗数据的分析,主要是对每个病种在临床上的病症的分析,以及对单个治疗项目的治疗效果和病理反应的分析,而对于在同一病种上应用多个治疗项目时所产生的关联关系的分析,虽然有一些揭示疾病之间关联关系的方法在进行共病综合征治疗的研究时会对相关性进行分析,但是这些关联方法并不符合医学临床研究的习惯,从而很难和临床研究对接,或者无法很好地体现治疗项目之间的关联关系。
发明内容
本发明的主要目的是为了解决现有技术中,对于在同病种上同时使用多个治疗项目时难以实现对其相关性的分析,而使得诊断效率较低的技术问题。
本发明第一方面提供了一种基于共现关系的项目组合挖掘方法,所述基于共现关系的项目组合挖掘方法包括:
获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集。
可选地,在本发明第一方面的第一种实现方式中,所述以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图包括:
从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
计算所述项目组合在所述病历数据同时出现的概率;
判断所述概率是否满足初始共现条件;
若满足,则在所述项目组合之间添加一条边,形成初始共现关系网络;
在所有项目组合完成边添加后,输出项目共现关系图。
可选地,在本发明第一方面的第二种实现方式中,所述项目组合包括第一治疗项目和第二治疗项目,所述计算所述项目组合在所述病历数据同时出现的概率包括:
统计所述病历数据中所述第一治疗项目和第二治疗项目在同一诊断单中同时出现的第一次数,以及所述第一治疗项目在诊断单中单独出现的第二次数和所述第二治疗项目在诊断单中单独出现的第三次数;
根据所述第一次数和第二次数,计算所述项目组合相对于所述第一治疗项目的第一出现概率;
根据所述第一次数和第三次数,计算所述项目组合相对于所述第二治疗项目的第二出现概率。
可选地,在本发明第一方面的第三种实现方式中,所述判断所述概率是否满足共现关系构建条件包括:
将所述第一出现概率和第二出现概率,分别与初始共现条件进行比较;
若所述第一出现概率和所述第二出现概率同时满足所述初始共现条件,则确定所述项目组合为同一病种的绑定治疗项目;
若所述第一出现概率和所述第二出现概率中至少存在一个不满足所述初始共现条件,则确定所述项目组合为同一病种的非绑定治疗项目。
可选地,在本发明第一方面的第四种实现方式中,所述通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构包括:
提取所述项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较,其中所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例;
若低于所述权重值,则将对应的边从所述第一图节点上删除;
在所述项目共现关系图中所有的图节点均完成比较后,输出网络关系结构。
可选地,在本发明第一方面的第五种实现方式中,所述基于所述网络关系结构调整所述项目共现关系图,得到完全子图包括:
遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;
随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;
判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;
若等于,则确定所述布局关系图为完全子图。
可选地,在本发明第一方面的第六种实现方式中,在所述基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集之后,还包括:
提取每个病种对应的药品信息,以及药品之间的关联关系;
根据所述药品信息和对应的关联关系,构建与所述病种对应的药品共现关系图;
根据预置药品组合挖掘模型,对所述药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
本发明第二方面提供了一种基于共现关系的项目组合挖掘装置,所述基于共现关系的项目组合挖掘装置包括:
数据获取模块,用于获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
预处理模块,用于对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
构建模块,用于以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
挖掘模块,用于通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
生成模块,用于基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集。
可选地,在本发明第二方面的第一种实现方式中,所述构建模块包括:
遍历单元,用于从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
第一计算单元,用于计算所述项目组合在所述病历数据同时出现的概率;
第一判断单元,用于判断所述概率是否满足初始共现条件;
创建单元,用于在所述概率满足初始共现条件时,在所述项目组合之间添加一条边,形成初始共现关系网络;在所有项目组合完成边添加后,输出项目共现关系图。
可选地,在本发明第二方面的第二种实现方式中,所述项目组合包括第一治疗项目和第二治疗项目,所述第一计算单元具体用于:
统计所述病历数据中所述第一治疗项目和第二治疗项目在同一诊断单中同时出现的第一次数,以及所述第一治疗项目在诊断单中单独出现的第二次数和所述第二治疗项目在诊断单中单独出现的第三次数;
根据所述第一次数和第二次数,计算所述项目组合相对于所述第一治疗项目的第一出现概率;
根据所述第一次数和第三次数,计算所述项目组合相对于所述第二治疗项目的第二出现概率。
可选地,在本发明第二方面的第三种实现方式中,所述第一判断单元具体用于:
将所述第一出现概率和第二出现概率,分别与初始共现条件进行比较;
在所述第一出现概率和所述第二出现概率同时满足所述初始共现条件时,确定所述项目组合为同一病种的绑定治疗项目;以及在所述第一出现概率和所述第二出现概率中至少存在一个不满足所述初始共现条件时,确定所述项目组合为同一病种的非绑定治疗项目。
可选地,在本发明第二方面的第四种实现方式中,所述挖掘模块包括:
比较单元,用于提取所述项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较,其中所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例;
删除单元,用于在所述概率低于所述权重值时,将对应的边从所述第一图节点上删除;
输出单元,用于在所述项目共现关系图中所有的图节点均完成比较后,输出网络关系结构。
可选地,在本发明第二方面的第五种实现方式中,所述挖掘模块还包括:
筛选单元,用于遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;
第二计算单元,用于随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;
第二判断单元,用于判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;
确定单元,用于在所述总边数等于所述边数阈值时,确定所述布局关系图为完全子图。
可选地,在本发明第二方面的第六种实现方式中,所述基于共现关系的项目组合挖掘装置还包括优化模块,其具体用于:
提取每个病种对应的药品信息,以及药品之间的关联关系;
根据所述药品信息和对应的关联关系,构建与所述病种对应的药品共现关系图;
根据预置药品组合挖掘模型,对所述药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
本发明第三方面提供了一种基于共现关系的项目组合挖掘设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于共现关系的项目组合挖掘设备执行上述的基于共现关系的项目组合挖掘方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的基于共现关系的项目组合挖掘方法。
本发明提供的技术方案中,通过对病历数据进行预处理,按照病种进行分类,并提取其中的治疗项目,并以治疗项目为图节点构建初始共现关系网络,并对其进行简化得到项目共现关系图,利用项目组合挖掘模型进行进行组合挖掘得到完全子图,基于完全子图输出治疗项目组合数据集,该方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况;同时还为医师在诊断出具体的病种后,通过确定其中一个治疗项目后,直接搜索治疗项目组合数据集即可得到必须关联的治疗项目推荐,大大提高了医师的诊断效率,进一步的也为后续的医疗智能化提供了可能。
附图说明
图1为本发明实施例中基于共现关系的项目组合挖掘方法的第一个实施例示意图;
图2为本发明实施例中基于共现关系的项目组合挖掘方法的第二个实施例示意图;
图3为本发明实施例中基于共现关系的项目组合挖掘方法的第三个实施例示意图;
图4为本发明实施例中基于共现关系的项目组合挖掘方法的第四个实施例示意图;
图5为本发明实施例中治疗项目集的示意图;
图6为本发明实施例中完全子图的示意图;
图7为本发明实施例中基于共现关系的项目组合挖掘装置的一个实施例示意图;
图8为本发明实施例中基于共现关系的项目组合挖掘装置的另一个实施例示意图;
图9为本发明实施例中基于共现关系的项目组合挖掘设备的一个实施例示意图。
具体实施方式
针对于现有技术中的缺陷,本申请提出了一种通过诊疗项目组合图挖掘模型对同病种中的多个治疗项目的共现关系的挖掘方法,具体是基于共现关系的图挖掘模型来挖掘不同诊疗项目之间的组合关系,以确定同病种在治疗时需同时出现的治疗项目,在医师进行诊断时,可以基于其组合关系快速给患者提供对应的治疗方案,大大缩短了就诊时间,同时也提高了医师的诊断效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于共现关系的项目组合挖掘方法的第一个实施例包括:
101、获取临床数据,并提取临床数据中的病历数据,该病历数据包括至少两个诊断单;
该步骤中,具体可以通过同一提供的数据分析平台上的接口来获取临床数据,例如通过基于移动互联网通信协议提供的安全传输接口,用户可以通过账号登录该安全传输接口直接访问各个医疗机构的临床数据,具体的在调取安全传输接口的同时还调用数据采集程序读取访问医疗机构中的临床数据库,从而对数据库中的临床数据进行抓取。
其中,所述临床数据包括诊断单,所述诊断单包括患者数据信息、诊断信息和医治信息,其诊断信息包括诊断结果,医治信息包括医治疗项目和每个项目的用药信息。
102、对病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
本实施例中,所述预处理包括特征提取、数据筛选和聚类处理等多个步骤,具体的在对所述病历数据进行预处理时,包括:
对所述病历数据进行筛选处理,将其中的非诊断单的信息识别出来,并将非诊断单从其中删除,得到诊断单集合;
利用病种知识图谱对所述诊断单集合中的每个诊断单进行病症提取,基于提取的病症匹配出具体的疾病名称;
利用聚类算法将所述诊断单集合中形同疾病名称的诊断单归为一类,得到疾病数据组;
进一步的,对每个疾病数据组中的诊断单进行病案分类,以及对每个病案对应的诊断单进行治疗项目的提取,形成项目集合。
例如:对病历数据进行预处理,筛选出某一病种的所有病案,记所有病案数为n。将患者在住院治疗过程中使用的诊疗项目(药品或检验检查项目)转换为项目集合{ai1,ai2,…aik},其中下标i为病案标号,k为患者接受的诊疗项目。
103、以所有治疗项目作为图节点,构建各图节点之间的初始共现关系网络,得到项目共现关系图;
该步骤中,其在构建项目共现关系图时具体可以是根据完全图的构建方式进行构建,首先以从病历数据中提取到的所有治疗项目作为节点,然后将每个节点相互连接,得到初始完全图,基于该初始完全图计算节点之间的边的介数,基于该介数判断该节点与其他节点的关联关系是否满足预设条件,若满足,则保留边的连接,反之则删除,从而构建出初始共现关系网络,得到项目共现关系图。
在实际应用中,可以通过python networkx模块的探测算法探测完全图中两节点之间的最短路径,并计算两节点之间的介数(betweenness),探测两节点之间的最短路径具体实现步骤为:
对所述完全图中的模块结构进行识别,可选的,以所述完全图中的每个节点为中心节点,搜索与其相连的节点,若搜索到的节点数量级别达到构成模块的数量级别时,则记录该模块,并计算该模块中两节点之间的介数。
具体的计算两节点之间连接的所有路径的边介数,并选择介数值最小的一条作为两模块之间的路径,从而得到两节点之间的共现关系。
104、通过预置项目组合挖掘模型,对项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于网络关系结构调整项目共现关系图,得到完全子图;
在本实施例中,所述项目组合挖掘模型指的是基于自然语言技术对各种病种在临床上治疗成功医疗数据中的治疗项目的学习,得到可以识别每个诊断单中的治疗项目共现关系的检测模型。
通过该模型对不同医疗项目之间的关系进行分析挖掘,得到临床中经常一起出现的诊疗项目,并建立两者之间的共现关系以及在该共现关系下与病种的对应关系。
在实际应用中,通过该模型对初始共现关系网络进行简化的同时,还包括对治疗项目按照把不同病种进行分类,在提取出病历数据中的所有治疗项目后,利用该模型进行简化,得到网络关系结构,基于网络关系结构按照同一病种进行归类,得到多个完全子图,然后将完全子图上的所有节点对应的治疗项目转换为治疗项目集,得到分类图,如图5所示。
105、基于完全子图中图节点之间的网络关系,生成与病种对应的治疗项目组合数据集。
该步骤中,具体是利用自然语言算法提取每个完全子图中的治疗项目的实体特征,根据所述实体特征构建出对应的医疗知识图谱,并建立该医疗知识图谱与病种之间的对应关系,从而形成治疗项目组合数据集。
通过上述方法的实施,基于实际诊疗数据,基于共现关系的图挖掘模型来挖掘不同诊疗项目之间的组合关系。该方法采用图的方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况;同时还为医师在诊断出具体的病种后,通过确定其中一个治疗项目后,直接搜索治疗项目组合数据集即可得到必须关联的治疗项目推荐,大大提高了医师的诊断效率。
请参阅图2,本发明实施例中基于共现关系的项目组合挖掘方法的第二个实施例包括:
201、获取临床数据,并提取临床数据中的多个诊断单;
202、对病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
203、从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
该步骤中,具体可以通过随算法从所有治疗项目中一个作为主节点,与剩下的治疗项目遍历,形成项目组合,在该主节点完成后,继续选择下一个治疗项目作为主节点进行组合,直到所有治疗项目遍历组合完成后,对所有组合进行去重筛选,得到项目组合。
在实际应用中,这里的去重是仅判断组合中的治疗项目是否相同,而不做组合连接方向的识别,即是A→B和B→A是重复的组合,当然这里的治疗项目组合不仅限于两个项目组合,可以是三个以上。
204、计算项目组合在病历数据同时出现的概率;
在实际应用中,对于多个治疗项目同时使用的场景主要是与诊断单为单位进行评判,对于不同诊断单之间的不进行评判,也即是说,共现关系指的是在同一种疾病上同时使用以对患者治疗的关系,而在同一种疾病中,是存在多个病症或者是多症状的同时出现,对此,在临床上是需要选择不同的治疗项目对症下药,此外,还需要判断不同治疗项目之前是否存在冲突性,可见这里的共现关系,除了共存关系之外,还包括不共存的关系。
205、判断概率是否满足初始共现条件;
该步骤中,初始共现条件包括治疗项目与治疗项目之间在临床试验上被同时使用的概率,这是临床试验上的概率,在实际应用中,其还是会根据治疗项目本身的临床反映进行适应的调整。
206、若满足,则在项目组合之间添加一条边,形成初始共现关系网络;
在本实施例中,项目组合中的治疗项目之间添加的边,是以两者之间的最短路径进行连接,而最短路径的等到具体是治疗项目中连接的多个路径中的介数来实现,从而形成初始共现关系网络。
207、在所有项目组合完成边添加后,输出项目共现关系图;
该步骤中,具体是根据项目组合中的初始共现关系网络构建出所有治疗项目之间的共现关系图,具体的还包括对组合与组合之间的共现关系进行计算,其计算原理与组合中的治疗项目的共现关系计算原理相同,这里不重复赘述。
208、通过预置项目组合挖掘模型,对项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于网络关系结构调整项目共现关系图,得到完全子图;
在本实施例中,所述项目组合挖掘模型指的是由深度神经网络对诊断单中治疗项目学习训练得到的,具体是提取历史的诊断单中的治疗项目进行组合,形成训练集,基于训练集采用回归算法进行回归处理后,并划分为训练集和验证集,基于训练集对深度神经网络进行训练,得到模型雏形,基于验证集对模型雏形进行验证,验证结果与验证集对应的诊断单中的治疗项目同时出现的概率达到阈值后,形成项目组合挖掘模型。
基于该项目组合挖掘模型对初始共现关系图中的边进行简化,这里的简化指的是删除或者修改。
然后,通过随机组合算法选择简化后的图中的若干个图节点进行组合,形成关系子图,计算关系子图中的每个节点的连接边数是否满足完全子图的组合公式,若满足,则将该关系子图输出为完全子图。
209、基于完全子图中图节点之间的网络关系,生成与病种对应的治疗项目组合数据集。
通过本实施例方法的实施例,基于共现关系的图挖掘模型来挖掘不同诊疗项目之间的组合关系。该方法采用图的方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况;同时还为医师在诊断出具体的病种后,通过确定其中一个治疗项目后,直接搜索治疗项目组合数据集即可得到必须关联的治疗项目推荐,大大提高了医师的诊断效率。
请参阅图3,本发明实施例中基于共现关系的项目组合挖掘方法的第三个实施例包括:
301、获取临床数据,并提取临床数据中的病历数据,该病历数据包括至少两个诊断单;
302、对病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
303、从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
本实施例中,对于步骤301-303与上述实施例中的步骤201-203的实现原理相同,这里不再赘述。
304、统计病历数据中第一治疗项目和第二治疗项目在同一诊断单中同时出现的第一次数,以及第一治疗项目在诊断单中单独出现的第二次数和第二治疗项目在诊断单中单独出现的第三次数;
305、根据第一次数和第二次数,计算项目组合相对于第一治疗项目的第一出现概率;
306、根据第一次数和第三次数,计算项目组合相对于第二治疗项目的第二出现概率;
在实际应用中,在统计第一次数、第二次数和第三次数时,具体可以是直接从病历数据中分别统计第一治疗项目和第二治疗项目同时出现的诊断单数量,以该诊断单数量作为第一次数,然后再从病历数据中统计存在第一治疗项目诊断单数量,以该诊断单数量作为第二次数,进一步的再从病历数据中统计存在第二治疗项目诊断单数量,以该诊断单数量作为第三次数;
进一步的,还可以通过以下方式来统计,首先统计病历数据中单独存在第一治疗项目或单独存在第二治疗项目的诊断单数量,然后再从这两种治疗项目的诊断单中统计两个治疗项目同时出现的诊断单数量,最后基于这三个参数计算拿出第一出现概率和第二出现概率。
307、将第一出现概率和第二出现概率,分别与初始共现条件进行比较;
308、若第一出现概率和第二出现概率同时满足初始共现条件,则确定项目组合为同一病种的绑定治疗项目;
309、若第一出现概率和第二出现概率中至少存在一个不满足初始共现条件,则确定项目组合为同一病种的非绑定治疗项目;
在实际应用中,当构建的项目共现关系图为G(v,e,w)时,其中v表示节点,即为所有的诊疗项目,e为节点之间的边。
具体的,所述初始共现条件为最小支持度,而判断满足初始共现条件具体的实现为:
项目a,b满足共现关系时在项目a,b之间添加一条边。其中满足初始共现条件定义为:
且/>
其中minsup是最小支持度,是个经验性的参数,由用户自定义变量,其取值越大表明共现关系越严格,通常通过实验确定,取值在0.8-0.95之间。基于所有患者的项目集合,对诊疗项目的任意两两组合判断是否满足共现关系,当满足共现关系即在两节点间增加一条边。
310、若满足,则在项目组合之间添加一条边,形成初始共现关系网络;
311、在所有项目组合完成边添加后,输出项目共现关系图;
312、通过预置项目组合挖掘模型,对项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于网络关系结构调整项目共现关系图,得到完全子图;
313、基于完全子图中图节点之间的网络关系,生成与病种对应的治疗项目组合数据集。
该方法主要是基于实际诊疗数据,基于共现关系的图挖掘模型来挖掘不同诊疗项目之间的组合关系。该方法采用图的方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况。
进一步的,基于该种方式以其中的一个治疗项目为基点,按照病种和共现关系进行治疗项目的挖掘,基于挖掘到的治疗项目,医师在诊断时可以根据治疗项目确定具体的病种,然后通过其中一个治疗项目后,直接搜索治疗项目组合数据集即可得到必须关联的治疗项目推荐,大大提高了医师的诊断效率。
请参阅图4,本发明实施例中基于共现关系的项目组合挖掘方法的第四个实施例包括:
401、获取临床数据,并提取临床数据中的病历数据,该病历数据包括至少两个诊断单;
402、对病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
403、以所有治疗项目作为图节点,构建各图节点之间的初始共现关系网络,得到项目共现关系图;
本实施例中,对于步骤401-403与上述实施例中的步骤201-203的实现原理相同,这里不再赘述。
404、提取项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较;
在该步骤中,所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例。
405、若低于权重值,则将对应的边从第一图节点上删除;
406、在项目共现关系图中所有的图节点均完成比较后,输出网络关系结构;
在实际应用中,为了简化图挖掘复杂程度,需要对项目共现关系图进行一定的简化。一般可以将预设概率值设为权重阈值,将低于阈值的边删除,然后在去除那些0度节点,0度节点指与任何节点都没有边的节点。
在本实施例中,当构建的项目共现关系图为完全图时,也即是说其构建的项目共现关系图中任意两个节点都存在一条边的图,在上述项目共现关系图中的完全图意味任意两个项目都满足共现关系,即都是经常一起出现的。最大完全子图指的是再增加任何一个节点,这个图就不是完全图。
而从上述的项目共现关系图中提取完全子图,具体是使用NetworkX挖掘其中所有的最大完全子图,即可找出所有经常一起出现的项目,
在本实施例中,提取完全子图,具体包括:
所述基于所述网络关系结构调整所述项目共现关系图,得到完全子图包括:
遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;
随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;
判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;
若等于,则确定所述布局关系图为完全子图,而得到的完全子图具体如图6所示。
407、基于完全子图中图节点之间的网络关系,生成与病种对应的治疗项目组合数据集;
408、提取每个病种对应的药品信息,以及药品之间的关联关系;
409、根据药品信息和对应的关联关系,构建与病种对应的药品共现关系图;
410、根据预置药品组合挖掘模型,对药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
本实施例中,具体的从获取到的病历数据中识别出药品实体;
提取到的药品实体进行预处理,病种和药品实体的共现矩阵;
采用朴素贝叶斯模型计算上述共现矩阵中每对节点之间关系存在的置信度值IMPT,或采用NoisyOR模型计算获取步骤B中共现矩阵中每对节点之间关系存在的置信度值IMPT;
对所有置信度值按照从大到小进行排名,以前n个或置信度置大于某一阀值的关系为边,以所有的药品实体为节点构建药品共现关系图;
基于药品共现关系图,调用药品组合挖掘模型,对所述药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
在实际应用中,其构建的药品共现关系图实质上可以理解为是药片的适应症的关系图,具体是通过提取应用于同一病种中的药品的适用症,基于基于适用症来构建药品组合和关系图,然后关系图中所有适用症中随机选择一个治疗项目作为主节点,遍历其余的适应症,并与每个适应症形成项目组合;
计算所述项目组合在所述病历数据同时出现的概率;
判断所述概率是否满足初始共现条件;
若满足,则在所述项目组合之间添加一条边,形成初始共现关系网络;
在所有项目组合完成边添加后,输出药品共现关系图。
通过上述方案的实施,基于实际诊疗数据,基于共现关系的图挖掘模型来挖掘不同诊疗项目之间的组合关系。该方法采用图的方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况。
上面对本发明实施例中基于共现关系的项目组合挖掘方法进行了描述,下面对本发明实施例中基于共现关系的项目组合挖掘装置进行描述,请参阅图7,本发明实施例中基于共现关系的项目组合挖掘装置的第一个实施例包括:
数据获取模块701,用于获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
预处理模块702,用于对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
构建模块703,用于以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
挖掘模块704,用于通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
生成模块705,用于基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集。
在本实施例中,所述基于共现关系的项目组合挖掘装置运行上述基于共现关系的项目组合挖掘方法,该方法通过对病历数据进行预处理,按照病种进行分类,并提取其中的治疗项目,并以治疗项目为图节点构建初始共现关系网络,并对其进行简化得到项目共现关系图,利用项目组合挖掘模型进行进行组合挖掘得到完全子图,基于完全子图输出治疗项目组合数据集,该方法展示各种诊疗项目在临床实际过程中的组合使用情况,不仅简捷明了,而且与临床实际相贴合,能真实反映临床治疗过程中各种项目的组合使用情况;同时还为医师在诊断出具体的病种后,通过确定其中一个治疗项目后,直接搜索治疗项目组合数据集即可得到必须关联的治疗项目推荐,大大提高了医师的诊断效率,进一步的也为后续的医疗智能化提供了可能。
请参阅图8,本发明实施例中基于共现关系的项目组合挖掘装置的第二个实施例,该基于共现关系的项目组合挖掘装置具体包括:
数据获取模块701,用于获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
预处理模块702,用于对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
构建模块703,用于以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
挖掘模块704,用于通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
生成模块705,用于基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集。
可选地,所述构建模块703包括:
遍历单元7031,用于从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
第一计算单元7032,用于计算所述项目组合在所述病历数据同时出现的概率;
第一判断单元7033,用于判断所述概率是否满足初始共现条件;
创建单元7034,用于在所述概率满足初始共现条件时,在所述项目组合之间添加一条边,形成初始共现关系网络;在所有项目组合完成边添加后,输出项目共现关系图。
可选地,所述项目组合包括第一治疗项目和第二治疗项目,所述第一计算单元7032具体用于:
统计所述病历数据中所述第一治疗项目和第二治疗项目在同一诊断单中同时出现的第一次数,以及所述第一治疗项目在诊断单中单独出现的第二次数和所述第二治疗项目在诊断单中单独出现的第三次数;
根据所述第一次数和第二次数,计算所述项目组合相对于所述第一治疗项目的第一出现概率;
根据所述第一次数和第三次数,计算所述项目组合相对于所述第二治疗项目的第二出现概率。
可选地,所述第一判断单元7033具体用于:
将所述第一出现概率和第二出现概率,分别与初始共现条件进行比较;
在所述第一出现概率和所述第二出现概率同时满足所述初始共现条件时,确定所述项目组合为同一病种的绑定治疗项目;以及在所述第一出现概率和所述第二出现概率中至少存在一个不满足所述初始共现条件时,确定所述项目组合为同一病种的非绑定治疗项目。
可选地,所述挖掘模块704包括:
比较单元7041,用于提取所述项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较,其中所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例;
删除单元7042,用于在所述概率低于所述权重值时,将对应的边从所述第一图节点上删除;
输出单元7043,用于在所述项目共现关系图中所有的图节点均完成比较后,输出网络关系结构。
可选地,所述挖掘模块704还包括:
筛选单元7044,用于遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;
第二计算单元7045,用于随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;
第二判断单元7046,用于判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;
确定单元7047,用于在所述总边数等于所述边数阈值时,确定所述布局关系图为完全子图。
其中,所述基于共现关系的项目组合挖掘装置还包括优化模块705,其具体用于:
提取每个病种对应的药品信息,以及药品之间的关联关系;
根据所述药品信息和对应的关联关系,构建与所述病种对应的药品共现关系图;
根据预置药品组合挖掘模型,对所述药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
上面图7和图8从模块化功能实体的角度对本发明实施例中的基于共现关系的项目组合挖掘装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于共现关系的项目组合挖掘设备进行详细描述,而基于共现关系的项目组合挖掘装置可以插件的形式设置与所述基于共现关系的项目组合挖掘设备实现对治疗项目之间的共现关系的挖掘,提取病种之中不同治疗项目使用组合。
图9是本发明实施例提供的一种基于共现关系的项目组合挖掘设备的结构示意图,该基于共现关系的项目组合挖掘设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图9示没标出),每个模块可以包括对基于共现关系的项目组合挖掘设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在基于共现关系的项目组合挖掘设备600上执行存储介质630中的一系列指令操作,以实现上述基于共现关系的项目组合挖掘方法的步骤。
基于共现关系的项目组合挖掘设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作***631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图9示出的基于共现关系的项目组合挖掘设备结构并不构成对本申请提供的基于共现关系的项目组合挖掘设备的限定,可以包括比图9示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述各实施例提供的基于共现关系的项目组合挖掘方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于共现关系的项目组合挖掘方法,其特征在于,所述基于共现关系的项目组合挖掘方法包括:
获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集;
所述通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构包括:提取所述项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较,其中所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例;若低于所述权重值,则将对应的边从所述第一图节点上删除;在所述项目共现关系图中所有的图节点均完成比较后,输出网络关系结构;
所述基于所述网络关系结构调整所述项目共现关系图,得到完全子图包括:遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;若等于,则确定所述布局关系图为完全子图。
2.根据权利要求1所述的基于共现关系的项目组合挖掘方法,其特征在于,所述以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图包括:
从所有治疗项目中随机选择一个治疗项目作为主节点,遍历其余的治疗项目,并与每个治疗项目形成项目组合;
计算所述项目组合在所述病历数据同时出现的概率;
判断所述概率是否满足初始共现条件;
若满足,则在所述项目组合之间添加一条边,形成初始共现关系网络;
在所有项目组合完成边添加后,输出项目共现关系图。
3.根据权利要求2所述的基于共现关系的项目组合挖掘方法,其特征在于,所述项目组合包括第一治疗项目和第二治疗项目,所述计算所述项目组合在所述病历数据同时出现的概率包括:
统计所述病历数据中所述第一治疗项目和第二治疗项目在同一诊断单中同时出现的第一次数,以及所述第一治疗项目在诊断单中单独出现的第二次数和所述第二治疗项目在诊断单中单独出现的第三次数;
根据所述第一次数和第二次数,计算所述项目组合相对于所述第一治疗项目的第一出现概率;
根据所述第一次数和第三次数,计算所述项目组合相对于所述第二治疗项目的第二出现概率。
4.根据权利要求3所述的基于共现关系的项目组合挖掘方法,其特征在于,所述判断所述概率是否满足共现关系构建条件包括:
将所述第一出现概率和第二出现概率,分别与初始共现条件进行比较;
若所述第一出现概率和所述第二出现概率同时满足所述初始共现条件,则确定所述项目组合为同一病种的绑定治疗项目;
若所述第一出现概率和所述第二出现概率中至少存在一个不满足所述初始共现条件,则确定所述项目组合为同一病种的非绑定治疗项目。
5.根据权利要求1-4中任一项所述的基于共现关系的项目组合挖掘方法,其特征在于,在所述基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集之后,还包括:
提取每个病种对应的药品信息,以及药品之间的关联关系;
根据所述药品信息和对应的关联关系,构建与所述病种对应的药品共现关系图;
根据预置药品组合挖掘模型,对所述药品共现关系图进行简化处理,并基于简化处理后的结果生成药品组合数据集。
6.一种基于共现关系的项目组合挖掘装置,其特征在于,所述基于共现关系的项目组合挖掘装置包括:
数据获取模块,用于获取临床数据,并提取所述临床数据中的病历数据,其中所述病历数据包括至少两个诊断单;
预处理模块,用于对所述病历数据进行预处理,将诊断结果属于相同病种的诊断单进行聚类,并从聚类后的诊断单中提取出对应病种的所有病案、每个病案对应的治疗项目;
构建模块,用于以所有治疗项目作为图节点,构建各所述图节点之间的初始共现关系网络,得到项目共现关系图;
挖掘模块,用于通过预置项目组合挖掘模型,对所述项目共现关系图中的初始共现关系网络进行简化处理,得到网络关系结构,并基于所述网络关系结构调整所述项目共现关系图,得到完全子图;
生成模块,用于基于所述完全子图中图节点之间的网络关系,生成与所述病种对应的治疗项目组合数据集;
所述挖掘模块包括:比较单元,用于提取所述项目共现关系图中第一图节点与其他图节点的概率,分别与预设的权重值进行比较,其中所述第一图节点为当前选择简化的图节点,所述其他节点为除去第一图节点之外的图节点,所述权重值为同时使用两个医疗项目数据的病案数与总病案数的比例;删除单元,用于在所述概率低于所述权重值时,将对应的边从所述第一图节点上删除;输出单元,用于在所述项目共现关系图中所有的图节点均完成比较后,输出网络关系结构;
所述挖掘模块还包括:筛选单元,用于遍历所有图节点,筛选出零度节点,并将所述零度节点从所述初始共现关系网络中删除,其中,所述零度节点为其自身与任何图节点都没有边的图节点;第二计算单元,用于随机选择N个图节点,并计算由所述N个图节点组成的局部关系图的总边数;第二判断单元,用于判断所述总边数是否等于边数阈值,其中所述边数阈值等于N*(N-1)/2,N大于等于2;确定单元,用于在所述总边数等于所述边数阈值时,确定所述布局关系图为完全子图。
7.一种基于共现关系的项目组合挖掘设备,其特征在于,所述基于共现关系的项目组合挖掘设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于共现关系的项目组合挖掘设备执行如权利要求1-5中任一项所述的基于共现关系的项目组合挖掘方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于共现关系的项目组合挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010893345.XA CN111986815B (zh) | 2020-08-31 | 2020-08-31 | 基于共现关系的项目组合挖掘方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010893345.XA CN111986815B (zh) | 2020-08-31 | 2020-08-31 | 基于共现关系的项目组合挖掘方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986815A CN111986815A (zh) | 2020-11-24 |
CN111986815B true CN111986815B (zh) | 2024-06-18 |
Family
ID=73440385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010893345.XA Active CN111986815B (zh) | 2020-08-31 | 2020-08-31 | 基于共现关系的项目组合挖掘方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986815B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590777A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能*** |
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218397B (zh) * | 2013-03-12 | 2016-03-02 | 浙江大学 | 一种基于无向图修改的社交网络隐私保护方法 |
-
2020
- 2020-08-31 CN CN202010893345.XA patent/CN111986815B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能*** |
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111986815A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868856B2 (en) | Systems and methods for topological data analysis using nearest neighbors | |
US11922348B2 (en) | Generating final abnormality data for medical scans based on utilizing a set of sub-models | |
US7809660B2 (en) | System and method to optimize control cohorts using clustering algorithms | |
US20160267397A1 (en) | Systems and methods for predicting outcomes using a prediction learning model | |
Jacob et al. | Data mining in clinical data sets: a review | |
CN111180024B (zh) | 基于词频逆文档频率的数据处理方法、装置和计算机设备 | |
Gabriel et al. | Identifying and characterizing highly similar notes in big clinical note datasets | |
Duggal et al. | Improving patient matching: single patient view for Clinical Decision Support using Big Data analytics | |
Afeni et al. | Hypertension prediction system using naive bayes classifier | |
US20240161035A1 (en) | Multi-model medical scan analysis system and methods for use therewith | |
Rabie et al. | A decision support system for diagnosing diabetes using deep neural network | |
Ullah et al. | Detecting High‐Risk Factors and Early Diagnosis of Diabetes Using Machine Learning Methods | |
Alam et al. | Classification of Covid-19 vaccine data screening with Naive Bayes algorithm using Knowledge Discovery in database method | |
CN111986815B (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
US20220051114A1 (en) | Inference process visualization system for medical scans | |
CN109522331B (zh) | 以个人为中心的区域化多维度健康数据处理方法及介质 | |
Buragadda et al. | Multi Disease Classification System Based on Symptoms using The Blended Approach | |
US20150339602A1 (en) | System and method for modeling health care costs | |
US20220157442A1 (en) | Systems and methods for providing health care search recommendations | |
US20230195763A1 (en) | Systems and methods for providing health care search recommendations | |
Saravanan et al. | Optimized attribute selection using artificial plant (ap) algorithm with esvm classifier (ap-esvm) and improved singular value decomposition (isvd)-based dimensionality reduction for large micro-array biological data | |
Amruth et al. | Big Data Application in Cancer Classification by Analysis of RNA-seq Gene Expression | |
SANDHYA et al. | CLINICAL DECISION SUPPORT SYSTEM ON COPD PREDICTION USING BIG DATA ANALYTICS WITH IMPROVED PATIENT MATCHING | |
Bhat | Comparison of machine learning V/S deep learning model to predict ICD9 code using text mining techniques | |
Abdellah et al. | Revisiting Machine Learning for Predictive Modeling for Stroke from Electronic Health Records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220606 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |