CN110517787A - 一种基于中文医疗主诉分析的临床数据组分类方法 - Google Patents

一种基于中文医疗主诉分析的临床数据组分类方法 Download PDF

Info

Publication number
CN110517787A
CN110517787A CN201910814991.XA CN201910814991A CN110517787A CN 110517787 A CN110517787 A CN 110517787A CN 201910814991 A CN201910814991 A CN 201910814991A CN 110517787 A CN110517787 A CN 110517787A
Authority
CN
China
Prior art keywords
data
main suit
clinical
data group
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910814991.XA
Other languages
English (en)
Inventor
曹梦莉
王国超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health And Medical Big Data Co Ltd
Original Assignee
Shandong Health And Medical Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health And Medical Big Data Co Ltd filed Critical Shandong Health And Medical Big Data Co Ltd
Priority to CN201910814991.XA priority Critical patent/CN110517787A/zh
Publication of CN110517787A publication Critical patent/CN110517787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于中文医疗主诉分析的临床数据组分类方法。该基于中文医疗主诉分析的临床数据组分类方法,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;根据医院信息***提供的数据源进行分析处理,得到数据组的数据分类;将数据组存入临床数据中心相关知识库对应的数据类别即可。该基于中文医疗主诉分析的临床数据组分类方法,通过使用机器学习相关算法建立数据模型,对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,实现了对数据组的精准分类,不仅能够大大提高医生的工作效率,还对构建院内小型、微型临床数据中心具有重要意义。

Description

一种基于中文医疗主诉分析的临床数据组分类方法
技术领域
本发明涉及机器学习算法与数据挖掘技术领域,特别涉及一种基于中文医疗主诉分析的临床数据组分类方法。
背景技术
不同的医院、医院的不同等级,院内信息化程度参差不齐,在信息化程度不高的医院内部,各个业务***存在数据孤岛,院内各***之间,区域内医院和医院之间,医院和社会公众之间均存在不同程度的数据壁垒。
随着大数据技术的不断发展,在政策和技术的双重推动下,医院有强烈的意愿消除内部的数据壁垒,建立微型、小型医院临床数据中心,对数据的互联互通、医生的科研需求、院内的疾病判断、减少医生误诊率等方面将会有重要的意义。
医生在诊疗过程中,需要很多相关信息的辅助,最重要的信息来源是患者的各种临床检验检查数据组成的数据组。这些检验检测数据组成的数据组,汇入到疾病数据库之后,能够形成疾病辅助决策支持,对医生的工作进一步形成指导,从而准确判断疾病,给出诊疗方案,减少技术上的失误。因此,若能建立数据模型,对各种临床检验检查数据组成的数据组进行分析挖掘,实现对数据组的精准分类,将会大大提高医生的工作效率,对构建院内小型、微型临床数据中心具有重要意义。
基于上述情况,本发明提出了一种基于中文医疗主诉分析的临床数据组分类方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于中文医疗主诉分析的临床数据组分类方法。
本发明是通过如下技术方案实现的:
一种基于中文医疗主诉分析的临床数据组分类方法,其特征在于:包括以下步骤:
第一步,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;
第二步,根据医院信息***提供的数据源对医生录入的主诉项内容进行分析处理,结合获取到的数据组隐含的信息和知识,得到数据组的数据分类;
第三步,将数据组存入临床数据中心相关知识库对应的数据类别即可。
所述第一步中,所述使用机器学习算法对各种临床检验检查数据组成的数据组进行分析挖掘,包括中文文本预处理、特征提取、数据建模和知识发现。
所述中文文本预处理包括文本数据清洗、词切分和数据映射。
所述数据清洗是指处理缺失数据与异常值,并剔除掉原始数据中与数据建模无关的数据。
所述词切分是指使用用户自定义的分词词典将各种临床检验检查数据和医生录入的主诉项分别进行分词;所述用户自定义的分词词典采用主诉相关医学词典,并在词切分时加载使用。
所述数据映射是指构建检查及数据分类标准映射表,并使用标准映射表分别对各种临床检验检查数据和医生录入的主诉项进行标准化处理。例:高血压三级(XXX)映射为高血压三级。
所述特征提取包括以下两部分:
第一,加载用户自定义词典对医生录入的主诉项内容进行分词,转换为词向量后提取主诉特征词后,对主诉特征词进行编码转换;
第二,使用特殊符号对各种临床检验检查数据进行切分,过滤掉不含中文的字符项,并使用标准映射表分别对各种临床检验检查数据进行标准化处理;然后加载用户自定义词典将标准化处理后的各种临床检验检查数据进行分词,转换为词向量后提取临床检验检查数据特征词,然后对临床检验检查数据特征词进行编码转换。
所述数据建模是指对已进行编码转换的主诉项内容和各种临床检验检查数据进行建模;数据建模后,将数据模型输出的结果进行再次编码转换为原始集,用以构建主诉项内容、各种临床检验检查数据及数据分类间的规则引擎。
所述第三步中,所述临床数据中心相关知识库对应的数据类别包括疾病类别和检查类别。
本发明的有益效果是:该基于中文医疗主诉分析的临床数据组分类方法,通过使用机器学习相关算法建立数据模型,对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,实现了对数据组的精准分类,不仅能够大大提高医生的工作效率,还对构建院内小型、微型临床数据中心具有重要意义。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于中文医疗主诉分析的临床数据组分类方法,包括以下步骤:
第一步,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;
第二步,根据医院信息***提供的数据源对医生录入的主诉项内容进行分析处理,结合获取到的数据组隐含的信息和知识,得到数据组的数据分类;
第三步,将数据组存入临床数据中心相关知识库对应的数据类别即可。
所述医院信息***提供的数据源来自医院HIS(Hospital Information System)***。HIS是覆盖医院所有业务和业务全过程的信息管理***,是一种在医院管理和医疗活动中进行信息管理和联机操作的计算机应用***,英文缩写HIS。
医院HIS***包括以下几个部分:
(1)临床诊疗部分:医生工作站,护士工作站,临床信息***(ClinicalInformation System,CIS)、放射学信息***(Radiology Information System,RIS)、实验室信息***(Laboratory Information System,LIS)医学影像信息***PACS(PictureArchiving and Communication Systems),输血及血库管理***,手术麻醉管理***;
(2)药品管理部分:数据准备及药品字典、药品库房管理功能、门急诊药房管理功能、住院药房管理功能、药品核算功能、药品价格管理、制剂管理子***、合理用药咨询功能;
(3)经济管理部分:门急诊挂号***,门急诊划价收费***,住院病人入、出、转管理***,病人住院收费***,物资管理***,设备管理子***,财务管理与经济核算管理***;
(4)综合管理与统计分析部分:病案管理***、医疗统计***、院长查询与分析***、病人咨询服务***;
(5)外部接口部分:医疗保险接口、社区卫生服务接口、远程医疗咨询***接口。
所述第一步中,所述使用机器学习算法对各种临床检验检查数据组成的数据组进行分析挖掘,包括中文文本预处理、特征提取、数据建模和知识发现。
所述中文文本预处理包括文本数据清洗、词切分和数据映射。
所述数据清洗是指处理缺失数据与异常值,并剔除掉原始数据中与数据建模无关的数据。
所述词切分是指使用用户自定义的分词词典将各种临床检验检查数据和医生录入的主诉项分别进行分词;所述用户自定义的分词词典采用主诉相关医学词典,并在词切分时加载使用。
所述数据映射是指构建检查及数据分类标准映射表,并使用标准映射表分别对各种临床检验检查数据和医生录入的主诉项进行标准化处理。例:高血压三级(XXX)映射为高血压三级。
所述特征提取包括以下两部分:
第一,加载用户自定义词典对医生录入的主诉项内容进行分词,转换为词向量后提取主诉特征词后,对主诉特征词进行编码转换;
第二,使用特殊符号对各种临床检验检查数据进行切分,过滤掉不含中文的字符项,并使用标准映射表分别对各种临床检验检查数据进行标准化处理;然后加载用户自定义词典将标准化处理后的各种临床检验检查数据进行分词,转换为词向量后提取临床检验检查数据特征词,然后对临床检验检查数据特征词进行编码转换。
所述数据建模是指对已进行编码转换的主诉项内容和各种临床检验检查数据进行建模;数据建模后,将数据模型输出的结果进行再次编码转换为原始集,用以构建主诉项内容、各种临床检验检查数据及数据分类间的规则引擎。
所述第三步中,所述临床数据中心相关知识库对应的数据类别包括疾病类别和检查类别。
与现有技术相比,该基于中文医疗主诉分析的临床数据组分类方法,具有以下特点:
1、使用机器学习相关算法构建诊断等相关规则引擎。
2、通过对医院信息***中的各种临床检验检查数据进行挖掘分析,获取该数据所隐含的信息和知识,并能够对医生录入的主诉项内容进行分析处理得到相应的疾病类别和检查类别,并自动存入对应类别,从而构建起院内小型、微型临床数据中心。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种基于中文医疗主诉分析的临床数据组分类方法,其特征在于,包括以下步骤:
第一步,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;
第二步,根据医院信息***提供的数据源对医生录入的主诉项内容进行分析处理,结合获取到的数据组隐含的信息和知识,得到数据组的数据分类;
第三步,将数据组存入临床数据中心相关知识库对应的数据类别即可。
2.根据权利要求1所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述第一步中,所述使用机器学习算法对各种临床检验检查数据组成的数据组进行分析挖掘,包括中文文本预处理、特征提取、数据建模和知识发现。
3.根据权利要求2所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述中文文本预处理包括文本数据清洗、词切分和数据映射。
4.根据权利要求3所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述数据清洗是指处理缺失数据与异常值,并剔除掉原始数据中与数据建模无关的数据。
5.根据权利要求3所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述词切分是指使用用户自定义的分词词典将各种临床检验检查数据和医生录入的主诉项分别进行分词;所述用户自定义的分词词典采用主诉相关医学词典,并在词切分时加载使用。
6.根据权利要求3所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述数据映射是指构建检查及数据分类标准映射表,并使用标准映射表分别对各种临床检验检查数据和医生录入的主诉项进行标准化处理。
7.根据权利要求2所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述特征提取包括以下两部分:
第一,加载用户自定义词典对医生录入的主诉项内容进行分词,转换为词向量后提取主诉特征词后,对主诉特征词进行编码转换;
第二,第二,使用特殊符号对各种临床检验检查数据进行切分,过滤掉不含中文的字符项,并使用标准映射表分别对各种临床检验检查数据进行标准化处理;然后加载用户自定义词典将标准化处理后的各种临床检验检查数据进行分词,转换为词向量后提取临床检验检查数据特征词,然后对临床检验检查数据特征词进行编码转换。
8.根据权利要求2所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述数据建模是指对已进行编码转换的主诉项内容和各种临床检验检查数据进行建模;数据建模后,将数据模型输出的结果进行再次编码转换为原始集,用以构建主诉项内容、各种临床检验检查数据及数据分类间的规则引擎。
9.根据权利要求1所述的基于中文医疗主诉分析的临床数据组分类方法,其特征在于:所述第三步中,所述临床数据中心相关知识库对应的数据类别包括疾病类别和检查类别。
CN201910814991.XA 2019-08-30 2019-08-30 一种基于中文医疗主诉分析的临床数据组分类方法 Pending CN110517787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910814991.XA CN110517787A (zh) 2019-08-30 2019-08-30 一种基于中文医疗主诉分析的临床数据组分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910814991.XA CN110517787A (zh) 2019-08-30 2019-08-30 一种基于中文医疗主诉分析的临床数据组分类方法

Publications (1)

Publication Number Publication Date
CN110517787A true CN110517787A (zh) 2019-11-29

Family

ID=68628490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910814991.XA Pending CN110517787A (zh) 2019-08-30 2019-08-30 一种基于中文医疗主诉分析的临床数据组分类方法

Country Status (1)

Country Link
CN (1) CN110517787A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739601A (zh) * 2020-06-28 2020-10-02 山东健康医疗大数据有限公司 非标准疾病名称的归一化方法、装置及可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008159A (ja) * 2011-06-23 2013-01-10 Toshio Kobayashi 医療データ解析方法、医療データ解析装置およびプログラム
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和***
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测***及方法
CN107833605A (zh) * 2017-03-14 2018-03-23 北京大瑞集思技术有限公司 一种医院病历信息的编码方法、装置、服务器及***
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008159A (ja) * 2011-06-23 2013-01-10 Toshio Kobayashi 医療データ解析方法、医療データ解析装置およびプログラム
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和***
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测***及方法
CN107833605A (zh) * 2017-03-14 2018-03-23 北京大瑞集思技术有限公司 一种医院病历信息的编码方法、装置、服务器及***
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚纯旭 等: "临床医学数据的分析方法与利用", 《中国医药导报》 *
王淑 等: "基于临床数据中心的专病研究***建设与实践", 《中国医院》 *
阮彤 等: "基于电子病历的临床医疗大数据挖掘流程与方法", 《大数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739601A (zh) * 2020-06-28 2020-10-02 山东健康医疗大数据有限公司 非标准疾病名称的归一化方法、装置及可读介质
CN111739601B (zh) * 2020-06-28 2022-03-29 山东健康医疗大数据有限公司 非标准疾病名称的归一化方法、装置及可读介质

Similar Documents

Publication Publication Date Title
US8626533B2 (en) Patient data mining with population-based analysis
US8086468B2 (en) Method for computerising and standardizing medical information
US20060122865A1 (en) Procedural medicine workflow management
US20070005621A1 (en) Information system using healthcare ontology
KR100739570B1 (ko) 의료정보 서비스 시스템 및 방법
US10318635B2 (en) Automated mapping of service codes in healthcare systems
CN110148440A (zh) 一种医疗信息查询方法
Bell et al. Experiments in concept modeling for radiographic image reports
Rubin et al. A data warehouse for integrating radiologic and pathologic data
Arvanitis Semantic interoperability in healthcare
US11875884B2 (en) Expression of clinical logic with positive and negative explainability
KR20120101910A (ko) 의학 표준 용어체계 매핑 방법 및 시스템
Sachdeva et al. Evolving large scale healthcare applications using open standards
US10565315B2 (en) Automated mapping of service codes in healthcare systems
CN110517787A (zh) 一种基于中文医疗主诉分析的临床数据组分类方法
Yousefianzadeh et al. COVID-19 ontologies and their application in medical sciences: Reviewing Bioportal
Kang et al. Mapping Korean National Health Insurance reimbursement claim codes for therapeutic and surgical procedures to SNOMED-CT to facilitate data reuse
US20140278481A1 (en) Large scale identification and analysis of population health risks
Blankshain et al. Research registries: a tool to advance understanding of rare neuro-ophthalmic diseases
KR20220149795A (ko) 지능형 워크플로우 기반의 스마트병원 관리 시스템
CN106484812A (zh) 一种医疗架构数据互通的实现方法及***
Stolba et al. EHealth integrator-clinical data integration in lower austria
Alyami et al. Health decision support system based on patient provided data for both patients and physicians use
Lathrop et al. Medical terminology coding systems and medicolegal death investigation data: Searching for a standardized method of electronic coding at a statewide medical examiner’s office
CN115831298B (zh) 基于医院管理信息***的临床试验患者招募方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication