CN112863628A - 一种电子病历数据处理方法及*** - Google Patents

一种电子病历数据处理方法及*** Download PDF

Info

Publication number
CN112863628A
CN112863628A CN202110281535.0A CN202110281535A CN112863628A CN 112863628 A CN112863628 A CN 112863628A CN 202110281535 A CN202110281535 A CN 202110281535A CN 112863628 A CN112863628 A CN 112863628A
Authority
CN
China
Prior art keywords
medical record
deep learning
data
documents
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110281535.0A
Other languages
English (en)
Inventor
陈�峰
刘升平
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110281535.0A priority Critical patent/CN112863628A/zh
Publication of CN112863628A publication Critical patent/CN112863628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种电子病历数据处理方法及***,该方法包括:按照预设的映射规则将病历文书中的名称进行映射;对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。本发明通过规则结合模型方式可以减少人工查看每种类型文书的工作量,尤其是综合医院文书类型比较多或者专科医院文书名字比较特殊情况下节省工作量的效果更为明显。

Description

一种电子病历数据处理方法及***
技术领域
本发明涉及深度学习领域,具体涉及一种电子病历数据处理方法及***。
背景技术
电子病历为非结构化病历,而且不同医院的病历内容结构和文书名字的差异,需要对病历文书做标准化映射。一般通用的做法是根据文书的名字结合病历内容中标题或者关键字进行映射。
由于不同医院的病历在内容结构上和名字命名上存在差异,单从文件名字或者关键字去映射,可能对病历划分比较细的专科医院或者一些长尾的病历不能映射完全,而且在对新医院文书映射时,需要查看所有不同类型文书名字和内容存在较大工作量。
发明内容
本发明提供一种电子病历数据处理方法及***,能够解决查看所有不同类型文书名字和内容存在较大工作量的技术问题。
本发明解决上述技术问题的技术方案如下:
一种电子病历数据处理方法,包括:
按照预设的映射规则将病历文书中的名称进行映射;
对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
本发明的有益效果是:
通过规则结合模型方式可以减少人工查看每种类型文书的工作量,尤其是综合医院文书类型比较多或者专科医院文书名字比较特殊情况下节省工作量的效果更为明显。
进一步,所述通过深度学习模型进行分类,具体包括:
对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
上述进一步方案的有益效果是:对无法通过规则映射方式处理的病历文书,进行编码后通过深度学习模型进行类别的确定。
进一步,所述类别空间包括N个文书类别和一个其他类,所述通过深度学习模型进行分类,具体还包括:
对分类到所述其他类的病历文书进行拒识。
上述进一步方案的有益效果是:通过设置的其他类来确定无法通过深度学习模型来确定类型的病历文书。
进一步,还包括:当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
上述进一步方案的有益效果是:对新增的电子病历数据进行增量训练方式,可以丰富模型训练数据。
进一步,对所述深度学习模型进行增量训练,具体包括:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
上述进一步方案的有益效果是:对新医院的病历采用基于模型预测的结果进行统计,根据统计结果对部分病历文书标注,进行增量训练,适应新医院文书类型同时减少人工工作量。
一种电子病历数据处理***,包括:
规则映射模块,用于按照预设的映射规则将病历文书中的名称进行映射;
分类模块,用于对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
进一步,所述分类模块,具体用于:
对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
进一步,所述类别空间包括N个文书类别和一个其他类,所述分类,具体还用于:
对分类到所述其他类的病历文书进行拒识。
进一步,还包括:训练模块,用于当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
进一步,所述训练模块,具体用于:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
附图说明
图1为本发明实施例提供的一种电子病历数据处理方法的流程图;
图2为Hierarchical LSTM的结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明实施例提供的一种电子病历数据处理方法,包括:
S1、按照预设的映射规则将病历文书中的名称进行映射;
具体的,对于病历文书的名称确定的情况,可以建立常用的文书名-文书名的映射规则,采用规则的方式进行映射,比如,有些病历文书在各家医院病历文书中,重要性很普遍,其名称叫法比较统一,歧义较小,如“病案首页”、“病历首页”等,可以直接对这一类文书做“文书名称”到“自定义文书名称”的映射,如“病案首页”或“病历首页”都会被映射到“住院病案首页”。
同理,对于病历文书中存在可以区分类型的节点的情况,则可以建立常用字段名-文书名的映射规则采用规则的方式进行映射,例如,有些病历中的关键字段可以唯一的区分这一类病历文书,如“麻醉医师签名”就与病历文书“麻醉同意书”是一一对应的关系。
S2、对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
具体的,通过步骤S1建立常用的文书名-文书名的映射规则,字段名-文书名的映射规则,可以对输入的电子病历数据中,病历文书的文书名或字段名在规则列表中的内容进行规则映射处理,而如果当前输入数据的文书名或字段名都不在这规则列表里的,就属于规则不能覆盖的输入,这类病历文书需要采用深度学习模型进行分类处理。深度学习模型可采用如图2所示的Hierarchical LSTM,也可以替换为其他深度模型,如CNN。
本发明实施例提供的一种电子病历数据处理方法,通过规则结合模型方式可以减少人工查看每种类型文书的工作量,尤其是综合医院文书类型比较多或者专科医院文书名字比较特殊情况下节省工作量的效果更为明显。
可选地,在该实施例中,步骤S2具体包括:
S21、对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
参考文末的结构图,编码的作用就是将一个对象(如文本中的词,编码得到的句子向量),通过深度网络(LSTM或CNN),映射到另一个向量中,这个过程就是一个编码的过程。
分类也是通过深度学习网络,将编码的结果映射到定义好的类别空间,这里的类别就是文书类别以及一个其他类。假设文书类别总共有N个,那最终的类别空间维度就是N+1,每一个输入,都会被唯一映射到这N+1个类别中。
该实施例中,对无法通过规则映射方式处理的病历文书,进行编码后通过深度学习模型进行类别的确定。
可选地,在该实施例中,步骤S2具体还包括:
S22、对分类到所述其他类的病历文书进行拒识。
具体的,存在一些病历文书,不是预先定义的标准病历文书,不在标准病历文书范围之内的,都属于“其他类”,如果文书被分类到“其他类”,那么这份文书就不做映射,也就是拒识。
该实施例中,通过设置的其他类来确定无法通过深度学习模型来确定类型的病历文书。
可选地,在该实施例中,该方法还包括:
S3、当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
该实施例中,对新增的电子病历数据进行增量训练方式,可以丰富模型训练数据。
可选地,在该实施例中,步骤S3具体包括:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
具体的,因为新医院的病历内容结构可能在之前模型训练语料中没有出现,需要对新医院数据进行增量训练,首先根据病历文书的名字进行归类统计频率,将相同类型的病历批量形式送入模型进行预测,在该批量数据上统计预测结果,即每一份文书在N+1类别上的概率分布,设置阈值,如果某一预测类的概率大于阈值,则认为映射到模型预测的结果置信度高,将概率最大的类别作为当前数据的预测类,将预测错的病历类型直接修改为模型在大部分数据上预测的结果,加入到训练数据中,对准确率没有达到阈值的数据中随机抽取一部分人工进行标注加入到训练语料中,继续训练模型。
该实施例中,通过对新医院的病历采用基于模型预测的结果进行统计,根据统计结果对部分病历文书标注,进行增量训练,适应新医院文书类型同时减少人工工作量。
本实施例还提供一种电子病历数据处理***,包括:
规则映射模块,用于按照预设的映射规则将病历文书中的名称进行映射;
分类模块,用于对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
可选地,在该实施例中,所述分类模块,具体用于:
对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
可选地,在该实施例中,所述类别空间包括N个文书类别和一个其他类,所述分类,具体还用于:
对分类到所述其他类的病历文书进行拒识。
可选地,在该实施例中,还包括:训练模块,用于当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
可选地,在该实施例中,所述训练模块,具体用于:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种电子病历数据处理方法,其特征在于,包括:
按照预设的映射规则将病历文书中的名称进行映射;
对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
2.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述通过深度学习模型进行分类,具体包括:
对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
3.根据权利要求2所述的一种电子病历数据处理方法,其特征在于,所述类别空间包括N个文书类别和一个其他类,所述通过深度学习模型进行分类,具体还包括:
对分类到所述其他类的病历文书进行拒识。
4.根据权利要求1-3任一项所述的一种电子病历数据处理方法,其特征在于,还包括:当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
5.根据权利要求4所述的一种电子病历数据处理方法,其特征在于,对所述深度学习模型进行增量训练,具体包括:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
6.一种电子病历数据处理***,其特征在于,包括:
规则映射模块,用于按照预设的映射规则将病历文书中的名称进行映射;
分类模块,用于对无法按照预设的所述映射规则进行映射的病历文书,通过预先训练的深度学习模型进行分类。
7.根据权利要求6所述的一种电子病历数据处理***,其特征在于,所述分类模块,具体用于:
对病历文书进行编码,将编码的结果通过深度学习模型映射到预先定义的类别空间,得到所述病历文书的类别。
8.根据权利要求7所述的一种电子病历数据处理***,其特征在于,所述类别空间包括N个文书类别和一个其他类,所述分类,具体还用于:
对分类到所述其他类的病历文书进行拒识。
9.根据权利要求6-8任一项所述的一种电子病历数据处理***,其特征在于,还包括:训练模块,用于当所述深度学习模型的训练数据中增加新的电子病历数据时,对所述深度学习模型进行增量训练。
10.根据权利要求9所述的一种电子病历数据处理***,其特征在于,所述训练模块,具体用于:
按照加入新的电子病历数据后的训练数据中病历文书的名称的类型进行归类统计;分别将相同类型的病历文书以批量形式送入所述深度学习模型进行预测,得到该批量数据中各个病历文书的预测类及对应的概率;如果预测得到的最大概率大于或等于预设阈值,则将预测类与所述最大概率对应的预测类不同的病历文书的类型修改为所述最大概率对应的预测类后加入到所述训练数据中;如果预测得到的最大概率小于所述预设阈值,则从该批量数据中随机抽取一部分人工进行标注后加入到训练数据中,继续训练模型,直至预测得到的最大概率大于或等于所述预设阈值。
CN202110281535.0A 2021-03-16 2021-03-16 一种电子病历数据处理方法及*** Pending CN112863628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281535.0A CN112863628A (zh) 2021-03-16 2021-03-16 一种电子病历数据处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281535.0A CN112863628A (zh) 2021-03-16 2021-03-16 一种电子病历数据处理方法及***

Publications (1)

Publication Number Publication Date
CN112863628A true CN112863628A (zh) 2021-05-28

Family

ID=75994708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281535.0A Pending CN112863628A (zh) 2021-03-16 2021-03-16 一种电子病历数据处理方法及***

Country Status (1)

Country Link
CN (1) CN112863628A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及***
US20200364303A1 (en) * 2019-05-15 2020-11-19 Nvidia Corporation Grammar transfer using one or more neural networks
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364303A1 (en) * 2019-05-15 2020-11-19 Nvidia Corporation Grammar transfer using one or more neural networks
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及***
CN112434159A (zh) * 2020-11-17 2021-03-02 东南大学 一种利用深度神经网络进行论文多标签分类的方法

Similar Documents

Publication Publication Date Title
CN111046035B (zh) 数据自动化处理方法、***、计算机设备及可读存储介质
US8527436B2 (en) Automated parsing of e-mail messages
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
US11269810B2 (en) Computerized methods of data compression and analysis
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
CN101046858B (zh) 电子信息比较***和方法以及反垃圾邮件***
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN114153962A (zh) 一种数据匹配方法、装置及电子设备
CN113407679A (zh) 文本主题挖掘方法、装置、电子设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN115238071A (zh) 一种基于相似聚类和数据探索的数据标准生成方法、存储介质及***
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN113239150B (zh) 文本匹配方法、***及设备
CN112863628A (zh) 一种电子病历数据处理方法及***
CN109918638B (zh) 一种网络数据监测方法
US12050557B2 (en) Computerized systems and methods of data compression
CN107491423B (zh) 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
CN113691548A (zh) 一种数据采集和分类存储方法及其***
Situmeang Impact of text preprocessing on named entity recognition based on conditional random field in Indonesian text
CN117235629B (zh) 一种基于知识域检测的意图识别方法、***及计算机设备
CN112364642B (zh) 一种文本处理方法及装置
Wang et al. Multigranularity Pruning Model for Subject Recognition Task under Knowledge Base Question Answering When General Models Fail
CN116932732A (zh) 确定目标关键词的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination