CN111341404B - 一种基于ernie模型的电子病历数据组解析方法及*** - Google Patents

一种基于ernie模型的电子病历数据组解析方法及*** Download PDF

Info

Publication number
CN111341404B
CN111341404B CN202010118524.6A CN202010118524A CN111341404B CN 111341404 B CN111341404 B CN 111341404B CN 202010118524 A CN202010118524 A CN 202010118524A CN 111341404 B CN111341404 B CN 111341404B
Authority
CN
China
Prior art keywords
data set
model
text
electronic medical
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010118524.6A
Other languages
English (en)
Other versions
CN111341404A (zh
Inventor
刘文丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Langchao Intelligent Medical Technology Co ltd
Tianjin Health Care Big Data Co ltd
Original Assignee
Shandong Langchao Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Langchao Intelligent Medical Technology Co ltd filed Critical Shandong Langchao Intelligent Medical Technology Co ltd
Priority to CN202010118524.6A priority Critical patent/CN111341404B/zh
Publication of CN111341404A publication Critical patent/CN111341404A/zh
Application granted granted Critical
Publication of CN111341404B publication Critical patent/CN111341404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于ernie模型的电子病历数据组解析方法及***,属于自然语言处理领域,本发明要解决的技术问题为如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,采用的技术方案为:该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组;S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;S3、基于ernie预训练模型的文本分类模型再训练;S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。

Description

一种基于ernie模型的电子病历数据组解析方法及***
技术领域
本发明涉及自然语言处理领域,具体地说是一种基于ernie模型的电子病历数据组解析方法及***。
背景技术
电子病历是一个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,是目前医疗数据主要的组成部分。但是目前电子病历多以文本形式为主,并不能直接用于分析研究。因此,如何将电子病历准确有效解析,并提取出数据组内容用于分析研究是医疗数据治理中亟待解决的问题。
目前,常用的数据组解析的方法是关键字提取、正则表达式匹配的方法,该方法具体如下:
首先,根据电子病历中的关键字,确定提取数据组的位置;
然后,使用正则表达式等规则匹配方式,将数据组内容提取出来。
例如,从入院记录文本中提取主诉信息:首先,根据“主诉”二字,确定入院记录文本中这组数据组的位置;然后,根据回车符、句号等分隔符将主诉内容提取出来。
虽然,通过这种方法可以快速的进行电子病历数据组解析,但由于电子病历为半结构化内容,大量段落为自由填写。且不同医院不同厂家的电子病历模板也不尽相同。因此,存在如下问题:
①、在确定关键字、制定提取规则时,需要根据不同厂家、不同类型的病历逐一制定,通用性较差;
②、在提取过程中,需要根据实际内容,反复打磨规则,准确率较低;
③、一旦***出现升级或更换厂家,需重新确定关键字及提取规则,故通用性较差;
④、通过该方法无法解析文本中关键字缺失的情况,对关键字依赖性太强。
综上所述,如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,有效降低解析成本是目前医疗数据治理中亟待解决的问题。
发明内容
本发明的技术任务是提供一种基于ernie模型的电子病历数据组解析方法及***,来解如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本,有效降低解析成本的问题。
本发明的技术任务是按以下方式实现的,一种基ernie模型的电子病历数据组解析方法,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:
S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;
S3、基于ernie预训练模型的文本分类模型再训练:对样本集中M个子样本集分别进行模型训练;
S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。
作为优选,所述步骤S2中提取及标记数据组样本具体如下:
S201、分别从各类待解析样本中随机抽取N个文本;
S202、根据实际文本情况,选择合理分隔符(一般为句号或回车符,也可多分隔符联合使用)进行文本分块;
S203、去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
S204、根据步骤S1中确定的数据组进行人工标注。
作为优选,所述构建样本集具体如下:
(1)、从各类型文档中分别抽取N份文档;
(2)、结合实际待解析数据情况,确定数据组类别;
(3)、人工或借助标注平台标注N份文档中的数据组;
(4)、以公式1和公式2的样本模型结构组成总样本集,具体如下:
S={s1,s2,s3…sM}; 公式1
si={ni1,ni2,ni3,…,nid,nid+1}; 公式2
其中,S表示为总样本集,总样本集是由M类待解析文档的子样本集s构成;每个子样本集s中包含d个子类别,即该类文档中包含的数据组种类数;尽管在样本采集时,每个子样本集是由该类文本中随机抽取的N个文本提取标注而成;但为了消除模型对关键字的依赖,在构成样本集的过程中,对每个数据组中的实际文本进行了分块处理,因此d个子类别中包含的样本数并不相等,最小值为N个样本;另外,一般在一份解析文档中总会有许多模板类语句,这些语句不属于任何一类,因此在每个子样本集中加入其他类nid+1用于区分其他类文本。
更优地,所述样本集构建时需要注意如下内容:
①、采样过程中,应对全样本集进行随机采样,保证样本的全面性;
②、应对原数据组的完整文本进行分块后放入样本集,使模型摆脱对关键字的依赖,尽量保证样本集内容的多样性。
作为优选,所述步骤S3中基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度(Maximum Sequence Length)、批次大小(Batch Size)及学习率(Learning Rate)三个参数进行调参;具体如下:
S301、选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
S302、从步骤S301中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
S303、循环步骤S302直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
S304、通过步骤S301到步骤S303分别对M个子样本集进行训练,得到M个子模型。
作为优选,所述步骤S4中提取数据组内容具体如下:
S401、对所有待测文本进行去脏字符及分块处理;
S402、将分块文本输入相应文本模型对每块文本进行分类;
S403、按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果,除其他类外的各类别组合结果就是该篇文档的数据组提取结果。
更优地,所述步骤S401中分块处理的具体过程如下:
S40101、使用句号或回车符对待解析文档进行分块处理;
S40102、去除每块语句的脏字符,脏字符是指影响语义判断的字符;
S40103、将分块语句分别按顺序输入对应文档类型的子模型中,判断文本块类别;
S40104、将该文档各类别的分类结果按解析顺序重新组合,组合过程通过回车或空格进行连接。
一种基于ernie模型的电子病历数据组解析***,该***包括,
数据组确定单元,用于根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
数据组样本提取及标记单元,用于在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;数据组样本提取及标记单元包括,
文本随机抽取模块,用于分别从各类待解析样本中随机抽取N个文本;
文本分块模块,用于根据实际文本情况,选择合理分隔符(一般为句号或回车符,也可多分隔符联合使用)进行文本分块;
脏字符去除模块,用于去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
人工标注模块,用于根据数据组确定模块中确定的数据组进行人工标注;
文本分类模型再训练单元,用于对样本集中M个子样本集分别进行模型训练;文本分类模型在训练单元包括,
组合模块,用于选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
平均识别率计算模块,用于从组合模块中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
最优模型输出模块,用于循环平均识别率计算模块直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
子模型获取模块,用于通过组合模块、平均识别率计算模块和最优模型输出模块分别对M个子样本集进行训练,得到M个子模型;
数据组内容提取单元,使用训练的模型将相应数据组的内容提取出来;数据组内容提取单元包括,
去脏字符及分块处理模块,用于对所有待测文本进行去脏字符及分块处理;
分块文本分类模块,用于将分块文本输入相应文本模型对每块文本进行分类;
数据组结果提取模块,用于按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果,除其他类外的各类别组合结果就是该篇文档的数据组提取结果。
一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的基于ernie模型的电子病历数据组解析方法的步骤。
一种电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的基于ernie模型的电子病历数据组解析方法及***具有以下优点:
(一)本发明根据电子病历中每句话的意思进行数据组判别,克服了电子病历解析过程中对关键字及规则的依赖,解决了规则反复更新、无关键字无法解析的问题,降低了解析成本;
(二)本发明解决了电子病历数据组解析过程中对关键字及规则过度依赖的问题,节省了关键字规则磨合及更新的时间;与传统的电子病历数据组解析方法相比,本发明更具有通用性;
(三)本发明使用语义分析技术,语义分析技术即为文本分类模型,文本分类模型为paddlepadle框架中的ernie模型,实现了不依赖关键字对电子病历中的每块文本进行数据组分类;
(四)文本分块时可根据实际文本内容进行自定义分隔符分块,能满足不同文本的分块需求,确保准确性。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于ernie模型的电子病历数据组解析方法的流程框图;
附图2为基于ernie模型的电子病历数据组解析***的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于ernie模型的电子病历数据组解析方法及***作以下详细地说明。
实施例1:
如附图1所示,本发明的基于ernie模型的电子病历数据组解析方法,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:
S1、确定不同类别文本数据组:根据《电子病历数据组与数据元》所述,数据组(Data Group)是将相关信息项聚集起来而形成的一种复合的数据结构。不同类型的电子病历文本包含不同的数据组;不同厂家及医院的电子病历文本,数据组的内容也略有不同;因此数据确定的具体如下:
S101、根据不同类型电子病历确定提取数据组;
S102、根据不同厂家电子病历文本的情况进行数据组映射或微调;
S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;具体如下:
S201、分别从各类待解析样本中随机抽取N个文本;
S202、根据实际文本情况,选择合理分隔符(一般为句号或回车符,也可多分隔符联合使用)进行文本分块;
S203、去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
S204、根据步骤S1中确定的数据组进行人工标注。
其中,构建样本集具体如下:
(1)、从各类型文档中分别抽取N份文档;
(2)、结合实际待解析数据情况,确定数据组类别;
(3)、人工或借助标注平台标注N份文档中的数据组;
(4)、以公式1和公式2的样本模型结构组成总样本集,具体如下:
S={s1,s2,s3…sM}; 公式1
si={ni1,ni2,ni3,…,nid,nid+1}; 公式2
其中,S表示为总样本集,总样本集是由M类待解析文档的子样本集s构成;每个子样本集s中包含d个子类别,即该类文档中包含的数据组种类数;尽管在样本采集时,每个子样本集是由该类文本中随机抽取的N个文本提取标注而成;但为了消除模型对关键字的依赖,在构成样本集的过程中,对每个数据组中的实际文本进行了分块处理,因此d个子类别中包含的样本数并不相等,最小值为N个样本;另外,一般在一份解析文档中总会有许多模板类语句,这些语句不属于任何一类,因此在每个子样本集中加入其他类nid+1用于区分其他类文本。
样本集构建时需要注意如下内容:
①、采样过程中,应对全样本集进行随机采样,保证样本的全面性;
②、应对原数据组的完整文本进行分块后放入样本集,使模型摆脱对关键字的依赖,尽量保证样本集内容的多样性。
S3、基于ernie预训练模型的文本分类模型再训练:Ernie预训练模型是paddleNLP中最典型的语义模型,由多NLP任务训练而成。因此,Ernie模型具有可小样本训练,预处理简单的优势。鉴于前期的样本均为人工标注,样本量较少的特点,该处选用具有较强语义能力的ernie模型作为文本分类的预训练模型。对样本集中M个子样本集分别进行模型训练;其中,基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度(Maximum Sequence Length)、批次大小(Batch Size)及学习率(Learning Rate)三个参数进行调参;具体如下:
S301、选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
S302、从步骤S301中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
S303、循环步骤S302直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
S304、通过步骤S301到步骤S303分别对M个子样本集进行训练,得到M个子模型。
S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来;具体如下:
S401、对所有待测文本进行去脏字符及分块处理;分块处理的具体过程如下:
S40101、使用句号或回车符对待解析文档进行分块处理;
S40102、去除每块语句的脏字符,脏字符是指影响语义判断的字符;
S40103、将分块语句分别按顺序输入对应文档类型的子模型中,判断文本块类别;
S40104、将该文档各类别的分类结果按解析顺序重新组合,组合过程通过回车或空格进行连接。
S402、将分块文本输入相应文本模型对每块文本进行分类;
S403、按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果,除其他类外的各类别组合结果就是该篇文档的数据组提取结果。
实施例2:
本发明的基于ernie模型的电子病历数据组解析***,该***包括,
数据组确定单元,用于根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
数据组样本提取及标记单元,用于在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;数据组样本提取及标记单元包括,
文本随机抽取模块,用于分别从各类待解析样本中随机抽取N个文本;
文本分块模块,用于根据实际文本情况,选择合理分隔符(一般为句号或回车符,也可多分隔符联合使用)进行文本分块;
脏字符去除模块,用于去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
人工标注模块,用于根据数据组确定模块中确定的数据组进行人工标注;
文本分类模型再训练单元,用于对样本集中M个子样本集分别进行模型训练;文本分类模型在训练单元包括,
组合模块,用于选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
平均识别率计算模块,用于从组合模块中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
最优模型输出模块,用于循环平均识别率计算模块直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
子模型获取模块,用于通过组合模块、平均识别率计算模块和最优模型输出模块分别对M个子样本集进行训练,得到M个子模型;
数据组内容提取单元,使用训练的模型将相应数据组的内容提取出来;数据组内容提取单元包括,
去脏字符及分块处理模块,用于对所有待测文本进行去脏字符及分块处理;
分块文本分类模块,用于将分块文本输入相应文本模型对每块文本进行分类;
数据组结果提取模块,用于按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果,除其他类外的各类别组合结果就是该篇文档的数据组提取结果。
实施例3:
本发明的存储介质,其中存储有多条指令,指令由处理器加载,执行基于实施例1的基于ernie模型的电子病历数据组解析方法的步骤。
实施例4:
本发明的电子设备,电子设备包括:
基于实施例3的存储介质;以及
处理器,用于执行实施例3中存储介质中的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种基于ernie模型的电子病历数据组解析方法,其特征在于,该方法是根据电子病历中每句话的含义进行数据组判别,克服电子病历解析过程中对关键字及规则的依赖;具体如下:
S1、确定不同类别文本数据组:根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
S2、提取及标记数据组样本:在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;
S3、基于ernie预训练模型的文本分类模型再训练:对样本集中M个子样本集分别进行模型训练;其中,基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度、批次大小及学习率三个参数进行调参;具体如下:
S301、选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
S302、从步骤S301中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
S303、循环步骤S302直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
S304、通过步骤S301到步骤S303分别对M个子样本集进行训练,得到M个子模型;
S4、提取数据组内容:使用步骤S3中训练的模型将相应数据组的内容提取出来。
2.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述步骤S2中提取及标记数据组样本具体如下:
S201、分别从各类待解析样本中随机抽取N个文本;
S202、根据实际文本情况,选择合理分隔符进行文本分块;
S203、去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
S204、根据步骤S1中确定的数据组进行人工标注。
3.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述构建样本集具体如下:
(1)、从各类型文档中分别抽取N份文档;
(2)、结合实际待解析数据情况,确定数据组类别;
(3)、人工或借助标注平台标注N份文档中的数据组;
(4)、以公式1和公式2的样本模型结构组成总样本集,具体如下:
Figure QLYQS_1
其中,S表示为总样本集,总样本集是由M类待解析文档的子样本集s构成;每个子样本集s中包含d个子类别,即第i类文档中包含的数据组种类数;在每个子样本集中加入其他类
Figure QLYQS_2
用于区分其他类文本。
4.根据权利要求3所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述样本集构建时需要注意如下内容:
①、采样过程中,应对全样本集进行随机采样,保证样本的全面性;
②、应对原数据组的完整文本进行分块后放入样本集,使模型摆脱对关键字的依赖,尽量保证样本集内容的多样性。
5.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述步骤S4中提取数据组内容具体如下:
S401、对所有待测文本进行去脏字符及分块处理;
S402、将分块文本输入相应文本模型对每块文本进行分类;
S403、按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果。
6.根据权利要求5所述的基于ernie模型的电子病历数据组解析方法,其特征在于,所述步骤S401中分块处理的具体过程如下:
S40101、使用句号或回车符对待解析文档进行分块处理;
S40102、去除每块语句的脏字符,脏字符是指影响语义判断的字符;
S40103、将分块语句分别按顺序输入对应文档类型的子模型中,判断文本块类别;
S40104、将该文档各类别的分类结果按解析顺序重新组合,组合过程通过回车或空格进行连接。
7.一种基于ernie模型的电子病历数据组解析***,其特征在于,该***包括,
数据组确定单元,用于根据不同类型电子病历确定提取数据组,再根据不同厂家电子病历文本的情况进行数据组映射或微调;
数据组样本提取及标记单元,用于在确定不同类型文档所要提取的电子病历数据组后,采集并标注样本构建样本集;数据组样本提取及标记单元包括,
文本随机抽取模块,用于分别从各类待解析样本中随机抽取N个文本;
文本分块模块,用于根据实际文本情况,选择合理分隔符进行文本分块;
脏字符去除模块,用于去除每块文本中的脏字符,脏字符是指影响语义判断的字符;
人工标注模块,用于根据数据组确定模块中确定的数据组进行人工标注;
文本分类模型再训练单元,用于对样本集中M个子样本集分别进行模型训练;文本分类模型在训练单元包括,
组合模块,用于选择最大序列长度搜索值max_len_num个,批次大小搜索值batch_size_num个,学习率搜索值learn_rate_num个,分别组合为max_len_num*batch_size_num*learn_rate_num组;
平均识别率计算模块,用于从组合模块中选择一种参数组合,采用留一法交叉验证模型,计算该模型的平均识别率;
最优模型输出模块,用于循环平均识别率计算模块直至处理完全部组参数,选择平均识别率最高的一组参数,作为模型的最优参数,最优参数训练的模型作为最优模型输出;
子模型获取模块,用于通过组合模块、平均识别率计算模块和最优模型输出模块分别对M个子样本集进行训练,得到M个子模型;
数据组内容提取单元,使用训练的模型将相应数据组的内容提取出来;数据组内容提取单元包括,
去脏字符及分块处理模块,用于对所有待测文本进行去脏字符及分块处理;
分块文本分类模块,用于将分块文本输入相应文本模型对每块文本进行分类;
数据组结果提取模块,用于按输入顺序组合,每个数据组中分得的文本内容作为文档的数据组提取结果。
8.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1-6中任一项所述的基于ernie模型的电子病历数据组解析方法的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
权利要求8所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
CN202010118524.6A 2020-02-26 2020-02-26 一种基于ernie模型的电子病历数据组解析方法及*** Active CN111341404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010118524.6A CN111341404B (zh) 2020-02-26 2020-02-26 一种基于ernie模型的电子病历数据组解析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010118524.6A CN111341404B (zh) 2020-02-26 2020-02-26 一种基于ernie模型的电子病历数据组解析方法及***

Publications (2)

Publication Number Publication Date
CN111341404A CN111341404A (zh) 2020-06-26
CN111341404B true CN111341404B (zh) 2023-07-14

Family

ID=71183709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010118524.6A Active CN111341404B (zh) 2020-02-26 2020-02-26 一种基于ernie模型的电子病历数据组解析方法及***

Country Status (1)

Country Link
CN (1) CN111341404B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488126A (zh) * 2021-07-27 2021-10-08 心医国际数字医疗***(大连)有限公司 信息处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和***
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133847B2 (en) * 2014-06-10 2018-11-20 International Business Machines Corporation Automated medical problem list generation from electronic medical record

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和***
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法

Also Published As

Publication number Publication date
CN111341404A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及***
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN113486189A (zh) 一种开放性知识图谱挖掘方法及***
CN111597356A (zh) 智能化教育知识图谱构建***与方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和***
CN111310467A (zh) 一种在长文本中结合语义推断的主题提取方法及***
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及***
CN103034657B (zh) 文档摘要生成方法和装置
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、***和存储介质
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN114117057A (zh) 产品反馈信息的关键词提取方法及终端设备
CN113722421A (zh) 一种合同审计方法和***,及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230619

Address after: 250100 room 3108, 31 / F, building S02, Langchao Science Park, No. 1036 Langchao Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan, Shandong

Applicant after: Shandong Langchao Intelligent Medical Technology Co.,Ltd.

Address before: Room 215, east block, Xiyuan building, intersection of Shun'an Road, Yantai Road, Huaiyin District, Jinan City, Shandong Province

Applicant before: SHANDONG HEALTH MEDICAL BIG DATA Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240531

Address after: 250100 room 3108, 31 / F, building S02, Langchao Science Park, No. 1036 Langchao Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan, Shandong

Patentee after: Shandong Langchao Intelligent Medical Technology Co.,Ltd.

Country or region after: China

Patentee after: Tianjin health care big data Co.,Ltd.

Address before: 250100 room 3108, 31 / F, building S02, Langchao Science Park, No. 1036 Langchao Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan, Shandong

Patentee before: Shandong Langchao Intelligent Medical Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right