CN117688611A - 电子病历脱敏方法及***、电子设备、存储介质 - Google Patents
电子病历脱敏方法及***、电子设备、存储介质 Download PDFInfo
- Publication number
- CN117688611A CN117688611A CN202410125784.4A CN202410125784A CN117688611A CN 117688611 A CN117688611 A CN 117688611A CN 202410125784 A CN202410125784 A CN 202410125784A CN 117688611 A CN117688611 A CN 117688611A
- Authority
- CN
- China
- Prior art keywords
- medical record
- sensitive word
- electronic medical
- probability matrix
- unstructured text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 79
- 238000000586 desensitisation Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- WQZGKKKJIJFFOK-QTVWNMPRSA-N D-mannopyranose Chemical compound OC[C@H]1OC(O)[C@@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-QTVWNMPRSA-N 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- FBPFZTCFMRRESA-KVTDHHQDSA-N D-Mannitol Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@H](O)CO FBPFZTCFMRRESA-KVTDHHQDSA-N 0.000 description 3
- 229930195725 Mannitol Natural products 0.000 description 3
- 235000010355 mannitol Nutrition 0.000 description 3
- 239000000594 mannitol Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开实施例公开了一种电子病历脱敏方法及***、电子设备、存储介质。其中,方法包括:获取电子病历,将所述电子病历转化为非结构化文本;确定敏感词类型;基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。该方法能够对电子病历进行准确、高效的脱敏,促进电子病历共享。
Description
技术领域
本公开涉及医疗信息技术领域,尤其涉及一种电子病历脱敏方法及***、电子设备、存储介质。
背景技术
电子病历是医疗信息建设中的重要领域,现有的HIS医疗***厂商都做了对应的电子病历编辑器让医生快速编辑病历,生成对应的XML格式的电子病历。基于对电子病历共享的需求,需要对病历中出现的真实敏感信息进行脱除,但是由于不同的HIS医疗***厂商对电子病历的设计不统一,导致标签文档混乱,格式繁多,进而导致难以对电子病历进行有效脱敏,为数据流动共享增加难度。
发明内容
有鉴于此,本公开实施例提供了一种电子病历脱敏方法及***、电子设备、存储介质,能够对电子病历进行准确、高效的脱敏,促进电子病历共享。
第一方面,本公开实施例提供了一种电子病历脱敏方法,采用如下技术方案:
获取电子病历,将所述电子病历转化为非结构化文本;
确定敏感词类型;
基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
可选地,所述基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵包括:
获取第一阈值与所述非结构化文本的所有字符的总数的第一差值;
如果所述第一差值为零,则将所述非结构化文本的所有字符组合为字符集合;
如果所述第一差值不为零,则将所述非结构化文本的所有字符和第一差值个预设字符组合为字符集合;
遍历所述敏感词类型,基于所述字符集合和遍历出来的敏感词类型,构建所述语义模型的输入矩阵;
将所述输入矩阵输入到所述语义模型中,获取所述语义模型输出的所述第一概率矩阵和所述第二概率矩阵。
可选地,所述输入矩阵为:
;
其中,表示第/>个非结构化文本的字符集合,/>,/>表示所述非结构化文本的总数;/>表示第/>个遍历出来的敏感词类型,/>,/>表示所述敏感词类型的总数;
所述第一概率矩阵为:
;
其中,表示第/>个非结构化文本的字符集合中的字符分别为目标敏感词的首字符的概率的集合,简称第一概率集合,所述目标敏感词属于第/>个遍历出来的敏感词类型;
所述第二概率矩阵为:
;
其中,表示第/>个非结构化文本的字符集合中的字符分别为目标敏感词的末尾字符的概率的集合,简称第二概率集合。
可选地,所述基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号包括:
如果所述目标敏感词所属的敏感词类型为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第一预设规则确定所述第一起止位置编号;
如果所述目标敏感词所属的敏感词类型不为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第二预设规则确定所述第一起止位置编号。
可选地,所述电子病历脱敏方法还包括:
创建初始模型;
准备数据集;
基于所述数据集对所述初始模型进行预训练、微调、训练、测试和验证,获得所述语义模型。
可选地,所述初始模型包括Pretrain层和Enhanced Encoding层,所述Pretrain层包括Medical Embedding层和Transformer Encoder层,所述Enhanced Encoding层包括Pooler-Linear层、Linear层1和Linear层2。
可选地,所述准备数据集包括:
获取数据样本,根据所述敏感词类型查询出所述数据样本中每个敏感词的第二起止位置编号;
基于所述第二起止位置编号对所述数据样本进行标注,将标注好的数据样本整合为所述数据集。
第二方面,本公开实施例还提供了一种电子病历脱敏***,采用如下技术方案:
文本转化模块,用于获取电子病历,将所述电子病历转化为非结构化文本;
类型确定模块,用于确定敏感词类型;
矩阵获得模块,用于基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
编号确定模块,用于基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
病历脱敏模块,用于基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
第三方面,本公开实施例还提供了一种电子设备,采用如下技术方案:
所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一所述的电子病历脱敏方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行以上任一所述的电子病历脱敏方法。
本公开实施例提供的一种电子病历脱敏方法,通过将电子病历转为非结构化文本,并基于语义模型和敏感词类型进行处理,使得电子病历中的敏感信息会被识别并脱敏,从而有效保护了患者的隐私信息,降低了泄露敏感数据的风险,脱敏后获得的安全病历可以用于数据共享,例如用于医学研究、统计分析等,并且由于敏感信息已经被脱敏,安全病历可以更加自由地在不同的环境中使用和传播,促进了医疗数据的流通和共享。该方法中通过语义模型和敏感词类型确定目标敏感词在非结构化文本中的起止位置编号,然后通过起止位置编号对相应病历文本进行脱敏的方式,能够有效地降低错误脱敏的概率,提高了脱敏的准确性,并且相比于人工脱敏,节省了大量的时间和人力成本。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的电子病历脱敏方法的流程示意图;
图2为本公开实施例提供的S3的子步骤的流程示意图;
图3为本公开实施例提供的数据样本标注的原理示意图;
图4为本公开实施例提供的电子病历脱敏***的原理框图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目各方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
参照图1,本公开提供一种电子病历脱敏方法,包括以下步骤:
S1:获取电子病历,将电子病历转化为非结构化文本。
获取各医院准备共享的电子病历,电子病历通常为半结构化文本,因此,需要使用空格替换掉电子病历中的标签信息,得到半结构化文本。具体的,如果电子病历为XML格式文本,则采用空格替换掉<div>、</div>等标签信息,如果电子病历为json格式文本,则采用空格替换掉{、}等标签信息,例如电子病历为HTML格式文本,则采用空格替换掉<html>、<head>、<title>等标签信息。
S2:确定敏感词类型。
根据实际需求确定若干敏感词类型,敏感词类型包括身份证号码、姓名、地址、手机号码等人员敏感信息类型,以及药品名称、疾病名称、手术名称等医疗行业专有敏感信息类型中的至少一项或者多项。
S3:基于语义模型、非结构化文本、敏感词类型获得第一概率矩阵和第二概率矩阵。
参照图2,S3包括以下步骤:
S31:提取非结构化文本的所有字符,获取第一阈值与非结构化文本的所有字符的总数的第一差值。
其中,第一差值具体为第一阈值减去非结构化文本的所有字符的总数的值。
S32:判断第一差值是否为零;若是,则执行步骤S33;若否,则执行步骤S34。
S33:将非结构化文本的所有字符组合为字符集合,执行步骤S35。
S34:在非结构化文本的所有字符中***第一差值个预设字符,获取非结构化文本的所有字符和第一差值个预设字符组合的字符集合,执行步骤S35。
其中,预设字符为语义模型无法识别的特殊字符。在语义模型中,将关于预设字符的参数值设置的很高,使得语义模型无法识别预设字符。
例如,第一阈值为1000,一个非结构化文本的所有字符的总数为912,在非结构化文本的所有字符的末尾***88个预设字符,得到字符总数等于1000的字符集合。
S35:遍历敏感词类型,基于字符集合和遍历出来的敏感词类型,构建语义模型的输入矩阵。
其中,输入矩阵采用如下公式表示:
;
其中,表示第/>个非结构化文本的字符集合,/>,/>表示非结构化文本的总数;/>表示第/>个遍历出来的敏感词类型,/>,/>表示敏感词类型的总数。
S36:将输入矩阵输入到语义模型中,获取语义模型输出的第一概率矩阵和第二概率矩阵。
其中,第一概率矩阵采用如下公式表示:
;
其中,第二概率矩阵采用如下公式表示:
;
其中,表示第/>个非结构化文本的字符集合中的字符分别为目标敏感词的末尾字符的概率的集合,简称第二概率集合。
S4:基于第一概率矩阵和第二概率矩阵确定非结构化文本中的目标敏感词的第一起止位置编号。
如果目标敏感词所属的敏感词类型为姓名,则基于第一概率矩阵和第二概率矩阵,采用第一预设规则确定非结构化文本中的目标敏感词的第一起止位置编号;否则,基于第一概率矩阵和第二概率矩阵,采用第二预设规则确定非结构化文本中的目标敏感词的第一起止位置编号。其中,第一起止位置编号包括第一起始位置编号和第一终止位置编号。
第一预设规则具体包括:
查找出第一概率集合中超过第二阈值的第一概率,以及第二概率集合中超过第三阈值的第二概率;字符集合中的每个字符具有编号,如果第一概率与第二概率之间的平均值大于第四阈值,则查询第一概率所属字符的编号,记为第一编号,查询第二概率所属字符的编号,记为第二编号;如果第一编号与第二编号之间的第二差值属于预设范围,则确定第一编号和第二编号分别为同一目标敏感词的第一起止位置编号,其中,第一编号为第一起始位置编号,第二编号为第一终止位置编号。
例如,第一概率矩阵和第二概率矩阵中的为[医师姓名:张三、李四四],第一概率集合为[0.14479,0.1144,0.0941,0.0891,0.118,0.94753,0.1882,0,04374,0.89641,0.12453,0.08946],第二概率集合为[0.1475,0.0951,0.0814,0.0855,0.13374,0.14835,0.93547,0.14724,0.28463,0.24578,0.98423],第二阈值和第三阈值均为0.5,第四阈值为0.7,预设范围为[-3,-1],其中,第一概率集合中超过第二阈值的概率有0.94753和0.89641, 0.94753是第6个字符的概率,0.89641是第9个字符的概率,第二概率集合中超过第三阈值的概率有0.93547和0.98423,0.93547是第7个字符的概率,0.98423是第11个字符的概率。由于6-7=-1/>[-3,-1],并且第6个字符的概率与第7个字符的概率的平均值大于第四阈值,因此,第一个目标敏感词的第一起始位置编号为6,第一个目标敏感词的第一终止位置编号为7,由于9-11=-2/>[-3,-1],并且第9个字符的概率与第11个字符的概率的平均值大于第四阈值,因此,第二个目标敏感词的第一起始位置编号为9,第二个目标敏感词的第一终止位置编号为11。
第二预设规则具体包括:
查找出第一概率集合中超过第二阈值的第一概率,以及第二概率集合中超过第三阈值的第二概率;字符集合中的每个字符具有编号,查询第一概率所属字符的编号,记为第一编号,查询第二概率所属字符的编号,记为第二编号;计算第一编号分别与每个第二编号之间的第三差值,将第三差值最小的第一编号和第二编号分别作为同一目标敏感词的第一起止位置编号,其中,第一编号为第一起始位置编号,第二编号为第一终止位置编号。
S5:基于第一起止位置编号对电子病历进行脱敏获得安全病历。
敏感词类型包括一类敏感词类型和二类敏感词类型,一类敏感词类型包括身份证号码、手机号码中的至少一项,二类敏感词类型包括姓名、地址、药品名称、疾病名称、手术名称中的至少一项,还可以将姓名细分为患者姓名、主治医师姓名、麻醉医师姓名、护士姓名等,根据实际需求至少一类姓名作为敏感词类型,同理,对身份证号码、手机号码等也可以进一步细分。
根据第一起止位置编号查询电子病历中的目标敏感词,基于目标敏感词所属的敏感词类型选择对应的脱敏方式对电子病历中的目标敏感词进行脱敏,重复上述步骤,直至将电子病历中的所有敏感词脱敏,得到安全病历,将安全病历进行共享,使得各医院实现数据资源共享。
值得注意的是,由于在S1中将电子病历转化为非结构化文本,因此,第一起止位置编号实际所代表的为目标敏感词在电子病历中的位置,本公开通过回溯电子病历转化为非结构化文本的过程,将第一起止位置编号转为第三起止位置编号,然后采用第三起止位置编号能够快速查询到电子病历中的目标敏感词。
假设目标敏感词所属的敏感词类型为一类敏感词类型,选择遮盖的脱敏方式对电子病历中的目标敏感词进行脱敏,具体为使用预设符号替换目标敏感词中的部分数字,例如,目标敏感词为手机号,预设符号为*,将手机号中的第4位字符至第7字符均替换为*,还可以选择变形的脱敏方式对电子病历中的目标敏感词进行脱敏,具体为采用哈希算法将目标敏感词替换成一个新的敏感词,这种的优点在于能够保留目标敏感词的原有格式,例如,目标敏感词为一个手机号,采用哈希算法将每个号码均替换为一个新的号码,直至将号码全部替换。
假设目标敏感词所属的敏感词类型为二类敏感词类型,选择替换的脱敏方式对电子病历中的目标敏感词进行脱敏,具体为将目标敏感词随机替换为一个新的敏感词,例如,目标敏感词为张三,将其随机替换为李四。
所述电子病历脱敏方法还包括创建初始模型、准备数据集、基于数据集对初始模型进行预训练、微调、训练、测试和验证,得到语义模型,其中,初始模型包括Pretrain层和Enhanced Encoding层,Pretrain层包括Medical Embedding层和Transformer Encoder层,Enhanced Encoding层包括Pooler-Linear层、Linear层1和Linear层2。
其中,Pretrain层为预训练层,无论是在预训练阶段还是在后期阶段,Pretrain层均用于获取语义特征,具体用于将初始模型的输入转化为能充分体现语义信息的特征向量。进一步地,Medical Embedding层是嵌入层,用于将每个非结构化文本均拓展到维度,并将非结构化文本的内容转化为词向量矩阵,Medical Embedding层的输入维度为(,/>,1),表示第一阈值,
输入维度中的1表示遍历出来的敏感词类型的维度大小,Medical Embedding层的输出维度为(,/>,/>),/>表示将一个非结构化文本拓展的维度大小,本公开中/>取值768;Transformer Encoder层用于为充分获取非结构化文本的语义信息并突出显示,充分暴露非结构化文本的特征,并且通过Transformer Encoder层将医学知识图谱引入到无监督学习中,也就是引入到预训练阶段,Transformer Encoder层的输入维度和输出维度均为(/>,/>,/>)。
Enhanced Encoding层为解码层,用于输出第一概率矩阵和第二概率矩阵,进一步地,Pooler-Linear层为池化层中的全连接层,用于防止过拟合,采用的激活函数为Tanh(),Pooler-Linear层的输入维度和输出维度均为(,/>,/>);Linear层1为第一输出层,用于输出第一概率矩阵,采用的方法函数为sigmoid(),Linear层1的输入维度为(/>,/>,/>),输出维度为(/>,/>,/>),/>表示第一概率集合中的概率总数,/>=/>;Linear层2为第二输出层,用于输出第二概率矩阵,采用的方法函数也为sigmoid(),Linear层2的输入维度为(/>,/>,/>),输出维度为(/>,/>,/>),/>表示第二概率集合中的概率总数,/>=/>。
另外,在Enhanced Encoding层中,可以利用知识图谱嵌入工具将知识图谱与特征向量矩阵结合,使得输出结果更为准确。
在预训练阶段,初始模型的输入为从互联网上搜集的格式各样的无监督文本,从无监督文本中提取丰富的语义信息特征并转化为向量,在预训练阶段无需人为构造初始模型的输入和输出。
准备数据集:通常各医院将准备共享的电子病历存储到数据库中,然后从数据库中收集大量电子病历作为初始模型的数据样本,但是在数据库中存储的电子病历的格式已经发生改变,各种的信息位置已经被打乱,例如,电子病历关于患者姓名的原有格式为“患者姓名:张三”,但是经数据库打乱后,变为“患者姓名:年龄 :张三”,因为,这种从数据库中收集的电子病历难以进行数据标注,从而不能作为初始模型的数据样本。因此,本公开查询并收集原有格式保留完整的电子病历,将电子病历转化为非结构化文本后作为数据样本。
目前,通常采用BIO或者BIOES方法对数据样本进行标注,但是这两种方法需要对数据样本中的每个词都进行标注,标注过程繁琐,而且如果有新的敏感词类型出现,需要重新对所有词进行标注,比较耗时。
本公开采用一种位置标注法对数据样本进行标注,具体包括:
数据样本中的每个字符均具有位置编号,根据敏感词类型查询数据样本中每个敏感词的第二起止位置编号。采用敏感词的第二起止位置编号对数据样本进行标注,将标注好的数据样本整合为数据集,其中,第二起止位置编号包括第二起始位置编号和第二终止位置编号。参照图3,“张三”为敏感词,第二起始位置编号为24,第二终止位置编号为25,可见这两个编号代表了“张三”这个敏感词在数据样本中的位置。
利用数据集进行初始模型微调、训练、测试和验证,得到语义模型,并且在初始模型的微调、训练、测试和验证阶段,可以采用GPU加速,加快模型的优化过程,提高模型的准确性和效率。
本公开的电子病历脱敏方法充分考虑电子病历的前后文语义特征,提高目标敏感词预测的准确率,提升精细化管控效果,例如,电子病历包括甘露(姓名)和甘露醇(药品名称),敏感词类型包括姓名,但不包括甘露醇这种药品名称,传统方法可能同时会将患者姓名中的甘露和药品名称中的甘露都进行脱敏,但是本公开的电子病历脱敏方法可以通过考虑前后文语义特征,区分出患者姓名中甘露和药品名称中的甘露,只将姓名中的甘露进行脱敏,而不影响甘露醇这种药品名称。而且结合位置标注法,本公开可以区分出患者姓名、主治医师姓名、麻醉医师姓名、护士姓名等,使得对目标敏感词的查找更加精准,从而提高对电子病历脱敏的准确性,并且位置标注法的过程简单,易操作,成本低,有利于增加新的敏感词类型或者删除敏感词类型。综上,本公开能够准确地识别不同类型的敏感词,极大减小了误识别、漏识别的情况,能够有效作用于电子病历的脱敏工作,实现电子病历共享,同时有效保护了患者的隐私信息。
参照图4,本公开提供一种电子病历脱敏***,包括:
文本转化模块101,用于获取电子病历,将电子病历转化为非结构化文本;
类型确定模块102,用于确定敏感词类型;
矩阵获得模块103,用于基于语义模型、非结构化文本、敏感词类型获得第一概率矩阵和第二概率矩阵;
编号确定模块104,用于基于第一概率矩阵和第二概率矩阵确定非结构化文本中的目标敏感词的第一起止位置编号;
病历脱敏模块105,用于基于第一起止位置编号对电子病历进行脱敏获得安全病历。
上述提供的电子病历脱敏方法中的各种变化方式和具体实例同样适用于本公开提供的电子病历脱敏***,通过前述对电子病历脱敏方法的详细描述,本领域技术人员可以清楚的知道电子病历脱敏***的实施方法,为了说明书的简洁,在此不再详述。
根据本公开实施例的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的电子病历脱敏方法全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
如图5为本公开实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本公开实施例中的电子设备的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理器(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理器、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本公开实施例的电子病历脱敏方法的全部或部分步骤。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的电子病历脱敏方法的全部或部分步骤。
上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的***和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种电子病历脱敏方法,其特征在于,包括:
获取电子病历,将所述电子病历转化为非结构化文本;
确定敏感词类型;
基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
2.根据权利要求1所述的电子病历脱敏方法,其特征在于,所述基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵包括:
获取第一阈值与所述非结构化文本的所有字符的总数的第一差值;
如果所述第一差值为零,则将所述非结构化文本的所有字符组合为字符集合;
如果所述第一差值不为零,则将所述非结构化文本的所有字符和第一差值个预设字符组合为字符集合;
遍历所述敏感词类型,基于所述字符集合和遍历出来的敏感词类型,构建所述语义模型的输入矩阵;
将所述输入矩阵输入到所述语义模型中,获取所述语义模型输出的所述第一概率矩阵和所述第二概率矩阵。
3.根据权利要求2所述的电子病历脱敏方法,其特征在于,所述输入矩阵为:
;
其中,表示第/>个非结构化文本的字符集合,/>,/>表示所述非结构化文本的总数;/>表示第/>个遍历出来的敏感词类型,/>,/>表示所述敏感词类型的总数;
所述第一概率矩阵为:
;
其中,表示第/>个非结构化文本的字符集合中的字符分别为目标敏感词的首字符的概率的集合,简称第一概率集合,所述目标敏感词属于第/>个遍历出来的敏感词类型;
所述第二概率矩阵为:
;
其中,表示第/>个非结构化文本的字符集合中的字符分别为目标敏感词的末尾字符的概率的集合,简称第二概率集合。
4.根据权利要求3所述的电子病历脱敏方法,其特征在于,所述基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号包括:
如果所述目标敏感词所属的敏感词类型为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第一预设规则确定所述第一起止位置编号;
如果所述目标敏感词所属的敏感词类型不为姓名,则基于所述第一概率矩阵和所述第二概率矩阵,采用第二预设规则确定所述第一起止位置编号。
5.根据权利要求1所述的电子病历脱敏方法,其特征在于,还包括:
创建初始模型;
准备数据集;
基于所述数据集对所述初始模型进行预训练、微调、训练、测试和验证,获得所述语义模型。
6.根据权利要求5所述的电子病历脱敏方法,其特征在于,所述初始模型包括Pretrain层和Enhanced Encoding层,所述Pretrain层包括Medical Embedding层和TransformerEncoder层,所述Enhanced Encoding层包括Pooler-Linear层、Linear层1和Linear层2。
7.根据权利要求5所述的电子病历脱敏方法,其特征在于,所述准备数据集包括:
获取数据样本,根据所述敏感词类型查询出所述数据样本中每个敏感词的第二起止位置编号;
基于所述第二起止位置编号对所述数据样本进行标注,将标注好的数据样本整合为所述数据集。
8.一种电子病历脱敏***,其特征在于,包括:
文本转化模块,用于获取电子病历,将所述电子病历转化为非结构化文本;
类型确定模块,用于确定敏感词类型;
矩阵获得模块,用于基于语义模型、所述非结构化文本、所述敏感词类型获得第一概率矩阵和第二概率矩阵;
编号确定模块,用于基于所述第一概率矩阵和所述第二概率矩阵确定所述非结构化文本中的目标敏感词的第一起止位置编号;
病历脱敏模块,用于基于所述第一起止位置编号对所述电子病历进行脱敏获得安全病历。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一所述的电子病历脱敏方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行权利要求1-7任一所述的电子病历脱敏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410125784.4A CN117688611B (zh) | 2024-01-30 | 2024-01-30 | 电子病历脱敏方法及***、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410125784.4A CN117688611B (zh) | 2024-01-30 | 2024-01-30 | 电子病历脱敏方法及***、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688611A true CN117688611A (zh) | 2024-03-12 |
CN117688611B CN117688611B (zh) | 2024-06-04 |
Family
ID=90126782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410125784.4A Active CN117688611B (zh) | 2024-01-30 | 2024-01-30 | 电子病历脱敏方法及***、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688611B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241832A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN112347787A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
CN113641799A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN115438379A (zh) * | 2022-09-14 | 2022-12-06 | 山东众阳健康科技集团有限公司 | 一种基于flat的电子病历数据脱敏方法及*** |
CN115640810A (zh) * | 2022-12-26 | 2023-01-24 | 国网湖北省电力有限公司信息通信公司 | 一种电力***通信敏感信息识别方法、***及存储介质 |
-
2024
- 2024-01-30 CN CN202410125784.4A patent/CN117688611B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN111241832A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN112347787A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
CN113641799A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN115438379A (zh) * | 2022-09-14 | 2022-12-06 | 山东众阳健康科技集团有限公司 | 一种基于flat的电子病历数据脱敏方法及*** |
CN115640810A (zh) * | 2022-12-26 | 2023-01-24 | 国网湖北省电力有限公司信息通信公司 | 一种电力***通信敏感信息识别方法、***及存储介质 |
Non-Patent Citations (2)
Title |
---|
PENG WANG 等: "Named Entity Recognition of Electronic Medical Records based on BERT-BiLSTM-Biaffine Model", JOURNAL OF PHYSICS: CONFERENCE SERIES, 31 December 2023 (2023-12-31), pages 1 - 11 * |
梁文桐 等: "基于BERT的医疗电子病历命名实体识别", 湖南工业大学学报, no. 04, 15 July 2020 (2020-07-15), pages 54 - 62 * |
Also Published As
Publication number | Publication date |
---|---|
CN117688611B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799800B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
Zhang et al. | Knowledge-enhanced visual-language pre-training on chest radiology images | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
Lobo et al. | Identifying human phenotype terms by combining machine learning and validation rules | |
AU2018354105B2 (en) | Genealogical entity resolution system and method | |
CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
KR20120051419A (ko) | 종속형 스타일 시트 규칙 추출 장치 및 방법 | |
CN107545934B (zh) | 数值型指标的提取方法和装置 | |
Khasnabish et al. | Detecting programming language from source code using bayesian learning techniques | |
JP7043429B2 (ja) | 医療テキスト中の医療エンティティを識別するための方法、装置およびコンピュータ読取可能な記憶媒体 | |
CN110399547B (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
Upadhyay et al. | Semantic knowledge extraction from research documents | |
CN109299214B (zh) | 文本信息提取方法、装置、介质及电子设备 | |
CN115130038A (zh) | 网页分类方法及装置 | |
CN113421657B (zh) | 临床实践指南的知识表示模型的构建方法及装置 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
de la Iglesia et al. | An open source corpus and automatic tool for section identification in Spanish health records | |
CN117688611B (zh) | 电子病历脱敏方法及***、电子设备、存储介质 | |
Memarzadeh et al. | A study into patient similarity through representation learning from medical records | |
CN116525125B (zh) | 一种虚拟电子病历的生成方法及装置 | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
Satti et al. | Unsupervised semantic mapping for healthcare data storage schema | |
Chabou et al. | PICO Extraction by combining the robustness of machine-learning methods with the rule-based methods | |
CN114842982B (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN115796146A (zh) | 一种文件对比方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |