CN111986765B - 电子病例实体标记方法、装置、计算机设备及存储介质 - Google Patents
电子病例实体标记方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111986765B CN111986765B CN202010917927.7A CN202010917927A CN111986765B CN 111986765 B CN111986765 B CN 111986765B CN 202010917927 A CN202010917927 A CN 202010917927A CN 111986765 B CN111986765 B CN 111986765B
- Authority
- CN
- China
- Prior art keywords
- entity
- electronic case
- historical electronic
- historical
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000009191 jumping Effects 0.000 claims description 4
- 206010037660 Pyrexia Diseases 0.000 description 26
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 206010012735 Diarrhoea Diseases 0.000 description 8
- 239000012634 fragment Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 5
- 206010020751 Hypersensitivity Diseases 0.000 description 4
- 208000026935 allergic disease Diseases 0.000 description 4
- 230000007815 allergy Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及数字医疗技术领域,提供一种电子病例实体标记方法、装置、计算机设备及存储介质,包括:识别历史电子病例中的多个实体;根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体;为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息;将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中;基于所述历史电子病例实体表训练BiLSTM‑CRF模型得到实体标记模型;使用所述实体标记模型对待标记的电子病例进行实体标记。本发明能够提高电子病例实体标记的准确率。
Description
技术领域
本发明涉及数字医疗技术领域,具体涉及一种电子病例实体标记方法、装置、计算机设备及存储介质。
背景技术
健康医疗大数据是我国重要的基础性战略资源,中文电子病历的实体识别有助于从大量非结构化文本中提取重要信息,从而为医疗数据挖掘与应用奠定基础。通常的做法是检索病历库并从中找到符合上述条件的电子病历,再筛选出最终的结果,其操作繁琐复杂,费时费力。
在人工智能(AI)及大数据爆发的今天,也有不少通过AI模型给电子病例打标签从而达到病历筛选的目的,但由于中文存在一词多义及一义多词的现象,导致使用AI模型为电子病例打标签准确度较差,电子病例的标记不准确,根据电子病例的标记进行电子病例的查询时查询结果准确度较低。
发明内容
鉴于以上内容,有必要提出一种电子病例实体标记方法、装置、计算机设备及存储介质,能够提高电子病例实体标记的准确率。
本发明的第一方面提供一种电子病例实体标记方法,所述方法包括:
识别历史电子病例中的多个实体;
根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体;
为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息;
将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中;
基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型;
使用所述实体标记模型对待标记的电子病例进行实体标记。
根据本发明的一个可选的实施例,所述识别历史电子病例中的多个实体包括:
获取历史电子病例集合;
通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组;
获取对所述多个词组的实体标记;
根据所述多个词组及实体标记构建医疗知识图谱;
采用所述医疗知识图谱识别历史电子病例中的多个实体。
根据本发明的一个可选的实施例,所述根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体包括:
识别所述历史电子病例中的多个关键字段;
以所述多个关键字段为段落标记对所述历史电子病例进行定位;
获取每个实体对应的显示类型;
根据所述显示类型在所述历史电子病例上对应所述实体的位置添加<span>标签。
根据本发明的一个可选的实施例,所述为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息包括:
为每个实体添加ID并将所述ID作为实体的锚点;
侦测到锚点被选定的指令时,跳转到被选定的锚点对应的目标实体;
侦测到所述显示界面上对应所述目标实体的位置处接收到操作指令时,根据所述操作指令更新所述目标实体;
获取更新后的目标实体的起始位置、终止位置及段落标记,得到更新信息。
根据本发明的一个可选的实施例,在所述根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体之后,所述方法还包括:
显示多个实体虚拟图标,其中,每个实体虚拟图标对应一个实体;
侦测到所述多个实体虚拟图标中的任意一个实体虚拟图标接收到选定指令之后,在接收到选定指令的目标实体虚拟图标周围显示实体文本输入框;
接收所述实体文本输入框中输入的实体;
将所述目标实体虚拟图标对应的实体更新为所述文本输入框中输入的实体,并同步更新目标实体虚拟图标。
根据本发明的一个可选的实施例,所述方法还包括:
接收计算机设备发送的查询文本;
通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例;
返回所述目标历史电子病例至所述计算机设备。
根据本发明的一个可选的实施例,所述通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例包括:
解析所述查询文本得到查询实体信息,其中,所述查询实体信息包括查询实体类型及查询实体属性;
从所述历史电子病例实体表中查询与所述查询实体类型对应的多个目标实体及每个目标实体对应的目标实体属性;
将所述查询实体属性与每个目标实体对应的目标实体属性进行匹配;
将匹配成功的目标实体属性对应的病历标识确定为目标病历标识;
根据所述目标病历标识查询对应的目标电子病历。
本发明的第二方面提供一种电子病例实体标记装置,所述装置包括:
识别模块,用于识别历史电子病例中的多个实体;
显示模块,用于根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体;
更新模块,用于为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息;
存储模块,用于将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中;
训练模块,用于基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型;
标记模块,用于使用所述实体标记模型对待标记的电子病例进行实体标记。
本发明的第三方面提供一种计算机设备,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的电子病例实体标记方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的电子病例实体标记方法。
综上所述,本发明所述的电子病例实体标记方法、装置、计算机设备及存储介质,通过识别历史电子病例中的多个实体,然后根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体,实现了对电子病例中的多个实体的不同显示,通过显示能够对对应的实体进行快速定位,从而便于确定是否需要对实体进行校正;接着通过锚点的方式接收用户对对应的实体的更新得到更新信息,并将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中,由此完成了对电子病例中的多个实体的快速校正,得到的历史电子病例实体表中的实体的初始位置、结束位置及段落标记都是准确的,能够解决上下文语义无法关联的问题,避免了一词多义,一义多词的情况,从而使得基于所述历史电子病例实体表训练BiLSTM-CRF模型得到的实体标记模型的准确率,能够提高实体标记模型的实体标记的准确率;最后使用所述实体标记模型对待标记的电子病例进行实体标记时,准确率较高。
附图说明
图1是本发明实施例一提供的电子病例实体标记方法的流程图。
图2是本发明实施例二提供的电子病例实体标记装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
图1是本发明实施例一提供的电子病例实体标记方法的流程图。所述电子病例实体标记方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,识别历史电子病例中的多个实体。
电子病历(Electronic Medical Record,EMR)是医院以电子化的方式记录患者在治疗过程中的原始信息。
其中,所述实体是指疾病、症状、诊断分类、治疗、检查检验、人体组织、检查项、过敏史、遗传史、个人史等医学名词。
所述计算机设备提供有显示界面,所述显示界面上显示有历史电子病例的上传接口,通过所述上传接口可以上传所述历史电子病例至所述计算机设备中,并在所述计算机设备的显示界面上显示所述历史电子病例。所述电子病历可以是html格式,也可以是txt格式。由专业的医疗实体标记员通过所述计算机设备提供的显示界面对历史电子病例中的多个实体的校正,并以校正后的多个实体训练实体标记模型,从而对新的电子病例进行实体标记,提高新的电子病例的实体标记的准确率。
在一个可选的实施例中,所述识别历史电子病例中的多个实体包括:
获取历史电子病例集合;
通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组;
获取对所述多个词组的实体标记;
根据所述多个词组及实体标记构建医疗知识图谱;
采用所述医疗知识图谱识别历史电子病例中的多个实体。
其中,所述医疗知识图谱为实体与实体属性的网状结构图,每个实体对应多个实体属性,每个实体属性对应唯一的实体。例如,实体类型为疾病,对应的多个实体属性可以包括:感冒、腹泻、癌症等。
所述计算机设备可以通过网络爬虫的方式获取多个历史电子病例,也可以从医疗机构数据库中获取多个历史电子病例,将所述多个历史电子病例确定历史电子病例集合。计算机设备通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组,由普通人员(非专业的医疗实体标记员)为每一个词组进行实体标记,将词组作为实体标记对应的实体属性,从而使得计算机设备根据所述多个词组及对应的实体标记构建医疗知识图谱,用于后续对所上传的电子病例进行实体标记。
由于医疗知识图谱并不能穷尽所有的实体及实体属性,且医疗知识图谱中的实体也并非完全正确,因而导致训练出的实体标记模型对所述历史电子病例中的多个实体进行标记时,标记准确率不高,通过本发明所述的方法对各历史电子病例中的实体进行校正,并根据校正后的实体重新训练实体标记模型,来提高历史电子病例的实体标记的准确率。
S12,根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体。
所述计算机设备中预先存储有数据库表,所述数据库表中存储了实体类型与显示类型之间的关联关系。例如,实体类型为疾病,则显示类型为显示紫色;实体类型为症状,则显示类型为显示黄色。所述显示类型不仅仅包括显示颜色,还可以包括显示图案,字符显示大小等。
在一个可选的实施例中,所述根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体包括:
识别所述历史电子病例中的多个关键字段;
以所述多个关键字段为段落标记对所述历史电子病例进行定位;
获取每个实体对应的显示类型;
根据所述显示类型在所述历史电子病例上对应所述实体的位置添加<span>标签。
其中,<span>标签是超文本标记语言(HyperText Markup Language,HTML)的行内标签,被用来组合文档中的行内元素。使用<span>标签可以对显示的内容进行着色处理。
所述计算机设备中预先设置有多个关键字段,所述预设的多个关键字段可以包括,但不限于:患者信息、主诉、现病史、既往史、个人史、婚姻史、家族史、过敏史、辅助检查、入院诊断等。通过将所述历史电子病例中的字符与预设的多个关键字段进行匹配即可识别出所述历史电子病例中的多个关键字段。
该可选的实施例中,以所述多个关键字段为段落标记对所述历史电子病例进行分割,能够快速的定位到段落标记对应的内容处。通过在所述历史电子病例上对应所述实体的内容添加<span>标签,能够将不同的实体以不同的显示类型进行区分显示,便于通过颜色快速筛选出同一个实体类型。
S13,为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息。
计算机设备为每个实体添加id或者name,从而可以实现锚点,通过所述锚点能够实现在所述电子病例上指定位置处的跳转。
在一个可选的实施例中,所述为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息包括:
为每个实体添加ID并将所述ID作为实体的锚点;
侦测到锚点被选定的指令时,跳转到被选定的锚点对应的目标实体;
侦测到所述显示界面上对应所述目标实体的位置处接收到操作指令时,根据所述操作指令更新所述目标实体;
获取更新后的目标实体的起始位置、终止位置及段落标记,得到更新信息。
其中,所述操作指令包括删除指令,替换指令、添加指令等。当所述操作指令为删除指令时,删除所述目标实体;当所述操作指令为替换指令时,替换所述目标实体为用户新输入的实体;当所述操作指令为添加指令时,添加新的实体。实体类型错误时(例如发热是症状但被标成疾病),可修改实体类型。遗漏标记(例如,发烧和发热是同一含义却未被标记)也可添加标记。
示例性的,在查询“发热”患者时,传统方式只会对“发热”做关键字检索,而“发烧”可能查不出来,通过所述锚点接收用户对对应的实体的更新得到更新信息,将“发热,发烧”更新为同一实体“发烧”。
又如,在查询“发热”患者时,由于“不发热”中标记了“发热”实体时,会将“不发热”检索出来,通过所述锚点接收用户对“不发热”中的“发热”实体的删除。
计算机设备通过window对象的getSelection方法获取更新后的目标实体的起始位置、终止位置及段落标记。具体实施时,可以调用getSelection方法从获取更新后的实体在整个电子病例文本中的起始位置和终止位置作为更新后的目标实体的起始位置、终止位置,也可以获取更新后的实体在对应的段落中的起始位置和终止位置作为更新后的目标实体的起始位置、终止位置。
S14,将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中。
计算机设备每接收到一个实体的更新信息时,将更新后的实体及对应的更新信息存储在历史电子病例实体表中。
所述历史电子病例实体表中存储有历史电子病例,多个实体,每个实体的起始位置、终止位置及段落标记。所述起始位置、终止位置及段落标记在训练BiLSTM-CRF模型时需要用到。
S15,基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型。
由于在训练BiLSTM-CRF模型之前,需要将数据集以BIO格式进行标记,每一行由char和标签组成,char和标签之间以“\t”隔开,且句子与句子之间用空行隔开。BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
所述计算机设备通过对显示的历史电子病例的多个实体的校正,并获得了校正后的实体在历史电子病例中的起始位置、终止位置及段落标记,相当于完成了在训练BiLSTM-CRF模型之前对数据集以BIO格式进行标记的准备工作。因而,可以直接从所述历史电子病例实体表中获取多个历史电子病例及对应的实体标记结果,训练实体标记模型。具体实施时,将所述历史电子病例实体表中的多个历史电子病例对对应的实体标记结果作为数据集,并将所述数据集划分为训练集和测试集,将所述数据集作为所述BiLSTM-CRF模型的入参,通过BiLSTM-CRF模型的不断学习与训练,直至预测出的实体在电子病历中的预测起始位置与实体在电子病历中的真实起始位置之间的第一差值,预测出的实体在电子病历中的预测终止位置与实体在电子病历中的真实终止位置之间的第二差值,及预测出的实体在电子病历中的预测段落标记与实体在电子病历中的真实段落标记之间的第三差值均小于预设阈值时,停止BiLSTM-CRF模型的学习与训练,得到实体标记模型。
S16,使用所述实体标记模型对待标记的电子病例进行实体标记。
其中,所述待标记的电子病例是指需要进行实体标记的电子病例,输入所述待标记的电子病例至所述实体标记模型中,由所述实体标记模型标记出所述待标记的电子病例中的多个实体。
在一个可选的实施例中,在所述根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体之后,所述方法还包括:
显示多个实体虚拟图标,其中,每个实体虚拟图标对应一个实体;
侦测到所述多个实体虚拟图标中的任意一个实体虚拟图标接收到选定指令之后,在接收到选定指令的目标实体虚拟图标周围显示实体文本输入框;
接收所述实体文本输入框中输入的实体;
将所述目标实体虚拟图标对应的实体更新为所述文本输入框中输入的实体,并同步更新目标实体虚拟图标。
该可选的实施例中,所述计算机设备显示实体文本输入框并通过实体文本输入框输入新的实体类型,以新的实体类型替换旧的实体类型,能够起到对同一实体的快速校正。
在一个可选的实施例中,当所述计算机设备侦测到任意一个实体虚拟图标接收到选定指令之后,可以显示被选定的目标实体虚拟图标对应的实体,并且不显示未被选定的实体虚拟图标对应的实体,便于用户快速查看所述历史电子病例中的该实体是否相同,是否需要修改或者替换,从而提高对历史电子病例中的实体标记进行校准的效率。
在一个可选的实施例中,所述方法还包括:
接收计算机设备发送的查询文本;
通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例;
返回所述目标历史电子病例至所述计算机设备。
其中,查询文本指的是用户输入的查询关键词,例如,“腹泻两周以上”、“高血压3年的肝炎患者”。
所述计算机设备查询出多个目标历史电子病例,将多个目标历史电子病例返回给计算机设备。
在一个可选的实施例中,所述通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例包括:
解析所述查询文本得到查询实体信息,其中,所述查询实体信息包括查询实体类型及查询实体属性;
从所述历史电子病例实体表中查询与所述查询实体类型对应的多个目标实体及每个目标实体对应的目标实体属性;
将所述查询实体属性与每个目标实体对应的目标实体属性进行匹配;
将匹配成功的目标实体属性对应的病历标识确定为目标病历标识;
根据所述目标病历标识查询对应的目标电子病历。
如上述示例性的,解析查询文本“腹泻两周以上”得到查询实体类型为“疾病”及查询实体属性“腹泻”。
其中,所述病历标识为历史电子病例的编号,具有唯一性。
该可选的实施例,通过从所述历史电子病例实体表中查询出与所述查询实体类型及所述查询实体属性均相同的目标病历标识,再根据目标病历标识查询出目标电子病历,能够快速且准确的查询出与所述查询文本对应的目标电子病历。
本发明通过识别历史电子病例中的多个实体,然后根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体,实现了对电子病例中的多个实体的不同显示,通过显示能够对对应的实体进行快速定位,从而便于确定是否需要对实体进行校正;接着通过锚点的方式接收用户对对应的实体的更新得到更新信息,并将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中,由此完成了对电子病例中的多个实体的快速校正,得到的历史电子病例实体表中的实体的初始位置、结束位置及段落标记都是准确的,能够解决上下文语义无法关联的问题,避免了一词多义,一义多词的情况,从而使得基于所述历史电子病例实体表训练BiLSTM-CRF模型得到的实体标记模型的准确率,能够提高实体标记模型的实体标记的准确率;最后使用所述实体标记模型对待标记的电子病例进行实体标记时,准确率较高。
此外,本发明在实际的检索应用时,能够有助于快速检索到符合需求的电子病例,并通过不同的颜色区分出电子病例中的不同的实体。
本发明所述的电子病例实体标记方法,可应用于智慧医疗中,促进智慧城市的建设。
需要强调的是,为进一步保证上述实体标记模型的私密性和安全性,上述实体标记模型可存储于区块链的节点中。
图2是本发明实施例二提供的电子病例实体标记装置的结构图。
在一些实施例中,所述电子病例实体标记装置20可以包括多个由计算机程序段所组成的功能模块。所述电子病例实体标记装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)电子病例实体标记的功能。
本实施例中,所述电子病例实体标记装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:识别模块201、显示模块202、更新模块203、存储模块204、训练模块205、标记模块206、同步模块207及查询模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述识别模块201,用于识别历史电子病例中的多个实体。
电子病历(Electronic Medical Record,EMR)是医院以电子化的方式记录患者在治疗过程中的原始信息。
其中,所述实体是指疾病、症状、诊断分类、治疗、检查检验、人体组织、检查项、过敏史、遗传史、个人史等医学名词。
所述计算机设备提供有显示界面,所述显示界面上显示有历史电子病例的上传接口,通过所述上传接口可以上传所述历史电子病例至所述计算机设备中,并在所述计算机设备的显示界面上显示所述历史电子病例。所述电子病历可以是html格式,也可以是txt格式。由专业的医疗实体标记员通过所述计算机设备提供的显示界面对历史电子病例中的多个实体的校正,并以校正后的多个实体训练实体标记模型,从而对新的电子病例进行实体标记,提高新的电子病例的实体标记的准确率。
在一个可选的实施例中,所述识别模块201识别历史电子病例中的多个实体包括:
获取历史电子病例集合;
通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组;
获取对所述多个词组的实体标记;
根据所述多个词组及实体标记构建医疗知识图谱;
采用所述医疗知识图谱识别历史电子病例中的多个实体。
其中,所述医疗知识图谱为实体与实体属性的网状结构图,每个实体对应多个实体属性,每个实体属性对应唯一的实体。例如,实体类型为疾病,对应的多个实体属性可以包括:感冒、腹泻、癌症等。
所述计算机设备可以通过网络爬虫的方式获取多个历史电子病例,也可以从医疗机构数据库中获取多个历史电子病例,将所述多个历史电子病例确定历史电子病例集合。计算机设备通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组,由普通人员(非专业的医疗实体标记员)为每一个词组进行实体标记,将词组作为实体标记对应的实体属性,从而使得计算机设备根据所述多个词组及对应的实体标记构建医疗知识图谱,用于后续对所上传的电子病例进行实体标记。
由于医疗知识图谱并不能穷尽所有的实体及实体属性,且医疗知识图谱中的实体也并非完全正确,因而导致训练出的实体标记模型对所述历史电子病例中的多个实体进行标记时,标记准确率不高,通过本发明所述的方法对各历史电子病例中的实体进行校正,并根据校正后的实体重新训练实体标记模型,来提高历史电子病例的实体标记的准确率。
所述显示模块202,用于根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体。
所述计算机设备中预先存储有数据库表,所述数据库表中存储了实体类型与显示类型之间的关联关系。例如,实体类型为疾病,则显示类型为显示紫色;实体类型为症状,则显示类型为显示黄色。所述显示类型不仅仅包括显示颜色,还可以包括显示图案,字符显示大小等。
在一个可选的实施例中,所述显示模块202根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体包括:
识别所述历史电子病例中的多个关键字段;
以所述多个关键字段为段落标记对所述历史电子病例进行定位;
获取每个实体对应的显示类型;
根据所述显示类型在所述历史电子病例上对应所述实体的位置添加<span>标签。
其中,<span>标签是超文本标记语言(HyperText Markup Language,HTML)的行内标签,被用来组合文档中的行内元素。使用<span>标签可以对显示的内容进行着色处理。
所述计算机设备中预先设置有多个关键字段,所述预设的多个关键字段可以包括,但不限于:患者信息、主诉、现病史、既往史、个人史、婚姻史、家族史、过敏史、辅助检查、入院诊断等。通过将所述历史电子病例中的字符与预设的多个关键字段进行匹配即可识别出所述历史电子病例中的多个关键字段。
该可选的实施例中,以所述多个关键字段为段落标记对所述历史电子病例进行分割,能够快速的定位到段落标记对应的内容处。通过在所述历史电子病例上对应所述实体的内容添加<span>标签,能够将不同的实体以不同的显示类型进行区分显示,便于通过颜色快速筛选出同一个实体类型。
所述更新模块203,用于为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息。
计算机设备为每个实体添加id或者name,从而可以实现锚点,通过所述锚点能够实现在所述电子病例上指定位置处的跳转。
在一个可选的实施例中,所述更新模块203为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息包括:
为每个实体添加ID并将所述ID作为实体的锚点;
侦测到锚点被选定的指令时,跳转到被选定的锚点对应的目标实体;
侦测到所述显示界面上对应所述目标实体的位置处接收到操作指令时,根据所述操作指令更新所述目标实体;
获取更新后的目标实体的起始位置、终止位置及段落标记,得到更新信息。
其中,所述操作指令包括删除指令,替换指令、添加指令等。当所述操作指令为删除指令时,删除所述目标实体;当所述操作指令为替换指令时,替换所述目标实体为用户新输入的实体;当所述操作指令为添加指令时,添加新的实体。实体类型错误时(例如发热是症状但被标成疾病),可修改实体类型。遗漏标记(例如,发烧和发热是同一含义却未被标记)也可添加标记。
示例性的,在查询“发热”患者时,传统方式只会对“发热”做关键字检索,而“发烧”可能查不出来,通过所述锚点接收用户对对应的实体的更新得到更新信息,将“发热,发烧”更新为同一实体“发烧”。
又如,在查询“发热”患者时,由于“不发热”中标记了“发热”实体时,会将“不发热”检索出来,通过所述锚点接收用户对“不发热”中的“发热”实体的删除。
计算机设备通过window对象的getSelection方法获取更新后的目标实体的起始位置、终止位置及段落标记。具体实施时,可以调用getSelection方法从获取更新后的实体在整个电子病例文本中的起始位置和终止位置作为更新后的目标实体的起始位置、终止位置,也可以获取更新后的实体在对应的段落中的起始位置和终止位置作为更新后的目标实体的起始位置、终止位置。
所述存储模块204,用于将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中。
计算机设备每接收到一个实体的更新信息时,将更新后的实体及对应的更新信息存储在历史电子病例实体表中。
所述历史电子病例实体表中存储有历史电子病例,多个实体,每个实体的起始位置、终止位置及段落标记。所述起始位置、终止位置及段落标记在训练BiLSTM-CRF模型时需要用到。
所述训练模块205,用于基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型。
由于在训练BiLSTM-CRF模型之前,需要将数据集以BIO格式进行标记,每一行由char和标签组成,char和标签之间以“\t”隔开,且句子与句子之间用空行隔开。BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
所述计算机设备通过对显示的历史电子病例的多个实体的校正,并获得了校正后的实体在历史电子病例中的起始位置、终止位置及段落标记,相当于完成了在训练BiLSTM-CRF模型之前对数据集以BIO格式进行标记的准备工作。因而,可以直接从所述历史电子病例实体表中获取多个历史电子病例及对应的实体标记结果,训练实体标记模型。具体实施时,将所述历史电子病例实体表中的多个历史电子病例对对应的实体标记结果作为数据集,并将所述数据集划分为训练集和测试集,将所述数据集作为所述BiLSTM-CRF模型的入参,通过BiLSTM-CRF模型的不断学习与训练,直至预测出的实体在电子病历中的预测起始位置与实体在电子病历中的真实起始位置之间的第一差值,预测出的实体在电子病历中的预测终止位置与实体在电子病历中的真实终止位置之间的第二差值,及预测出的实体在电子病历中的预测段落标记与实体在电子病历中的真实段落标记之间的第三差值均小于预设阈值时,停止BiLSTM-CRF模型的学习与训练,得到实体标记模型。
所述标记模块206,用于使用所述实体标记模型对待标记的电子病例进行实体标记。
其中,所述待标记的电子病例是指需要进行实体标记的电子病例,输入所述待标记的电子病例至所述实体标记模型中,由所述实体标记模型标记出所述待标记的电子病例中的多个实体。
所述同步模块207,用于同步更新同一个实体类型的实体。
在一个可选的实施例中,所述同步模块207同步更新同一个实体类型的实体包括:
显示多个实体虚拟图标,其中,每个实体虚拟图标对应一个实体;
侦测到所述多个实体虚拟图标中的任意一个实体虚拟图标接收到选定指令之后,在接收到选定指令的目标实体虚拟图标周围显示实体文本输入框;
接收所述实体文本输入框中输入的实体;
将所述目标实体虚拟图标对应的实体更新为所述文本输入框中输入的实体,并同步更新目标实体虚拟图标。
该可选的实施例中,所述计算机设备显示实体文本输入框并通过实体文本输入框输入新的实体类型,以新的实体类型替换旧的实体类型,能够起到对同一实体的快速校正。
在一个可选的实施例中,当所述计算机设备侦测到任意一个实体虚拟图标接收到选定指令之后,可以显示被选定的目标实体虚拟图标对应的实体,并且不显示未被选定的实体虚拟图标对应的实体,便于用户快速查看所述历史电子病例中的该实体是否相同,是否需要修改或者替换,从而提高对历史电子病例中的实体标记进行校准的效率。
所述查询模块208,用于接收计算机设备发送的查询文本;通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例;返回所述目标历史电子病例至所述计算机设备。
其中,查询文本指的是用户输入的查询关键词,例如,“腹泻两周以上”、“高血压3年的肝炎患者”。
所述计算机设备查询出多个目标历史电子病例,将多个目标历史电子病例返回给计算机设备。
在一个可选的实施例中,所述查询模块208通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例包括:
解析所述查询文本得到查询实体信息,其中,所述查询实体信息包括查询实体类型及查询实体属性;
从所述历史电子病例实体表中查询与所述查询实体类型对应的多个目标实体及每个目标实体对应的目标实体属性;
将所述查询实体属性与每个目标实体对应的目标实体属性进行匹配;
将匹配成功的目标实体属性对应的病历标识确定为目标病历标识;
根据所述目标病历标识查询对应的目标电子病历。
如上述示例性的,解析查询文本“腹泻两周以上”得到查询实体类型为“疾病”及查询实体属性“腹泻”。
其中,所述病历标识为历史电子病例的编号,具有唯一性。
该可选的实施例,通过从所述历史电子病例实体表中查询出与所述查询实体类型及所述查询实体属性均相同的目标病历标识,再根据目标病历标识查询出目标电子病历,能够快速且准确的查询出与所述查询文本对应的目标电子病历。
本发明通过识别历史电子病例中的多个实体,然后根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体,实现了对电子病例中的多个实体的不同显示,通过显示能够对对应的实体进行快速定位,从而便于确定是否需要对实体进行校正;接着通过锚点的方式接收用户对对应的实体的更新得到更新信息,并将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中,由此完成了对电子病例中的多个实体的快速校正,得到的历史电子病例实体表中的实体的初始位置、结束位置及段落标记都是准确的,能够解决上下文语义无法关联的问题,避免了一词多义,一义多词的情况,从而使得基于所述历史电子病例实体表训练BiLSTM-CRF模型得到的实体标记模型的准确率,能够提高实体标记模型的实体标记的准确率;最后使用所述实体标记模型对待标记的电子病例进行实体标记时,准确率较高。
此外,本发明在实际的检索应用时,能够有助于快速检索到符合需求的电子病例,并通过不同的颜色区分出电子病例中的不同的实体。
需要强调的是,为进一步保证上述实体标记模型的私密性和安全性,上述实体标记模型可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的电子病例实体标记方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的电子病例实体标记方法的全部或者部分步骤;或者实现电子病例实体标记装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (7)
1.一种电子病例实体标记方法,其特征在于,所述方法包括:
识别历史电子病例中的多个实体,包括:获取历史电子病例集合;通过结巴分词工具对所述历史电子病例集合进行分词得到多个词组;获取对所述多个词组的实体标记;根据所述多个词组及实体标记构建医疗知识图谱;采用所述医疗知识图谱识别历史电子病例中的多个实体;
根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体;
显示多个实体虚拟图标,其中,每个实体虚拟图标对应一个实体;侦测到所述多个实体虚拟图标中的任意一个实体虚拟图标接收到选定指令之后,在接收到选定指令的目标实体虚拟图标周围显示实体文本输入框;接收所述实体文本输入框中输入的实体;将所述目标实体虚拟图标对应的实体更新为所述文本输入框中输入的实体,并同步更新目标实体虚拟图标;
为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息,包括:为每个实体添加ID并将所述ID作为实体的锚点;侦测到锚点被选定的指令时,跳转到被选定的锚点对应的目标实体;侦测到显示界面上对应所述目标实体的位置处接收到操作指令时,根据所述操作指令更新所述目标实体;获取更新后的目标实体的起始位置、终止位置及段落标记,得到更新信息;
将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中;
基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型;
使用所述实体标记模型对待标记的电子病例进行实体标记。
2.如权利要求1所述的电子病例实体标记方法,其特征在于,所述根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体包括:
识别所述历史电子病例中的多个关键字段;
以所述多个关键字段为段落标记对所述历史电子病例进行定位;
获取每个实体对应的显示类型;
根据所述显示类型在所述历史电子病例上对应所述实体的位置添加<span>标签。
3.如权利要求1至2中任意一项所述的电子病例实体标记方法,其特征在于,所述方法还包括:
接收计算机设备发送的查询文本;
通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例;
返回所述目标历史电子病例至所述计算机设备。
4.如权利要求3所述的电子病例实体标记方法,其特征在于,所述通过所述历史电子病例实体表查询出与所述查询文本对应的目标历史电子病例包括:
解析所述查询文本得到查询实体信息,其中,所述查询实体信息包括查询实体类型及查询实体属性;
从所述历史电子病例实体表中查询与所述查询实体类型对应的多个目标实体及每个目标实体对应的目标实体属性;
将所述查询实体属性与每个目标实体对应的目标实体属性进行匹配;
将匹配成功的目标实体属性对应的病历标识确定为目标病历标识;
根据所述目标病历标识查询对应的目标电子病历。
5.一种用于实现上述权利要求1所述的电子病例实体标记方法的电子病例实体标记装置,其特征在于,所述装置包括:
识别模块,用于识别历史电子病例中的多个实体;
显示模块,用于根据预设实体显示类型显示所述历史电子病例及所述历史电子病例中的所述多个实体;
更新模块,用于为每个实体添加锚点,并通过所述锚点接收用户对对应的实体的更新得到更新信息;
存储模块,用于将所述历史电子病例及所述历史电子病例中的多个实体及对应的更新信息存储在历史电子病例实体表中;
训练模块,用于基于所述历史电子病例实体表训练BiLSTM-CRF模型得到实体标记模型;
标记模块,用于使用所述实体标记模型对待标记的电子病例进行实体标记。
6.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4中任意一项所述的电子病例实体标记方法。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的电子病例实体标记方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917927.7A CN111986765B (zh) | 2020-09-03 | 2020-09-03 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917927.7A CN111986765B (zh) | 2020-09-03 | 2020-09-03 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986765A CN111986765A (zh) | 2020-11-24 |
CN111986765B true CN111986765B (zh) | 2023-11-21 |
Family
ID=73447462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010917927.7A Active CN111986765B (zh) | 2020-09-03 | 2020-09-03 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986765B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220896B (zh) * | 2021-04-27 | 2024-03-19 | 北京大数医达科技有限公司 | 多来源知识图谱生成方法、装置、终端设备 |
CN114297207A (zh) * | 2021-12-07 | 2022-04-08 | 腾讯数码(天津)有限公司 | 实体库更新方法、装置、计算机设备和存储介质 |
CN116205235B (zh) * | 2023-05-05 | 2023-08-01 | 北京脉络洞察科技有限公司 | 一种数据集划分方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
CN110427491A (zh) * | 2019-07-04 | 2019-11-08 | 北京爱医生智慧医疗科技有限公司 | 一种基于电子病历的医学知识图谱构建方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111445968A (zh) * | 2020-03-16 | 2020-07-24 | 平安国际智慧城市科技股份有限公司 | 电子病历查询方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006051713A1 (ja) * | 2004-11-12 | 2008-05-29 | 株式会社ジャストシステム | 文書処理装置及び文書処理方法 |
CN109376309B (zh) * | 2018-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
-
2020
- 2020-09-03 CN CN202010917927.7A patent/CN111986765B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
CN110427491A (zh) * | 2019-07-04 | 2019-11-08 | 北京爱医生智慧医疗科技有限公司 | 一种基于电子病历的医学知识图谱构建方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111445968A (zh) * | 2020-03-16 | 2020-07-24 | 平安国际智慧城市科技股份有限公司 | 电子病历查询方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
中医病历术语识别方法探讨;孙超等;中国中医药图书情报杂志(第02期);第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111986765A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986765B (zh) | 电子病例实体标记方法、装置、计算机设备及存储介质 | |
US11562813B2 (en) | Automated clinical indicator recognition with natural language processing | |
US10818397B2 (en) | Clinical content analytics engine | |
CN110459320B (zh) | 一种基于知识图谱的辅助诊疗*** | |
US10509889B2 (en) | Data processing system and method for computer-assisted coding of natural language medical text | |
US11881293B2 (en) | Methods for automatic cohort selection in epidemiologic studies and clinical trials | |
CN111813963B (zh) | 知识图谱构建方法、装置、电子设备及存储介质 | |
US10552931B2 (en) | Automated clinical indicator recognition with natural language processing | |
CN107239665B (zh) | 医疗信息查询***及方法 | |
JP3998706B2 (ja) | ドキュメントデータの管理方法、管理システム及びコンピュータソフトウェア | |
US8600772B2 (en) | Systems and methods for interfacing with healthcare organization coding system | |
US11715569B2 (en) | Intent-based clustering of medical information | |
CN111341456A (zh) | 糖尿病足知识图谱生成方法、装置及可读存储介质 | |
CN112149409B (zh) | 医疗词云生成方法、装置、计算机设备及存储介质 | |
CN114255884A (zh) | 一种高血压药物治疗知识图谱构建方法以及装置 | |
CN115482921A (zh) | 一种模型化DRGs临床路径规划管理信息***及方法 | |
CN110609910A (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
CN114023462A (zh) | 一种基于图形化表示的计算机化临床指南构建方法及装置 | |
CN116525053A (zh) | 病患报告生成方法、装置、电子设备及介质 | |
CN105683975A (zh) | 使得能够有效管理处置计划以及其修正和更新的***和方法 | |
CN114020926A (zh) | 数据处理方法、装置和电子设备 | |
CN1573787A (zh) | 在医学处置中处理包括治疗提示的数据组的方法 | |
WO2017132145A1 (en) | System and method for optimizing electronic medical terminology post-coordination coding | |
Soares et al. | An interdisciplinary approach to reducing errors in extracted electronic health record data for research | |
US20230335298A1 (en) | Intent-based clustering of medical information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220922 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |