CN110362829A - 结构化病历数据的质量评估方法、装置及设备 - Google Patents

结构化病历数据的质量评估方法、装置及设备 Download PDF

Info

Publication number
CN110362829A
CN110362829A CN201910639668.3A CN201910639668A CN110362829A CN 110362829 A CN110362829 A CN 110362829A CN 201910639668 A CN201910639668 A CN 201910639668A CN 110362829 A CN110362829 A CN 110362829A
Authority
CN
China
Prior art keywords
keyword
type
record data
patient record
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910639668.3A
Other languages
English (en)
Other versions
CN110362829B (zh
Inventor
张志立
黄海峰
李坤
肖珺
石晓坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910639668.3A priority Critical patent/CN110362829B/zh
Publication of CN110362829A publication Critical patent/CN110362829A/zh
Application granted granted Critical
Publication of CN110362829B publication Critical patent/CN110362829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明实施例提供的结构化病历数据的质量评估方法、装置及设备,该方法包括:根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。通过上述过程,实现了对结构化病历数据的质量评估过程;另外,可以确定出不同医疗类型的结构化病历数据的质量,提高质量评估的精确性。

Description

结构化病历数据的质量评估方法、装置及设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种结构化病历数据的质量评估方法、装置及设备。
背景技术
目前,医疗病历在临床科研、公共卫生大数据、医院数据智能管理、智能随访等领域被广泛应用。原始的医疗病历通常为非结构化形式。为了提高医疗病历在上述领域的应用便利性,需要将原始的医疗病历转换为结构化形式。
具体的,采用数据结构化处理技术对原始病历中非结构化数据进行清洗,使其转换为结构化数据。示例性的,将原始病历中的数据处理为以章节为单位、字段命名统一的结构化形式,或者,从原始病历中提取出诸如症状的持续时间、阴阳性、疾病的诊断确定性等特征。通过数据结构化处理过程,将通常只有医生才能看懂的原始病历,转换为计算机能够看懂的结构化病历。
在将原始病历数据转换为结构化病历数据之后,需要对结构化病历数据的质量进行评估,以确定结构化处理算法的可靠性。
发明内容
本发明实施例提供一种结构化病历数据的质量评估方法、装置及设备,用以实现对结构化病历数据的质量进行评估。
第一方面,本发明实施例提供一种结构化病历数据的质量评估方法,包括:
根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;
获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;
根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
可选的,
每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估,包括:
针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个;
根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量;
根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率;
根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
可选的,
所述根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率,包括:
根据对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、以及对比结果的类型为关键字误召回的所述第一关键字的数量,获取所述第一关键字被召回的数量;
根据对比结果的类型为转换正确的所述第一关键字的数量、以及所述第一关键字被召回的数量,获取所述第一关键字对应的准确率;
根据所述第一关键字被召回的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、以及对比结果的类型为关键字未召回的所述第一关键字的数量,获取所述第一关键字对应的召回率。
可选的,
每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估,包括:
根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量;
根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
可选的,
所述标注结果中还包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值;
所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估之后,还包括:
对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示;其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。
可选的,
所述根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,包括:
根据评估任务,获取待评估的医疗类型以及最大评估数量;
根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据;其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
可选的,
所述根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,包括:
从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为所述待评估的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为所述待评估的结构化病历数据。
第二方面,本发明实施例提供一种结构化病历数据的质量评估装置,包括:
第一获取模块,用于根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;
第二获取模块,用于获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;
质量评估模块,用于根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
可选的,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块具体用于:
针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个;
根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量;
根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率;
根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
可选的,所述质量评估模块具体用于:
根据对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、以及对比结果的类型为关键字误召回的所述第一关键字的数量,获取所述第一关键字被召回的数量;
根据对比结果的类型为转换正确的所述第一关键字的数量、以及所述第一关键字被召回的数量,获取所述第一关键字对应的准确率;
根据所述第一关键字被召回的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、以及对比结果的类型为关键字未召回的所述第一关键字的数量,获取所述第一关键字对应的召回率。
可选的,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块具体用于:
根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量;
根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
可选的,所述标注结果中还包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值;所述装置还包括:
展示模块,用于对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示;其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。
可选的,所述第一获取模块具体用于:
根据评估任务,获取待评估的医疗类型以及最大评估数量;
根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据;其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
可选的,所述第一获取模块具体用于:
从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为所述待评估的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为所述待评估的结构化病历数据。
第三方面,本发明实施例提供一种结构化病历数据的质量评估设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明实施例提供的结构化病历数据的质量评估方法、装置及设备,该方法包括:根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。通过上述过程,实现了对结构化病历数据的质量评估过程;另外,本实施例在对结构化病历数据进行评估时,针对不同医疗类型的结构化病历数据进行评估,可以确定出不同医疗类型的结构化病历数据的质量,提高质量评估的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的结构化病历数据的质量评估过程示意图;
图2为本发明一实施例提供的结构化病历数据的质量评估方法的流程示意图;
图3为本发明实施例提供的采用关键字维度进行质量评估的流程示意图;
图4为本发明实施例提供的采用整体维度进行质量评估的流程示意图;
图5为本发明另一实施例提供的结构化病历数据的质量评估方法的流程示意图;
图6为本发明一实施例提供的结构化病历数据的质量评估装置的结构示意图;
图7为本发明另一实施例提供的结构化病历数据的质量评估装置的结构示意图;
图8为本发明实施例提供的结构化病历数据的质量评估设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
计算机信息化***中的数据分为结构化数据和非结构化数据。为了后续描述方便,首先对非结构化数据和结构化数据的含义以及形式进行描述。
非结构化数据是指数据结构不规则或者不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来呈现的数据。非结构化数据的格式和标准具有多样性,通常为下述形式:文本文档、邮件信息、聊天记录、图片、音视频等。
结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据,严格的遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据通常采用键值对的形式,即采用关键字(key)-关键字的值(value)的形式表示。当然,有些场景下,关键字也可以称为字段,关键字的值也可以对应称为字段的属性。
由于非结构化数据的格式和标准具有多样性,非结构化数据很难被计算机理解和处理,大量的非结构化数据被用于存储、检索、智能分析等领域时,会带来很多不便。因此,在很多场景,尤其是需要对大量非结构化数据进行分析的场景,需要采用结构化处理技术将非结构化数据转换为结构化数据。进一步的,为了保证转换后的结构化数据的准确性和有效性,还需要对上述结构化处理的质量进行评估。
图1为本发明实施例提供的结构化病历数据的质量评估过程示意图。如图1所示,原始病历数据为非结构化数据,对原始病历数据进行结构化处理得到结构化病历数据。然后,将原始病历数据和对应的结构化病历数据进行对比标注,得到标注结果。其中,标注结果可以指示哪些键值对被转换正确,哪些键值对被转换错误等。最后,根据标注结果,对结构化处理的质量进行评估。
其中,本实施例中,“结构化病历数据的质量”也可以称为“结构化处理的质量”,其表征的含义是:原始病历数据经过结构化处理得到的结构化病历数据与该原始病历数据之间的吻合度。示例性的,若结构化病历数据与对应的原始病历数据之间的吻合度较高,则说明结构化处理的质量较高,即,结构化病历数据的质量较高。若结构化病历数据与对应的原始病历数据之间的吻合度较低,则说明结构化处理的质量较低,即,结构化病历数据的质量较低。示例性的,若原始病历数据经过结构化处理得到的结构化病历数据中,包括10个键值对,假设质量评估的准确率阈值为80%,则当10个键值对中有多于或者等于8个被转换正确时,认为结构化处理的质量较高,有少于8个被转换正确时,认为结构化处理的质量较低。
参见图1,一种可能的场景中,采用结构化处理装置实现将原始病历数据转换为结构化病历数据的过程,采用对比标注装置实现对结构化病历数据和原始病历数据进行对比标注的过程,采用质量评估装置对标注结果进行分析的过程。其中,上述的结构化处理装置、对比标注装置和质量评估装置可以分别设置到不同的电子设备,还可以是其中的两个或者三个装置集成到一个电子设备中。本实施例对此不作具体限定。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明一实施例提供的结构化病历数据的质量评估方法的流程示意图,本实施例的方法可以由质量评估装置执行,该装置可以为软件和/或硬件的形式。如图2所示,本实施例的方法包括:
S201:根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值。
本实施例的方法可用于评估某个医疗类型对应的结构化病历数据的质量。其中,医疗类型可以由不同的划分维度。可以按照病历类型进行划分,例如:入院病历、门诊病历、急诊病历、出院病历等;还可以按照医院的类型进行划分,例如:儿童医疗、妇产医疗、综合医院等;还可以按照科室的类型进行划分,例如:儿科、产科、外科、内科等。不同医疗类型对应的原始病历数据和结构化病历数据存储在医疗数据库中,在进行评估时,根据待评估的医疗类型从医疗数据库中获取该医疗类型对应的结构化病历数据。
可以理解的,原始病历数据通常为非结构化的形式,采用结构化处理技术可以将原始病历数据转换为结构化病历数据。示例性的,将原始病历中的数据处理为以章节为单位、字段命名统一的结构化形式,或者,从原始病历中提取出诸如症状的持续时间、阴阳性、疾病的诊断确定性等特征。通过结构化处理过程,将通常只有医生才能看懂的原始病历,转换为计算机能够看懂的结构化病历。需要说明的是,本实施例对于结构化处理技术不作具体限定。结构化处理的过程可以采用结构化处理装置执行。
本实施例中,结构化病历数据采用键值对的形式进行存储。每份原始病历中的数据称为原始病历数据,将一份原始病历中的数据进行转换得到的数据称为一个结构化病历数据。可以理解的,每个结构化病历数据包括一个或者多个键值对数据。每个键值对数据包括关键字(key)和该关键字对应的值(value)。
S202:获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的。
其中,标注结果指示的是结构化病历数据和原始病历数据进行对比得到的差异。示例性的,各关键字对应的对比结果可用于指示该关键字是否被转换正确。
可选的,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回。示例性的,对于某个关键字而言,若结构化得到的关键字和值都转换正确,则该关键字对应的对比结果的类型为“转换正确”;若结构化得到的关键字的值是转换错误的,则该关键字对应的对比结果的类型为“转换错误”;若该关键字和值是不需要识别出的,而结构化处理过程却识别出了该关键字,则该关键字对应的对比结果的类型为“关键字误召回”;若需要识别出某个关键字和值,但是结构化处理过程未识别出来,则该关键字对应的对比结果的类型为“关键字未召回”。
一种可能的实施方式中,将结构化病历数据和原始病历数据进行对比得到标注结果的过程可以由对比标注装置执行。示例性的,对比标注装置提取原始病历数据中的关键字信息和关键字信息对应的值,将提取出的信息与结构化病历数据中的键值对进行对比,得到对比结果,并为各关键字标注各自的对比结果。
另一种可能的实施方式中,还可以由专业的标注人员对结构化病历数据和原始病历数据进行对比,得到结构化病历数据中的每个关键字对应的对比结果。
可选的,所述标注结果中还可以包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值。
示例性的,在上述对比标注过程中,针对对比结果的类型为“转换错误”的关键字,还可以根据原始病历数据得到该关键字对应的修正值,并将该修正值也添加到标注结果中。
示例性的,在上述对比标注过程中,针对对比结果的类型为“关键字未召回”的关键字,还可以根据原始病历数据将该关键字以及该关键字的值添加到标注结果中。
本实施例中,每个结构化病历数据对应的标注结果保存在结果文件中。示例性的,结果文件可以为JSON文件。
示例性的,结果文件中的数据采用如下形式存储,其中,***表示的是key对应的值。
{"key1":{"value":"***","type":"转换正确/转换错误/关键字误召回/关键字未召回"},
"key2":{"value":"***","type":"转换正确/转换错误/关键字误召回/关键字未召回"}}
S203:根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
本实施例中,根据上述的标注结果,对所述医疗类型对应的结构化病历数据质量进行评估。示例性,可以为对比结果的类型分别设置阈值,假设转换正确的阈值设置为80%,则:若上述的标注结果中,被标注为转换正确类型的各关键字的占比大于或者等于80%,则确定结构化处理的质量较高,也就是说,结构化病历数据的准确性较高。若上述的标注结果中,被标注为转换正确类型的各关键字的占比低于80%,则确定结构化处理的质量较低,也就是说,结构化病历数据的准确性较低。
需要说明的是,实际应用中,可以根据各种对比结果的类型分别设置不同的阈值,以对结构化处理进行多种维度的质量评估,提高质量评估的全面性。
可以理解的,在对原始病历数据进行结构化处理过程中,同一个结构化处理算法对于不同医疗类型的数据的转换质量可能不同。示例性的,一个结构处理算法对入院病历的转换质量可能较高,而对于出院病历的转换质量可能较低。因此,本实施例在对结构化病历数据进行评估时,针对不同医疗类型的结构化病历数据进行评估,可以确定出不同医疗类型的结构化病历数据的质量,提高质量评估的精确性。
下面结合两种可能的实施方式,采用关键字维度和整体维度对具体的质量评估过程进行描述。
第一种可能的实施方式中,可以采用关键字维度进行质量评估。图3为本发明实施例提供的采用关键字维度进行质量评估的流程示意图。如图3所示,该方法包括:
S301:针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个。
S302:根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量。
S303:根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率。
示例性的,假设待评估的1000个结构化病历数据中,每个结构化病历数据包括10个关键字,分别为key1至key10。每个结构化病历数据对应的标注结果中包括上述的10个关键字各自对应的对比结果。例如:其中一个结构化病历数据对应的标注结果如下:
{"key1":{"value":"***","type":"转换正确"},
"key2":{"value":"***","type":"转换正确"},
"key3":{"value":"***","type":"转换错误"},
"key4":{"value":"***","type":"转换错误"},
"key5":{"value":"***","type":"转换正确"},
"key6":{"value":"***","type":"转换正确"},
"key7":{"value":"***","type":"关键字误召回"},
"key8":{"value":"***","type":"转换正确"},
"key9":{"value":"***","type":"关键字未召回"},
"key10":{"value":"***","type":"转换正确"}}
本实施例中,可以从上述10个关键字中每个关键字的维度进行质量评估。具体的,采用各关键字对应的准确率和召回率进行评估。
示例性的,针对上述10个关键字中的每个关键字,分别执行本实施例中的S301至S303。以关键字key1为例,从1000个结构化病历数据对应的标注结果中,获取关键字key1对应的对比结果。
进一步的,从关键字key1对应的对比结果中,获取第一结果分析信息,包括:对比结果的类型为转换正确的关键字key1的数量、对比结果的类型为转换错误的关键字key1的数量、对比结果的类型为关键字误召回的关键字key1的数量、对比结果的类型为关键字未召回的关键字key1的数量。
进一步的,根据上述第一结果分析信息,得到关键字key1对应的准确率和召回率。其中,准确率指示的是在结构化处理中被识别出的关键字中有多少比例的关键字是被转换正确转换的。召回率指示的是在结构化处理中应当被识别出的关键字中有多少比例的关键字被识别出来。
一种可能的实施方式中,根据对比结果的类型为转换正确的关键字key1的数量、对比结果的类型为转换错误的关键字key1的数量、以及对比结果的类型为关键字误召回的关键字key1的数量,获取关键字key1被召回的数量。根据对比结果的类型为转换正确的关键字key1的数量、以及关键字key1被召回的数量,获取关键字key1对应的准确率。根据关键字key1被召回的数量、对比结果的类型为关键字误召回的关键字key1的数量、以及对比结果的类型为关键字未召回的关键字key1的数量,获取关键字key1对应的召回率。
示例性的,关键字key1被召回的数量=对比结果的类型为转换正确的关键字key1的数量+对比结果的类型为转换错误的关键字key1的数量+对比结果的类型为关键字误召回的关键字key1的数量。
关键字key1对应的准确率=对比结果的类型为转换正确的关键字key1的数量/关键字key1被召回的数量
关键字key1对应的召回率=(关键字key1被召回的数量-对比结果的类型为关键字误召回的关键字key1的数量)/(关键字key1被召回的数量-对比结果的类型为关键字误召回的关键字key1的数量+对比结果的类型为关键字未召回的关键字key1的数量)
S304:根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
针对上述10个关键字,分别执行S301至S303,得到10个关键字对应的准确率和召回率。步骤S304中,通过各关键字对应的准确率和召回率,可以直观得到结构化处理的质量。示例性的,若某个关键字的准确率或者召回率较低,则可以根据该关键字对应的原始病历数据,对结构化处理算法进行优化。
当然,在关键字数量较多的情况下,还可以进一步对各关键字对应的准确率和召回率进行加权运算,得到多个结构化病历数据对应的整体质量评估结果。
第二种可能的实施方式中,可以采用整体维度进行质量评估。图4为本发明实施例提供的采用整体维度进行质量评估的流程示意图。如图4所示,该方法包括:
S401:根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量。
S402:根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
本实施例的具体实施方式与图3所示实施例类似,不同之处在于不区分关键字,将所有关键字统一考虑。也就是说,第二结果分析信息中包括的是:1000个结构化病历数据对应的标注结果中,对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量。
进一步的,S402中结构化处理对应的准确率和召回率的与图3所示实施例类似,此处不再赘述。
本实施例中的准确率和召回率还可以采用图表形式进行展示,例如:折线图、柱状图等。进一步的,还可以在图表中展示不同批次或者不同医疗类型的评估结果,以直观反映结构化处理迭代过程中的质量变化情况。
本实施例提供的结构化病历数据的质量评估方法,包括:根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。通过上述过程,实现了对结构化病历数据的质量评估过程;另外,本实施例在对结构化病历数据进行评估时,针对不同医疗类型的结构化病历数据进行评估,可以确定出不同医疗类型的结构化病历数据的质量,提高质量评估的精确性。
图5为本发明另一实施例提供的结构化病历数据的质量评估方法的流程示意图。如图5所示,本实施例的方法包括:
S501:根据评估任务,获取待评估的医疗类型以及最大评估数量。
S502:根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据。
其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
一种可能的实施方式中,用户在质量评估装置中创建评估任务,并制定本评估任务对应的医疗类型和最大评估数量。任务创建成功后,质量评估装置在医疗数据库中筛选出待评估的结构化病历数据。
可选的,从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为待评估的结构化病历数据;若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为待评估的结构化病历数据。
上述随机选择的过程可以采用随机选择算法实现。示例性的,为目标集合中各个结构化病历数据分配唯一标识,采用随机打乱算法将目标集合中的数据进行打乱。假设最大评估数量为N,则从0开始,选择标识为0-N-1的结构化病历数据作为待评估的数据。
S503:获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果,所述对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回。
S504:根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
本实施例中,S503和S504的具体实施过程与上述实施例类似,此处不再赘述。
S505:对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示。
其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值。
示例性的,将上述异常数据和修正结果从医疗数据库中导出并展示。这些展示的数据可以作为病历数据结构化质量提升的分析基础。进一步的,还可以根据评估后修正结果对医疗数据库中的结构化病历数据进行更新,提高结构化病历数据的准确性。
图6为本发明一实施例提供的结构化病历数据的质量评估装置的结构示意图。如图6所示,本实施例提供的结构化病历数据的质量评估装置600,包括:第一获取模块601、第二获取模块602和质量评估模块603。
其中,第一获取模块601,用于根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;
第二获取模块602,用于获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;
质量评估模块603,用于根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
本实施例提供的装置,可用于执行如图2所示的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图7为本发明另一实施例提供的结构化病历数据的质量评估装置的结构示意图。如图7所示,在图6所示实施例的基础上,本实施例提供的结构化病历数据的质量评估装置600,还可以包括:展示模块604。
可选的,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块603具体用于:
针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个;
根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量;
根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率;
根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
可选的,所述质量评估模块603具体用于:
根据对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、以及对比结果的类型为关键字误召回的所述第一关键字的数量,获取所述第一关键字被召回的数量;
根据对比结果的类型为转换正确的所述第一关键字的数量、以及所述第一关键字被召回的数量,获取所述第一关键字对应的准确率;
根据所述第一关键字被召回的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、以及对比结果的类型为关键字未召回的所述第一关键字的数量,获取所述第一关键字对应的召回率。
可选的,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块603具体用于:
根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量;
根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
可选的,所述标注结果中还包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值;
所述展示模块604,用于对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示;其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。
可选的,所述第一获取模块601具体用于:
根据评估任务,获取待评估的医疗类型以及最大评估数量;
根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据;其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
可选的,所述第一获取模块601具体用于:
从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为所述待评估的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为所述待评估的结构化病历数据。
本实施例提供的装置,可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明实施例提供的结构化病历数据的质量评估设备的结构示意图。如图8所示,本实施例提供的结构化病历数据的质量评估设备800,包括:处理器801以及存储器802;其中,存储器802,用于存储计算机程序;处理器801,用于执行存储器存储的计算机程序,以实现上述实施例中的方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器802既可以是独立的,也可以跟处理器801集成在一起。
当所述存储器802是独立于处理器801之外的器件时,所述结构化病历数据的质量评估设备800还可以包括:总线803,用于连接所述存储器802和处理器801。
本实施例提供的结构化病历数据的质量评估设备,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序用于实现如上任一方法实施例中的技术方案。
本发明实施例还提供一种芯片,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种结构化病历数据的质量评估方法,其特征在于,包括:
根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;
获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;
根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
2.根据权利要求1所述的方法,其特征在于,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估,包括:
针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个;
根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量;
根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率;
根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率,包括:
根据对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、以及对比结果的类型为关键字误召回的所述第一关键字的数量,获取所述第一关键字被召回的数量;
根据对比结果的类型为转换正确的所述第一关键字的数量、以及所述第一关键字被召回的数量,获取所述第一关键字对应的准确率;
根据所述第一关键字被召回的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、以及对比结果的类型为关键字未召回的所述第一关键字的数量,获取所述第一关键字对应的召回率。
4.根据权利要求1所述的方法,其特征在于,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估,包括:
根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量;
根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述标注结果中还包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值;
所述根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估之后,还包括:
对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示;其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,包括:
根据评估任务,获取待评估的医疗类型以及最大评估数量;
根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据;其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,包括:
从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为所述待评估的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为所述待评估的结构化病历数据。
8.一种结构化病历数据的质量评估装置,其特征在于,包括:
第一获取模块,用于根据医疗类型,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据,其中,所述医疗数据库用于存储不同医疗类型的原始病历数据,以及对各所述原始病历数据进行结构化处理得到的结构化病历数据,每个所述结构化病历数据包括至少一个键值对数据,每个所述键值对数据包括关键字和所述关键字对应的值;
第二获取模块,用于获取各所述结构化病历数据对应的标注结果,所述标注结果中包括各所述关键字和各所述关键字对应的对比结果;其中,所述标注结果是将所述结构化病历数据与所述原始病历数据进行对比得到的;
质量评估模块,用于根据各所述结构化病历数据对应的标注结果,对所述医疗类型对应的结构化病历数据的质量进行评估。
9.根据权利要求8所述的装置,其特征在于,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块具体用于:
针对每个第一关键字,从所述多个结构化病历数据对应的标注结果中,获取所述第一关键字对应的对比结果,所述第一关键字为所述关键字中的任意一个;
根据所述第一关键字对应的对比结果,获取第一结果分析信息,所述第一结果分析信息包括:对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、对比结果的类型为关键字未召回的所述第一关键字的数量;
根据所述第一结果分析信息,获取所述第一关键字对应的准确率和召回率;
根据各所述关键字对应的准确率和召回率,对所述医疗类型对应的结构化病历数据的质量进行评估。
10.根据权利要求9所述的装置,其特征在于,所述质量评估模块具体用于:
根据对比结果的类型为转换正确的所述第一关键字的数量、对比结果的类型为转换错误的所述第一关键字的数量、以及对比结果的类型为关键字误召回的所述第一关键字的数量,获取所述第一关键字被召回的数量;
根据对比结果的类型为转换正确的所述第一关键字的数量、以及所述第一关键字被召回的数量,获取所述第一关键字对应的准确率;
根据所述第一关键字被召回的数量、对比结果的类型为关键字误召回的所述第一关键字的数量、以及对比结果的类型为关键字未召回的所述第一关键字的数量,获取所述第一关键字对应的召回率。
11.根据权利要求8所述的装置,其特征在于,每个所述关键字对应的对比结果的类型为下述中的任一:转换正确、转换错误、关键字误召回和关键字未召回;所述质量评估模块具体用于:
根据各所述结构化病历数据对应的标注结果,获取第二结果分析信息,所述第二结果分析信息包括:对比结果的类型为转换正确的各关键字的数量、对比结果的类型为转换错误的各关键字的数量、对比结果的类型为关键字误召回的各关键字的数量、以及对比结果的类型为关键字未召回的各关键字的数量;
根据所述第二结果分析信息,获取所述医疗类型对应的结构化病历数据对应的准确率和召回率。
12.根据权利要求8至11任一项所述的装置,其特征在于,所述标注结果中还包括修正结果,所述修正结果包括:对比结果的类型为转换错误的各关键字对应的修正值,以及对比结果的类型为关键字未召回的各关键字和各关键字对应的值;所述装置还包括:
展示模块,用于对所述多个结构化病历数据中的异常数据进行展示,以及对所述修正结果进行展示;其中,所述异常数据为对比结果的类型为转换错误、关键字误召回或关键字未召回的键值对数据。
13.根据权利要求8至11任一项所述的装置,其特征在于,所述第一获取模块具体用于:
根据评估任务,获取待评估的医疗类型以及最大评估数量;
根据所述医疗类型和所述最大评估数量,从医疗数据库中获取所述医疗类型对应的待评估的多个结构化病历数据;其中,所述结构化病历数据的数量小于或者等于所述最大评估数量。
14.根据权利要求13所述的装置,其特征在于,所述第一获取模块具体用于:
从所述医疗数据库中获取目标集合,所述目标集合中包括所述医疗类型对应的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量大于所述最大评估数量,则从所述目标集合中随机选择最大评估数量的结构化病历数据作为所述待评估的结构化病历数据;
若所述目标集合中的所述结构化病历数据的数量小于或者等于所述最大评估数量,则将所述目标集合中的结构化病历数据均作为所述待评估的结构化病历数据。
15.一种结构化病历数据的质量评估设备,其特征在于,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如权利要求1至7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN201910639668.3A 2019-07-16 2019-07-16 结构化病历数据的质量评估方法、装置及设备 Active CN110362829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910639668.3A CN110362829B (zh) 2019-07-16 2019-07-16 结构化病历数据的质量评估方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910639668.3A CN110362829B (zh) 2019-07-16 2019-07-16 结构化病历数据的质量评估方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110362829A true CN110362829A (zh) 2019-10-22
CN110362829B CN110362829B (zh) 2023-01-03

Family

ID=68219379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910639668.3A Active CN110362829B (zh) 2019-07-16 2019-07-16 结构化病历数据的质量评估方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110362829B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866557A (zh) * 2019-11-12 2020-03-06 贵州医渡云技术有限公司 数据评价方法及装置、存储介质及电子设备
CN111986750A (zh) * 2020-07-27 2020-11-24 北京天健源达科技股份有限公司 一种电子病历模板结构化检测方法
CN112184084A (zh) * 2020-11-05 2021-01-05 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置
CN113052410A (zh) * 2019-12-26 2021-06-29 医渡云(北京)技术有限公司 一种电子病历数据的质控方法及装置
CN113380363A (zh) * 2021-06-24 2021-09-10 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及***

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027463A1 (en) * 2003-08-01 2005-02-03 Goode Paul V. System and methods for processing analyte sensor data
US20120245952A1 (en) * 2011-03-23 2012-09-27 University Of Rochester Crowdsourcing medical expertise
US20140324553A1 (en) * 2012-08-01 2014-10-30 Michael Joseph Rosenberg Computer-Assisted Method for Adaptive, Risk-Based Monitoring of Clinical Studies
CN104182844A (zh) * 2014-08-27 2014-12-03 浪潮软件股份有限公司 一种医疗机构住院服务绩效评估方法
US20150043801A1 (en) * 2013-08-08 2015-02-12 Washington University In St. Louis System and Method for the Validation and Quality Assurance of Computerized Contours of Human Anatomy
CN104408667A (zh) * 2014-11-20 2015-03-11 深圳供电局有限公司 一种电能质量综合评估的方法和***
CN105808951A (zh) * 2016-03-10 2016-07-27 宁波金唐软件有限公司 一种电子病历的质量控制方法及其装置
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其***
CN106445901A (zh) * 2016-09-28 2017-02-22 医渡云(北京)技术有限公司 病例报告表设计方法及装置
CN106951705A (zh) * 2017-03-16 2017-07-14 天津艾登科技有限公司 一种用于住院医疗服务的数据质量评估***
US20170269899A1 (en) * 2016-03-21 2017-09-21 Patient Prism LLC Interactive keyword cloud
CN107683477A (zh) * 2015-06-05 2018-02-09 利姆博思医学科技有限责任公司 数据质量管理***和方法
CN107767929A (zh) * 2017-11-13 2018-03-06 医渡云(北京)技术有限公司 病例报告表填写方法、装置、电子设备及存储介质
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107908768A (zh) * 2017-09-30 2018-04-13 北京颐圣智能科技有限公司 电子病历处理的方法、装置、计算机设备及存储介质
CN108038131A (zh) * 2017-11-17 2018-05-15 上海数据交易中心有限公司 数据质量分析预处理方法及装置、存储介质、终端
US20180160942A1 (en) * 2015-12-11 2018-06-14 SameDay Security, Inc. Intelligent system for multi-function electronic caregiving to facilitate advanced health diagnosis, health monitoring, fall and injury prediction, health maintenance and support, and emergency response
CN108170468A (zh) * 2017-12-28 2018-06-15 中山大学 一种自动检测注释和代码一致性的方法及其***
CN108897682A (zh) * 2018-06-25 2018-11-27 郑州云海信息技术有限公司 一种基于Python的迭代测试结果评估方法
CN109256212A (zh) * 2018-08-17 2019-01-22 上海米因医疗器械科技有限公司 骨健康评估模型构建方法、装置、设备、介质及评估方法
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台***及众包数据标注方法
CN109473149A (zh) * 2018-11-09 2019-03-15 天津开心生活科技有限公司 数据质量评估方法、装置、电子设备及计算机可读介质
CN109522302A (zh) * 2018-11-09 2019-03-26 南京医渡云医学技术有限公司 医疗数据处理方法、装置、电子设备及计算机可读介质
CN109582661A (zh) * 2018-11-23 2019-04-05 金色熊猫有限公司 数据结构化评估方法、装置、存储介质及电子设备
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法
US20190156923A1 (en) * 2017-11-17 2019-05-23 LunaPBC Personal, omic, and phenotype data community aggregation platform

Patent Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027463A1 (en) * 2003-08-01 2005-02-03 Goode Paul V. System and methods for processing analyte sensor data
US20120245952A1 (en) * 2011-03-23 2012-09-27 University Of Rochester Crowdsourcing medical expertise
US20140324553A1 (en) * 2012-08-01 2014-10-30 Michael Joseph Rosenberg Computer-Assisted Method for Adaptive, Risk-Based Monitoring of Clinical Studies
US20150043801A1 (en) * 2013-08-08 2015-02-12 Washington University In St. Louis System and Method for the Validation and Quality Assurance of Computerized Contours of Human Anatomy
CN104182844A (zh) * 2014-08-27 2014-12-03 浪潮软件股份有限公司 一种医疗机构住院服务绩效评估方法
CN104408667A (zh) * 2014-11-20 2015-03-11 深圳供电局有限公司 一种电能质量综合评估的方法和***
CN107683477A (zh) * 2015-06-05 2018-02-09 利姆博思医学科技有限责任公司 数据质量管理***和方法
US20180160942A1 (en) * 2015-12-11 2018-06-14 SameDay Security, Inc. Intelligent system for multi-function electronic caregiving to facilitate advanced health diagnosis, health monitoring, fall and injury prediction, health maintenance and support, and emergency response
CN105808951A (zh) * 2016-03-10 2016-07-27 宁波金唐软件有限公司 一种电子病历的质量控制方法及其装置
US20180046433A1 (en) * 2016-03-21 2018-02-15 Patient Prism LLC Interactive keyword cloud
US20170269899A1 (en) * 2016-03-21 2017-09-21 Patient Prism LLC Interactive keyword cloud
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其***
CN106445901A (zh) * 2016-09-28 2017-02-22 医渡云(北京)技术有限公司 病例报告表设计方法及装置
CN106951705A (zh) * 2017-03-16 2017-07-14 天津艾登科技有限公司 一种用于住院医疗服务的数据质量评估***
CN107908768A (zh) * 2017-09-30 2018-04-13 北京颐圣智能科技有限公司 电子病历处理的方法、装置、计算机设备及存储介质
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107767929A (zh) * 2017-11-13 2018-03-06 医渡云(北京)技术有限公司 病例报告表填写方法、装置、电子设备及存储介质
US20190156923A1 (en) * 2017-11-17 2019-05-23 LunaPBC Personal, omic, and phenotype data community aggregation platform
CN108038131A (zh) * 2017-11-17 2018-05-15 上海数据交易中心有限公司 数据质量分析预处理方法及装置、存储介质、终端
CN108170468A (zh) * 2017-12-28 2018-06-15 中山大学 一种自动检测注释和代码一致性的方法及其***
CN108897682A (zh) * 2018-06-25 2018-11-27 郑州云海信息技术有限公司 一种基于Python的迭代测试结果评估方法
CN109256212A (zh) * 2018-08-17 2019-01-22 上海米因医疗器械科技有限公司 骨健康评估模型构建方法、装置、设备、介质及评估方法
CN109473149A (zh) * 2018-11-09 2019-03-15 天津开心生活科技有限公司 数据质量评估方法、装置、电子设备及计算机可读介质
CN109522302A (zh) * 2018-11-09 2019-03-26 南京医渡云医学技术有限公司 医疗数据处理方法、装置、电子设备及计算机可读介质
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台***及众包数据标注方法
CN109582661A (zh) * 2018-11-23 2019-04-05 金色熊猫有限公司 数据结构化评估方法、装置、存储介质及电子设备
CN109710670A (zh) * 2018-12-11 2019-05-03 河南通域医疗科技有限公司 一种将病历文本从自然语言转换为结构化元数据的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阮彤 等: ""基于电子病历的临床医疗大数据挖掘流程与方法"", 《大数据》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866557A (zh) * 2019-11-12 2020-03-06 贵州医渡云技术有限公司 数据评价方法及装置、存储介质及电子设备
CN110866557B (zh) * 2019-11-12 2022-12-13 贵州医渡云技术有限公司 数据评价方法及装置、存储介质及电子设备
CN113052410A (zh) * 2019-12-26 2021-06-29 医渡云(北京)技术有限公司 一种电子病历数据的质控方法及装置
CN113052410B (zh) * 2019-12-26 2024-07-19 医渡云(北京)技术有限公司 一种电子病历数据的质控方法及装置
CN111986750A (zh) * 2020-07-27 2020-11-24 北京天健源达科技股份有限公司 一种电子病历模板结构化检测方法
CN111986750B (zh) * 2020-07-27 2023-12-26 北京天健源达科技股份有限公司 一种电子病历模板结构化检测方法
CN112184084A (zh) * 2020-11-05 2021-01-05 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置
CN112184084B (zh) * 2020-11-05 2023-08-08 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置
CN113380363A (zh) * 2021-06-24 2021-09-10 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及***

Also Published As

Publication number Publication date
CN110362829B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110362829A (zh) 结构化病历数据的质量评估方法、装置及设备
Jiang et al. Time series analysis of COVID-19 infection curve: A change-point perspective
Wu et al. Accurate Markov boundary discovery for causal feature selection
CN107610770B (zh) 用于自动化诊断的问题生成***和方法
CN110223751A (zh) 基于医疗知识图谱的处方评价方法、***及计算机设备
US10706104B1 (en) System and method for generating a graphical model
CN109545317A (zh) 基于住院预测模型判定住院行为的方法及相关产品
CN109817339A (zh) 基于大数据的患者分组方法和装置
CN107153775B (zh) 一种智能分诊方法及装置
CN106815226A (zh) 文本匹配方法和装置
CN108446720A (zh) 异常数据检测方法和***
CN113539409B (zh) 治疗方案推荐方法、装置、设备及存储介质
CN108171189A (zh) 一种视频编码方法、视频编码装置及电子设备
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN111046882B (zh) 基于剖面隐式马尔科夫模型的疾病名称标准化方法和***
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN109767819B (zh) 病历的分组方法、装置、存储介质和电子设备
CN112991079A (zh) 多卡共现就医欺诈行为检测方法、***、云端及介质
CN105701330A (zh) 健康信息处理方法及***
CN113760367A (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN112883712A (zh) 一种电子病历的智能输入方法及装置
CN111710431A (zh) 一种识别同义诊断名称的方法、装置、设备及存储介质
CN110460452A (zh) 消息推送方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant