CN111209742A - 诊断依据数据的确定方法、装置、可读介质及电子设备 - Google Patents

诊断依据数据的确定方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN111209742A
CN111209742A CN201911360739.2A CN201911360739A CN111209742A CN 111209742 A CN111209742 A CN 111209742A CN 201911360739 A CN201911360739 A CN 201911360739A CN 111209742 A CN111209742 A CN 111209742A
Authority
CN
China
Prior art keywords
diagnosis
data
diagnostic
determining
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911360739.2A
Other languages
English (en)
Inventor
赖昆
邢俊珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Nanjing Yiyi Yunda Data Technology Co Ltd
Nanjing Yirui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yiyi Yunda Data Technology Co Ltd, Nanjing Yirui Technology Co Ltd filed Critical Nanjing Yiyi Yunda Data Technology Co Ltd
Priority to CN201911360739.2A priority Critical patent/CN111209742A/zh
Publication of CN111209742A publication Critical patent/CN111209742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种诊断依据数据的确定方法、装置、计算机可读存储介质及电子设备,方法包括:确定病历中的诊断数据;根据所述诊断数据,确定诊断要素词语集合;根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。通过本发明的技术方案,当根据确定的诊断依据数据对病历进行质控时,可提高质控效率和质量。

Description

诊断依据数据的确定方法、装置、可读介质及电子设备
技术领域
本发明涉及医学技术与人工智能领域,尤其涉及诊断依据数据的确定方法、装置、可读介质及电子设备。
背景技术
病案首页通常记录了患者的诊断结果,诊断结果指示了患者的病症和/或治疗方式,病历是判断患者的诊断结果正确与否的重要数据来源,诊断结果的正确与否对病案中的数据质量有着关键的作用。错误的诊断结果如果不加纠正直接被保存下来,患者未来查询病案时会得到错误的结果,影响治疗方案制定。同时错误的诊断结果上传到国家医疗监管机构后,也会影响地区医疗统计数据的精准性,不利于医疗政策的制定。医院内沉淀了错误的诊断结果也会影响医院本身的大数据***建设,产生长期的负面影响。因此,对病历进行质控检查,有助于从源头上保证诊断结果的准确性,提高诊断结果的利用价值。
为了提高病历的质控效率及质量,通常需要确定病历中的诊断依据数据,比如,若病案首页中记录了某患者做了某手术,那么在病历中出现的医生下达过此手术的证据,即为手术的诊断依据数据;若病案首页中记录了患者患有某疾病,那么在病历出现的支持此疾病的记录即为病理的诊断依据数据。但是,目前没有相关技术手段确定病历中的诊断依据数据。
发明内容
本发明提供了一种诊断依据数据的确定方法、装置、计算机可读存储介质及电子设备,当根据确定的诊断依据数据对病历进行质控时,可提高质控效率和质量。
第一方面,本发明提供了一种诊断依据数据的确定方法,包括:
确定病历中的诊断数据;
根据所述诊断数据,确定诊断要素词语集合;
根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
优选地,所述确定病历中的诊断数据,包括:
根据预设诊断数据位置配置文件,确定所述病历中的诊断文本;
对所述诊断文本进行分句,并将分句后的所述诊断文本确定为诊断数据。
优选地,还包括:
根据所述预设诊断数据位置配置文件中的优先级信息,对所述第一诊断依据数据进行排序;
将排序后的所述第一诊断依据数据确定为第二诊断依据数据。
优选地,所述根据所述诊断数据,确定诊断要素词语集合,包括:
确定所述诊断数据中的诊断名称;
对所述诊断名称进行分词以确定诊断要素词语集合。
优选地,所述确定所述诊断数据中的诊断名称,包括:
当所述诊断数据中存在诊断编码时,将所述诊断编码对应在国际疾病分类表中的名称确定为诊断名称;
当所述诊断数据中不存在诊断编码时,确定所述诊断数据中的诊断名称。
优选地,所述对所述诊断名称进行分词以确定诊断要素词语集合,包括:
根据预设分词器对所述诊断名称进行分词,以确定第一词语集合;
过滤所述第一词语集合中的停用词,以确定诊断要素词语集合。
优选地,所述对所述诊断名称进行分词以确定诊断要素词语集合,包括:
获取国际疾病分类表对应的诊断要素配置表;
将所述诊断要素配置表加入预设第一自定义词库中,以确定第二自定义词库;
根据所述第二自定义词库对应的分词器对所述诊断名称进行分词,以确定第二词语集合;
过滤所述第二词语集合中不在所述诊断要素配置表中的词语,以确定诊断要素词语集合。
优选地,所述根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据,包括:
判断所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合是否满足预设条件;
当所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合满足预设条件时,将所述诊断数据确定为第一诊断依据数据。
优选地,所述第一诊断依据数据包括所述诊断要素词语集合中的诊断要素词语位于所述第一诊断依据数据中的位置信息。
第二方面,本发明提供了一种诊断依据数据的确定装置,包括:
第一数据确定模块,用于确定病历中的诊断数据;
集合确定模块,用于根据所述诊断数据,确定诊断要素词语集合;
第二数据确定模块,用于根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种诊断依据数据的确定方法、装置、计算机可读存储介质及电子设备,该方法通过确定病历中的诊断数据,无需考虑病历中的诊断数据以外的数据,从而减少病历中的诊断数据以外的数据的影响,确保病历中诊断数据的准确性,由于患者生理病理的复杂性,导致病历中的诊断数据中往往存在大量没有医学价值或医学价值较小的数据,通过诊断数据,从而确定出医学价值相对较高的诊断要素词语集合,之后,根据诊断要素词语集合,即可从诊断数据中确定出医学价值相对较高的第一诊断依据数据,第一诊断依据数据是判断患者疾病和/或治疗方式的依据,考虑到第一诊断依据数据是从病历中筛选出的医学价值相对较大的数据,因此当通过该第一诊断依据数据对病历进行质控时,可提高质控的质量及效率。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种诊断依据数据的确定方法的流程示意图;
图2为本发明一实施例提供的另一种诊断依据数据的确定方法的流程示意图;
图3为本发明一实施例提供的又一种诊断依据数据的确定方法的流程示意图;
图4为本发明一实施例提供的一种诊断依据数据的确定装置的结构示意图;
图5为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于前述可知,针对病历中的诊断依据数据,现有技术中没有确定病历中诊断依据数据的方法。而在本发明中,将结合计算机技术,基于病历中的诊断数据,从而得到更为准确的诊断依据数据。
如图1所述,本发明实施例提供了一种诊断依据数据的确定方法,包括如下各个步骤:
步骤101,确定病历中的诊断数据。
诊断数据通常来自通常病历,病历是患者的病案中的文件,病案通常是已经存储在医院大数据***或国家医疗监管机构中的医疗数据。病历通常是记录一个患者的基本情况及生理病理情况的载体,在这里,诊断数据具体指的可以反映患者生理病理情况的数据,考虑到患者生理病理情况的复杂性,通常需要全方面多方位考虑判断患者的病症和治疗手段需要的数据来源,因此诊断数据通常是全面完整的,从而保证诊断数据的准确性及有限性。
需要说明的是,病历是医务人员对患者的患病经过和治疗情况所作的文字记录,是医生诊断和治疗疾病的依据,是医学科学研究的很有价值的资料。病历中通常包括患者基本信息、入院记录、手术记录、检查记录、检验记录、出院记录、医嘱等反映患者基本情况及生理病理情况的数据。
步骤102,根据所述诊断数据,确定诊断要素词语集合。
患者在不同时期的生理病理情况不同,导致患者在不同时期的病症和/或治疗方法不同,同时患者也可能患有多种疾病,这些都导致患者的病历中的诊断数据的差异性及多样性,进而导致每个病历中诊断数据中的诊断要素词语集合是不同的,具体地,诊断要素词语集合指的是组成诊断数据必不可少的词语的集合体,该诊断词语要素集合包括若干个诊断要素词语,每个诊断词语要素具有单独的语义,同时各个诊断要素词语之间的相关性较低,从而确保诊断要素词语集合的准确性及有效性。显而易见的,每个病历都需要确定其对应的诊断要素词语集合。
步骤103,根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
诊断数据综合考虑了患者的生理病理情况,考虑到患者的生理病理情况的复杂性及诊断数据的全面完整,对于一个病历而言,有些诊断数据对于判断患者的疾病和/或治疗方式是没有医学价值或医学价值较小,同时,这些没有医学价值或医学价值较小的数据可能会降低诊断效率或增加误诊概率,从而降低了对病历质控的效率,增加了质控的难度。通过诊断要素词语集合,滤除诊断数据中医学价值较小或没有医学价值的数据,确定出医学价值较大的第一诊断依据数据,当根据该诊断依据数据对病历进行质控时,可以提高质控效率并降低质控难度。第一诊断依据数据具体指的是医生判断患者的疾病及治疗方式所依赖的数据。
需要说明的是,病历在经病案管理人员整理后归档到病案室,病历将转变为病案,病案首页中会记录患者的疾病和/或治疗方式,病案中的病历则是患者的疾病和/或治疗方式的依据来源。通过对病历中的第一诊断依据数据进行质控,可以判断病案首页记录的患者的疾病和/或治疗方式的准确性,在这里,对病历的质控具体指的是通过对诊断依据数据进行全方位的检查及分析,以判断患者是否患有某种疾病和/或对患者的疾病的治疗方式是否准确。
通过以上技术方案可知,本实施例所述方法具备的有益效果是:通过全面考虑病历中的诊断数据,以减少病历中诊断数据以外的数据的影响,确保病历中诊断数据的准确性及完整性,由于诊断数据的完整性及患者生理病理情况的复杂性,导致病历中的诊断数据中往往存在大量没有医学价值或医学价值较少的数据,若直接将这些诊断数据作为诊断依据数据,则会降低诊断依据数据的准确性,从而降低对病历质控的效率及质量。通过诊断要素数据,从而确定出医学价值相对较高的诊断要素词语集合,诊断要素词语集合中的诊断要素词语是诊断数据中必不可少的数据,之后,根据诊断要素词语集合,即可从诊断数据中确定出医学价值相对较高的第一诊断依据数据,第一诊断依据数据是判断患者的疾病和/或治疗方式的依据,考虑到第一诊断依据数据是从病历中筛选出的医学价值相对较大的数据,因此当通过该第一诊断依据数据对病历进行质控时,可提高对病历质控的质量及效率。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述诊断依据数据的确定的另一个具体实施例。本实施例将在图1所示实施例的基础上,进行更为详细的公开和扩展。为便于解释和说明,本实施例将结合以下的具体场景进行阐述。当然应该认为,在其他有关的场景下,本实施例所述方法亦同样适用。
本实施例所结合的具体场景为:病案首页记录了患者在某年某月某日进行了肝切除术的手术,病案中包含有若干个病历,病历中记录了患者的生理病理情况,病历包括患者的基本信息、入院记录、手术记录、术后首次病程记录、有创诊疗操作记录(有创诊疗操作记录具体指的临床诊疗活动过程中记录的各种诊断、治疗性操作,包括介入治疗,临床常用诊疗技术等的记录)、检验数据、医嘱、出院记录等,预先设置有诊断数据位置配置文件、国际疾病分类表及同义词库为例,本实施例所述方法的目的在于结合诊断数据位置配置文件、国际疾病分类表及同义词库,确定病历中的诊断依据数据。
在实际的方法中,病案首页中通常会记录患者的若干个病症和/或若干个治疗方式,为了方便描述,仅以肝切除术为例。考虑到每个病历的诊断数据位置配置文件相似,显而易见的,诊断数据位置配置文件的内容可根据实际场景做改动,在这里,诊断数据位置配置文件的内容如表1:
Figure BDA0002337096850000071
Figure BDA0002337096850000081
表1
表1中,1表示手术记录的优先级第一,其他各条数据的含义同理,不做赘述。
本实施例所述方法包括以下步骤:
步骤201,根据预设诊断数据位置配置文件,确定所述病历中的诊断文本,并对所述诊断文本进行分句,并将分句后的所述诊断文本确定为诊断数据。
病历中包括若干个字段及记录,通过记录的位置与字段的位置即可确定出数据位置,在这里,诊断数据位置配置文件指示了病历中的诊断数据的字段的位置和记录的位置,即诊断数据所在行以及所在列,字段的位置具体指的是字段名称的位置,记录的位置具体指的是字段名称对应的字段内容的位置,具体的,诊断数据位置配置文件包含字段,比如,字段可以是表1中的类别名称所在列以及优先级所在列,每个字段包括若干个数据项,比如,数据项可以是表1中的手术记录、1等,每个病历中的数据的类别的差异性较小,故诊断数据位置配置文件是适用所有的病历的,显而易见的,每个病历可能包含一个或多个类别对应的数据,在这里,类别包括但不限于是表1中的手术记录、术后首次病程记录、有创诊疗操作记录、检验数据、医嘱及出院记录等,显而易见的,也可以是具体场景中病历中的基本信息及入院记录。当然,诊断数据位置配置文件也可以根据实际场景需求做适应性的改动。
根据诊断数据位置配置文件可以确定病历中的若干个类别,将若干个类别对应的完整的记录确定为诊断数据,即确定诊断数据在病历中的字段的位置和记录的位置,比如,字段的位置为手术记录所在的数据项位置,记录的位置为手术记录对应的行数据,则诊断数据为病历中手术记录对应的完整的记录。需要说明的是,诊断数据位置配置文件中类别名称对应的若干个数据项能够全面的确定病历中的诊断数据,因此诊断数据通常包含该病历中全面反映患者生理病理的数据,因此,诊断数据通常是全面完整准确的,同时具有较高的医学价值,对于病历中的诊断数据之外的其他数据,这些数据的医学价值较小,本发明实施例对这部分数据不作考虑。
需要说明的,诊断数据通常是由若干个句子组成的意思完整的复句,在自然语言处理过程中,通常需要对复句进行分句以高效准确的检查数据,分句指的是从复句里划分出来的相当于单句的部分,分句和分句之间一般有分隔符,分隔符包括但不限于逗号或分号,且可用来标示句子的开始或结尾。对诊断数据进行分句,以降低了分句之间的相关性,但是不改变分句之间的语义,以保证诊断数据的真实准确。
举例来说,诊断数据包括手术记录、术后首次病程记录、有创诊疗操作记录、检验数据、医嘱、出院记录等对应的完整的行数据,同时考虑到病历中的数据量较大,这里不对诊断数据的具体内容进行说明。
步骤202,当所述诊断数据中存在诊断编码时,将所述诊断编码对应在国际疾病分类表中的名称确定为诊断名称;当所述诊断数据中不存在诊断编码时,确定所述诊断数据中的诊断名称。
具体的,国际疾病分类是根据疾病的某些特征,按照规则将疾病分类,并用编码的方式来表示的***,即是对手术名称和疾病名称的表达类标准。国际疾病分类(International Classification of Diseases,ICD)表主要包括编码及编码对应的手术名称或疾病名称,手术名称需要根据国际疾病分类第9次修订的文件确定,通常是ICD-9-CM-3中的文件,疾病名称需要根据国际疾病分类第10次修订的文件确定。在本发明实施例提供的场景中,肝切除术是为治疗目的而切除一定量肝实质的手术统称,包括肝叶切除术和切除范围较小的肝段切除术或不规则肝部分切除术,则肝切除术在ICD-9-CM-3中编码包括50.2、50.22、50.3及50.4,其中,50.2表示肝组织或肝病损的局部切除术或破坏术,50.22表示部分肝切除术、肝楔形切除术,50.3表示肝叶切除术,50.4表示肝全切术,ICD-9-CM-3编码中50.2、50.22、50.3或50.4中的具体内容如表2:
编号 名称
50.22 003 肝Ⅱ段切除术
50.22 004 肝Ⅲ段切除术
…… ……
50.22 009 肝Ⅷ段切除术
50.22 011 肝部分切除术
50.22 013 肝楔形切除术
50.3 001 肝叶切除术
50.3 002 右半肝切除术
50.3 003 左半肝切除术
50.3 004 肝叶全部切除术
50.4 001 全肝切除术
表2
当患者在患病时,医生需要根据患者的诊断数据确定患者的疾病和/或治疗方式,即确定出疾病的诊断名称和/或手术的诊断名称,诊断名称指示了患者的诊断结果,是对患者的疾病和/或治疗方式的概括,举例来说,肝切除术是诊断名称,肝切除术指示了患者因某种原因进行了肝切除术的手术,这些原因包括但不限于肝脏恶性肿瘤、肝脏良性肿瘤、肝内肝胆结石、肝外伤、肝脓肿、肝包虫病等。当诊断数据中存在诊断编码不存在诊断名称时,考虑到医生通常是根据国际疾病分类中的编码规则书写诊断编码,因此直接将诊断编码对应在国际疾病分类表中的名称确定为诊断名称,以保证了诊断名称的准确性。当诊断数据中存在诊断名称及诊断编码时,考虑到医生书写诊断名称的多样性,为了确保诊断名称的准确性,将诊断编码对应在国际疾病分类表中的名称确定为诊断名称,而不选择诊断数据中的诊断名称,举例来说,当诊断数据中的诊断编码为50.3 003或ICD-9-CM-3-50.3 003,诊断名称为肝切除术时,根据表2,将左半肝切除术作为诊断名称。当诊断数据中存在诊断名称不存在诊断编码时,直接提取诊断名称以保持数据的真实有效。当诊断数据中不存在诊断名称及诊断编码时,说明诊断数据的医学价值较小或没有医学价值,此时可结束确定第一诊断依据数据的过程。诊断编码和诊断名称是需要对诊断数据进行自然语言识别才能确定的,利用现有技术中的识别技术即可实现。
步骤203,根据预设分词器对所述诊断名称进行分词,以确定第一词语集合,过滤所述第一词语集合中的停用词,以确定诊断要素词语集合。
考虑到医生对疾病的诊断名称和/或手术的诊断名称的写法大多不是国际疾病分类表中的名称,而是在保留国际疾病分类表中的名称中必要的词语的基础上增加或删除一些不必要的词语,从而导致了同一病症的诊断名称的多样性,以肝切除术为例进行说明,肝切除术可以写成肝切除、肝切除术、肝的切除、肝脏切除术、肝叶切除术、肝段切除术、部分肝切除术等诊断名称,这些诊断名称的必要词语是肝及切除,显而易见的,这些诊断名称的语义及必要的词语是相同的,但是写法不同。通过对诊断名称进行分词可以切断诊断名称中词语之间的耦合,降低词序的影响及词语之间的相关性,从而降低诊断名称的多样性的影响。需要说明的是,分词器对诊断名称分词不会改变该诊断名称的词语组成,利用现有技术中的分词器即可实现对诊断名称的分词,现有的分词器中内置有词库。
考虑到不同的病症及治疗方式所依赖的数据存在较大差异,即不同病历的诊断数据的之间的差异较大,同时诊断数据中用于判断患者的病症及治疗方式的数据之间差异性也是比较较大,但是医生都会将诊断出的患者的病症及治疗方式记录在病历中,而诊断名称指示了患者的疾病和/或治疗方式,在这里,诊断名称通常是分析诊断数据确定的,即不同病历的诊断数据中均包含诊断名称,显而易见的,诊断名称是诊断数据中不可缺少的医学价值较大的数据,相对于其他诊断数据,诊断名称无需考虑患者复杂的生理病理情况,可更为准确简单的概括出患者疾病和/或治疗方式。
考虑到诊断名称中词语的相关性较强,不利用数据匹配,通常需要确定诊断名称的诊断要素词语集合,以提高诊断名称与数据之间的匹配,诊断要素词语集合具有较高的医学价值,具体的,诊断要素词语集合具体指的是组成疾病诊断名称和/或手术诊断名称中必要的最小组词词语,举例来说,肝切除术的诊断要素词语集合包括肝、切除这两个诊断要素词语。
诊断名称中可能会包括一些不必要的停用词,这些停用词不会影响诊断名称的语义,在这里,停用词具体指的是含义泛化的词,比如“的”“病”“症”等。考虑到分词器对诊断名称的分词不会改变诊断名称的词语组成,从而导致词语集合中也会存在不必要的停用词,这些停用词会增加第一词语集合中词语的限制,同时考虑到每个医生的书写习惯不同,有的医生习惯加上停用词,有的医生则不会加停用词,这些都会增加第一词语集合中的词语与数据之间的匹配难度,同时可能会降低匹配的准确性,因此,需要过滤第一词语集合中的停用词,并将过滤掉停用词的第一词语集合确定为诊断要素词语集合,该诊断要素词语集合的诊断要素词语的限制相对较少,从而降低了词语与数据之间的匹配难度,从而增加召回率。
举例来说,,肝切除术对应的停用词包括“的”、“术”、“脏”、“叶”、“段”等,对肝切除术进行分词可以得到第一词语集合,第一词语集合包括“肝”及“切除术”两个词语,其中“术”是停用词,则删除“切除术”中的“术”,即可得到诊断要素词语集合,诊断要素词语集合包括“肝”及“切除”两个词语。
步骤204,判断所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合是否满足预设条件。
考虑到医生的书写习惯不同,诊断数据中的通常存在若干个同义词,即一个词语使用与该词语意思相近或相同的其他词语,举例来说,肝切除术中的切除术的同义词组包括全切术、根除术及根治术。在这里,同义词诊断数据具体指的是诊断数据及诊断数据中的若干个同义词组,同义词组具体指的是意思相近或相同的若干个词语,在这里,从预设同义词库中确定出诊断数据中的若干个同义词组即可,同义词库中存储有大多数的手术名称及疾病名称常用的同义词组。
在这里,预设条件包括诊断数据中的句子和/或诊断数据对应的同义词诊断数据中的句子,与诊断要素词语集合中的诊断要素词语完全匹配或部分匹配,完全匹配的精确度相对较高,召回率相对较低,而部分匹配的精确度相对较低,召回率相对较高。可根据应用场景的不同,灵活更换匹配策略。
举例来说,诊断数据中的某句子的内容“患者患有肝脏良性肿瘤,因此需要进行肝根治术”,在这里,根治术是同义词,相应的,该句子的同义词诊断数据包括“患者患有肝脏良性肿瘤,因此需要进行肝根治术”及“切除术、全切术以及根除术”,这里,根治术、切除术、全切术、根除术是同义词。
步骤205,当所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合满足预设条件时,将所述诊断数据确定为第一诊断依据数据,所述第一诊断依据数据包括所述诊断要素词语集合中的诊断要素词语位于所述第一诊断依据数据中的位置信息。
当诊断数据中的句子或诊断数据对应的同义词诊断数据中的句子与诊断要素词语集合中的诊断要素词语能够完全匹配或部分匹配时,将该诊断数据确定为第一诊断依据数据,举例来说,诊断数据中的医嘱的内容为“患者出车祸导致肝部位受伤,因此需要进行肝切除手术”,医嘱的内容中包括诊断要素记录中的“肝”及“切除”,则可判断医嘱的内容为第一诊断依据数据,以步骤204举例说明中的“患者患有肝脏良性肿瘤,因此需要进行肝根治术”句子的同义词诊断数据包括“患者患有肝脏良性肿瘤,因此需要进行肝根治术”及“切除术、全切术以及根除术”为例,该句子的同义词诊断数据包括诊断要素记录中的“肝”及“切除”,则可判断该句子为第一诊断依据数据。或,当诊断数据中的句子与诊断要素词语集合中的诊断要素词语不能完全匹配或部分匹配,诊断数据中的句子与句子对应的同义词组与诊断要素词语集合中的诊断要素词语能够完全匹配或部分匹配时,将该诊断数据中的句子确定为第一诊断依据数据。需要说明的是,第一诊断依据数据包括若干个句子,每个句子包含全部或部分的诊断要素词语,同时包括诊断要素词语在句子中的位置信息,位置信息指示了诊断要素词语在句子中的位置,比如,按照从左到右的顺序,诊断要素词语位于第i个字符串到与第n个字符串之间,从而方便对第一诊断依据数据进行检查分析,显而易见的,也可以对句子中包含诊断要素词语的位置进行重点标记,比如,用不同的颜色显示句子中诊断要素词语,可更为方便的检查分析第一诊断依据数据。
需要说明的是,对于诊断数据中的句子,通过对句子中的信息进行分析,可确定患者的病症和/或治疗方法,从而确定出句子中的诊断名称,比如“患者出车祸导致肝部位受伤,因此需要进行肝切除手术”,显而易见的,句子中的信息会包括诊断名称中的部分词语,因此,出现诊断要素词语的句子是第一诊断依据数据,且第一诊断依据数据的准确性较高。
在本实施例中,利用预设诊断数据位置位置文件,以全面准确的从病历中确定出诊断数据,并确定出诊断数据中的诊断名称,之后,确定诊断名称对应的诊断要素词语集合,通过对诊断数据和/或诊断数据对应的同义词诊断数据,与诊断要素词语集合进行匹配,从而更为准确的从诊断数据中确定出第一诊断依据数据。
另外优选地,本实施例中所述方法还可以包括:
步骤206,根据所述预设诊断数据位置配置文件中的优先级信息,对所述第一诊断依据数据进行排序,并将排序后的所述第一诊断依据数据确定为第二诊断依据数据。
以表1为例进行说明,预设诊断数据位置配置文件包括类别名称字段中的数据项及优先级字段中的数据项,显而易见的,优先级信息具体指的是类别名称字段中数据项的重要程度,第一诊断依据数据与类别名称字段中的数据项是对应的,举例来说,第一诊断依据数据中的手术记录对应的数据携带手术记录的标签,基于此,即可根据第一诊断依据数据与类别名称字段中的数据项的对应关系,对第一诊断依据数据中的句子进行排序,以确定第一诊断依据数据的重要程度,在这里,可以按照优先级由高到低的顺序进行排序,即将重要的诊断依据数据排在前面,并将排序后的第一诊断依据数据确定为第二诊断依据数据,当需要对病历进行质控时,可重点检查第二诊断依据数据中排序靠前的数据,从而提高对病历质控的准确性及效率,节省人力及时间成本。
通过以上技术方案可知,本实施例所述方法在图1所示实施例的基础上,进一步实现的有益效果是:根据诊断数据位置配置文件中的优先级信息对第一诊断依据数据进行排序,以确定第二诊断依据数据,当根据第二诊断依据数据对病历进行质控时,可重点检查第二诊断依据数据中的优先级较高的数据,进一步提高质控的效率及质量。
如图3所示,为本发明所述诊断依据数据的确定方法的又一个具体实施例。本实施例利用另一种方法确定诊断要素词语集合。为了便于解释和说明,本实施例将继续结合上述具体场景进行阐述,本实施例在上述具体场景中增加了第一自定义词库及国际疾病分类表对应的诊断要素配置表,本实施例所述方法的目的在于结合诊断数据位置配置文件、国际疾病分类表、国际疾病分类表对应的诊断要素配置表、第一自定义词库及同义词库,确定病历中的诊断依据数据。
本实施例中,所述方法包括以下步骤:
步骤301,根据预设诊断数据位置配置文件,确定所述病历中的诊断文本,并对所述诊断文本进行分句,并将分句后的所述诊断文本确定为诊断数据。
步骤302,当所述诊断数据中存在诊断编码时,将所述诊断编码对应在国际疾病分类表中的名称确定为诊断名称;当所述诊断数据中不存在诊断编码时,确定所述诊断数据中的诊断名称。
步骤303,获取国际疾病分类表对应的诊断要素配置表,将所述诊断要素配置表加入预设第一自定义词库中,以确定第二自定义词库。
前述已知,国际疾病分类表中的手术名称和疾病名称是标准化的,而医生会根据职业习惯,适当的在国际疾病分类表中的手术名称和疾病名称中增加删除某些不必要的词语,为了减少不必要的词语的影响,确定国际疾病分类表的诊断要素配置表,具体地,诊断要素配置表具体指的是国际疾病分类表中手术名称及疾病名称中必不可少的词语。
考虑到词库比较直观,且方便通过增加或删除词库以调整最终的分词结果,故在这里采用词库的分词方法。预设的第一自定义词库包括若干个可以组成诊断数据中的诊断名称的词语,显而易见的,诊断数据中的诊断名称不一定是国际疾病分类中的手术名称或疾病名称,而第一自定义词库中的分词通常包含不必要的词语,可能会降低分词的质量,通过将诊断要素配置表加入第一自定义词库中,以形成第二自定义词库,第二自定义词库是通用的,即利用第二自定义词库对若干个病历进行分词,同时第二自定义词库中的不必要的词语相对较少,从而提高了分词的质量。
步骤304,根据所述第二自定义词库对应的分词器对所述诊断名称进行分词,以确定第二词语集合,过滤所述第二词语集合中不在所述诊断要素配置表中的词语,以确定诊断要素词语集合。
诊断名称中不具有天然的分割词或标点符号,通常是在诊断名称中自动加上空格或其他边界标记以实现自动分词。考虑诊断名称中通常是在国际疾病分类表中的手术名称或疾病名称基础上进行增加或删除不必要的词语,当然也可能会改变词语语序,通过第二自定义词库对应的分词器对诊断名称进行分词,以降低诊断名称中各组成词语之间的相关性,降低词序的影响,从而形成第二词语集合。
考虑到诊断名称的多样性,导致难以确定诊断要素配置表与诊断名称的匹配关系,无法直接根据诊断要素配置表确定诊断名称的诊断要素词语集合,同时分词器的功能仅仅是分词,不会改变诊断名称中的词语组合,导致得到的第二词语集合中通常包含不在诊断要素配置表中的词语,这些词语是不必要的,也容易增加与数据的匹配难度,降低召回率。通过将第二词语集合中不属于诊断要素配置表中的词语过滤,以更为准确的确定出诊断要素词语集合,降低与数据的匹配难度,增加召回率。
举例来说,对肝切除术进行分词可以得到第二词语集合,第二词语集合包括“肝”、“切除”及“术”三个词语,其中“术”不在诊断要素配置表中,则删除“术”,即可得到诊断要素词语集合,诊断要素词语集合包括“肝”及“切除”两个词语。
步骤305,判断所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合是否满足预设条件。
步骤306,当所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合满足预设条件时,将所述诊断数据确定为第一诊断依据数据,所述第一诊断依据数据包括所述诊断要素词语集合中的诊断要素词语位于所述第一诊断依据数据中的位置信息。
步骤307,根据所述预设诊断数据位置配置文件中的优先级信息,对所述第一诊断依据数据进行排序,并将排序后的所述第一诊断依据数据确定为第二诊断依据数据。
通过以上技术方可知,本实施例通过第一自定义词库及国际疾病分类表对应的诊断要素配置表,确定出准确性较高的诊断要素词语集合,可进一步提高诊断依据数据的准确性及医学价值。
基于与本发明方法实施例相同的构思,请参考图4,本发明实施例还提供了一种诊断依据数据的确定装置,包括:
第一数据确定模块401,用于确定病历中的诊断数据;
集合确定模块402,用于根据所述诊断数据,确定诊断要素词语集合;
第二数据确定模块403,用于根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器501及存储有执行指令的存储器502,可选地还包括内部总线503及网络接口504。其中,存储器502可能包含内存5021,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器5022(non-volatile memory),例如至少1个磁盘存储器等;处理器501、网络接口504和存储器502可以通过内部总线503相互连接,该内部总线503可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等;内部总线503可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器501执行存储器502存储的执行指令时,处理器501执行本发明任意一个实施例中的方法,并至少用于执行如图1、图2或图3所示的方法。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种诊断依据数据的确定装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的一种诊断依据数据的确定方法。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或该处理器也可以是任何常规的处理器等。
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图5所示的电子设备;执行指令是一种诊断依据数据的确定装置所对应计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或锅炉不仅包括那些要素,而且还包括没有明确列出的其他要素,或是还包括为这种过程、方法、商品或锅炉所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或锅炉中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (12)

1.一种诊断依据数据的确定方法,其特征在于,包括:
确定病历中的诊断数据;
根据所述诊断数据,确定诊断要素词语集合;
根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
2.根据权利要求1所述的方法,其特征在于,所述确定病历中的诊断数据,包括:
根据预设诊断数据位置配置文件,确定所述病历中的诊断文本;
对所述诊断文本进行分句,并将分句后的所述诊断文本确定为诊断数据。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述预设诊断数据位置配置文件中的优先级信息,对所述第一诊断依据数据进行排序;
将排序后的所述第一诊断依据数据确定为第二诊断依据数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述诊断数据,确定诊断要素词语集合,包括:
确定所述诊断数据中的诊断名称;
对所述诊断名称进行分词以确定诊断要素词语集合。
5.根据权利要求4所述的方法,其特征在于,所述确定所述诊断数据中的诊断名称,包括:
当所述诊断数据中存在诊断编码时,将所述诊断编码对应在国际疾病分类表中的名称确定为诊断名称;
当所述诊断数据中不存在诊断编码时,确定所述诊断数据中的诊断名称。
6.根据权利要求4所述的方法,其特征在于,所述对所述诊断名称进行分词以确定诊断要素词语集合,包括:
根据预设分词器对所述诊断名称进行分词,以确定第一词语集合;
过滤所述第一词语集合中的停用词,以确定诊断要素词语集合。
7.根据权利要求4所述的方法,其特征在于,所述对所述诊断名称进行分词以确定诊断要素词语集合,包括:
获取国际疾病分类表对应的诊断要素配置表;
将所述诊断要素配置表加入预设第一自定义词库中,以确定第二自定义词库;
根据所述第二自定义词库对应的分词器对所述诊断名称进行分词,以确定第二词语集合;
过滤所述第二词语集合中不在所述诊断要素配置表中的词语,以确定诊断要素词语集合。
8.根据权利要求1所述的方法,其特征在于,所述根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据,包括:
判断所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合是否满足预设条件;
当所述诊断数据和/或所述诊断数据对应的同义词诊断数据,与所述诊断要素词语集合满足预设条件时,将所述诊断数据确定为第一诊断依据数据。
9.根据权利要求1所述的方法,其特征在于,所述第一诊断依据数据包括所述诊断要素词语集合中的诊断要素词语位于所述第一诊断依据数据中的位置信息。
10.一种诊断依据数据的确定装置,其特征在于,包括:
第一数据确定模块,用于确定病历中的诊断数据;
集合确定模块,用于根据所述诊断数据,确定诊断要素词语集合;
第二数据确定模块,用于根据所述诊断要素词语集合,从所述诊断数据中确定出第一诊断依据数据。
11.一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如权利要求1至9中任一所述的方法。
12.一种电子设备,包括处理器及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至9中任一所述的方法。
CN201911360739.2A 2019-12-25 2019-12-25 诊断依据数据的确定方法、装置、可读介质及电子设备 Pending CN111209742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360739.2A CN111209742A (zh) 2019-12-25 2019-12-25 诊断依据数据的确定方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360739.2A CN111209742A (zh) 2019-12-25 2019-12-25 诊断依据数据的确定方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN111209742A true CN111209742A (zh) 2020-05-29

Family

ID=70784249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360739.2A Pending CN111209742A (zh) 2019-12-25 2019-12-25 诊断依据数据的确定方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111209742A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184084A (zh) * 2020-11-05 2021-01-05 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182972A (zh) * 2017-12-15 2018-06-19 上海长江科技发展有限公司 基于分词网络的中文疾病诊断的智能编码方法及***
CN109524072A (zh) * 2018-05-28 2019-03-26 平安医疗健康管理股份有限公司 电子病历生成方法、装置、计算机设备和存储介质
CN110471941A (zh) * 2019-08-12 2019-11-19 贵州医渡云技术有限公司 自动定位判断依据的方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182972A (zh) * 2017-12-15 2018-06-19 上海长江科技发展有限公司 基于分词网络的中文疾病诊断的智能编码方法及***
CN109524072A (zh) * 2018-05-28 2019-03-26 平安医疗健康管理股份有限公司 电子病历生成方法、装置、计算机设备和存储介质
CN110471941A (zh) * 2019-08-12 2019-11-19 贵州医渡云技术有限公司 自动定位判断依据的方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184084A (zh) * 2020-11-05 2021-01-05 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置
CN112184084B (zh) * 2020-11-05 2023-08-08 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置

Similar Documents

Publication Publication Date Title
Szucs et al. Sample size evolution in neuroimaging research: An evaluation of highly-cited studies (1990–2012) and of latest practices (2017–2018) in high-impact journals
CN111681728B (zh) 一种电子病历的内涵质控方法及装置
US7610192B1 (en) Process and system for high precision coding of free text documents against a standard lexicon
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
Schneider et al. Normative data for 8 neuropsychological tests in older blacks and whites from the atherosclerosis risk in communities (ARIC) study
US10176892B2 (en) Method and system for presenting summarized information of medical reports
CN109637605B (zh) 电子病历结构化方法及计算机可读存储介质
WO2018169795A1 (en) Interoperable record matching process
CN111785383B (zh) 数据处理方法及相关设备
CN111292814A (zh) 一种医疗数据标准化的方法及装置
CN110674244B (zh) 一种医疗文本的结构化处理方法及装置
WO2020048952A1 (en) Method of classifying medical records
CN114912887A (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN111209742A (zh) 诊断依据数据的确定方法、装置、可读介质及电子设备
CN112699669B (zh) 流行病学调查报告的自然语言处理方法、装置及存储介质
CN112329461A (zh) 相似病历确定方法、计算机设备及计算机存储介质
CN112154512B (zh) 用于异构医学数据的优先级排序和呈现的***和方法
CN113052410B (zh) 一种电子病历数据的质控方法及装置
CN111243692A (zh) 病案自动编码方法及***
CN115631823A (zh) 相似病例推荐方法及***
CN114520035A (zh) 一种志愿者筛选方法、装置、电子设备及存储介质
CN111710431B (zh) 一种识别同义诊断名称的方法、装置、设备及存储介质
Santos et al. Influence of autopsy reports on trauma registry accuracy
CN113486644A (zh) 一种快捷生成医疗文书的方法、***、终端及存储介质
CN111667922A (zh) 一种临床诊疗数据录入***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230328

Address after: 100089 801, 8th floor, building 9, No.35 Huayuan North Road, Haidian District, Beijing

Applicant after: YIDU CLOUD Ltd.

Address before: Room 1502, 15th floor, No.211, pubin Road, Jiangbei new district, Nanjing, Jiangsu 210000

Applicant before: Nanjing Yirui Technology Co.,Ltd.

Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd.

TA01 Transfer of patent application right