CN114065744A - 中文电子病历手术操作文本的icd自动编码方法及装置 - Google Patents

中文电子病历手术操作文本的icd自动编码方法及装置 Download PDF

Info

Publication number
CN114065744A
CN114065744A CN202111373822.0A CN202111373822A CN114065744A CN 114065744 A CN114065744 A CN 114065744A CN 202111373822 A CN202111373822 A CN 202111373822A CN 114065744 A CN114065744 A CN 114065744A
Authority
CN
China
Prior art keywords
node
nodes
text
unsupervised
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373822.0A
Other languages
English (en)
Inventor
傅湘玲
高越
闫晨巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111373822.0A priority Critical patent/CN114065744A/zh
Publication of CN114065744A publication Critical patent/CN114065744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,特别涉及一种中文电子病历手术操作文本的ICD自动编码方法及装置,该方法包括:以结构化电子病历中的手术操作文本作为输入,基于BERT无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得到每条手术操作文本的无监督语义图;将构建的无监督语义图输入门控图神经网络,进行全局信息交互,得到上下文语义信息和全局语义信息融合的语义图;基于得到的语义信息融合的语义图,聚合各节点的表征,得到聚合的特征向量;根据聚合的特征向量进行分类,确定手术操作文本对应的ICD编码。本发明集成了手术操作文本中上下文语义信息和全局信息,能够基于文本本身取得更好的表征性能,实现对手术操作精准编码。

Description

中文电子病历手术操作文本的ICD自动编码方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种中文电子病历手术操 作文本的ICD自动编码方法、装置、电子设备及存储介质。
背景技术
国际疾病分类(International Classification of Diseases,ICD)是WHO制 定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖 位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法 来表示。如今,ICD编码作为统一分类标准,已在全球各医院广泛运用于病 案管理、医保报销等医疗保健任务中。
ICD编码是医院医疗管理的一项重要工作。然而,传统的编码过程存在 大量手工操作。在中国传统公立医院,ICD编码流程首先需要由主治医生根 据病患情况在电子病历中填写临床诊断描述,然后由医院病案室专业的编码 员根据临床诊断描述确定相应的编码标准名称,最后再将编码标准名称转换 为相应的ICD编码,并输入到疾病诊断相关分组(DRG)***中进行医学统计 分析,整个过程非常耗时,且容易出错。
发明内容
基于人工ICD编码工作费时费力、容易出错的问题,本发明提供了一种 中文电子病历手术操作文本的ICD自动编码方法、装置、电子设备及存储介 质,能够针对电子病历中的手术操作结构化短文本自动化地实现ICD精准编 码。
第一方面,本发明实施例提供了一种中文电子病历手术操作文本的ICD 自动编码方法,包括:
以结构化电子病历中的手术操作文本作为输入,基于BERT无监督预训 练模型,构建包含无监督上下文语义信息的节点与边,得到每条手术操作文 本的无监督语义图;其中,所述无监督语义图的节点包括章节级节点、文档 级节点和最多四个轴心词节点;所述章节级节点的特征向量包含手术操作文 本所属章节的上下文语义信息,所述文档级节点的特征向量包含整条手术操 作文本的上下文语义信息,四个所述轴心词节点的特征向量分别包含手术操 作的部位、术式、入路和疾病性质四个轴心词语义信息,所述无监督语义图 的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息;
将构建的所述无监督语义图输入门控图神经网络,进行全局信息交互, 得到语义信息融合的语义图;
基于得到的语义信息融合的语义图,聚合各节点的表征,得到聚合的特 征向量;
根据聚合的特征向量进行分类,确定所述手术操作文本对应的ICD编码。
可选地,所述基于BERT无监督预训练模型,构建包含无监督上下文语 义信息的节点,包括:
将所述手术操作文本输入第一BERT模型,查找所述手术操作文本对应 的编码章节,确定章节标题文本;所述第一BERT模型包括BERT无监督预 训练模型和softmax层;
将所述章节标题文本输入第二BERT模型,以[CLS]字符的表征作为所 述章节级节点的初始特征向量;
将所述手术操作文本输入命名实体识别模型,分别提取部位、术式、入 路和疾病性质四个轴心词的词组,确定各轴心词的词组位置;
将所述手术操作文本输入第二BERT模型,以[CLS]字符的表征作为所 述文档级节点的初始特征向量,分别以各轴心词词组所涉及字符的表征的平 均值,作为相应轴心词节点的初始特征向量。
可选地,所述基于BERT无监督预训练模型,构建包含无监督上下文语 义信息的边,包括:
计算每两个所述轴心词节点之间有指向性的影响力关系;
计算各所述轴心词节点与所述文档级节点之间有指向性的影响力关系;
计算所述章节级节点与所述文档级节点之间有指向性的影响力关系;
基于影响力关系构造影响力矩阵,利用激活函数将构造的所述影响力矩 阵转换为归一化的邻接矩阵,确定所述无监督语义图中各边的权重。
可选地,计算两个所述轴心词节点之间有指向性的影响力关系,包括:
设两个轴心词节点分别为第一轴心词节点和第二轴心词节点,用[MASK] 字符遮挡所述手术操作文本中第一轴心词节点对应的词组,输入第二BERT 模型,得到该第一轴心词节点对应的词组所涉及字符的表征的平均值,作为 第一平均值;
用[MASK]字符遮挡所述手术操作文本中第一轴心词节点和第二轴心词 节点对应的词组,输入第二BERT模型,得到该第一轴心词节点对应的词组 所涉及字符的表征的平均值,作为第二平均值;
基于欧几里得距离,计算所述第一平均值与所述第二平均值之间的差异, 作为第二轴心词节点对第一轴心词节点的影响力权重。
可选地,计算所述轴心词节点与所述文档级节点之间有指向性的影响力 关系,包括:
用[MASK]字符遮挡所述手术操作文本中该轴心词节点对应的词组,输 入第二BERT模型,以[CLS]字符的表征作为第二文档参量,以该轴心词节 点对应的词组所涉及字符的表征的平均值,作为第二轴心词参量;
以所述文档级节点的初始特征向量作为第一文档参量,基于欧几里得距 离,计算所述第一文档参量与所述第二文档参量之间的差异,作为该轴心词 节点对所述文档级节点的影响力权重;
以该轴心词节点的初始特征向量作为第一轴心词参量,基于欧几里得距 离,计算所述第一轴心词参量与所述第二轴心词参量之间的差异,作为所述 文档级节点对该轴心词节点的影响力权重。
可选地,计算所述章节级节点与所述文档级节点之间有指向性的影响力 关系,包括:
将所述第一BERT模型中的softmax层分配给所述手术操作文本对应编 码章节的权重,作为所述文档级节点对所述章节级节点,和所述章节级节点 对所述文档级节点的影响力权重。
可选地,所述聚合各节点的表征,包括:
通过注意机制给语义图的每个节点分配权重,并基于平均函数和最大池 化函数提取各节点的表征。
第二方面,本发明实施例还提供了一种中文电子病历手术操作文本的 ICD自动编码装置,包括:
构图模块,用于以结构化电子病历中的手术操作文本作为输入,基于 BERT无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得 到每条手术操作文本的无监督语义图;其中,所述无监督语义图的节点包括 章节级节点、文档级节点和最多四个轴心词节点;所述章节级节点的特征向 量包含手术操作文本所属章节的上下文语义信息,所述文档级节点的特征向 量包含整条手术操作文本的上下文语义信息,四个所述轴心词节点的特征向 量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息, 所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语 义影响力信息;
融合模块,用于将构建的所述无监督语义图输入门控图神经网络,进行 全局信息交互,得到语义信息融合的语义图;
聚合模块,用于基于得到的语义信息融合的语义图,聚合各节点的表征, 得到聚合的特征向量;
分类模块,用于根据聚合的特征向量进行分类,确定所述手术操作文本 对应的ICD编码。
第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器, 所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现 本说明书任一实施例所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储 有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明 书任一实施例所述的方法。
本发明提供了一种中文电子病历手术操作文本的ICD自动编码方法、装 置、电子设备及存储介质,本发明的技术方案基于手术操作文本构建无监督 语义图,提取手术操作文本中的关键性语义信息;将无监督语义图输入门控 图神经网络进行全局信息交互,得到语义信息融合的语义图,进一步融合各 节点中包含的关键性语义信息;基于语义信息融合的语义图,聚合各节点的 表征,得到聚合的特征向量,集成手术操作文本中的上下文语义信息和全局 信息;根据聚合的特征向量进行分类,确定手术操作文本对应的精确ICD编码。本发明充分考虑了手术操作文本的内涵特征,将各条手术操作文本中基 于无监督预训练模型的上下文语义信息和基于图的全局信息进行有效融合, 对手术操作文本中的轴心词知识和章节知识进行结构强化,增强了对手术操 作文本的语义表征能力,充分提取文本信息特征,进而根据提取的信息特征 进行自动化地ICD编码。本发明能够有效节省人工,且错误率低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自 动编码方法步骤图;
图2是本发明一实施例提供的节点构建过程示意图;
图3是本发明一实施例提供的边构建过程示意图;
图4是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自 动编码方法整体流程图;
图5是本发明一实施例提供的另一种中文电子病历手术操作文本的ICD 自动编码方法步骤图;
图6是本发明一实施例提供的一种电子设备的硬件架构图;
图7是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自 动编码装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
如前所述,传统的ICD编码过程存在大量手工操作,不仅耗时,且容易 出错。此外,还存在各省市医院所采用编码版本不同的问题,各版本中的编 码及相应的标准名称差异性较大,进一步增加了ICD精准编码的难度。
ICD编码可分为疾病编码和手术操作编码两部分。其中,疾病编码根据 住院病案中的疾病诊断、临床报告等非结构化长文本对患者的疾病进行编码 分类。手术操作编码则根据住院病案中的手术操作描述这一结构化短文本对 患者的手术操作进行编码分类。本发明着重针对中文电子病历中的结构化手 术操作短文本实现手术操作文本的ICD自动编码。
当前ICD自动编码的实现,大多基于传统机器学习方法(如:支持向量 机(SVM)和编辑距离(Levenshtein Distance))和时序性深度学习方法(如:卷 积神经网络(CNN)和循环神经网络(RNN)),并尝试引入外部知识来丰富病 例文本的信息。然而,这些方法对手术操作文本这种结构化短文本来说表征 能力有限,信息特征提取不充分,自动编码错误率较高。
本发明提出基于图神经网络,在不引入外部知识的情况下,对手术操作 文本本身进行全局表征。同时,鉴于现有技术中的无监督预训练模型(如 BERT模型)对文本中上下文语义的强大表征能力,本发明进一步将手术操 作文本基于图的全局信息和基于无监督预训练模型的上下文语义信息进行有 效融合,以增强对手术操作文本的语义表征能力。
为增强对手术操作文本的语义表征能力,本发明充分考虑了手术操作文 本的内涵特征:
(1)手术操作文本包括最多四类轴心词:部位、术式、入路、疾病性质。 例如:“阑尾切除术”由部位、术式两个轴心词构成,“垂体腺瘤切除术, 经额”由部位、术式、入路、疾病性质四个轴心词构成。这四类轴心词对文 本的手术操作编码分类起着决定性作用。
(2)手术操作ICD编码根据其所属部位不同在ICD-9-CM3中被划分 为18章节,手术操作文本本身也隐含章节信息有待挖掘。
有鉴于此,本发明为每条手术操作文本都构建一张包含以章节标题、文 本及最多四个轴心词构成节点的异质图,以实现对手术操作文本中的轴心词 知识和章节知识的结构强化。同时,本发明基于无监督BERT模型计算各节 点间的语义依赖权边,并基于无监督BERT模型初始化图中各节点的语义特 征。在通过图神经网络进行全局传播后,实现基于图的全局信息和基于无监 督预训练模型的上下文语义信息的有效融合,以此完成对手术操作文本的归 纳式表征学习,最终实现对手术操作文本的精准自动编码。
下面描述以上构思的具体实现方式。
请参考图1,本发明实施例提供了一种中文电子病历手术操作文本的ICD 自动编码方法(简称本发明方法),该方法包括:
步骤100,以结构化电子病历中的手术操作文本作为输入,基于BERT 无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得到每条 手术操作文本的无监督语义图。
其中,无监督语义图的节点包括章节级节点、文档级节点和最多四个轴 心词节点。章节级节点的特征向量包含手术操作文本所属章节的上下文语义 信息,文档级节点的特征向量包含整条手术操作文本的上下文语义信息,四 个轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质 四个轴心词语义信息,无监督语义图的边的权重可基于BERT无监督预训练 模型计算得出,包含所连两节点之间在手术操作文本中的的语义影响力信息。
目前,中国的疾病编码通常参考1CD-10版本,手术操作编码通常参考 ICD-9-CM3版本。本发明从医学角度分析了手术操作编码文本的特点:1)所 有的手术操作文本可分为18章,所属章节与该文本描述的所属部位高度相 关;2)标准的手术操作文本多由部位、术式、入路和疾病性质四个轴心词组 成,这些轴心词中隐含了文本的核心知识,可在自动编码中起到决定性作用; 3)原始的手术操作文本本身隐含有助于精确编码的语义信息。因此,本发明 针对每一条手术操作文本构建对应的无监督语义图(SMP-Graph),该无监 督语义图中的节点包括三种类型:章节级节点、轴心词节点和文档级节点。 其中,章节级节点、文档级节点分别为一个,轴心词节点最多有四个。对于 一些手术操作文本,如:“阑尾切除术”由部位、术式两个轴心词构成,构 建无监督语义图后,可能只有两个轴心词节点,分别对应部位和术式两个轴 心词,即,这两个节点的特征向量分别包含手术操作的部位和术式这两个轴 心词语义信息。连接节点的边的权重则反映了该边所连两节点之间的语义影 响程度(或称依赖程度)。
步骤102,将构建的、各条手术操作文本的无监督语义图分别输入门控 图神经网络(GGNN),分别进行各无监督语义图的全局信息交互,实现无 监督的上下文语义信息和图网络的全局信息的深度融合,得到语义信息融合 的语义图。
本发明利用GGNN实现节点间的全局信息交互。GGNN通过门循环单元 (GRU)的神经网络学习节点表示,从而融合邻域信息,丰富各节点自身的表 示。节点间的信息融合随着交互时间t的增加而不断加强,最终可以实现整 个结构的全局信息交互。通过这种方式,基于图的全局信息和无监督上下文 化语义信息最终实现了内部融合,进一步增强对手术操作文本的语义表征能 力,得到相应的结构增强的无监督语义图表征输出,即语义信息融合的语义 图。
步骤104,对各条手术操作文本,基于得到的、对应的语义信息融合的 语义图进行计算,聚合各节点的表征,得到聚合的特征向量。
得到结构增强的无监督语义图表征输出后,就在下游读取阶段聚合所有 节点的表征,以便进行最终的分类预测。聚合各节点的表征优选基于注意力 机制、最大池化等操作。
步骤106,对各条手术操作文本,根据聚合的特征向量进行分类,最终 确定各手术操作文本对应的ICD编码。
本发明提供的中文电子病历手术操作文本的ICD自动编码方法中,没有 采用直接基于无监督预训练模型提取手术操作文本中语义信息的方式,而是 针对手术操作文本的内涵特征构建无监督语义图,将基于该无监督语义图的 全局信息和基于无监督预训练模型的上下文语义信息进行有效融合,以此增 强对手术操作文本的归纳式表征学习,充分挖掘文本中的语义信息,最终基 于聚合的特征向量进行分类,实现精准ICD编码。本发明可运用于对电子病 历中的手术操作文本进行ICD自动编码,以解决当前中国医院病例管理中的实际临床需求。需要说明的是,在步骤104中得到增强了对手术操作文本语 义表征能力的特征向量后,也可用于其他分析。增强了对手术操作文本语义 表征能力的特征向量能够更为准确地表征手术操作文本包含的语义信息。
下面描述图1所示的各个步骤的执行方式。
首先,步骤100基于手术操作文本构建各节点,利用BERT模型对节点 的特征向量进行初始化。可选地,步骤100中基于BERT无监督预训练模型, 构建包含无监督上下文语义信息的节点,具体包括:
将手术操作文本输入第一BERT模型,利用第一BERT模型查找手术操 作文本对应的编码章节,确定章节标题文本。第一BERT模型包括BERT无 监督预训练模型和softmax层。第一BERT模型作为一个基于BERT的章节 分类器,能够粗略查找该手术操作文本所属的编码章节。
将确定的章节标题文本输入第二BERT模型,利用第二BERT模型得到 文本各字符对应的表征,以[CLS]字符的表征作为章节级节点的初始特征向 量,实现章节级节点的特征向量的初始化。第二BERT模型是一个新的BERT 无监督预训练模型,将文本输入第二BERT模型进行处理,每段文本涉及若 干个字符,每个字符(或称每个token)有对应的特征向量输出,该对应的特 征向量即该字符的表征。BERT模型中有一些特殊的token作为占位符,[CLS] 字符放在文本最前面作为第一个token,[CLS]字符的表征,即[CLS]字符对应 的特征向量,表示了输入的整段文本对应的特征向量,反映了章节语义信息 及隐含的上下文语义信息。
将手术操作文本输入命名实体识别模型(NER),分别提取部位、术式、 入路和疾病性质四个轴心词的词组,确定各轴心词的词组位置。NER模型基 于Bi-LSTM和CRF(随机场)构成,能够用于提取手术操作文本中部位、 术式、入路、疾病性质的准确词组。轴心词的数量和类型在不同的文本中有 所不同,相应的位置(及长短)也存在差异。
将整段的手术操作文本输入第二BERT模型,利用第二BERT模型得到 文本各字符对应的表征,对于文档级节点,以隐含整段文本上下文语义信息 的[CLS]字符的表征,作为文档级节点的初始特征向量,实现文档级节点的特 征向量的初始化,对于轴心词节点,分别以各轴心词词组所涉及字符的表征 的平均值,作为相应轴心词节点的初始特征向量,实现最多四个轴心词节点 特征向量的初始化。其中,一个轴心词词组所涉及字符的表征的平均值,即 该词组所涉及的若干个token对应的特征向量相加再取均值。
图2是本发明一实施例提供的节点构建过程示意图,先通过Bi-LSTM和 CRF实现命名实体识别,确定手术操作文本中的部位、术式、入路和疾病性 质四个轴心词;然后利用基于BERT的章节分类器(即第一BERT模型)确 定确定章节标题文本,图2中Chapter(章节)一栏表示章节序号,Title(标 题)一栏表示章节标题文本,Code Range(编码)一栏表示对应的手术操作 文本所属的编码;最后通过无监督预训练模型(即第二BERT模型)获取单 个字符的表征(如T[cls]对应[CLS]字符,T对应“垂”字符,T部分为T和T 的平均值,对应轴心词词组“部分”),输出相应的表征,得到各节点。
本发明在无监督语义图中构建的节点在文档级、章节级和轴心词级上都 反映了该手术操作文本的特征,从而大大增强了信息表征的多样性。同时, 与传统的使用预训练的Glove作为字级节点特征的节点初始化方法相比,基 于无监督预训练模型的节点初始化更加灵活,包含更多的上下文语义信息。
然后,步骤100构建各边,根据边所连两节点之间的语义影响力信息确 定边的权重。可选地,步骤100中基于BERT无监督预训练模型,构建包含 无监督上下文语义信息的边,具体包括:
计算每两个轴心词节点之间有指向性的影响力关系;
计算各轴心词节点与文档级节点之间有指向性的影响力关系;
计算章节级节点与文档级节点之间有指向性的影响力关系;
基于计算所得的所有有指向性的影响力关系构造影响力矩阵,利用激活 函数将构造的影响力矩阵转换为归一化的邻接矩阵,确定无监督语义图中各 边的权重,完成有向边的构建,得到无监督语义图。
进一步地,步骤100中,计算两个轴心词节点之间有指向性的影响力关 系,包括:
设两个轴心词节点分别为第一轴心词节点和第二轴心词节点,用[MASK] 字符遮挡手术操作文本中第一轴心词节点对应的词组,将遮挡后的文本输入 第二BERT模型,得到该第一轴心词节点对应的词组所涉及字符的表征的平 均值,作为第一平均值;
用[MASK]字符遮挡手术操作文本中第一轴心词节点和第二轴心词节点 对应的词组,将遮挡后的文本输入第二BERT模型,得到该第一轴心词节点 对应的词组所涉及字符的表征的平均值,作为第二平均值;
基于欧几里得距离,计算第一平均值与第二平均值之间的差异,作为第 二轴心词节点对第一轴心词节点的影响力权重。
通过上述方式即可确定第二轴心词节点对第一轴心词节点有指向性的影 响力关系。通过改变第一轴心词节点和第二轴心词节点具体指代的节点,即 可完成无监督语义图中每两个轴心词节点构成的单词对之间有指向性的影响 力关系的计算。
假设一个句子,它的字符化输入是一个列表x=[x1,…,xT],得益于自注 意机制,BERT模型可以将每个字符xi映射为隐含上下文语义的表征Hθ(x)i, 也即对应的特征向量,其中θ表示网络中的参数。字符xi的表征结果随着上下 文信息和位置信息的变化而不同,从而可以反映字符之间的相互依赖程度。 为了捕获在上下文中字符xi与字符xj之间的依赖关系,首先遮挡字符xi,如用 [MASK]字符替换字符xi,并将遮挡后得到的新序列x\{xi}输入BERT模型中, 从而得到Hθ(x\{xi})i作为字符xi对应的表征结果。这样的表征包含了整个上下 文对字符xi的影响。然后,为了进一步反映字符xj对字符xi的影响,进一步遮 挡字符xj,即用[MASK]字符替换字符xi和字符xj,并将遮挡后得到的新序列 x\{xi,xj}输入BERT模型,从而得到Hθ(x\{xi,xj})i作为字符xi对应的新表征结 果。这种新表征结果包含了除字符xj外整个上下文对字符xi的影响。因此,可 以通过计算字符xi对应的两个表征之间的距离,表示字符xi与字符xj的依赖关 系。定义函数f(xi,xj)表示上下文中字符xj对另一个字符xi的影响,表达式如 下:
f(xi,xj)=dis(Hθ(x\{xi})i,Hθ(x\{xi,xj})i)
其中dis(x,y)是对表征差异的距离度量。本发明用欧几里得距离来计算 该表征差异,距离越大,字符xj对字符xi的影响就越大。
本发明中,无监督语义图的节点以词或文本为单位,为了评估词级和文 档级的依赖关系,从而构建相应的边。为了评估两个轴心词节点之间有指向 性的影响力关系,类似地,将某个节点相应的轴心词wi所对应的序列字符 [xm:xn](m<n)(简写为xm:n)替换为[MASK]字符后,输入第二BERT模型, 然后从第二BERT模型获得隐含上下文语义的表征输出,轴心词wi的新表征 是从相应字符表征的平均值计算出来的,表达式如下:
f(wi,wj)=dis(Avg(Hθ(x\{xm:n})m:n),Avg(Hθ(x\{xm:n,xp:q})m:n))
其中,xm:n和xp:q分别表示对应轴心词wi和轴心词wj的(序列)字符,设 第一轴心词节点对应的词组为轴心词wi,第二轴心词节点对应的词组为轴心 词wj,Avg(Hθ(x\{xm:n})m:n表示将文本遮挡字符xm:n后输入BERT模型得到的、 轴心词wi所涉及字符(xm:n)的表征的平均值,即第一平均值,Avg(Hθ(x\{xm:n, xp:q})m:n表示将文本遮挡字符xm:n和字符xp:q后输入BERT模型得到的、轴心 词wi所涉及字符的表征的平均值,即第二平均值,通过欧几里得距离计算, 得到轴心词wj对轴心词wi的影响f(wi,wj),即,第二轴心词节点对第一轴心 词节点的影响力权重。
进一步地,步骤100中,计算轴心词节点与文档级节点之间有指向性的 影响力关系,包括:
用[MASK]字符遮挡手术操作文本中该轴心词节点对应的词组,将遮挡 后的文本输入第二BERT模型,以[CLS]字符的表征作为第二文档参量,以 该轴心词节点对应的词组所涉及字符的表征的平均值,作为第二轴心词参量;
以文档级节点的初始特征向量作为第一文档参量,基于欧几里得距离, 计算第一文档参量与第二文档参量之间的差异,作为该轴心词节点对文档级 节点的影响力权重;
以该轴心词节点的初始特征向量作为第一轴心词参量,基于欧几里得距 离,计算第一轴心词参量与第二轴心词参量之间的差异,作为文档级节点对 该轴心词节点的影响力权重。
本发明中,为了评估轴心词和文档之间的依赖关系,使用[CLS]字符作为 整体文档对应的表征。因此,将文档与轴心词之间的影响力关系表示为:
f(d,wi)=dis(Hθ(x)[CLS],Hθ(x\xm:n)[CLS])
f(wi,d)=dis(Avg(Hθ(x)m:n),Avg(Hθ(x\{xm:n})m:n))
其中,f(d,wi)表示轴心词wi对文档d的影响力,f(wi,d)表示文档d对轴 心词wi的影响力权重,令文档d对应完整的手术操作文本,轴心词节点对应 的词组为轴心词wi,则Hθ(x)[CLS]表示将完整的手术操作文本输入BERT模 型得到的[CLS]字符的表征,即文档级节点的初始特征向量,也称为第一文档 参量,Hθ(x\xm:n)[CLS]表示将文本遮挡轴心词wi对应的字符xm:n后再输入 BERT模型得到的[CLS]字符的表征,即第二文档参量;Avg(Hθ(x)m:n)表示将完整手术操作文本输入BERT模型得到的、轴心词wi所涉及字符(xm:n) 的表征的平均值,即该轴心词节点的初始特征向量,也称为第一轴心词参量, Avg(Hθ(x\{xm:n})m:n)表示将文本遮挡轴心词wi对应的字符xm:n后输入BERT 模型得到的、轴心词wi所涉及字符的表征的平均值,即第二轴心词参量。通 过上述公式计算,f(d,wi)即该轴心词节点对文档级节点的影响力权重, f(wi,d)即文档级节点对该轴心词节点的影响力权重。
进一步地,步骤100中,计算章节级节点与文档级节点之间有指向性的 影响力关系,包括:
将第一BERT模型中的softmax层分配给手术操作文本对应编码章节的 权重,作为文档级节点对章节级节点,和,章节级节点对文档级节点的影响 力权重。
本发明中,在章节与文档之间,采用之前在构建图的节点时使用的、基 于BERT模型的分类器来判断手术操作文本所属章节,将softmax层分配给 预测章节的最终权重,设置为章节与文档之间的影响力权重,因为该权重隐 含了文本和章节之间的语义关系。
通过计算上下文中所有单词对、所有单词-文档和章节-文档的影响力关 系,可以构造一个影响力矩阵M∈R|W|+2*|W|+2,其中|W|表示手术操作文本 中的轴心词数。通过一个激活函数将包含语义关系的影响力矩阵M转换为归 一化的邻接矩阵A,得到相应的权重,从而完成对SMP-Graph中的边的构造, 激活函数由sigmoid修改为:
Figure BDA0003363014980000131
其中,邻接矩阵A∈R|W|+2*|W|+2
图3是本发明一实施例提供的边构建过程示意图,以手术操作文本“垂 体腺部分切除术,经前额入路”为例,以[MASK]字符遮挡“垂体腺”各字 符输入第二BERT模型(图3中简写为BERT),以[MASK]字符遮挡“垂体 腺”和“切除术”各字符输入第二BERT模型,得到影响力矩阵,结合第一 BERT模型的softmax层分配给预测章节的最终权重(即从章节分类器获得 的权值wc),从而获得邻接矩阵A,如图3所示,邻接矩阵A中的一个|W|*|W| 矩阵表示轴心词间的边的权重(如
Figure BDA0003363014980000141
表示第二个轴心词对第一个轴心词的 语义影响力权重),其余元素表示表示文档与各轴心词之间的边的权重(如
Figure BDA0003363014980000142
表示第二个轴心词对文档的语义影响力权重)、章节与文档之间的边的 权重(如Ed,c表示章节对文档的语义影响力权重),或空置(即填充0)。
可选地,针对步骤102,进行全局信息交互,详细的交互公式如下:
at=Aht-1Wa
zt=σ(Wzat+Uzht-1bz)
rt=σ(Wrat+Urht-1br)
Figure BDA0003363014980000143
Figure BDA0003363014980000144
其中σ()表示sigmoid型函数,at表示时间步t的图网络中各节点从相邻 节点中接收到的全局信息,A表示邻接矩阵,ht-1表示时间步t-1的节点特征 向量集,Wa表示可训练的权值,Wz表示可训练的权值,Wh表示可训练的权 值,Uz表示可训练的权值,Ur表示可训练的权值,Uh表示可训练的权值,bz表示可训练的偏差,br表示可训练的偏差,bh表示可训练的偏差,
Figure BDA0003363014980000145
表示时 间步t的候选隐藏状态,ht表示时间步t的节点特征向量集,⊙表示元素乘法操作,参数W,U和b是可训练的权值和偏差,zt和rt分别表示控制更新门 和重置门的函数,决定了邻域信息对当前节点嵌入的贡献程度。
可选地,针对步骤104,得到原始的手术操作文本语义信息融合的语义 图后,本发明就在下游读取阶段聚合节点的表征,以便进行最终的分类预测。 读取函数设计如下:
Figure BDA0003363014980000146
其中f1()和f2()是两个多层感知器,分别作为一个软注意权重和非线性 特征变换。hw,d,c表示注意力机制赋权后的节点特征向量集,ht w,d,c表示时间步 t的节点特征向量集。
可选地,针对步骤104,聚合各节点的表征,包括:
通过注意机制给语义信息融合的语义图的每个节点分配权重,并基于平 均函数和最大池化函数提取各节点的表征。实现各节点信息对最终的聚合图 表征都做出贡献,而赋权更高的节点对最终的图表征输出贡献比重更大。最 终将提取的表征结果相加,实现各节点的聚合表征。
可选地,针对步骤106,根据聚合的特征向量进行分类,包括:
将聚合的特征向量送入softmax层进行预测,用交叉熵函数对参数进行 训练,表达式为:
Figure RE-GDA0003403325680000151
其中
Figure BDA0003363014980000153
表示one-hot向量的第i个元素,
Figure BDA0003363014980000154
表示模型预测得到的one-hot 向量,
Figure BDA0003363014980000155
表示模型预测得到的one-hot向量的第i个元素,W表示可训练的 权值,b表示可训练的偏差,Loss表示损失函数。
如图4和图5所示,本发明实施例还提供了一种中文电子病历手术操作 文本的ICD自动编码方法,包括:
步骤200、将手术操作文本输入第一BERT模型,利用第一BERT模型 查找手术操作文本对应的编码章节,确定章节标题文本;
步骤202,将章节标题文本输入第二BERT模型,以[CLS]字符的表征作 为章节级节点的初始特征向量;
步骤204,将手术操作文本输入命名实体识别模型,分别提取部位、术 式、入路和疾病性质四个轴心词的词组,确定各轴心词的词组位置;
步骤206,将手术操作文本输入第二BERT模型,以[CLS]字符的表征作 为文档级节点的初始特征向量,分别以各轴心词词组所涉及字符的表征的平 均值作为相应轴心词节点的初始特征向量;
步骤208,计算每两个轴心词节点之间有指向性的影响力关系;
步骤210,计算各轴心词节点与文档级节点之间有指向性的影响力关系;
步骤212,计算章节级节点与文档级节点之间有指向性的影响力关系;
步骤214,基于影响力关系构造影响力矩阵,利用激活函数将构造的影 响力矩阵转换为归一化的邻接矩阵,确定无监督语义图中各边的权重,完成 无监督语义图构建;
步骤216,将构建的无监督语义图输入门控图神经网络(GGNN),进 行全局信息交互,得到语义信息融合的语义图;
步骤218,基于得到的语义信息融合的语义图,聚合各节点的表征,得 到聚合的特征向量;
步骤220,根据聚合的特征向量进行分类,确定手术操作文本对应的ICD 编码。
如图4所示,由轴心词的命名实体识别模型及章节分类器(即第一BERT 模型)构成预处理模型,对原始的手术操作文本进行预处理,将确定了手术 操作文本中的轴心词的文档与章节标题文本输入无监督训练模型(第二 BERT模型)完成图网络构建,再进行全局信息交互后,基于注意力机制、 最大池化等操作聚合各节点的表征,最终实现手术操作文本的ICD自动编码。
在一个具体的实施例中,为说明本发明方法的有效性,基于从真实电子 病历中收集的中文ICD-9-CM3编码文本构建一套数据集,并用于评估本发明 方法在手术操作自动编码任务中的性能。同时将本发明方法与其他代表性的 文本表征模型进行了广泛对比。
本发明从结构化电子病历中收集一个中文的手术操作文本数据集,其中 包含8400多段中文的手术操作文本,对应1400多段ICD-9-CM3手术操作编 码。所有文本均为短文本,不超过80个汉字。该数据集中的所有文本都由医 院的专业编码员用ICD-9-CM3代码手工标注,以便构建文本代码匹配。此外, 考虑到数据集的长尾效应,还选取其中频率最高的100条手术操作文本重构 以CN-100命名的子数据集,而原始数据集以CN-full命名。
延续当前用于ICD自动编码任务的表征方法,本发明比较了本发明方法 与现有技术中具有代表性的基线模型的表征性能,并将具有代表性的现有技 术基线模型分为三类:1)传统的机器学习方法,如编辑距离;2)基于序列的 深度学习方法,如:TextCNN、Text RNN和CAML;3)基于无监督预训练模 型的深度学习方法,如经过微调的BERT模型。
对于性能的评价指标,采用Accuracy(准确率)、Recall(召回率)、 micro-average(微平均)和macro-average(宏平均)F1来评价所有方法的 性能。为保持比较的公平性,避免引入任何外部信息来丰富原始文本的特征。 因此,所有的表征方法都依赖隐含在文本中的信息进行处理。
结果表明本发明方法在这两个数据集上的表现都优于基线模型,本发明 方法在数据集CN-full上取得了70.13%的准确率,在数据集CN-100上取得 了97.63%的准确率。同时,本发明方法的性能高于从无监督上下文化信息中 学习表征的微调的BERT模型,这表明本发明方法能够有效将基于图的全局 信息和无监督上下文化信息整合到图结构中。因此,本发明方法有效地提高 了对手术操作文本的表征性能。
如图6、图7所示,本发明实施例还提供了一种中文电子病历手术操作 文本的ICD自动编码装置。装置实施例可以通过软件实现,也可以通过硬件 或者软硬件结合的方式实现。从硬件层面而言,如图6所示,为本发明实施 例提供的一种中文电子病历手术操作文本的ICD自动编码装置(简称ICD自 动编码装置)所在电子设备的一种硬件架构图,除了图6所示的处理器、内 存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例, 如图7所示,作为一个逻辑意义上的装置,是通过其所在电子设备的CPU将 非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提 供的一种中文电子病历手术操作文本的ICD自动编码装置,包括构图模块 401、融合模块402、聚合模块403和分类模块404,其中:
构图模块401用于以结构化电子病历中的手术操作文本作为输入,基于 BERT无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得 到每条手术操作文本的无监督语义图;其中,无监督语义图的节点包括章节 级节点、文档级节点和最多四个轴心词节点;章节级节点的特征向量包含手 术操作文本所属章节的上下文语义信息,文档级节点的特征向量包含整条手 术操作文本的上下文语义信息,四个轴心词节点的特征向量分别包含手术操 作的部位、术式、入路和疾病性质四个轴心词语义信息,无监督语义图的边 的权重包含所连两节点之间在手术操作文本中的的语义影响力信息;
融合模块402用于将构建的无监督语义图输入门控图神经网络,进行全 局信息交互,得到语义信息融合的语义图;
聚合模块403用于基于得到的语义信息融合的语义图,聚合各节点的表 征,得到聚合的特征向量;
分类模块404用于根据聚合的特征向量进行分类,确定手术操作文本对 应的ICD编码。
本发明中,构图模块401可用于实现上述步骤100,融合模块402可用 于实现上述步骤102,聚合模块403可用于实现上述步骤104,分类模块404 可用于实现上述步骤106。
可以理解的是,本发明实施例示意的结构并不构成对一种中文电子病历 手术操作文本的ICD自动编码装置的具体限定。在本发明的另一些实施例中, 一种中文电子病历手术操作文本的ICD自动编码装置可以包括比图示更多或 者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布 置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明 方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此 处不再赘述。
本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储 器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任 一实施例中的一种中文电子病历手术操作文本的ICD自动编码方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储 介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理 器执行本发明任一实施例中的一种中文电子病历手术操作文本的ICD自动编 码方法。
具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储 着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装 置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任 何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发 明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、 磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机 上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而 且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或 者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内 的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的 存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU 等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包 含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素 的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出 的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。 在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包 括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取 的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介 质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种中文电子病历手术操作文本的ICD自动编码方法,其特征在于,包括:
以结构化电子病历中的手术操作文本作为输入,基于BERT无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得到每条手术操作文本的无监督语义图;其中,所述无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点;所述章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息,所述文档级节点的特征向量包含整条手术操作文本的上下文语义信息,四个所述轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息,所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息;
将构建的所述无监督语义图输入门控图神经网络,进行全局信息交互,得到语义信息融合的语义图;
基于得到的语义信息融合的语义图,聚合各节点的表征,得到聚合的特征向量;
根据聚合的特征向量进行分类,确定所述手术操作文本对应的ICD编码。
2.根据权利要求1所述的方法,其特征在于,所述基于BERT无监督预训练模型,构建包含无监督上下文语义信息的节点,包括:
将所述手术操作文本输入第一BERT模型,查找所述手术操作文本对应的编码章节,确定章节标题文本;所述第一BERT模型包括BERT无监督预训练模型和softmax层;
将所述章节标题文本输入第二BERT模型,以[CLS]字符的表征作为所述章节级节点的初始特征向量;
将所述手术操作文本输入命名实体识别模型,分别提取部位、术式、入路和疾病性质四个轴心词的词组,确定各轴心词的词组位置;
将所述手术操作文本输入第二BERT模型,以[CLS]字符的表征作为所述文档级节点的初始特征向量,分别以各轴心词词组所涉及字符的表征的平均值,作为相应轴心词节点的初始特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于BERT无监督预训练模型,构建包含无监督上下文语义信息的边,包括:
计算每两个所述轴心词节点之间有指向性的影响力关系;
计算各所述轴心词节点与所述文档级节点之间有指向性的影响力关系;
计算所述章节级节点与所述文档级节点之间有指向性的影响力关系;
基于影响力关系构造影响力矩阵,利用激活函数将构造的所述影响力矩阵转换为归一化的邻接矩阵,确定所述无监督语义图中各边的权重。
4.根据权利要求3所述的方法,其特征在于,计算两个所述轴心词节点之间有指向性的影响力关系,包括:
设两个轴心词节点分别为第一轴心词节点和第二轴心词节点,用[MASK]字符遮挡所述手术操作文本中第一轴心词节点对应的词组,输入第二BERT模型,得到该第一轴心词节点对应的词组所涉及字符的表征的平均值,作为第一平均值;
用[MASK]字符遮挡所述手术操作文本中第一轴心词节点和第二轴心词节点对应的词组,输入第二BERT模型,得到该第一轴心词节点对应的词组所涉及字符的表征的平均值,作为第二平均值;
基于欧几里得距离,计算所述第一平均值与所述第二平均值之间的差异,作为第二轴心词节点对第一轴心词节点的影响力权重。
5.根据权利要求3所述的方法,其特征在于,计算所述轴心词节点与所述文档级节点之间有指向性的影响力关系,包括:
用[MASK]字符遮挡所述手术操作文本中该轴心词节点对应的词组,输入第二BERT模型,以[CLS]字符的表征作为第二文档参量,以该轴心词节点对应的词组所涉及字符的表征的平均值,作为第二轴心词参量;
以所述文档级节点的初始特征向量作为第一文档参量,基于欧几里得距离,计算所述第一文档参量与所述第二文档参量之间的差异,作为该轴心词节点对所述文档级节点的影响力权重;
以该轴心词节点的初始特征向量作为第一轴心词参量,基于欧几里得距离,计算所述第一轴心词参量与所述第二轴心词参量之间的差异,作为所述文档级节点对该轴心词节点的影响力权重。
6.根据权利要求3所述的方法,其特征在于,计算所述章节级节点与所述文档级节点之间有指向性的影响力关系,包括:
将所述第一BERT模型中的softmax层分配给所述手术操作文本对应编码章节的权重,作为所述文档级节点对所述章节级节点,和所述章节级节点对所述文档级节点的影响力权重。
7.根据权利要求1所述的方法,其特征在于,所述聚合各节点的表征,包括:
通过注意机制给语义图的每个节点分配权重,并基于平均函数和最大池化函数提取各节点的表征。
8.一种中文电子病历手术操作文本的ICD自动编码装置,其特征在于,包括:
构图模块,用于以结构化电子病历中的手术操作文本作为输入,基于BERT无监督预训练模型,构建包含无监督上下文语义信息的节点与边,得到每条手术操作文本的无监督语义图;其中,所述无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点;所述章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息,所述文档级节点的特征向量包含整条手术操作文本的上下文语义信息,四个所述轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息,所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息;
融合模块,用于将构建的所述无监督语义图输入门控图神经网络,进行全局信息交互,得到语义信息融合的语义图;
聚合模块,用于基于得到的语义信息融合的语义图,聚合各节点的表征,得到聚合的特征向量;
分类模块,用于根据聚合的特征向量进行分类,确定所述手术操作文本对应的ICD编码。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一项所述的方法。
10.一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
CN202111373822.0A 2021-11-19 2021-11-19 中文电子病历手术操作文本的icd自动编码方法及装置 Pending CN114065744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373822.0A CN114065744A (zh) 2021-11-19 2021-11-19 中文电子病历手术操作文本的icd自动编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373822.0A CN114065744A (zh) 2021-11-19 2021-11-19 中文电子病历手术操作文本的icd自动编码方法及装置

Publications (1)

Publication Number Publication Date
CN114065744A true CN114065744A (zh) 2022-02-18

Family

ID=80278275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373822.0A Pending CN114065744A (zh) 2021-11-19 2021-11-19 中文电子病历手术操作文本的icd自动编码方法及装置

Country Status (1)

Country Link
CN (1) CN114065744A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188618A (zh) * 2023-04-24 2023-05-30 清华大学 基于结构化语义图的图像生成方法及装置
CN116226702A (zh) * 2022-09-09 2023-06-06 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN113377929A (zh) * 2021-08-12 2021-09-10 北京好欣晴移动医疗科技有限公司 专用术语无监督聚类方法、装置和***
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN113377929A (zh) * 2021-08-12 2021-09-10 北京好欣晴移动医疗科技有限公司 专用术语无监督聚类方法、装置和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王天罡;李晓亮;张晓滨;蔡宏伟;: "基于预训练表征模型的自动ICD编码", 中国数字医学, no. 07, 15 July 2020 (2020-07-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226702A (zh) * 2022-09-09 2023-06-06 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN116226702B (zh) * 2022-09-09 2024-04-26 武汉中数医疗科技有限公司 一种基于生物电阻抗的甲状腺采样数据识别方法
CN116188618A (zh) * 2023-04-24 2023-05-30 清华大学 基于结构化语义图的图像生成方法及装置
CN116188618B (zh) * 2023-04-24 2023-08-15 清华大学 基于结构化语义图的图像生成方法及装置

Similar Documents

Publication Publication Date Title
WO2021139424A1 (zh) 文本内涵质量的评估方法、装置、设备及存储介质
US9183466B2 (en) Correlating videos and sentences
US6778970B2 (en) Topological methods to organize semantic network data flows for conversational applications
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110390021A (zh) 药品知识图谱构建方法、装置、计算机设备及存储介质
US20140081623A1 (en) Method for processing medical reports
CN112052356B (zh) 多媒体分类方法、装置和计算机可读存储介质
CN114065744A (zh) 中文电子病历手术操作文本的icd自动编码方法及装置
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及***
CN114528898A (zh) 基于自然语言命令的场景图修改
CN112163099A (zh) 基于知识图谱的文本识别方法、装置、存储介质和服务器
CN113886571A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113704415B (zh) 医学文本的向量表示生成方法和装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN107977357A (zh) 基于用户反馈的纠错方法、装置及其设备
Peng et al. AMR parsing with cache transition systems
CN111666762A (zh) 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法
Whitney Bootstrapping via graph propagation
CN114997288A (zh) 一种设计资源关联方法
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination