CN114065744A

CN114065744A - 中文电子病历手术操作文本的icd自动编码方法及装置

Info

Publication number: CN114065744A
Application number: CN202111373822.0A
Authority: CN
Inventors: 傅湘玲; 高越; 闫晨巍
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-18

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种中文电子病历手术操作文本的ICD自动编码方法及装置，该方法包括：以结构化电子病历中的手术操作文本作为输入，基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图；将构建的无监督语义图输入门控图神经网络，进行全局信息交互，得到上下文语义信息和全局语义信息融合的语义图；基于得到的语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量；根据聚合的特征向量进行分类，确定手术操作文本对应的ICD编码。本发明集成了手术操作文本中上下文语义信息和全局信息，能够基于文本本身取得更好的表征性能，实现对手术操作精准编码。

Description

中文电子病历手术操作文本的ICD自动编码方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种中文电子病历手术操作文本的ICD自动编码方法、装置、电子设备及存储介质。

背景技术

国际疾病分类(International Classification of Diseases，ICD)是WHO制定的国际统一的疾病分类方法，它根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并用编码的方法来表示。如今，ICD编码作为统一分类标准，已在全球各医院广泛运用于病案管理、医保报销等医疗保健任务中。

ICD编码是医院医疗管理的一项重要工作。然而，传统的编码过程存在大量手工操作。在中国传统公立医院，ICD编码流程首先需要由主治医生根据病患情况在电子病历中填写临床诊断描述，然后由医院病案室专业的编码员根据临床诊断描述确定相应的编码标准名称，最后再将编码标准名称转换为相应的ICD编码，并输入到疾病诊断相关分组(DRG)***中进行医学统计分析，整个过程非常耗时，且容易出错。

发明内容

基于人工ICD编码工作费时费力、容易出错的问题，本发明提供了一种中文电子病历手术操作文本的ICD自动编码方法、装置、电子设备及存储介质，能够针对电子病历中的手术操作结构化短文本自动化地实现ICD精准编码。

第一方面，本发明实施例提供了一种中文电子病历手术操作文本的ICD 自动编码方法，包括：

以结构化电子病历中的手术操作文本作为输入，基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图；其中，所述无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点；所述章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息，所述文档级节点的特征向量包含整条手术操作文本的上下文语义信息，四个所述轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息，所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息；

将构建的所述无监督语义图输入门控图神经网络，进行全局信息交互，得到语义信息融合的语义图；

基于得到的语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量；

根据聚合的特征向量进行分类，确定所述手术操作文本对应的ICD编码。

可选地，所述基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点，包括：

将所述手术操作文本输入第一BERT模型，查找所述手术操作文本对应的编码章节，确定章节标题文本；所述第一BERT模型包括BERT无监督预训练模型和softmax层；

将所述章节标题文本输入第二BERT模型，以[CLS]字符的表征作为所述章节级节点的初始特征向量；

将所述手术操作文本输入命名实体识别模型，分别提取部位、术式、入路和疾病性质四个轴心词的词组，确定各轴心词的词组位置；

将所述手术操作文本输入第二BERT模型，以[CLS]字符的表征作为所述文档级节点的初始特征向量，分别以各轴心词词组所涉及字符的表征的平均值，作为相应轴心词节点的初始特征向量。

可选地，所述基于BERT无监督预训练模型，构建包含无监督上下文语义信息的边，包括：

计算每两个所述轴心词节点之间有指向性的影响力关系；

计算各所述轴心词节点与所述文档级节点之间有指向性的影响力关系；

计算所述章节级节点与所述文档级节点之间有指向性的影响力关系；

基于影响力关系构造影响力矩阵，利用激活函数将构造的所述影响力矩阵转换为归一化的邻接矩阵，确定所述无监督语义图中各边的权重。

可选地，计算两个所述轴心词节点之间有指向性的影响力关系，包括：

设两个轴心词节点分别为第一轴心词节点和第二轴心词节点，用[MASK] 字符遮挡所述手术操作文本中第一轴心词节点对应的词组，输入第二BERT 模型，得到该第一轴心词节点对应的词组所涉及字符的表征的平均值，作为第一平均值；

用[MASK]字符遮挡所述手术操作文本中第一轴心词节点和第二轴心词节点对应的词组，输入第二BERT模型，得到该第一轴心词节点对应的词组所涉及字符的表征的平均值，作为第二平均值；

基于欧几里得距离，计算所述第一平均值与所述第二平均值之间的差异，作为第二轴心词节点对第一轴心词节点的影响力权重。

可选地，计算所述轴心词节点与所述文档级节点之间有指向性的影响力关系，包括：

用[MASK]字符遮挡所述手术操作文本中该轴心词节点对应的词组，输入第二BERT模型，以[CLS]字符的表征作为第二文档参量，以该轴心词节点对应的词组所涉及字符的表征的平均值，作为第二轴心词参量；

以所述文档级节点的初始特征向量作为第一文档参量，基于欧几里得距离，计算所述第一文档参量与所述第二文档参量之间的差异，作为该轴心词节点对所述文档级节点的影响力权重；

以该轴心词节点的初始特征向量作为第一轴心词参量，基于欧几里得距离，计算所述第一轴心词参量与所述第二轴心词参量之间的差异，作为所述文档级节点对该轴心词节点的影响力权重。

可选地，计算所述章节级节点与所述文档级节点之间有指向性的影响力关系，包括：

将所述第一BERT模型中的softmax层分配给所述手术操作文本对应编码章节的权重，作为所述文档级节点对所述章节级节点，和所述章节级节点对所述文档级节点的影响力权重。

可选地，所述聚合各节点的表征，包括：

通过注意机制给语义图的每个节点分配权重，并基于平均函数和最大池化函数提取各节点的表征。

第二方面，本发明实施例还提供了一种中文电子病历手术操作文本的 ICD自动编码装置，包括：

构图模块，用于以结构化电子病历中的手术操作文本作为输入，基于 BERT无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图；其中，所述无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点；所述章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息，所述文档级节点的特征向量包含整条手术操作文本的上下文语义信息，四个所述轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息，所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息；

融合模块，用于将构建的所述无监督语义图输入门控图神经网络，进行全局信息交互，得到语义信息融合的语义图；

聚合模块，用于基于得到的语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量；

分类模块，用于根据聚合的特征向量进行分类，确定所述手术操作文本对应的ICD编码。

第三方面，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。

本发明提供了一种中文电子病历手术操作文本的ICD自动编码方法、装置、电子设备及存储介质，本发明的技术方案基于手术操作文本构建无监督语义图，提取手术操作文本中的关键性语义信息；将无监督语义图输入门控图神经网络进行全局信息交互，得到语义信息融合的语义图，进一步融合各节点中包含的关键性语义信息；基于语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量，集成手术操作文本中的上下文语义信息和全局信息；根据聚合的特征向量进行分类，确定手术操作文本对应的精确ICD编码。本发明充分考虑了手术操作文本的内涵特征，将各条手术操作文本中基于无监督预训练模型的上下文语义信息和基于图的全局信息进行有效融合，对手术操作文本中的轴心词知识和章节知识进行结构强化，增强了对手术操作文本的语义表征能力，充分提取文本信息特征，进而根据提取的信息特征进行自动化地ICD编码。本发明能够有效节省人工，且错误率低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自动编码方法步骤图；

图2是本发明一实施例提供的节点构建过程示意图；

图3是本发明一实施例提供的边构建过程示意图；

图4是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自动编码方法整体流程图；

图5是本发明一实施例提供的另一种中文电子病历手术操作文本的ICD 自动编码方法步骤图；

图6是本发明一实施例提供的一种电子设备的硬件架构图；

图7是本发明一实施例提供的一种中文电子病历手术操作文本的ICD自动编码装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，传统的ICD编码过程存在大量手工操作，不仅耗时，且容易出错。此外，还存在各省市医院所采用编码版本不同的问题，各版本中的编码及相应的标准名称差异性较大，进一步增加了ICD精准编码的难度。

ICD编码可分为疾病编码和手术操作编码两部分。其中，疾病编码根据住院病案中的疾病诊断、临床报告等非结构化长文本对患者的疾病进行编码分类。手术操作编码则根据住院病案中的手术操作描述这一结构化短文本对患者的手术操作进行编码分类。本发明着重针对中文电子病历中的结构化手术操作短文本实现手术操作文本的ICD自动编码。

当前ICD自动编码的实现，大多基于传统机器学习方法(如：支持向量机(SVM)和编辑距离(Levenshtein Distance))和时序性深度学习方法(如：卷积神经网络(CNN)和循环神经网络(RNN))，并尝试引入外部知识来丰富病例文本的信息。然而，这些方法对手术操作文本这种结构化短文本来说表征能力有限，信息特征提取不充分，自动编码错误率较高。

本发明提出基于图神经网络，在不引入外部知识的情况下，对手术操作文本本身进行全局表征。同时，鉴于现有技术中的无监督预训练模型(如 BERT模型)对文本中上下文语义的强大表征能力，本发明进一步将手术操作文本基于图的全局信息和基于无监督预训练模型的上下文语义信息进行有效融合，以增强对手术操作文本的语义表征能力。

为增强对手术操作文本的语义表征能力，本发明充分考虑了手术操作文本的内涵特征：

(1)手术操作文本包括最多四类轴心词：部位、术式、入路、疾病性质。例如：“阑尾切除术”由部位、术式两个轴心词构成，“垂体腺瘤切除术，经额”由部位、术式、入路、疾病性质四个轴心词构成。这四类轴心词对文本的手术操作编码分类起着决定性作用。

(2)手术操作ICD编码根据其所属部位不同在ICD-9-CM3中被划分为18章节，手术操作文本本身也隐含章节信息有待挖掘。

有鉴于此，本发明为每条手术操作文本都构建一张包含以章节标题、文本及最多四个轴心词构成节点的异质图，以实现对手术操作文本中的轴心词知识和章节知识的结构强化。同时，本发明基于无监督BERT模型计算各节点间的语义依赖权边，并基于无监督BERT模型初始化图中各节点的语义特征。在通过图神经网络进行全局传播后，实现基于图的全局信息和基于无监督预训练模型的上下文语义信息的有效融合，以此完成对手术操作文本的归纳式表征学习，最终实现对手术操作文本的精准自动编码。

下面描述以上构思的具体实现方式。

请参考图1，本发明实施例提供了一种中文电子病历手术操作文本的ICD 自动编码方法(简称本发明方法)，该方法包括：

步骤100，以结构化电子病历中的手术操作文本作为输入，基于BERT 无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图。

其中，无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点。章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息，文档级节点的特征向量包含整条手术操作文本的上下文语义信息，四个轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息，无监督语义图的边的权重可基于BERT无监督预训练模型计算得出，包含所连两节点之间在手术操作文本中的的语义影响力信息。

目前，中国的疾病编码通常参考1CD-10版本，手术操作编码通常参考 ICD-9-CM3版本。本发明从医学角度分析了手术操作编码文本的特点：1)所有的手术操作文本可分为18章，所属章节与该文本描述的所属部位高度相关；2)标准的手术操作文本多由部位、术式、入路和疾病性质四个轴心词组成，这些轴心词中隐含了文本的核心知识，可在自动编码中起到决定性作用； 3)原始的手术操作文本本身隐含有助于精确编码的语义信息。因此，本发明针对每一条手术操作文本构建对应的无监督语义图(SMP-Graph)，该无监督语义图中的节点包括三种类型：章节级节点、轴心词节点和文档级节点。其中，章节级节点、文档级节点分别为一个，轴心词节点最多有四个。对于一些手术操作文本，如：“阑尾切除术”由部位、术式两个轴心词构成，构建无监督语义图后，可能只有两个轴心词节点，分别对应部位和术式两个轴心词，即，这两个节点的特征向量分别包含手术操作的部位和术式这两个轴心词语义信息。连接节点的边的权重则反映了该边所连两节点之间的语义影响程度(或称依赖程度)。

步骤102，将构建的、各条手术操作文本的无监督语义图分别输入门控图神经网络(GGNN)，分别进行各无监督语义图的全局信息交互，实现无监督的上下文语义信息和图网络的全局信息的深度融合，得到语义信息融合的语义图。

本发明利用GGNN实现节点间的全局信息交互。GGNN通过门循环单元 (GRU)的神经网络学习节点表示，从而融合邻域信息，丰富各节点自身的表示。节点间的信息融合随着交互时间t的增加而不断加强，最终可以实现整个结构的全局信息交互。通过这种方式，基于图的全局信息和无监督上下文化语义信息最终实现了内部融合，进一步增强对手术操作文本的语义表征能力，得到相应的结构增强的无监督语义图表征输出，即语义信息融合的语义图。

步骤104，对各条手术操作文本，基于得到的、对应的语义信息融合的语义图进行计算，聚合各节点的表征，得到聚合的特征向量。

得到结构增强的无监督语义图表征输出后，就在下游读取阶段聚合所有节点的表征，以便进行最终的分类预测。聚合各节点的表征优选基于注意力机制、最大池化等操作。

步骤106，对各条手术操作文本，根据聚合的特征向量进行分类，最终确定各手术操作文本对应的ICD编码。

本发明提供的中文电子病历手术操作文本的ICD自动编码方法中，没有采用直接基于无监督预训练模型提取手术操作文本中语义信息的方式，而是针对手术操作文本的内涵特征构建无监督语义图，将基于该无监督语义图的全局信息和基于无监督预训练模型的上下文语义信息进行有效融合，以此增强对手术操作文本的归纳式表征学习，充分挖掘文本中的语义信息，最终基于聚合的特征向量进行分类，实现精准ICD编码。本发明可运用于对电子病历中的手术操作文本进行ICD自动编码，以解决当前中国医院病例管理中的实际临床需求。需要说明的是，在步骤104中得到增强了对手术操作文本语义表征能力的特征向量后，也可用于其他分析。增强了对手术操作文本语义表征能力的特征向量能够更为准确地表征手术操作文本包含的语义信息。

下面描述图1所示的各个步骤的执行方式。

首先，步骤100基于手术操作文本构建各节点，利用BERT模型对节点的特征向量进行初始化。可选地，步骤100中基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点，具体包括：

将手术操作文本输入第一BERT模型，利用第一BERT模型查找手术操作文本对应的编码章节，确定章节标题文本。第一BERT模型包括BERT无监督预训练模型和softmax层。第一BERT模型作为一个基于BERT的章节分类器，能够粗略查找该手术操作文本所属的编码章节。

将确定的章节标题文本输入第二BERT模型，利用第二BERT模型得到文本各字符对应的表征，以[CLS]字符的表征作为章节级节点的初始特征向量，实现章节级节点的特征向量的初始化。第二BERT模型是一个新的BERT 无监督预训练模型，将文本输入第二BERT模型进行处理，每段文本涉及若干个字符，每个字符(或称每个token)有对应的特征向量输出，该对应的特征向量即该字符的表征。BERT模型中有一些特殊的token作为占位符，[CLS] 字符放在文本最前面作为第一个token，[CLS]字符的表征，即[CLS]字符对应的特征向量，表示了输入的整段文本对应的特征向量，反映了章节语义信息及隐含的上下文语义信息。

将手术操作文本输入命名实体识别模型(NER)，分别提取部位、术式、入路和疾病性质四个轴心词的词组，确定各轴心词的词组位置。NER模型基于Bi-LSTM和CRF(随机场)构成，能够用于提取手术操作文本中部位、术式、入路、疾病性质的准确词组。轴心词的数量和类型在不同的文本中有所不同，相应的位置(及长短)也存在差异。

将整段的手术操作文本输入第二BERT模型，利用第二BERT模型得到文本各字符对应的表征，对于文档级节点，以隐含整段文本上下文语义信息的[CLS]字符的表征，作为文档级节点的初始特征向量，实现文档级节点的特征向量的初始化，对于轴心词节点，分别以各轴心词词组所涉及字符的表征的平均值，作为相应轴心词节点的初始特征向量，实现最多四个轴心词节点特征向量的初始化。其中，一个轴心词词组所涉及字符的表征的平均值，即该词组所涉及的若干个token对应的特征向量相加再取均值。

图2是本发明一实施例提供的节点构建过程示意图，先通过Bi-LSTM和 CRF实现命名实体识别，确定手术操作文本中的部位、术式、入路和疾病性质四个轴心词；然后利用基于BERT的章节分类器(即第一BERT模型)确定确定章节标题文本，图2中Chapter(章节)一栏表示章节序号，Title(标题)一栏表示章节标题文本，Code Range(编码)一栏表示对应的手术操作文本所属的编码；最后通过无监督预训练模型(即第二BERT模型)获取单个字符的表征(如T_[cls]对应[CLS]字符，T_垂对应“垂”字符，T_部分为T_部和T _分的平均值，对应轴心词词组“部分”)，输出相应的表征，得到各节点。

本发明在无监督语义图中构建的节点在文档级、章节级和轴心词级上都反映了该手术操作文本的特征，从而大大增强了信息表征的多样性。同时，与传统的使用预训练的Glove作为字级节点特征的节点初始化方法相比，基于无监督预训练模型的节点初始化更加灵活，包含更多的上下文语义信息。

然后，步骤100构建各边，根据边所连两节点之间的语义影响力信息确定边的权重。可选地，步骤100中基于BERT无监督预训练模型，构建包含无监督上下文语义信息的边，具体包括：

计算每两个轴心词节点之间有指向性的影响力关系；

计算各轴心词节点与文档级节点之间有指向性的影响力关系；

计算章节级节点与文档级节点之间有指向性的影响力关系；

基于计算所得的所有有指向性的影响力关系构造影响力矩阵，利用激活函数将构造的影响力矩阵转换为归一化的邻接矩阵，确定无监督语义图中各边的权重，完成有向边的构建，得到无监督语义图。

进一步地，步骤100中，计算两个轴心词节点之间有指向性的影响力关系，包括：

设两个轴心词节点分别为第一轴心词节点和第二轴心词节点，用[MASK] 字符遮挡手术操作文本中第一轴心词节点对应的词组，将遮挡后的文本输入第二BERT模型，得到该第一轴心词节点对应的词组所涉及字符的表征的平均值，作为第一平均值；

用[MASK]字符遮挡手术操作文本中第一轴心词节点和第二轴心词节点对应的词组，将遮挡后的文本输入第二BERT模型，得到该第一轴心词节点对应的词组所涉及字符的表征的平均值，作为第二平均值；

基于欧几里得距离，计算第一平均值与第二平均值之间的差异，作为第二轴心词节点对第一轴心词节点的影响力权重。

通过上述方式即可确定第二轴心词节点对第一轴心词节点有指向性的影响力关系。通过改变第一轴心词节点和第二轴心词节点具体指代的节点，即可完成无监督语义图中每两个轴心词节点构成的单词对之间有指向性的影响力关系的计算。

假设一个句子，它的字符化输入是一个列表x＝[x₁,…,x_T]，得益于自注意机制，BERT模型可以将每个字符x_i映射为隐含上下文语义的表征H_θ(x)_i，也即对应的特征向量，其中θ表示网络中的参数。字符x_i的表征结果随着上下文信息和位置信息的变化而不同，从而可以反映字符之间的相互依赖程度。为了捕获在上下文中字符x_i与字符x_j之间的依赖关系，首先遮挡字符x_i，如用 [MASK]字符替换字符x_i，并将遮挡后得到的新序列x\{x_i}输入BERT模型中，从而得到H_θ(x\{x_i})_i作为字符x_i对应的表征结果。这样的表征包含了整个上下文对字符x_i的影响。然后，为了进一步反映字符x_j对字符x_i的影响，进一步遮挡字符x_j，即用[MASK]字符替换字符x_i和字符x_j，并将遮挡后得到的新序列 x\{x_i,x_j}输入BERT模型，从而得到H_θ(x\{x_i,x_j})_i作为字符x_i对应的新表征结果。这种新表征结果包含了除字符x_j外整个上下文对字符x_i的影响。因此，可以通过计算字符x_i对应的两个表征之间的距离，表示字符x_i与字符x_j的依赖关系。定义函数f(x_i,x_j)表示上下文中字符x_j对另一个字符x_i的影响，表达式如下：

f(x_i,x_j)＝dis(H_θ(x\{x_i})_i,H_θ(x\{x_i,x_j})_i)

其中dis(x,y)是对表征差异的距离度量。本发明用欧几里得距离来计算该表征差异，距离越大，字符x_j对字符x_i的影响就越大。

本发明中，无监督语义图的节点以词或文本为单位，为了评估词级和文档级的依赖关系，从而构建相应的边。为了评估两个轴心词节点之间有指向性的影响力关系，类似地，将某个节点相应的轴心词w_i所对应的序列字符 [x_m:x_n](m<n)(简写为x_m:n)替换为[MASK]字符后，输入第二BERT模型，然后从第二BERT模型获得隐含上下文语义的表征输出，轴心词w_i的新表征是从相应字符表征的平均值计算出来的，表达式如下：

f(w_i,w_j)＝dis(Avg(H_θ(x\{x_m:n})_m:n),Avg(H_θ(x\{x_m:n,x_p:q})_m:n))

其中，x_m:n和x_p:q分别表示对应轴心词w_i和轴心词w_j的(序列)字符，设第一轴心词节点对应的词组为轴心词w_i，第二轴心词节点对应的词组为轴心词w_j，Avg(H_θ(x\{x_m:n})_m:n表示将文本遮挡字符x_m:n后输入BERT模型得到的、轴心词w_i所涉及字符(x_m:n)的表征的平均值，即第一平均值，Avg(H_θ(x\{x_m:n, x_p:q})_m:n表示将文本遮挡字符x_m:n和字符x_p:q后输入BERT模型得到的、轴心词w_i所涉及字符的表征的平均值，即第二平均值，通过欧几里得距离计算，得到轴心词w_j对轴心词w_i的影响f(w_i,w_j)，即，第二轴心词节点对第一轴心词节点的影响力权重。

进一步地，步骤100中，计算轴心词节点与文档级节点之间有指向性的影响力关系，包括：

用[MASK]字符遮挡手术操作文本中该轴心词节点对应的词组，将遮挡后的文本输入第二BERT模型，以[CLS]字符的表征作为第二文档参量，以该轴心词节点对应的词组所涉及字符的表征的平均值，作为第二轴心词参量；

以文档级节点的初始特征向量作为第一文档参量，基于欧几里得距离，计算第一文档参量与第二文档参量之间的差异，作为该轴心词节点对文档级节点的影响力权重；

以该轴心词节点的初始特征向量作为第一轴心词参量，基于欧几里得距离，计算第一轴心词参量与第二轴心词参量之间的差异，作为文档级节点对该轴心词节点的影响力权重。

本发明中，为了评估轴心词和文档之间的依赖关系，使用[CLS]字符作为整体文档对应的表征。因此，将文档与轴心词之间的影响力关系表示为：

f(d,w_i)＝dis(H_θ(x)_[CLS],H_θ(x\x_m:n)_[CLS])

f(w_i,d)＝dis(Avg(H_θ(x)_m:n),Avg(H_θ(x\{x_m:n})_m:n))

其中，f(d,w_i)表示轴心词w_i对文档d的影响力，f(w_i,d)表示文档d对轴心词w_i的影响力权重，令文档d对应完整的手术操作文本，轴心词节点对应的词组为轴心词w_i，则H_θ(x)_[CLS]表示将完整的手术操作文本输入BERT模型得到的[CLS]字符的表征，即文档级节点的初始特征向量，也称为第一文档参量，H_θ(x\x_m:n)_[CLS]表示将文本遮挡轴心词w_i对应的字符x_m:n后再输入 BERT模型得到的[CLS]字符的表征，即第二文档参量；Avg(H_θ(x)_m:n)表示将完整手术操作文本输入BERT模型得到的、轴心词w_i所涉及字符(x_m:n) 的表征的平均值，即该轴心词节点的初始特征向量，也称为第一轴心词参量， Avg(H_θ(x\{x_m:n})_m:n)表示将文本遮挡轴心词w_i对应的字符x_m:n后输入BERT 模型得到的、轴心词w_i所涉及字符的表征的平均值，即第二轴心词参量。通过上述公式计算，f(d,w_i)即该轴心词节点对文档级节点的影响力权重， f(w_i,d)即文档级节点对该轴心词节点的影响力权重。

进一步地，步骤100中，计算章节级节点与文档级节点之间有指向性的影响力关系，包括：

将第一BERT模型中的softmax层分配给手术操作文本对应编码章节的权重，作为文档级节点对章节级节点，和，章节级节点对文档级节点的影响力权重。

本发明中，在章节与文档之间，采用之前在构建图的节点时使用的、基于BERT模型的分类器来判断手术操作文本所属章节，将softmax层分配给预测章节的最终权重，设置为章节与文档之间的影响力权重，因为该权重隐含了文本和章节之间的语义关系。

通过计算上下文中所有单词对、所有单词-文档和章节-文档的影响力关系，可以构造一个影响力矩阵M∈R^|W|+2*|W|+2，其中|W|表示手术操作文本中的轴心词数。通过一个激活函数将包含语义关系的影响力矩阵M转换为归一化的邻接矩阵A，得到相应的权重，从而完成对SMP-Graph中的边的构造，激活函数由sigmoid修改为：

其中，邻接矩阵A∈R^|W|+2*|W|+2。

图3是本发明一实施例提供的边构建过程示意图，以手术操作文本“垂体腺部分切除术，经前额入路”为例，以[MASK]字符遮挡“垂体腺”各字符输入第二BERT模型(图3中简写为BERT)，以[MASK]字符遮挡“垂体腺”和“切除术”各字符输入第二BERT模型，得到影响力矩阵，结合第一 BERT模型的softmax层分配给预测章节的最终权重(即从章节分类器获得的权值w_c)，从而获得邻接矩阵A，如图3所示，邻接矩阵A中的一个|W|*|W| 矩阵表示轴心词间的边的权重(如

表示第二个轴心词对第一个轴心词的语义影响力权重)，其余元素表示表示文档与各轴心词之间的边的权重(如

表示第二个轴心词对文档的语义影响力权重)、章节与文档之间的边的权重(如E_d,c表示章节对文档的语义影响力权重)，或空置(即填充0)。

可选地，针对步骤102，进行全局信息交互，详细的交互公式如下：

a^t＝Ah^t-1W_a

z^t＝σ(W_za^t+U_zh^t-1b_z)

r^t＝σ(W_ra^t+U_rh^t-1b_r)

其中σ()表示sigmoid型函数，a^t表示时间步t的图网络中各节点从相邻节点中接收到的全局信息，A表示邻接矩阵，h^t-1表示时间步t-1的节点特征向量集，W_a表示可训练的权值，W_z表示可训练的权值，W_h表示可训练的权值，U_z表示可训练的权值，U_r表示可训练的权值，U_h表示可训练的权值，b_z表示可训练的偏差，b_r表示可训练的偏差，b_h表示可训练的偏差，

表示时间步t的候选隐藏状态，h^t表示时间步t的节点特征向量集，⊙表示元素乘法操作，参数W，U和b是可训练的权值和偏差，z^t和r^t分别表示控制更新门和重置门的函数，决定了邻域信息对当前节点嵌入的贡献程度。

可选地，针对步骤104，得到原始的手术操作文本语义信息融合的语义图后，本发明就在下游读取阶段聚合节点的表征，以便进行最终的分类预测。读取函数设计如下：

其中f₁()和f₂()是两个多层感知器，分别作为一个软注意权重和非线性特征变换。h_w,d,c表示注意力机制赋权后的节点特征向量集，h^t _w,d,c表示时间步 t的节点特征向量集。

可选地，针对步骤104，聚合各节点的表征，包括：

通过注意机制给语义信息融合的语义图的每个节点分配权重，并基于平均函数和最大池化函数提取各节点的表征。实现各节点信息对最终的聚合图表征都做出贡献，而赋权更高的节点对最终的图表征输出贡献比重更大。最终将提取的表征结果相加，实现各节点的聚合表征。

可选地，针对步骤106，根据聚合的特征向量进行分类，包括：

将聚合的特征向量送入softmax层进行预测，用交叉熵函数对参数进行训练，表达式为：

其中

表示one-hot向量的第i个元素，

表示模型预测得到的one-hot 向量，

表示模型预测得到的one-hot向量的第i个元素，W表示可训练的权值，b表示可训练的偏差，Loss表示损失函数。

如图4和图5所示，本发明实施例还提供了一种中文电子病历手术操作文本的ICD自动编码方法，包括：

步骤200、将手术操作文本输入第一BERT模型，利用第一BERT模型查找手术操作文本对应的编码章节，确定章节标题文本；

步骤202，将章节标题文本输入第二BERT模型，以[CLS]字符的表征作为章节级节点的初始特征向量；

步骤204，将手术操作文本输入命名实体识别模型，分别提取部位、术式、入路和疾病性质四个轴心词的词组，确定各轴心词的词组位置；

步骤206，将手术操作文本输入第二BERT模型，以[CLS]字符的表征作为文档级节点的初始特征向量，分别以各轴心词词组所涉及字符的表征的平均值作为相应轴心词节点的初始特征向量；

步骤208，计算每两个轴心词节点之间有指向性的影响力关系；

步骤210，计算各轴心词节点与文档级节点之间有指向性的影响力关系；

步骤212，计算章节级节点与文档级节点之间有指向性的影响力关系；

步骤214，基于影响力关系构造影响力矩阵，利用激活函数将构造的影响力矩阵转换为归一化的邻接矩阵，确定无监督语义图中各边的权重，完成无监督语义图构建；

步骤216，将构建的无监督语义图输入门控图神经网络(GGNN)，进行全局信息交互，得到语义信息融合的语义图；

步骤218，基于得到的语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量；

步骤220，根据聚合的特征向量进行分类，确定手术操作文本对应的ICD 编码。

如图4所示，由轴心词的命名实体识别模型及章节分类器(即第一BERT 模型)构成预处理模型，对原始的手术操作文本进行预处理，将确定了手术操作文本中的轴心词的文档与章节标题文本输入无监督训练模型(第二 BERT模型)完成图网络构建，再进行全局信息交互后，基于注意力机制、最大池化等操作聚合各节点的表征，最终实现手术操作文本的ICD自动编码。

在一个具体的实施例中，为说明本发明方法的有效性，基于从真实电子病历中收集的中文ICD-9-CM3编码文本构建一套数据集，并用于评估本发明方法在手术操作自动编码任务中的性能。同时将本发明方法与其他代表性的文本表征模型进行了广泛对比。

本发明从结构化电子病历中收集一个中文的手术操作文本数据集，其中包含8400多段中文的手术操作文本，对应1400多段ICD-9-CM3手术操作编码。所有文本均为短文本，不超过80个汉字。该数据集中的所有文本都由医院的专业编码员用ICD-9-CM3代码手工标注，以便构建文本代码匹配。此外，考虑到数据集的长尾效应，还选取其中频率最高的100条手术操作文本重构以CN-100命名的子数据集，而原始数据集以CN-full命名。

延续当前用于ICD自动编码任务的表征方法，本发明比较了本发明方法与现有技术中具有代表性的基线模型的表征性能，并将具有代表性的现有技术基线模型分为三类：1)传统的机器学习方法，如编辑距离；2)基于序列的深度学习方法，如：TextCNN、Text RNN和CAML；3)基于无监督预训练模型的深度学习方法，如经过微调的BERT模型。

对于性能的评价指标，采用Accuracy(准确率)、Recall(召回率)、 micro-average(微平均)和macro-average(宏平均)F1来评价所有方法的性能。为保持比较的公平性，避免引入任何外部信息来丰富原始文本的特征。因此，所有的表征方法都依赖隐含在文本中的信息进行处理。

结果表明本发明方法在这两个数据集上的表现都优于基线模型，本发明方法在数据集CN-full上取得了70.13％的准确率，在数据集CN-100上取得了97.63％的准确率。同时，本发明方法的性能高于从无监督上下文化信息中学习表征的微调的BERT模型，这表明本发明方法能够有效将基于图的全局信息和无监督上下文化信息整合到图结构中。因此，本发明方法有效地提高了对手术操作文本的表征性能。

如图6、图7所示，本发明实施例还提供了一种中文电子病历手术操作文本的ICD自动编码装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图6所示，为本发明实施例提供的一种中文电子病历手术操作文本的ICD自动编码装置(简称ICD自动编码装置)所在电子设备的一种硬件架构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图7所示，作为一个逻辑意义上的装置，是通过其所在电子设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种中文电子病历手术操作文本的ICD自动编码装置，包括构图模块 401、融合模块402、聚合模块403和分类模块404，其中：

构图模块401用于以结构化电子病历中的手术操作文本作为输入，基于 BERT无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图；其中，无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点；章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息，文档级节点的特征向量包含整条手术操作文本的上下文语义信息，四个轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息，无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息；

融合模块402用于将构建的无监督语义图输入门控图神经网络，进行全局信息交互，得到语义信息融合的语义图；

聚合模块403用于基于得到的语义信息融合的语义图，聚合各节点的表征，得到聚合的特征向量；

分类模块404用于根据聚合的特征向量进行分类，确定手术操作文本对应的ICD编码。

本发明中，构图模块401可用于实现上述步骤100，融合模块402可用于实现上述步骤102，聚合模块403可用于实现上述步骤104，分类模块404 可用于实现上述步骤106。

可以理解的是，本发明实施例示意的结构并不构成对一种中文电子病历手术操作文本的ICD自动编码装置的具体限定。在本发明的另一些实施例中，一种中文电子病历手术操作文本的ICD自动编码装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种中文电子病历手术操作文本的ICD自动编码方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种中文电子病历手术操作文本的ICD自动编码方法。

具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU 等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文电子病历手术操作文本的ICD自动编码方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于BERT无监督预训练模型，构建包含无监督上下文语义信息的边，包括：

计算每两个所述轴心词节点之间有指向性的影响力关系；

4.根据权利要求3所述的方法，其特征在于，计算两个所述轴心词节点之间有指向性的影响力关系，包括：

设两个轴心词节点分别为第一轴心词节点和第二轴心词节点，用[MASK]字符遮挡所述手术操作文本中第一轴心词节点对应的词组，输入第二BERT模型，得到该第一轴心词节点对应的词组所涉及字符的表征的平均值，作为第一平均值；

5.根据权利要求3所述的方法，其特征在于，计算所述轴心词节点与所述文档级节点之间有指向性的影响力关系，包括：

6.根据权利要求3所述的方法，其特征在于，计算所述章节级节点与所述文档级节点之间有指向性的影响力关系，包括：

7.根据权利要求1所述的方法，其特征在于，所述聚合各节点的表征，包括：

8.一种中文电子病历手术操作文本的ICD自动编码装置，其特征在于，包括：

构图模块，用于以结构化电子病历中的手术操作文本作为输入，基于BERT无监督预训练模型，构建包含无监督上下文语义信息的节点与边，得到每条手术操作文本的无监督语义图；其中，所述无监督语义图的节点包括章节级节点、文档级节点和最多四个轴心词节点；所述章节级节点的特征向量包含手术操作文本所属章节的上下文语义信息，所述文档级节点的特征向量包含整条手术操作文本的上下文语义信息，四个所述轴心词节点的特征向量分别包含手术操作的部位、术式、入路和疾病性质四个轴心词语义信息，所述无监督语义图的边的权重包含所连两节点之间在手术操作文本中的的语义影响力信息；

9.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。