WO2023213166A1

WO2023213166A1 - 文本的处理方法、装置和计算机可读存储介质

Info

Publication number: WO2023213166A1
Application number: PCT/CN2023/086629
Authority: WO
Inventors: 杨帅; 张亚; 吴元清; 周谦
Original assignee: 北京京东拓先科技有限公司
Priority date: 2022-05-05
Filing date: 2023-04-06
Publication date: 2023-11-09
Also published as: CN117057348A

Abstract

本公开涉及一种文本的处理方法、装置和计算机可读存储介质，涉及计算机技术领域。本公开的方法包括：识别待处理文本中的多个实体以及各个实体的类型，其中，待处理文本包括药品的使用指导文本；根据各个实体的类型确定各个实体的分组，其中，分组包括：条件实体分组和结果实体分组，条件实体分组中的实体作为与药品的使用条件相关的条件实体，结果实体分组中的实体作为与药品的使用方式或结果相关的结果实体；根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。

Description

文本的处理方法、装置和计算机可读存储介质

相关申请的交叉引用

本申请是以CN申请号为202210479767.1，申请日为2022年5月5日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及医疗医药技术领域及自然语言处理技术领域，特别涉及一种文本的处理方法、装置和计算机可读存储介质。

背景技术

在自然语言处理领域中，一般将带有某一类特征的文本片段称为实体。从文本中挖掘实体之间的联系，称为实体关系抽取。

相关技术中，实体关系的抽取方法包括：依存句法分析，依存句法分析利用了语法关系，通常以动词为起点构建规则，对词性和依存关系进行限定。

药学领域文本是人们日常生活中会用到的一种特殊的文本，例如，药品说明书、临床指南等药品的使用指导文本。药学领域文本具有特有的表达方式。

发明内容

根据本公开的一些实施例，提供的一种文本的处理方法，包括：识别待处理文本中的多个实体以及各个实体的类型，其中，待处理文本包括药品的使用指导文本；根据各个实体的类型确定各个实体的分组，其中，分组包括：条件实体分组和结果实体分组，条件实体分组中的实体作为与药品的使用条件相关的条件实体，结果实体分组中的实体作为与药品的使用方式或结果相关的结果实体；根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。

在一些实施例中，根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系包括：根据各个实体在待处理文本中的顺序，各个实体的类型以及分组，将各个实体作为节点生成树状结构，得到实体树；根据实体树抽取实体关系。

在一些实施例中，根据各个实体在待处理文本中的顺序，各个实体的类型以及分组，将各个实体作为节点生成树状结构包括：按照各个实体在待处理文本中的顺序依次获取每个实体作为当前实体；在针对每个当前实体，当前实体为条件实体的情况下，根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系；根据当前实体与当前节点的关系将当前实体添加到树状结构中，并将当前实体的节点更新为当前节点。

在一些实施例中，根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，将各个实体作为节点生成树状结构还包括：在当前实体为结果实体的情况下，确定当前实体为当前节点的叶子节点，并添加到树状结构中。

在一些实施例中，根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系包括：在当前实体与当前节点的类型不同的情况下，确定当前节点的所有父辈节点中是否存在类型与当前实体的类型相同的父辈节点；在当前节点的所有父辈节点中存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为与当前实体的类型相同的父辈节点的兄弟节点；在当前节点的所有父辈节点中不存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为当前节点的子节点。

在一些实施例中，根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系包括：在当前实体与当前节点的类型相同的情况下，确定当前实体与当前节点是否为被包含的关系；在当前实体与当前节点为被包含的关系的情况下，将当前实体作为当前节点的子节点；在当前实体与当前节点不属于被包含的关系的情况下，将当前实体作为当前节点的兄弟节点。

在一些实施例中，根据实体树抽取实体关系包括：从实体树的根节点开始进行深度优先搜索，到达各个叶子节点；按照由叶子节点到根节点的顺序，依次将各个节点作为当前搜索节点；针对每个当前搜索节点，根据当前搜索节点的节点类型、当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。

在一些实施例中，针对每个当前搜索节点，根据当前搜索节点的节点类型、当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：针对每个当前搜索节点，在当前搜索节点为叶子节点的情况下，将当前搜索节点的实体抽取出来，作为抽取结果返回到当前搜索节点的父节点；在当前搜索节点为非叶子节点的情况下，根据当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。

在一些实施例中，根据当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：在当前搜索节点的兄弟节点中不存在叶子节点的情况下，将当前搜索节点的子节点中与当前搜索节点的实体的类型不同的子节点，作为第一子节点，将各个第一子节点返回的抽取结果与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点；将当前搜索节点的子节点中与当前搜索节点的实体的类型相同的子节点，作为第二子节点，直接将各个第二子节点返回的抽取结果，返回到当前搜索节点的父节点。

在一些实施例中，根据当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：在当前搜索节点的兄弟节点中存在叶子节点的情况下，将当前搜索节点的兄弟节点中的叶子节点作为候选节点；从候选节点中选取与当前搜索节点的子节点的实体的类型不同的候选节点；将选取的候选节点的实体抽取出来，分配到当前搜索节点的子节点对应的抽取结果中，并与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点。

在一些实施例中，根据各个实体的类型确定各个实体的分组包括：对待处理文本进行关键词识别，确定待处理文本的文本类型；根据文本类型，查找对应的实体分组表，其中，实体分组表包括各个类型与分组的对应关系；根据实体分组表，确定各个实体的分组。

在一些实施例中，该方法还包括：根据抽取的实体关系构建知识图谱；根据知识图谱生成药品的使用问题的答案。

在一些实施例中，该方法还包括：根据抽取的实体关系构建知识图谱；根据知识图谱对药品的处方进行审核，确定药品的处方是否正确。

根据本公开的另一些实施例，提供的一种文本的处理装置，包括：识别模块，用于识别待处理文本中的多个实体以及各个实体的类型，其中，待处理文本包括药品的使用指导文本；分组模块，用于根据各个实体的类型确定各个实体的分组，其中，分组包括：条件实体分组和结果实体分组，条件实体分组中的实体作为与药品的使用条件相关的条件实体，结果实体分组中的实体作为与药品的使用方式或结果相关的结果实体；抽取模块，用于根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。

根据本公开的又一些实施例，提供的一种文本的处理装置，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的文本的处理方法。

根据本公开的再一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的文本的处理方法。

根据本公开的又一些实施例，提供的一种计算机程序，包括：指令，所述指令被所述处理器执行时，使所述处理器执行如前述任意实施例的文本的处理方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的文本的处理方法的流程示意图。

图2示出本公开的另一些实施例的文本的处理方法的流程示意图。

图3示出本公开的一些实施例的实体树的示意图。

图4示出本公开的又一些实施例的文本的处理方法的流程示意图。

图5示出本公开的一些实施例的文本的处理装置的结构示意图。

图6示出本公开的另一些实施例的文本的处理装置的结构示意图。

图7示出本公开的又一些实施例的文本的处理装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

发明人发现：相关技术中的依存句法分析方法，利用的是通用的语法结构，例如，在“儿童患者的给药频次是一日三次”这句话中，它关注到的关键词为“是”和“的”这两个词。药学领域的文本有其特殊的语法结构，如果采用通用的语法来进行分析，不但增加了处理复杂度，还降低了准确性与召回率。例如，如果上述文本改为“儿童患者一日三次”，去掉了关键词“是”、“给药频次”、“的”，不影响这句话的意思，但是却严重影响分析结果。

本公开所要解决的一个技术问题是：如何提高针对药学领域文本的实体关系抽取的准确性。

本公开提出一种文本的处理方法，下面结合图1～4进行描述。

图1为本公开文本的处理方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S106。

在步骤S102中，识别待处理文本中的多个实体以及各个实体的类型。

待处理文本可以是药学领域文本，包括药品的使用指导文本，例如，药品说明书或临床指南等完整的文本，或者描述药品在治疗疾病过程中要注意的问题的文本，例如，描述药品的适应症、用法用量、禁忌、注意事项、特殊人群用药等文本。可以采用现有技术进行实体识别，例如，采用深度学习等方式进行实体识别，在此不再赘述。例如，针对待处理文本，实体的类型包括：频次实体(例如，一日1～2次)，剂量实体(例如，一次20～60mg)，疗程实体(例如，三天)，给药途径实体(例如，口服)，给药时机实体(例如，餐后)，人群实体(例如，儿童)，疾病实体(例如，返流性食道炎)，联合用药实体(例如，奥美拉唑与克拉霉素合用)，生化指标实体(例如，肾小球滤过率)中一项或多项，不限于所举示例。

在步骤S104中，根据各个实体的类型确定各个实体的分组。

发明人通过研究发现，药学领域文本描述的突出特点是，在某些前置条件下，应该进行某种操作，或者产生某种效果。例如，文本1：返流性食道炎：一次20～60mg(一次1～3粒)，一日1～2次；文本2：当奥美拉唑与克拉霉素或红霉素合用时，它们的血药浓度会上升。文本1中在返流性食道炎这个适应症作为前置条件的情况下，应该进行的用药操作是一次20～60mg(剂量操作)，一日1～2次(频次操作)。文本2中在联合用药这个前置条件下，药品产生的效果是血药浓度上升。因此，构建条件实体分组和结果实体分组两个分组。条件实体分组中的实体作为与药品的使用条件相关的条件实体，结果实体分组中的实体作为与药品的使用方式或结果相关的结果实体。

例如，针对药品用法用量的文本，人群实体、疾病实体、联合用药实体、给药途径实体、生化指标实体被划分到条件实体分组，其余的实体被划分到结果实体分组。例如，针对禁忌文本，人群实体、疾病实体、既往病史实体、病因实体、联合用药实体等被划分到条件实体分组，使用等级实体(适用、禁用、慎用、准医嘱等)划分到结果实体分组。例如，“二甲双胍，妊娠及哺乳期妇女禁用。”这里，“妊娠及哺乳期妇女”是条件实体，“禁用”是结果实体。

在一些实施例中，对待处理文本进行关键词识别，确定待处理文本的文本类型；根据文本类型，查找对应的实体分组表，其中，实体分组表包括各个类型与分组的对应关系；根据实体分组表，确定各个实体的分组。

文本类型例如包括：适应症、用法用量、禁忌、注意事项、特殊人群用药中一项或多项，不限于所举示例。一般药学领域文本的标题中包含文本类型对应的关键字，可以进行关键字识别确定待处理文本的文本类型。也可以采用其他现有的文本分类方法对待处理文本进行分类确定待处理文本的文本类型，例如，采用分类模型对待处理文本进行分类，不限于所举示例。

可以预先配置各个类型(实体的类型)与分组的对应关系形成实体分组表，并且每个文本类型对应一个实体分组表，进而在对待处理文本确定文本类型后查找相应的实体分组表，确定各个实体的分组。

在步骤S106中，根据各个实体在待处理文本中的顺序，各个实体的类型以及分组，抽取实体关系。

各个实体按照在待处理文本中的顺序可以在内存或数据库中存储为线性列表。在一些实施例中，根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，将各个实体作为节点生成树状结构，得到实体树；根据实体树抽取实体关系。在一些实施例中，在实体树中条件实体分组中的各个条件实体作为非叶子节点，结果实体分组中的各个结果实体作为叶子节点。这样按照实体树由根节点到叶结点的顺序进行深度优先搜索时可以形成在什么样的条件下，得到什么样的结果的实体关系，符合药学领域文本的特征。

下面具体描述如何生成实体树。

在一些实施例中，按照各个实体在待处理文本中的顺序，依次获取每个实体作为当前实体；针对每个当前实体，在当前实体为条件实体的情况下，根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系；根据当前实体与当前节点的关系，将当前实体添加到树状结构中，并将当前实体的节点更新为当前节点。在当前实体为结果实体的情况下，确定当前实体为当前节点的叶子节点，并添加到树状结构中。

进一步，在一些实施例中，在当前实体与当前节点的类型不同的情况下，确定当前节点的所有父辈节点中是否存在类型与当前实体的类型相同的父辈节点；在当前节点的所有父辈节点中存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为与当前实体的类型相同的父辈节点的兄弟节点；在当前节点的所有父辈节点中不存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为当前节点的子节点。

在另一些实施例中，在当前实体与当前节点的类型相同的情况下，确定当前实体与当前节点是否为被包含的关系；在当前实体与当前节点为被包含的关系的情况下，将当前实体作为当前节点的子节点；在当前实体与当前节点不属于被包含的关系的情况下，将当前实体作为当前节点的兄弟节点。

如图2所示，在步骤S202中，建立根节点，并将根节点作为当前节点，其中，按照各个实体在待处理文本中的顺序将第一个实体作为根节点。可以设置一个指针维护(指向)当前节点。

在步骤S204中，按照各个实体在待处理文本中的顺序，获取下一个实体作为当前实体。

在步骤S206中，判断当前实体的分组，在当前实体为结果实体的情况下，执行步骤S207，否则执行步骤S208。

在步骤S207中，将当前实体为当前节点的叶子节点，并添加到树状结构中，返回步骤S204重新开始。此时，不更新当前节点，即不改变指针的指向。

在步骤S208中，判断当前实体与当前节点的类型是否相同，如果相同，则执行步骤S210，否则执行步骤S214。

在步骤S210中，确定当前实体与当前节点是否为被包含的关系，如果是，则执行步骤S211，否则，执行步骤S212。

在步骤S211中，将当前实体作为当前节点的子节点添加到树状结构中。

在步骤S212中，将当前实体作为当前节点的兄弟节点添加到树状结构中。

在步骤S214中，判断当前节点的所有父辈节点中是否存在类型与当前实体的类型相同的父辈节点，如果存在，则执行步骤S215，否则，执行步骤S216。当前节点的所有父辈节点包括：当前节点的父节点，父节点的父节点…直到根节点等

在步骤S215中，将当前实体作为与当前实体的类型相同的父辈节点的兄弟节点添加到树状结构中。

在步骤S216中，将当前实体作为当前节点的子节点添加到树状结构中。

在步骤S218中，将当前实体的节点更新为当前节点，返回步骤S204重新开始。即将指针指向当前实体。

下面结合图3描述上述方法对应的应用例。例如，用法用量文本的原文为：口服。儿童患者：消化性溃疡，一次一片，一日三次；返流性食道炎，一次一片，一日两次。成人患者：消化性溃疡一次两片，一日三次，疗程1～2周，胃溃疡疗程通常为4～8周，十二指肠溃疡疗程通常2～4周；返流性食道炎，一次两片，一日两次。

将上述用法用量文本进行实体识别，确定实体的类型后得到以下结果：(口服-给药途径实体),(儿童-人群实体),(消化性溃疡-疾病实体),(一次一片-剂量实体),(一日三次-频次实体),(返流性食道炎-疾病实体),(一次一片-剂量实体),(一日两次-频次实体),(成人-人群实体),(消化性溃疡-疾病实体),(一次两片-剂量实体),(一日三次-频次实体),(1～2周-疗程实体),(胃溃疡-疾病实体),(4～8周-疗程实体),(十二指肠溃疡-疾病实体),(2～4周-疗程实体),(返流性食道炎-疾病实体),(一次两片-剂量实体),(一日两次-频次实体)。

根据上述实施例的方法生成的实体树如图3所示。以当前实体为胃溃疡，当前节点为消化性溃疡为例，判断当前实体与当前节点的类型是否相同，两者的类型相同，则判断胃溃疡是否被包含在消化性溃疡中，判断结果为是，则将胃溃疡作为消化性溃疡的子节点，添加到树状结构中，并将指针指向胃溃疡，将4～8周作为下一个当前实体，继续生成实体树中的节点。

下面具体描述如何根据实体树抽取实体关系。

在一些实施例中，从实体树的根节点开始进行深度优先搜索，到达各个叶子节点；按照由叶子节点到根节点的顺序，依次将各个节点作为当前搜索节点；针对每个当前搜索节点，根据当前搜索节点的节点类型、当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。

进一步，在一些实施例中，针对每个当前搜索节点，在当前搜索节点为叶子节点的情况下，将当前搜索节点的实体抽取出来，作为抽取结果返回到当前搜索节点的父节点；在当前搜索节点为非叶子节点的情况下，根据当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。

进一步，在一些实施例中，在当前搜索节点的兄弟节点中不存在叶子节点的情况下，将当前搜索节点的子节点中与当前搜索节点的实体的类型不同的子节点，作为第一子节点，将各个第一子节点返回的抽取结果与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点；将当前搜索节点的子节点中与当前搜索节点的实体的类型相同的子节点，作为第二子节点，直接将各个第二子节点返回的抽取结果，返回到当前搜索节点的父节点。

在另一些实施例中，在当前搜索节点的兄弟节点中存在叶子节点的情况下，将当前搜索节点的兄弟节点中的叶子节点作为候选节点；从候选节点中选取与当前搜索节点的子节点的实体的类型不同的候选节点；将选取的候选节点的实体抽取出来，分配到当前搜索节点的子节点对应的抽取结果中，并与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点。

如图4所示，在步骤S402中，从实体树的根节点开始进行深度优先搜索，到达各个叶子节点。

在步骤S404中，按照由叶子节点到根节点的顺序，获取当前搜索节点。

可以从深度最深的叶子节点开始向上进行遍历。

在步骤S406中，判断当前搜索节点是否为叶子节点，如果是，则执行步骤S407，否则执行步骤S408。

在步骤S407中，将当前搜索节点的实体抽取出来，作为抽取结果返回到当前搜索节点的父节点，返回步骤S404重新开始。

在步骤S408中，判断当前搜索节点的兄弟节点中是否存在叶子节点，如果是，则执行步骤S410，否则执行步骤S414。

在步骤S410中，将当前搜索节点的兄弟节点中的叶子节点作为候选节点，从候选节点中选取与当前搜索节点的子节点的实体的类型不同的候选节点。

在步骤S412中，将选取的候选节点的实体抽取出来，分配到当前搜索节点的子节点对应的抽取结果中，并与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点，返回步骤S404重新开始。

在步骤S414中，将当前搜索节点的子节点中与当前搜索节点的实体的类型不同的子节点，作为第一子节点，将各个第一子节点返回的抽取结果与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点，将当前搜索节点的子节点中与当前搜索节点的实体的类型相同的子节点，作为第二子节点，直接将各个第二子节点返回的抽取结果，返回到当前搜索节点的父节点，返回步骤S404重新开始。

如图3所示的实体树，以当前搜索节点为胃溃疡节点为例，胃溃疡节点的兄弟节点中存在三个叶子节点一次两片，一日三次，1～2周，将这三个叶子节点作为候选节点，从中选取与胃溃疡节点的子节点(4～8周)实体的类型不同的候选节点，即一次两片，一日三次，将一次两片，一日三次，分配到胃溃疡节点的子节点对应的抽取结果中，并与胃溃疡组成抽取结果(胃溃疡，一次两片，一日三次，4～8周)返回到父节点消化性溃疡。当前搜索节点更新为消化性溃疡，消化性溃疡的兄弟节点中不存在叶子节点，消化性溃疡的所有子节点中一次两片，一日三次，1～2周为第一子节点，胃溃疡，十二指肠溃疡为第二子节点，将一次两片，一日三次，1～2周与消化性溃疡组成抽取结果，返回到成人节点，直接将胃溃疡，十二指肠溃疡返回的抽取结果((胃溃疡，一次两片，一日三次，4～8周)，(十二指肠溃疡，一次两片，一日三次，2～4周))返回到成人节点。

图3中实体树的实体关系抽取结果为：[口服，儿童，消化性溃疡，一次一片，一日三次]，[口服，儿童，返流性食道炎，一次一片，一日两次]，[口服，成人，消化性溃疡，一次两片，一日三次，1～2周]，[口服，成人，胃溃疡，一次两片，一日三次，4～8周]，[口服，成人，十二指肠溃疡，一次两片，一日三次，2～4周]，[口服，成人，返流性食道炎，一次两片，一日两次]。可以将上述实体关系转换为三元组的形式，例如，将[口服，儿童，消化性溃疡，一次一片，一日三次]作为节点，[该节点给药途径口服]作为三元组，形成相应的知识图谱中该节点和口服节点之间的边为给药途径。也可以采用其他方式将上述实体关系转换为三元组的形式，例如，[儿童剂量一次一片]，不限于所举示例。

在一些实施例中，根据抽取的实体关系构建知识图谱，如上述实施例中的方法，但不限于所举示例。进一步，根据知识图谱生成药品的使用问题的答案，或者，根据知识图谱对药品的处方进行审核，确定药品的处方是否正确。例如，用户针对上述应用例中的药品提问，儿童的用量是多少，可以根据构建的知识图谱，确定儿童的剂量为一次一片。又例如，药品的处方中患者30岁，疾病为反流性食道炎，用药频次为一日三次，根据构建的知识图谱，对该处方进行审核，一日两次的用药频次是错误的。

上述实施例的方法首先识别待处理文本中的各个实体以及各个实体的类型，进而根据实体的类型将各个实体划分为与药品的使用条件相关的条件实体和与药品的使用方式或结果相关结果实体，再根据各个实体在待处理文本中的顺序，各个实体的类型以及分组，抽取实体关系。上述实施例的方法针对药学领域文本的表达方式，设计了针对药学领域文本的实体划分方式和实体关系抽取方法，能够降低实体关系抽取的复杂度，提高准确性和召回率。

上述实施例的方法可以应用的场景为基于药学领域文本构建知识图谱。由于实体关系抽取方法能够保证可解释性，提高准确率和召回率，进而可以降低人工干预构建知识图谱的成本，提高知识图谱构建的效率和准确性，方便扩充药学知识图谱的规模。进一步，知识图谱可以用于药品问答、处方审核等领域，实现自动的在线开药，并且保证了准确性。

本公开还提供一种文本的处理装置，下面结合图5进行描述。

图5为本公开文本的处理装置的一些实施例的结构图。如图5所示，该实施例的装置50包括：识别模块510，分组模块520，抽取模块530。

识别模块510用于识别待处理文本中的多个实体以及各个实体的类型，其中，待处理文本包括药品的使用指导文本。

分组模块520用于根据各个实体的类型确定各个实体的分组，其中，分组包括：条件实体分组和结果实体分组，条件实体分组中的实体作为与药品的使用条件相关的条件实体，结果实体分组中的实体作为与药品的使用方式或结果相关的结果实体。

在一些实施例中，分组模块520用于对待处理文本进行关键词识别，确定待处理文本的文本类型；根据文本类型，查找对应的实体分组表，其中，实体分组表包括各个类型与分组的对应关系；根据实体分组表，确定各个实体的分组。

抽取模块530用于根据各个实体在待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。

在一些实施例中，抽取模块530用于根据各个实体在待处理文本中的顺序，各个实体的类型以及分组，将各个实体作为节点生成树状结构，得到实体树；根据实体树抽取实体关系。

在一些实施例中，抽取模块530用于按照各个实体在待处理文本中的顺序依次获取每个实体作为当前实体；针对每个当前实体，在当前实体为条件实体的情况下，根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系；根据当前实体与当前节点的关系将当前实体添加到树状结构中，并将当前实体的节点更新为当前节点。

在一些实施例中，抽取模块530用于在当前实体为结果实体的情况下，确定当前实体为当前节点的叶子节点，并添加到树状结构中。

在一些实施例中，抽取模块530用于在当前实体与当前节点的类型不同的情况下，确定当前节点的所有父辈节点中是否存在类型与当前实体的类型相同的父辈节点；在当前节点的所有父辈节点中存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为与当前实体的类型相同的父辈节点的兄弟节点；在当前节点的所有父辈节点中不存在类型与当前实体的类型相同的父辈节点的情况下，将当前实体作为当前节点的子节点。

在一些实施例中，抽取模块530用于在当前实体与当前节点的类型相同的情况下，确定当前实体与当前节点是否为被包含的关系；在当前实体与当前节点为被包含的关系的情况下，将当前实体作为当前节点的子节点；在当前实体与当前节点不属于被包含的关系的情况下，则将当前实体作为当前节点的兄弟节点。

在一些实施例中，抽取模块530用于针对每个当前搜索节点，在当前搜索节点为叶子节点的情况下，将当前搜索节点的实体抽取出来，作为抽取结果返回到当前搜索节点的父节点；在当前搜索节点为非叶子节点的情况下，根据当前搜索节点的子节点的实体的类型、以及当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。

在一些实施例中，抽取模块530用于在当前搜索节点的兄弟节点中不存在叶子节点的情况下，将当前搜索节点的子节点中与当前搜索节点的实体的类型不同的子节点，作为第一子节点，将各个第一子节点返回的抽取结果与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点；将当前搜索节点的子节点中与当前搜索节点的实体的类型相同的子节点，作为第二子节点，直接将各个第二子节点返回的抽取结果，返回到当前搜索节点的父节点。

在一些实施例中，抽取模块530用于在当前搜索节点的兄弟节点中存在叶子节点的情况下，将当前搜索节点的兄弟节点中的叶子节点作为候选节点；从候选节点中选取与当前搜索节点的子节点的实体的类型不同的候选节点；将选取的候选节点的实体抽取出来，分配到当前搜索节点的子节点对应的抽取结果中，并与当前搜索节点的实体组成抽取结果，返回到当前搜索节点的父节点。

在一些实施例中，该装置50还包括：构建模块540，用于根据抽取的实体关系构建知识图谱；问答模块550，用于根据知识图谱生成药品的使用问题的答案；审核模块560，用于根据知识图谱对药品的处方进行审核，确定药品的处方是否正确。

本公开的实施例中的文本的处理装置可各由各种计算设备或计算机***来实现，下面结合图6以及图7进行描述。

图6为本公开文本的处理装置的一些实施例的结构图。如图6所示，该实施例的装置60包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行本公开中任意一些实施例中的文本的处理方法。

其中，存储器610例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图7为本公开文本的处理装置的另一些实施例的结构图。如图7所示，该实施例的装置70包括：存储器710以及处理器720，分别与存储器610以及处理器620类似。还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730，740，750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本公开还提供一种计算机程序，包括：指令，所述指令被所述处理器执行时，使所述处理器执行如前述任意实施例的文本的处理方法。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种文本的处理方法，包括：

识别待处理文本中的多个实体以及各个实体的类型，其中，所述待处理文本包括药品的使用指导文本；

根据各个实体的类型确定各个实体的分组，其中，所述分组包括：条件实体分组和结果实体分组，所述条件实体分组中的实体作为与所述药品的使用条件相关的条件实体，所述结果实体分组中的实体作为与所述药品的使用方式或结果相关的结果实体；

根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。
根据权利要求1所述的处理方法，其中，所述根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系包括：

根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，将各个实体作为节点生成树状结构，得到实体树；

根据所述实体树抽取实体关系。
根据权利要求2所述的处理方法，其中，所述根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，将各个实体作为节点生成树状结构包括：

按照各个实体在所述待处理文本中的顺序，依次获取每个实体作为当前实体；

针对每个当前实体，在所述当前实体为条件实体的情况下，根据所述当前实体的类型和当前节点的类型，确定所述当前实体与所述当前节点的关系；

根据所述当前实体与所述当前节点的关系，将当前实体添加到所述树状结构中，并将所述当前实体的节点更新为当前节点。
根据权利要求3所述的处理方法，其中，所述根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，将各个实体作为节点生成树状结构还包括：

在所述当前实体为结果实体的情况下，确定所述当前实体为当前节点的叶子节点，并添加到所述树状结构中。
根据权利要求3所述的处理方法，其中，所述根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系包括：

在所述当前实体与所述当前节点的类型不同的情况下，确定所述当前节点的所有父辈节点中是否存在类型与所述当前实体的类型相同的父辈节点；

在所述当前节点的所有父辈节点中存在类型与所述当前实体的类型相同的父辈节点的情况下，将所述当前实体作为与所述当前实体的类型相同的父辈节点的兄弟节点；

在所述当前节点的所有父辈节点中不存在类型与所述当前实体的类型相同的父辈节点的情况下，将所述当前实体作为所述当前节点的子节点。
根据权利要求3所述的处理方法，其中，所述根据当前实体的类型和当前节点的类型，确定当前实体与当前节点的关系包括：

在所述当前实体与所述当前节点的类型相同的情况下，确定所述当前实体与所述当前节点是否为被包含的关系；

在所述当前实体与所述当前节点为被包含的关系的情况下，将所述当前实体作为所述当前节点的子节点；

在所述当前实体与所述当前节点不属于被包含的关系的情况下，将所述当前实体作为所述当前节点的兄弟节点。
根据权利要求2所述的处理方法，其中，所述根据所述实体树抽取实体关系包括：

从所述实体树的根节点开始进行深度优先搜索，到达各个叶子节点；

按照由叶子节点到根节点的顺序，依次将各个节点作为当前搜索节点；

针对每个当前搜索节点，根据所述当前搜索节点的节点类型、所述当前搜索节点的子节点的实体的类型、以及所述当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。
根据权利要求7所述的处理方法，其中，所述针对每个当前搜索节点，根据所述当前搜索节点的节点类型、所述当前搜索节点的子节点的实体的类型、以及所述当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：

针对每个当前搜索节点，在所述当前搜索节点为叶子节点的情况下，将所述当前搜索节点的实体抽取出来，作为抽取结果返回到所述当前搜索节点的父节点；

在所述当前搜索节点为非叶子节点的情况下，根据所述当前搜索节点的子节点的实体的类型、以及所述当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系。
根据权利要求8所述的处理方法，其中，所述根据所述当前搜索节点的子节点的实体的类型、以及所述当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：

在所述当前搜索节点的兄弟节点中不存在叶子节点的情况下，将所述当前搜索节点的子节点中与所述当前搜索节点的实体的类型不同的子节点，作为第一子节点，将各个第一子节点返回的抽取结果与所述当前搜索节点的实体组成抽取结果，返回到所述当前搜索节点的父节点；

将所述当前搜索节点的子节点中与所述当前搜索节点的实体的类型相同的子节点，作为第二子节点，直接将各个第二子节点返回的抽取结果，返回到所述当前搜索节点的父节点。
根据权利要求8所述的处理方法，其中，所述根据所述当前搜索节点的子节点的实体的类型、以及所述当前搜索节点的兄弟节点中叶子节点的实体的类型，抽取实体关系包括：

在所述当前搜索节点的兄弟节点中存在叶子节点的情况下，将所述当前搜索节点的兄弟节点中的叶子节点作为候选节点；

从所述候选节点中选取与所述当前搜索节点的子节点的实体的类型不同的候选节点；

将选取的候选节点的实体抽取出来，分配到所述当前搜索节点的子节点对应的抽取结果中，并与所述当前搜索节点的实体组成抽取结果，返回到所述当前搜索节点的父节点。
根据权利要求1-10任一项所述的处理方法，其中，所述根据各个实体的类型确定各个实体的分组包括：

对所述待处理文本进行关键词识别，确定所述待处理文本的文本类型；

根据所述文本类型，查找对应的实体分组表，其中，所述实体分组表包括各个类型与分组的对应关系；

根据所述实体分组表，确定各个实体的分组。
根据权利要求1-11任一项所述的处理方法，还包括：

根据抽取的所述实体关系构建知识图谱；

根据所述知识图谱生成所述药品的使用问题的答案。
根据权利要求1-11任一项所述的处理方法，还包括：

根据抽取的所述实体关系构建知识图谱；

根据所述知识图谱对所述药品的处方进行审核，确定所述药品的处方是否正确。
一种文本的处理装置，包括：

识别模块，用于识别待处理文本中的多个实体以及各个实体的类型，其中，所述待处理文本包括药品的使用指导文本；

分组模块，用于根据各个实体的类型确定各个实体的分组，其中，所述分组包括：条件实体分组和结果实体分组，所述条件实体分组中的实体作为与所述药品的使用条件相关的条件实体，所述结果实体分组中的实体作为与所述药品的使用方式或结果相关的结果实体；

抽取模块，用于根据各个实体在所述待处理文本中的顺序、各个实体的类型以及分组，抽取实体关系。
一种文本的处理装置，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-13任一项所述的文本的处理方法。
一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-13任一项所述方法的步骤。
一种计算机程序，包括：指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-13任一项所述的文本的处理方法。