CN112380867A - 文本处理、知识库的构建方法、装置和存储介质 - Google Patents

文本处理、知识库的构建方法、装置和存储介质 Download PDF

Info

Publication number
CN112380867A
CN112380867A CN202011403298.2A CN202011403298A CN112380867A CN 112380867 A CN112380867 A CN 112380867A CN 202011403298 A CN202011403298 A CN 202011403298A CN 112380867 A CN112380867 A CN 112380867A
Authority
CN
China
Prior art keywords
text
entity
network
training
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011403298.2A
Other languages
English (en)
Inventor
刘港安
文瑞
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011403298.2A priority Critical patent/CN112380867A/zh
Publication of CN112380867A publication Critical patent/CN112380867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本处理、知识库的构建方法、装置和存储介质。其中文本处理方法包括:通过编码网络对训练文本进行编码,得到训练编码序列;根据训练编码序列及实体识别网络,得到实体识别结果;根据实体识别结果及关系分类网络,得到关系识别结果;基于实体识别结果、关系识别结果及标签数据联合训练编码网络、实体识别网络及关系分类网络;根据更新后的编码网络和关系识别结果,对训练编码序列进行更新,并返回根据训练编码序列及实体识别网络识别训练文本的实体的步骤以进行迭代训练,当满足迭代停止条件时,得到目标编码网络、目标实体识别网络及目标关系分类网络。采用本申请的方法可以提高实体识别网络及关系分类网络的准确性。

Description

文本处理、知识库的构建方法、装置和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算 机设备和存储介质,以及一种知识库的构建方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的飞速发展,自然语言处理在很多方面得到了广泛应用。 在自然语言处理中,经常需要进行实体关系识别。实体关系识别,即实体关系抽 取,旨在从大规模非结构或半结构的自然语言语句中抽取结构化信息,以确定自 然语言语句中的各实体之间的语义关系,可以解决自然语言语句中实体之间分 类的问题,也是构建复杂知识库***的重要基础,如文本摘要、自动问答、机器 翻译、搜索引擎、知识图谱等。
传统技术中,在抽取实体关系时,通常是采用一个命名实体识别模型首先进 行实体识别,然后再采用一个关系分类模型对识别到的实体对进行关系分类,这 种方式下,命名实体识别模型以及关系分类模型是通过两个独立的训练任务训 练得到的,往往会忽略两个任务之间的相关关系,导致训练得到的模型准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高模型准确率的文本处 理方法、装置、计算机设备和存储介质。
一种文本处理方法,包括:
获取训练文本及所述训练文本对应的标签数据;
通过编码网络对所述训练文本进行编码,得到所述训练文本对应的训练编 码序列;
根据所述训练编码序列及实体识别网络识别所述训练文本的实体,得到实 体识别结果;
根据所述实体识别结果及关系分类网络识别所述训练文本的实体关系,得 到关系识别结果;
基于所述实体识别结果、所述关系识别结果及所述标签数据联合训练所述 编码网络、所述实体识别网络及所述关系分类网络,以更新所述编码网络、所述 实体识别网络及所述关系分类网络;
根据更新后的所述编码网络和所述关系识别结果,对所述训练编码序列进 行更新,并返回根据所述训练编码序列及实体识别网络识别所述训练文本的实 体的步骤以进行迭代训练,当满足迭代停止条件时,得到训练后的目标编码网络、 目标实体识别网络及目标关系分类网络;其中,所述目标编码网络、目标实体识 别网络及目标关系分类网络用于配合识别待处理文本的实体关系。
在其中一个实施例中,所述关系分类网络包括隐藏层、卷积层及池化层;所 述将所述训练编码段输入关系分类网络中进行关系识别,得到所述训练实体对 对应的关系识别结果包括:将所述训练编码段输入所述隐藏层,通过所述隐藏对 所述训练编码段进行处理,得到对应的第一中间特征;将所述第一中间特征输入 所述卷积层,通过所述卷积层对所述第一中间特征进行卷积处理,得到对应的第 二中间特征;将所述第二中间特征输入所述池化层,通过所述池化层对所述第二 中间特征进行池化处理;根据池化处理结果进行实体关系分类,得到关系识别结 果。
一种文本处理装置,所述装置包括:
数据获取模块,用于获取训练文本及所述训练文本对应的标签数据;
编码模块,用于通过编码网络对所述训练文本进行编码,得到所述训练文本 对应的训练编码序列;
实体识别模块,用于根据所述训练编码序列及实体识别网络识别所述训练 文本的实体,得到实体识别结果;
关系识别模块,用于根据所述实体识别结果及关系分类网络识别所述训练 文本的实体关系,得到关系识别结果;
联合训练模块,用于基于所述实体识别结果、所述关系识别结果及所述标签 数据联合训练所述编码网络、所述实体识别网络及所述关系分类网络,以更新所 述编码网络、所述实体识别网络及所述关系分类网络;
迭代训练模块,用于根据更新后的所述编码网络和所述关系识别结果,对所 述训练编码序列进行更新,并返回根据所述训练编码序列及实体识别网络识别 所述训练文本的实体的步骤以进行迭代训练,当满足迭代停止条件时,得到训练 后的目标编码网络、目标实体识别网络及目标关系分类网络;其中,所述目标编 码网络、目标实体识别网络及目标关系分类网络用于配合识别待处理文本的实 体关系。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所 述处理器执行所述计算机程序时实现上述文本处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理 器执行时实现上述文本处理方法的步骤。
上述文本处理方法、装置、计算机设备和存储介质,通过编码网络对所述训 练文本进行编码,得到所述训练文本对应的训练编码序列,根据所述训练编码序 列及实体识别网络识别所述训练文本的实体,得到实体识别结果,根据所述实体 识别结果及关系分类网络识别所述训练文本的实体关系,得到关系识别结果,基 于所述实体识别结果、所述关系识别结果及所述标签数据联合训练所述编码网 络、所述实体识别网络及所述关系分类网络,得到更新后的编码网络、实体识别 网络及关系分类网络,由于进行了联合训练,实体识别网络及关系分类网络可以 共享编码网络的网络参数,那么在训练过程中可以实现实体识别网络及关系分 类网络之间的依赖,从而使得得到的实体识别网络及关系分类网络更加准确,进 一步,通过对编码网络、实体识别网络及关系分类网络进行多轮迭代训练,并且在每一次迭代的过程中,根据所述更新后的编码网络和所述关系识别结果,对所 述训练编码序列进行更新,当满足迭代停止条件时,得到训练后的目标编码网络、 目标实体识别网络及目标关系分类网络,如此可以充分地考虑到实体识别网络 及关系分类网络之间的相关性,进一步提高了实体识别网络及关系分类网络的 准确性。
一种知识库的构建方法,其特征在于,所述方法包括:
获取待处理文本,通过训练后的目标编码网络对所述待处理文本进行编码, 得到所述待处理文本对应的编码序列;
根据所述编码序列及训练后的目标实体识别网络识别所述待处理文本的实 体,得到实体识别结果;
根据所述实体识别结果及训练后的目标关系分类网络识别所述待处理文本 的实体关系,得到关系识别结果;
所述目标编码网络、所述目标实体识别网络及所述目标关系分类网络是基 于训练文本进行迭代联合训练得到的;每一次迭代训练,根据前次训练得到的关 系分类网络输出的关系识别结果,更新输入至前次训练得到的实体识别网络中 的训练编码序列;
根据所述实体识别结果及所述关系识别结果构建知识库。
在其中一个实施例中,该知识库的构建方法还包括:获取待审核处方,所述 待审核处方中包括药品名称;根据所述药品名称从所述药品知识库中查询对应 的目标实体及目标关系;根据查询到的所述目标实体及目标关系对所述待审核 处方进行审核,得到审核结果。
一种知识库的构建装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理文本,通过训练后的目标编码网络对所述待 处理文本进行编码,得到所述待处理文本对应的编码序列;
实体识别模块,用于根据所述编码序列及训练后的目标实体识别网络识别 所述待处理文本的实体,得到实体识别结果;
关系识别模块,用于根据所述实体识别结果及训练后的目标关系分类网络 识别所述待处理文本的实体关系,得到关系识别结果;所述目标编码网络、所述 目标实体识别网络及所述目标关系分类网络是基于训练文本进行迭代联合训练 得到的;每一次迭代训练,根据前次训练得到的关系分类网络输出的关系识别结 果,更新输入至前次训练得到的实体识别网络中的训练编码序列;
知识库构建模块,用于根据所述实体识别结果及所述关系识别结果构建知 识库。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所 述处理器执行所述计算机程序时实现上述知识库的构建方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理 器执行时实现上述知识库的构建方法的步骤。
上述知识库的构建方法、装置、计算机设备和存储介质,在获取待处理文本 后,通过训练后的目标编码网络对所述待处理文本进行编码,得到所述待处理文 本对应的编码序列,根据所述编码序列及训练后的目标实体识别网络识别所述 待处理文本的实体,得到实体识别结果,根据所述实体识别结果及训练后的目标 关系分类网络识别所述待处理文本的实体关系,得到关系识别结果,根据所述实 体识别结果及所述关系识别结果构建知识库,由于目标编码网络、所述目标实体 识别网络及所述目标关系分类网络是基于训练文本进行迭代联合训练得到的, 每一次迭代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新 输入至前次训练得到的实体识别网络中的训练编码序列,在训练过程中,充分考 虑了实体识别网络及关系分类网络的依赖性和相关性,得到的实体识别网络及所述目标关系分类网络具有较好的泛化性能,能够对待处理文本中的实体和关 系进行准确地识别,使得根据实体识别结果及所述关系识别结果构建的知识库 相较于相关技术中人工标注方式建立的知识库,准确性得到了明显地提升。
附图说明
图1为一个实施例中文本处理方法及知识库的构建方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中获取训练文本之前的步骤流程示意图;
图4为一个实施例中文本处理方法的流程示意图;
图5为一个实施例中文本处理网络的结构示意图;
图6为一个实施例中BLSTM网络的原理图;
图7为一个实施例中CNN网络的结构图;
图8为一个实施例中文本处理方法的效果图;
图9为一个实施例中知识库的构建方法的步骤流程示意图;
图10A为一个一种应用场景中文本处理方法及知识库的构建方法的过程示 意图;
图10B为一个实施例中标注所需工作日与知识库量级的关系图;
图11为一个实施例中文本处理装置的结构框图;
图12为一个实施例中知识库的构建装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施 例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以 解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算 机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得 最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的 一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的 方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实 现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软 件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计 算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工 智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及 机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人 工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行 有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学 于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言, 所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、 语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统 计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟 或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之 不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本 途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经 网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用, 例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾 驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展, 人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术, 具体通过如下实施例进行说明。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中, 服务器和终端均可以单独执行该文本处理方法,服务器和终端也可以协同执行 该文本处理方法。
在一个实施例中,以服务器和终端协同执行该文本处理方法为例,服务器可 以首先获取训练文本及训练文本对应的标签数据,通过编码网络对训练文本进 行编码,得到训练文本对应的训练编码序列,根据训练编码序列及实体识别网络 识别训练文本的实体,得到实体识别结果,根据实体识别结果及关系分类网络识 别训练文本的实体关系,得到关系识别结果,基于实体识别结果、关系识别结果 及标签数据联合训练编码网络、实体识别网络及关系分类网络,以更新编码网络、 实体识别网络及关系分类网络,根据更新后的编码网络和关系识别结果,对训练 编码序列进行更新,并返回根据训练编码序列及实体识别网络识别训练文本的 实体的步骤以进行迭代训练,当满足迭代停止条件时,得到训练后的目标编码网 络、目标实体识别网络及目标关系分类网络,在进行实体关系识别时,服务器可以将得到的目标编码网络、目标实体识别网络及目标关系分类网络发送至终端, 终端根据目标编码网络、目标实体识别网络及目标关系分类网络配合识别待处 理文本的实体关系;或者,终端可以将待识别文本发送至服务器,服务器根据目 标编码网络、目标实体识别网络及目标关系分类网络配合识别待处理文本的实 体关系,将识别结果返回至终端。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中, 服务器和终端均可以单独执行该文本处理方法,服务器和终端也可以协同执行 该文本处理方法。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、 平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服 务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于 图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取训练文本及训练文本对应的标签数据。
其中,训练文本指的是用于训练文本处理网络的样本文本。训练文本的语言 可以根据实际需要确定,例如训练文本可以是中文语句,也可以是英文语句。训 练文本对应的标签数据指的是对文本处理网络进行有监督训练的训练标签。这 里的文本处理网络指的对待处理文本进行实体识别和关系识别的机器学习模型。 该文本处理网络包括编码网络、识别实体网络和关系分类网络。在训练的过程中, 文本处理网络以训练样本作为输入数据,以标签数据作为期望的输出数据,不断 地进行学习,训练结束时,得到的文本处理网络可以对输入的待处理文本进行实 体识别和关系抽取,那么在进行有监督训练的过程中,采用的标签数据可以包括 训练样本对应的实体标签和关系标签。
具体地,服务器可以从训练数据集中获取训练样本及训练样本对应的标签 数据。训练数据集中包括多个训练样本及各个训练样本各自对应的标签数据。其 中,训练数据集可以是人工标注的数据集,即训练样本对应的标签数据是通过人 工对文本中的实体和关系进行标注得到的;训练数据集也可以是机器自动标注 的数据集,即训练样本对应的标签数据是通过计算机自动对文本中的实体和关 系进行标注得到的。
在一个实施例中,训练数据集可以存储在数据库中,那么服务器可以从数据 库中获取训练文本及训练文本对应的标签数据。在另一个实施例中,训练数据集 可以存储在其他计算机设备上,那么服务器可以通过网络等方式从其他计算机 设备获取训练文本及训练文本对应的标签数据。
步骤204,通过编码网络对训练文本进行编码,得到训练文本对应的训练编 码序列。
其中,编码网络指的是用于编码的机器学习模块,编码指的是将信息从一种 形式或格式转换为另一种形式或格式的过程。训练编码序列指的是在训练过程 中,服务器通过编码网络对文本进行编码得到的编码结果。文本元素指的是文本 中的字、词等组成文本的元素。
具体地,服务器获取到训练文本后,将训练文本输入编码网络,通过编码网 络对训练文本中各文本元素进行编码,在编码的过程中,需要对各文本元素逐一 进行编码,得到各文本元素对应的编码,各个文本元素对应的编码按照文本元素 在文本中的位置顺序进行排序,组成训练文本对应的训练编码序列。
在一个实施例中,编码网络在进行编码时,服务器首先对训练文本中各文本 元素进行特征映射,将各文本元素映射至特征空间中得到对应的特征表示,然后 对得到的特征表示进行编码得到元素编码特征,如通过BLSTM(Bi-directional Long Short-TermMemory,双向长短期记忆)网络、LSTM(Long Short-Term Memory,长短期记忆网络)网络、CNN(Convolutional Neural Networks,卷积神 经网络)网络对各文本元素的特征表示分别进行编码得到元素编码特征,最后根 据这些元素编码特征得到训练文本对应的训练编码序列。
在一个具体的实施例中,服务器可以通过embedding算法将训练文本中各 个字映射至特征空间中得到对应的特征表示。在另一个具体的实施例中,服务器 可以先对文本进行分词处理,得到文本对应的多个分词,然后通过embedding算 法将训练文本中各个分词映射至特征空间中得到对应的特征表示。分词的方法 例如可以是正向最大匹配法、反向最大匹配法、最短路径分词法、双向最大匹配 法、词义分词法或统计分词法等等。例如,假设训练文本为“今天是星期天”, 则分词处理后得到的分词可以为“今天/是/星期天”。
步骤206,根据训练编码序列及实体识别网络识别训练文本的实体,得到实 体识别结果。
其中,实体识别网络指的是用于实体识别(Named Entity Recognition,NER) 的机器学习模块。实体识别网络可以采用CRF(Conditional Random Field,条 件随机场)网络、LSTM(Long Short-Term Memory,长短期记忆网络)网络、HMM (Hidden Markov Model,隐马尔可夫模型)等。
实体为训练文本中具有特征含义的文本元素,通常为词汇或短语。例如,对 于医疗领域的文本“患者于50余年前出疹后出现阵发性咳嗽、咳痰,不剧,痰 色白粘稠,易咳出,量少,有活动后胸闷气促”,其中,“阵发性”“咳嗽”“咳痰” “不剧”“痰色白”“粘稠”“易咳出”“量少”“胸闷”“气促”等均为实体。
具体地,服务器将训练编码序列输入实体识别网络,通过实体识别网络进行 实体识别,得到实体识别结果,根据实体识别结果,服务器可以确定与训练文本 对应的多个预测实体。
在一个实施例中,实体识别结果可以是用于表征训练文本中各文本元素所 属类别的类别标识,例如,假设实体类型包括两类,分别为人名、组织结构,则 实际的类别数包括五类,分别为B-Person(人名的开始部分)、I-Person(人 名的中间部分)、B-Organization(组织机构的开始部分)、I-Organization(组 织机构的中间部分)、O(非实体信息),训练文本X由文本元素w1、w2、w3组 成,那么对于文本元素w1,可以用向量(1,0,0,0,0)表示该文本元素对应的实 体识别结果,则根据该实体识别结果可以确定w1属于B-Person这一类别。
在另一个实施例中,实体识别结果可以是用于表征训练文本中各文本元素 所属实体类别的概率或者分数,某个类别对应的概率或者分数越大,表示该文本 元素属于该类别的可能性越大,如上面的例子中,对于文本元素w1,实体识别 结果可以1.5(B-Person),0.9(I-Person),0.1(B-Organization),0.08 (I-Organization)and 0.05(O),则根据该实体识别结果可以确定w1属于B- Person这一类别。
步骤208,根据实体识别结果及关系分类网络识别训练文本的实体关系,得 到关系识别结果。
其中,关系分类网络指的是用于对实体之间的关系进行分类以识别实体之 间关系的机器学习模块。关系分类网络例如可以是CNN(Convolutional Neural Networks,卷积神经网络)。
在一个实施例中,根据实体识别结果及关系分类网络识别训练文本的实体 关系,得到关系识别结果包括:根据实体识别结果确定训练文本对应的至少两个 训练实体;根据至少两个训练实体,确定对应的训练实体对;从训练编码序列中 确定训练实体对对应的训练编码段;将训练编码段输入关系分类网络中进行关 系识别,得到训练实体对对应的关系识别结果。
可以理解,实体关系指的是两个实体之间的关系,那么服务器在得到实体识 别结果,可根据实体识别结果,确定与训练文本对应的至少两个预测实体,将这 些预测实体进行配对,然后对实体对之间的关系进行分类识别,得到关系识别结 果。
由于实体之间的关系通常包含在在两个实体间的文字描述中,那么在对实 体对之间的关系进行分类识别,服务器可以从训练编码序列中确定实体对及实 体对中间文本对应的编码,得到实体对对应的编码段,通过该编码段对该实体对 之间的关系进行分类识别,得到关系识别结果。
在一个实施例中,服务器可以将至少两个预测实体中每两个预测实体分别 进行配对,得到多个实体对。在另一个实施例中,由于进行关系识别时,并不是 所有实体之间都存在关系,那么服务器可以首先确定需要一个或多个主实体,然 后将主实体分别就其他实体进行配对,从而得到多个实体对。这里的主实体指的 是需要识别在训练文本中与其存在实体关系的实体。根据不同的应用场景,服务 器确定不同的主实体。例如,当训练文本为药品说明书时,实体关系为药品与其 他实体之间的关系,则主实体为药品名称。又如,当训练文本为疾病诊断文本时, 实体关系为疾病与其他实体之间的关系,则主实体可以为疾病名称。
步骤210,基于实体识别结果、关系识别结果及标签数据联合训练编码网络、 实体识别网络及关系分类网络,以更新编码网络、实体识别网络及关系分类网络。
具体地,标签数据包括实体标签和关系标签,服务器可以根据实体识别结果 与实体标签之间的差异确定第一损失函数、根据关系识别结果与关系标签之间 的差异确定第二损失函数,并按照预设的深度学习优化算法确定第一损失函数 及第二损失函数在每次迭代过程产生的第一下降梯度,叠加第一损失函数的下 降梯度及第二损失函数的第二下降梯度,得到综合下降梯度。深度学习优化算法 具体可以是批量梯度下降(BatchGradient Descent,BGD)、随机梯度下降 (Stochastic Gradient Descent,SGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD),AdaGrad(自适应算法),RMSProp(RootMean Square Prop) 或Adam(Adaptive Moment Estimation)等。服务器将综合下降梯度反向传播 至编码网络、实体识别网络及关系分类网络,以对编码网络、实体识别网络及关 系分类网络对应的网络参数进行更新以实现对编码网络、实体识别网络及关系 分类网络进行联合训练,直至符合预设的训练停止条件时结束当前训练,得到更 新后的编码网络、实体识别网络及关系分类网络。
以随机梯度下降法为例,假设L1和L2分别为第一损失函数和第二损失函数, f1(x,Θadapt1)表示输入为x时,实体识别网络的实际输出值,Θadapt1为实体识别网 络的网络参数,y1为实体识别网络的实体标签值,f2(x,Θadapt2)表示输入为x时, 关系分类网络的实际输出值,Θadapt2为关系分类网络的网络参数,y2为关系分类 网络的关系标签值,Θadapt3为编码网络的网络参数,训练数据集中包含n个训练 样本{x(1),…,x(n)},其中x(i)所对应的实体识别网络的输出目标值为y1 (i),其中x(i)所对应的关系分类网络的输出目标值为y2 (i),则每次迭代所对应的综合下降梯度 为
Figure BDA0002817692150000121
假设随机梯度下降算法的学习率为η,则反向传播后可以将实体识别网络的网络参数更 新为Θadapt1-ηg,将关系分类网络的网络参数更新为Θadapt2-ηg,将编码网络的网络 参数更新为Θadapt3-ηg,并将变更后的网络参数作为当前网络参数继续进行迭代, 直至达到预设的训练停止条件时,结束当前训练。训练停止条件可以是综合损失 值达到预设最小值,或连续预设次数迭代文本处理网络的性能无明显改善等。
步骤212,根据更新后的编码网络和关系识别结果,对训练编码序列进行更 新,并返回根据训练编码序列及实体识别网络识别训练文本的实体的步骤以进 行迭代训练,当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识 别网络及目标关系分类网络。
具体地,服务器将训练样本输入更新后的编码网络,通过更新后的编码网络 对训练样本进行编码,得到编码结果,并将关系识别结果与得到的编码结果进行 融合,以实现对训练编码序列的更新,并返回步骤206以开始第二轮迭代训练, 当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识别网络及目标 关系分类网络。其中,迭代停止条件可以是迭代的次数达到预设次数,该预设次 数可以根据需要进行设定,例如可以设定为3次。得到的目标编码网络、目标实 体识别网络及目标关系分类网络可用于配合识别待处理文本的实体关系。
在一个实施例中,将关系识别结果与得到的编码结果进行融合具体可以是 将关系识别结果与编码结果进行水平拼接。举个例子,假设训练文本Y包括5个 文本元素分别为w1,w2,w3,w4,w5,其中,文本元素w1、w3对应的编码为k 维向量,分别表示为(a1,a2……ak)、(b1,b2……bk),w1、w3对应的关系识别 结果表示向量为j维向量表示为(c1,c2……cj),则分别将(c1,c2……cj) 与(a1,a2……ak)、(b1,b2……bk)进行水平拼接得到k+j维的向量,分别表 示为(a1,a2……ak,c1,c2……cj)以及(b1,b2……bk,c1,c2……cj)。
上述文本处理方法中,通过编码网络对训练文本进行编码,得到训练文本对 应的训练编码序列,根据训练编码序列及实体识别网络识别训练文本的实体,得 到实体识别结果,根据实体识别结果及关系分类网络识别训练文本的实体关系, 得到关系识别结果,基于实体识别结果、关系识别结果及标签数据联合训练编码 网络、实体识别网络及关系分类网络,得到更新后的编码网络、实体识别网络及 关系分类网络,由于进行了联合训练,实体识别网络及关系分类网络可以共享编 码网络的网络参数,那么在训练过程中可以实现实体识别网络及关系分类网络 之间的依赖,从而使得得到的实体识别网络及关系分类网络更加准确,进一步, 通过对编码网络、实体识别网络及关系分类网络进行多轮迭代训练,并且在每一 次迭代的过程中,根据更新后的编码网络和关系识别结果,对训练编码序列进行更新,当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识别网络 及目标关系分类网络,如此可以充分地考虑到实体识别网络及关系分类网络之 间的相关性,进一步提高了实体识别网络及关系分类网络的准确性。
在一个实施例中,在获取训练文本及训练文本对应的标签数据之前,该方法 还包括:对训练文本进行分词处理,得到对应的文本元素集合;将文本元素集合 与实体词典进行匹配,根据匹配结果确定训练文本对应的至少两个第一实体标 签;实体词典是根据预先构建的知识图谱得到的;根据知识图谱确定至少两个第 一实体标签对应的实体关系,得到训练文本对应的第一关系标签。
具体地,服务器首先对训练文本进行分词处理,将分词处理得到的词语组成 文本元素集合。分词的方法例如可以是正向最大匹配法、反向最大匹配法、最短 路径分词法、双向最大匹配法、词义分词法或统计分词法等等。例如,假设训练 文本为“今天是星期天”,则分词处理后得到的分词可以为“今天/是/星期天”。
服务器获取预设的实体词典,将文本元素集合中各个文本元素分别与实体 词典中各个实体进行匹配,当文本元素中任意一个词语与实体词典中的实体匹 配成功时,将该文本元素确定为第一实体标签。其中,实体词典是根据预先构建 的知识图谱得到的,将知识图谱中各个节点的实体进行抽取得到实体词典。
在一个实施例中,匹配过程中,可以计算文本元素中的词语与实体词典中实 体之间的相似度,当相似度大于预设阈值时,判断该文本元素和实体匹配成功。 其中,相似度计算可采用字符串相似度或者余弦相似度。在另一个实施例中,服 务器可以首先对文本元素集合中的文本元素进行归一化处理,即将原本元素中 集合中各个词语统一成标准词语表达,例如,将“泄肚”“拉肚子”归一化为 “腹泻”。
进一步,在得到了第一实体标签后,需要确定第一实体标签对应的实体关系, 由于第一实体标签是与实体词典匹配进行确定的,而实体词典是根据知识图谱 得到的,知识图谱中包括了实体词典中对应的实体关系,那么服务器可以将第一 实体标签与知识图谱中的节点进行匹配,从而可以根据知识图谱中实体关系确 定第一实体标签对应的实体关系,得到训练文本对应的第一关系标签。
上述实施例中,通过将文本元素集合与实体词典进行匹配来确定第一实体 标签,可以利用预先构建的知识图谱提取训练文本中的实体及实体关系,将提取 的实体及实体关系作为训练文本的标签数据,从而可以得到少量高质量的标注 数据,减少人工标注的时间成本和人力成本。
在一个实施例中,如图3所示,在获取训练文本之前,上述方法还包括:
步骤302,对训练文本进行分词处理,得到对应的文本元素集合。
步骤304,将文本元素集合与实体词典进行匹配,根据匹配结果确定训练文 本对应的至少两个第一实体标签;实体词典是根据预先构建的知识图谱得到的。
步骤306,根据知识图谱确定至少两个第一实体标签对应的实体关系,得到 训练文本对应的第一关系标签。
步骤308,从文本元素集合中确定候选文本元素,候选文本元素为至少两个 第一实体标签之外的文本元素。
步骤310,计算候选文本元素的词凝固度。
其中,候选文本元素为至少两个第一实体标签之外的文本元素。由于实体词 典是根据预先构建的知识图谱构建的,包含的实体数量有限,对于一些新词,实 体词典可能并不包含,那么可以采用新词发现算法,根据词凝固度来提取实体。 其中,以某个候选文本元素包括A、B、C三个字符为例,词凝固度的计算公式如 下公式(1):
Figure BDA0002817692150000151
其中,P(ABC)为字符A、B、C共现的概率,P(A)为字符A单独出现的概率, P(BC)为字符B、字符C共现的概率,P(AB)为字符A、字符B共现的概率,P(C) 为字符C单独出现的概率,
Figure BDA0002817692150000152
越大,代表A、B、C三个字符 越不独立,即A、B、C三个字符相关性很高,很有可能同时出现,也就是词的内 部凝固度很高,将
Figure BDA0002817692150000153
中的最小值确定为候选文本元素的凝固 度。
步骤312,当计算得到的词凝固度超过预设阈值时,将候选文本元素确定为 训练文本对应的第二实体标签。
具体地,服务器判断候选文本元素的词凝固度是否超过预设阈值,若是,则 确定该候选文本元素为训练文本对应的第二实体标签,如此,可以尽可能全面的 提取出训练文本中的所有实体。
步骤314,获取第二实体标签对应的实体关系,得到训练文本对应的第二关 系标签。
其中,第二实体标签对应的实体关系包括第二实体标签之间的实体关系以 及第二实体标签与第一实体标签之间的实体关系两种类型。
具体地,服务器可以获取预先训练的关系抽取模型,根据第一实体标签及第 二实体标签确定实体标签对,将实体标签对及实体标签对对应的中间文本输入 至该预先训练的关系抽取模型中,得到实体标签对应的关系,作为训练文本对应 的第二关系标签。
上述实施例中,通过实体词典匹配和词凝固计算的方式相结合,可以将训练 文本中的实体尽可能全面的提取出来,使得的得到的训练文本可以更好的用于 训练过程,提高训练的准确性。
在一个实施例中,如图4所示,上述方法还包括:
步骤402,获取候选文本,通过编码网络对候选文本进行编码,得到候选文 本对应的编码序列。
步骤404,根据候选文本对应的编码序列及实体识别网络识别候选文本的实 体,得到候选文本对应的实体识别结果。
步骤406,根据候选文本对应的实体识别结果及关系分类网络识别候选文本 的实体关系,得到候选文本对应的关系识别结果。
其中,候选文本为未标注的文本。服务器在获取到候选文本后,通过编码网 络对候选文本进行编码,得到对应的编码序列,将该编码序列输入实体识别网络 进行实体识别得到候选文本对应的实体识别结果,然后根据实体结果确定的实 体对,从编码序列中确定对应的编码段并输入关系分类网络中以对实体对进行 关系识别,得到关系识别结果。
步骤408,当根据候选文本对应的实体识别结果、候选文本对应的关系识别 结果中的至少一种判定候选文本为不确定性样本时,将候选文本发送至预设终 端。
不确定性样本指的是对于分类而言最不确定的样本,选择最不确定的样本 作为训练样本在于,确定性越小的数据可能是越难进行分类的数据,这些数据往 往是在边界附近的一些数据,本申请实施例中通过主动学习算法能通过观察这 些数据来了解到更多的边界信息。
在主动学习的过程中,服务器根据候选文本对应的候选文本对应的实体识 别结果、候选文本对应的关系识别结果中的至少一种判定候选文本为不确定性 样本时,将该候选文本发送至预设终端,这里的预设终端指的是可以提供人工标 注的终端。具体地,服务器可以采用最小裕度不确定性(The smallest margin uncertainty,SMU)、最小置信不确定性(Least confidence uncertainty,LCU)、 最大裕度不确定性(The largest marginuncertainty,LMU)等不确定性度量 方法作为主动学习选择标注样本的依据。
以最小裕度不确定性为例,最小裕度不确定性反映了最佳与次最佳的概率, 即采用最可能类别的概率减去第二可能类别的概率。这个数值背后的意义在于: 如果最可能类别的概率显著大于第二可能类别的概率的话,那么分类时非常确 定这个数据所属哪一类。同样地,如果最可能类别的概率并不比第二可能类别的 概率大多少的话,那么分类时对这个数据所属哪一类就不那么确定了。
具体地,最小裕度不确定性的计算公式如下公式(2):
φSM(x)=Pθ(y1|x)-Pθ(y2|x) (2)
其中,Pθ(y1|x)为最可能类别的概率,Pθ(y2|x)为第二可能类别的概率。服务 器可以参考该公式(2),对实体识别结果中各个文本元素属于各实体类别的概率 计算最小裕度不确定性,并对关系识别结果中实体对对应的关系属于各关系类 别的概率计算最小裕度不确定性,当计算得到的任意一个最小裕度不确定性小 于预设阈值值,判定该候选文本为不确定性样本。
步骤410,当接收到预设终端返回的候选文本对应的实体标签及关系标签时, 根据所述候选文本继续训练目标编码网络、目标实体识别网络及目标关系分类 网络。
具体地,预设终端对应的用户(例如可以是,专家或权威)对候选文本进行 实体标注和关系标注,该预设终端将实体标注对应的标注结果以及关系标注对 应的标注结果确定为候选文本对应的实体标签和关系标签,将候选文本对应的 实体标签和关系标签发送至服务器,此时,由于候选文本存在对应的标签数据, 可用于对实体识别网络及关系分类网络的有监督训练,那么服务器可以将该候 选文本作为训练样本继续训练目标编码网络、目标实体识别网络及目标关系分 类网络,以对目标编码网络、目标实体识别网络及目标关系分类网络的网络参数 进行更新,当满足训练停止条件时,结束训练对。可以理解的是,随着训练样本 的不断增多,文本处理网络的准确性逐渐收敛。
上述实施例中,通过主动学习的方式,只需要选择不确定性样本进行标注, 不需要对全部样本进行标注,减少了人工标注的人力成本,而且由于不确定样本 通常是靠近分类边界的数据,信息量大,对这些不确定性样本进行人工标注,可 获得高质量的训练样本,通过这些高质量的训练样本进行模型训练,可提高模型 的泛化性能。
在一个实施例中,编码网络包括特征映射层及编码层;训练文本由多个有序 的文本元素组成;通过编码网络对训练文本进行编码,得到训练文本对应的训练 编码序列包括:通过特征映射层对各个文本元素进行特征映射,得到各个文本元 素各自对应的特征表示;将各个特征表示输入编码层,得到各个文本元素各自对 应的元素编码特征;根据各个文本元素各自对应的元素编码特征得到训练文本 对应的训练编码序列。
其中,特征映射指的是将文本元素映射至固定维度的特征空间,得到固定长 度的特征向量,该特征向量即为文本元素对应的特征表示。训练文本的文本元素 可以为组成文本元素的单个字或者是对文本元素进行分词处理得到的分词。
具体地,服务器将各个文本元素输入编码网络的编码层,编码层采用预设的 特征映射算法将文本元素映射至固定维度的特征空间中,得到各个文本元素各 自对应的特征表示,在进行特征映射时,服务器可以采用embedding方法对文 本元素进行特征映射。embedding方法的主要目的是对(稀疏)特征进行降维, 它降维的方式可以类比为一个全连接层(没有激活函数),通过embedding层 的权重矩阵计算来降低维度,即可以将大型稀疏向量转换为保留语义关系的低 维空间,因此服务器可以将文本元素映射至固定维度的特征空间得到特征向量, 实现对文本元素的特征提取。
在得到各个文本元素各自对应的特征表示后,服务将各个文本元素各自对 应的特征表示输入编码层,通过编码层对各个特征表示进行编码,得到各个文本 元素各自对应的元素编码特征。编码层具体可采用BLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆)网络、LSTM(Long Short-Term Memory, 长短期记忆网络)网络、CNN(Convolutional Neural Networks,卷积神经网 络)等网络结构。
在得到各个文本元素对应的元素编码特征后,将各个元素编码特征按照对 应的文本元素在训练文本中的顺序组成编码序列,得到训练文本对应的训练编 码序列。
在一个实施例中,将各个特征表示输入编码层,得到各个文本元素各自对应 的元素编码特征包括:根据各个特征表示对应的文本元素的先后顺序,按照前向 方向对各个特征表示进行编码,得到各个文本元素各自对应的前向编码特征;根 据各个特征表示对应的文本元素的先后顺序,按照后向方向对各个特征表示进 行编码,得到各个文本元素各自对应的后向编码特征;分别将各个文本元素各自 对应的前向编码特征和后向编码特征进行融合,得到各个文本元素各自对应的 元素编码特征。
具体地,服务器在编码层进行编码时,可以根据各个特征表示对应的文本元 素的先后顺序,按照前向方向对各个特征表示进行编码,得到各个文本元素各自 对应的前面编码特征,得到的前面编码特征包含了训练文本的前向信息。服务器 进一步根据各个所述特征表示对应的文本元素的先后顺序,按照后向方向对各 个特征表示进行编码,得到各个所述文本元素各自对应的后向编码特征,得到的 后向编码特征包含了训练文本的后向信息,服务器进一步将分别将各个所述文 本元素各自对应的前向编码特征和后向编码特征进行融合,得到各个所述文本 元素各自对应的元素编码特征,此时得到的元素编码特征包含了前向信息和后 向信息,可以更好的对文本元素的特征进行表达。其中,融合指的是用一个特征 表达多个特征的过程,融合具体可以是拼接、组合等等。
在一个实施例中,实体识别网络包括解码层和分类层;根据训练编码序列及 实体识别网络识别训练文本的实体,得到实体识别结果包括:在解码层,根据各 个元素编码特征对应的文本元素的先后顺序,对元素编码特征进行解码,得到各 个文本元素各自对应的元素解码特征;在分类层,对各个元素解码特征进行实体 分类处理,得到实体识别结果。
具体地,服务器将各个元素编码特征输入解码层,在解码层中,根据各个元 素编码特征对应的文本元素的先后顺序对元素编码特征进行解码,得到各个文 本元素各自对应的元素解码特征,其中,解码为编码的逆过程。在一个具体的实 施例中,解码层可采用LSTM网络。
在得到元素解码特征后,服务器进一步将元素解码特征输入分类层,在分类 层,对各个元素解码特征进行实体分类处理,得到实体识别结果,根据实体识别 结果可以确定训练文本对应的至少两个预测实体。在一个具体的实施例中,分类 层可采用softmax算法进行分类。
在一个实施例中,关系分类网络包括隐藏层、卷积层及池化层;将训练编码 段输入关系分类网络中进行关系识别,得到训练实体对对应的关系识别结果包 括:将训练编码段输入隐藏层,通过隐藏对训练编码段进行处理,得到对应的第 一中间特征;将第一中间特征输入卷积层,通过卷积层对第一中间特征进行卷积 处理,得到对应的第二中间特征;将第二中间特征输入池化层,通过池化层对第 二中间特征进行池化处理;根据池化处理结果进行实体关系分类,得到关系识别 结果。
具体地,服务器将训练编码段输入隐藏层,通过隐藏层将训练编码段抽象到 另一个维度空间,得到第一中间特征,第一中间特征相比于原始的训练编码段能 够展现更抽象化的特征,从而更好的进行线性划分,便于后续的分类处理。
服务器接着将第一中间特征输入卷积层,通过第卷积层对第一中间特征进 行卷积处理,卷积处理的过程可以理解为特征提取的过程,卷积处理后得到第二 中间特征。
服务器接着将第二中间特征输入池化层,在池化层中,对第二中间特征进行 池化处理,池化处理的目的是对特征进行降维,从而减少分类时的计算量。最大 池化(MaxPooling),平均池化(Average Pooling),使用池化函数来进一步对 卷积操作得到的特征映射结果进行处理。池化会将平面内某未知及其相邻位置 的特征值进行统计汇总。并将汇总后的结果作为这一位置在该平面的值。最大池 化会计算该位置及其相邻矩阵区域内的最大值,并将这个最大值作为该位置的 值,平均池化会计算该位置及其相邻矩阵区域内的平均值,并将这个值作为该位 置的值。使用池化不会造成数据矩阵深度的改变,只会在高度和宽带上降低,达 到降维的目的
最后服务器可以根据池化结果进行实体关系分类,得到实体识别结果。在一 个实施例中,服务器可以将池化结果输入全连接层,通过全连接层实现实体关系 分类,得到关系识别结果。
在一个具体的实施例中,参考图5,示出了一个具体的实施例中文本处理网 络的结构示意图。下面结合图5,对本申请提供的文本处理方法进行具体说明, 本申请实施例提供的文本处理方法包括三轮迭代训练。
1)第一轮训练:
参考图5,训练文本包括w1,w2,w3,w4,w5五个文本元素。服务器首先将训 练文本输入编码网络,编码网络包括输入层、embedding层、编码层。在输入层, 服务器将w1,w2,w3,w4,w5输入embedding层,embedding层通过embedding方 法对w1,w2,w3,w4,w5进行特征映射,分别得到w1,w2,w3,w4,w5对应的特征表 示为e1,e2,e3,e4,e5,服务器接着将特征表示e1,e2,e3,e4,e5输入编码层进行编码得 到各文本元素对应的元素编码特征h1,h2,h3,h4,h5,h1,h2,h3,h4,h5组成元素编码 序列,其中,编码层采用BLSTM网络进行双向编码。BLSTM网络的原理图如图6 所示。
如图6所示,BLSTM网络包括前向编码层和后向编码层,输入为ei-1,ei,ei+1, 前向编码层对输入进行前向编码得到
Figure BDA0002817692150000211
后向编码层进行后向编码得 到
Figure BDA0002817692150000212
Figure BDA0002817692150000213
拼接得到ei-1对应的编码特征为ht-1,将
Figure BDA0002817692150000214
拼接 得到ei对应的编码特征为ht,将
Figure BDA0002817692150000215
拼接得到ei+1对应的编码特征为ht+1
BLSTM网络前向编码层和后向编码层均是采用LSTM网络。对于LSTM网络, 其具体实现如下式(3)-(6):
ft=σ(Wfxt+Ufht-1+bf) (3)
it=σ(Wixt+Uiht-1+bi) (4)
ot=σ(Woxt+Uoht-1+bo) (5)
ct=ft·ct-1+it·σ(Wcxt+Ucht-1+bc) (6)
其中,[Wf,Uf,bf,Wi,Ui,bi,Wo,Uo,bo]均为相应的权重,为LSTM的网络模型参 数;ft为LSTM网络中遗忘门t时刻的输出,σ为sigmod函数,xt为当前时刻输 入,ht-1为t-1时刻LSTM网络的输出;it为LSTM网络中输入门的输出;ot为 LSTM网络中输出门的输出;ct为t时刻的细胞记忆,ct-1为t-1时刻的细胞记忆。
继续参考图5,服务器接着将元素编码序列作为实体识别网络的输入,即 x1,x2,x3,x4,x5。实体识别网络包括解码层和分类层,服务器将x1,x2,x3,x4,x5输入解码层,解码层采用LSTM网络,解码层对x1,x2,x3,x4,x5进行解码处理, 得到元素解码特征y1,y2,y3,y4,y5,进一步将元素解码特征输入softmax层进 行实体分类处理得到实体识别结果,其中FB、FI、FE、O、LU为实体识别结果所 表征的实体类别。
继续参考图5,服务器根据实体识别结果从编码网络输出的元素编码序列中 确定实体对对应的训练编码段,通过CNN网络进行关系分类,得到关系识别结 果,其中,r1、r2、r3为实体对对应的实体关系属于各个关系类别的分数,服 务器基于实体识别结果与实体标签差异、关系识别结果与关系标签之间的差异 联合训练编码网络、实体识别网络及关系分类网络,直至网络收敛时,结束本轮 训练。其中,CNN网络的具体结构如图7所示。
参考图7,CNN网络包括一层隐藏层、一层卷积层,一层池化层,将训练编 码段输入隐藏层,通过隐藏对训练编码段进行处理,得到对应的第一中间特征, 将第一中间特征输入卷积层,通过卷积层对第一中间特征进行卷积处理,得到对 应的第二中间特征,将第二中间特征输入池化层,通过池化层对第二中间特征进 行池化处理,根据池化处理结果进行实体关系分类,得到关系识别结果。
2)第二轮训练:
服务器将第一轮训练得到的编码网络、实体识别网络及关系分类网络作为 当前编码网络、当前实体识别网络及当前关系分类网络,将训练文本输入当前编 码网络,重复第一轮训练的步骤得到的训练编码序列,服务器进一步将r1、r2、 r3输入激活函数层进行归一化处理,将归一化处理后的结果与训练编码序列中 r1、r2、r3对应的实体进行拼接,得到实体识别网络的当前输入x1,x2,x3,x4,x5, 将当前输入解码层进行解码处理,得到元素解码特征y1,y2,y3,y4,y5,进一步 将元素解码特征输入softmax层进行实体分类处理得到实体识别结果,服务器 根据实体识别结果从编码网络输出的元素编码序列中确定实体对对应的训练编 码段,通过CNN网络进行关系分类,得到关系识别结果,其中,r1、r2、r3为 实体对对应的实体关系属于各个关系类别的分数,服务器基于实体识别结果与 实体标签差异、关系识别结果与关系标签之间的差异联合训练编码网络、实体识 别网络及关系分类网络,直至网络收敛时,结束本轮训练。
(3)第三轮训练:
服务器将第二轮训练得到的编码网络、实体识别网络及关系分类网络作为 当前编码网络、当前实体识别网络及当前关系分类网络,并重复第二轮训练的步 骤,直至网络收敛时,结束整个训练流程,得到目标编码网络、目标实体识别网 络及目标关系分类网络。
如图8所示,为本申请的文本处理方法的效果图,该效果图具体示出了训 练得到的目标实体识别网络及目标关系分类网络,与相关技术中单独训练的实 体识别模型和单独训练的关系分类模型在进行实体识别和关系抽取时的准确率 对照。参照图8,示出了本申请的文本处理方法训练得到的目标实体识别网络及 目标关系分类网络在识别疾病类、手术类、标示类、药品类及症状类实体及这些 类型的实体相关的实体关系时,其准确率得到了明显提升。
在一个实施例中,上述文本处理方法还包括:获取待处理文本,通过目标编 码网络对待处理文本进行编码,得到待处理文本对应的编码序列;根据待处理文 本对应的编码序列及目标实体识别网络识别待处理文本的实体,得到待处理文 本对应的实体识别结果;根据实体识别结果及目标关系分类网络识别待处理文 本的实体关系,得到待处理文本对应的关系识别结果;根据待处理文本对应的实 体识别结果及关系识别结果构建知识库。
其中,待处理文本指的是待进行实体识别和关系抽取的文本。服务器获取到 获取待处理文本后,通过目标编码网络对待处理文本进行编码,得到待处理文本 对应的编码序列,根据待处理文本对应的编码序列及目标实体识别网络识别待 处理文本的实体,得到待处理文本对应的实体识别结果,根据实体识别结果及目 标关系分类网络识别待处理文本的实体关系,得到待处理文本对应的关系识别 结果,服务器根据实体识别结果可以确定待处理文本中实体,根据关系识别结果 可以确定待处理文本的实体关系,从而实现对待处理文本的实体识别和关系抽 取。服务器进一步将识别出的实体及实体关系存储至知识库中以构建知识库中。
在一个实施例中,如图9所示,提供了一种知识库的构建方法,可以应用于 如图1所示的应用环境中。其中,服务器和终端均可以单独执行该知识库的构 建方法,服务器和终端也可以协同执行该知识库的构建方法。该知识库的构建方 法具体包括以下步骤:
步骤902,获取待处理文本,通过训练后的目标编码网络对待处理文本进行 编码,得到待处理文本对应的编码序列。
步骤904,根据编码序列及训练后的目标实体识别网络识别待处理文本的实 体,得到实体识别结果。
步骤906,根据实体识别结果及训练后的目标关系分类网络识别待处理文本 的实体关系,得到关系识别结果。
其中,目标编码网络、目标实体识别网络及目标关系分类网络是基于训练文 本进行迭代联合训练得到的;每一次迭代训练,根据前次训练得到的关系分类网 络输出的关系识别结果,更新输入至前次训练得到的实体识别网络中的训练编 码序列。
步骤908,根据实体识别结果及关系识别结果构建知识库。
可以理解,本实施例的实现细节可参考上文实施例中的描述,本申请在此不 赘述。
上述实施例中,在获取待处理文本后,通过训练后的目标编码网络对待处理 文本进行编码,得到待处理文本对应的编码序列,根据编码序列及训练后的目标 实体识别网络识别待处理文本的实体,得到实体识别结果,根据实体识别结果及 训练后的目标关系分类网络识别待处理文本的实体关系,得到关系识别结果,根 据实体识别结果及关系识别结果构建知识库,由于目标编码网络、目标实体识别 网络及目标关系分类网络是基于训练文本进行迭代联合训练得到的,每一次迭 代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新输入至前 次训练得到的实体识别网络中的训练编码序列,在训练过程中,充分考虑了实体 识别网络及关系分类网络的依赖性和相关性,得到的实体识别网络及目标关系 分类网络具有较好的泛化性能,能够对待处理文本中的实体和关系进行准确地识别,使得根据实体识别结果及关系识别结果构建的知识库相较于相关技术中 人工标注方式建立的知识库,准确性得到了明显地提升。
可以理解的是,本申请实施例提供的知识库的构建方法中,目标编码网络、 目标实体识别网络及目标关系分类网络可采用上文任意一个实施例提供的文本 处理方法训练得到,本申请在此不赘述。
在一个实施例中,待处理文本为药品说明书文本;知识库为药品知识库;根 据实体识别结果及训练后的目标关系分类网络识别待处理文本的实体关系,得 到关系识别结果包括:根据实体识别结果确定待处理文本对应的至少两个预测 实体;从至少两个预测实体中确定目标药品名称,将目标药品名称分别与其他各 个预测实体组成预测实体对;从编码序列中确定各个预测实体对各自对应的编 码段;将各个编码段分别输入目标关系分类网络中进行关系识别,得到各个预测 实体对各自对应的关系识别结果。
其中,目标药品名称指的是药品说明书所应用的药品的名称。例如,某个药 品说明书为阿莫西林胶囊的说明书,则目标药品名称为阿莫西林胶囊。
本实施例中,待处理文本为药品说明书,对待处理文本进行实体识别得到的 实体类型包括药品、疾病、症状等等,关系识别主要是识别该药品说明书所应用 的药品与其他实体之间的关系,因此,可以将根据实体识别结果确定的至少两个 预测实体中的目标药品名称确定为主实体,将该主实体分别与其他预测实体组 成实体对,然后从编码序列中确定各个预测实体对各自对应的编码段,将各个编 码段分别输入目标关系分类网络中进行关系识别,得到各个预测实体对各自对 应的关系识别结果,根据关系识别结果可以确定实体对对应的关系类型,关系类 型包括“适应于”、“禁忌于”、“适宜人群”等等。
如下表1所示,为某药品的药品说明书的知识示例。其中,根据适用症对应 的知识可提取实体“细菌性痢疾”、“慢性肠炎”、“肠道感染”及“腹泻”, 根据不良反应对应的知识可提取实体“恶心”、“呕吐”、“眩晕”、“头痛”、 “视力模糊”、“皮肤皲裂”,根据禁忌药物对应的知识可提取实体“强劲筋骨 片”,根据并发症对应的知识可提取实体“受体激动剂”、“低血钾”,根据药 物成分对应的知识可提取实体“蛋白质”、“水解蛋白”。
表1
Figure BDA0002817692150000261
在一个实施例中,上述知识库的构建方法还包括:获取待审核处方,待审核 处方中包括药品名称;根据药品名称从药品知识库中查询对应的目标实体及目 标关系;根据查询到的目标实体及目标关系对待审核处方进行审核,得到审核结 果。
其中,待审核处方指的是待审核准确性的医疗处方,待审核处方中包括药品 名称、药品用量、疾病诊断结果等信息,疾病诊断结果具体包括疾病名称、症状 等。在获取到待审核处方后,可以根据待审核处方中的药品名称从药品知识库中 查询对应的目标实体及目标关系,由于药品对应的目标实体和目标关系是根据 药品说明书得到的,那么药品名称对应的目标实体及目标关系涵盖了药品说明 书的内容,因此可以根据查询到的目标实体及目标关系对待审核处方进行审核, 得到审核结果。例如,可以将待审核处方中的疾病与查询到的适应症实体进行比 对,以审核该处方中的药品是否适用与当前疾病的治疗;还可以将待审核处方中 的药品用量与查询到的药品用量实体进行比对,以审核该处方中的药品用量是 否适用与当前疾病的治疗正确。
本申请还提供一种应用场景,该应用场景应用上述的文本处理方法及知识 库的构建方法。在该应用场景中,需要根据医院的药品清单构建药品知识库,并 根据该药品知识库进行处方审核。在该应用场景中,文本处理方法及知识库的构 建方法的步骤可通过图10A进行示意,下面结合图10A说明文本处理方法及知 识库的构建方法在该应用场景中的应用。
1、获取未标注的医学短句文本,通过新词发现和医学词典进行自动标注, 生成训练数据集。
具体地,对医学短句文本进行分词处理,得到对应的文本元素集合,将文本 元素集合与医学词典进行匹配,根据匹配结果确定医学短句文本对应的至少两 个第一实体标签,其中医学词典是根据预先构建的知识图谱得到的,因此可以根 据知识图谱确定至少两个第一实体标签对应的实体关系,得到医学短句文本对 应的第一关系标签。
进一步,从文本元素集合中确定候选文本元素,候选文本元素为至少两个第 一实体标签之外的文本元素,计算候选文本元素的词凝固度,当计算得到的词凝 固度超过预设阈值时,将候选文本元素确定为医学短句文本对应的第二实体标 签,获取第二实体标签对应的实体关系,得到医学短句文本对应的第二关系标签。
2、通过训练数据集联合训练编码网络、实体识别网络及关系分类网络,编 码网络、实体识别网络及关系分类网络组成文本处理网络。
其中,编码网络包括embedding层、BLSTM网络层;实体识别网络包括LSTM 网络层和softmax分类层;关系分类网络包括隐藏层、卷积层及池化层。
从训练数据集中获取医学短句文本及医学短句文本对应的实体标签和关系 标签,在embedding层,将医学短句文本对各个文本元素进行特征映射,得到各 个文本元素各自对应的特征表示;在BLSTM网络层,根据各个特征表示对应的 文本元素的先后顺序,按照前向方向对各个特征表示进行编码,得到各个文本元 素各自对应的前向编码特征,根据各个特征表示对应的文本元素的先后顺序,按 照后向方向对各个特征表示进行编码,得到各个文本元素各自对应的后向编码 特征,分别将各个文本元素各自对应的前向编码特征和后向编码特征进行融合, 得到各个文本元素各自对应的元素编码特征,根据各个文本元素各自对应的元 素编码特征得到医学短句文本对应的训练编码序列;在LSTM网络层,根据各个 元素编码特征对应的文本元素的先后顺序,对元素编码特征进行解码,得到各个 文本元素各自对应的元素解码特征;在softmax分类层,对各个元素解码特征 进行实体分类处理,得到实体识别结果,根据实体识别结果确定医学短句文本对 应的至少两个训练实体,根据至少两个训练实体,确定对应的训练实体对,从训 练编码序列中确定训练实体对对应的训练编码段,将训练编码段输入关系分类 网络中进行关系识别,得到训练实体对对应的关系识别结果,基于实体识别结果 与实体标签之间的差异、关系识别结果与关系标签之间的差异联合训练编码网 络、实体识别网络及关系分类网络,以更新编码网络、实体识别网络及关系分类 网络,根据更新后的编码网络和关系识别结果,对训练编码序列进行更新,并返 回embedding层的处理步骤以进行迭代训练,当满足迭代停止条件时,得到训 练后的目标编码网络、目标实体识别网络及目标关系分类网络。
3、获取药品清单中各个药品的药品说明书,对各个药品说明书文本进行预 处理,将预处理后的药品说明书文本输入文本处理网络中进行实体识别和关系 识别,得到各个药品说明书对应的实体和关系,根据这些实体和关系构建药品知 识库。
将药品说明书文本进行预处理具体可以是对药品说明书文字进行主语替换、 分句、分词等处理。其中,主语替换指的是将药品说明书指代药品的其他表述替 换为药品名称,例如,将药品说明书中的“该药品”替换为“药品名称”。分句 具体可以是根据说明书文本中的标点符号对药品说明书文本进行切分。预处理 完成后,将得到的药品说明书文本输入目标文本处理网络中,通过文本处理网络 的目标编码网络对药品说明书文本进行编码,得到药品说明书文本对应的编码 序列,根据编码序列及目标实体识别网络识别药品说明书文本的实体,得到实体 识别结果,根据实体识别结果及目标关系分类网络识别药品说明书文本的实体 关系,得到关系识别结果,根据实体识别结果及关系识别结果确定药品说明书对 应的实体和关系,根据实体和关系构建药品知识库。构建的药品知识库可用于处 方审核。
4、通过主动学习算法选择不确定性样本进行人工标注,通过标注的样本继 续训练目标编码网络、目标实体识别网络及目标关系分类网络。
根据药品说明书文本对应的实体识别结果和关系识别结果判断该药品说明 书文本是否为不确定性样本,若是,则将该药品说明书文本发送至药师对应的终 端进行实体和关系标注,在药师返回标注结果后,根据该标注结果更新药品知识 库中该药品说明书对应的实体和关系数据,同时,将该药品说明书文本作为训练 样本继续对目标编码网络、目标实体识别网络及目标关系分类网络进行训练,以 对目标编码网络、目标实体识别网络及目标关系分类网络的网络参数进行更新, 当满足收敛条件时,结束训练。更新后的目标编码网络、目标实体识别网络及目 标关系分类网络,其泛化性能得到了进一步提升。
相对于相关技术中通过人工的方式对药品说明书文本进行实体标注和关系 标注来构建药品知识库相比,该应用场景中结合联合学习和主动学习方式可以 在利用少量人工标注成本的基础上大大提高了知识库构建精度。
图10B为一个实施例中对药品说明书进行人工标注所需工作日与知识库量 级的关系图,由图10可以看出,随着药品知识库量级的不断迭代,文本处理网 络的准确性逐渐收敛,标注所需的时间逐渐减少。
应该理解的是,虽然图1-10的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确 的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执 行。而且,图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些 步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这 些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其 它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种文本处理装置1100,该装置可 以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装 置具体包括:
数据获取模块1102,用于获取训练文本及所述训练文本对应的标签数据;
编码模块1104,用于通过编码网络对所述训练文本进行编码,得到所述训 练文本对应的训练编码序列;
实体识别模块1106,用于根据所述训练编码序列及实体识别网络识别所述 训练文本的实体,得到实体识别结果;
关系识别模块1108,用于根据所述实体识别结果及关系分类网络识别所述 训练文本的实体关系,得到关系识别结果;
联合训练模块1110,用于基于所述实体识别结果、所述关系识别结果及所 述标签数据联合训练所述编码网络、所述实体识别网络及所述关系分类网络,以 更新所述编码网络、所述实体识别网络及所述关系分类网络;
迭代训练模块1112,用于根据更新后的所述编码网络和所述关系识别结果, 对所述训练编码序列进行更新,并返回根据所述训练编码序列及实体识别网络 识别所述训练文本的实体的步骤以进行迭代训练,当满足迭代停止条件时,得到 训练后的目标编码网络、目标实体识别网络及目标关系分类网络;其中,所述目 标编码网络、目标实体识别网络及目标关系分类网络用于配合识别待处理文本 的实体关系。
在一个实施例中,上述装置还包括:标注模块,用于对训练文本进行分词处 理,得到对应的文本元素集合;将文本元素集合与实体词典进行匹配,根据匹配 结果确定训练文本对应的至少两个第一实体标签;实体词典是根据预先构建的 知识图谱得到的;根据知识图谱确定至少两个第一实体标签对应的实体关系,得 到训练文本对应的第一关系标签。
在一个实施例中,标注模块还用于从文本元素集合中确定候选文本元素,候 选文本元素为至少两个第一实体标签之外的文本元素;计算候选文本元素的词 凝固度;当计算得到的词凝固度超过预设阈值时,将候选文本元素确定为训练文 本对应的第二实体标签;获取第二实体标签对应的实体关系,得到训练文本对应 的第二关系标签。
在一个实施例中,上述装置还包括:主动学习模块,用于获取候选文本,通 过编码网络对候选文本进行编码,得到候选文本对应的编码序列;根据候选文本 对应的编码序列及实体识别网络识别候选文本的实体,得到候选文本对应的实 体识别结果;根据候选文本对应的实体识别结果及关系分类网络识别候选文本 的实体关系,得到候选文本对应的关系识别结果;当根据候选文本对应的实体识 别结果、候选文本对应的关系识别结果中的至少一种判定候选文本为不确定性 样本时,将候选文本发送至预设终端;当接收到预设终端返回的候选文本对应的 实体标签及关系标签时,根据候选文本更新训练数据集。
在一个实施例中,编码网络包括特征映射层及编码层;编码模块还用于通过 特征映射层对各个文本元素进行特征映射,得到各个文本元素各自对应的特征 表示;将各个特征表示输入编码层,得到各个文本元素各自对应的元素编码特征; 根据各个文本元素各自对应的元素编码特征得到训练文本对应的训练编码序列。
在一个实施例中,编码模块还用于根据各个特征表示对应的文本元素的先 后顺序,按照前向方向对各个特征表示进行编码,得到各个文本元素各自对应的 前向编码特征;根据各个特征表示对应的文本元素的先后顺序,按照后向方向对 各个特征表示进行编码,得到各个文本元素各自对应的后向编码特征;分别将各 个文本元素各自对应的前向编码特征和后向编码特征进行融合,得到各个文本 元素各自对应的元素编码特征。
在一个实施例中,实体识别网络包括解码层和分类层;实体识别模块还用于 在解码层,根据各个元素编码特征对应的文本元素的先后顺序,对元素编码特征 进行解码,得到各个文本元素各自对应的元素解码特征;在分类层,对各个元素 解码特征进行实体分类处理,得到实体识别结果。
在一个实施例中,实体识别模块还用于根据实体识别结果确定训练文本对 应的至少两个训练实体;根据至少两个训练实体,确定对应的训练实体对;从训 练编码序列中确定训练实体对对应的训练编码段;将训练编码段输入关系分类 网络中进行关系识别,得到训练实体对对应的关系识别结果。
在一个实施例中,关系分类网络包括隐藏层、卷积层及池化层;关系识别模 块还用于将训练编码段输入隐藏层,通过隐藏对训练编码段进行处理,得到对应 的第一中间特征;将第一中间特征输入卷积层,通过卷积层对第一中间特征进行 卷积处理,得到对应的第二中间特征;将第二中间特征输入池化层,通过池化层 对第二中间特征进行池化处理;根据池化处理结果进行实体关系分类,得到关系 识别结果。
在一个实施例中,上述装置还包括:知识库构建模块,用于获取待处理文本, 通过目标编码网络对待处理文本进行编码,得到待处理文本对应的编码序列;根 据待处理文本对应的编码序列及目标实体识别网络识别待处理文本的实体,得 到待处理文本对应的实体识别结果;根据实体识别结果及目标关系分类网络识 别待处理文本的实体关系,得到待处理文本对应的关系识别结果;根据待处理文 本对应的实体识别结果及关系识别结果构建知识库。
上述文本处理装置,通过编码网络对训练文本进行编码,得到训练文本对应 的训练编码序列,根据训练编码序列及实体识别网络识别训练文本的实体,得到 实体识别结果,根据实体识别结果及关系分类网络识别训练文本的实体关系,得 到关系识别结果,基于实体识别结果、关系识别结果及标签数据联合训练编码网 络、实体识别网络及关系分类网络,得到更新后的编码网络、实体识别网络及关 系分类网络,由于进行了联合训练,实体识别网络及关系分类网络可以共享编码 网络的网络参数,那么在训练过程中可以实现实体识别网络及关系分类网络之 间的依赖,从而使得得到的实体识别网络及关系分类网络更加准确,进一步,通 过对编码网络、实体识别网络及关系分类网络进行多轮迭代训练,并且在每一次 迭代的过程中,根据更新后的编码网络和关系识别结果,对训练编码序列进行更 新,当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识别网络及 目标关系分类网络,如此可以充分地考虑到实体识别网络及关系分类网络之间 的相关性,进一步提高了实体识别网络及关系分类网络的准确性。
在一个实施例中,如图12所示,提供了一种知识库的构建装置1200,该装 置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分, 该装置具体包括:
文本获取模块1202,用于获取待处理文本,通过训练后的目标编码网络对 待处理文本进行编码,得到待处理文本对应的编码序列;
实体识别模块1204,用于根据编码序列及训练后的目标实体识别网络识别 待处理文本的实体,得到实体识别结果;
关系识别模块1206,用于根据实体识别结果及训练后的目标关系分类网络 识别待处理文本的实体关系,得到关系识别结果;目标编码网络、目标实体识别 网络及目标关系分类网络是基于训练文本进行迭代联合训练得到的;每一次迭 代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新输入至前 次训练得到的实体识别网络中的训练编码序列;
知识库构建模块1208,用于根据实体识别结果及关系识别结果构建知识库。
在一个实施例中,待处理文本为药品说明书文本;知识库为药品知识库;关 系识别模块还用于根据实体识别结果确定待处理文本对应的至少两个预测实体; 从至少两个预测实体中确定目标药品名称,将目标药品名称分别与其他各个预 测实体组成预测实体对;从编码序列中确定各个预测实体对各自对应的编码段; 将各个编码段分别输入目标关系分类网络中进行关系识别,得到各个预测实体 对各自对应的关系识别结果。
在一个实施例中,上述装置还包括:处方审核模块,用于获取待审核处方, 待审核处方中包括药品名称;根据药品名称从药品知识库中查询对应的目标实 体及目标关系;根据查询到的目标实体及目标关系对待审核处方进行审核,得到 审核结果。
上述知识库的构建装置,在获取待处理文本后,通过训练后的目标编码网络 对待处理文本进行编码,得到待处理文本对应的编码序列,根据编码序列及训练 后的目标实体识别网络识别待处理文本的实体,得到实体识别结果,根据实体识 别结果及训练后的目标关系分类网络识别待处理文本的实体关系,得到关系识 别结果,根据实体识别结果及关系识别结果构建知识库,由于目标编码网络、目 标实体识别网络及目标关系分类网络是基于训练文本进行迭代联合训练得到的, 每一次迭代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新 输入至前次训练得到的实体识别网络中的训练编码序列,在训练过程中,充分考 虑了实体识别网络及关系分类网络的依赖性和相关性,得到的实体识别网络及 目标关系分类网络具有较好的泛化性能,能够对待处理文本中的实体和关系进 行准确地识别,使得根据实体识别结果及关系识别结果构建的知识库相较于相 关技术中人工标注方式建立的知识库,准确性得到了明显地提升。
关于文本处理装置及知识库的构建装置的具体限定可以参见上文中对于文 本处理方法及知识库的构建方法的限定,在此不再赘述。上述文本处理装置及 知识库的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实 现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可 以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各 个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其 内部结构图可以如图13所示。该计算机设备包括通过***总线连接的处理器、 存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该 计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存 储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作 ***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终 端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法 或者知识库的构建方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的 步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该 计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非 易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法 的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、 数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一 种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、 闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形 式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态 随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的 组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技 术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些 都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
获取训练文本及所述训练文本对应的标签数据;
通过编码网络对所述训练文本进行编码,得到所述训练文本对应的训练编码序列;
根据所述训练编码序列及实体识别网络识别所述训练文本的实体,得到实体识别结果;
根据所述实体识别结果及关系分类网络识别所述训练文本的实体关系,得到关系识别结果;
基于所述实体识别结果、所述关系识别结果及所述标签数据联合训练所述编码网络、所述实体识别网络及所述关系分类网络,以更新所述编码网络、所述实体识别网络及所述关系分类网络;
根据更新后的所述编码网络和所述关系识别结果,对所述训练编码序列进行更新,并返回根据所述训练编码序列及实体识别网络识别所述训练文本的实体的步骤以进行迭代训练,当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识别网络及目标关系分类网络;其中,所述目标编码网络、目标实体识别网络及目标关系分类网络用于配合识别待处理文本的实体关系。
2.根据权利要求1所述的方法,其特征在于,在所述获取训练文本及所述训练文本对应的标签数据之前,所述方法还包括:
对所述训练文本进行分词处理,得到对应的文本元素集合;
将所述文本元素集合与实体词典进行匹配,根据匹配结果确定所述训练文本对应的至少两个第一实体标签;所述实体词典是根据预先构建的知识图谱得到的;
根据所述知识图谱确定所述至少两个第一实体标签对应的实体关系,得到所述训练文本对应的第一关系标签。
3.根据权利要求2所述的方法,其特征在于,在所述获取训练文本之前,所述方法还包括:
从所述文本元素集合中确定候选文本元素,所述候选文本元素为所述至少两个第一实体标签之外的文本元素;
计算所述候选文本元素的词凝固度;
当计算得到的词凝固度超过预设阈值时,将所述候选文本元素确定为所述训练文本对应的第二实体标签;
获取所述第二实体标签对应的实体关系,得到所述训练文本对应的第二关系标签。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取候选文本,通过编码网络对所述候选文本进行编码,得到所述候选文本对应的编码序列;
根据所述候选文本对应的编码序列及实体识别网络识别所述候选文本的实体,得到所述候选文本对应的实体识别结果;
根据所述候选文本对应的实体识别结果及关系分类网络识别所述候选文本的实体关系,得到所述候选文本对应的关系识别结果;
当根据所述候选文本对应的实体识别结果、所述候选文本对应的关系识别结果中的至少一种判定所述候选文本为不确定性样本时,将所述候选文本发送至预设终端;
当接收到所述预设终端返回的所述候选文本对应的实体标签及关系标签时,根据所述候选文本继续训练所述目标编码网络、目标实体识别网络及目标关系分类网络。
5.根据权利要求1所述的方法,其特征在于,所述编码网络包括特征映射层及编码层;所述训练文本由多个有序的文本元素组成;所述通过编码网络对所述训练文本进行编码,得到所述训练文本对应的训练编码序列包括:
通过特征映射层对各个所述文本元素进行特征映射,得到各个所述文本元素各自对应的特征表示;
将各个所述特征表示输入所述编码层,得到各个所述文本元素各自对应的元素编码特征;
根据各个所述文本元素各自对应的元素编码特征得到所述训练文本对应的训练编码序列。
6.根据权利要求5所述的方法,其特征在于,所述将各个所述特征表示输入所述编码层,得到各个所述文本元素各自对应的元素编码特征包括:
根据各个所述特征表示对应的文本元素的先后顺序,按照前向方向对各个特征表示进行编码,得到各个所述文本元素各自对应的前向编码特征;
根据各个所述特征表示对应的文本元素的先后顺序,按照后向方向对各个特征表示进行编码,得到各个所述文本元素各自对应的后向编码特征;
分别将各个所述文本元素各自对应的前向编码特征和后向编码特征进行融合,得到各个所述文本元素各自对应的元素编码特征。
7.根据权利要求5所述的方法,其特征在于,所述实体识别网络包括解码层和分类层;所述根据所述训练编码序列及实体识别网络识别所述训练文本的实体,得到实体识别结果包括:
在所述解码层,根据各个所述元素编码特征对应的文本元素的先后顺序,对所述元素编码特征进行解码,得到各个所述文本元素各自对应的元素解码特征;
在所述分类层,对各个所述元素解码特征进行实体分类处理,得到实体识别结果。
8.根据权利要求1所述的方法,其特征在于,所述根据所述实体识别结果及关系分类网络识别所述训练文本的实体关系,得到关系识别结果包括:
根据实体识别结果确定所述训练文本对应的至少两个训练实体;
根据所述至少两个训练实体,确定对应的训练实体对;
从所述训练编码序列中确定所述训练实体对对应的训练编码段;
将所述训练编码段输入关系分类网络中进行关系识别,得到所述训练实体对对应的关系识别结果。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述方法还包括:
获取待处理文本,通过所述目标编码网络对所述待处理文本进行编码,得到所述待处理文本对应的编码序列;
根据所述待处理文本对应的编码序列及所述目标实体识别网络识别所述待处理文本的实体,得到所述待处理文本对应的实体识别结果;
根据所述实体识别结果及所述目标关系分类网络识别所述待处理文本的实体关系,得到所述待处理文本对应的关系识别结果;
根据所述待处理文本对应的实体识别结果及关系识别结果构建知识库。
10.一种知识库的构建方法,其特征在于,所述方法包括:
获取待处理文本,通过训练后的目标编码网络对所述待处理文本进行编码,得到所述待处理文本对应的编码序列;
根据所述编码序列及训练后的目标实体识别网络识别所述待处理文本的实体,得到实体识别结果;
根据所述实体识别结果及训练后的目标关系分类网络识别所述待处理文本的实体关系,得到关系识别结果;
所述目标编码网络、所述目标实体识别网络及所述目标关系分类网络是基于训练文本进行迭代联合训练得到的;每一次迭代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新输入至前次训练得到的实体识别网络中的训练编码序列;
根据所述实体识别结果及所述关系识别结果构建知识库。
11.根据权利要求10所述的方法,其特征在于,所述待处理文本为药品说明书文本;所述知识库为药品知识库;所述根据所述实体识别结果及训练后的目标关系分类网络识别所述待处理文本的实体关系,得到关系识别结果包括:
根据实体识别结果确定所述待处理文本对应的至少两个预测实体;
从所述至少两个预测实体中确定目标药品名称,将所述目标药品名称分别与其他各个预测实体组成预测实体对;
从所述编码序列中确定各个所述预测实体对各自对应的编码段;
将各个所述编码段分别输入目标关系分类网络中进行关系识别,得到各个所述预测实体对各自对应的关系识别结果。
12.一种文本处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取训练文本及所述训练文本对应的标签数据;
编码模块,用于通过编码网络对所述训练文本进行编码,得到所述训练文本对应的训练编码序列;
实体识别模块,用于根据所述训练编码序列及实体识别网络识别所述训练文本的实体,得到实体识别结果;
关系识别模块,用于根据所述实体识别结果及关系分类网络识别所述训练文本的实体关系,得到关系识别结果;
联合训练模块,用于基于所述实体识别结果、所述关系识别结果及所述标签数据联合训练所述编码网络、所述实体识别网络及所述关系分类网络,以更新所述编码网络、所述实体识别网络及所述关系分类网络;
迭代训练模块,用于根据更新后的所述编码网络和所述关系识别结果,对所述训练编码序列进行更新,并返回根据所述训练编码序列及实体识别网络识别所述训练文本的实体的步骤以进行迭代训练,当满足迭代停止条件时,得到训练后的目标编码网络、目标实体识别网络及目标关系分类网络;其中,所述目标编码网络、目标实体识别网络及目标关系分类网络用于配合识别待处理文本的实体关系。
13.一种知识库的构建装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理文本,通过训练后的目标编码网络对所述待处理文本进行编码,得到所述待处理文本对应的编码序列;
实体识别模块,用于根据所述编码序列及训练后的目标实体识别网络识别所述待处理文本的实体,得到实体识别结果;
关系识别模块,用于根据所述实体识别结果及训练后的目标关系分类网络识别所述待处理文本的实体关系,得到关系识别结果;所述目标编码网络、所述目标实体识别网络及所述目标关系分类网络是基于训练文本进行迭代联合训练得到的;每一次迭代训练,根据前次训练得到的关系分类网络输出的关系识别结果,更新输入至前次训练得到的实体识别网络中的训练编码序列;
知识库构建模块,用于根据所述实体识别结果及所述关系识别结果构建知识库。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202011403298.2A 2020-12-04 2020-12-04 文本处理、知识库的构建方法、装置和存储介质 Pending CN112380867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011403298.2A CN112380867A (zh) 2020-12-04 2020-12-04 文本处理、知识库的构建方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011403298.2A CN112380867A (zh) 2020-12-04 2020-12-04 文本处理、知识库的构建方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112380867A true CN112380867A (zh) 2021-02-19

Family

ID=74589422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011403298.2A Pending CN112380867A (zh) 2020-12-04 2020-12-04 文本处理、知识库的构建方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112380867A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926665A (zh) * 2021-03-02 2021-06-08 安徽七天教育科技有限公司 一种基于领域自适应的文本行识别***以及使用方法
CN112949307A (zh) * 2021-02-25 2021-06-11 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN114298043A (zh) * 2021-12-24 2022-04-08 厦门快商通科技股份有限公司 基于联合学习的实体标准化方法、装置、设备及可读介质
US20220351067A1 (en) * 2021-04-29 2022-11-03 International Business Machines Corporation Predictive performance on slices via active learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949307A (zh) * 2021-02-25 2021-06-11 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN112926665A (zh) * 2021-03-02 2021-06-08 安徽七天教育科技有限公司 一种基于领域自适应的文本行识别***以及使用方法
US20220351067A1 (en) * 2021-04-29 2022-11-03 International Business Machines Corporation Predictive performance on slices via active learning
CN114298043A (zh) * 2021-12-24 2022-04-08 厦门快商通科技股份有限公司 基于联合学习的实体标准化方法、装置、设备及可读介质

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及***
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
CN112380867A (zh) 文本处理、知识库的构建方法、装置和存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111444715B (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
JP7315065B2 (ja) 質問生成装置、質問生成方法及びプログラム
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN111881292B (zh) 一种文本分类方法及装置
CN114281931A (zh) 文本匹配方法、装置、设备、介质及计算机程序产品
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别***及方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
CN114266905A (zh) 基于Transformer结构的图像描述生成模型方法、装置和计算机设备
CN112035627B (zh) 自动问答方法、装置、设备及存储介质
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN116956925A (zh) 电子病历命名实体识别方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038818

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination