CN117034939A

CN117034939A - 融合字典知识的命名实体识别方法以及相关设备

Info

Publication number: CN117034939A
Application number: CN202311049311.2A
Authority: CN
Inventors: 马龙; 蒋佳惟; 孙泽烨
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-10

Abstract

本申请涉及自然语言处理技术领域以及数字医疗领域，提供了一种融合字典知识的命名实体识别方法以及相关设备，该命名实体识别方法在待识别文本中匹配出命名实体字典中存在的目标命名实体以及目标命名实体对应的所有目标实体类型，根据目标实体类型对应的所有目标实体类型对待识别文本进行编码处理得到编码向量序列，基于该编码向量序列得到待识别文本的命名实体标签，能够融合命名实体字典中命名实体与实体类型之间对应关系的知识，在新涌现命名实体以及新涌现的命名实体使同一文本片段将被赋予多种实体类型时，只需要更新命名实体字典，不需要重新训练模型即可实现对新涌现命名实体的识别。

Description

融合字典知识的命名实体识别方法以及相关设备

技术领域

本申请涉及自然语言处理领域以及数字医疗领域，尤其涉及一种融合字典知识的命名实体识别方法以及相关设备。

背景技术

命名实体识别是自然语言处理领域中的一个基础任务，在给定的文本中提取出具有表征特定含义的文本片段，例如医疗领域中的人名、疾病名、医药名、医疗机构名等。

由于命名实体识别的特性，任意的文本片段都可能成为一个命名实体。在当前时间点，某一文本片段是一个普通短语，而在未来的时间里，该文本片段可能成为用于表征特定含义的命名实体，甚至可能被赋予多种实体类型，这种情况在处理医疗文本时尤为多见。

针对新涌现命名实体以及新涌现的命名实体使同一文本片段将被赋予多种实体类型的情况，现有方法大多都是重新训练模型，费时费力。

发明内容

本申请实施例的主要目的在于提出一种融合字典知识的命名实体识别方法、装置、电子设备及计算机可读存储介质，能够在不重新训练模型的情况下，识别新涌现的命名实体。

为实现上述目的，本申请实施例的第一方面提出了一种融合字典知识的命名实体识别方法，所述方法包括：

获取待识别文本；

获取命名实体字典，所述命名实体字典包括多个命名实体以及每个所述命名实体对应的实体类型；

对所述命名实体字典所包括的所述命名实体和所述待识别文本进行字符串匹配，得到所述待识别文本在所述命名实体字典中存在的所有目标命名实体；

根据所述目标命名实体从所述命名实体字典所包括的所述实体类型中获取与所述目标命名实体对应的所有目标实体类型；

将所述待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列；

根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息；

将所述目标编码信息输入至第二编码网络得到所述待识别文本对应的第二编码向量序列；

基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息，包括：

针对是否属于命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第一编码信息；

针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，其中，所述第二编码信息的长度与所述目标实体类型的数量有关；

根据所述第一编码信息和所述第二编码信息得到所述待识别文本对应的目标编码信息。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述第二编码信息包括第三编码信息和第四编码信息，所述针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，包括：

针对是否属于所述目标实体类型的命名实体的开始字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的所述第三编码信息；

针对是否属于所述目标实体类型的命名实体的内部字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的所述第四编码信息。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签，包括：

对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列；

对所述输出向量序列进行线性转换得到K维的目标输出向量，所述K为命名实体标签的数量；

对所述目标输出向量进行归一化处理得到所述待识别文本对应的多个所述命名实体标签。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列，包括：

根据所述第一编码向量序列和所述第二编码向量序列的向量维度确定所述第一编码向量序列中各向量对应的第一权重参数和所述第二编码向量序列中各向量对应的第二权重参数；

基于所述第一权重参数和所述第二权重参数对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述根据所述第一编码向量序列和所述第二编码向量序列的向量维度确定所述第一编码向量序列中各向量对应的第一权重参数和所述第二编码向量序列中各向量对应的第二权重参数，包括：

将所述第一编码向量序列和所述第二编码向量序列输入至预设的MOE网络，以使所述MOE网络根据所述第一编码向量序列和所述第二编码向量序列的向量维度得到所述第一编码向量序列中各向量对应的第一权重参数；

根据所述第一权重参数确定所述第二编码向量序列中各向量对应的第二权重参数。

根据本申请一些实施例提供的融合字典知识的命名实体识别方法，所述方法还包括：

获取命名实体与实体类型的对应关系；

基于所述命名实体与所述实体类型的对应关系更新命名实体字典。

为实现上述目的，本申请实施例的第二方面提出了一种融合字典知识的命名实体识别装置，所述装置包括：

第一获取模块，用于获取待识别文本；

第二获取模块，用于获取命名实体字典，所述命名实体字典包括多个命名实体以及每个所述命名实体对应的实体类型；

字符串匹配模块，用于对所述命名实体字典所包括的所述命名实体和所述待识别文本进行字符串匹配，得到所述待识别文本在所述命名实体字典中存在的所有目标命名实体；

第三获取模块，用于根据所述目标命名实体从所述命名实体字典所包括的所述实体类型中获取与所述目标命名实体对应的所有目标实体类型；

第一编码网络模块，用于将所述待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列；

字符编码模块，用于根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息；

第二编码网络模块，用于将所述目标编码信息输入至第二编码网络得到所述待识别文本对应的第二编码向量序列；

命名实体识别模块，用于基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现上述第一方面所述的方法。

本申请提出一种融合字典知识的命名实体识别方法、装置、电子设备以及计算机可读存储介质，该方法获取待识别文本以及包括多个命名实体以及每个命名实体对应的多个实体类型的命名实体字典，之后对命名实体字典所包括的命名实体和待识别文本进行字符串匹配，得到待识别文本在所述命名实体字典中存在的所有目标命名实体，再根据目标命名实体从命名实体字典所包括的实体类型中获取与目标命名实体对应的所有目标实体类型，一方面，将待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列，另一方面，根据目标命名实体对应的所有目标实体类型对待识别文本进行编码处理，得到待识别文本对应的目标编码信息，之后将目标编码信息输入至第二编码网络得到待识别文本对应的第二编码向量序列，最后基于第一编码向量序列和第二编码向量序列确定待识别文本对应的多个命名实体标签。本申请在待识别文本中匹配出命名实体字典中存在的目标命名实体以及目标命名实体对应的所有目标实体类型，根据目标实体类型对应的所有目标实体类型对待识别文本进行编码处理得到编码向量序列，基于该编码向量序列得到待识别文本的命名实体标签，能够融合命名实体字典中命名实体与实体类型之间对应关系的知识，在新涌现命名实体以及新涌现的命名实体使同一文本片段将被赋予多种实体类型时，只需要更新命名实体字典，不需要重新训练模型即可实现对新涌现命名实体的识别。

本申请提供的融合字典知识的命名实体识别方法可以应用于数字医疗领域中，在医疗应用场景中，待识别文本可以是为医疗文本，所述医疗文本可以是医疗电子记录(Electronic Healthcare Record)，电子化的个人健康记录，包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。通过命名实体识别方法可以从医疗文本识别出疾病、症状、药物、手术过程、医疗器械等实体。针对新涌现的命名实体以及新涌现的命名实体使同一文本片段将被赋予多种实体类型的情况，通过融合命名实体字典中命名实体与实体类型之间对应关系的知识，在不重新训练模型的情况下实现对新的命名实体的识别，能够节省人力物力，针对医疗领域中新命名实体出现频率快的特点，该方法能够极大缩短命名实体识别对新涌现的命名实体的适应时间，能够更好地处理一个命名实体对应有多种实体类型的识别问题，为医学领域的数据分析和决策提供有力的支持。

附图说明

图1是本申请实施例提供的融合字典知识的命名实体识别方法的流程示意图；

图2是图1中步骤S160的子步骤流程示意图；

图3是图2中步骤S220的子步骤流程示意图；

图4是图1中步骤S180的子步骤流程示意图；

图5是图4中步骤S410的子步骤流程示意图；

图6是图5中步骤S510的子步骤流程示意图；

图7是本申请实施例提供的融合字典知识的命名实体识别方法的流程示意图；

图8是本申请实施例提供的融合字典知识的命名实体识别方法的流程示意图；

图9是本申请实施例提供的融合字典知识的命名实体识别装置的结构示意图；

图10是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

命名实体(Named Entity)是指在自然语言文本中具有特定意义并且可以被标识的实体，如人名、地名、组织机构名、日期、时间、货币、产品等。命名实体识别(Named EntityRecognition，NER)是自然语言处理中的一项常见任务，旨在从给定的文本中自动识别和标注出命名实体。

基于此，本申请实施例提供了一种融合字典知识的命名实体识别方法、装置、电子设备及计算机可读存储介质，能够在不重新训练模型的情况下，识别新涌现的命名实体。

首先描述本申请实施例中的融合字典知识的命名实体识别方法：

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的融合字典知识的命名实体识别方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现融合字典知识的命名实体识别方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

请参见图1，图1示出了本申请实施例提供的一种融合字典知识的命名实体识别方法的流程示意图，如图1所示，该融合字典知识的命名实体识别方法包括但不限于步骤S110至步骤S180。

步骤S110，获取待识别文本。

可以理解的是，待识别文本可以表示为长度n的序列X＝{x₁,x₂,x₃,...,x_n}，示例性的，对应待识别文本“我想看张某某”，可以表示为长度6的序列{“我”，“想”，“看”，“张”，“某”，“某”}。

步骤S120，获取命名实体字典，所述命名实体字典包括多个命名实体以及每个所述命名实体对应的实体类型。

示例性的，采用命名实体字典进行外部知识的存储，其表示形式可以为{实体名称：[实体类型1，实体类型2]}，以命名实体“张某某”为例，对应有人名、书名、电影名的实体类型，因此，该命名实体在命名实体字段中的存储形式可以为{张某某：[人名、书名、电影名]}。

在一个实施例中，在获取命名实体字典之前，所述方法还包括：

获取命名实体与实体类型之间的多个对应关系；

根据所述命名实体与所述实体类型之间的多个对应关系构建命名实体字典。

应能理解，在获取命名实体字典之前，通过获取新涌现的命名实体以及命名实体对应的实体类型，根据获取得到的命名实体与实体类型之间的对应关系构建命名实体字典，在命名实体识别时融合该命名实体字典的知识，实现对待识别文本的命名实体识别，能够在不重新训练模型的情况下，识别新的命名实体。

步骤S130，对所述命名实体字典所包括的所述命名实体和所述待识别文本进行字符串匹配，得到所述待识别文本在所述命名实体字典中存在的所有目标命名实体。

应能理解，针对命名实体字典所包括的命名实体，依次与待识别文本进行字符串匹配，得到待识别文本在命名实体字典中存在的所有目标命名实体，例如，命名实体字典中存在有“张某某”的命名实体，且该命名实体在命名实体字典中的表示形式为{张某某：[人名、书名、电影名]}，则对于待识别文本“我想看张某某”，则通过字符串匹配方式可以确定待识别文本对应有目标命名实体“张某某”。

在一个具体实施例中，当在待识别文本中匹配得到的命名实体出现实体重叠，将实体长度最长的命名实体作为目标命名实体。

可以理解的是，当出现实体重叠现象时，表征一个总的文本片段可以被划分为多个命名实体，由于长度较长的试题更加符合自然语言表达，因此选择保留长度更长的命名实体作为目标命名实体，例如对于实体“某某市第一人民医院”，可以拆分成“某某市”和“第一人民医院”两个实体，然而从语言统计学的角度，“某某市第一人民医院”作为实体更长，也更能代表描述的目标命名实体。

步骤S140，根据所述目标命名实体从所述命名实体字典所包括的所述实体类型中获取与所述目标命名实体对应的所有目标实体类型。

应能理解，在确定待识别文本中包括的所有目标命名实体之后，即可根据目标命名实体从命名实体字典所包括的实体类型中获取与目标命名实体对应的所有目标实体类型，从而得到待识别文本中的每个目标命名实体都具备哪些实体类型。例如，命名实体字典包含有{张某某：[人名、书名、电影名]}等命名实体和实体类型之间的对应关系，而从待识别文本中匹配出目标命名实体“张某某”之后，根据目标命名实体“张某某”即可从命名实体字典所包括的实体类型中获取与目标命名实体“张某某”对应的所有目标实体类型：{人名、书名、电影名}。

步骤S150，将所述待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列。

应能理解，参见图8，图8示出了本申请另一实施例提供的一种融合字典知识的命名实体识别方法的流程示意图，如图8所示，对于一个待识别文本，其表示为长度n的序列X＝{x₁,x₂,x₃,...,x_n}，将该文本序列输入至第一编码网络，如Transformer-based的编码器，则可以得到与该文本序列同样长度的第一编码向量序列V_put＝{v₁,v₂,v₃,...,v_n}，其中，第一编码向量序列中的每个向量与待识别文本中的每个字符一一对应。

步骤S160，根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息。

可以理解的是，如图8所示，在利用第一编码网络对待识别文本进行编码处理之外，还根据目标命名实体对应的所有目标实体类型对待识别文本进行编码处理，得到待识别文本对应的目标编码信息，通过字典匹配编码后得到的目标编码信息融合有命名实体字典的知识信息，基于该目标编码信息进行相关计算处理即可得到命名实体标签，能够在不重新训练模型的情况下识别出新的命名实体，且当待识别文本中的目标命名实体对应有多个目标实体类型时，根据目标命名实体对应的所有目标实体类型对待识别文本进行编码处理，能够融合命名实体字典中目标命名实体与多个目标实体类型之间对应关系的知识，更好地处理一个命名实体对应有多个实体类型的识别问题。

在一些实施例中，参见图2，图2示出了图1中步骤S160的子步骤流程示意图，如图2所示，所述根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息，包括但不限于步骤S210、步骤S220和步骤S230。

步骤S210，针对是否属于命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第一编码信息。

需要说明的是，对于不属于命名实体的字符，其命名实体标签可以是BIO序列标注法中的标签“O”，表征该字符为非名词短语，即不属于命名实体。因此，针对是否属于命名实体的字符，对待识别文本中的所有字符进行编码处理，具体可以是将待识别文本中不属于命名实体的字符编码为1，表征该字符应具有标签“O”；将待识别文本中属于命名实体的字符编码为1，表征该字符不应具有标签“O”。

示例性的，对于待识别文本“我想看张某某”，其中，“我”、“想”、“看”不属于任何命名实体的字符，且可以被编码为1，而“张”、“某”、“某”属于{人名、书名、电影名}实体类型的命名实体“张某某”中的字符，其可以被编码为0，因此可以确定待识别文本中所有字符对应的第一编码信息，则字符“我”、“想”、“看”、“张”、“某”、“某”分别对应的第一编码信息为{1}、{1}、{1}、{0}、{0}、{0}。

步骤S220，针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，其中，所述第二编码信息的长度与所述目标实体类型的数量有关。

还需要说明的是，针对是否属于目标实体类型的命名实体的字符，对待识别文本中的所有字符进行编码处理，具体可以是将待识别文本中不属于目标实体类型的命名实体的字符编码为0，表征该字符不应具有目标实体类型的命名实体标签，将待识别文本中属于目标实体类型的命名实体的字符编码为1，表征该字符应具有目标实体类型的命名实体标签。例如，对于{人名}目标实体类型，命名实体标签可以记为“PER”，将待识别文本中不属于{人名}目标实体类型的命名实体的字符编码为0，表征该字符不应具有命名实体标签“PER”，将待识别文本中属于{人名}目标实体类型的命名实体的字符编码为1，表征该字符应具有命名实体标签“PER”。

需要说明的是，第二编码信息的长度与目标实体类型的数量有关。例如，待识别文本中包含有2个目标命名实体{A、B}，且每个目标命名实体对应有2个目标实体类型{人名、地名}和{书名、电影名}，一共有4个目标实体类型，假设将待识别文本中属于目标实体类型的命名实体的字符编码为1，将待识别文本中不属于目标实体类型的命名实体的字符编码为0，则待识别文本中不属于4个目标实体类型{人名、地名、书名、电影名}的字符{C}，其对应的第二编码信息应为长度4的编码序列{0000}，该编码序列中的编码分别表征字符{C}不属于{人名、地名、书名、电影名}实体类型的命名实体的字符。

示例性的，对于待识别文本“我想看张某某”，包括“张某某”1个目标命名实体，且“张某某”对应有{人名、书名、电影名}3个目标实体类型，需要根据每个目标实体类型对待识别文本进行编码，具体的，将{人名}目标实体类型记为“PER”标签，将{书名}目标实体类型记为“BOOK”标签，将{电影名}目标实体类型记为“MOVIE”标签，由于“我”、“想”、“看”不属于{人名、书名、电影名}这三个目标实体类型的命名实体的字符，其在标签“PER”、“BOOK”、“MOVIE”的位置上都可以被编码为0，即“我”、“想”、“看”对应的第二编码信息都为{000}，表征该字符不应具有命名实体标签“PER”、“BOOK”和“MOVIE”；而“张”、“某”、“某”属于{人名、书名、电影名}实体类型的命名实体“张某某”中的字符，其在标签“PER”、“BOOK”、“MOVIE”的位置上都可以被编码为1，即“张”、“某”、“某”对应的第二编码信息都为{111}，表征该字符应具有命名实体标签“PER”、“BOOK”和“MOVIE”。

还需要说明的是，当所有目标命名实体对应的目标实体类型出现重复时，需要对目标实体类型进行去重处理后，再对待识别文本中的所有字符进行编码处理，以减少计算量和编码长度。

在一些实施例中，参见图3，图3示出了图2中步骤S220的子步骤流程示意图，如图3所示，所述第二编码信息包括第三编码信息和第四编码信息，所述针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，包括但不限于步骤S310和步骤S320。

步骤S310，针对是否属于所述目标实体类型的命名实体的开始字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的所述第三编码信息。

步骤S320，针对是否属于所述目标实体类型的命名实体的内部字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的所述第四编码信息。

可以理解的是，在命名实体识别中常用BIO序列标记法进行命名实体标签标注，在BIO序列标记法中，常用的标记包括用于表示实体的开始字符的标签“B”、用于表示实体的内部字符的标签“I”和用于表示非实体部分的标签“O”，对于连续的命名实体，除第一个字符使用“B”标记外，其他字符都使用“I”标记。因此，在对待识别文本中的所有字符进行编码处理的过程中，针对是否属于目标实体类型的命名实体的开始字符或内部字符对待识别文本中的所有字符进行编码处理，得到待识别文本中的所有字符的第三编码信息和第四编码信息，使得编码信息不仅融合有命名实体字典中命名实体与实体类型之间对应关系的知识，还融合有字符是否属于命名实体的开始字符或内部字符的知识，能够提高识别命名实体的准确性。

示例性的，对于待识别文本“我想看张某某”，包括“张某某”1个目标命名实体，且“张某某”对应有{人名、书名、电影名}3个目标实体类型，需要根据每个目标实体类型对待识别文本进行编码，如表1所示，对于{人名}目标实体类型，“B-PER”表征属于{人名}目标实体类型的命名实体的开始字符，“I-PER”表征属于{人名}目标实体类型的命名实体的内部字符；对于{书名}目标实体类型，“B-BOOK”表征属于{书名}目标实体类型的命名实体的开始字符，“I-BOOK”表征属于{书名}目标实体类型的命名实体的内部字符；对于{电影名}目标实体类型，“B-MOVIE”表征属于{电影名}目标实体类型的命名实体的开始字符，“I-MOVIE”表征属于{电影名}目标实体类型的命名实体的内部字符。由于“我”、“想”、“看”不属于{人名、书名、电影名}这三个目标实体类型的命名实体的字符，其在标签“B-PER”、“I-PER”、“B-BOOK”、“I-BOOK”、“B-MOVIE”、“I-MOVIE”的位置上都可以被编码为0，即“我”、“想”、“看”对应的第二编码信息都为{000000}；而字符“张”属于{人名、书名、电影名}实体类型的命名实体“张某某”中的开始字符，其在标签“B-PER”、“B-BOOK”、“B-MOVIE”的位置上都被编码为1，其在标签“I-PER”、“I-BOOK”、“I-MOVIE”的位置上则都被编码为0，因此字符“张”对应有编码信息{0101010}；而字符“某”、“某”属于{人名、书名、电影名}实体类型的命名实体“张某某”中的内部字符，其在标签“B-PER”、“B-BOOK”、“B-MOVIE”的位置上都被编码为0，其在标签“I-PER”、“I-BOOK”、“I-MOVIE”、的位置上则都被编码为1，两个字符“某”对应有编码信息{0010101}。

表1

	O	B-PER	I-PER	B-BOOK	I-BOOK	B-MOVIE	I-MOVIE
								我	1	0	0	0	0	0	0
想	1	0	0	0	0	0	0
								看	1	0	0	0	0	0	0
张	0	1	0	1	0	1	0
								某	0	0	1	0	1	0	1
某	0	0	1	0	1	0	1

上述实施例描述了利用BIO序列标注法对待识别文本进行编码的技术方案，需要说明的是，还可以利用BIOES序列标注法对待识别文本进行编码。在BIOES序列标注法中，常用的标记包括用于表示实体的开始字符的标签“B”、用于表示实体的中间字符的标签“I”、用于表示实体的结束字符“E”、用于表示非实体部分的标签“O”以及用于表征该单一字符为一个实体的“S”，即可以在是否属于命名实体的字符、是否属于目标实体类型的命名实体的开始字符、是否属于目标实体类型的命名实体的中间字符，是否属于目标实体类型的命名实体的结束字符以及是否属于目标类型的命名实体的单一字符等层面对待识别文本中的所有字符进行编码处理得到目标编码信息。

步骤S230，根据所述第一编码信息和所述第二编码信息得到所述待识别文本对应的目标编码信息。

可以理解的是，在字典匹配编码中，针对待识别文本中的字符是否属于命名实体的字符，对待识别文本中的所有字符进行编码处理得到所有字符对应的第一编码信息，针对待识别文本中的字符是否属于目标实体类型的命名实体的字符，对待识别文本中的所有字符进行编码处理得到所有字符对应的第二编码信息，其中，第二编码信息的长度与目标实体类型的数量有关，从而根据第一编码信息和第二编码信息得到待识别文本的目标编码信息。具体的，针对待识别文本中每个字符，对第一编码信息和第二编码信息进行拼接得到所有字符对应的目标编码信息。目标编码信息携带有命名实体字典中命名实体与实体类型之间对应关系的知识，通过融合命名实体字典的知识，能够在新涌现实体以及新涌现的命名实体使文本片段将被赋予多种实体类型的情况下，不重新训练模型即可识别出新的命名实体，以及更好地处理一个命名实体对应多个实体类型的识别问题。

在一些实施例中，参见图7，图7示出了本申请另一实施例提供的一种融合字典知识的命名实体识别方法，如图7所示，所述方法还包括步骤S710和步骤S720。

步骤S710，获取命名实体与实体类型的对应关系。

步骤S720，基于所述命名实体与所述实体类型的对应关系更新命名实体字典。

应能理解，通过获取命名实体与实体类型的对应关系并以此更新命名实体字典，在命名实体识别时，即可融合更新知识后的命名实体字典对新涌现的命名实体进行识别，相较于重新训练模型的方案，本申请实施例提供的融合字典知识的命名实体识别方法能够节省人力资源，不需要花费时间重新训练模型，对新的命名实体有着较强的适应性。

步骤S170，将所述目标编码信息输入至第二编码网络得到所述待识别文本对应的第二编码向量序列。

应能理解，如图8所示，对于一个待识别文本，其表示为长度n的序列X＝{x₁,x₂,x₃,...,x_n}，将对该文本序列进行字典匹配编码得到的目标编码信息输入至第二编码网络，如Transformer-based的编码器，则可以得到与该文本序列同样长度的第二编码向量序列U_out＝{u₁,u₂,u₃,...,u_n}，其中，第二编码向量序列中的每个向量与待识别文本中的每个字符一一对应。

需要说明的是，第二编码网络是可扩展的网络，例如可以修改第二编码网络的网络层数以减少计算量。

步骤S180，基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签。

示例性的，如图8所示，对于待识别文本“我想看张某某”，其对应的命名实体标签可以通过BIO标注表示如下：{“我”：O、“想”：O、“看”：O、“张”：B-BOOK、“某”：I-BOOK、“某”、I-BOOK}。

在一些实施例中，参见图4，图4示出了图1中步骤S180的子步骤流程示意图，如图4所示，所述基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签，包括但不限于步骤S410、步骤S420和步骤S430。

步骤S410，对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列。

步骤S420，对所述输出向量序列进行线性转换得到K维的目标输出向量，所述K为命名实体标签的数量。

步骤S430，对所述目标输出向量进行归一化处理得到所述待识别文本对应的多个所述命名实体标签。

可以理解的是，对第一编码向量序列和第二编码向量序列进行融合处理得到输出向量序列，相较于将第一编码向量序列和第二编码向量序列进行拼接，融合处理不会对模型所支持的输入长度产生影响，不需要对模型输入进行调整。

示例性的，如图8所示，在对第一编码向量序列和第二编码向量序列进行融合处理得到输出向量序列之后，通过线性层和归一化层先后将输出向量序列进行线性转换得到K维的目标输出向量，对目标输出向量进行归一化处理得到待识别文本对应的多个命名实体标签。

在一些实施例中，参见图5，图5示出了图4中步骤S410的子步骤流程示意图，如图5所示，所述对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列，包括但不限于步骤S510和步骤S520。

步骤S510，根据所述第一编码向量序列和所述第二编码向量序列的向量维度确定所述第一编码向量序列中各向量对应的第一权重参数和所述第二编码向量序列中各向量对应的第二权重参数。

步骤S520，基于所述第一权重参数和所述第二权重参数对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列；

可以理解的是，通过向量维度确定两种编码结果在输出向量中的权重，以反应两个编码结果对命名实体识别的贡献程度，基于第一权重参数和第二权重参数对第一编码向量序列和第二编码向量序列进行融合处理得到输出向量序列，能够提高识别命名实体的准确性。

在一个具体实施例中，所述输出向量序列通过以下公式确定：

o_i＝g_i*u_i+m_i*v_i；

其中，所述o_i表征所述输出向量序列中第i个向量，所述u_i表征所述第二编码向量序列中第i个向量，所述v_i表征所述第一编码向量序列中第i个向量，所述g_i表征所述第一编码向量序列中第i个向量对应的所述第一权重参数，所述m_i表征所述第二编码向量中第i个向量对应的所述第二权重参数。

在一些实施例中，参见图6，图6示出了图5中步骤S510的子步骤流程示意图，如图6所示，所述根据所述第一编码向量序列和所述第二编码向量序列的向量维度确定所述第一编码向量序列中各向量对应的第一权重参数和所述第二编码向量序列中各向量对应的第二权重参数，包括但不限于步骤S610和步骤S620。

步骤S610，将所述第一编码向量序列和所述第二编码向量序列输入至预设的MOE网络，以使所述MOE网络根据所述第一编码向量序列和所述第二编码向量序列的向量维度得到所述第一编码向量序列中各向量对应的第一权重参数。

步骤S620，根据所述第一权重参数确定所述第二编码向量序列中各向量对应的第二权重参数。

示例性的，如图8所示，通过MOE(Mixture of Experts)网络根据第一编码向量序列和第二编码向量序列的向量维度确定第一编码向量序列中各向量对应的第一权重参数，且对于第一编码向量序列以及第二编码向量序列，当向量维度越大时其对应的权重参数越大，反之亦然。

在一个具体的实施例中，所述第一权重参数通过以下公式确定：

g_i＝sigmoid(θ[u_i,v_i])；

其中，所述sigmoid(·)为激活函数，所述θ[·]表征所述MOE网络，所述θ表征所述MOE网络中的可训练参数，且所述θ为所述v_i和所述u_i的向量维度之和；

所述第二权重参数通过以下公式确定：

m_i＝(1-g_i)。

本申请提出一种融合字典知识的命名实体识别方法，该方法获取待识别文本以及包括多个命名实体以及每个命名实体对应的多个实体类型的命名实体字典，之后对命名实体字典所包括的命名实体和待识别文本进行字符串匹配，得到待识别文本在所述命名实体字典中存在的所有目标命名实体，再根据目标命名实体从命名实体字典所包括的实体类型中获取与目标命名实体对应的所有目标实体类型，一方面，将待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列，另一方面，根据目标命名实体对应的所有目标实体类型对待识别文本进行编码处理，得到待识别文本对应的目标编码信息，之后将目标编码信息输入至第二编码网络得到待识别文本对应的第二编码向量序列，最后基于第一编码向量序列和第二编码向量序列确定待识别文本对应的多个命名实体标签。本申请在待识别文本中匹配出命名实体字典中存在的目标命名实体以及目标命名实体对应的所有目标实体类型，根据目标实体类型对应的所有目标实体类型对待识别文本进行编码处理得到编码向量序列，基于该编码向量序列得到待识别文本的命名实体标签，能够融合命名实体字典中命名实体与实体类型之间对应关系的知识，在新涌现命名实体以及新涌现的命名实体使同一文本片段将被赋予多种实体类型时，只需要更新命名实体字典，不需要重新训练模型即可实现对新涌现命名实体的识别。

请参见图9，本申请实施例还提供了一种融合字典知识的命名实体识别装置100，该融合字典知识的命名实体识别装置100包括：

第一获取模块110，用于获取待识别文本；

第二获取模块120，用于获取命名实体字典，所述命名实体字典包括多个命名实体以及每个所述命名实体对应的实体类型；

字符串匹配模块130，用于对所述命名实体字典所包括的所述命名实体和所述待识别文本进行字符串匹配，得到所述待识别文本在所述命名实体字典中存在的所有目标命名实体；

第三获取模块140，用于根据所述目标命名实体从所述命名实体字典所包括的所述实体类型中获取与所述目标命名实体对应的所有目标实体类型；

第一编码网络模块150，用于将所述待识别文本输入至第一编码网络得到所述待识别文本对应的第一编码向量序列；

字符编码模块160，用于根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息；

第二编码网络模块170，用于将所述目标编码信息输入至第二编码网络得到所述待识别文本对应的第二编码向量序列；

命名实体识别模块180，用于基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签。

在一个实施例中，该字符编码模块160包括：

第一编码子模块，用于针对是否属于命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第一编码信息；

第二编码子模块，用于针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，其中，所述第二编码信息的长度与所述目标实体类型的数量有关；

编码处理模块，用于根据所述第一编码信息和所述第二编码信息得到所述待识别文本对应的目标编码信息。

需要说明的是，上述装置的模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

请参见图10，图10示出本申请实施例提供的一种电子设备的硬件结构，电子设备包括：

处理器210，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集合成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集合成电路等方式实现，用于执行相关计算机程序，以实现本申请实施例所提供的技术方案；

存储器220，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器220可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器220中，并由处理器210来调用执行本申请实施例的融合字典知识的命名实体识别方法；

输入/输出接口230，用于实现信息输入及输出；

通信接口240，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和总线250，在设备的每个组件(例如处理器210、存储器220、输入/输出接口230和通信接口240)之间传输信息；

其中处理器210、存储器220、输入/输出接口230和通信接口240通过总线250实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个计算机程序，一个或者多个计算机程序可被一个或者多个处理器执行，以实现上述融合字典知识的命名实体识别方法。

存储器作为一种计算机可读存储介质，可用于存储软件程序以及计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集合成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请每个实施例中的各功能单元可以集合成在一个处理单元中，也可以是每个单元单独物理存在，也可以两个或两个以上单元集合成在一个单元中。上述集合成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集合成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请每个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种融合字典知识的命名实体识别方法，其特征在于，所述方法包括：

获取待识别文本；

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据所述目标命名实体对应的所有所述目标实体类型对所述待识别文本进行编码处理，得到所述待识别文本对应的目标编码信息，包括：

3.根据权利要求2所述的命名实体识别方法，其特征在于，所述第二编码信息包括第三编码信息和第四编码信息，所述针对是否属于所述目标实体类型的命名实体的字符，对所述待识别文本中的所有字符进行编码处理，得到所述待识别文本中所有字符对应的第二编码信息，包括：

4.根据权利要求1所述的命名实体识别方法，其特征在于，所述基于所述第一编码向量序列和所述第二编码向量序列确定所述待识别文本对应的多个命名实体标签，包括：

5.根据权利要求4所述的命名实体识别方法，其特征在于，所述对所述第一编码向量序列和所述第二编码向量序列进行融合处理得到输出向量序列，包括：

6.根据权利要求5所述的命名实体识别方法，其特征在于，所述根据所述第一编码向量序列和所述第二编码向量序列的向量维度确定所述第一编码向量序列中各向量对应的第一权重参数和所述第二编码向量序列中各向量对应的第二权重参数，包括：

7.根据权利要求1所述的命名实体识别方法，其特征在于，所述方法还包括：

获取命名实体与实体类型的对应关系；

8.一种融合字典知识的命名实体识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别文本；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。