CN113962224A

CN113962224A - 命名实体识别方法及其装置、设备、介质、产品

Info

Publication number: CN113962224A
Application number: CN202111177567.2A
Authority: CN
Inventors: 吴智东
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-21

Abstract

本申请公开一种命名实体识别方法及其装置、设备、介质、产品，所述方法包括：获取待识别命名实体的文本信息，所述文本信息包括多个单字；提取所述文本信息的深层语义信息，获得其文本特征向量；根据所述文本特征向量生成首字指针向量和尾字指针向量，每个指针向量包括按序指向所述文本信息中的各个单字的指针元素，两个指针向量中与文本信息内命名实体的首字、尾字相对应的指针元素存储该命名实体所属实体类型的索引标签；提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体。本申请能提升了命名实体识别效率，且召回率和准确率较高，尤其适用于从商品信息提取出相应的命名实体作为商品属性数据。

Description

命名实体识别方法及其装置、设备、介质、产品

技术领域

本申请涉及自然语言处理技术，尤其涉及一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着电子商务行业的飞速发展，电商平台的用户和商品种类也随着快速增长。面对数以千万计的商品数据，如何规范统一化商品信息，显得尤为重要。一方面，对于平台来说，平台可以利用商品中的属性信息，对商品进行分门别类，或基于属性进行更多的场景应用，如推荐等；另一方面，对用户来说，用户可以根据商品属性信息，进行限定性搜索，定向找到自己想要的商品，提高了用户体验。这几种场景都离不开对商品数据中的商品属性信息处理。如何从杂乱的数据中抽取商品属性是当下信息抽取场景的一大难题。

在现有技术中，普遍是使用关键词的方法，对商品信息进行匹配，命中属性关键词库中的词时，就认为商品具有关键词对应的属性；也有部分技术，挖掘了商品信息中的特定文本模式，整理出了特定的属性规则，使用规则进行商品属性抽取。

通过关键词匹配的方法，忽略了文本的语义信息，召回的属性信息较多为噪声数据，准确性不能得到有效保证。而通过属性规则的抽取方法，相对关键词的方法，准确率较高，但是模式较为单一，且属性规则需要靠人工挖掘的方式进行增添和删除，对于新的属性信息，无法对其进行召回，也存在不足之处。

商品属性信息的抽取，本质上是自然语言技术领域的命名实体提取的问题，因此可以理解，不仅在电商领域存在命名实体抽取的问题，其他需要提取命名实体的领域也需要面临相同的技术问题。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种命名实体识别方法，包括如下步骤：

获取待识别命名实体的文本信息，所述文本信息包括多个单字；

提取所述文本信息的深层语义信息，获得其文本特征向量；

根据所述文本特征向量生成首字指针向量和尾字指针向量，每个指针向量包括按序指向所述文本信息中的各个单字的指针元素，两个指针向量中与文本信息内命名实体的首字、尾字相对应的指针元素存储该命名实体所属实体类型的索引标签；

提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体。

深化的实施例中，获取待识别命名实体的文本信息，包括如下步骤：

获取待识别命名实体的商品对象；

提取所述商品对象的商品标题文本和/或商品详情信息，作为商品信息；

对所述商品对象的商品信息进行数据清洗，将数据清洗后的文本信息构造为待识别命名实体的文本信息。

深化的实施例中，根据所述文本特征向量生成首字指针向量和尾字指针向量，调用预训练的指针生成网络模型实现，该指针生成网络模型执行如下步骤：

以所述文本特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前单字相对应的首字指针向量；

将所述文本特征向量与所述当前字相对应的首字指针向量相拼接，获得当前字相对应的融合特征向量；

以所述融合特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前字相对应的尾字指针向量。

具体化的实施例中，所述编码器对应文本信息中每一单字执行如下步骤以获得相应的首字指针向量或尾字指针向量：

获得前一单字相对应的隐层记忆向量，所述隐层记忆向量被随机初始化引用后对应逐字更新；

根据待处理向量进行多头注意力机制运算，计算所述待处理向量与所述前一单字相对应的隐层记忆向量的归一化点积，作为当前单字相对应的寻址记忆向量；

将当前单字相对应的寻址记忆向量线性变换后与所述待处理向量相加，获得中间向量；

将中间向量线性转换叠加正则化运算，获得当前字相对应的所述首字指针向量或尾字指针向量；

根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用。

进一步的实施例中，根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用，包括如下步骤：

将当前字相对应的首字指针向量与尾字指针向量进行向量相加获得加和向量；

对所述加和向量进行分类映射获得分类概率作为相应的平滑权重；

以所述平滑权重作为权重参数，对所述加和向量与前一单字相对应的隐层记忆向量进行平滑合成，获得当前字相对应的隐层记忆向量；

将当前字相对应的隐层记忆向量传递给下一单字的编码过程引用。

深化的实施例中，提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体，包括如下步骤：

根据首字指针向量和尾字指针向量获取不同命名实体的首字指针元素和尾字指针元素对应的索引标签；

查询预设的映射词表，还原所述索引标签相对应的实体类型；

根据各命名实体的首字指针元素和尾字指针元素所指向的文本信息中的单字所限定的边界，提取出各个命名实体相对应的字符串，构造出实体类型与命名实体对应关系列表。

扩展的实施例中，所述指针生成网络模型被预先训练，其训练过程包括如下步骤：

获取样本数据集，所述样本数据集包括多组样本数据，每组样本数据包括一个商品对象的标题文本及其中的命名实体相对应的首字指针向量和尾字指针向量；

调用每组样本数据对所述指针生成网络模型进行训练，其中，由该指针生成网络模型根据该组样本数据中的文本特征向量预测出其相对应的首字指针向量和尾字指针向量；

根据被训练的该组样本数据中的首字指针向量和尾字指针向量分别对应监督所述指针生成网络模型预测出的首字指针向量和尾字指针向量并计算损失值，在损失值大于预设阈值时调用下一组样本数据对该指针生成网络模型继续迭代训练。

适应本申请的目的之一而提供的一种命名实体识别装置，包括：文本获取模块、特征提取模块、指针生成模块，以及实体提取模块，其中，所述文本获取模块，用于获取待识别命名实体的文本信息，所述文本信息包括多个单字；所述特征提取模块，用于提取所述文本信息的深层语义信息，获得其文本特征向量；所述指针生成模块，用于根据所述文本特征向量生成首字指针向量和尾字指针向量，每个指针向量包括按序指向所述文本信息中的各个单字的指针元素，两个指针向量中与文本信息内命名实体的首字、尾字相对应的指针元素存储该命名实体所属实体类型的索引标签；所述实体提取模块，用于提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体。

深化的实施例中，所述文本获取模块包括：对象获取子模块，用于获取待识别命名实体的商品对象；文本提取子模块，用于提取所述商品对象的商品标题文本和/或商品详情信息，作为商品信息；文本优化子模块，用于对所述商品对象的商品信息进行数据清洗，将数据清洗后的文本信息构造为待识别命名实体的文本信息。

深化的实施例中，所述指针生成模块中，调用预训练的指针生成网络模型实现，该指针生成网络模型包括：首字指针网络，用于以所述文本特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前单字相对应的首字指针向量；向量拼接网络，用于将所述文本特征向量与所述当前字相对应的首字指针向量相拼接，获得当前字相对应的融合特征向量；尾字指针网络，用于以所述融合特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前字相对应的尾字指针向量。

具体化的实施例中，所述首字指针网络及尾字指针网络中调用的编码器包括：隐层获取单元，用于获得前一单字相对应的隐层记忆向量，所述隐层记忆向量被随机初始化引用后对应逐字更新；寻址运算单元，用于根据待处理向量进行多头注意力机制运算，计算所述待处理向量与所述前一单字相对应的隐层记忆向量的归一化点积，作为当前单字相对应的寻址记忆向量；中间处理单元，用于将当前单字相对应的寻址记忆向量线性变换后与所述待处理向量相加，获得中间向量；指针生成单元，用于将中间向量线性转换叠加正则化运算，获得当前字相对应的所述首字指针向量或尾字指针向量；隐层更新单元，用于根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用。

进一步的实施例中，所述隐层更新单元包括：加和处理子单元，用于将当前字相对应的首字指针向量与尾字指针向量进行向量相加获得加和向量；权重映射子单元，用于对所述加和向量进行分类映射获得分类概率作为相应的平滑权重；平滑合成子单元，用于以所述平滑权重作为权重参数，对所述加和向量与前一单字相对应的隐层记忆向量进行平滑合成，获得当前字相对应的隐层记忆向量；隐层传递子单元，用于将当前字相对应的隐层记忆向量传递给下一单字的编码过程引用。

深化的实施例中，所述实体提取模块包括：字符提取子模块，用于根据首字指针向量和尾字指针向量获取不同命名实体的首字指针元素和尾字指针元素对应的索引标签；映射还原子模块，用于查询预设的映射词表，还原所述索引标签相对应的实体类型；列表构造子模块，用于根据各命名实体的首字指针元素和尾字指针元素所指向的文本信息中的单字所限定的边界，提取出各个命名实体相对应的字符串，构造出实体类型与命名实体对应关系列表。

扩展的实施例中，所述指针生成网络模型被置于如下结构中预先训练，该结构包括：样本获取子模块，用于获取样本数据集，所述样本数据集包括多组样本数据，每组样本数据包括一个商品对象的标题文本及其中的命名实体相对应的首字指针向量和尾字指针向量；样本训练子模块，用于调用每组样本数据对所述指针生成网络模型进行训练，其中，由该指针生成网络模型根据该组样本数据中的文本特征向量预测出其相对应的首字指针向量和尾字指针向量；梯度更新子模块，用于根据被训练的该组样本数据中的首字指针向量和尾字指针向量分别对应监督所述指针生成网络模型预测出的首字指针向量和尾字指针向量并计算损失值，在损失值大于预设阈值时调用下一组样本数据对该指针生成网络模型继续迭代训练。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的命名实体识别方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的命名实体识别方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

首先，现有技术基于关键词方式中通过穷举来识别命名实体，无法应对电商商品数据之类的数据快速增长的领域而体现出明显的技术局限性，对于电商平台之类的快速新增的商品数据，抽取结果准确性较低，而基于规则进行命名实体的方式虽然能提高准确率，只能挖掘出与规则模板相匹配的结果，召回率太低。区别于现有技术的这些缺点，本申请基于文本信息的深层语义信息生成首尾双指针，利用首尾对应的两个指针向量来抽取文本信息中的命名实体，能提升命名实体识别的准确率，在能提高命名实体抽取置信度的同时，也能提升准确率和召回率，特别适合待识别命名实体的文本信息快速增长的应用场景中，例如电商平台、图书管理的标题信息处理等领域。

其次，本申请所生成的首字指针向量和尾字指针向量，其构造不同于现有技术中的指针结构，每个指针向量均包括数量与文本信息的字长相同的多个指针元素，实现文本信息的每个单字均有一个首字指针元素和一个尾字指针元素与之对应，当从文本信息中识别出一个命名实体时，该命名实体中的首字所对应的首字指针元素将存储该命名实体所属的实体类型相对应的索引标签，同理，该命名实体中的尾字所对应的尾字指针元素将存储该命名实体所属的实体类型相对应的索引标签，由此可见，通过单独一个首字指针向量和单独一个尾字指针向量，便可实现对文本信息中的所有多个命名实体的统一表征，一个命名实体在文本信息中的字符串，由首字指针向量中存储该命名实体所属实体类型的索引标签的指针元素所指向的文本信息中的单字即首字，及由尾字指针向量中存储该命名实体所属实体类型的索引标签的指针元素所指向的文本信息中的单字即尾字，由首字至尾字之间的字符串，即为该命名实体，该命名实体与其实体类型之间的映射关系也一并确定，可见，两个指针向量起到统一表征作用，可由端到端模型生成，处理效率较高，便于以较小的运算量从文本信息中确定出相应的多个命名实体，对于批量识别任务而言，效率优势明显。

此外，本申请由于具有以上的各种优点，例如运算高效、识别精准等，故特别适用于电商平台中，从电商平台的海量商品对象的商品信息中提取出各种商品属性信息，从而进一步体现出在规模化应用方面的优势，诸如降低成本、快速消化海量数据处理任务等。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的命名实体识别方法的典型实施例的流程示意图；

图2为本申请中用于说明首字指针向量和尾字指针向量与文本信息之间关于索引标签的对应关系的示意图；

图3为本申请实施例中提取商品对象的文本信息的过程的流程示意图；

图4为本申请实施例中生成首字指针向量和尾字指针向量的流程示意图；

图5为本申请实施例中的指针网络生成模型的原理框图，其中将各个单字所对应的网络结构展开示意；

图6为本申请实施例中指针网络生成模型内用于生成首字指针向量的编码器的网络结构示意图；

图7为本申请实施例中指针网络生成模型内用于生成尾字指针向量的编码器的网络结构示意图；

图8为本申请实施例中指针网络生成模型内编码器的共有编码业务逻辑的流程示意图；

图9为本申请实施例中隐层记忆向量的更新过程的流程示意图；

图10为本申请实施例中根据首字指针向量和尾字指针向量从文本信息中获得实体类型与命名实体对应关系列表的过程的流程示意图；

图11为用于训练本申请所提出的指针生成网络模型的训练任务的流程示意图；

图12为本申请的命名实体识别装置的原理框图；

图13为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种命名实体识别方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如在本申请的电商平台应用场景中，一般部署在服务器中实施，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的命名实体识别方法在其典型实施例中，包括如下步骤：

步骤S1100、获取待识别命名实体的文本信息，所述文本信息包括多个单字：

所述的文本信息，由计算机可显示字符构成，通常包括多个单字。所述的单字，包括半角字符或全角字符，例如，可以包括***数字或英文字母、单词等，例如“2021”、“XL”,也可以包括全中文字符，例如“某品牌冬季短袖上衣红色款”，也可以是这些不同单字的随意组合。本申请中，无论是全角字符还是半角字符，均视为一个单字进行对待。

所述文本信息所表达的内容，依其应用场景不同而不同，例如，在本申请示例性应用的电商平台场景中，可以是用于描述商品信息的内容，包括但不限于电商平台中商品对象的商品标题文本、商品详情信息等。又示，在另一示例性的用于审核不规范用词的场景中，可以是用户的即时聊天内容。

所述的文本信息中，通常包括人工可辨识的命名实体，以便通过实施本申请的技术方案从中自动识别出相应的命名实体。所述命名实体本质上也是一种关键词。例如，在所述的电商应用场景中，商品的属性信息，例如用于描述品牌、款式、功能、适用季节等等各种实体类型的描述文字，即可构成所述的命名实体。

所述的文本信息，其来源不影响本申请的实施，例如，可以是个别地由用户进行提供，也可以是从预设的数据库中批量提取。一般而言，文本信息是某一特定领域相对应的内容，视本申请的指针生成网络模型被训练阶段所采用的训练数据集的内容而定。也即，以某一特定领域相对应的内容作为训练数据集对本申请的指针生成网络模型进行训练，可使该指针生成网络模型习得识别该领域的命名实体的能力，从而服务于该领域相对应的文本信息的命名实体需求。对此，本领域技术人员应能理解。

步骤S1200、提取所述文本信息的深层语义信息，获得其文本特征向量：

为了本申请能够基于文本信息的深层语义实现命名实体识别，本申请优选能够处理序列信息的神经网络模型来对所述的文本信息进行深层语义信息的提取，以便获得其相对应的文本特征向量。所述的神经网络模型可以是按链式连接的递归神经网络，也可以是循环神经网络，均属RNN架构。当然，也可以是其他能够等效地从文本信息中参考上下文信息对文本信息进行深层语义表示学习而提取出其深层语义信息的其他神经网络模型。对此，本申请推荐的神经网络模型包括但不限于LSTM、BiLSTM、Transformer、Bert、AlBert、Ernie、Electra等，其中，以Bert为实测最优，故而优先推荐。

这些用于提取文本特征信息的神经网络模型可统称为文本特征提取模型，本申请所采用的文本特征提取模型为预训练模型，即其已预先被训练至收敛状态，使其具备对文本信息进行深层语义特征表示的能力，适于从文本信息中提取出相应的文本特征向量。至于文本特征提取模型的训练原理，为本领域技术人员所知晓，故此从略。

当然，在本申请中，所述的文本特征提取模型也可参与本申请中采用到的指针生成网络模型被一起联合训练，以便在训练本申请的指针生成网络模型的过程中实现对所述文本特征提取模型的微调训练，对此，本领域技术人员也能理解。

本典型实施例以采用Bert模型作为本申请提取文本信息的深层语义信息所需的文本特征提取模型为例，在该文本特征提取模型被训练至收敛状态并投入本申请的技术方案中使用后，可将所述文本信息作为输入，适应Bert模型的输入格式所需，编码出该文本信息相对应的文本向量(Token Embedding)、位置向量(Position Embedding)、分句向量(Segment Embedding)，然后将其馈入Bert模型，即可由Bert模型根据这些向量参考上下文信息进行深层语义信息提取，最终输出该文本信息相对应的文本特征向量。

不难理解，所述的文本特征向量实现了对所述文本信息的深层语义信息的特征表示，并且综合了文本信息内的上下文信息。

步骤S1300、根据所述文本特征向量生成首字指针向量和尾字指针向量，每个指针向量包括按序指向所述文本信息中的各个单字的指针元素，两个指针向量中与文本信息内命名实体的首字、尾字相对应的指针元素存储该命名实体所属实体类型的索引标签：

获得所述的文本特征向量之后，便可通过预设的指针生成网络模型，根据所述文本特征向量生成相对应的两个指针向量，分别为首字指针向量和尾字指针向量。

所述指针生成网络模型，优先推荐本申请在后续的实施例中提供的具体模型，或者，也可由本领域技术人员根据本申请披露的功能和/或原理来实现。所述指针生成网络模型适宜采用基于多头注意力机制的模型来改造实现，例如基于Transformer、Bert的编码结构来实现、此类模型均能够基于多头注意力机制处理序列信息，实现根据序列中的上下文信息对语义进行梳理，在此基础上，将其改造为适于生成本申请所需的两个单独的指针向量即首字指针向量和尾字指针向量即可。将该指针生成网络模型训练至收敛后，便可用于本申请中根据文本特征信息生成相应的首字指针向量和尾字指针向量。

所述的首字指针向量，按照所述文本信息的单字总数，包括与单字总数相对应的多个指针元素，各个指针元素按照文本信息中单字排序而一一对应指向这些单字，由此，每个指针元素单独指向文本信息中的一个单字，指针元素在首字指针向量中的排列的顺位，与其所指向的单字在文本信息中的顺位是相同。首字指针向量中的指针元素，以数值的形式存储其所指向的单字相对应的命名实体所属的实体类型的索引标签，具体而言，当该指针元素所指向的单字属于一个命名实体的第一个字时，则该指针元素用于存储该命名实体所属的实体类型的索引标签；如果一个指针元素所指向的文本信息中的单字不属于任何可能的命名实体的第一个字时，则该指针元素可以存储空值或“0”值等预定标识以区别之。

同理，所述的尾字指针向量，按照所述文本信息的单字总数，包括与单字总数相对应的多个指针元素，各个指针元素按照文本信息中单字排序而一一对应指向这些单字，由此，每个指针元素单独指向文本信息中的一个单字，指针元素在尾字指针向量中的排列的顺位，与其所指向的单字在文本信息中的顺位是相同。尾字指针向量中的指针元素，以数值的形式存储其所指向的单字相对应的命名实体所属的实体类型的索引标签，具体而言，当该指针元素所指向的单字属于一个命名实体的最后一个字时，则该指针元素用于存储该命名实体所属的实体类型的索引标签；如果一个指针元素所指向的文本信息中的单字不属于任何可能的命名实体的最后一个字时，则该指针元素可以存储空值或“0”值等预定标识以区别之。

可以看出，所述首字指针向量与尾字指针向量采用的结构是相同的，但其中各指针元素指向同一命名实体时所指示的单字不同，首字指针向量中的指针元素用于指示命名实体的首字所处文本信息中的位置，并存储相应的命名实体所属的实体类型相对应的索引标签；尾字指针向量中的指针元素用于指示命名实体的尾字所处文本信息中的位置，并存储相应的命名实体所属的实体类型相对应的索引标签。首字指针向量与尾字指针向量均为统一的指针向量，均实现对文本信息中包含的多个命名实体的集中指示。

所述的索引标签，为事先对应各个命名实体所属的实体类型所编制的各个实体类型相映射的数值标签。以电商平台中商品信息中的多种属性信息为例，如下映射词表所示：

实体类型	映射值
		非实体	0
品牌	1
		版型	2
款式	3
		面料	4
使用季节	5
		功能	6

该表仅供示例之用。从表中可以看出，当文本信息中的单字不属于任何命名实体时，即为非实体，以“0”值表示；当文本信息中的某个单字所指向的属于“品牌”、“版型”、“款式”、“面料”、“使用季节”、“功能”等实体类型相对应的命名实体时，则分别以“1”、“2”、“3”、“4”、“5”、“6”等索引标签表示。

据此，不难理解，所述的首指针向量与尾指针向量，通过在指针元素中存储某个命名实体所属的实体类型的索引标签，即上述示例表格中的映射值，便已经确定了该命名实体相对应的实体类型。

适应上述的示例，继续举例说明所述的首字指针向量和尾字指针向量的构造，例如图2所示，存在一个商品标题相对应的文本信息为：“某司2021夏季防紫外线冰丝宽松舒适风衣”。根据这一文本信息，将得到如下的两个指针向量：

首字指针向量：[1,0,0,0,0,0,5,0,6,0,0,0,4,0,2,0,0,0,3,0]

尾字指针向量：[0,1,0,0,0,0,0,5,0,0,0,6,0,4,0,2,0,0,0,3]

其中，首字指针向量中的各个非零数值，其在向量中的顺序对应到所述文本信息中排序相应的单字，该单字为一个命名实体的首字，即第一个字，该数值本身作为索引标签，映射到前一示例表格中的实体类型。同理，尾字指针向量中的各个非零数值，其在向量中的顺序对应到所述文本信息中排序相应的单字，该单字为一个命名实体的尾字，即最后一字，该数值本身作为索引标签，映射到前一示例表格中的实体类型。其中，根据前文示例性表格，“0”值为非实体类型相应的单字。

由此可见，只要控制所述指针生成网络模型按照以上的规则生成所述的首字指针向量和尾字指针向量，后续便可据此进行命名实体抽取。

步骤S1400、提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体：

继续沿用图2的示例，不难理解，针对“品牌”这一实体类型，其映射标签为“1”，其对应的命名实体的首字和尾字分别出现在该文本信息的顺序第1和第2个单字中，即“某司”，同理，“功能”这一实体类型，其映射标签为“6”，其对应的命名实体的首字和尾字分别出现在该文本信息的顺序第9和第12位中，即“防紫外线”。由此可见，只要根据首字指针向量和尾字指针向量中相同索引标签所指向的文本信息中的不同单字，将两个单字为首、尾两字，包含其中间部分提取出整个字符串，该字符串即为与所述相同索引标签相对应的命名实体。据此，便可一次性地将文本信息中的多个命名实体提取出来。

通过本实施例所揭示的原理，可以理解，本申请的技术方案相对于现有技术存在广泛的优势，包括但不限于：

请参阅图3，深化的实施例中，为本申请结合一个更为具体的应用场景，所述步骤S1100、获取待识别命名实体的文本信息，包括如下步骤：

步骤S1110、获取待识别命名实体的商品对象：

本实施例的应用场景为本申请人所从事的电商领域，在电商领域中，存在大量的商品对象，无论是整个电商平台而言，还是电商平台中的各家商铺而言，相应的商品数据为中均存在大量的商品对象。因此，一旦需要对这些商品对象进行命名实体识别，便可调用商品数据库来获取其中待识别命名实体的商品对象，作为后续进行命名实体提取的目标商品对象。

个别提取的情况也是允许的，例如，一个商家实例的用户发布其新上线的商品时，录入商品相关的各种信息，其中包括商品标题文本、商品详情文本等，构成文本信息，用户发布商品后，后台服务器将其视为商品对象进行存储，此一过程中，也可将该商品对象自动确定为需要进行命名实体识别的目标商品对象。

步骤S1120、提取所述商品对象的商品标题文本和/或商品详情信息，作为商品信息：

对于一个商品对象而言，为识别出其中的命名实体所需，需要获取其中的文本类型信息。如前所述，商品对象的文本类型信息通常包括标题文本和/或商品详情文本(商品详情信息)，简化的实施例中，可以仅选用其中的标题文本或商品详情文本，较为周到的实施例中，也可两者均选用，视实际需要而定。这些文本类型信息便构成了本申请进行命名实体识别所需的商品信息。

步骤S1130、对所述商品对象的商品信息进行数据清洗，将数据清洗后的文本信息构造为待识别命名实体的文本信息：

获得商品对象的所述商品信息后，便可以本领域常用的各种技术手段对该商品信息进行数据清洗，例如去除空格、去除标点符号等，以便清除相关冗余信息，有助于提升命名实体识别效率。

本实施例将本申请的技术方案应用到电商平台中，可为电商平台中商品对象的命名实体的提取服务，据此提取到相关命名实体作为商品属性数据，可以为商品对象的数据录入提供实用的帮助，也能统一起电商平台关于商品属性信息的组织维度，特别是对于基于独立站的跨境电商而言，各个商家独立维护自身的站点和商品数据库，电商平台为之适用本申请的技术方案为其提供商品属性信息的组织管理服务，能够在统一信息管理标准的同时，减轻各商家的商品信息的组织和维护成本。

请参阅图4，深化的实施例中，所述步骤S1300、根据所述文本特征向量生成首字指针向量和尾字指针向量，调用预训练的指针生成网络模型实现，该指针生成网络模型执行如下步骤：

步骤S2100、以所述文本特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前单字相对应的首字指针向量：

本实施例中，采用图5、图6以及图7所示的指针生成网络模型用于实现所述首字指针向量和尾字指针向量的生成。其中，图5为本申请的指针生成模型被按照序列逐字展开后的示意框架与文本特征提取模型组网构成的网络架构，图6和图7分别为该指针生成网络模型中用于生成首字指针向量的编码器和用于生成尾字指针向量的编码器的内部结构示意图。

如图5所示，文本信息被投入所述的文本特征提取模型(以Bert模型为例)之后，提取出相应的文本特征向量，该文本特征向量在本申请的指针生成网络模型针对文本信息逐字进行编码的过程中被逐字引用。

指针生成网络模型在对应文本信息中的每个单字进行首字指针向量相对应的编码时，以所述文本特征向量为输入，将其视为待处理向量，然后对该待处理向量调用如图6所示的编码器进行特征运算，具体是基于多头注意力机制进行运算，以便充分参考上下文信息，为此，在每个单字相对应的编码业务逻辑中，均可实现对首字指针向量的更新，直至最后一个单字被编码完毕时，便可获得最终的首字指针向量输出。

步骤S2200、将所述文本特征向量与所述当前字相对应的首字指针向量相拼接，获得当前字相对应的融合特征向量：

另一方面，对应文本信息中的每个单字，还需要对其生成尾字指针向量，为此也需对应文本信息中的各个单字执行编码业务逻辑，为了使尾字指针向量参考所述的首字指针向量生成，因此，如图7所示，在进行尾字指针向量的每次编码业务逻辑中，将当前单字相对应的首字指针向量与所述的文本特征提取模型所提取的文本特征向量进行特征融合，获得相应的融合特征向量。具体的融合方式可以是将文本特征向量与相应的首字指针向量进行拼接后，经一线性层进行线性转换而获得相应的融合特征向量。公式表示为：

其中，

表示对应第i个单字时获取的文本特征向量，Y_i，s表示对应第i个单字生成的首字指针向量，Lin_i即为第i个单字相对应的融合特征向量。

步骤S2300、以所述融合特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前字相对应的尾字指针向量：

对于尾字指针向量而言，其输入为各个单字相对应的所述融合特征向量，即融合了文本特征向量和相应的单字所对应的首字指针向量的综合语义向量，然后，据此可以理解，指针生成网络模型在对应文本信息中的每个单字进行尾字指针向量相对应的编码时，以所述融合特征向量为输入，将其视为待处理向量，然后由如图7所示对该待处理向量进行特征运算，具体是基于多头注意力机制进行运算，以便充分参考上下文信息，为此，在每个单字相对应的编码业务逻辑中，均可实现对尾字指针向量的更新，直至最后一个单字被编码完毕时，便可获得最终的尾字指针向量输出。

如图5所示，本申请的指针生成网络模型被配置为双向结构，因此，针对首字指针向量和尾字指针向量的生成，两者在对应每个单字进行编码时，均通过一个隐层记忆向量来记忆中间特征信息，该隐层记忆向量将被每个字相对应的首字指针向量、尾字指针向量的编码业务逻辑所引用，并且，也被参考该两个指针向量进行相应的逐字更新。后续的实施例将对此进行深化的说明，但本领域技术人员根据此处所揭示的原理，应可自行实现。

本实施例中，通过应用双向结构的指针生成网络模型，针对文本信息逐字进行两个指针向量的编码，实现两个指针向量的生成互相参考上下文信息，使整个模型对语义的理解更为精准，从而确保能够获得准确的首字指针向量和尾字指针向量，为命名实体的提取奠定原理性的基础。

具体化的实施例中，本申请的指针生成网络模型中所采用的所述编码器，是基于图6和图7所示的结构实现的，不难看出，图6和图7具有完全相同的结构，不同的是，在首字指针向量的编码业务逻辑中，图6所示的编码器以文本特征提取模型所输出的文本特征向量为直接输入而将其视为待处理向量进行编码，而在尾字指针向量的编码业务逻辑中，图7所示编码器则以同一单字对应的首字指针向量与该文本特征向量拼接而得的融合特征向量为输入，将其视为待处理向量进行编码进行编码，也即是说，图7所示的编码器相对于图6所示的编码器，只是适应尾字指针向量编码所需前置添加一个拼接层和线性层，因此，针对图6和图7中相同的结构，来对两者共同部分做进一步的说明。至此也可以理解，图6和图7共有结构的编码器，对应文本信息中每一单字执行如图8所示的如下步骤以获得相应的首字指针向量或尾字指针向量：

步骤S3100、获得前一单字相对应的隐层记忆向量，所述隐层记忆向量被随机初始化引用后对应逐字更新：

编码器在针对文本信息中的一个单字启动编码业务逻辑时，首先引用前一单字所生成的隐层记忆向量，对于文本信息中的第一个字的编码业务逻辑而言，由于不存在前一单字对应的隐层记忆向量而稍微例外，可先将该隐层记忆向量随机初始化而引用，在编码完成实现首字指针向量或尾字指针向量的更新时，才对应更新所述的隐层记忆向量，而对于其他的单字，则依次引用其前一单字对应更新的隐层记忆向量即可。隐层记忆向量用于记忆当前单字相对应的指针隐含特征信息，是应用多头注意力机制构造的，本领域技术人员可以理解。

对于同一单字相对应的两个编码器而言，彼此均会引用前一单字相对应的隐层记忆向量，以便分别更新相对应的首字指针向量和尾字指针向量，然后，所更新的首字指针向量和尾字指针向量又将被用于联合更新当前字相对应的隐层记忆向量并传递至下一单字对应的两个编码器。

由此可见，首字指针向量、尾字指针向量和隐层记忆向量均按照文本信息中的各个单字逐字更新，并顺序传递，形成序列化处理能力。

步骤S3200、根据待处理向量进行多头注意力机制运算，计算所述待处理向量与所述前一单字相对应的隐层记忆向量的归一化点积，作为当前单字相对应的寻址记忆向量：

所述的编码器，应用了多头注意力机制，故此，采用注意力层Attention其将所述待处理向量与所引用的前一单字相对应的隐层记忆向量进行相乘后，再行归一化，获得归一化点积构成的向量，作为其所述待处理向量关于前一单字相对应的隐层记忆向量的寻址记忆向量。

步骤S3300、将当前单字相对应的寻址记忆向量线性变换后与所述待处理向量相加，获得中间向量：

在获得所述寻址记忆向量的基础上，采用一个线性层Linear对其进行线性变换，通过激活层进行激活，在此基础上，将该寻址记忆向量与所述待处理向量相加，获得中间向量。

步骤S3400、将中间向量线性转换叠加正则化运算，获得当前字相对应的所述首字指针向量或尾字指针向量：

进一步将该中间向量通过线性层Linear进行线性转换，再应用正则化LN处理，至此，便可获得当前字相对应的首字指针向量或尾字指针向量。

步骤S3500、根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用：

根据以上过程所生成的首字指针向量和尾字指针向量以及前一单字相对应的隐层记忆向量，便可更新当前单字相对应的隐层向量，将其输出给下一单字的编码过程引用。其具体的运算过程，可参阅下一实施例。

请参阅图9，进一步的实施例中，所述步骤S3500、根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用，包括如下步骤：

步骤S3510、将当前字相对应的首字指针向量与尾字指针向量进行向量相加获得加和向量：

对于当前字相对应的两个编码器而言，其分别输入的首字指针向量与尾字指针向量被进行向量相加，获得相应的加和向量。

步骤S3520、对所述加和向量进行分类映射获得分类概率作为相应的平滑权重：

对所述加和向量，可将所述加和向量匹配相应的权重后应用一个二分类器对其进行分类映射，可采用Sigmoid函数进行分类，从而可获得该加和向量相对应的分类概率，作为平滑权重。

步骤S3530、以所述平滑权重作为权重参数，对所述加和向量与前一单字相对应的隐层记忆向量进行平滑合成，获得当前字相对应的隐层记忆向量：

至此，可以所述的平滑权重作为权重参数，对所述加和向量与前一单字相对应隐层记忆向量进行平滑合成，以决定前后两个隐层记忆向量分别以多大程度的信息量进行融合，最终获得当前字相对应的隐层记忆向量。

步骤S3540、将当前字相对应的隐层记忆向量传递给下一单字的编码过程引用：

当前字对应的隐层记忆向量被更新后，便可传递给下一单字相对应的编码过程进行引用。可以理解，隐层记忆向量的这一更新原理，是根据文本信息的单字序列展开而逐字更新传递的，由此使得整个指针生成网络模型中，充分参考了整个文本信息中的上下文信息。

为使以上两个实施例的说明更为形式，如下进一步结合数学公式对每个单字的编码业务逻辑进行说明：

首先，假设商品标题文本为X，定义文本特征提取模型(以Bert模型为例)的输出为：

V_bert＝Bert(X)

定义指针记忆层所存储的当前字相对应的隐层记忆向量为Y_i，c，表示到第i个时刻(即对应文本信息中的第i个字)位置的首字指针向量、尾字指针向量的记忆元素，用于存储首字指针向量、尾字指针向量共享的隐含特征信息。

其次，生成首字指针向量：

1.1、如图6编码器结构所示，输入上一单字相对应的隐层记忆向量Y_i-1，c和文本特征向量

首先计算两者之间的归一化点积Attention_i，得到

关于Y_i-1，c的寻址记忆向量：

1.2、对所述寻址记忆向量进行线性转换后激活输出，加上输入

的值，获得向量相加后的中间向量：

1.3、最后将该中间向量再经过一层线性转换和正则化处理后，得到当前字相对应的首字指针向量：

Y_i，s＝LN(Linear(Add_i))

至此，便完成图6所示的编码器所实现的对应于文本信息中的单字的编码业务流程。

继而，生成尾字指针向量：

2.1、如图7编辑器结构所示，输入上一单字相对应的隐层记忆向量Y_i-1，c、文本特征向量

和当前字相对应的首字指针向量Y_i，s，首先将

和Y_i，s进行向量拼接，并进行线性转换，得到融合特征向量：

接下来的计算过程跟图6所示的编码器是一致的。

2.2、计算融合特征向量Lin_i和前一单字相对应的隐层记忆向量Y_i-1，c两者之间的归一化点积Attention_i，得到融合特征关于Y_i-1，c的寻址记忆向量：

2.3、对所述寻址记忆向量进行线性转换后激活输出，再加上融合特征向量Lin_i，获得向量相加后的中间向量：

2.4、最后将该中间向量再经过一层线性转换和正则化处理后，得到当前字相对应的首字指针向量：

至此，便完成图7所示的编码器所实现的对应于文本信息中的单字的编码业务流程。

最后，在当前字对应的两个编码业务逻辑分别获得当前字对应的首字指针向量和尾字指针向量之后，便可更新当前字对应的隐层记忆向量。具体而言，应用如下公式：

Y_i，c＝αY′_i，c+(1-α)Y_i-1，c

α＝Sigmoid(W_iY_i，c+b)

Y′_i，c＝Sum(Y_i，s，Y_i，e)

其中，α是平滑权重，以权重参数的形式使用，表示当前时刻的隐层记忆向量Y_i，c中，保留首字指针向量和尾字指针向量信息的比例，而1-α表示当前时刻(当前单字)的隐层记忆向量Y_i，c中，保留前一时刻(前一单字)记忆信息的比例。

以上公式可以看出，当前单字相对应的首字指针向量和尾字指针向量被加和获得加和向量后，将该加和向量匹配相应的权重和偏置计算，然后经Sigmoid函数进行分类映射，获得所述的平滑权重，然后再以该平滑权重作为权重参数将当前单字相对应的所述加和向量与前一单字相对应的隐层记忆向量进行平滑合成，即可获得当前字相对应的隐层记忆向量，可传递给下一单字相对应的编码业务逻辑引用。

通过以上的实施例可以看出，本申请中，指针生成网络模型在其用于生成首字指针向量和尾字指针向量的编码器中应用了多头注意力机制(Attention)、全连接(Linear)、层标准化(Layer Normalization)等技术，堆叠成的特定流程结构，对经过预训练模型输出的文本特征向量，进行指针向量的计算和转换。其中，还通过所述的隐层记忆向量实现了指针向量的记忆结构，用于融合当前时刻(当前单字)及以前时刻(以前单字)的所有指针特征信息，用以增强当前时刻的实体抽取能力。故此，本申请的指针网络生成模型可以实现将文本信息的文本特征向量有效地转换成首字指针向量和尾字指针向量。此外，本申请的指针记忆层能将当前文本信息中已抽取的索引标签的特征信息进行传递，增加了后续命名实体抽取可以关注的信息维度，从而增强模型对于命名实体的抽取能力。

示例而言，商品属性信息之间会存在隐含的联系信息，如当商品相关的命名实体中的“品牌”为“某某鞋业”、“某司服装”时，在同个商品信息的后续文本里，会大概率出现服装、鞋类相关的命名实体，如“面料”、“版型”、“款式”等，而很少会出现电子产品相关的命名实体，如“分辨率”、“显卡型号”等。所以，在判断当前单字是否应该被识别为实体边界或归属哪种命名实体相对应的实体类型时，加入已经识别出来的命名实体特征信息，一方面增加了实体识别的特征信息维度，另一方面增强了模型在当前时刻对命名实体边界和实体类型的判断能力。即通过增加记忆信息的方式，来增强模型对正确命名实体的抽取能力和泛化能力。

基于以上所说明的优势，可以理解，将本申请的指针生成网络模型应用于电商领域对商品信息进行商品属性信息的提取时，效果尤其显著。

请参阅图10，深化的实施例中，所述步骤S1400、提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体，包括如下步骤：

步骤S1410、根据首字指针向量和尾字指针向量获取不同命名实体的首字指针元素和尾字指针元素对应的索引标签：

示例而言，设文本信息为X，指针生成网络模型为M，模型将输出首字指针向量Y_s、尾字指针向量Y_e。

应用如下公式获取不同命名实体的首字指针元素和尾字指针元素对应的索引标签：

Index_s＝Argmax(Y_s)

Index_e＝Argmax(Y_e)

仍以图2为例说明：以商品标题文本X＝“某司2021夏季防紫外线冰丝宽松舒适风衣”为例子，其获得的首字指针向量和尾字指针向量的索引标签结构分别为：

Index_s＝[10000050600040200030]

Index_e＝[01000005000604020003]

不难理解，两个指针向量分别存储了多个命名实体的索引标签。

步骤S1420、查询预设的映射词表，还原所述索引标签相对应的实体类型：

请回顾本申请的典型实施例，查询如本申请的典型实施例中所示例的映射词表，便可获得各个索引标签相对应的实体类型。

步骤S1430、根据各命名实体的首字指针元素和尾字指针元素所指向的文本信息中的单字所限定的边界，提取出各个命名实体相对应的字符串，构造出实体类型与命名实体对应关系列表：

根据首字指针向量和尾字指针向量获取不同命名实体在文本信息中的边界信息：

Entity_k＝{(m，n)|m，n∈1，2，...，l∪m＜n}

其中，k∈1，2，...，K表示命名实体相对应的实体类型，K表示命名实体相对应的实体类型的总数，l表示文本信息X的长度，(m，n)即限定了命名实体在文本信息中的边界的边界信息。

在此基础上，通过各个命名实体相对应的边界信息，相应地截取文本信息X中的字符串，从而获得“实体类型-命名实体”构成的数据对，获得实体类型与命名实体之间的映射关系数据，至此完成命名实体抽取。

示例而言，假设如图2所示文本信息的排序索引值以1开始，原始商品标题的排序索引值为从1到20，经还原实体类型和提取边界信息之后获得的数据列表为：{“品牌”：[1，2]，“使用季节”：[7，8]，“功能”：[9，12]，“面料”：[13，14]，“版型”：[15，16]，“款式”：[19，20]}。因此经实体抽取后获得的实体类型与命名实体对应关系列表结果为(“品牌”，“某司”)、(“适用季节”，“夏季”)、(“功能”，“防紫外线”)、(“面料”，“冰丝”)、(“版型”，“宽松”)、(“款式”，“风衣”)。

本实施例进一步示例性地说明了利用本申请获得的首字指针向量和尾字指针向量从文本信息中提取出各个命名实体的具体方式，根据本实施例可以更形象地获得如下的理解：在电商领域中，传统的关键词方法只能通过穷举的方式罗列，且只能匹配到在词库中的信息，而对于快速增长的商品数据，该方法存在明显的技术局限性，对于新增的商品数据，抽取结果准确性较低，因为关键词不一定是指商品属性，可能只是刚好与其他词汇共同出现的描述信息，但是关键词的方法并不能理解这种语义信息。基于规则模板的方法，能提高属性抽取准确率，但是召回率太低，只能挖掘出与设计模式相匹配的结果，要想定义能匹配所有商品属性的模板，无疑是一件成本高且效率低的方法。而本申请使用的基于神经网络、预训练模型、首尾双指针的方法，让神经网络学习并理解整个商品标题文本的语义信息，自动学习对商品属性实体的边界切分能力和实体类型的判别能力，在提高商品属性抽取置信度的同时，也能提升准确率和召回率。

请参阅图11，扩展的实施例中，所述指针生成网络模型被预先训练，其被训练为电商领域的商品信息的命名实体提取服务，以便将所述的命名实体用作商品属性数据，据此，其训练过程包括如下步骤：

步骤S4100、获取样本数据集，所述样本数据集包括多组样本数据，每组样本数据包括一个商品对象的标题文本及其中的命名实体相对应的首字指针向量和尾字指针向量：

涉及到本申请的指针网络模型被训练时所采用的样本数据集，其中的样本数据可以从网络中获取，样本数据集中可以包括大量的多组样本数据，每组样本数据相应包括一个商品对象的标题文本，及根据图2的示例以及本申请的典型实施例中的映射词表的示例，预先编制每个标题文本相对应的首字指针向量和尾字指针向量，以通过两个指针向量给出标题文本中的多个命名实体的边界信息。本步骤得到的数据集表示为：

D：{(X_j，Y_j，s，Y_j，e)|j∈1，...，n}

其中X_j表示第j个商品标题文本，由l_j个词组成，表示为：

Y_j，s表示第j个样本中，每个字对应的实体类型标签，由l_j个标签组成，表示为：

Y_j，e表示第j个文本中，每个字对应的实体类型标签，由l_j个标签组成，表示为：

步骤S4200、调用每组样本数据对所述指针生成网络模型进行训练，其中，由该指针生成网络模型根据该组样本数据中的文本特征向量预测出其相对应的首字指针向量和尾字指针向量：

一次调用一组样本数据对所述的指针生成网络模型实施训练，根据本申请前文所揭示的指针生成网络模型的结构及原理，可以理解，该指针生成网络模型将根据该组样本数据中，由文本特征提取模型所提取的文本特征向量来预测出所述标题文本相对应的两个指针向量，包括首字指针向量和尾字指针向量。

指针生成网络模型对所述首字指针向量和尾字指针向量的提取过程及其变换公式可以参阅前述所述，此处恕不赘述。

步骤S4300、根据被训练的该组样本数据中的首字指针向量和尾字指针向量分别对应监督所述指针生成网络模型预测出的首字指针向量和尾字指针向量并计算损失值，在损失值大于预设阈值时调用下一组样本数据对该指针生成网络模型继续迭代训练：

当一组样本数据中的商品标题文本对应的两个指针向量被预测出之后，便可利用该组样本数据中预备的两个指针向量一一对应对与预测出的两个指针向量计算预测损失，然后将两者的损失叠加，获得整个模型相对应的损失值，根据该损失值反向传播修正指针网络生成模型的权重参数，从而实现梯度更新。

如果本次训练的损失值未达到期望的预设阈值，即表示指针生成网络模型未达到收敛状态，据此，可以进一步调用另一组样本数据对该模型继续迭代训练，以此类推，不断迭代，最终使损失值接近于0或达至期望的预设阈值，即可视为模型收敛，从而可将模型投入使用。

本实施例通过给出将本申请所实现的指针生成网络模型训练为服务于电商领域商品信息的命名实体提取的示例，方便本领域技术人员举一反三将本申请的指针生成网络模型应用于相似领域，可以理解，只要应用相应领域的相关样本数据和映射词表，即可使该指针生成网络模型适于服务相应的领域的命名实体提取所需。

请参阅图12，适应本申请的目的之一而提供的一种命名实体识别装置，是对本申请的命名实体识别方法的功能化体现，该装置包括：文本获取模块1100、特征提取模块1200、指针生成模块1300，以及实体提取模块1400，其中，所述文本获取模块1100，用于获取待识别命名实体的文本信息，所述文本信息包括多个单字；所述特征提取模块1200，用于提取所述文本信息的深层语义信息，获得其文本特征向量；所述指针生成模块1300，用于根据所述文本特征向量生成首字指针向量和尾字指针向量，每个指针向量包括按序指向所述文本信息中的各个单字的指针元素，两个指针向量中与文本信息内命名实体的首字、尾字相对应的指针元素存储该命名实体所属实体类型的索引标签；所述实体提取模块1400，用于提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体。

深化的实施例中，所述文本获取模块1100包括：对象获取子模块，用于获取待识别命名实体的商品对象；文本提取子模块，用于提取所述商品对象的商品标题文本和/或商品详情信息，作为商品信息；文本优化子模块，用于对所述商品对象的商品信息进行数据清洗，将数据清洗后的文本信息构造为待识别命名实体的文本信息。

深化的实施例中，所述指针生成模块1300中，调用预训练的指针生成网络模型实现，该指针生成网络模型包括：首字指针网络，用于以所述文本特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前单字相对应的首字指针向量；向量拼接网络，用于将所述文本特征向量与所述当前字相对应的首字指针向量相拼接，获得当前字相对应的融合特征向量；尾字指针网络，用于以所述融合特征向量为待处理向量输入，适应所述文本信息逐字采用编码器对待处理向量进行特征运算，以生成当前字相对应的尾字指针向量。

深化的实施例中，所述实体提取模块1400包括：字符提取子模块，用于根据首字指针向量和尾字指针向量获取不同命名实体的首字指针元素和尾字指针元素对应的索引标签；映射还原子模块，用于查询预设的映射词表，还原所述索引标签相对应的实体类型；列表构造子模块，用于根据各命名实体的首字指针元素和尾字指针元素所指向的文本信息中的单字所限定的边界，提取出各个命名实体相对应的字符串，构造出实体类型与命名实体对应关系列表。

为解决上述技术问题，本申请实施例还提供计算机设备。如图13所示，计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种命名实体识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的命名实体识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图12中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的命名实体识别装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的命名实体识别方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请基于文本信息进行深层语义提取获得文本特征向量之后，在文本特征向量的基础上统一生成分别用于指示文本信息中的命名实体的首字和尾字的两个指针向量，即首字指针向量和尾字指针向量，通过该两个指针向量即可批量提取出文本信息中的多个命名实体，提升了命名实体识别效率，召回率和准确率较高，特别适用于需要进行海量数据处理的应用场景中，诸如从电商平台的商品信息中提取出相关商品属性信息，即可以本申请的方法批量处理电商平台中海量商品对象的商品信息，从而提取出各个商品对象中的命名实体，用于构造其商品属性信息，可见，本申请的技术方案应用前景非常广阔。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种命名实体识别方法，其特征在于，包括：

提取所述文本信息的深层语义信息，获得其文本特征向量；

2.根据权利要求1所述的命名实体识别方法，其特征在于，获取待识别命名实体的文本信息，包括如下步骤：

获取待识别命名实体的商品对象；

3.根据权利要求1所述的命名实体识别方法，其特征在于，根据所述文本特征向量生成首字指针向量和尾字指针向量，调用预训练的指针生成网络模型实现，该指针生成网络模型执行如下步骤：

4.根据权利要求3所述的命名实体识别方法，其特征在于，所述编码器对应文本信息中每一单字执行如下步骤以获得相应的首字指针向量或尾字指针向量：

5.根据权利要求4所述的命名实体识别方法，其特征在于，根据当前字相对应的首字指针向量、尾字指针向量以及前一单字相对应的隐层记忆向量更新当前单字相对应的隐层记忆向量供下一单字的编码过程引用，包括如下步骤：

6.根据权利要求1至5中任意一项所述的命名实体识别方法，其特征在于，提取所述两个指针向量中相同索引标签的指针元素所指向的文本信息中的单字之间的字符串作为命名实体，包括如下步骤：

7.根据权利要求3至5中任意一项所述的命名实体识别方法，其特征在于，所述指针生成网络模型被预先训练，其训练过程包括如下步骤：

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。