CN111950287B

CN111950287B - 一种基于文本的实体识别方法及相关装置

Info

Publication number: CN111950287B
Application number: CN202010844442.XA
Authority: CN
Inventors: 左亚尧; 洪嘉伟; 陈致然
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-04-23
Anticipated expiration: 2040-08-20
Also published as: CN111950287A

Abstract

本申请公开了一种基于文本的实体识别方法及相关装置，方法包括：通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集；采用预置BiLSTM模型提取预置词语数据集的上下文特征向量，构成上下文特征向量集；通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集；将词语特征向量、上下文特征向量和词性特征向量拼接成融合特征向量；采用预置卷积神经网络模型处理预置边矩阵数据集和融合特征向量集，得到词语标签概率矩阵；采用预置CRF模型对词语标签概率矩阵进行处理，得到命名实体的识别结果。本申请能够解决现有技术计算耗时较长、特征选取不可靠以及识别准确度较低的技术问题。

Description

一种基于文本的实体识别方法及相关装置

技术领域

本申请涉及实体识别技术领域，尤其涉及一种基于文本的实体识别方法及相关装置。

背景技术

命名实体识别在自然语言处理中扮演者非常重要的角色，它是信息抽取、信息检索、机器翻译和问答***扥自然语言处理任务的基础，命名实体识别的主要任务就是识别出文本中类似于名称和机构等专有词，并对其进行分类。

现有的命名实体识别方法的特征提取受人工影响较大，且没有考虑时间因素这一特征的影响，导致命名实体的识别准确度较低，另外，一些深度循环网络的计算量非常大，要消耗大量的时间完成计算。

发明内容

本申请提供了一种基于文本的实体识别方法及相关装置，用于解决现有技术计算耗时较长、特征选取不可靠以及识别准确度较低的技术问题。

有鉴于此，本申请第一方面提供了一种基于文本的实体识别方法，包括：

通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，所述词语特征向量集包括词语特征向量；

采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量，构成上下文特征向量集，所述预置BiLSTM模型基于自注意力机制构建；

通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，所述词性特征向量集包括词性特征向量；

将所述词语特征向量、所述上下文特征向量和所述词性特征向量拼接成融合特征向量，构成融合特征向量集；

采用预置卷积神经网络模型处理预置边矩阵数据集和所述融合特征向量集，得到词语标签概率矩阵；

采用预置CRF模型对所述词语标签概率矩阵进行处理，得到命名实体的识别结果。

进一步地，所述通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，所述词语特征向量集包括词语特征向量，之前还包括：

采用爬虫获取大量的文本数据，构成初始文本数据集；

通过预置狄利克雷主题模型对所述初始文本数据集进行筛选，得到筛选后的文本数据集；

利用预置分词工具对所述筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作，得到句法依存图；

根据所述句法依存图得到所述预置词语数据集和所述预置词性数据集。

进一步地，所述利用预置分词工具对所述筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作，得到句法依存图，之后还包括：

根据所述句法依存图计算所述预置词语数据集对应的边矩阵，构成所述预置边矩阵数据集。

进一步地，所述采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量，构成上下文特征向量集，之前还包括：

构建基于自注意力机制的初始BiLSTM模型；

将所述初始BiLSTM模型进行预训练，得到所述预置BiLSTM模型，所述预置BiLSTM模型包括预训练得到的自注意力权重。

本申请第二方面提供了一种基于文本的实体识别装置，包括：

第一映射模块，用于通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，所述词语特征向量集包括词语特征向量；

提取模块，用于采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量，构成上下文特征向量集，所述预置BiLSTM模型基于自注意力机制构建；

第二映射模块，用于通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，所述词性特征向量集包括词性特征向量；

融合模块，用于将所述词语特征向量、所述上下文特征向量和所述词性特征向量拼接成融合特征向量，构成融合特征向量集；

标签识别模块，用于采用预置卷积神经网络模型处理预置边矩阵数据集和所述融合特征向量集，得到词语标签概率矩阵；

结果处理模块，用于采用预置CRF模型对所述词语标签概率矩阵进行处理，得到命名实体的识别结果。

进一步地，还包括：

获取模块，用于采用爬虫获取大量的文本数据，构成初始文本数据集；

筛选模块，用于通过预置狄利克雷主题模型对所述初始文本数据集进行筛选，得到筛选后的文本数据集；

句法分析模块，用于利用预置分词工具对所述筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作，得到句法依存图；

文本划分模块，用于根据所述句法依存图得到所述预置词语数据集和所述预置词性数据集。

进一步地，还包括：

计算模块，用于根据所述句法依存图计算所述预置词语数据集对应的边矩阵，构成所述预置边矩阵数据集。

进一步地，还包括：

构建模块，用于构建基于自注意力机制的初始BiLSTM模型；

本申请第三方面提供了一种基于文本的实体识别设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的基于文本的实体识别方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一项所述的基于文本的实体识别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种基于文本的实体识别方法，包括：通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，词语特征向量集包括词语特征向量；采用预置BiLSTM模型提取预置词语数据集的上下文特征向量，构成上下文特征向量集，预置BiLSTM模型基于自注意力机制构建；通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，词性特征向量集包括词性特征向量；将词语特征向量、上下文特征向量和词性特征向量拼接成融合特征向量，构成融合特征向量集；采用预置卷积神经网络模型处理预置边矩阵数据集和融合特征向量集，得到词语标签概率矩阵；采用预置CRF模型对词语标签概率矩阵进行处理，得到命名实体的识别结果。

本申请提供的基于文本的实体识别方法，根据文本数据的特点将文本中的词语和词性分别进行特征映射处理，得到不同的特征向量，扩充了文本的特征表达；而上下文特征向量则反映了文本的句法依存关系，描述了文本数据在时序上的关联；将三种不同类别和不同层次的特征进行融合，然后采用预置卷积神经网络模型进行标签识别，不仅从特征上增强实体的表征能力，还提升了识别的准确率；另外，不论是特征映射还是识别采用的模型均已经构建训练完成，因此本方法的实际计算量非常小，耗时较短。因此，本申请能够解决现有技术计算耗时较长、特征选取不可靠以及识别准确度较低的技术问题。

附图说明

图1为本申请实施例提供的一种基于文本的实体识别方法的一个流程示意图；

图2为本申请实施例提供的一种基于文本的实体识别方法的另一个流程示意图；

图3为本申请实施例提供的一种基于文本的实体识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于文本的实体识别方法的实施例一，包括：

步骤101、通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，词语特征向量集包括词语特征向量。

第一预置Word2Vec模型可以看作是词向量模型，且是无监督模型，根据输入的词语数据集学习得到词语向量，或者说是将词语数据集映射为词语向量集，具体的处理过程其实是将单词随机初始化为若干维度的向量，将文本信息转化为数字信息；通过文档的单词学习使相同语义的词向量相似，不同语义的词向量相异。Word2Vec模型的输出维度可以根据实际情况设置。

步骤102、采用预置BiLSTM模型提取预置词语数据集的上下文特征向量，构成上下文特征向量集，预置BiLSTM模型基于自注意力机制构建。

BiLSTM模型可以提取到词语在时序上的关联，也就是上下文之间的关联关系，正是这一特点，BiLSTM模型更有利于表达词语数据集在时序上的上下文特征。预置BiLSTM模型基于自注意力机制构建得到，就是在构建BiLSTM模型时，使用的权重为自注意力权重，从而影响词语的上下文特征向量；模型已经预先训练完成，可以看作是文本的上下文特征特征提取器。

步骤103、通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，词性特征向量集包括词性特征向量。

第二预置Word2Vec模型与第一预置Word2Vec模型结构相同，且任务也是将词性表达转化为数字表达，但是两个模型的输出并不一定相同，可以根据情况设置为不同的输出维度。词性数据集与词语数据集是对应关系，也就是，词语的每个词都有特定的词性。

步骤104、将词语特征向量、上下文特征向量和词性特征向量拼接成融合特征向量，构成融合特征向量集。

将不同维度的特征向量进行拼接融合，可以得到维度较大的融合特征向量，采用融合特征向量表征文本的实体，更具有说服力，更加可靠；且各种特征的提取均采用了可靠的技术，不依赖于人工的选择；多种特征向量描述实体也可以增强特征表达能力，面对不同质量的数据也具有较强的鲁棒性。

步骤105、采用预置卷积神经网络模型处理预置边矩阵数据集和融合特征向量集，得到词语标签概率矩阵。

预置卷积神经网络模型是经过预训练后得到的模型，能够从预置边矩阵和融合特征向量中得到各个词语的特征值，将词语的特征值通过全连接层得到词语标签的概率值，最终形成词语标签概率矩阵，矩阵中的每个元素代表某个词语的标签概率。预置边矩阵是根据词语数据集进行句法分析后计算得到的矩阵，用于描述词语数据集中的句法关系。

步骤106、采用预置CRF模型对词语标签概率矩阵进行处理，得到命名实体的识别结果。

预置CRF模型也称作条件随机场模型，是一种无向图模型，可以有效的应用于分词、词性标注和命名实体识别等序列标注任务中；条件随机场模型是一个典型的判别式模型，其联合概率可以写成若干势函数联乘的形式。采用CRF模型对词语标签概率矩阵进行处理，就可以得到未来命名实体，及识别结果。

为了便于理解，请参阅图2，本申请提供了一种基于文本的实体识别方法的实施例二，包括：

步骤201、采用爬虫获取大量的文本数据，构成初始文本数据集。

步骤202、通过预置狄利克雷主题模型对初始文本数据集进行筛选，得到筛选后的文本数据集。

利用爬虫获取大量的文本数据，构成的初始文本数据集记作T₁，通过预置狄利克雷主题模型处理初始文本数据集T₁，每个文本获取5个主题，判断5个主题中是否带有未来描述的关键词，便于对未来的命名实体进行预测识别，若有则筛选为保留文本数据集T₂，否则丢弃该文本数据。

步骤203、利用预置分词工具对筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作，得到句法依存图。

步骤204、根据句法依存图得到预置词语数据集和预置词性数据集。

可以采用斯坦福分词工具作为预置分词工具对筛选后的文本数据集T₂进行触发词类型筛选，此处的筛选是为了得到将来时态的文本句子，然后进行句法依存分析，得到句法依存图，具体过程是将句子分词处理，得到词语和每个词语对应的词性，例如“小明希望小阳没有去过游乐场”经过句法分析后可以得到词语数据集{小明，希望，小阳，没有，去过，游乐场}，以及词性数据集{NR，VV，NR，AD，VV，NN}。词语数据集可以表示为T＝{doc₁,doc₂,...,doc_n}，其中，doc_i由若干词语组成，即doc_i＝{word₁,word₂,...,word_m}，词性数据集表示为Pos＝{docx₁,docx₂,...,docx_n}，其中，docx_i由若干词性组成，即docx_i＝{pos₁,pos₂,...,pos_m}。句法依存图是一种倒立树状图，分支由不同的词组成。

步骤205、根据句法依存图计算预置词语数据集对应的边矩阵，构成预置边矩阵数据集。

计算过程为：设定边矩阵的初始维度即为词语数量，根据句法依存图填充矩阵中的元素值，如果有分支边则填1，否则填0，这个过程可以限制每个单词的层次不超过3。得到的边矩阵数据集可以表示为L＝{L₁,L₂,...,L_n}。

步骤206、通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，词语特征向量集包括词语特征向量。

用D＝{doc'₁,doc'₂,...,doc'_n}表示词语特征向量集，每个词语特征向量doc'_i的维度为50维，即50个词语组成，具体描述为doc'_i＝{v_i1,v_i2,...,v_i50}。

步骤207、构建基于自注意力机制的初始BiLSTM模型；

步骤208、将初始BiLSTM模型进行预训练，得到预置BiLSTM模型，预置BiLSTM模型包括预训练得到的自注意力权重。

步骤209、采用预置BiLSTM模型提取预置词语数据集的上下文特征向量，构成上下文特征向量集，预置BiLSTM模型基于自注意力机制构建。

预置BiLSTM模型由BiLSTM层和自注意力层组成，其中BiLSTM层包括两个LSTM单元，分别对输入的数据进行正向学习和逆向学习，从而得到上下文信息，若是输入数据集为X＝{x₁,x₂,...,x_n}，经过BiLSTM层可以得到两个输出序列H₁＝{h₁,h₂,...,h_n}和H₂＝{h'₁,h'₂,...,h'_n}，融合H₁和H₂得到上下文向量O＝{o₁,o₂,...,o_n}，根据O计算自注意力权重Atten_weight＝{w₁,w₂,...,w_n}，将BiLSTM层得到的输出结果输入自注意力层进行处理，就可以得到目标上下文特征向量集S＝{d₁,d₂,...,d_n}，其中上下文特征向量d_i是30维度向量，表达为d_i＝{d_i1,d_i2,...,d_i30}。

步骤210、通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，词性特征向量集包括词性特征向量。

词性数据集表示为Pos＝{docx₁,docx₂,...,docx_n}，通过第二预置Word2Vec模型提取的词性特征向量集为M＝{m₁,m₂,...,m_n}，其中文档m_i＝{m_i1,m_i2,...,m_i20}，其维度为20。

步骤211、将词语特征向量、上下文特征向量和词性特征向量拼接成融合特征向量，构成融合特征向量集。

将上述获取到的特征向量进行拼接后可以得到100维的融合特征向量N＝{n₁,n₂,...,n₁₀₀}；融合特征向量的表征能力更强，得到的识别结果更加可靠。

步骤212、采用预置卷积神经网络模型处理预置边矩阵数据集和融合特征向量集，得到词语标签概率矩阵。

采用卷积神经网络模型对融合特征向量集的处理过程在此不再赘述，具体过程参考步骤105。

步骤213、采用预置CRF模型对词语标签概率矩阵进行处理，得到命名实体的识别结果。

为了便于理解，请参阅图3，本申请还提供了一种基于文本的实体识别装置的实施例，包括：

第一映射模块301，用于通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集，词语特征向量集包括词语特征向量；

提取模块302，用于采用预置BiLSTM模型提取预置词语数据集的上下文特征向量，构成上下文特征向量集，预置BiLSTM模型基于自注意力机制构建；

第二映射模块303，用于通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集，词性特征向量集包括词性特征向量；

融合模块304，用于将词语特征向量、上下文特征向量和词性特征向量拼接成融合特征向量，构成融合特征向量集；

标签识别模块305，用于采用预置卷积神经网络模型处理预置边矩阵数据集和融合特征向量集，得到词语标签概率矩阵；

结果处理模块306，用于采用预置CRF模型对词语标签概率矩阵进行处理，得到命名实体的识别结果。

进一步地，还包括：

获取模块307，用于采用爬虫获取大量的文本数据，构成初始文本数据集；

筛选模块308，用于通过预置狄利克雷主题模型对初始文本数据集进行筛选，得到筛选后的文本数据集；

句法分析模块309，用于利用预置分词工具对筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作，得到句法依存图；

文本划分模块310，用于根据句法依存图得到预置词语数据集和预置词性数据集。

进一步地，还包括：

计算模块311，用于根据句法依存图计算预置词语数据集对应的边矩阵，构成预置边矩阵数据集。

进一步地，还包括：

构建模块312，用于构建基于自注意力机制的初始BiLSTM模型；

将初始BiLSTM模型进行预训练，得到预置BiLSTM模型，预置BiLSTM模型包括预训练得到的自注意力权重。

本申请还提供了一种基于文本的实体识别设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的任一项基于文本的实体识别方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的任一项基于文本的实体识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于文本的实体识别方法，其特征在于，包括：

采用爬虫获取大量的文本数据，构成初始文本数据集；

根据所述句法依存图得到预置词语数据集和预置词性数据集；

根据所述句法依存图计算所述预置词语数据集对应的边矩阵，构成所述预置边矩阵数据集；

2.根据权利要求1所述的基于文本的实体识别方法，其特征在于，所述采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量，构成上下文特征向量集，之前还包括：

构建基于自注意力机制的初始BiLSTM模型；

3.一种基于文本的实体识别装置，其特征在于，包括：

文本划分模块，用于根据所述句法依存图得到预置词语数据集和预置词性数据集；

计算模块，用于根据所述句法依存图计算所述预置词语数据集对应的边矩阵，构成所述预置边矩阵数据集；

4.根据权利要求3所述的基于文本的实体识别装置，其特征在于，还包括：

构建模块，用于构建基于自注意力机制的初始BiLSTM模型；

5.一种基于文本的实体识别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-2任一项所述的基于文本的实体识别方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-2任一项所述的基于文本的实体识别方法。