CN112215000B

CN112215000B - 一种基于实体替换的文本分类方法

Info

Publication number: CN112215000B
Application number: CN202011131161.6A
Authority: CN
Inventors: 刘洪涛; 章家涵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-08-23
Anticipated expiration: 2040-10-21
Also published as: CN112215000A

Abstract

本发明请求保护一种基于实体替换的文本分类方法，属于自然语言处理领域，具体包括以下步骤：(1)利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合；(2)将文档词向量求平均，得到文档的上下文向量；(3)分别计算各锚定短语对应实体在上下文表示向量下的注意力权重，得到各短语的去歧向量(4)将原文位置上的锚定短语替换为去歧实体向量并输入长短时记忆网络，得到去歧后的文档表示向量，并将其输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；(5)利用训练好的模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。该方法能够消除文档中词语语义含糊不清的情况，并且保留了语序信息和上下文信息，可以更准确地对文本内容进行分类。

Description

一种基于实体替换的文本分类方法

技术领域

本发明属于自然语言处理领域，特别是涉及一种基于实体替换的文本分类方法。

背景技术

文本分类是自然语言处理的一项重要任务，指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。其广泛应用于例如主题分类、垃圾邮件检测和情感分类等诸多场景。近年来，深度学***均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。

除了上述方法，还有研究尝试使用知识库(KB)中的实体来捕获语义信息。这种方法使用一组与文档相关的实体(或实体袋)来表示文档。使用实体的好处在于：与词不同，实体提供了明确的语义信息，因为它们在知识库中是唯一标识的，而词可能存在语义含糊不清的现象(如：“苹果”可以指水果，也可以指苹果公司，在不同的语境下可能有不同的含义)。但是，如之前使用词袋模型的方法一样，只简单地使用一组实体表示文档会丢失掉语序信息。同时，一些非实体的描述性文字也同样具有丰富的信息。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种通过找出合适的实体来替换掉原文中语义模糊的词，在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息的基于实体替换的文本分类方法。本发明的技术方案如下：

一种基于实体替换的文本分类方法，其包括以下步骤：

S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合；

S2:将文档词向量获得的实体集合来求嵌入矩阵求平均，得到文档的上下文向量；

S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重，得到各实体的去歧向量；

S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络，得到去歧后的文档表示向量，并将去歧后的文档表示向量输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；

S5:利用训练好的模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。

进一步的，所述步骤S1中，利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合，包括以下步骤：

S11:定义“实体”为知识库中确定，无歧义的对象；“锚定短语”为字面形式的文字，一个锚定短语可对应多个实体，一个实体也可以由多个锚定短语来表示；

S12:在外部资料库Wikipedia中收集所有的锚定短语，对于每一个锚定短语s，将所有与其有连接的实体{e₁,e₂,...e_K}作为它的实体字典，所有的锚定短语与其实体字典共同构成Wikipedia字典；

S13:抽取出文档T中所有n-grams短语(n≤k)，n-grams短语指由n个词构成的短语，如果一个n-grams可以在Wikipedia字典中作为锚定短语存在，并且有至少两个对应的实体，那么就把这个n-grams加入候选锚定短语，对于有矛盾覆盖的n-grams短语，采取“最先最长”的方法，即选取最长的最先出现的n-grams短语，一个文档中的所有锚定短语表示为：

U(T)＝{c₁,c₂,...}

第i个锚定短语对应的实体集合表示为：

E(c_i)＝{e₁,e₂,...}。

进一步的，所述步骤S2中，将文档词向量求平均，得到文档的上下文向量，包括以下步骤：

S21:使用Wikipedia2Vec工具进行预训练，得到单词和实体的嵌入矩阵，令文档中第i个词的词向量

表示x是d维向量)，

表示d维空间，d表示维度数，文档长度为n，则句子表示为：

x_1:n＝[x₁；x₂；...；x_n]

S22:对文档T，将词向量求平均，得到文档的上下文向量，计算公式如下：

其中，C为文档的上下文向量。

进一步的，所述步骤S3中，分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重，得到各锚定短语的去歧向量，包括以下步骤：

S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵，得到步骤S1中匹配到的实体对应的向量表示，令文档中第i个锚定短语对应的第j个实体向量

S32:对于每个锚定短语，计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重，然后对实体向量加权求和，得到各锚定短语的去歧向量，计算公式如下：

其中，α_ij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重，v为文档第i个锚定短语对应实体的个数，z_i为文档第i个锚定短语的去歧向量。

进一步的，所述步骤S4中，将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络，得到去歧后的文档表示向量，并将其输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络，包括以下步骤：

S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量，则文档可表示为T＝[x₁；...；z₁；...；z_v；...；x_n]，z_v表示最后一个去歧向量，x_n表示最后一个原文词向量，为方便描述，记为[l₁；...；l_r]，其中r为替换后所含向量数目；

S42:对于文档T，将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中，对于长短期记忆网络的正向，依次输入l₁,...,l_r，对于长短期记忆网络的反向，则依次输入l_r,...,l₁；计算每个词在正向和反向的隐层状态值，将这些隐层状态值求和，得到最终去歧后的文档表示向量，计算公式如下：

其中，l_i为文档表示中第i个向量，f为长短时记忆网络中隐层状态计算函数，

表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量，

表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量，o为文档的去歧向量；

S43:将文档的去歧向量输入到全连接层，并使用softmax归一化，计算文档属于各类别的概率，最后以对数似然函数为损失函数，通过随机梯度下降，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型，计算公式如下:

p＝softmax(W_co+b_c)

其中，W_c为全连接层权重矩阵，b_c为偏置项，softmax是归一化操作，p为文档属于各个类别的概率，x为训练集中的文档，y为其真实类别标签，θ为模型参数。

本发明的优点及有益效果如下：

本发明提供了一种基于实体替换的文本分类方法，利用知识库以及注意力机制找出合适的实体来替换掉原文中语义模糊的词，得到去除歧义后的文档表示向量。在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。从而提升了模型对文档的语义的理解，更可靠准确地对文档进行分类。

本发明主要创新是将文档原文中对应位置的语义不清的短语或词语替换为知识库中的无歧义实体，这样相对于只找出实体并将其视作无序集合的方法而言，保留了语序信息和其他描述性信息。对于每一个有歧义的短语，都使用注意力机制找出短语最有可能的实体，提高了确定实体的准确性。

附图说明

图1是本发明提供优选实施例的流程图；

图2为本发明提供的基于实体替换的文本分类方法的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明主要提供了一种基于实体替换的文本分类方法。采用图1所示处理流程。利用知识库找出与文档相关的实体集，利用图2所示注意力机制来选择正确的实体并替换掉原文中语义模糊的词，得到去除歧义后的文档表示向量，在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。

本发明的一种基于实体替换的文本分类方法包括以下步骤：

本实施例中，具体实现S1的子步骤如下：

S11:定义“实体”为知识库中确定，无歧义的对象；“锚定短语”为字面形式的文字。一个锚定短语可对应多个实体，一个实体也可以由多个锚定短语来表示；

S12:在外部资料库Wikipedia中收集所有的锚定短语，对于每一个锚定短语s，将所有与其有连接的实体{e₁,e₂,...e_K}作为它的实体字典。所有的锚定短语与其实体字典共同构成Wikipedia字典；

S13:抽取出文档T中所有n-grams短语(n≤k)，如果一个n-grams可以在Wikipedia字典中作为锚定短语存在，并且有至少两个对应的实体，那么就把这个n-grams加入候选锚定短语。一个文档中的所有锚定短语表示为：

U(T)＝{c₁,c₂,...}

第i个锚定短语对应的实体集合表示为：

E(c_i)＝{e₁,e₂,...}

S2:将文档词向量求平均，得到文档的上下文向量；

本实施例中，具体实现S2的子步骤如下：

文档长度为n，则句子表示为：

x_1:n＝[x₁；x₂；...；x_n]

S22:：对文档T，将词向量求平均，得到文档的上下文向量，计算公式如下：

其中，C为文档的上下文向量。

本实施例中，具体实现S3的子步骤如下：

S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵，得到步骤S1中匹配到的实体对应的向量表示。令文档中第i个锚定短语对应的第j个实体向量

S32:对于每个锚定短语，计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重，然后对实体向量加权求和，得到各锚定短语的去歧向量。计算公式如下：

S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络，得到去歧后的文档表示向量，并将其输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；

本实施例中，具体实现S4的子步骤如下：

S41:将原文档的锚定短语替换为步骤S3所得的其对应去歧向量，则文档可表示为T＝[x₁；...；z₁；...；z_v；...；x_n]，为方便描述，记为[l₁；...；l_r]，其中r为替换后所含向量数目；

S42:对于文档T，将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中，对于长短期记忆网络的正向，依次输入l₁,...,l_r，对于长短期记忆网络的反向，则依次输入l_r,...,l₁；计算每个词在正向和反向的隐层状态值，将这些隐层状态值求和，得到最终去歧后的文档表示向量。计算公式如下：

S43:将文档的去歧向量输入到全连接层，并使用softmax归一化，计算文档属于各类别的概率，最后以对数似然函数为损失函数，通过随机梯度下降，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型，计算

公式如下:

p＝softmax(W_co+b_c)

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。