CN113361615A

CN113361615A - 基于语义相关性的文本分类方法

Info

Publication number: CN113361615A
Application number: CN202110665361.8A
Authority: CN
Inventors: 薛非; 张成鲁; 刘宝琪; 李聪颖; 席欢; 余翌帆; 周玉秀; 雷帅
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-07
Anticipated expiration: 2041-06-16
Also published as: CN113361615B

Abstract

本发明公开了一种基于语义相关性的文本分类方法，对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器，所述文本监督器为文本中与文本类别语义密切相关的一系列词；通过文本关联结构信息，构建文本监督器识别子模型，获取无标签文本中的文本监督器；根据文本监督器和文本类别之间的强关联性，将标注有文本监督的文本数据作为输入，采用经典的双向长短时记忆网络模型，提取原始文本的语义特征，利用特征增强机制获取基于文本监督器增强表示的文本特征，采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合，将融合结果经SoftMax函数，进而获取文本分类结果。

Description

基于语义相关性的文本分类方法

技术领域

本发明涉及自然语言处理索领域，具体涉及一种基于语义相关性的文本分类方法。

背景技术

随着互联网和大数据时代的到来，文本数据海量增长，文本分类成为了人们处理海量数据的关键性技术，对于数据挖掘与信息检索至关重要，并在情感分析、话题检测、垃圾邮件过滤、网页分类等等领域得到广泛应用。

传统的文本分类技术只关注了文本中某个或者几个目标词来实现文本分类问题，这样存在的缺陷是对有上下文语义联系的短语将会将会出现判断错误。随着深度学习的发展，利用神经网络方法使用大量人工标注数据集能够针对特定数据训练得到高性能的文本分类模型，并取得不错的效果，至今已经有很多优秀的算法被提出，Tang等人利用递归神经网络(RecurrentNeural Network,RNN)可以学习到词序信息，在文档建模方面取得了很好的成果；基于RNN的变体如LSTM网络引入“门控”来控制信息的累计速度从而解决了RNN网络中存在的长距离依赖问题；双向长短时记忆网络是LSTM网络的进一步扩展，通过将前向隐状态和后向隐状态结合向下一个网络层中传递，增强文本上下文之间的联系，更好解决文本分类问题，Liu等人提出一种基于自注意力机制的BILSTM神经网络模型，能够学习句子内部更加丰富的语义信息，在长句子的文本分类中取得突破性进展。这些方法都是利用现有的只标注文本类别的数据集训练模型，高质量文本分类模型需要大量的人工标注数据，然而海量数据下的本类型复杂多样，使得用人工标注的方法标注大量训练数据变得异常困难，耗时、耗力且代价昂贵，已经无法满足用户需求，因此如何经济高效地从海量文本数据中获取更多有效的监督数据进行文本分类已经成为自然语言处理中的重点研究问题。

发明内容

本发明提供了一种基于语义相关性的文本分类方法，本发明通过文本信息的语义相关性经济高效地获取文本监督器，有效减少人工标注成本，并利用文本监督器和文本类别之间的语义关系，进而提升文本分类的准确率，详见下文描述：

对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器，所述文本监督器为文本中与文本类别语义密切相关的一系列词；

通过文本关联结构信息，构建文本监督器识别子模型，获取无标签文本中的文本监督器；

根据文本监督器和文本类别之间的强关联性，将标注有文本监督的文本数据作为输入，采用经典的双向长短时记忆网络(Bi-directional Long Short-Term Memory,BILSTM)模型，提取原始文本的语义特征；

利用特征增强机制获取基于文本监督器增强表示的文本特征，采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合；

将融合结果经SoftMax函数，进而获取文本分类结果。

进一步地，所述对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器包括：

将有标签文本数据进行词嵌入，所述词嵌入采用基于词级别和字符级别的向量，获取有标签文本中每一个词x_i所对应的词向量W_i＝[w_i:c_i]，以及文本类别词的语义特征T，其中w_i为词级别向量，c_i为字符级别向量，然后通过文本中每一个词所对应的词向量和文本类别词的语义特征进行内积得到内积分数向量E_score＝<W_i,T>，再利用归一化方法将E_score归一化到区间[0,1]，选择归一化分数大于阈值α₁的词作为文本监督器词，所述α₁设置为0.6。

所述文本监督器识别子模型包括图构造、图分解、图嵌入、词节点分类：

对于图构造方式是基于输入的文本序列信息构造句子图，并通过顺序边和语义边两种边融合进行句子图的连接；

其中顺序边按照文本中词节点的顺序依次连接；语义边是根据文本中各个词节点所对应的词向量之间相互内积得到内积分数向量E_score，再利用归一化方法将E_score归一化到区间[0,1]，选择归一化分数大于阈值α₂的两个词节点进行连接，所述α₂设置为0.7；

对于图分解方式是依次选取文本中的词节点作为中心词节点，并取其一阶邻居子图将句子图分解为N个词节点子图，并添加一个节点特征，从而区分词节点子图的中心词节点和其它词节点；然后利用图神经网络(GNN)嵌入词节点子图，捕获中心词节点的一阶邻居子图的结构信息，并将这些结构信息聚合到中心词节点，获取每一个中心词节点的嵌入特征，得到词节点嵌入特征矩阵；

将词节点嵌入特征矩阵作为输入，通过一个词节点分类器，获取每一个词节点分数，进而获取文本类别监督识别结果。

所述特征增强机制包括：

将原始文本特征，通过多通道注意力机制(StructuredAttention)学习多组权重向量来拟合文本中文本监督器不同成份的重要性，深入捕获文本监督器的语义信息，计算方式如下：

α_m＝SoftMax(U₂tanh(U₁M^T))f_m＝α_mM

其中，M代表了文本中所有文本监督器词的隐藏层特征矩阵，U₁和U₂和代表了计算文本监督器注意力分数的可学习参数矩阵，α_m分别代表了文本监督器特征的注意力权重，f_m代表了文本监督器特征。

为了获取基于文本监督器增强表示的文本特征H'，通过引入全局注意力机制(Global Attention)，关注当前单词与文本中其它单词相关性，得到该单词在文本层面的特征表示，深入学习句级别的语义信息，如下所示：

α＝SoftMax(v^Ttanh(W₁H^T+W₂f_m ^T)^T)

H'＝αH

其中，v，W₁，W₂为可学习参数矩阵，α为基于文本监督器增强表示的文本特征的注意力权重。

本发明提供的技术方案的有益效果是：

1、本发明提出了一种文本监督器识别子模型，利用文本监督器与文本整体的关联信息，经济高效地获取文本监督器并将其作为额外监督数据帮助进行文本分类，有效减少人工标注成本。

2、本发明充分利用文本、文本监督器和文本类别之间的语义关联性，加强文本监督器在特征学习过程中的指导作用，实现对文本分类模型的性能提升，从而提高文本分类的准确性。

附图说明

图1为一种基于语义相关性的文本分类方法的流程图；

图2为文本监督器示例图；

图3为文本监督器识别子模型网络结构的示意图；

图4位文本分类子模型网络结构示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

图1为本申请实施例的基于语义相关性的文本分类方法的流程示意图。

如图1所示的基于语义相关性的文本分类方法包括：

步骤1：对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器；

步骤2：通过文本关联结构信息，构建文本监督器识别子模型，获取无标签文本中的文本监督器；

步骤3：根据文本监督器和文本类别之间的强关联性，将标注有文本监督器的文本数据作为输入，通过词嵌入层进行词嵌入，采用经典的双向长短时记忆网络模型，提取原始文本的语义特征；

步骤4：利用特征增强机制获取基于文本监督器增强表示的文本特征，采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合，

步骤5：将融合结果经过SoftMax函数，进而获取文本分类结果。

在本实施例中，步骤1：对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器包括：

步骤11：对有标签文本数据进行词嵌入，获取有标签文本中每一个词x_i所对应的词向W_i＝[w_i:c_i]，以及文本类别词的语义特征T；

其中w_i为词级别向量，c_i为字符级别向量。

步骤12：通过文本中每一个词所对应的词向量和文本类别词的语义特征进行内积得到内积分数E_score＝<W_i,T>；

步骤13：利用归一化方法将E_score归一化到区间[0,1]，选择归一化分数大于阈值α₁的词作为文本监督器词，可以得到标注有文本监督器的文本数据；

如图2中的示例所示选择“broadcasting...basketball game”作为输入文本的文本监督器，帮助识别“sports”这个文本类别。

在本实施例中，步骤2：通过文本监督器识别子模型，从而获取无标签文本中的文本监督器包括图构造、图分解、图嵌入、词节点分类：

步骤21：充分考虑文本监督器组合的模式化及其与文本整体的关联信息，利用图结构对关联信息的表征作用，基于输入的文本序列信息构造句子图G_s＝(V,E)，V是词节点x₁,x₂,...,x_N的集合，E是边的集合；

步骤22：句子图构造通过以下两种边连接方式进行融合：1)顺序边：按照文本中词节点x₁,x₂,...,x_N的顺序依次连接，保证了词节点间的结构顺序并允许利用文本的上下文信息；2)语义边：根据文本中词节点x_i和x_j对应的词向量W_i和W_j相互内积得到内积分数E_score＝<W_i,W_j>，其中1≤i,j≤N且i≠j，利用归一化方法将E_score归一化到区间[0,1]，选择归一化分数大于阈值0.6的词节点x_i和x_j进行连接，保存语义相关的词与词之间的结构信息；

步骤23：选取词节点x_i作为中心词节点，并取其一阶邻居子图G_s将句子图分解为N个词节点子图，并添加一个节点特征，从而区分词节点子图的中心词节点和其他词节点；

步骤24：将词节点子图通过图神经网络(GNN)进行嵌入，捕获中心词节点的一阶邻居子图的结构信息G_w，并将这些结构信息聚合到中心词节点x_i，获取每一个中心词节点的嵌入特征f_i，得到词节点嵌入特征矩阵F_w＝{f₁,f₂,...,f_N}；

步骤25：将词节点嵌入特征矩阵通过softmax函数得到每一个中心词节点分数，对词节点进行分类，最终获取文本中和类别语义密切相关的文本监督器词，公式如下所示：

S_i＝SoftMax(Q₂relu(Q₁F_w))

其中，Q₁和Q₂分别为可学习参数矩阵。

在本实施例中，步骤3：将标注有文本监督器的文本数据作为输入，通过词嵌入层进行词嵌入，采用经典的双向长短时记忆网络网络模型，提取原始文本的语义特征包括：

步骤31：将标注有文本监督器的文本数据作为输入，通过词嵌入层进行词嵌入，获取每一个词x_i所对应的词向量W_i；

步骤32：将文本词向量W_i作为双向长短时记忆网络网络模型的输入，提取文本中每个词所对应的隐藏层状态特征h_i，将所有词的隐藏层状态特征进行拼接作为原始文本的语义特征H＝{h₁,h₂,...,h_N}；

在本实施例中，步骤4：利用特征增强机制获取基于文本监督器增强表示的文本特征，采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合包括：

步骤41：将原始文本特征，通过多通道注意力机制(StructuredAttention)学习多组权重向量来拟合文本中文本监督器不同成份的重要性，深入捕获文本监督器的语义信息，计算方式如下：

α_m＝SoftMax(U₂tanh(U₁M^T))f_m＝α_mM

其中，M代表了文本中所有文本监督器词的隐藏层特征矩阵，U₁和U₂和代表了计算文本监督器注意力分数的可学习参数矩阵，α_m分别代表了文本和文本监督器特征的注意力权重，f_m代表了文本监督器特征。

步骤42：为了获取基于文本监督器增强表示的文本特征H'，通过引入全局注意力机制(GlobalAttention)，关注当前单词与文本中其它单词相关性，得到该单词在文本层面的特征表示，深入学习句级别的语义信息，如下所示：

α＝SoftMax(v^Ttanh(W₁H^T+W₂f_m ^T)^T)

H'＝αH

步骤43：采用拼接的方式将原始文本特征和基于文本监督器增强表示的文本特征进行融合，并将融合结果经SoftMax函数，进而获取文本分类结果。

综上所述，本发明实施例通过文本信息的语义相关性，经济高效地获取文本监督器作为额外监督数据帮助文本分类，有效减少人工标注成本，并提升文本分类的准确率。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义相关性的文本分类方法，其特征在于，所述方法包括以下步骤：

将融合结果经SoftMax函数，进而获取文本分类结果。

2.根据权利要求1所述的一种语义相关性的文本分类方法，其特征在于，所述对有标签文本数据进行预处理，从而获取有标签文本数据中的文本监督器包括：

将有标签文本数据进行词嵌入，所述词嵌入采用基于词级别和字符级别的向量进行拼接，获取有标签文本中每一个词所对应的词向量，以及文本类别词的语义特征；然后通过文本中每一个词所对应的词向量和文本类别词的语义特征进行内积得到内积分数向量E_score，再利用归一化方法将E_score归一化到区间[0,1]，选择归一化分数大于阈值α₁的词作为文本监督器词，所述α₁设置为0.6。

3.根据权利要求1所述的一种语义相关性的文本分类方法，其特征在于，所述构建文本监督器识别子模型包括图构造、图分解、图嵌入、词节点分类：

4.根据权利要求1所述的一种语义相关性的文本分类方法，其特征在于，所述特征增强机制包括：

将原始文本特征，通过多通道注意力机制(Structured Attention)学习多组权重向量来拟合文本中文本监督器不同成份的重要性，深入捕获文本监督器的语义信息，计算方式如下：

α_m＝SoftMax(U₂tanh(U₁M^T))f_m＝α_mM

为了获取基于文本监督器增强表示的文本特征H'，通过引入全局注意力机制(GlobalAttention)，关注当前单词与文本中其它单词相关性，得到该单词在文本层面的特征表示，深入学习句级别的语义信息，如下所示：

α＝SoftMax(v^Ttanh(W₁H^T+W₂f_m ^T)^T)

H'＝αH