CN108846017A

CN108846017A - 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

Info

Publication number: CN108846017A
Application number: CN201810426304.2A
Authority: CN
Inventors: 李雄; 张传新; 刘春阳; 张旭; 王萌; 王慧; 王利军; 李磊
Original assignee: Beijing Tianrun Foundation Technology Development Ltd By Share Ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Tianrun Foundation Technology Development Ltd By Share Ltd; National Computer Network and Information Security Management Center
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-20

Abstract

本发明一种基于Bi‑GRU和字向量的大规模新闻文本的端到端分类方法，包括如下步骤：S1.进行Word Embedding的字级别语义特征表示；S2.构建注意力权重的Bi‑GRU字级别的句子特征编码模型；S3.搭建基于注意力权重的Bi‑GRU句子级别特征编码模型；S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度，且有效地防止特征过于稀疏问题。优化了最终的输出向量，增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题，又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器，方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。

Description

基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

技术领域

本发明涉及一种针对大规模新闻语料的文本分类技术，尤其涉及一种基于Bi-GRU(Bi-directional Gated Recurrent Unit)和字向量的大规模新闻文本的端到端分类方法，它整合了文本向量表示技术和深度学习模型Bi-GRU原理。针对文本分类的特征选择问题，设计了Bi-GRU模型用于提取特征，改善了序列神经网络模型在处理长文本中的语义特征训练中的长期依赖问题。同时通过注意力机制(Attention mechanism)的方法，得到含有输入序列节点注意力权重分布的语义编码，并将其作为分类器的输入，减少了特征向量提取过程中的信息丢失和信息冗余。本发明属于自然语言处理领域。

背景技术

目前，互联网己经进入了大数据时代，大量的数据信息源源不断催生，其中文本信息的数量最大，表现为超大规模、特征复杂、难以语义转化等特点。在新闻文本中，蕴含丰富的语义信息，具有非常大的应用价值，是国家政府与企业发展不可或缺的非物质生产要素，其重要性和价值已经得到了各国政府、企业和科研机构的广泛关注。文本信息规模大、种类多、语义信息表示难等特征使得文本的信息数量难以以人工的方法去区分和整理。因此，如何有效地快速地对文本信息分类整理变得相当重要，这也催生了文本分类技术。

文本分类技术意图实现文本的自动分类，解决信息杂乱的问题，提供一种高效的信息分类方法和信息获取途径。同时，文本分类技术也是数据挖掘的基础技术之一。文本分类技术从对文本分类需要获取语义信息的粒度来讲，可以分为：粗粒度的文本语义获取与分类，比如文本主题挖掘；以及面向特定领域提供细粒度的文本语义信息，比如，评论分类、观点分类、情感分类、知识图谱中的实体、关系分类等。文本分类技术对数据挖掘领域的研究有着很宽泛的研究基础以及研究价值。

基于机器学习的文本分类技术在90年代取代了之前的分类技术成为了主流。基于机器学习的分类技术一般需要先获取文本的特征信息，然后构建分类器，这样可以省去大量的人工成本。鉴于文本分类的重要性，许多研究机构致力于文本分类技术的研究，例如，微软亚洲研究院成立了自然语言研究组。与此同时，大量的语料库也相继出现，为研究文本分类技术提供了数据支持。目前，基于深度学习的自然语言处理成为了主流的研究方向。比如基于注意力机制的卷积神经网络(CNN)与循环神经网络(RNN)及其改进的神经网络模型在处理大规模文本分类任务中表现出非常明显的效果。传统做法主要问题的文本表示是高纬度高稀疏的，特征表达能力很弱，此外需要人工进行特征工程，成本很高。运用深度学习解决大规模文本分类问题最重要的是解决文本表示，再利用CNN/RNN等网络结构自动获取特征表达能力，去掉繁杂的人工特征工程，端到端的解决问题。其中循环神经网络模型由于能够表征文本语料的序列语义语法特征，作为文本分类的主要研究方法之一，但经典的RNN模型在求解过程中存在梯度***和消失问题，对长文本的效果不佳。

发明内容

1、目的：面向大规模新闻文本、本发明提供一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，首先基于Bi-GRU特征训练方法，并把注意力机制融入监督学习模型中，实现文本分类。针对词级别的句子词向量表示与句子级别的类别特征表示，分别构造基于注意力机制的特征学习方法。其中GRU使用“门”的方式比长短时记忆循环神经网络(LSTM)的相对简单，可以节约训练时间，同样实现不需要依赖自然语言处理标注工具的端到端的文本分类。本发明提出的方法强化了文本语义信息的特征表示，能有效处理大规模句子级别的文本分类问题。

2、技术方案：根据有监督学习的分类模型的常见过程。针对文本分类中的数据表示的高纬度难以训练问题，本发明采用词嵌入(Word Embedding)机制，对句子进行词级别特征表示，避免高维的输入导致特征抽取模型的维度灾难问题。同时采用词级别和句子级别的注意力机制训练特征向量，提高了文本分类器的性能。这种两种级别的注意力权重机制的Bi-GRU模型用于特征提取，得到含有输入序列节点注意力概率分布的语义编码以及分类类别特征的句子特征编码。并将其作为分类器的输入训练模型。优化了特征的抽取部分。使得分类的效率和准确率提升。技术实现方法主要包括三个任务：Word Embedding的文本数据表示、基于注意力权重的GRU特征训练模型、分层Softmax实现端到端分类实现。

Word Embedding词级别特征分布式表示：

文本表示的方法往往会借助于语义标注比如语法、词性、语义角色标注等来抽取语义特征，粗标注数据的准确率低，细标注数据会引起带来信息冗余，错误标注会引起错误传播问题。本发明提出的处理方法运用Word Embedding方法实现句子的字级别语义编码。WordEmbedding是一种采用机器学习的方法将单词映射到实数低维向量的技术。与传统的词向量的表示方法相比较，这种技术可以解决向量维度过高的问题，并且使用这种技术产生的词向量具有相似词语或者同义词向量相似的特点，丰富了特征向量的语义信息。WordEmbedding技术生的词向量可以用作与文本分类模型的输入向量，较低的维度和附加的语义信息可以提高分类器的性能。

基于注意力机制的Bi-GRU的特征训练方法：

首先，采用Word Embedding处理作为特征输入，Bi-GRU作为训练模型，得到对于长本文中存在远距离依赖的语义特征向量。不依赖语义标注工具或方法实现对语义信息的编码。构造的Bi-GRU的字级别Attention的句子特征编码模型中采用注意力机制捕捉一句话基于字级别特征；而后以每一种类别的句子输入做共同训练，引入句子级别注意力机制，对不同置信度的句子赋予不同的权重，训练时减少噪声句子的影响。整个训练过程将训练语料中的每个句子特征向量与所有有效句子编码的特征向量做迭代训练编码。对每一种类别的句子输入做共同训练得到句子级别的分类文本特征编码。

分层Softmax实现端到端分类实现：

在整个模型训练时，综合考虑字级别的特征和句子级别的特征作为模型训练对象，模型最后采用树的层级结构替代扁平化的标准Softmax，使得在计算分类的概率时，只需计算一条路径上的所有节点的概率值，无需在意其它的节点。从模型的输入是词向量编码的句子，到输出是句子的类别概率。这种处理方式实现了实现不依赖如词性分析、依存句法分析等NLP工具的端到端的分类效果。

本发明的工作原理及工况简介如下：

本发明的目的是解决大规模文本分类问题，主要分为文本的数据表示、文本的特征提取、文本的分类器三部分。本发明采用Word Embedding技术来实现文本数据的语义向量表示。通过Word Embedding语言模型，得到词向量。在特征抽取部分，根据文本分类语料的特征，采用基于注意力机制的Bi-GRU模型进行特征抽取。该模型采用Bi-GRU模型作为编码模型，同时加入字级别和句子级别的Attention权重，计算出字与句子的影响力权重，优化了特征向量。在文本分类部分，采用分层Softmax回归方法作为分类训练，简单高效。以往的文本分类的有监督学习模型相比，构建分类模型完全没有依赖n-gram、词性、依存句法等复杂特征，使用的注意力机制下的Bi-GRU深度学习模型，不需要中文分词，只依靠字向量和大量训练语料端到端的文本分类实现。

一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，流程图见图4。具体包括如下步骤：

S1.进行Word Embedding的字级别语义特征表示

调用Word2vec字向量生成接口。然后将句子中的每一个词转换为高维向量空间中的向量表示，蕴含上下文关系即词语特征求取，得到字级别的每一个句子的特征编码。

S2，构建注意力权重的Bi-GRU字级别的句子特征编码模型。

S21：用训练语料的句子作为输入。选用Word Embedding处理方式先将句子中每个词映射为低维向量，即得到每一个中文字符的特征编码向量，具体如下：

包含T个词的句子S＝{w₁,w₂,...,w_T},每一个词w_i被转化为实值向量e_i，设置embedding矩阵其中V表示固定大小的词汇范围。d^w是Word Embedding的大小即训练选择的超参数。M^word是需要学习的参数组成矩阵。将一个词w_i转化为embedding的词向量e_i＝M^wordvⁱ。其中vⁱ是V大小下的向量表示：能索引e_i的位置表示为1，其余位置表示为0的一组向量。这样句子被编码成为真值向量emb_s＝{e₁,e₂,...,e_T}，作为神经网络模型中的输入。

S22：利用Bi-GRU模型从输入的向量得到句子的语义强特征，这里的强特征指一些长文本中的远距离依赖的语义特征。而Bi-GRU就是在隐层同时有一个正向GRU和反向GRU，正向GRU捕获了上文的特征信息，而反向GRU捕获了下文的特征信息，这样相对单向GRU来说能够捕获更多的特征信息，考虑了更多的上下文的语义关联。其中语义特征包括词法特征，句法特征，命名实体类型等，这些特征是用深度学习编码，非人工干预。

S23：加入注意力机制，通过计算注意力概率分布，将GRU中的每一个时间节点通过这个权重向量联结起来。

S24：得到每一个句子的语义特征向量编码S_i。

S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型。

S31：模型输入是上一个模型的计算每一个句子的特征表示向量{S₁,S₂,...,S_n}，作为输入的训练语料。

S32：把所有包含实体对的句子特征向量作为Bi-GRU模型输入，得到句子级别的特征编码。为每一个句子分配权重，通过不断地学习，使有效句子获得较高权重，而有噪音的句子获得较小的权重。降低无效句子影响。

S4.使用分层Softmax实现端到端分类实现。

S41：神经网络的特征训练模型得到的特征编码做分层的Softmax分类，不断地学习后，含有句子级别特征句子应该会有几个候选的文本类别对应了Softmax。这里训练的目标是使分类的准确率最大化。树的结构是根据类标的频数构造的霍夫曼树。k个不同的类标组成所有的叶子节点，k-1个内部节点作为内部参数，从根节点到某个叶子节点经过的节点和边形成一条路径，路径长度被表示为L(y_j)。于是，P(y_i)被写成：

其中，σ(g)表示sigmoid函数，LC(n)表示n节点的左孩子节点，[x]是一个特殊的函数，被定义为如果里边的x为真，则为1，其余为-1。是中间节点n(y_j,l)的参数，X是Softmax的输入即神经网络模型的输出。

在图3中，以高亮的节点为例，高亮的节点和边从根节y₂的路径，路径长度L(y₂)为4，那么P(y₂)表示为：

P(y₂)＝P(n(y₂,1),left)gP(n(y₂,2),left)gP(n(y₂,3),right)

从根节点走到叶子节点y₂，相当于做了3次二分类的逻辑回归。通过分层的Softmax，计算复杂度从复杂度Softmax的|K|降低到log|K|。

S42：模型训练,包括了训练数据(train.txt),测试数据(test.txt)和中文字向量(vec.txt)。训练数据和测试数据可以是将原始数据随机排序，按80％做训练，20％做测试的方法分开。通过超参数调节，直到最后得到相同实体对的不同分类类别的不同概率值，实现文本预定义类别的最佳预测。

3、优点及功效：本发明在词向量表示方面使用了Word Embedding技术。可以降低向量的维度，并且有效地防止特征过于稀疏的问题。构造字和句子两个级别的权重机制，作为Bi-GRU模型的特征抽取优化方法，通过计算输入节点对于输出向量的注意力概率分布，突出重点语义，优化了最终的输出向量，增强了模型特征编码的有效性。基于注意力机制的Bi-GRU模型既可以有效地利用到文本的上下文信息，又解决了RNN模型长期依赖问题，即避免了维度过高造成的模型难以训练的问题，又提供了额外的语义信息。在分类器部分，将分类器与特征抽取部分独立出来设计成2个部分，可以灵活的组合特征抽取模型和各种常见的分类器，方便更换调试分类器，这里采用分层Softmax回归模型，计算复杂度比Softmax从|K|降低到log|K|。

附图说明

图1为基于Bi-GRU的字级别特征训练模型；其中，e_i表示embedding的特征，h_li示词i及其上文特征编码，h_ri表示词w_i及其下文特征编码，h_i表示加入Attention权重并联合h_li与h_ri得到的词w_i的上下文编码向量。

图2为基于Bi-GRU的句子级别的特征训练模型；其中，S_i为第一个模型输出的句子i的特征向量，A_i表示不同句子的对应权重。

图3为本发明的层次Softmax示意图。

图4为本发明方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的技术方案做进一步的说明。

本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，如图4所示，具体步骤如下：

S1.进行Word Embedding的字级别语义特征表示

S2，构建注意力权重的Bi-GRU字级别的句子特征编码模型，如图1。

S24：得到每一个句子的语义特征向量编码S_i。

S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型，如图2。

S4.使用分层Softmax实现端到端分类实现。

P(y₂)＝P(n(y₂,1),left)gP(n(y₂,2),left)gP(n(y₂,3),right)

实施例：

将下载的原始数据进行转码，然后给文本标类别的标签，然后制作训练与测试数据，然后控制文本长度，分词，去标点符号。对成功标出来的10个类的新闻，统计一下类别的分布，每个类抽2000个新闻，按4：1分成训练与测试。类别分别是：财经、IT、健康、体育、旅游、军事、文化、娱乐、时尚、汽车。模型训练结果使得对任意一段新闻文本能够测试出分类的类别的最大概率。如:“北京时间3月30日，据美媒体报道，作为当今NBA第一人，勒布朗-詹姆斯在客场打比赛时总能得到客队球迷的欢呼声”，分类的类别是“体育：0.76”、“健康：0.12”、“文化：0.06”……,最后取概率最大的作为分类结果。

本发明提出了一种端到端的文本分类实现方法，从对最初的训练样本数据词嵌入(Word Embedding)机制，对句子进行词级别特征表示。同时采用词级别和句子级别的注意力机制训练特征向量，提高了文本分类器的性能。基于两种级别的注意力权重机制的Bi-GRU模型用于特征提取，得到最终分类类别特征的句子特征编码。并将其作为分类器的输入训练模型。整个过程是一个端到端的分类过程。

Claims

1.一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，其特征在于：该方法包括如下步骤：

S1.进行Word Embedding的字级别语义特征表示

调用Word2vec字向量生成接口，然后将句子中的每一个词转换为高维向量空间中的向量表示，蕴含上下文关系即词语特征求取，得到字级别的每一个句子的特征编码；

S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型；

S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型；

S4.使用分层Softmax实现端到端分类实现。

2.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，其特征在于：所述步骤S2具体实现过程如下：

S21：用训练语料的句子作为输入；选用Word Embedding处理方式先将句子中每个词映射为低维向量，即得到每一个中文字符的特征编码向量，具体如下：

包含T个词的句子S＝{w₁,w₂,...,w_T},每一个词w_i被转化为实值向量e_i，设置embedding矩阵其中V表示固定大小的词汇范围；d^w是Word Embedding的大小即训练选择的超参数；M^word是需要学习的参数组成矩阵；将一个词w_i转化为embedding的词向量e_i＝M^wordvⁱ；其中vⁱ是V大小下的向量表示：能索引e_i的位置表示为1，其余位置表示为0的一组向量；这样句子被编码成为真值向量emb_s＝{e₁,e₂,...,e_T}，作为神经网络模型中的输入；

S22：利用Bi-GRU模型从输入的向量得到句子的语义强特征，这里的强特征指一些长文本中的远距离依赖的语义特征；而Bi-GRU就是在隐层同时有一个正向GRU和反向GRU，正向GRU捕获了上文的特征信息，而反向GRU捕获了下文的特征信息，这样相对单向GRU来说能够捕获更多的特征信息，考虑了更多的上下文的语义关联；其中语义特征包括词法特征，句法特征，命名实体类型等，这些特征是用深度学习编码，非人工干预；

S23：加入注意力机制，通过计算注意力概率分布，将GRU中的每一个时间节点通过这个权重向量联结起来；

S24：得到每一个句子的语义特征向量编码S_i。

3.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，其特征在于：所述步骤S3具体实现过程如下：

S31：模型输入是上一个模型的计算每一个句子的特征表示向量{S₁,S₂,...,S_n}，作为输入的训练语料；

S32：把所有包含实体对的句子特征向量作为Bi-GRU模型输入，得到句子级别的特征编码；为每一个句子分配权重，通过不断地学习，使有效句子获得较高权重，而有噪音的句子获得较小的权重；降低无效句子影响。

4.根据权利要求1所述的一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法，其特征在于：所述步骤S4具体实现过程如下：

S41：神经网络的特征训练模型得到的特征编码做分层的Softmax分类，不断地学习后，含有句子级别特征句子应该会有几个候选的文本类别对应了Softmax；树的结构是根据类标的频数构造的霍夫曼树；k个不同的类标组成所有的叶子节点，k-1个内部节点作为内部参数，从根节点到某个叶子节点经过的节点和边形成一条路径，路径长度被表示为L(y_j)；于是，P(y_i)被写成：

其中，σ(g)表示sigmoid函数，LC(n)表示n节点的左孩子节点，[x]是一个特殊的函数，被定义为如果里边的x为真，则为1，其余为-1；是中间节点n(y_j,l)的参数，X是Softmax的输入即神经网络模型的输出；

以高亮的节点为例，高亮的节点和边从根节y₂的路径，路径长度L(y₂)为4，那么P(y₂)表示为：

P(y₂)＝P(n(y₂,1),left)gP(n(y₂,2),left)gP(n(y₂,3),right)

从根节点走到叶子节点y₂，相当于做了3次二分类的逻辑回归；通过分层的Softmax，计算复杂度从复杂度Softmax的|K|降低到log|K|；

S42：模型训练,包括了训练数据(train.txt),测试数据(test.txt)和中文字向量(vec.txt)；训练数据和测试数据可以是将原始数据随机排序，按80％做训练，20％做测试的方法分开；通过超参数调节，直到最后得到相同实体对的不同分类类别的不同概率值，实现文本预定义类别的最佳预测。