CN111414749B

CN111414749B - 基于深度神经网络的社交文本依存句法分析***

Info

Publication number: CN111414749B
Application number: CN202010193329.XA
Authority: CN
Inventors: 刘宇鹏; 张晓晨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2022-06-21
Anticipated expiration: 2040-03-18
Also published as: CN111414749A

Abstract

基于深度神经网络的社交文本依存句法分析***，涉及计算机信息处理技术领域，针对现有技术中社交文本数据稀疏的问题，包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；所述社交文本爬取模块用于从社交媒体网站上爬取社交文本；所述预处理模块用于对获得的社交文本进行过滤处理，以及初始化词向量的生成；所述基双线性注意力模块用于利用正规文本进行预训练；所述栈式双线性注意力模块用于对社交文本进行预测；所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型训练。

Description

基于深度神经网络的社交文本依存句法分析***

技术领域

本发明涉及计算机信息处理技术领域，具体为一种基于深度神经网络的社交文本依存句法分析***。

背景技术

依存分析是自然语言处理中基础且重要的任务，许多应用都需要对于句子进行依存分析，以提供句法结果给相应的任务。通过计算机强大的计算能力，把句子的依存句法结构标识出来。依存句法树按照结构大体分为两类：投射(Project)和非投射(Non-project)依存句法结构；按照解码算法来分：基于图(Graph-based)和基于转换(Transition-based)的依存算法。深度神经网络部分克服了传统神经网络的梯度弥散和***，在近几年得到了迅猛的发展，且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于1、它是一种非参数模型，与任务的规模无关，只要指定了参数可以学习任何规模数据的任务；2、不像传统依存分析方法需要独立抽取特征，把特征抽取和依存分析器的训练放到一起来做，这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点；3、相对于传统方法，有更高的性能，且在很多任务上都使用。很多研究机构和科研院所已经把目光放在深度学习模型上。

与传统的依存算法不同，社交文本的依存分析存在这样一些问题：如训练语料少，会出现特殊的词和依存关系等。

发明内容

本发明的目的是：针对现有技术中社交文本数据稀疏的问题，提出一种基于深度神经网络的社交文本依存句法分析***。

本发明为了解决上述技术问题采取的技术方案是：

基于深度神经网络的社交文本依存句法分析***，包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；

所述社交文本爬取模块用于从社交媒体网站上爬取社交文本；

所述预处理模块用于对获得的社交文本进行过滤处理，以及初始化词向量的生成；

所述基双线性注意力模块用于利用正规文本进行预训练；

所述栈式双线性注意力模块用于对社交文本进行预测；

所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型训练。

进一步的，所述社交文本爬取模块执行如下步骤：

首先利用基于Python的Scrapy编写网页爬虫，并配置Scrapy，设定爬取时间间隔和代理，之后定位网页的相关文本内容进行抽取。

进一步的，所述预处理模块中过滤的具体步骤为：

首先使用英文正规文本Gigaword训练语料，然后利用语言模型工具KenLM训练语言模型，最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤。

进一步的，所述预处理模块中初始化词向量的生成的具体步骤为：

首先使用Glove工具对分好词的正规文本和社交文本进行训练，生成正规文本的句子词向量{e₁,e₂,…,e_L}和社交文本的句子词向量{e'₁,e'₂,…,e'_L}，其中L表示需要进行依存分析的句子长度。

进一步的，所述基双线性注意力模块执行如下步骤：

首先使用双向长短时记忆模块对句子进行建模，然后使用自注意力模块生成其他词对于当前词的依存关系，之后使用多层感知器模块对生成的词特征向量进行提纯，最后使用基双线性注意力模块生成正规文本词间依存关系的目标函数进行训练。

进一步的，所述栈式双线性注意力模块执行如下步骤：

首先把基模型中经过提纯后的词特征向量作为一个部分输出到与基模型结构相同的堆叠神经网络中，然后预测社交文本的依存关系。

进一步的，所述联合解码和训练模块执行如下步骤：

首先把基双线性注意力模块和栈式双线性注意力模块进行联合，形成整个深度依存分析网络，然后利用束搜索算法进行解码，之后通过梯度的反向传播对模型进行训练，不断迭代直到收敛为止，最后利用GPU加速并行训练。

本发明的有益效果是：

本发明使用堆叠的神经网络结构，在基神经网络中使用正规文本进行预训练，以克服了社交文本数据稀疏的问题；使用全局目标函数进行训练和解码，更好的考虑到全局信息；在原来的双向LSTM的基础上增加了自注意力机制更好的对于词间的关系进行建模；计算堆叠后的神经网络时使用了基层和堆叠后的头和尾词特征向量更好的平衡两层学习结果。

附图说明

图1为本发明的***框图；

图2为正规文本上的基双线性注意力模块的结构示意图；

图3为栈式双线性注意力模块的结构示意图；

图4为社交文本句法分析树示例图。

具体实施方式

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于深度神经网络的社交文本依存句法分析***，包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；

所述基双线性注意力模块用于利用正规文本进行预训练；

所述栈式双线性注意力模块用于对社交文本进行预测；

A、社交文本爬取步骤：对于Twitter网站上的网页进行下载获得网页源代码，使用抽取算法抽取其中的文本，作为本发明的进一步说明，所述的步骤A包含以下步骤：

A1、网页获取步骤：使用基于Python的Scrapy编写网页爬虫，其中涉及到设置爬虫，爬取主模块，存储数据；

A2、文本提取步骤：使用基于Python的Goose提取网页中的相关内容；

B、预处理步骤：使用过滤算法进行过滤，对于过滤好的文本进行分词，使用词向量训练工具生成初始化的词向量，作为本发明的进一步说明，所述的步骤B包含以下步骤：

B1、文本过滤步骤：使用语言模型工具对于社交文本进行过滤；

B2、分词和训练词向量步骤：对于选好的文本进行分词并训练初始词向量；

C、基双线性注意力步骤：使用双向长短时记忆(LSTM)模块对于序列建模，使用自注意力(Self-attention)模块生成其他词对于当前词的影响，使用多层感知器模块对生成的词特征向量进行提纯，最后使用双线性注意力(Bi-linear attention)生成正规文本词间的依存关系的目标函数进行训练，基双线性注意力模块如图2所示，作为本发明的进一步说明，所述的步骤C包含以下步骤：

C1、双向长短时记忆步骤：在每个与词相关的单元中，记忆或忘记当前词或是历史的信息，可以对于长期和短期记忆进行处理；

C2、自注意力步骤：使用自注意机制对于词间的软对齐进行建模，弥补了双向长短时记忆只考虑语境信息的影响，更好的刻画词间关系；

C3、多层感知器步骤：通过多层非线性变换生成当前词作为头和尾的依存向量，反应了当前词作为头和尾的特征描述；

C4、双线性注意力步骤：通过双线性注意力机制计算两个词之间的关系，反应了当前词与其他词间的依存关系得分；

D、栈式双线性注意力步骤：把基模型(Base Model)中经过提纯后的词特征向量作为一个部分输出到与基模型结构相同的堆叠神经网络中(双向长短时记忆模块，接上自注意力模块，接上多层感知器模块，最后双线性注意力生成社交文本词间依存关系的目标函数进行训练)，栈式双线性注意力如图3所示，作为本发明的进一步说明，所述的步骤D包含以下步骤：

D1、堆叠的双向长短时记忆步骤：在基输出特征向量的基础上，再建立一层双向长短时记忆，不仅考虑了基层的正规文本的特征向量，也考虑了当前社交文本词向量，由于社交依存分析的特殊性，使用特殊的词向量表示ROOT(表示依存关系的根节点)和EMP(表示没有依存关系的词)以刻画社交文本中头词是ROOT和没有头词的特殊依存现象；

D2、堆叠的自注意力步骤：在堆叠的双向长短时记忆步骤基础上加一层自注意力步骤以刻画社交文本词间的关系，弥补了双向长短时记忆只考虑局部语境信息；

D3、堆叠的多层感知器步骤：生成关于社交文本词作为头和尾词特征向量；

D4、堆叠的双线性注意力步骤：通过双线性注意力机制计算两个词间的关系，反应了当前词与其他词间的依存关系得分，除了当前的头和尾词特征向量，还包括基模型生成的头和尾词特征向量，这样可以从基模型中借鉴特征信息；

E、联合解码和训练步骤：对于基双线性注意力模块进行训练，把训练好的结果堆叠上一个新的与基双线性注意力模块结构相同的模块(堆叠上的模块没有经过训练)，解码时使用堆叠的神经网络进行联合解码，作为本发明的进一步说明，所述的步骤E包含以下步骤：

E1、联合解码步骤：把步骤A，B，C，D步骤联合起来形成整个深度依存分析网络，计算目标函数值，并对于给定社交文本句子依存关系结果，采用GPU并行训练进行加速，解码采用了基于全局的束搜索算法，可以考虑到历史上生成的依存结果；

E2、反向传播步骤：根据计算出来的梯度，对于参数进行更新，不断迭代直到收敛为止。

图1给出了本发明的***框图，其详尽陈述如下：

步骤A1：使用Scrapy的各个部件进行爬虫的编写。使用项目模块定义需要抓取并需要后期处理的数据；使用配置模块文件配置Scrapy，从而修改user-agent，设定爬取时间间隔，设置代理，配置各种中间件等等；使用管道模块用于存储后期需要处理的数据，从而使得数据的爬取和处理分开，；使用爬虫模块自定义爬虫。

步骤A2：将网页上杂乱的文字和图片去除，只保留经过工整排版的正文部分。定位网页的相关文本内容进行抽取。

步骤B1：使用英文正规文本Gigaword训练语料和语言模型工具KenLM训练语言模型，对于下载下来的社交文本使用语言模型计算分数(分数反映了语言的流畅度)，使用阈值过滤掉分数低的。

步骤B2：相对于正规文本，社交文本有一些特殊的语言现象如@提及(@-mention)，表情符号(Emotion)，网址(URL)，#主题(Hashtag)，转发(Retweet)以及简写(Abbreviation)，在进行分词时保留为单独标记，同时如正规文本一样需要进行标点分离；正规文本需要进行标点分离。使用Glove工具对于分好词的正规文本和社交文本进行训练，生成正规文本的句子词向量表示{e₁,e₂,...,e_L}和社交文本的句子词向量表示{e'₁,e'₂,...,e'_L}，其中L表示需要进行依存分析句子长度。

步骤C1：使用带有窥视孔(在计算门时考虑到长期的记忆)的双向LSTM，包括三种门：遗忘门f_t(用于控制长期记忆)，输入门i_t(用于控制当前词的短期记忆)和输出门o_t(用于控制加权平均后记忆向量)，基本的过程描述如下：

遗忘门：f_t＝σ(W_f·[C_t-1,h_t-1,e_t]+b_f)

输入门：i_t＝σ(W_i·[C_t-1,h_t-1,e_t]+b_i)

输出门：o_t＝σ(W_o·[C_t-1,h_t-1,e_t]+b_o)

其中σ是sigmoid函数，表示取值在[0,1]是权重函数，W_f,W_i,W_o表示参数矩阵，C_t-1表示上一时刻传递过来的长期记忆，h_t-1表示上一时刻的隐状态向量，e_t表示预训练好的正规文本词特征向量，[,]表示向量连接，b_f，b_i，b_o表示偏置向量，h₀和h_L+1初始向量使用随机初始化，L表示文本的长度。

当前词的短期记忆向量：

当前词的长时记忆向量：

其中tanh是双曲正切函数，

表示元素间的hadmard乘积，当前时刻长时记忆向量C_t等于上一个时刻长时记忆向量C_t-1与当前词的短时记忆向量

加权平均获得，遗忘门f_t和输入门i_t是权重向量。

当前词的前向隐状态向量：

后向隐状态向量

生成方式与前向隐状态向量

相似，只是在计算门函数时不考虑下一时刻隐状态向量h_t-1，而是考虑上一时刻隐状态向量h_t+1。整个隐状态向量

通过前向和后向隐状态向量连接获得。

步骤C2：采用多头的自注意力机制，单头的自注意力机制描述如下：

查询向量：q_t＝W_q·h_t

关键字向量：k_t＝W_k·h_t

值向量：v_t＝W_v·h_t

其中

(d_model是模型向量的维数)是上一步骤的输出，

(d_k是查询向量，关键字向量和值向量的维数)是参数矩阵，表示对于特征向量进行线性变换生成查询向量(采用不同的参数矩阵表示对于同一个特征向量生成不同的表示)。

注意力权重：

其中softmax表示按列j计算归一化的概率，

表示使用维数对于结果进行调整。

注意力生成向量：

表示对于值向量v_j进行加权平均。

单头注意力生成矩阵：

其中单头注意力生成矩阵

是注意力向量c_h的按列连接。

多头注意力生成矩阵：C＝[C₁,...,C_H]

自注意力特征矩阵：S＝C·W_S

其中H表示头的个数，每个头采用的参数矩阵不一样，每个头都形成一个注意力生成矩阵C_h，对于每个头生成的矩阵连接

再使用参数矩阵

进行线性变换生成自注意力特征矩阵

每个词的自注意力特征向量表示s_t(是S矩阵的一行)。

步骤C3：采用多层感知器(Multi-layer Perceptron)生成头和尾词特征向量的表示：

头词特征向量：

尾词特征向量：

MLP^(head)和MLP^(dep)函数表示进行多层非线性变换(使用双曲正切函数tanh)，这两个函数采用参数矩阵不一样。

步骤C4：双线性注意力模型采用了双线性仿射(Bi-affine)函数计算头和尾词特征向量间依存关系得分。

依存关系得分：

U向量间的转换矩阵，w_head，w_dep表示头和尾参数向量。

步骤D1：与C1步骤相似，使用带有窥视孔的双向LSTM，基本的过程描述如下：

遗忘门：f'_t＝σ(W'_f·[C'_t-1,h'_t-1,s_t,e'_t]+b'_f)

输入门：i'_t＝σ(W'_i·[C'_t-1,h'_t-1,s_t,e'_t]+b'_i)

输出门：o'_t＝σ(W'_o·[C'_t-1,h'_t-1,s_t,e'_t]+b'_o)

其中s_t表示基层通过自注意力机制生成的反应词间关系的向量。与C1步骤的区别：考虑输入向量不仅要考虑上一层的特征向量s_t还要考虑当前社交文本词特征向量e'_t(而非正规文本词特征向量e_t)，同时采用了不同的参数矩阵W'_f,W'_i,W'_o和向量b'_f，b'_i，b'_o。

当前词的短期记忆向量：

计算当前词的短期记忆向量还需要考虑上一层的特征向量s_t。步骤D2：与C2步骤相似，只是输入向量从基隐状态向量h₁...h_t变成了栈隐状态向量h′_t...h'_t。

步骤D3：与C3步骤相似，只是这里生成的头尾向量不仅考虑到当前层的生成的头和尾向量还需要考虑到基层生成的头和尾向量：

头向量：

尾向量：

结合后的头向量：

结合后的尾向量：

表示对应维进行相加。

步骤D4：与C4步骤相似，采用的是结合后的头向量和尾向量计算两个依存关系的得分。

步骤E1：目标函数采用基于最大间隔的排序函数(结构化的hinge损失函数)。计算公式如下：

其中

训练数据集

共有N对数据输入句子x_i为金标注分析树y_i，c表示加权后的汉明距离，

表示对于参数矩阵或是向量取2范数的平方，λ是权重函数用于平衡正则化因子

和目标函数L(x_i,y_i；Θ)以防止过拟合，1/N用于对于所有句子级损失L(x_i,y_i；Θ)进行平均，Θ是一个参数集合包含了在神经网络训练过程中的所有参数。

联合解码过程分为两个部分：一个基模型的解码用于预训练，基本公式为：

表示搜索出N-best结果；对于堆叠模型的解码是在基模型基础上进行的，基本公式为：

图4给出了依存句法分析后的结果(ROOT表示根词，没有边的词表示未选上的特殊词，有边的两个词：箭头指向的是头词，另一个是尾词)。

步骤E2：采用分批的更新方式，优点是结合了随机更新的快速收敛性和全批更新的稳定性。Adam(Adaptive Moment Estimation)利用梯度的一阶和二阶矩估计调整每个参数的学***稳。

m₀＝0,n₀＝0

m_t＝μ·m_t-1+(1-μ)·g_t

其中g_t表示目标函数J对于时刻t时的参数W_t(W_t可以是矩阵也可以是向量，根据参数的具体情况)的梯度；该算法更新梯度的指数移动平均(m_t)和平方梯度的指数移动平均(n_t)，其中超参数u,v∈[0,1]控制这些移动平均值的指数衰减率。移动平均值使用梯度的一阶矩(均值)和二阶原始矩(没中心化方差)进行估计。然而，这些移动平均值m₀，n₀被初始化为0的向量，导致向零偏移的矩估计，特别是在初始时间步长期间(尤其是当衰减率很小时，即μ,ν接近1)。这种初始化偏差很容易被抵消，导致偏差校正

和

分别是对梯度的无偏一阶矩估计和二阶矩估计。一阶矩指数衰减率μ＝0.9，二阶矩指数衰减率ν＝0.999，平滑参数ε＝1e-08，学习率η＝0.001；训练参数从区间在[-0.1,0.1]之间的均匀分布进行采样；dropout设置为0.5；最小批量设置为10。·乘表示向量或矩阵与标量之间的乘积，

乘表示向量或矩阵间对应元素的乘积；对于除法，向量或矩阵除以标量表示每个元素除以标量，向量或矩阵除以向量或矩阵表示对应元素除法。

本专利中深度网络的递归部分采用BPTT(Backpropagation Through Time)算法，它和传统的反向传播算法基本相同，只是在每个隐单元内部参数和隐单元之间的连接参数有很多是共享的，对于每一步的梯度更新需要进行对这些参数进行累加。因为LSTM使用了记忆机制会按照句子中语境的实际情况进行长短时记忆，所以可以避免出现梯度消失和***的现象。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于深度神经网络的社交文本依存句法分析***，其特征在于包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；

所述预处理模块用于对爬取的社交文本进行过滤，以及初始化词向量的生成；

所述基双线性注意力模块用于利用正规文本进行预训练；

所述栈式双线性注意力模块用于对社交文本进行预测；

所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型解码训练；

所述预处理模块中过滤的具体步骤为：

首先使用英文正规文本Giga word训练语料，然后利用语言模型工具KenLM训练语言模型，最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤；

所述预处理模块中初始化词向量的生成的具体步骤为：

首先使用Glove工具对分好词的正规文本和社交文本进行训练，生成正规文本的句子词向量{e₁,e₂,...,e_L}和社交文本的句子词向量{e'₁,e'₂,...,e'_L}，其中L表示需要进行依存分析的句子长度；

所述基双线性注意力模块执行如下步骤：

首先使用双向长短时记忆模块对句子进行建模，然后使用自注意力模块生成其他词对于当前词的依存关系，之后使用多层感知器模块对生成的词特征向量进行提纯，最后使用基双线性注意力模块生成正规文本词间依存关系的目标函数进行训练；

所述栈式双线性注意力模块执行如下步骤：

首先把基双线性注意力模块中经过提纯后的词特征向量作为一个部分输出到与基双线性注意力模块结构相同的堆叠神经网络中，然后预测社交文本的依存关系。

2.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析***，其特征在于所述社交文本爬取模块执行如下步骤：

3.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析***，其特征在于所述联合解码和训练模块执行如下步骤：