CN111414749B - 基于深度神经网络的社交文本依存句法分析*** - Google Patents

基于深度神经网络的社交文本依存句法分析*** Download PDF

Info

Publication number
CN111414749B
CN111414749B CN202010193329.XA CN202010193329A CN111414749B CN 111414749 B CN111414749 B CN 111414749B CN 202010193329 A CN202010193329 A CN 202010193329A CN 111414749 B CN111414749 B CN 111414749B
Authority
CN
China
Prior art keywords
module
training
social
text
attention module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010193329.XA
Other languages
English (en)
Other versions
CN111414749A (zh
Inventor
刘宇鹏
张晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202010193329.XA priority Critical patent/CN111414749B/zh
Publication of CN111414749A publication Critical patent/CN111414749A/zh
Application granted granted Critical
Publication of CN111414749B publication Critical patent/CN111414749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

基于深度神经网络的社交文本依存句法分析***,涉及计算机信息处理技术领域,针对现有技术中社交文本数据稀疏的问题,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;所述基双线性注意力模块用于利用正规文本进行预训练;所述栈式双线性注意力模块用于对社交文本进行预测;所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。

Description

基于深度神经网络的社交文本依存句法分析***
技术领域
本发明涉及计算机信息处理技术领域,具体为一种基于深度神经网络的社交文本依存句法分析***。
背景技术
依存分析是自然语言处理中基础且重要的任务,许多应用都需要对于句子进行依存分析,以提供句法结果给相应的任务。通过计算机强大的计算能力,把句子的依存句法结构标识出来。依存句法树按照结构大体分为两类:投射(Project)和非投射(Non-project)依存句法结构;按照解码算法来分:基于图(Graph-based)和基于转换(Transition-based)的依存算法。深度神经网络部分克服了传统神经网络的梯度弥散和***,在近几年得到了迅猛的发展,且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于1、它是一种非参数模型,与任务的规模无关,只要指定了参数可以学习任何规模数据的任务;2、不像传统依存分析方法需要独立抽取特征,把特征抽取和依存分析器的训练放到一起来做,这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点;3、相对于传统方法,有更高的性能,且在很多任务上都使用。很多研究机构和科研院所已经把目光放在深度学习模型上。
与传统的依存算法不同,社交文本的依存分析存在这样一些问题:如训练语料少,会出现特殊的词和依存关系等。
发明内容
本发明的目的是:针对现有技术中社交文本数据稀疏的问题,提出一种基于深度神经网络的社交文本依存句法分析***。
本发明为了解决上述技术问题采取的技术方案是:
基于深度神经网络的社交文本依存句法分析***,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;
所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;
所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;
所述基双线性注意力模块用于利用正规文本进行预训练;
所述栈式双线性注意力模块用于对社交文本进行预测;
所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。
进一步的,所述社交文本爬取模块执行如下步骤:
首先利用基于Python的Scrapy编写网页爬虫,并配置Scrapy,设定爬取时间间隔和代理,之后定位网页的相关文本内容进行抽取。
进一步的,所述预处理模块中过滤的具体步骤为:
首先使用英文正规文本Gigaword训练语料,然后利用语言模型工具KenLM训练语言模型,最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤。
进一步的,所述预处理模块中初始化词向量的生成的具体步骤为:
首先使用Glove工具对分好词的正规文本和社交文本进行训练,生成正规文本的句子词向量{e1,e2,…,eL}和社交文本的句子词向量{e'1,e'2,…,e'L},其中L表示需要进行依存分析的句子长度。
进一步的,所述基双线性注意力模块执行如下步骤:
首先使用双向长短时记忆模块对句子进行建模,然后使用自注意力模块生成其他词对于当前词的依存关系,之后使用多层感知器模块对生成的词特征向量进行提纯,最后使用基双线性注意力模块生成正规文本词间依存关系的目标函数进行训练。
进一步的,所述栈式双线性注意力模块执行如下步骤:
首先把基模型中经过提纯后的词特征向量作为一个部分输出到与基模型结构相同的堆叠神经网络中,然后预测社交文本的依存关系。
进一步的,所述联合解码和训练模块执行如下步骤:
首先把基双线性注意力模块和栈式双线性注意力模块进行联合,形成整个深度依存分析网络,然后利用束搜索算法进行解码,之后通过梯度的反向传播对模型进行训练,不断迭代直到收敛为止,最后利用GPU加速并行训练。
本发明的有益效果是:
本发明使用堆叠的神经网络结构,在基神经网络中使用正规文本进行预训练,以克服了社交文本数据稀疏的问题;使用全局目标函数进行训练和解码,更好的考虑到全局信息;在原来的双向LSTM的基础上增加了自注意力机制更好的对于词间的关系进行建模;计算堆叠后的神经网络时使用了基层和堆叠后的头和尾词特征向量更好的平衡两层学习结果。
附图说明
图1为本发明的***框图;
图2为正规文本上的基双线性注意力模块的结构示意图;
图3为栈式双线性注意力模块的结构示意图;
图4为社交文本句法分析树示例图。
具体实施方式
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于深度神经网络的社交文本依存句法分析***,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;
所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;
所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;
所述基双线性注意力模块用于利用正规文本进行预训练;
所述栈式双线性注意力模块用于对社交文本进行预测;
所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。
A、社交文本爬取步骤:对于Twitter网站上的网页进行下载获得网页源代码,使用抽取算法抽取其中的文本,作为本发明的进一步说明,所述的步骤A包含以下步骤:
A1、网页获取步骤:使用基于Python的Scrapy编写网页爬虫,其中涉及到设置爬虫,爬取主模块,存储数据;
A2、文本提取步骤:使用基于Python的Goose提取网页中的相关内容;
B、预处理步骤:使用过滤算法进行过滤,对于过滤好的文本进行分词,使用词向量训练工具生成初始化的词向量,作为本发明的进一步说明,所述的步骤B包含以下步骤:
B1、文本过滤步骤:使用语言模型工具对于社交文本进行过滤;
B2、分词和训练词向量步骤:对于选好的文本进行分词并训练初始词向量;
C、基双线性注意力步骤:使用双向长短时记忆(LSTM)模块对于序列建模,使用自注意力(Self-attention)模块生成其他词对于当前词的影响,使用多层感知器模块对生成的词特征向量进行提纯,最后使用双线性注意力(Bi-linear attention)生成正规文本词间的依存关系的目标函数进行训练,基双线性注意力模块如图2所示,作为本发明的进一步说明,所述的步骤C包含以下步骤:
C1、双向长短时记忆步骤:在每个与词相关的单元中,记忆或忘记当前词或是历史的信息,可以对于长期和短期记忆进行处理;
C2、自注意力步骤:使用自注意机制对于词间的软对齐进行建模,弥补了双向长短时记忆只考虑语境信息的影响,更好的刻画词间关系;
C3、多层感知器步骤:通过多层非线性变换生成当前词作为头和尾的依存向量,反应了当前词作为头和尾的特征描述;
C4、双线性注意力步骤:通过双线性注意力机制计算两个词之间的关系,反应了当前词与其他词间的依存关系得分;
D、栈式双线性注意力步骤:把基模型(Base Model)中经过提纯后的词特征向量作为一个部分输出到与基模型结构相同的堆叠神经网络中(双向长短时记忆模块,接上自注意力模块,接上多层感知器模块,最后双线性注意力生成社交文本词间依存关系的目标函数进行训练),栈式双线性注意力如图3所示,作为本发明的进一步说明,所述的步骤D包含以下步骤:
D1、堆叠的双向长短时记忆步骤:在基输出特征向量的基础上,再建立一层双向长短时记忆,不仅考虑了基层的正规文本的特征向量,也考虑了当前社交文本词向量,由于社交依存分析的特殊性,使用特殊的词向量表示ROOT(表示依存关系的根节点)和EMP(表示没有依存关系的词)以刻画社交文本中头词是ROOT和没有头词的特殊依存现象;
D2、堆叠的自注意力步骤:在堆叠的双向长短时记忆步骤基础上加一层自注意力步骤以刻画社交文本词间的关系,弥补了双向长短时记忆只考虑局部语境信息;
D3、堆叠的多层感知器步骤:生成关于社交文本词作为头和尾词特征向量;
D4、堆叠的双线性注意力步骤:通过双线性注意力机制计算两个词间的关系,反应了当前词与其他词间的依存关系得分,除了当前的头和尾词特征向量,还包括基模型生成的头和尾词特征向量,这样可以从基模型中借鉴特征信息;
E、联合解码和训练步骤:对于基双线性注意力模块进行训练,把训练好的结果堆叠上一个新的与基双线性注意力模块结构相同的模块(堆叠上的模块没有经过训练),解码时使用堆叠的神经网络进行联合解码,作为本发明的进一步说明,所述的步骤E包含以下步骤:
E1、联合解码步骤:把步骤A,B,C,D步骤联合起来形成整个深度依存分析网络,计算目标函数值,并对于给定社交文本句子依存关系结果,采用GPU并行训练进行加速,解码采用了基于全局的束搜索算法,可以考虑到历史上生成的依存结果;
E2、反向传播步骤:根据计算出来的梯度,对于参数进行更新,不断迭代直到收敛为止。
图1给出了本发明的***框图,其详尽陈述如下:
步骤A1:使用Scrapy的各个部件进行爬虫的编写。使用项目模块定义需要抓取并需要后期处理的数据;使用配置模块文件配置Scrapy,从而修改user-agent,设定爬取时间间隔,设置代理,配置各种中间件等等;使用管道模块用于存储后期需要处理的数据,从而使得数据的爬取和处理分开,;使用爬虫模块自定义爬虫。
步骤A2:将网页上杂乱的文字和图片去除,只保留经过工整排版的正文部分。定位网页的相关文本内容进行抽取。
步骤B1:使用英文正规文本Gigaword训练语料和语言模型工具KenLM训练语言模型,对于下载下来的社交文本使用语言模型计算分数(分数反映了语言的流畅度),使用阈值过滤掉分数低的。
步骤B2:相对于正规文本,社交文本有一些特殊的语言现象如@提及(@-mention),表情符号(Emotion),网址(URL),#主题(Hashtag),转发(Retweet)以及简写(Abbreviation),在进行分词时保留为单独标记,同时如正规文本一样需要进行标点分离;正规文本需要进行标点分离。使用Glove工具对于分好词的正规文本和社交文本进行训练,生成正规文本的句子词向量表示{e1,e2,...,eL}和社交文本的句子词向量表示{e'1,e'2,...,e'L},其中L表示需要进行依存分析句子长度。
步骤C1:使用带有窥视孔(在计算门时考虑到长期的记忆)的双向LSTM,包括三种门:遗忘门ft(用于控制长期记忆),输入门it(用于控制当前词的短期记忆)和输出门ot(用于控制加权平均后记忆向量),基本的过程描述如下:
遗忘门:ft=σ(Wf·[Ct-1,ht-1,et]+bf)
输入门:it=σ(Wi·[Ct-1,ht-1,et]+bi)
输出门:ot=σ(Wo·[Ct-1,ht-1,et]+bo)
其中σ是sigmoid函数,表示取值在[0,1]是权重函数,Wf,Wi,Wo表示参数矩阵,Ct-1表示上一时刻传递过来的长期记忆,ht-1表示上一时刻的隐状态向量,et表示预训练好的正规文本词特征向量,[,]表示向量连接,bf,bi,bo表示偏置向量,h0和hL+1初始向量使用随机初始化,L表示文本的长度。
当前词的短期记忆向量:
Figure BDA0002416706810000051
当前词的长时记忆向量:
Figure BDA0002416706810000052
其中tanh是双曲正切函数,
Figure BDA0002416706810000053
表示元素间的hadmard乘积,当前时刻长时记忆向量Ct等于上一个时刻长时记忆向量Ct-1与当前词的短时记忆向量
Figure BDA0002416706810000061
加权平均获得,遗忘门ft和输入门it是权重向量。
当前词的前向隐状态向量:
Figure BDA0002416706810000062
后向隐状态向量
Figure BDA0002416706810000063
生成方式与前向隐状态向量
Figure BDA0002416706810000064
相似,只是在计算门函数时不考虑下一时刻隐状态向量ht-1,而是考虑上一时刻隐状态向量ht+1。整个隐状态向量
Figure BDA0002416706810000065
通过前向和后向隐状态向量连接获得。
步骤C2:采用多头的自注意力机制,单头的自注意力机制描述如下:
查询向量:qt=Wq·ht
关键字向量:kt=Wk·ht
值向量:vt=Wv·ht
其中
Figure BDA0002416706810000066
(dmodel是模型向量的维数)是上一步骤的输出,
Figure BDA0002416706810000067
Figure BDA0002416706810000068
(dk是查询向量,关键字向量和值向量的维数)是参数矩阵,表示对于特征向量进行线性变换生成查询向量(采用不同的参数矩阵表示对于同一个特征向量生成不同的表示)。
注意力权重:
Figure BDA0002416706810000069
其中softmax表示按列j计算归一化的概率,
Figure BDA00024167068100000610
表示使用维数对于结果进行调整。
注意力生成向量:
Figure BDA00024167068100000611
Figure BDA00024167068100000612
表示对于值向量vj进行加权平均。
单头注意力生成矩阵:
Figure BDA00024167068100000613
其中单头注意力生成矩阵
Figure BDA00024167068100000614
是注意力向量ch的按列连接。
多头注意力生成矩阵:C=[C1,...,CH]
自注意力特征矩阵:S=C·WS
其中H表示头的个数,每个头采用的参数矩阵不一样,每个头都形成一个注意力生成矩阵Ch,对于每个头生成的矩阵连接
Figure BDA0002416706810000071
再使用参数矩阵
Figure BDA0002416706810000072
进行线性变换生成自注意力特征矩阵
Figure BDA0002416706810000073
每个词的自注意力特征向量表示st(是S矩阵的一行)。
步骤C3:采用多层感知器(Multi-layer Perceptron)生成头和尾词特征向量的表示:
头词特征向量:
Figure BDA0002416706810000074
尾词特征向量:
Figure BDA0002416706810000075
MLP(head)和MLP(dep)函数表示进行多层非线性变换(使用双曲正切函数tanh),这两个函数采用参数矩阵不一样。
步骤C4:双线性注意力模型采用了双线性仿射(Bi-affine)函数计算头和尾词特征向量间依存关系得分。
依存关系得分:
Figure BDA0002416706810000076
U向量间的转换矩阵,whead,wdep表示头和尾参数向量。
步骤D1:与C1步骤相似,使用带有窥视孔的双向LSTM,基本的过程描述如下:
遗忘门:f't=σ(W'f·[C't-1,h't-1,st,e't]+b'f)
输入门:i't=σ(W'i·[C't-1,h't-1,st,e't]+b'i)
输出门:o't=σ(W'o·[C't-1,h't-1,st,e't]+b'o)
其中st表示基层通过自注意力机制生成的反应词间关系的向量。与C1步骤的区别:考虑输入向量不仅要考虑上一层的特征向量st还要考虑当前社交文本词特征向量e't(而非正规文本词特征向量et),同时采用了不同的参数矩阵W'f,W'i,W'o和向量b'f,b'i,b'o
当前词的短期记忆向量:
Figure BDA0002416706810000077
计算当前词的短期记忆向量还需要考虑上一层的特征向量st。步骤D2:与C2步骤相似,只是输入向量从基隐状态向量h1...ht变成了栈隐状态向量h′t...h't
步骤D3:与C3步骤相似,只是这里生成的头尾向量不仅考虑到当前层的生成的头和尾向量还需要考虑到基层生成的头和尾向量:
头向量:
Figure BDA0002416706810000081
尾向量:
Figure BDA0002416706810000082
结合后的头向量:
Figure BDA0002416706810000083
结合后的尾向量:
Figure BDA0002416706810000084
Figure BDA0002416706810000085
表示对应维进行相加。
步骤D4:与C4步骤相似,采用的是结合后的头向量和尾向量计算两个依存关系的得分。
步骤E1:目标函数采用基于最大间隔的排序函数(结构化的hinge损失函数)。计算公式如下:
Figure BDA0002416706810000086
其中
Figure BDA0002416706810000087
训练数据集
Figure BDA0002416706810000088
共有N对数据输入句子xi为金标注分析树yi,c表示加权后的汉明距离,
Figure BDA0002416706810000089
表示对于参数矩阵或是向量取2范数的平方,λ是权重函数用于平衡正则化因子
Figure BDA00024167068100000810
和目标函数L(xi,yi;Θ)以防止过拟合,1/N用于对于所有句子级损失L(xi,yi;Θ)进行平均,Θ是一个参数集合包含了在神经网络训练过程中的所有参数。
联合解码过程分为两个部分:一个基模型的解码用于预训练,基本公式为:
Figure BDA00024167068100000811
表示搜索出N-best结果;对于堆叠模型的解码是在基模型基础上进行的,基本公式为:
Figure BDA00024167068100000812
图4给出了依存句法分析后的结果(ROOT表示根词,没有边的词表示未选上的特殊词,有边的两个词:箭头指向的是头词,另一个是尾词)。
步骤E2:采用分批的更新方式,优点是结合了随机更新的快速收敛性和全批更新的稳定性。Adam(Adaptive Moment Estimation)利用梯度的一阶和二阶矩估计调整每个参数的学***稳。
Figure BDA00024167068100000813
m0=0,n0=0
mt=μ·mt-1+(1-μ)·gt
Figure BDA0002416706810000091
Figure BDA0002416706810000092
Figure BDA0002416706810000093
Figure BDA0002416706810000094
Figure BDA0002416706810000095
其中gt表示目标函数J对于时刻t时的参数Wt(Wt可以是矩阵也可以是向量,根据参数的具体情况)的梯度;该算法更新梯度的指数移动平均(mt)和平方梯度的指数移动平均(nt),其中超参数u,v∈[0,1]控制这些移动平均值的指数衰减率。移动平均值使用梯度的一阶矩(均值)和二阶原始矩(没中心化方差)进行估计。然而,这些移动平均值m0,n0被初始化为0的向量,导致向零偏移的矩估计,特别是在初始时间步长期间(尤其是当衰减率很小时,即μ,ν接近1)。这种初始化偏差很容易被抵消,导致偏差校正
Figure BDA0002416706810000096
Figure BDA0002416706810000097
分别是对梯度的无偏一阶矩估计和二阶矩估计。一阶矩指数衰减率μ=0.9,二阶矩指数衰减率ν=0.999,平滑参数ε=1e-08,学习率η=0.001;训练参数从区间在[-0.1,0.1]之间的均匀分布进行采样;dropout设置为0.5;最小批量设置为10。·乘表示向量或矩阵与标量之间的乘积,
Figure BDA0002416706810000098
乘表示向量或矩阵间对应元素的乘积;对于除法,向量或矩阵除以标量表示每个元素除以标量,向量或矩阵除以向量或矩阵表示对应元素除法。
本专利中深度网络的递归部分采用BPTT(Backpropagation Through Time)算法,它和传统的反向传播算法基本相同,只是在每个隐单元内部参数和隐单元之间的连接参数有很多是共享的,对于每一步的梯度更新需要进行对这些参数进行累加。因为LSTM使用了记忆机制会按照句子中语境的实际情况进行长短时记忆,所以可以避免出现梯度消失和***的现象。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (3)

1.基于深度神经网络的社交文本依存句法分析***,其特征在于包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;
所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;
所述预处理模块用于对爬取的社交文本进行过滤,以及初始化词向量的生成;
所述基双线性注意力模块用于利用正规文本进行预训练;
所述栈式双线性注意力模块用于对社交文本进行预测;
所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型解码训练;
所述预处理模块中过滤的具体步骤为:
首先使用英文正规文本Giga word训练语料,然后利用语言模型工具KenLM训练语言模型,最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤;
所述预处理模块中初始化词向量的生成的具体步骤为:
首先使用Glove工具对分好词的正规文本和社交文本进行训练,生成正规文本的句子词向量{e1,e2,...,eL}和社交文本的句子词向量{e'1,e'2,...,e'L},其中L表示需要进行依存分析的句子长度;
所述基双线性注意力模块执行如下步骤:
首先使用双向长短时记忆模块对句子进行建模,然后使用自注意力模块生成其他词对于当前词的依存关系,之后使用多层感知器模块对生成的词特征向量进行提纯,最后使用基双线性注意力模块生成正规文本词间依存关系的目标函数进行训练;
所述栈式双线性注意力模块执行如下步骤:
首先把基双线性注意力模块中经过提纯后的词特征向量作为一个部分输出到与基双线性注意力模块结构相同的堆叠神经网络中,然后预测社交文本的依存关系。
2.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析***,其特征在于所述社交文本爬取模块执行如下步骤:
首先利用基于Python的Scrapy编写网页爬虫,并配置Scrapy,设定爬取时间间隔和代理,之后定位网页的相关文本内容进行抽取。
3.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析***,其特征在于所述联合解码和训练模块执行如下步骤:
首先把基双线性注意力模块和栈式双线性注意力模块进行联合,形成整个深度依存分析网络,然后利用束搜索算法进行解码,之后通过梯度的反向传播对模型进行训练,不断迭代直到收敛为止,最后利用GPU加速并行训练。
CN202010193329.XA 2020-03-18 2020-03-18 基于深度神经网络的社交文本依存句法分析*** Active CN111414749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010193329.XA CN111414749B (zh) 2020-03-18 2020-03-18 基于深度神经网络的社交文本依存句法分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010193329.XA CN111414749B (zh) 2020-03-18 2020-03-18 基于深度神经网络的社交文本依存句法分析***

Publications (2)

Publication Number Publication Date
CN111414749A CN111414749A (zh) 2020-07-14
CN111414749B true CN111414749B (zh) 2022-06-21

Family

ID=71491131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010193329.XA Active CN111414749B (zh) 2020-03-18 2020-03-18 基于深度神经网络的社交文本依存句法分析***

Country Status (1)

Country Link
CN (1) CN111414749B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036439B (zh) * 2020-07-30 2023-09-01 平安科技(深圳)有限公司 依存关系分类方法及相关设备
CN111984845B (zh) * 2020-08-17 2023-10-31 江苏百达智慧网络科技有限公司 网站错别字识别方法和***
CN112667940B (zh) * 2020-10-15 2022-02-18 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112347269A (zh) * 2020-11-11 2021-02-09 重庆邮电大学 基于BERT和Att-BiLSTM的论点对识别方法
CN113254636A (zh) * 2021-04-27 2021-08-13 上海大学 一种基于示例权重离散度的远程监督实体关系分类方法
CN113901847B (zh) * 2021-09-16 2024-05-24 昆明理工大学 基于源语言句法增强解码的神经机器翻译方法
CN116090450A (zh) * 2022-11-28 2023-05-09 荣耀终端有限公司 一种文本处理方法及计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034368A (zh) * 2018-06-22 2018-12-18 北京航空航天大学 一种基于dnn的复杂设备多重故障诊断方法
CN109598387A (zh) * 2018-12-14 2019-04-09 华东师范大学 基于双向跨模态注意力网络模型的股价预测方法及***
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110276439A (zh) * 2019-05-08 2019-09-24 平安科技(深圳)有限公司 基于注意力机制的时间序列预测方法、装置及存储介质
CN110879940A (zh) * 2019-11-21 2020-03-13 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及***
CN111818329A (zh) * 2020-06-24 2020-10-23 天津大学 基于堆栈式自适应编码器的视频质量评价方法
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129937A1 (en) * 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
CN110162749B (zh) * 2018-10-22 2023-07-21 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034368A (zh) * 2018-06-22 2018-12-18 北京航空航天大学 一种基于dnn的复杂设备多重故障诊断方法
CN109598387A (zh) * 2018-12-14 2019-04-09 华东师范大学 基于双向跨模态注意力网络模型的股价预测方法及***
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110276439A (zh) * 2019-05-08 2019-09-24 平安科技(深圳)有限公司 基于注意力机制的时间序列预测方法、装置及存储介质
CN110879940A (zh) * 2019-11-21 2020-03-13 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及***
CN111818329A (zh) * 2020-06-24 2020-10-23 天津大学 基于堆栈式自适应编码器的视频质量评价方法
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Biaffine Attention for Neural Dependency Parsing;Timothy Dozat;《Computation and Language》;20161106;第1-8页 *

Also Published As

Publication number Publication date
CN111414749A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111414749B (zh) 基于深度神经网络的社交文本依存句法分析***
Shen et al. Disan: Directional self-attention network for rnn/cnn-free language understanding
Liu et al. Multi-timescale long short-term memory neural network for modelling sentences and documents
Neubig Neural machine translation and sequence-to-sequence models: A tutorial
Miao et al. Neural variational inference for text processing
Wu et al. On multiplicative integration with recurrent neural networks
Zhao et al. Attention-Based Convolutional Neural Networks for Sentence Classification.
Jang et al. Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning
CN110879940B (zh) 一种基于深度神经网络的机器翻译方法及***
US20180329884A1 (en) Neural contextual conversation learning
WO2019083812A1 (en) GENERATION OF DOUBLE-SEQUENCE INFERENCES USING A NEURONAL NETWORK MODEL
Li et al. A method of emotional analysis of movie based on convolution neural network and bi-directional LSTM RNN
Bajaj et al. Metro: Efficient denoising pretraining of large scale autoencoding language models with model generated signals
Le et al. Measuring the influence of long range dependencies with neural network language models
CN110765269A (zh) 基于动态词向量和层级神经网络的文档级情感分类方法
Gao et al. An over-parameterized exponential regression
CN113157919A (zh) 语句文本方面级情感分类方法及***
Yang et al. Recurrent neural network-based language models with variation in net topology, language, and granularity
Chen et al. Deep neural networks for multi-class sentiment classification
Zhang et al. Feedforward sequential memory neural networks without recurrent feedback
US20230351149A1 (en) Contrastive captioning neural networks
Artemov et al. Informational neurobayesian approach to neural networks training. Opportunities and prospects
CN116821436B (zh) 一种面向模糊查询的字符串谓词准确选择估计方法
CN109902273A (zh) 关键词生成模型的建模方法和装置
Chowdhury et al. A continuous space neural language model for bengali language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant