CN110929030A - 一种文本摘要和情感分类联合训练方法 - Google Patents

一种文本摘要和情感分类联合训练方法 Download PDF

Info

Publication number
CN110929030A
CN110929030A CN201911080385.6A CN201911080385A CN110929030A CN 110929030 A CN110929030 A CN 110929030A CN 201911080385 A CN201911080385 A CN 201911080385A CN 110929030 A CN110929030 A CN 110929030A
Authority
CN
China
Prior art keywords
text
abstract
training
vector
emotion classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911080385.6A
Other languages
English (en)
Other versions
CN110929030B (zh
Inventor
高建彬
潘慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911080385.6A priority Critical patent/CN110929030B/zh
Publication of CN110929030A publication Critical patent/CN110929030A/zh
Application granted granted Critical
Publication of CN110929030B publication Critical patent/CN110929030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本摘要和情感分类联合训练方法,该方法采用文本摘要和情感分类联合模型实现,具体包括如下步骤:文本预处理,构建训练集词汇表;构建文本摘要模型,进行文本摘要任务预训练;在文本摘要模型的基础之上增加情感分类层,构建分层式端到端模型,对情感分类和文本摘要任务进行联合训练。本发明提出的一种文本摘要和情感分类联合训练方法,通过两类任务的联合训练,能提升生成摘要和输入文本之间的内容一致性,使得生成的摘要能更好地包含输入文本的情感信息,并且通过摘要任务对输入文本的关键信息进行了抽取,使得情感的预测更加准确。

Description

一种文本摘要和情感分类联合训练方法
技术领域
本发明涉及自然语言处理领域的文本摘要和情感分类方法,具体涉及一种基于文本摘要和情感分类联合训练方法。
背景技术
随着近几年文本信息的***式增长,人们每天能接触到海量的文本信息,如新闻、微博、博客、报告、论文等。文本摘要应用场景广泛,直观上看,可以用于生成新闻标题,论文关键词以及摘要等;往宽泛看,文本摘要技术也可以应用于Google、百度等搜索引擎的结果优化中,凡是需要从文本中抽取关键信息,形成精炼表达的任务,都可以用自动文本摘要技术解决。文本摘要的主流方法分为两类:抽取式(Extractive)和生成式(Abstractive)。抽取式方法从原文档集合中抽取一些具有代表性的文本片段构成摘要,根据输入文本的不同切分方式,这些片段可以是整个文档中的句子、子句、段落或者小节。生成式方法基于深度学习技术,采用Sequence-to-Sequence框架,同时加上注意力(Attention)机制,针对输入文本,生成一段包含文本关键内容的摘要。相比于抽取式方法,生成式方法更复杂,但得到的摘要更加精炼简洁,表达上更加流畅。
情感分类是给文本分配一个情感标签,以确定文本中的态度或意见。这也被称为意见挖掘,即提取导出说话人的意见或态度。情感分类包括无监督和监督方法,无监督方法包括使用情感词典、语法分析和句法模式等。在监督方法中,主要通过传统机器学习方法(如支持向量机、最大熵、朴素贝叶斯等)和特征组合,随着深度学习的发展,结合循环神经网络(R NN)、卷积神经网络(CNN)以及Attention机制的深度模型在情感分类任务中也有了很好的发展。
文本摘要任务和情感分类的目标都是挖掘文本的主要思想。文本摘要是以更为具体的方式使用词和句子来描述文本,而情感分类则是以更为抽象的方式使用标签总结文本。在之前的研究工作中,文本摘要和情感分类任务都是分开通过模型进行训练,使得两种模型之间不能很好地学得两种任务的联合表达。
发明内容
针对上述存在的问题,本发明结合深度学习中的Attention机制,利用分层式端到端的模型框架对文本摘要和情感分类任务进行联合训练,以同时提升文本摘要和情感分类任务的学习效果。
本发明提出的一种文本摘要和情感分类联合训练方法,其具体步骤如下:
步骤1:进行文本预处理,运用大规模中文***等数据,通过Word2Vec、Glove以及最近的Elmo、Bert等语言模型进行训练,得到词向量矩阵,计算中文词汇的定长向量表达,方便后期对文本进行向量表示。构建合适的训练集(要求针对每段文本样本,同时包含摘要和情感类别的标注)对训练集文本进行中文分词和词性提取,构建训练集词汇表。
步骤2:依据步骤1得到的词向量矩阵,将训练集分词后文本表示为定长向量,作为模型输入,进行文本摘要任务预训练,构建文本摘要模型,运用大规模文本摘要数据集,利用梯度下降算法更新网络参数,直至所述文本摘要模型的损失函数收敛。
步骤3:进行文本摘要和情感分类任务联合训练,利用步骤2中所述文本摘要模型训练得到的参数作为初始化,在文本摘要模型的基础之上增加情感分类层,并构建文本摘要任务和情感分类任务的联合损失函数,最后利用梯度下降算法对整个网络进行端到端的训练,直至述联合损失函数收敛。
这种分层结构会在文本摘要和情感分类之间建立紧密的联系,因此这两个任务可以彼此提升。在通过文本摘要层对文本进行压缩之后,情感分类器就能更加轻松地预测更精炼文本的情感标签。此外,通过加入卷积门控模块,文本摘要层还能对输入文本的重要性分布进行学***,使得生成的摘要能更好地包含输入文本的情感信息,方便商业应用,并且通过摘要任务对输入文本的关键信息进行了抽取,使得情感的预测更加准确。
附图说明
图1为Encoder部分卷积门控单元
图2为本发明的文本摘要和情感分类联合模型示意图
图3为本发明的文本摘要和情感分类联合模型工作效果图
具体实施方式
本发明中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征或步骤以外,均可以以任何方式组合。本发明(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
在本发明中,设计了一种分层式端到端的模型对情感分类和文本摘要任务进行联合训练,该分层式端到端模型包括文本摘要层和情感分类层,文本摘要层将源文本压缩成短句子,从而生成文本摘要;而情感分类层是进一步将生成的文本摘要总结成一个情感类别。
这种分层结构会在文本摘要和情感分类之间建立紧密的联系,因此这两个任务可以彼此提升。在通过文本摘要层对文本进行压缩之后,情感分类器就能更加轻松地预测更精炼文本的情感标签。此外,通过加入卷积门控模块,参考图1,在循环神经网络(RNN)编码器的输出后使用与Inception类似的结构实现一维卷积,其中k表示卷积核的大小,该模块使用卷积神经网络(CNN)对RNN输出的语义表示进行改进,增强其与上下文的联系,文本摘要层还能对输入文本的重要性分布进行学习,得到输入文本中词汇的权重分布,并移除对预测情感有害的冗余和误导性信息。并且,情感分类任务能为文本摘要任务提供更为重要的监督信号并引导摘要组件获取源文本的情感倾向,通过两类任务的联合训练,能提升生成摘要和输入文本之间的内容一致性。
本发明的方法采用如图2所示的文本摘要和情感分类联合模型实现,该文本摘要和情感分类联合模型包括:预训练模块(采用例如Word2Vec、Glove以及Elmo、Bert模型实现)、文本摘要模块和分层式端到端的联合训练模块。
其中,预训练模块用于对训练集中原始文本进行预处理;文本摘要模块用于生成文本摘要;分层式端到端的模块用于对情感分类和文本摘要任务进行联合,生成与文本摘要相适应的情感分类类别。
文本摘要模块采用生成式文本摘要模型实现,其结合Attention机制,其包括编码层(En coder)和解码层(Decoder)结构,Encoder结构选用双向循环神经网络Bi-LSTM,并运用卷积门控单元和自注意力(self-Attention)机制优化隐藏状态语义表示,Decoder层采用Pointer-Generator机制,生成文本摘要。
Attention机制在自然语言任务中应用广泛,可以看成一种自动加权,大致定义为:给定一组向量集合values,以及一个向量query,Attention机制是一种根据该向量query计算向量集合values的加权求和的机制,query和value是两个维度相同的向量,通过(2)式中的任意一个公式可以得到一个数。目前主流的计算公式有以下几种:
Figure BDA0002263773290000041
Figure BDA0002263773290000042
Attention机制是连接编码层(Encoder)和解码层(Decoder)的一个通道。由于在Encoder中保留每个循环神经网络RNN单元的隐藏状态,假设Encoder第s时间步的隐藏状态ms,而后对于Decoder中每一个时间步,计算得到当前时间步的隐藏状态,假设第t个时间步的隐藏状态为mt,便可按照上述公式计算得到第t个时间步时对应的编码部分输入文本第s个词的权重,记为f(mt,ms),并进行softmax计算得到最终权重ats。dot,general,concat,perceptron表示四种目前主流的权重计算公式。其中,n表示编码部分输入文本的总词数,Wa表示参数矩阵,va代表参数向量,Ua同Wa,训练过程中通过反向传播对参数进行更新。
若query包含在values集合中,则为自注意力(Self-Attention)机制。Self-Attention模块可以学得输入文本的关键信息和结构特征,本发明在Encoder部分引入该Self-Attention模块,对输入文本进行关键信息提取。
Pointer-Generator机制可以有效解决生成摘要中未登录词(out ofvocabulary,OOV)和低频词问题,该方法在Decoder的每个时间步,通过网络自动学习指向(pointer)以及生成(generator)的概率,定义如下:
Figure BDA0002263773290000043
其中
Figure BDA0002263773290000044
是上下文向量(对应于Encoder每个t时刻的隐状态),st是Decoder部分t时刻的隐状态,xt是t时刻的输入,σ表示sigmoid函数,将值映射到0-1,标量Pgen∈[0,1]代表generator概率,1-Pgen代表pointer概率。当Pgen偏向1时,正常生成词汇,偏向0时,则是从Attention的概率分布at(ats代表输入文本一个词的概率,at代表整个输入文本词的概率向量)中采样一个对应的词,最终生成词w的定义如下:
Figure BDA0002263773290000045
其中,w表示训练集的整个词汇表,wi表示词汇表的第i个词,
Figure BDA0002263773290000046
表示在Decoder第t个时间步中,词汇表中第i个词Attention的权重,Pvocab(w)代表通过模型以generator方式出词时的词汇概率分布,
Figure BDA0002263773290000047
代表以pointer方式出词时的词汇概率分布,P(w)代表总的词汇概率分布,决定最终生成的词。
本发明提出的一种文本摘要和情感分类联合训练方法,包括如下步骤:
步骤1,对训练集中原始文本进行预处理
(1.1)采用预训练模块进行文本预处理,运用大规模中文***等数据,通过Word2Vec、Glove以及最近的Elmo、Bert等模型进行训练,得到词向量矩阵,计算中文词汇的定长向量表达,方便后期对文本进行向量表示。
(1.2)构建合适的训练集(要求针对训练集中每一个文本样本,应同时包含摘要和情感类别的标注),对所述训练集中每一个文本样本进行中文分词和词性提取,构建训练集词汇表。然后,运用预训练得到的上述词向量矩阵对文本摘要和情感分类联合模型的嵌入层(embedding)进行初始化,并将训练集中每一个文本样本的词性的embedding向量与词的embedding向量进行拼接,假设所述训练集词汇表大小为L,词的embedding向量维度大小为E1,词性的embedding向量维度大小为E2,最终得到训练集输入文本的矩阵表达,该矩阵的维度为L×(E1+E2),矩阵的行数等于整个训练集词的个数,每行代表一个词,通过该训练集输入文本的矩阵,可将所述训练集中的每个文本样本表示为定长输入文本向量。
步骤2,运用大规模文本摘要数据集进行一阶段训练,得到网络的初始参数
(2.1)进行文本摘要任务预训练,构建文本摘要模块,该模块通过生成式文本摘要模型实现,将步骤1得到的定长输入文本向量输入文本摘要模块的Encoder部分,通过双向循环神经网络Bi-LSTM进行编码,假设所述双向循环神经网络Bi-LSTM的输出层向量维度为H,由此得到定长输入文本向量的初始特征,尺寸为L×H,该初始特征为加权文本向量,然后将该初始特征依次送入卷积门控模块和self-Attention模块,得到定长输入文本向量(即输入文本的每个词一个权重向量)中各词汇的权重分布,尺寸为L×H,将该权重赋予初始特征,对其进行调整,并对定长输入文本向量的无效信息进行过滤,得到其最终的向量表达。
(2.2)用Encoder部分最后一个时间步的特征对Decoder部分进行初始化,参考上文描述的Attention计算方式,训练得到文本摘要任务的权重分布,运用指针生成(Pointer-Gener ator)算法生成文本摘要,假设文本摘要长度为L,即可得到Decoder部分LSTM模块的输出特征,尺寸为L′×H,该输出特征为文本向量。依据如下损失函数,对网络参数进行更新。
Figure BDA0002263773290000051
yt代表文本摘要的真实标签,x代表所述Encoder部分的输入文本,即参考摘要(即训练集中的一条文本样本对应的参考摘要),p(yt|x)表示条件概率,即给定一段文本,然后第t步生成这个词的概率,利用梯度下降算法重复更新网络参数,直至上述损失函数Ls收敛。
步骤3,利用分层式端到端模型对文本摘要和情感分类任务进行联合训练
(3.1)在过程2的生成式文本摘要模型基础之上,增加情感分类层,构建分层式端到端模型,并利用过程2训练得到的网络参数对情感分类之外的模型参数进行初始化,并构建文本摘要任务和情感分类任务的联合损失函数L。将过程2.1得到的尺寸为L×H的所述初始特征和过程2.2得到的针对情感分类任务学得的尺寸为L′×H的所述输出特征进行拼接,然后进行最大池化操作,得到维度为H的情感向量,最后通过分层式端到端模型,运用交叉熵损失函数,通过梯度下降更新网络参数,即对整个分层式端到端模型进行端到端的训练,直至联合损失函数L收敛。联合损失函数定义如下:
L=Ls+λLc
Figure BDA0002263773290000061
Lc=-logp(l|x)
其中,Ls代表文本摘要任务的损失,计算采用交叉熵,Lc代表情感分类任务的损失,yt和l分别代表文本摘要和情感类别的真实标签,x代表所述Encoder部分输入的groundtruth(代表训练集中文本样本的参考摘要,用于计算损失),λ是超参数,用于平衡两类损失,其根据实际情况进行预设。
(3.2)分层式端到端模型训练结束后,便可直接应用于文本摘要和情感分类任务。
针对特定的任务,例如用户评论、客服对话、新闻等,可以使用该任务的领域数据集按照上述步骤1-3进行embedding预训练以及文本摘要任务预训练,然后再利用分层式端到端的模型对情感分类和文本摘要任务进行联合训练,可得到更好的效果。
文本摘要模块基于自然语言处理通用架构Encoder-Decoder和经典模型PointerNetwork,并做了以下改进:在Encoder部分增加卷积门控单元以及Self-Attention机制,通过对Encode r部分输入文本每个时间步的输出向量进行加权,使得输入文本中的关键词汇权重更大,因此,在Encoder部分学得的文本向量能更多地包含输入文本的关键信息。并且,由于文本摘要和情感分类的联合任务数据集更难构造,在步骤2利用大规模文本摘要数据集,仅针对文本摘要任务进行训练,得到生成式文本摘要模型初始参数,可使得步骤3的训练过程更快收敛。
依据步骤2中的生成式文本摘要模型架构和模型参数,在Decoder部分增加情感分类层,构造分层式端到端的模型,并对文本摘要和情感分类任务进行联合训练。Decoder部分两种任务分别对Encoder部分的输出进行Attention计算,由于采用两种任务的联合损失函数,可以使得生成的摘要更好地覆盖输入文本中含有情感信息的词汇,并且由于文本摘要能提取关键信息,可使得分层式端到端的模型对于情感类别的预测更加准确。
参考图3,例如,将测试集文本样本(今天阳光明媚......)输入到训练完成的所述文本摘要和情感分类联合模型中,结合Attention和Pointer等机制得到生成的文本摘要(今天天气好),然后将其转化为情感向量,最终得到情感类别(积极)。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (4)

1.一种文本摘要和情感分类联合训练方法,其特征在于,该方法采用文本摘要和情感分类联合模型实现,该文本摘要和情感分类联合模型包括:预训练模块、文本摘要模块和分层式端到端的联合训练模块;其中,预训练模块用于对训练集中原始文本进行预处理;文本摘要模块用于生成文本摘要;分层式端到端的联合训练模块用于对情感分类和文本摘要任务进行联合,生成与所述生成文本摘要相适应的情感分类类别;
该方法具体包括如下步骤:
步骤1,对训练集中原始文本进行预处理
(1.1)采用预训练模块进行文本预处理,运用大规模中文***数据,通过Word2Vec、Glove以及Elmo、Bert模型进行训练,得到词向量矩阵,计算中文词汇的定长向量表达,便于后期对文本进行向量表示;
(1.2)构建合适的训练集,其中所述训练集中每一个文本样本都同时包含参考摘要和情感类别的标注,对所述训练集中每一个文本样本进行中文分词和词性提取,构建训练集词汇表;然后,运用步骤(1.1)得到的所述词向量矩阵对所述文本摘要和情感分类联合模型的嵌入层(embedding)进行初始化,并将所述训练集中每一个文本样本的词性的embedding向量与词的embedding向量进行拼接,假设所述训练集词汇表大小为L,词的embedding向量维度大小为E1,词性的embedding向量维度大小为E2,最终得到训练集输入文本的矩阵表达,该训练集输入文本的矩阵维度为L×(E1+E2),该矩阵的行数等于整个所述训练集中词的个数,每行代表一个词,通过该训练集输入文本的矩阵,可将所述训练集中的每个文本样本表示为定长输入文本向量;
步骤2,运用大规模文本摘要数据集进行一阶段训练,得到网络的初始参数
(2.1)进行文本摘要任务预训练,构建文本摘要模块,该文本摘要模块通过生成式文本摘要模型实现,所述生成式文本摘要模型结合Attention机制,包括编码层(Encoder)部分和解码层(Decoder)部分,所述Encoder部分选用双向循环神经网络Bi-LSTM,并运用卷积门控单元和自注意力(self-Attention)机制优化隐藏状态语义表示,所述Decoder部分采用Pointer-Generator机制,生成文本摘要;
具体包括:将步骤1得到的所述定长输入文本向量输入所述生成式文本摘要模型的Encoder部分,通过双向循环神经网络Bi-LSTM进行编码,假设所述双向循环神经网络Bi-LSTM的输出层向量维度为H,由此得到所述定长输入文本向量的初始特征,尺寸为L×H,然后将该初始特征依次送入所述Encoder部分的卷积门控模块和self-Attention模块,得到所述定长输入文本向量中各词汇的权重分布,尺寸为L×H,将所述权重分布赋予所述初始特征,对所述初始特征进行调整,并对所述定长输入文本向量的无效信息进行过滤,得到所述训练集中的每个文本样本最终的向量表达;
(2.2)用Encoder部分最后一个时间步的特征对所述生成式文本摘要模型的Decoder部分进行初始化,采用Attention机制计算方式,训练得到文本摘要任务的权重分布,运用指针生成(Pointer-Generator)算法生成文本摘要,假设文本摘要长度为L′,即可得到Decoder部分LSTM模块的输出特征,所述输出特征的尺寸为L′×H;依据如下损失函数,对所述生成式文本摘要模型的网络参数进行更新:
Figure FDA0002263773280000021
其中,yt代表参考摘要中t时刻的真实标签,x代表所述Encoder部分输入的所述训练集中的文本样本对应的参考摘要,p(yt|x)表示条件概率,利用梯度下降算法重复更新所述生成式文本摘要模型的网络参数,直至所述损失函数Ls收敛;
步骤3,利用分层式端到端模型对文本摘要和情感分类任务进行联合训练
(3.1)在步骤2的所述生成式文本摘要模型基础之上,增加情感分类层,构建分层式端到端的联合训练模块,该分层式端到端的联合训练模块采用分层式端到端模型实现,并利用步骤2训练得到的所述生成式文本摘要模型的网络参数对情感分类层之外的所述文本摘要和情感分类联合模型参数进行初始化,并构建所述文本摘要和情感分类联合模型的联合损失函数L;将步骤(2.1)得到的所述初始特征和步骤(2.2)得到的针对情感分类任务学得的所述输出特征进行拼接,然后进行最大池化操作,得到维度为H的情感向量,最后通过所述分层式端到端模型,运用交叉熵损失函数,通过梯度下降更新所述文本摘要和情感分类联合模型的网络参数,即对整个所述分层式端到端模型进行端到端的训练,直至所述联合损失函数L收敛,所述联合损失函数L定义如下:
L=Ls+λLc
Figure FDA0002263773280000022
Lc=-logp(l|x)
其中,Ls代表文本摘要任务的损失,计算采用交叉熵,Lc代表情感分类任务的损失,yt代表参考摘要中t时刻的真实标签,l代表情感类别的真实标签,x代表所述Encoder部分输入的所述训练集中的文本样本对应的参考摘要,λ是超参数,用于平衡上述两类损失,其根据实际情况进行预设;
(3.2)分层式端到端模型训练结束后,得到训练完成的所述文本摘要和情感分类联合模型,所述训练完成的所述文本摘要和情感分类联合模型直接应用于文本摘要和情感分类任务。
2.根据权利要求1所述的文本摘要和情感分类联合训练方法,其特征在于,所述步骤(2.2)中所述Attention机制具体为:所述Attention机制是一种自动加权,其定义为:给定一组向量集合values,以及一个向量query,Attention机制是一种根据该向量query计算向量集合values的加权求和的机制,query和value是两个维度相同的向量,通过下式f(mt,ms)右侧中的任意一个公式可以得到一个数:
Figure FDA0002263773280000031
Figure FDA0002263773280000032
所述Attention机制是连接编码层(Encoder)和解码层(Decoder)的一个通道,由于在所述Encoder部分中保留每个循环神经网络RNN单元的隐藏状态,假设所述Encoder部分第s个时间步的隐藏状态为ms,而后对于所述Decoder部分中每一个时间步,计算得到当前时间步的隐藏状态,假设第t个时间步的隐藏状态为mt,便可计算得到第t个时间步时对应的所述Encoder部分输入文本中第s个词的权重,记为f(mt,ms),并进行softmax计算得到最终权重ats,ats代表所述训练集输入文本一个词的概率;dot,general,concat,perceptron表示四种目前主流的权重计算公式,其中,n表示所述Encoder部分输入文本的总词数,Wa表示参数矩阵,va代表参数向量,Ua同Wa,训练过程中通过反向传播对参数进行更新;
若query包含在values集合中,则为自注意力(Self-Attention)机制,Self-Attention模块可以学得输入文本的关键信息和结构特征,在所述Encoder部分中引入该Self-Attention模块,对输入文本进行关键信息提取。
3.根据权利要求2所述的文本摘要和情感分类联合训练方法,其特征在于,所述步骤(2.2)中所述指针生成(Pointer-Generator)算法用于解决生成摘要中未登录词(out ofvocabulary,OOV)和低频词问题,该算法在所述Decoder部分的每个时间步,自动学习指向(pointer)以及生成(generator)的概率,定义如下:
Figure FDA0002263773280000041
其中
Figure FDA0002263773280000042
是上下文向量,即对应于所述Encoder部分每个t时刻的隐状态,st是所述Decoder部分t时刻的隐状态,xt是t时刻的输入,σ表示sigmoid函数,将值映射到0-1,标量Pgen∈[0,1]代表generator概率,1-Pgen代表pointer概率;当Pgen偏向1时,正常生成词汇,偏向0时,则是从Attention的概率分布at中采样一个对应的词,其中,at代表所述训练集中整个输入文本词的概率向量,最终生成词w的定义如下:
Figure FDA0002263773280000043
其中,w表示所述训练集的整个词汇表,wi表示所述词汇表的第i个词,
Figure FDA0002263773280000044
表示在Decoder第t个时间步中,所述词汇表中第i个词Attention的权重,Pvocab(w)代表通过模型以generator方式出词时的词汇概率分布,
Figure FDA0002263773280000045
代表以pointer方式出词时的词汇概率分布,P(w)代表总的词汇概率分布,决定最终生成的词。
4.根据权利要求1-3任意一项所述的文本摘要和情感分类联合训练方法,其特征在于,所述训练集为用户评论、客服对话或新闻领域的数据集。
CN201911080385.6A 2019-11-07 2019-11-07 一种文本摘要和情感分类联合训练方法 Active CN110929030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911080385.6A CN110929030B (zh) 2019-11-07 2019-11-07 一种文本摘要和情感分类联合训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911080385.6A CN110929030B (zh) 2019-11-07 2019-11-07 一种文本摘要和情感分类联合训练方法

Publications (2)

Publication Number Publication Date
CN110929030A true CN110929030A (zh) 2020-03-27
CN110929030B CN110929030B (zh) 2022-05-03

Family

ID=69852497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911080385.6A Active CN110929030B (zh) 2019-11-07 2019-11-07 一种文本摘要和情感分类联合训练方法

Country Status (1)

Country Link
CN (1) CN110929030B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111475640A (zh) * 2020-04-03 2020-07-31 支付宝(杭州)信息技术有限公司 基于情感摘要的文本情感识别方法及装置
CN111563373A (zh) * 2020-04-13 2020-08-21 中南大学 聚焦属性相关文本的属性级情感分类方法
CN111626041A (zh) * 2020-05-07 2020-09-04 杭州东信北邮信息技术有限公司 一种基于深度学习的音乐评论生成方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN111931496A (zh) * 2020-07-08 2020-11-13 广东工业大学 一种基于递归神经网络模型的文本风格转换***及方法
CN112579739A (zh) * 2020-12-23 2021-03-30 合肥工业大学 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN113111663A (zh) * 2021-04-28 2021-07-13 东南大学 一种融合关键信息的摘要生成方法
CN113221560A (zh) * 2021-05-31 2021-08-06 平安科技(深圳)有限公司 人格特质和情绪的预测方法、装置、计算机设备及介质
CN113282710A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 文本关系抽取模型的训练方法、装置以及计算机设备
CN113380418A (zh) * 2021-06-22 2021-09-10 浙江工业大学 一种通过对话文本分析识别抑郁症的***
CN113468318A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 摘要自动生成方法、装置和计算机可读存储介质
CN113761204A (zh) * 2021-09-06 2021-12-07 南京大学 一种基于深度学习的emoji文本情感分析方法及***
CN113849634A (zh) * 2021-03-01 2021-12-28 天翼智慧家庭科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN114255044A (zh) * 2020-09-11 2022-03-29 四川大学 基于跨媒体分析的智能客服技术
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
WO2023173537A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本情感分析方法、装置、设备及存储介质
CN117633239A (zh) * 2024-01-23 2024-03-01 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050443A1 (en) * 2017-08-11 2019-02-14 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050443A1 (en) * 2017-08-11 2019-02-14 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUMING MA等: "A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-18)》 *
李雅昆: "基于改进的多层BLSTM的中文分词和标点符号预测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468318A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 摘要自动生成方法、装置和计算机可读存储介质
CN111159416B (zh) * 2020-04-02 2020-07-17 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
CN111475640A (zh) * 2020-04-03 2020-07-31 支付宝(杭州)信息技术有限公司 基于情感摘要的文本情感识别方法及装置
CN111563373A (zh) * 2020-04-13 2020-08-21 中南大学 聚焦属性相关文本的属性级情感分类方法
CN111563373B (zh) * 2020-04-13 2023-08-18 中南大学 聚焦属性相关文本的属性级情感分类方法
CN111626041A (zh) * 2020-05-07 2020-09-04 杭州东信北邮信息技术有限公司 一种基于深度学习的音乐评论生成方法
CN111626041B (zh) * 2020-05-07 2023-09-15 新讯数字科技(杭州)有限公司 一种基于深度学习的音乐评论生成方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法
CN111639176B (zh) * 2020-05-29 2022-07-01 厦门大学 一种基于一致性监测的实时事件摘要方法
CN111931496A (zh) * 2020-07-08 2020-11-13 广东工业大学 一种基于递归神经网络模型的文本风格转换***及方法
CN111897949B (zh) * 2020-07-28 2021-10-26 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN114255044A (zh) * 2020-09-11 2022-03-29 四川大学 基于跨媒体分析的智能客服技术
CN112579739A (zh) * 2020-12-23 2021-03-30 合肥工业大学 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN113849634A (zh) * 2021-03-01 2021-12-28 天翼智慧家庭科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN113849634B (zh) * 2021-03-01 2024-04-16 天翼视联科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN113111663A (zh) * 2021-04-28 2021-07-13 东南大学 一种融合关键信息的摘要生成方法
CN113221560A (zh) * 2021-05-31 2021-08-06 平安科技(深圳)有限公司 人格特质和情绪的预测方法、装置、计算机设备及介质
CN113282710A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 文本关系抽取模型的训练方法、装置以及计算机设备
CN113380418A (zh) * 2021-06-22 2021-09-10 浙江工业大学 一种通过对话文本分析识别抑郁症的***
CN113761204A (zh) * 2021-09-06 2021-12-07 南京大学 一种基于深度学习的emoji文本情感分析方法及***
CN113761204B (zh) * 2021-09-06 2023-07-28 南京大学 一种基于深度学习的emoji文本情感分析方法及***
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
WO2023173537A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本情感分析方法、装置、设备及存储介质
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN117633239A (zh) * 2024-01-23 2024-03-01 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法
CN117633239B (zh) * 2024-01-23 2024-05-17 中国科学技术大学 一种结合组合范畴语法的端到端方面情感识别方法

Also Published As

Publication number Publication date
CN110929030B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN113239700A (zh) 改进bert的文本语义匹配设备、***、方法及存储介质
CN110287323B (zh) 一种面向目标的情感分类方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库***及方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及***
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
Paria et al. A neural architecture mimicking humans end-to-end for natural language inference
CN114048314A (zh) 一种自然语言隐写分析方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant