CN111339440B - 面向新闻文本基于层级状态神经网络的社会情绪排序方法 - Google Patents

面向新闻文本基于层级状态神经网络的社会情绪排序方法 Download PDF

Info

Publication number
CN111339440B
CN111339440B CN202010102690.7A CN202010102690A CN111339440B CN 111339440 B CN111339440 B CN 111339440B CN 202010102690 A CN202010102690 A CN 202010102690A CN 111339440 B CN111339440 B CN 111339440B
Authority
CN
China
Prior art keywords
document
emotion
sentence
state
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010102690.7A
Other languages
English (en)
Other versions
CN111339440A (zh
Inventor
周德宇
张朦
杨扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010102690.7A priority Critical patent/CN111339440B/zh
Publication of CN111339440A publication Critical patent/CN111339440A/zh
Application granted granted Critical
Publication of CN111339440B publication Critical patent/CN111339440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向新闻文本基于层级状态神经网络的社会情绪排序方法,关注文档的语义层次结构信息,处理社会情绪检测中的相关情绪排序问题。本方法包括:对新闻文本进行预处理;通过句子状态循环神经网络,对词编码得到句子表示;通过文档状态循环神经网络,对句子编码得到文档表示;以文档表示为基础,使用多层感知机进行映射,softmax进行归一化处理,得到相关情绪的排序结果。本方法相比之前的相关情绪排序方法,在每个时间步同时对所有词或句子的隐藏状态进行编码,可以更好地捕获长距离语义依赖。此外,采用层级结构机制来捕获文档中关键的层级语义结构,动态突出了文档中唤起情绪的重要部分,可以提升相关情绪排序的性能。

Description

面向新闻文本基于层级状态神经网络的社会情绪排序方法
技术领域
本发明涉及利用计算机对文本进行情绪检测,具体涉及一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法,属于机器学习技术领域。
背景技术
文本情绪分析是对带有情绪或者可能引发读者情绪的文本进行分析、处理、归纳和推理的过程。随着互联网的不断发展,人们开始习惯于在网上发表观点、想法和态度。了解人们的情绪状态对一些应用,如对话***、推荐***等,有着重要的实际意义。社会情绪检测是指预测互联网上的新闻文本在社会中引起的情绪反应,通常表示为情绪的分布。社会情绪检测对舆情控制等有着重要的意义。由于在一个文档中经常会发现不同强度的多种情绪,所以社会情绪检测也可以转化为社会情绪排序问题。相关情绪排序问题是社会情绪排序中的一个子问题,即针对一个文档来说,可以根据情绪的强度对情绪标签进行排序,而所有的情绪标签可以被分为相关情绪和不相关情绪两类,由于不相关的情绪的排序可能会是噪声对模型带来干扰,所以需要区分文档的相关情绪和不相关情绪,并且仅考虑相关情绪的排序情况。然而,现有的相关情绪排序方法研究通常基于较浅的表示,例如不考虑词序的词袋模型,没有充分利用文档的语义结构信息,在捕获长距离依赖性方面存在困难。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法,能够有效得到文档中的长距离语义依赖和关键语义结构信息。
技术方案:为实现上述目的,本发明所述的一种面向新闻文本基于层级状态神经网络的社会情绪排序方法,包括如下步骤:
(1)对新闻文本进行预处理;
(2)通过句子状态循环神经网络,对词编码得到句子表示;包括:使用编码器对词编码得到每个词的隐状态,使用注意力机制计算每个词的权重,最后对每个词加权求和,得到每个句子的语义表示;
(3)通过文档状态循环神经网络,对句子编码得到文档表示;包括:使用编码器对句子编码得到每个句子的隐状态,使用注意力机制计算每个句子的权重,最后对每个句子加权求和,得到文档的语义表示;
(4)以文档表示为基础,使用一个多层感知机将文档表示映射成标签分布,并使用softmax函数进行归一化处理,得到相关情绪的排序结果。
进一步地,所述步骤(1)中的新闻文本预处理包括:对文档进行分词,过滤掉文档中的非中文字符、停用词和在所处理的数据集中仅出现一次的词。
进一步地,所述步骤(2)中对于句子si来说,时间步t的状态表示为: 由对于每一个词wij的隐状态/>和句子级状态/>组成,wij代表句子si的第j个词的词向量,Ni是句子si的长度;句子si的语义表示为:
其中,
是词wij的权重,ww、bw和uw是模型参数,softmax(·)是一个归一化的逻辑回归函数,tanh(·)是双曲正切激活函数。
进一步地,所述步骤(3)中对于文档d来说,时间步t的状态表示为: 由对于每一个句子si的隐状态/>和文档级状态qt组成,si表示文档d中的第i句的语义表示,M是文档中的句子数目;文档d的语义表示为:
其中,
是句子si的权重,Ws、bs和us是模型参数。
进一步地,所述步骤(4)中使用预先设定的阈值选出相关情绪标签集合,并排序得到相关情绪的排序结果。
进一步地,相关情绪排序的任务是学习得到排序函数g(di)=[g1(di),g2(di),…,gT(di)]为每个情绪ej分配一个分数gj(di),其中T为情绪标签数,di为训练集中的第i个新闻文档;学习时使用的相关情绪排序损失函数表示为:
其中K为训练集中新闻文档数,et表示属于相关情绪集合Ri的标签,es表示相关性低于et的情绪标签,两者关系表示为es∈<(et);ωts为相关性系数,标准化项normt,s的设置如下:
表示不相关的情绪集合。
有益效果:本发明提出的一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法,相比于传统的循环神经网络增量式地读取一系列词,层级状态循环神经网络在每个时间步同时对所有词或句子的隐藏状态进行编码,以更好地捕获长距离语义依赖。此外,采用层级结构机制来捕获文档中关键的层级语义结构,动态突出了文档中唤起情绪的重要部分,可以提升相关情绪排序的性能。
附图说明
图1是本发明实施例中的方法流程图。
图2是本发明实施例中构建的编码器在句子状态循环神经网络中的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
问题可以描述如下:假设有T个情绪标签E={e1,e2,…,eT}和K个文档D={d1,d2,…,dK},每个文档di都有其相关情绪排序集合和不相关的情绪集合/>相关情绪排序旨在学习分数函数g(di)=[g1(di),g2(di),…,gT(di)]为每个情绪ej(j=1,2,…,T)分配一个分数gj(di)。为了区分相关情绪和无关情绪,定义一个阈值gΘ(di),该阈值可以简单地设置为固定值或从数据中学习。分数低于阈值的情绪将被视为无关,因此被丢弃。根据学习的排序函数g对应的分数,可以同时获得相关情绪的识别及其排序。如前所述,不必考虑无关情绪的排名,因为它们可能会在学习过程中给模型带来误差。
本发明实施例的一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法,如图1所示,主要包括如下步骤:
S1:对于新浪社会新闻数据集中给定的一篇文档d进行分词,去掉非中文字符和数据集中仅出现一次的词,得到处理后的文档d={s1,s2,…,sM},其中si表示文档d中的第i句,M是文档中的句子数目。
S2:通过句子状态循环神经网络,对词编码得到句子表示,如图2所示,具体包括:
首先是针对句子中的每个词,先映射为一个预先训练好的词向量,则一个句子可以表示为wij代表句子si的第j个词的词向量,Ni是句子长度。为了编码较长的文档,本方法使用了一种循环神经网络结构作为编码器。在句子状态循环神经网络中,对于句子si来说,时间步t的状态可以表示为:
它包括对于每一个词wij的隐状态和句子级状态/>组成。循环状态转换过程用于模拟这些隐状态之间的信息交换,从而逐步丰富状态表示。状态转移的计算方法和LSTM类似,/>的计算依赖于wij和上一时刻的/>和/>
并非所有的词都对句子的意义有同等的作用。因此,进一步引入了一种注意力机制来提取重要的词汇,并将这些注意力信息和词汇的表示进行聚合,形成最终的句子表示。
计算方式如下:
其中是词wij的权重,Ww、bw和uw是模型参数,softmax(·)是一个归一化的逻辑回归函数,tanh(·)是双曲正切激活函数。需要注意的是,相较于一般的注意力机制,本方法将句子全局表达/>加入到计算注意力的过程中从而加强学习到的注意力。
S3:通过文档状态循环神经网络,对句子编码得到文档表示,具体包括:
使用了循环神经网络结构作为编码器。在文档状态循环神经网络中,对于文档d来说,时间步t的状态可以表示为:
它包括对于每一个句子si的隐状态和文档级状态qt组成。循环状态转换过程用于模拟这些隐状态之间的信息交换,从而逐步丰富状态表示。状态转移的计算方法和LSTM类似,/>的计算依赖于/>和上一时刻的/>和qt-1
并非所有的句子都对文档的意义有同等的作用。因此,进一步引入了注意机制来提取重要的句子,并将这些注意力信息和句子的隐状态进行聚合,形成最终的文档表示。
计算方式如下:
其中是句子si的权重,Ws、bs和us是模型参数。
S4:使用一个多层感知机将文档表示d映射成标签分布,并使用softmax函数进行归一化处理,具体如下:
dis=softmax(MLP(d))
然后使用预先设定的阈值,选出dis中大于阈值的标签得到相关情绪标签集合L={l1,l2,…,lQ},并排序得到相关情绪的排序结果如下:
相关情绪排序的任务是学习得到排序函数g,因此为了满足相关情绪排序的要求,使用了相关情绪排序损失函数:
其中et表示属于相关情绪集合的标签,es表示相关性低于et的情绪标签,两者关系表示为es∈<(et)。因此,(et,es)可以表示所有情绪标签中的两种标签组合:(相关情绪,相关情绪)和(相关情绪,不相关情绪)。标准化项normt,s用于避免损失函数被各自的集合大小所控制,来平衡这两种标签组合对损失函数的影响,针对两种组合,normt,s的设置如下:
同时,为了进一步考虑不同标签之间的相关性,我们引入了相关性系数ωts来表示情绪标签es和et之间的关系,可以用Pearson相关系数计算得到。
一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法的算法流程如下:
本发明在实验过程中,实验参数设置如下:使用jieba对文档进行分词,词向量和隐状态的维度设置为300,相关标签和不项关标签的阈值设置为0.1。使用Adam对网络进行优化。在新浪社会新闻数据集上得到的各项指标如下:Pro Loss为0.1766,Hamming Loss为0.1909,Ranking Loss为0.1133,F1为0.7449,性能均优于现有的相关情绪排序方法。
本发明提出了一种面向新闻文本的基于层级状态神经网络的社会情绪排序方法。传统的循环神经网络通常增量式地读取一系列词,而层级状态循环神经网络在每个时间步同时对所有词或句子的隐藏状态进行编码,以更好地捕获长距离语义依赖。此外,采用层级结构机制来捕获文档中关键的层级语义结构,动态突出了文档中唤起情绪的重要部分,可以提升相关情绪排序的性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种面向新闻文本基于层级状态神经网络的社会情绪排序方法,其特征在于,包括如下步骤:
(1)对新闻文本进行预处理;
(2)通过句子状态循环神经网络,对词编码得到句子表示;包括:使用编码器对词编码得到每个词的隐状态,使用注意力机制计算每个词的权重,最后对每个词加权求和,得到每个句子的语义表示;
(3)通过文档状态循环神经网络,对句子编码得到文档表示;包括:使用编码器对句子编码得到每个句子的隐状态,使用注意力机制计算每个句子的权重,最后对每个句子加权求和,得到文档的语义表示;
(4)以文档表示为基础,使用一个多层感知机将文档表示映射成标签分布,并使用softmax函数进行归一化处理,得到相关情绪的排序结果;
所述步骤(2)中对于句子si来说,时间步t的状态表示为:由每一个词wij的隐状态/>和句子级状态/>组成,wij代表句子si的第j个词的词向量,Ni是句子si的长度;句子si的语义表示为:
其中,
αwij是词wij的权重,Ww、bw和uw是模型参数,softmax(·)是一个归一化的逻辑回归函数,tanh(·)是双曲正切激活函数;
所述步骤(3)中对于文档d来说,时间步t的状态表示为:由每一个句子si的隐状态/>和文档级状态qt组成,si表示文档d中的第i句的语义表示,M是文档中的句子数目;文档d的语义表示为:
其中,
是句子si的权重,Ws、bs和us是模型参数;
相关情绪排序的任务是学习得到排序函数g(di)=[g1(di),g2(di),…,gT(di)]为每个情绪ej分配一个分数gj(di),其中T为情绪标签数,di为训练集中的第i个新闻文档;学习时使用的相关情绪排序损失函数表示为:
其中K为训练集中新闻文档数,et表示属于相关情绪集合Ri的标签,es表示相关性低于et的情绪标签,两者关系表示为es∈<(et);ωts为相关性系数,标准化项normt,s的设置如下:
表示不相关的情绪集合。
2.根据权利要求1所述的一种面向新闻文本基于层级状态神经网络的社会情绪排序方法,其特征在于,所述步骤(1)中的新闻文本预处理包括:对文档进行分词,过滤掉文档中的非中文字符、停用词和在所处理的数据集中仅出现一次的词。
3.根据权利要求1所述的一种面向新闻文本基于层级状态神经网络的社会情绪排序方法,其特征在于,所述步骤(4)中使用预先设定的阈值选出相关情绪标签集合,并排序得到相关情绪的排序结果。
CN202010102690.7A 2020-02-19 2020-02-19 面向新闻文本基于层级状态神经网络的社会情绪排序方法 Active CN111339440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010102690.7A CN111339440B (zh) 2020-02-19 2020-02-19 面向新闻文本基于层级状态神经网络的社会情绪排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010102690.7A CN111339440B (zh) 2020-02-19 2020-02-19 面向新闻文本基于层级状态神经网络的社会情绪排序方法

Publications (2)

Publication Number Publication Date
CN111339440A CN111339440A (zh) 2020-06-26
CN111339440B true CN111339440B (zh) 2024-01-23

Family

ID=71181644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010102690.7A Active CN111339440B (zh) 2020-02-19 2020-02-19 面向新闻文本基于层级状态神经网络的社会情绪排序方法

Country Status (1)

Country Link
CN (1) CN111339440B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813920B (zh) * 2020-07-06 2021-04-13 龙马智芯(珠海横琴)科技有限公司 一种学习策略生成方法、装置、生成设备及可读存储介质
CN111950275B (zh) * 2020-08-06 2023-01-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN112732872B (zh) * 2021-01-12 2022-11-18 东南大学 面向生物医学文本的基于主题注意机制的多标签分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110765269A (zh) * 2019-10-30 2020-02-07 华南理工大学 基于动态词向量和层级神经网络的文档级情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110765269A (zh) * 2019-10-30 2020-02-07 华南理工大学 基于动态词向量和层级神经网络的文档级情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YangYang等.Interpretable Relevant Emotion Ranking with Event-Driven Attention.《Proceedings of the 2019 Conference on Empirical Methods in Natural Language Proceeding and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP)》.2019,第177-187页. *

Also Published As

Publication number Publication date
CN111339440A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
Lai et al. Fine-grained emotion classification of Chinese microblogs based on graph convolution networks
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111339440B (zh) 面向新闻文本基于层级状态神经网络的社会情绪排序方法
CN111046941B (zh) 一种目标评论检测方法、装置、电子设备和存储介质
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Xiao et al. Using convolution control block for Chinese sentiment analysis
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN111563143A (zh) 一种新词的确定方法及装置
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN117094291B (zh) 基于智能写作的自动新闻生成***
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN111400492A (zh) 基于sfm-dcnn的层次特征文本分类方法和***
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
Tao et al. News text classification based on an improved convolutional neural network
CN115062139A (zh) 一种对话文本摘要模型自动搜索方法
Yang et al. News text mining-based business sentiment analysis and its significance in economy
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant