CN108959479B - 一种基于文本相似度的事件情感分类方法 - Google Patents
一种基于文本相似度的事件情感分类方法 Download PDFInfo
- Publication number
- CN108959479B CN108959479B CN201810642911.2A CN201810642911A CN108959479B CN 108959479 B CN108959479 B CN 108959479B CN 201810642911 A CN201810642911 A CN 201810642911A CN 108959479 B CN108959479 B CN 108959479B
- Authority
- CN
- China
- Prior art keywords
- event
- emotion
- text
- value
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于文本相似度的事件情感分类方法,包括以下操作步骤:S000、设整个待处理事件的情感值为S;S001、选取并生成单文本情感分类模型;S002、根据余弦相似度将文本聚类;S003、设置事件的分割参数;S004、针对每一个事件类event,按照声量值分类选择文本判断分析;S005、将事件类中所有文本向量进行均值运算,生成该类的均值向量,将均值向量输入到应用模型model中,输出均值向量情感值p_avg;S006、事件内部存在情感倾向的文本,计算其情感值;S007、利用情感分类模型对事件情感值进行计算;S008、判断事件情感分类。本技术方案可针对大量文本进行监测分析,且减少人工参数,快速判断出事件的情感分类,从而达到对舆情进行监测的目的。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于文本相似度的事件情感分类方法。
背景技术
伴随着计算机的日益普及和互联网的迅速发展,网络已成为许多领域的用户发表和反馈个人观点、评论的主要途径。这些共享的评论信息不仅为用户提供了产品使用体验交流的平台,也可以作为其他用户使用产品前的借鉴。但是,网络中的这些评论信息量非常大,如果对每一条评论信息都人工阅读分析评论好坏,会浪费用户大量的时间。因此,如何让用户在短时间内就能够客观的了解某个产品的评论信息所反映出的总体评价好坏情况,即对网络中的评论文本进行情感分析分类,是非常必要的。
文本情感分析,就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分类是利用底层情绪信息抽取的结果将情感文本分为了若干类别,例如分为褒贬两类。而目前针对情感分析的技术是基于单个文本的,所有模型都是预测单个文本的情感倾向,如正向、负向或中性。面对海量的数据,人工是很难保证所有的热点都被监测到,且人工监测时监测工作量大,很难开展对单独的某部分文本进行监测。
基于此,提供一种基于文本相似度的事件情感分类方法。
发明内容
本发明所要解决上述技术问题之一:人工在处理海量数据时,处理量大,很难保证将所有热点都监测到,存在监测量大的问题,本技术方案提供一种基于文本相似度的事件情感分析方法,本方法首先计算出事件event情感值,获得单个文本情感分类模型,然后根据余弦相似度、文本情感倾向等判断事件情感分类,从而分析出情感的种类。
本发明通过下述技术方案实现:
一种基于文本相似度的事件情感分析方法,包括以下操作步骤,
S000、设整个待处理事件的情感值为S,设情感分界值分别为S1、S2;
S001、选取并生成单文本情感分类模型model,情感类别为正面、中立、负面;
S002、根据余弦相似度将文本聚类,聚合成不同的事件类;
S003、设置事件的分割参数limit-num,用来控制事件中的文本切割参数;
S004、针对每一个事件类event,按照声量值选择文本,然后判断分析;
S005、将事件类中所有文本向量进行均值运算,生成该类的均值向量,将均值向量输入到应用模型model中,输出均值向量情感值p_avg;
S006、事件内部存在情感倾向的文本,计算情感值;
S007、利用情感分类模型对事件情感值进行计算(综合w1,w2),其中,w1+w2=1;
S008、判断事件情感分类s=p(event),若s≥s2,则事件为正向;若s1<s<s2,则事件为中立;若s≤s1,则事件为负向。
这里用S表示事件event情感分类,s1、S2表示情感分界值,通过比较S与s1、S2的差值大小来确定该事件情感属于正面、负面、中性中的哪一种。
进一步地,为了更好的实现本发明,所述步骤S004中进行判断分析所针对的文本为根据声量筛选出的文本,筛选事件声量的具体方法为,设置事件为A,事件中的文本数量表示为L(A),当L(A)>limit_num,取声量大于top-θ的文本作为本事件的分类依据;若L(A)<limit_num,取事件中全部数据作为分类依据,其中,θ可取值为80%,另外这里的θ取值,主要依据事件文本中按照何种方式进行分类而进行取值。
进一步地,为了更好的实现本发明,所述步骤S006)中,计算情感值的方法为归一化法。
进一步地,为了更好的实现本发明,采用归一化法计算情感值的具体操作方法为:
S006.2)将每篇文章的情感值pk根据其声量比例做加权求和运算,公式如下:
关于步骤s006.1)中,n表示事件类中的文档实例数目,如这里的n=length(A)=1000。
进一步地,为了更好的实现本发明,所述步骤s007中用情感分类模型对事件情感值进行计算的方法为:采用分类准确率训练得到,其中W1+W2=1,
p(event)=w1*p(α)+w2*p(β),其中p(β)=p_avg。
进一步地,为了更好的实现本发明,所述步骤s008中,判断事件情感分类方法,若s>=s2,则事件为正向;若s1<s<s2,则事件为中立;若s<=s1,则事件为负向。
本技术方案所述方法中,假设事件event单文本的情感值生成模型F,事件的文本向量集为X,每个文本的向量表示为Xk,k=1,2,…,n。事件event的情感值可分两部分求得,分别是p(α)和p(β),其中,α部分由声量计算得到,β部分由事件event中所有文本的情感值的均值向量计算得到,则:
通过单文本情感值生成模型F,计算每篇文章的情感值pk,pk=F(Xk)
事件event的情感值由p(α)和p(β)两部分构成,分别计算由p(α)和p(β):
根据上述计算出的p(α)、p(β),进一步计算P(event):
p(eVent)=M*p(α)+W2*p(β)
注:
w1,w2:w1+w2=1,分别代表是两个权重因子;
volk:代表event中第k个文本的声量;
total_vol:代表event的总声量;
针对w1,w2,我们可以合理地改变两部分情感值的配比,w1,w2的变化综合考虑了事件情感的声量和它所包含的文本向量本身,监测者可根据是否看中声量的影响,抑或是文本向量本身的情感值来做决策,这样根据不同的需求,配置更加灵活以适应具体的文本内容。
本技术方案所述的基于文本相似度的事件情感分类方法,主要适用于网络舆情监测的事件情感倾向分析。
本发明具有如下的优点和有益效果:
本技术方案提供了一种基于文本相似度的事件情感分类方法,可对大量的数据进行筛选,筛选出其中某个事件的倾向及其蔓延趋势,相对于现有技术中对单个文本进行情感分析的方法,本技术方案可针对大量文本进行监测分析,且减少人工参数,快速判断出事件的情感分类,从而达到对舆情进行监测的目的。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例中涉及到的符号说明,R表示文本,vol表示音量,M表示向量化模型,F表示情感生成模型,设置计算事件event中计算两个权重因子的数值为,W1=0.6,W1=0.4。
实施例1:
一种基于文本相似度的事件情感分类方法,包括以下操作步骤,
S001,用文本相似度聚类算法将文本集聚类成事件A,对事件A中所有文本进行分析,即θ为100%;这里关于θ的取值还可以为其他值,主要针对进行分析的文本进行确定;
事件A中存在三条记录,分别是:
R1:中华儿女的民族复兴梦vol1:10000;
R2:中华名族的伟大复兴vol2:2000;
R3:作为有梦想的中华儿女,我们义无反顾前行vol3:1000;
S002,利用训练后的向量模型M将事件A中文本生成各自300维的向量v1,V2,V3,
v1=M(r1)=[0.11,0.04,-0.12,…,-0.11,-0.03]
v2=M(r2)=[-0.05,-0.18,-0.15,…,-0.05,0.21]
v3=M(r3)=[-0.18,0.22,-0.18,…,-0.08,0.02]
S003,根据v1,v2,v3,求出平均向量:
v_avg=(v1+v2+v3)/3
=[-0.04,0.03,-0.15,…,-0.10,0.07]
S004,利用单文本情感模型F,分别计算单个文本的情感值:
p_r1=F(v1)=0.87
p_r2=F(v2)=0.97
p_r3=F(v3)=0.99
将均值向量输入到应用模型mdel中,输出均值向量情感p_avg,p_avg=F(v_avg)=0.94;
计算出事件总声量total_vol=vol1+vol2+vol3;
005:计算事件情感值:
p(A)=p(α)+p(β)
=w1*(p_r1*vol1+p_r2*vol2+p_r3*vol3)/total_vol+w2*p_avg
=0.6*(0.87*10000+0.97*2000+0.99*1000)/(10000+2000+1000)+0.4*0.94=0.92
006:做出情感效果判别:
if p(A)<=0.33,则负向;
elif p(A)<=0.66,则中性;
else p(A)<=1,则正向;
因为p(A)=0.92,所以判断整个事件A的情感倾向为正向。
本实施例处理过程中,是基于大量文本进行处理,而现有技术中是针对单个文本,所有的模型也是预测单个文本进行预测情感倾向,而本实施例中针对13000条的数据记录进行分析,人工是很难保证所有热点都被观测到,更多情况下,我们在处理过程中,不仅仅关注单个文本的热度,还需要从海量数据中,筛选出某个事件的倾向及其蔓延趋势,而采取上述方式,只需要提取出当前事件的舆论倾向即可,然后继续沿着所关注的事件进一步监测单个文本。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于文本相似度的事件情感分类方法,其特征在于,包括以下操作步骤:
S000、设整个待处理事件的情感值为s ,设情感分界值分别为s1 、s2 ;
S001、选取并生成单文本情感分类模型model,情感类别为正面、中立、负面;
S002、根据余弦相似度将文本聚类,聚合成不同的事件类;
S003、设置事件的分割参数limit-num,用来控制事件中的文本切割参数;
S004、针对每一个事件类event,按照声量值选择文本,然后判断分析;
S005、将事件类中所有文本向量进行均值运算,生成该类的均值向量,将均值向量输入到单文本情感分类模型model中,输出均值向量情感值p_avg;
S006、事件内部存在情感倾向的文本,计算情感值;
S007、利用单文本情感分类模型对事件情感值进行计算;
S008、判断事件情感分类s=p(event),若s≥s2,则事件为正向;若s1<s<s2,则事件为中立;若s≤s1,则事件为负向;
所述步骤S006中,计算情感值的方法为归一化法;
采用归一化法计算情感值的具体操作方法为:
S006.2)将每篇文章的情感值pk与根据声量比例做加权求和运算,公式如下:
所述步骤s007中用单文本情感分类模型对事件情感值进行计算的方法为:采用分类准确率训练得到,其中w1+w2=1,
p(event)=w1*p(α)+w2*p(β),其中,p(β)=p_avg,w1为p(α)的权重因子,w2为p(β)的权重因子。
2.根据权利要求1所述的一种基于文本相似度的事件情感分类方法,其特征在于,所述步骤S004中判断分析所针对的文本为根据声量筛选出的文本,筛选声量的具体方法为,设置事件为A,事件中的文本数量表示为L(A),当L (A)>limit_num,取声量大于top-θ的文本作为本事件的分类依据;若L(A)<limit_num,取事件中全部数据作为分类依据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810642911.2A CN108959479B (zh) | 2018-06-21 | 2018-06-21 | 一种基于文本相似度的事件情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810642911.2A CN108959479B (zh) | 2018-06-21 | 2018-06-21 | 一种基于文本相似度的事件情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959479A CN108959479A (zh) | 2018-12-07 |
CN108959479B true CN108959479B (zh) | 2022-03-25 |
Family
ID=64491980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810642911.2A Active CN108959479B (zh) | 2018-06-21 | 2018-06-21 | 一种基于文本相似度的事件情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959479B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089504B1 (en) * | 2000-05-02 | 2006-08-08 | Walt Froloff | System and method for embedment of emotive content in modern text processing, publishing and communication |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102385579A (zh) * | 2010-08-30 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 互联网信息分类方法和*** |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
KR20130104471A (ko) * | 2012-03-14 | 2013-09-25 | 신기원 | 감정 상태 컨텐츠 제공 방법 |
CN103365867A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种对用户评价进行情感分析的方法和装置 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
CN104063427A (zh) * | 2014-06-06 | 2014-09-24 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN105868491A (zh) * | 2016-04-12 | 2016-08-17 | 北京航空航天大学 | 一种基于最佳平方逼近理论的平板隔声性能预测的方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
CN107943790A (zh) * | 2017-11-23 | 2018-04-20 | 中译语通科技股份有限公司 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
-
2018
- 2018-06-21 CN CN201810642911.2A patent/CN108959479B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089504B1 (en) * | 2000-05-02 | 2006-08-08 | Walt Froloff | System and method for embedment of emotive content in modern text processing, publishing and communication |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102385579A (zh) * | 2010-08-30 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 互联网信息分类方法和*** |
KR20130104471A (ko) * | 2012-03-14 | 2013-09-25 | 신기원 | 감정 상태 컨텐츠 제공 방법 |
CN103365867A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种对用户评价进行情感分析的方法和装置 |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103744953A (zh) * | 2014-01-02 | 2014-04-23 | 中国科学院计算机网络信息中心 | 一种基于中文文本情感识别的网络热点挖掘方法 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104035960A (zh) * | 2014-05-08 | 2014-09-10 | 东莞市巨细信息科技有限公司 | 互联网资讯信息热点预测方法 |
CN104063427A (zh) * | 2014-06-06 | 2014-09-24 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN105868491A (zh) * | 2016-04-12 | 2016-08-17 | 北京航空航天大学 | 一种基于最佳平方逼近理论的平板隔声性能预测的方法 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN107943790A (zh) * | 2017-11-23 | 2018-04-20 | 中译语通科技股份有限公司 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
Non-Patent Citations (3)
Title |
---|
Text-based emotion classification using emotion cause extraction;Li W 等;《Expert Systems with Applications》;20140331;第41卷(第4期);第1742-1749页 * |
基于深度特征的句子级文本情感分类;王波 等;《现代计算机(专业版)》;20160325;第4卷(第9期);第3-8页 * |
基于社交网络的舆情信息挖掘方法研究;黄宝成;《哈尔滨工业大学》;20171201(第12期);第I138-128页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959479A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El-Assady et al. | Progressive learning of topic modeling parameters: A visual analytics framework | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及*** | |
CN111144127B (zh) | 文本语义识别方法及其模型的获取方法及相关装置 | |
Zheleva et al. | Statistical models of music-listening sessions in social media | |
Teh et al. | Indian buffet processes with power-law behavior | |
CN108460010A (zh) | 一种基于情感分析的综合评分模型实现方法 | |
CN107944911B (zh) | 一种基于文本分析的推荐***的推荐方法 | |
Liu et al. | Stock volatility prediction using recurrent neural networks with sentiment analysis | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN108509793A (zh) | 一种基于用户行为日志数据的用户异常行为检测方法及装置 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN111966888B (zh) | 融合外部数据的基于方面类别的可解释性推荐方法及*** | |
Sun et al. | Evolving kernel principal component analysis for fault diagnosis | |
Wohlgenannt et al. | Extracting social networks from literary text with word embedding tools | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及*** | |
TWI477987B (zh) | 新聞文本情緒傾向分析方法 | |
Wang et al. | VAE-based adversarial multimodal domain transfer for video-level sentiment analysis | |
Yadav et al. | A comparative study of deep learning methods for hate speech and offensive language detection in textual data | |
Chen et al. | Neural response generation with relevant emotions for short text conversation | |
CN108959479B (zh) | 一种基于文本相似度的事件情感分类方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识*** | |
Wu et al. | An empirical study and improvement for speech emotion recognition | |
Yeo et al. | Sentiment analysis on time-series data using weight priority method on deep learning | |
Zakir et al. | Convolutional neural networks method for analysis of e-commerce customer reviews | |
Hasan et al. | TextMI: Textualize multimodal information for integrating non-verbal cues in pre-trained language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |