CN110427616A - 一种基于深度学习的文本情感分析方法 - Google Patents
一种基于深度学习的文本情感分析方法 Download PDFInfo
- Publication number
- CN110427616A CN110427616A CN201910655814.1A CN201910655814A CN110427616A CN 110427616 A CN110427616 A CN 110427616A CN 201910655814 A CN201910655814 A CN 201910655814A CN 110427616 A CN110427616 A CN 110427616A
- Authority
- CN
- China
- Prior art keywords
- model
- word
- vector
- term vector
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的文本情感分析方法,准备电影评论数据集,准备停用词词典;对数据集进行预处理,使用结巴分词对数据集进行分词,将句子拆分为词语集合;模型的输入需要为数据元组,用融合情感信息的Word2Vec‑PS模型训练词向量,构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好。本发明的有益效果是能较为客观的进行影评文本情感分析,分析较为准确。
Description
技术领域
本发明属于深度学习技术领域,涉及利用深度学习算法进行影评文本情感分析的方法。
背景技术
在当今时代,互联网上存在着大量可作为情感语料数据原型的评论。如何高效精确地获取基于这些语料的情感信息,并依次进行相关研究成为当前信息科学与技术领域面临的重大挑战。情感分析,又称意见挖掘(opinion mining),是用于分析人对特定对象及其相关属性的观点、态度以及其他主观感情的技术。文本情感分析是指分析文本的情感极性。在互联网时代,大量带有情感倾向的文本数据对人们的决策具有重要的作用。例如,消费者在观看电影之前,希望根据电影已有的评论来选择。电影院也可以通过消费者对电影的评论信息,对电影的排片或相关服务进行改进。
发明内容
本发明的目的在于提供一种基于深度学习的文本情感分析方法,本发明的有益效果是能较为客观的进行影评文本情感分析,分析较为准确。
本发明所采用的技术方案是按照以下步骤进行:
Step1.数据准备。准备电影评论数据集,这里使用IMDB的大型电影评论数据集,IMDB数据集包含了50000条从IMDB标注获得的二分类评论,这些评论在训练过程中将会被1:1分成训练集和测试集。准备停用词词典,这里使用中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词典;
Step2.数据预处理,对数据集进行预处理,使用结巴分词对数据集进行分词,即将句子拆分为词语集合,例如,这样/的/电影/很/好看。遍历数据集中的所有语句,删除其中的停用词,上述例子删除停用词后结果为:电影/很/好看。
模型的输入需要为数据元组,因此需要将词语组合转化为一个数值向量——词向量。用融合情感信息的Word2Vec-PS模型训练词向量,将词语组合转化为数值向量,同时降低维度得到词向量语义信息;
用融合情感信息的Word2Vec-PS模型训练词向量方法如下:
选用Word2Vec中的CBOW模型进行改进,提出融合情感信息的词向量模型,CBOW模型包括输入层、投影层和输出层三部分,在已知当前词wt-2、wt-1、wt+1、wt+2的前提下预测wt,神经网络的语言模型的目标函数L通常取如下对数似然函数:
其中:context(w)由词w前后各c个词组成,c为自然数,D为数据集,w∈D。融合事先收集数据中的能反应情感的标点符号组合及标点符号连用信息来得到Word2Vec-PS模型,模型目标函数如下:
其中:context(w)由词w前后各c个词组成,puncs(w)为事先收集的数据中的标点符号组合及标点符号连用信息。
输入层中context(w)中2c个词的词向量V(context(w)1),V(context(w)2),…,V(context(w)2c)∈Rm,投影层将输入层的2c个向量作求和累加基础上融合情感信息的向量如下:
其中:xw为融合情感信息的向量,v(puns(w))为puncs(w)的向量表示。
在模型输出层中,语料库不仅包含了所有句子中出现的词,并且将句子中出现的能反应情感的标点符号组合及连用信息作为频繁词向量化,这样融合情感信息的概率模型如下:
其中:模型的输出层对应一个以数据集中出现过的词及能反应情感的标点符号组合及连用信息当做叶子结点,以对应词在数据中出现的次数当权值构造的Huffman树。在Huffman树中为每一个非叶子结点的左右孩子指定了一个类别,约定将Huffman编码为1的节点定义为正类,编码为0的节点定义为负类。这样对于数据D中的任意词w,Huffman树中必然存在且唯一存在一条从根节点到词w的路径pw。路径pw上存在lw-1个分支,每个分支对应的二分类就产生了一个概率,将这个概率连乘就是所需的p(w|context(w)+puncs(w))。xw为融合情感信息的向量,pw为从根节点出发到达w对应叶子结点的路径,lw为路径pw中包含结点的个数,表示路径pw中第j个结点对应的编码(跟结点不对应编码),表示路径pw中第j-1个非叶子结点对应的向量。
Step3.构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;
构建循环神经网络模型方法如下:
定义初始激活量a<0>为零向量开始计算,公式如下:
a<t>=g1(Waaa<t-1>+Waxx<t>+ba)
Wax下标的含义:x表示Wax要乘以一个x类型的量,a表示Wax是用来计算某个a类型的量。ba是偏置值。通常选择tanh(双曲正切函数)作为激活函数,有时候也会使用ReLu(修正线性单元)作为激活函数。然后计算输出公式如下:
输出y的激活函数由输出的类型决定:(1)如果输出y是一个二分问题,通常选用sigmoid作为激活函数;(2)如果是k类别分类问题,可以选用softmax作为激活函数。对于情感文本分析来说,这里的g2可以是sigmoid激活函数。通过反向传播计算,使用梯度下降方法来更新RNN的参数,本发明中使用标准logistics回归损失函数(交叉熵损失函数)。关于某个时间步t上预测值的损失函数如下:
y<t>表示样本的输出,表示样本输出的概率。整个序列的损失函数如下:
反向传播算法按照前向传播相反的方向进行导数计算,来对参数进行更新,最终训练出准确度较高的模型。
Step4.进行电影评论文本情感分析。用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好,差2个类别,验证结果准确度可观。
附图说明
图1为本发明文本情感分析的流程图;
图2为CBOW模型;
图3为改进后融合情感信息的Word2Vec-PS模型;
图4为本发明的循环神经网络简略模型图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明如图1所示将影评文本情感分析分为数据准备、数据预处理、构建模型、情感分析4个模块。在进行数据准备时,需要准备语料库、停用词表以及验证集。语料库这里使用康奈尔大学提供的影评数据集,停用词这里使用的是中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词表,验证集使用爬虫技术爬取豆瓣电影网影评进行验证。
图2为CBOW模型,在进行数据预处理时,首先要进行分词,这里采用Jieba进行分词。去除停用词,要遍历所有语料中的所有词语,删除其中的停用词,便于后续训练词向量。然后用融合情感信息的Word2Vec-PS模型训练词向量(如图3所示),将词语组合转化为数值向量,同时降低维度得到词向量语义信息。在电影评论中,经常会出现标点符号组合使用或标点符号连用的情况。这种用法虽然不符合语法规则,但在影评中却往往被用来表达一些单个符号难以表达的情感。例如“~”在文本中往往表达一种感情的起伏和延伸。如“真的特别好看啊~~~!”。为了在电影评论文本处理中能够反映出表达者的语气和强度,将标点符号组合及连用信息作为频繁词向量化,得到融合情感信息的Word2Vec-PS模型。
图4为本发明的循环神经网络简略模型图,将训练好的词向量按不同时刻输入到循环神经网络模型中。
在进行情感分析时,用数据集训练构建的循环神经网络模型,并用测试集对模型进行验证,模型的输出结果为好,差4个类别,验证结果准确度可观,能较为客观的进行影评文本情感分析。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (4)
1.一种基于深度学习的文本情感分析方法,其特征在于按照以下步骤进行:
Step1.准备电影评论数据集,准备停用词词典;
Step2.对数据集进行预处理,使用结巴分词对数据集进行分词,将句子拆分为词语集合;模型的输入需要为数据元组,因此需要将词语组合转化为词向量,用融合情感信息的Word2Vec-PS模型训练词向量,将词语组合转化为数值向量,同时降低维度得到词向量语义信息;
Step3.构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;
Step4.用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好。
2.按照权利要求1所述一种基于深度学***台发布的包含1208个停用词的中文停用词典。
3.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤2中用融合情感信息的Word2Vec-PS模型训练词向量方法如下:
选用Word2Vec中的CBOW模型进行改进,提出融合情感信息的词向量模型,CBOW模型包括输入层、投影层和输出层三部分,在已知当前词wt-2、wt-1、wt+1、wt+2的前提下预测wt,神经网络的语言模型的目标函数L取如下对数似然函数:
其中:context(w)由词w前后各c个词组成,c为自然数,D为数据集,w∈D;融合事先收集数据中的能反应情感的标点符号组合及标点符号连用信息来得到Word2Vec-PS模型,模型目标函数如下:
其中:context(w)由词w前后各c个词组成,puncs(w)为事先收集的数据中的标点符号组合及标点符号连用信息;
输入层中context(w)中2c个词的词向量V(context(w)1),V(context(w)2),…,V(context(w)2c)∈Rm,投影层将输入层的2c个向量作求和累加基础上融合情感信息的向量如下:
其中:xw为融合情感信息的向量,v(puns(w))为puncs(w)的向量表示;
在模型输出层中,语料库不仅包含了所有句子中出现的词,并且将句子中出现的能反应情感的标点符号组合及连用信息作为频繁词向量化,这样融合情感信息的概率模型如下:
其中:模型的输出层对应一个以数据集中出现过的词及能反应情感的标点符号组合及连用信息当做叶子结点,以对应词在数据中出现的次数当权值构造的Huffman树,在Huffman树中为每一个非叶子结点的左右孩子指定了一个类别,约定将Huffman编码为1的节点定义为正类,编码为0的节点定义为负类,这样对于数据D中的任意词w,Huffman树中必然存在且唯一存在一条从根节点到词w的路径pw;路径pw上存在lw-1个分支,每个分支对应的二分类就产生了一个概率,将这个概率连乘就是所需的p(w|context(w)+puncs(w)),xw为融合情感信息的向量,pw为从根节点出发到达w对应叶子结点的路径,lw为路径pw中包含结点的个数,表示路径pw中第j个结点对应的编码(跟结点不对应编码),表示路径pw中第j-1个非叶子结点对应的向量。
4.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤3中构建循环神经网络模型方法如下:
定义初始激活量a<0>为零向量开始计算,公式如下:
a<t>=g1(Waaa<t-1>+Waxx<t>+ba)
Wax下标的含义:x表示Wax要乘以一个x类型的量,a表示Wax是用来计算某个a类型的量,ba是偏置值,然后计算输出公式如下:
输出y的激活函数由输出的类型决定:(1)如果输出y是一个二分问题,通常选用sigmoid作为激活函数;(2)如果是k类别分类问题,可以选用softmax作为激活函数,对于情感文本分析来说,这里的g2是sigmoid激活函数,关于某个时间步t上预测值的损失函数如下:
y<t>表示样本的输出,表示样本输出的概率,整个序列的损失函数如下:
反向传播算法按照前向传播相反的方向进行导数计算,来对参数进行更新,最终训练出准确度较高的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910655814.1A CN110427616B (zh) | 2019-07-19 | 2019-07-19 | 一种基于深度学习的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910655814.1A CN110427616B (zh) | 2019-07-19 | 2019-07-19 | 一种基于深度学习的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427616A true CN110427616A (zh) | 2019-11-08 |
CN110427616B CN110427616B (zh) | 2023-06-09 |
Family
ID=68411222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910655814.1A Active CN110427616B (zh) | 2019-07-19 | 2019-07-19 | 一种基于深度学习的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427616B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221950A (zh) * | 2019-12-30 | 2020-06-02 | 航天信息股份有限公司 | 一种用户弱感情的分析方法及装置 |
CN111540470A (zh) * | 2020-04-20 | 2020-08-14 | 北京世相科技文化有限公司 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
CN112232079A (zh) * | 2020-10-15 | 2021-01-15 | 燕山大学 | 一种微博评论数据分类方法及*** |
CN112329449A (zh) * | 2020-11-16 | 2021-02-05 | 电子科技大学 | 基于情感词典和Transformer的情感分析方法 |
CN113408852A (zh) * | 2021-05-18 | 2021-09-17 | 江西师范大学 | 基于在线学习行为和深度神经网络的元认知能力评估模型 |
CN113705201A (zh) * | 2021-10-28 | 2021-11-26 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN115662435A (zh) * | 2022-10-24 | 2023-01-31 | 福建网龙计算机网络信息技术有限公司 | 一种虚拟教师拟真化语音的生成方法及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
-
2019
- 2019-07-19 CN CN201910655814.1A patent/CN110427616B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
Non-Patent Citations (1)
Title |
---|
张仰森等: "基于双重注意力模型的微博情感分析方法", 《清华大学学报(自然科学版)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221950A (zh) * | 2019-12-30 | 2020-06-02 | 航天信息股份有限公司 | 一种用户弱感情的分析方法及装置 |
CN111540470A (zh) * | 2020-04-20 | 2020-08-14 | 北京世相科技文化有限公司 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
CN111540470B (zh) * | 2020-04-20 | 2023-08-25 | 北京世相科技文化有限公司 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
CN112232079A (zh) * | 2020-10-15 | 2021-01-15 | 燕山大学 | 一种微博评论数据分类方法及*** |
CN112232079B (zh) * | 2020-10-15 | 2022-12-02 | 燕山大学 | 一种微博评论数据分类方法及*** |
CN112329449B (zh) * | 2020-11-16 | 2023-03-21 | 电子科技大学 | 基于情感词典和Transformer的情感分析方法 |
CN112329449A (zh) * | 2020-11-16 | 2021-02-05 | 电子科技大学 | 基于情感词典和Transformer的情感分析方法 |
CN113408852A (zh) * | 2021-05-18 | 2021-09-17 | 江西师范大学 | 基于在线学习行为和深度神经网络的元认知能力评估模型 |
CN113408852B (zh) * | 2021-05-18 | 2022-04-19 | 江西师范大学 | 基于在线学习行为和深度神经网络的元认知能力评估模型 |
CN113705201B (zh) * | 2021-10-28 | 2022-01-11 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN113705201A (zh) * | 2021-10-28 | 2021-11-26 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN115662435A (zh) * | 2022-10-24 | 2023-01-31 | 福建网龙计算机网络信息技术有限公司 | 一种虚拟教师拟真化语音的生成方法及终端 |
US11727915B1 (en) | 2022-10-24 | 2023-08-15 | Fujian TQ Digital Inc. | Method and terminal for generating simulated voice of virtual teacher |
Also Published As
Publication number | Publication date |
---|---|
CN110427616B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107168945B (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN110717334A (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
Qian et al. | Hierarchical CVAE for fine-grained hate speech classification | |
CN109344391A (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析***及方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及*** | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及*** | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN110489554B (zh) | 基于位置感知互注意力网络模型的属性级情感分类方法 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |