CN110825876A - 电影评论观点情感倾向性分析方法 - Google Patents

电影评论观点情感倾向性分析方法 Download PDF

Info

Publication number
CN110825876A
CN110825876A CN201911082409.1A CN201911082409A CN110825876A CN 110825876 A CN110825876 A CN 110825876A CN 201911082409 A CN201911082409 A CN 201911082409A CN 110825876 A CN110825876 A CN 110825876A
Authority
CN
China
Prior art keywords
comment
emotion
words
viewpoint
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911082409.1A
Other languages
English (en)
Other versions
CN110825876B (zh
Inventor
许青青
谢赟
韩欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Original Assignee
Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tak Billiton Information Technology Ltd By Share Ltd filed Critical Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority to CN201911082409.1A priority Critical patent/CN110825876B/zh
Publication of CN110825876A publication Critical patent/CN110825876A/zh
Application granted granted Critical
Publication of CN110825876B publication Critical patent/CN110825876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电影评论观点情感倾向性分析方法,包括:从影评网站爬取各类别的多部电影的影片描述信息和评论信息;对采集的影评描述信息和评论信息进行数据预处理;制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。能全面准确地反映出用户对影片的情感表达。

Description

电影评论观点情感倾向性分析方法
技术领域
本发明涉及信息抽取与数据挖掘技术领域,尤其涉及电影评论观点情感倾向性分析方法。
背景技术
互联网大数据时代,在线评论成为了口碑的代名词,也是消费者情感态度最直接的表达方式和渠道。对消费者评论的分析,对消费者来说,能够获取产品全方位的评价,从而多维度了解产品,方便用户进行决策。对于商家来说,可以了解消费者喜好、了解市场,从而提升服务质量、增加客户粘性。随着互联网媒体技术的日益革新,影院行业和家庭娱乐行业在内的电影娱乐产业正在蓬勃发展,电影已成为人们日常娱乐选项,而人们对电影的接受与欢迎,也滋生了大量的评论信息。从大众评论中提取主观性观点,并判断大众的正面倾向或负面倾向性是自然语言处理领域的信息抽取与挖掘中的重要问题,同时电影评论信息在价值观传递、影视环境塑造等方面,展示着自身的价值,对其展开分析,有助于影视研究的深化发展。因此,对电影评论观点进行情感倾向性分析具有重大意义。
目前普遍使用的用户评论观点提取主要是无监督的规则提取与聚类算法等方法。基于规则提取的方法,主要是依据句法结构人工总结规则来抽取评论中的观点,但人工整理的规则不能涵盖所有评论观点表述方式,所以该方法能提取的有效观点有限。基于聚类的方法,简单但准确率不高,很难生成较为合理准确的评论标签。
目前评论情感分析常用的方法有词典匹配与分类算法等。基于情感词典的方法,完全依赖于情感词典,受限于词典的规模大小;而情感分类算法是有监督的方法,有的训练集是根据评论信息及评分组合获取,有的是人工标注,需要消耗大量人工成本。
此外,不同行业的评论信息往往会有各自的关注点与侧重点,所以进行情感分析的方式会略有差异。对于电影评论而言,与电商、餐厅、酒店等在线评论信息相比,包含的用户体验与感受信息比较复杂,所以目前的情感分析与观点抽取方法并不能完全适用于影评分析。此外,许多在线评论研究将评论观点抽取与情感分类作为两个单独的研究模块,而用户对某一产品或事物的评论往往是多维度的,且对产品各个维度评价褒贬不一,直接分析用户情感是好评(正向)或差评(负向)显然不够正确,因此对用户提取的主要观点维度进行情感分析更具有实际价值。比如,对于评论“这部电影的演员演技炸裂,但故事情节不佳”,经情感分析后得出(演员,正向)与(剧情,负向)的结果更加准确。
发明内容
本发明的目的在于提供一种电影评论观点情感倾向性分析方法,能全面准确地反映出用户对影片的情感表达。
实现上述目的的技术方案是:
一种电影评论观点情感倾向性分析方法,包括:
步骤S1,从影评网站爬取各类别的多部电影的影片描述信息和评论信息;
步骤S2,对采集的影评描述信息和评论信息进行数据预处理;
步骤S3,制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;
步骤S4,通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;
步骤S5,生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;
步骤S6,针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。
优选的,所述步骤S1中,电影的分类包括:爱情、动画、动作、科幻、恐怖、喜剧和悬疑;
所述影片描述信息包括影片名、导演名、主演名、类型和总评分;
所述评论信息包括:评论者昵称、评论有用数、评论时间、评论内容和评分。
优选的,所述的数据预处理包括:
将采集的所有评论信息整合形成一个评论语料库;
去除评论语料库中重复的数据;
删除评论语料库中评论内容缺失的数据;
将评论语料库中繁体中文全部转化为简体中文;
从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。
优选的,所述步骤S3包括:
根据依存句法结构、词语间的词性和评论观点中观点词与情感词的表达结构来构建多条评论观点提取规则;
对评论语料库中评论内容进行分句、分词、词性标注和依存句法分析,获得各个评论语句,查看评论语句是否匹配某条评论观点抽取规则,匹配则获取观点词和情感词,
将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。
优选的,所述的依存句法结构包括:主谓结构、动宾结构、定中结构、状中结构、动补结构和并列结构;
所述的词语间的词性包括:主语成分、宾语或形似宾语成分、定语成分以及名词成分;形似宾语指间接或类似宾语的结构;
所述的观点词与情感词的表达结构,指:主语成分为观点词,宾语或形似宾语成分为情感词;定语成分为情感词,被其修饰的名词成分为观点词。
优选的,所述步骤S4包括:
获取标签类别词典和情感词典;
对于所述步骤S3中能提取出观点词和情感词的评论语句进行关键词匹配打标:将获取的观点词与标签类别词典进行匹配,将获取的情感词与情感词典进行匹配,若两者均能匹配成功,给该评论语句打上标签类别标记以及情感倾向性标记;否则,进行人工标签类别标记与情感倾向性标记;
对于所述步骤S3中未提取出观点词和情感词的评论语句,进行人工标签类别标记与情感倾向性标记。
优选的,所述的获取标签类别词典,包括:
将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;
通过词向量模型训练各评论语句获得训练好的词向量模型;
利用评论标签词库的词语用训练好的词向量模型表示,再利用k均值聚类算法将评论标签词库中的词语聚为k个类别;
人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成初步的标签类别词典;
利用训练好的词向量模型获取初步的标签类别词典中标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典;
所述的获取情感词典指:先收集开源的正负情感词典进行整理合并,然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉与电影评论情感无关的词语,形成情感词典。
优选的,所述步骤S5包括:
利用关键词匹配打标的数据集以及人工打标的数据集,分别训练生成两个初步的评论标签分类模型以及两个初步的标签情感分类模型;
将两个初步的评论标签分类模型加权融合生成最终的评论标签分类模型;
将两个初步的标签情感分类模型加权融合生成最终的标签情感分类模型。
优选的,所述的初步的评论标签分类模型或初步的标签情感分类模型的生成步骤,包括:
对关键词匹配打标的数据集以及人工打标的数据集采用上采样策略,进行数据平衡;
将数据平衡后的关键词匹配打标的数据集以及人工打标的数据集按预设比例划分为训练集和测试集;
对训练集中语料进行分词,去除停用词,然后采用TF-IDF算法提取文本特征,再计算各特征的卡方值进行特征降维;
将数据导入随机森林分类模型,进行模型训练、保存与评估。
优选的,所述步骤S6,包括:
抽取观点词和情感词,若可以获取,则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出标签类别标记与情感倾向性标记;否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值T1和T2,若标签类别预测概率P1大于T1且标签情感预测概率P2大于T2,则输出标签类别标记与情感倾向性标记。
本发明的有益效果是:本发明面向电影评论内容与情感倾向都较为复杂的文本信息进行处理,采用多种方法多种策略相结合的方式对电影评论数据进行情感倾向性分析,能够较为准确的捕获观众对某部电影某些方面的情感倾向。
附图说明
图1是本发明的电影评论观点情感倾向性分析方法的流程图;
图2是本发明中关键词匹配打标的流程图;
图3是本发明中评论标签分类模型融合示意图;
图4是本发明中标签情感分类模型融合示意图;
图5是本发明中分类模型构建流程示意图;
图6是本发明中评论情感标签自动生成流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的电影评论观点情感倾向性分析方法,主要是对影评数据做评论观点提取,进行观点的打标分类与情感倾向性分析,即获取评论标签类别及其情感倾向,同时构建评论观点情感分析模型以实现对新影评数据进行分析归类,贴上类别以及情感标签。包括下列步骤:
步骤S1,数据爬取:从影评网站爬取爱情、动画、动作、科幻、恐怖、喜剧和悬疑类别下的多部电影的影片描述信息及各部电影的评论信息。其中,影片描述信息包括影片名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。
步骤S2,对影片描述信息和评论信息进行数据预处理,包括:
整合数据,将采集的所有评论信息整合成一个评论语料库;
数据去重,去除评论语料库中的重复数据;
处理缺失值,删除评论语料库中评论内容缺失的数据;
中文繁体处理,将评论语料库中繁体中文全部转化为简体中文;
自定义用户词典,从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。
步骤S3,评论观点抽取:根据现代汉语中依存句法结构、词语间的词性,再结合实际评论观点中观点词与情感词表达结构制定多条普适性的评论观点提取规则。对评论语料库中评论内容进行分句、分词、词性标注、依存句法分析等操作,获得各个评论语句,然后查看评论语句是否匹配某条评论观点抽取规则,满足则获取(观点词,情感词),最后将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。
其中,评论观点抽取规则根据依存句法结构将规则主要分为两类:一是主谓结构(SBV)为核心的规则体系,二是以定中结构(ATT)为核心的规则体系。提取规则中涉及依存句法关系如表1所示:
关系类型 Tag Description Example
主谓结构 SBV subject-verb 我送她一束花(我<--送)
动宾结构 VOB verb-object 我送她一束花(送-->花)
定中结构 ATT attribute 红苹果(红<--苹果)
状中结构 ADV adverbial 非常美丽(非常<--美丽)
动补结构 CMP complement 做完了作业(做-->完)
并列结构 COO coordinate 大山和大海(大山-->大海)
表1
进一步地,以SBV为核心的规则体系主要分为4大类,如表2所示:
Figure BDA0002264370080000071
表2
从表2中可以看出,以SBV为核心的规则主要是以名词性主语直接或者间接与宾语或类似宾语的结构(以下将间接或类似宾语的结构称作形似宾语)建立关系连接。所抽取的主语成分为评论的观点词,抽取的形似宾语成分为评论观点的情感词。
该类规则并非仅仅涉及表2中所列出的句式结构,此外还要考虑主语与形似宾语是否存在并列结构,再者因为否定词影响情感的倾向,所以还需要考虑形似宾语是否存在副词修饰。例如,对于影评“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对(电影,不错),(剧情,不错);“题材丰富新颖”可获取(题材,丰富)和(题材,新颖)标签对;“电影不好看”可提取出(电影,不好看)。
进一步地,以ATT为核心的规则体系也分为4类,具体规则见表3。
Figure BDA0002264370080000081
表3
定语是用来修饰、限定、说明名词或代词的品质与特征的,所以定中关系在评论观点抽取规则中不可或缺。从表3中看出,形容词一般用作评论观点的情感词,被其修饰的名词或用作名词的动词作为评论的观点词。同样,该类规则也需要考虑名词成分、形容词的并列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬)和(表演,尴尬)两组标签对;“表演不生动”可抽取出(表演,不生动)。
步骤S4,评论标签类别标记和情感倾向性标记,分为关键词匹配打标和人工打标。其中,关键词匹配打标需要获取标签类别词典和情感词典,然后进行关键词匹配,主要流程参见图2,首先获取标签类别词典,包括如下步骤:
1)影片专有名词替换。将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”,从而实现评论标签词库中的部分词语的归类;即若评论标签词库中存在的“张三”、“李四”等演员名,但由于机器无法判别“张三”、“李四”为演员,所以通过将其与用户自定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演员”;导演名和影片名的标记也用相同的方法。
2)词向量模型训练。对评论语料库中评论内容进行分词、去停用词后保存到一个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用word2vec(词向量)模型训练处理好的评论内容获得词向量模型;
3)词聚类。将评论标签词库中的词语用训练好的词向量模型表示,再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别;所述k个类别需要通过多次试验观察聚类结果确定;
4)归纳评价维度,筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成标签类别词典;
5)扩充标签类别词典。利用训练好的词向量模型获取标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典。所述获取标签类别词的相关词是通过词向量模型计算词与词之间相似性,并设定阈值,当相似度大于该阈值,才认定词之间是相关相近的,同时对相关词的结果再进行人工筛选以确保标签类别词典的准确性。
生成的标签类别词典,示例如表4所示:
Figure BDA0002264370080000091
表4
其次,获取情感词典。先收集开源的正负情感词典,主要有知网HowNet词典与台湾大学开源的情感词典,对词典进行整理合并。其中,HowNet知网词典中包含正负情感词语和正负评价词语,本发明只取其中的正负评价词语。然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉一些与电影评论情感无关的词语,形成具有电影特色的情感词典。
最后,进行关键词匹配。关键词匹配是对于评论观点抽取中能提取出观点词与情感词的评论语句,将其观点词与标签类别词典进行匹配,将其情感词与情感词典进行匹配,若有两者都能匹配成功,则给该评论语句打上(标签类别,情感倾向性)标记。例如,对于“故事性不强”评论,评论观点提取后获得(故事性,不强)标记,经过标签类别与情感倾向性标记后获得(剧情,负向)标记。
人工打标有两种情况:一是在评论观点抽取中未提取出观点词与情感词的句子,二是评论观点抽取中能提取出观点词与情感词,但不能满足关键词匹配打标的句子,针对这种情况进行人工标签类别标记与情感倾向性标记。
步骤S5,生成评论观点情感分析模型,其由评论标签分类模型和标签情感分类模型组成,两个分类模型除了类别标签不一样,整个数据处理与使用分类算法都是相同的流程。分类模型数据集有两类:一是关键词匹配打标的数据集,二是人工打标的数据集,分别用这两类数据进行训练生成2个评论标签分类模型以及2个标签情感分类模型。为了提升情感分析的准确率,将2个评论标签分类模型加权融合生成新的评论标签分类模型,将2个标签情感分类模型加权融合生成新的标签情感分类模型,参考图3和图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为0.4与0.6。
评论观点情感分析概率计算公式如下:
Pi=0.4*P1i+0.6*P2i
其中,Pi表示评论语料库中某评论内容为i类别的概率,P1i、P2i分别表示关键词打标数据生成的模型得到的概率值和人工打标数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7分别表示“导演,摄影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i取值有0和1,1表示正向情感,0表示负向情感。
上述的分类模型的构建过程,参见图5,涉及以下步骤:
首先,进行数据平衡。分类数据各类样本可能出现不均衡的现象,这对分类的整体准确性有很大的影响。本发明采用上采样(Oversampling)策略,即将小数据类别复制多份。
其次,进行数据集划分。打乱数据集按8:2比例划分为训练集与测试集。
然后,进行特征提取。对训练集语料进行分词,去除停用词,然后采用的TF-IDF算法(词频-逆文档频率)提取文本特征,再计算各特征的卡方值(CHI2或χ2),通过设置阈值K(K为整数),保留卡方值排列前K个特征实现特征降维。
最后,将数据导入随机森林分类模型,进行模型训练、保存与评估。
步骤S6,评论情感标签自动生成。在训练好评论观点情感分析模型后,可进行新影评的自动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取(观点词,情感词),若可以获取(观点词,情感词),则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出结果。否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(T1和T2),若标签类别预测概率P1大于T1且标签情感预测概率P2大于T2,则输出(评论标签类别标记、情感倾向性标记)。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (10)

1.一种电影评论观点情感倾向性分析方法,其特征在于,包括:
步骤S1,从影评网站爬取各类别的多部电影的影片描述信息和评论信息;
步骤S2,对采集的影评描述信息和评论信息进行数据预处理;
步骤S3,制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;
步骤S4,通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;
步骤S5,生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;
步骤S6,针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记。
2.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S1中,电影的分类包括:爱情、动画、动作、科幻、恐怖、喜剧和悬疑;
所述影片描述信息包括影片名、导演名、主演名、类型和总评分;
所述评论信息包括:评论者昵称、评论有用数、评论时间、评论内容和评分。
3.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述的数据预处理包括:
将采集的所有评论信息整合形成一个评论语料库;
去除评论语料库中重复的数据;
删除评论语料库中评论内容缺失的数据;
将评论语料库中繁体中文全部转化为简体中文;
从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。
4.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S3包括:
根据依存句法结构、词语间的词性和评论观点中观点词与情感词的表达结构来构建多条评论观点提取规则;
对评论语料库中评论内容进行分句、分词、词性标注和依存句法分析,获得各个评论语句,查看评论语句是否匹配某条评论观点抽取规则,匹配则获取观点词和情感词,
将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。
5.根据权利要求4所述的电影评论观点情感倾向性分析方法,其特征在于,所述的依存句法结构包括:主谓结构、动宾结构、定中结构、状中结构、动补结构和并列结构;
所述的词语间的词性包括:主语成分、宾语或形似宾语成分、定语成分以及名词成分;形似宾语指间接或类似宾语的结构;
所述的观点词与情感词的表达结构,指:主语成分为观点词,宾语或形似宾语成分为情感词;定语成分为情感词,被其修饰的名词成分为观点词。
6.根据权利要求3所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S4包括:
获取标签类别词典和情感词典;
对于所述步骤S3中能提取出观点词和情感词的评论语句进行关键词匹配打标:将获取的观点词与标签类别词典进行匹配,将获取的情感词与情感词典进行匹配,若两者均能匹配成功,给该评论语句打上标签类别标记以及情感倾向性标记;否则,进行人工标签类别标记与情感倾向性标记;
对于所述步骤S3中未提取出观点词和情感词的评论语句,进行人工标签类别标记与情感倾向性标记。
7.根据权利要求6所述的电影评论观点情感倾向性分析方法,其特征在于,所述的获取标签类别词典,包括:
将评论标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;
通过词向量模型训练各评论语句获得训练好的词向量模型;
利用评论标签词库的词语用训练好的词向量模型表示,再利用k均值聚类算法将评论标签词库中的词语聚为k个类别;
人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,并对每个类簇下的词进行筛选,保留相关的词组成初步的标签类别词典;
利用训练好的词向量模型获取初步的标签类别词典中标签类别词的相关词扩充标签类别词典,去掉词典中重复词,生成最终的标签类别词典;
所述的获取情感词典指:先收集开源的正负情感词典进行整理合并,然后统计所述观点情感词库中词频,保留大于设定阈值的所有词,然后人工删掉与电影评论情感无关的词语,形成情感词典。
8.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S5包括:
利用关键词匹配打标的数据集以及人工打标的数据集,分别训练生成两个初步的评论标签分类模型以及两个初步的标签情感分类模型;
将两个初步的评论标签分类模型加权融合生成最终的评论标签分类模型;
将两个初步的标签情感分类模型加权融合生成最终的标签情感分类模型。
9.根据权利要求8所述的电影评论观点情感倾向性分析方法,其特征在于,所述的初步的评论标签分类模型或初步的标签情感分类模型的生成步骤,包括:
对关键词匹配打标的数据集以及人工打标的数据集采用上采样策略,进行数据平衡;
将数据平衡后的关键词匹配打标的数据集以及人工打标的数据集按预设比例划分为训练集和测试集;
对训练集中语料进行分词,去除停用词,然后采用TF-IDF算法提取文本特征,再计算各特征的卡方值进行特征降维;
将数据导入随机森林分类模型,进行模型训练、保存与评估。
10.根据权利要求6所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S6,包括:
抽取观点词和情感词,若可以获取,则进行关键词匹配,包括标签类别匹配和情感词匹配,如果两者都能匹配成功,就直接输出标签类别标记与情感倾向性标记;否则,直接调用评论标签分类模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值T1和T2,若标签类别预测概率P1大于T1且标签情感预测概率P2大于T2,则输出标签类别标记与情感倾向性标记。
CN201911082409.1A 2019-11-07 2019-11-07 电影评论观点情感倾向性分析方法 Active CN110825876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911082409.1A CN110825876B (zh) 2019-11-07 2019-11-07 电影评论观点情感倾向性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911082409.1A CN110825876B (zh) 2019-11-07 2019-11-07 电影评论观点情感倾向性分析方法

Publications (2)

Publication Number Publication Date
CN110825876A true CN110825876A (zh) 2020-02-21
CN110825876B CN110825876B (zh) 2022-07-15

Family

ID=69553492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911082409.1A Active CN110825876B (zh) 2019-11-07 2019-11-07 电影评论观点情感倾向性分析方法

Country Status (1)

Country Link
CN (1) CN110825876B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565322A (zh) * 2020-05-14 2020-08-21 北京奇艺世纪科技有限公司 一种用户情感倾向信息获得方法、装置及电子设备
CN111666767A (zh) * 2020-06-10 2020-09-15 创新奇智(上海)科技有限公司 资料识别方法及装置、电子设备、存储介质
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112115231A (zh) * 2020-09-17 2020-12-22 中国传媒大学 一种数据处理方法及装置
CN112215003A (zh) * 2020-11-09 2021-01-12 深圳市洪堡智慧餐饮科技有限公司 一种基于albert预训练模型和kmean算法的评论标签提取的方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112527963A (zh) * 2020-12-17 2021-03-19 深圳市欢太科技有限公司 基于词典的多标签情感分类方法及装置、设备、存储介质
CN112612873A (zh) * 2020-12-25 2021-04-06 上海德拓信息技术股份有限公司 一种基于nlp技术的集中性事件挖掘方法
CN112651211A (zh) * 2020-12-11 2021-04-13 北京大米科技有限公司 标签信息确定方法、装置、服务器及存储介质
CN113010689A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学知识甄别方法、装置、设备及存储介质
CN113065052A (zh) * 2021-04-07 2021-07-02 顶象科技有限公司 分析视频评论真实性的方法、装置、电子设备及存储介质
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN113505582A (zh) * 2021-05-25 2021-10-15 腾讯音乐娱乐科技(深圳)有限公司 一种音乐评论情感分析方法、设备及介质
CN113515663A (zh) * 2021-08-03 2021-10-19 广州酷狗计算机科技有限公司 一种评论信息的显示方法、装置、电子设备及存储介质
CN113536080A (zh) * 2021-07-20 2021-10-22 湖南快乐阳光互动娱乐传媒有限公司 一种数据上传方法、装置及电子设备
CN113961725A (zh) * 2021-10-25 2022-01-21 北京明略软件***有限公司 一种标签自动标注方法及***、设备和存储介质
CN115392199A (zh) * 2022-08-22 2022-11-25 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN116644754A (zh) * 2023-05-31 2023-08-25 重庆邮电大学 一种基于大数据的互联网金融产品评论观点提取方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
US20140201041A1 (en) * 2013-01-11 2014-07-17 Tagnetics, Inc. Out of stock sensor
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及***
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN106156004A (zh) * 2016-07-04 2016-11-23 中国传媒大学 基于词向量的针对电影评论信息的情感分析***及方法
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201041A1 (en) * 2013-01-11 2014-07-17 Tagnetics, Inc. Out of stock sensor
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及***
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN106156004A (zh) * 2016-07-04 2016-11-23 中国传媒大学 基于词向量的针对电影评论信息的情感分析***及方法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王学贺 等: "基于Word2vec和多分类器的影评情感分类方法", 《宁夏大学学报(自然科学版)》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565322A (zh) * 2020-05-14 2020-08-21 北京奇艺世纪科技有限公司 一种用户情感倾向信息获得方法、装置及电子设备
CN111666767A (zh) * 2020-06-10 2020-09-15 创新奇智(上海)科技有限公司 资料识别方法及装置、电子设备、存储介质
CN111666767B (zh) * 2020-06-10 2023-07-18 创新奇智(上海)科技有限公司 资料识别方法及装置、电子设备、存储介质
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN111966944B (zh) * 2020-08-17 2024-04-09 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112115231A (zh) * 2020-09-17 2020-12-22 中国传媒大学 一种数据处理方法及装置
CN112214661B (zh) * 2020-10-12 2022-04-08 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112214661A (zh) * 2020-10-12 2021-01-12 西华大学 一种面向视频常规评论的情感不稳定用户检测方法
CN112215003A (zh) * 2020-11-09 2021-01-12 深圳市洪堡智慧餐饮科技有限公司 一种基于albert预训练模型和kmean算法的评论标签提取的方法
CN112651211A (zh) * 2020-12-11 2021-04-13 北京大米科技有限公司 标签信息确定方法、装置、服务器及存储介质
CN112527963B (zh) * 2020-12-17 2024-05-03 深圳市欢太科技有限公司 基于词典的多标签情感分类方法及装置、设备、存储介质
CN112527963A (zh) * 2020-12-17 2021-03-19 深圳市欢太科技有限公司 基于词典的多标签情感分类方法及装置、设备、存储介质
CN112612873A (zh) * 2020-12-25 2021-04-06 上海德拓信息技术股份有限公司 一种基于nlp技术的集中性事件挖掘方法
CN112612873B (zh) * 2020-12-25 2023-07-07 上海德拓信息技术股份有限公司 一种基于nlp技术的集中性事件挖掘方法
CN113127640A (zh) * 2021-03-12 2021-07-16 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
CN113010689A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学知识甄别方法、装置、设备及存储介质
CN113065052A (zh) * 2021-04-07 2021-07-02 顶象科技有限公司 分析视频评论真实性的方法、装置、电子设备及存储介质
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN113312478B (zh) * 2021-04-25 2022-07-19 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN113505582A (zh) * 2021-05-25 2021-10-15 腾讯音乐娱乐科技(深圳)有限公司 一种音乐评论情感分析方法、设备及介质
CN113536080A (zh) * 2021-07-20 2021-10-22 湖南快乐阳光互动娱乐传媒有限公司 一种数据上传方法、装置及电子设备
CN113515663A (zh) * 2021-08-03 2021-10-19 广州酷狗计算机科技有限公司 一种评论信息的显示方法、装置、电子设备及存储介质
CN113961725A (zh) * 2021-10-25 2022-01-21 北京明略软件***有限公司 一种标签自动标注方法及***、设备和存储介质
CN115392199A (zh) * 2022-08-22 2022-11-25 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN115392199B (zh) * 2022-08-22 2023-08-04 再惠(上海)网络科技有限公司 评价分析和报告生成的方法、装置、电子设备及存储介质
CN116644754A (zh) * 2023-05-31 2023-08-25 重庆邮电大学 一种基于大数据的互联网金融产品评论观点提取方法
CN116644754B (zh) * 2023-05-31 2024-04-16 金智东博(北京)教育科技股份有限公司 一种基于大数据的互联网金融产品评论观点提取方法

Also Published As

Publication number Publication date
CN110825876B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN110825876B (zh) 电影评论观点情感倾向性分析方法
Mazloom et al. Multimodal popularity prediction of brand-related social media posts
Eirinaki et al. Feature-based opinion mining and ranking
Basiri et al. Sentence-level sentiment analysis in Persian
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
Lima et al. Automatic sentiment analysis of Twitter messages
Singh et al. Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches
Cataldi et al. Good location, terrible food: detecting feature sentiment in user-generated reviews
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
Merler et al. You are what you tweet… pic! gender prediction based on semantic analysis of social media images
CN106407420B (zh) 一种多媒体资源的推荐方法及***
US10055741B2 (en) Method and apparatus of matching an object to be displayed
CN108491512A (zh) 新闻标题的摘要方法及装置
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN108470026A (zh) 新闻标题的句子主干内容提取方法及装置
CN108363700A (zh) 新闻标题的质量评估方法及装置
Leopairote et al. Software quality in use characteristic mining from customer reviews
Rani et al. Study and comparision of vectorization techniques used in text classification
Grivolla et al. A hybrid recommender combining user, item and interaction data
Yao et al. Online deception detection refueled by real world data collection
Urriza et al. Aspect-based sentiment analysis of user created game reviews
Dadoun et al. Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English
Li et al. Confidence estimation and reputation analysis in aspect extraction
Clarizia et al. Sentiment analysis in social networks: A methodology based on the latent dirichlet allocation approach
Koorathota et al. Editing like humans: a contextual, multimodal framework for automated video editing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant