CN110096618A - 一种基于分维度情感分析的电影推荐方法 - Google Patents

一种基于分维度情感分析的电影推荐方法 Download PDF

Info

Publication number
CN110096618A
CN110096618A CN201910387095.XA CN201910387095A CN110096618A CN 110096618 A CN110096618 A CN 110096618A CN 201910387095 A CN201910387095 A CN 201910387095A CN 110096618 A CN110096618 A CN 110096618A
Authority
CN
China
Prior art keywords
film
characteristic dimension
comment
dimension
sentiment analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910387095.XA
Other languages
English (en)
Other versions
CN110096618B (zh
Inventor
彭扬
王倩倩
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Friend Information Technology Co Ltd
Original Assignee
Beijing Friend Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Friend Information Technology Co Ltd filed Critical Beijing Friend Information Technology Co Ltd
Priority to CN201910387095.XA priority Critical patent/CN110096618B/zh
Publication of CN110096618A publication Critical patent/CN110096618A/zh
Application granted granted Critical
Publication of CN110096618B publication Critical patent/CN110096618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分维度情感分析的电影推荐方法,通过爬取电影的评论数据、对评论数据进行数据预处理、对进行数据预处理后的评论数据进行特征维度的提取、将提取到的特征维度进行合并处理、将合并处理后的特征维度排序、构建适用于电影领域的情感词典、利用构建的情感词典对电影的评论数据进行情感分析,获取电影的类型模型、对电影的类型模型进行聚类运算得出推荐结果等步骤。优点是:通过对用户电影评论进行分特征维度的情感分析,计算出电影的类型模型,更精确更全面地展现了电影的各特征维度特点,从而提升了推荐服务的质量水平,在一定程度上改善了传统的不分特征维度的推荐算法准确率偏低的问题。

Description

一种基于分维度情感分析的电影推荐方法
技术领域
本发明涉及电影推荐领域,尤其涉及一种基于分维度情感分析的电影推荐方法。
背景技术
随着互联网的迅猛发展,不同种类的软件、网站层出不穷,在其丰富我们生活的同时,想要从茫茫数据中找寻到自己感兴趣适合的内容也变得更加困难,因此推荐***应运而生。以往的推荐***往往利用评分或者评论的整体情感进行推荐,缺乏对评论的深度挖掘,评论中可能涵盖了“演员”、“导演”、“风格”等多个维度的信息,用户对不同维度的情感倾向是不同的,若只根据总体情感进行推荐,准确率较低。以往的电影推荐主要利用的是用户打出的评分或是电影评论的整体情感倾向来做出推荐。某些制片方为了利益可能会招募一些人给他们的产品打高分,导致推荐的结果并不可信。现有的情感分析大致分为两类,基于词典的方法和基于机器学习的方法,已有的情感分析算法各有优缺点,导致单一的情感分析方法无法适用于电影推荐***中,降低了***的性能。
发明内容
本发明的目的在于提供一种基于分维度情感分析的电影推荐方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于分维度情感分析的电影推荐方法,包括如下步骤,
S1、通过爬虫爬取电影的评论数据;
S2、对爬取得到的评论数据进行数据预处理;
S3、对进行数据预处理后的评论数据进行特征维度的提取;
S4、将提取到的特征维度利用Hownet语义相似度进行合并处理;
S5、将合并处理后的特征维度按照重要性进行排序;
S6、在已有权威性情感词典中加入适用于电影的情感词,构建适用于电影领域的情感词典;
S7、利用构建的情感词典对电影的评论数据进行情感分析,得出每部电影的每条评论中各个特征维度的情感值,获取电影的类型模型;
S8、利用二分聚类对电影的类型模型进行聚类运算得出推荐结果。
优选的,步骤S2中,所述数据预处理具体包括分词、去停用词以及词性标注。
优选的,步骤S5中,所述重要性通过简化PageRank来评判。
本发明的有益效果是:1、通过对用户电影评论进行分特征维度的情感分析,计算出电影的类型模型,更精确更全面地展现了电影的各特征维度特点,从而提升了推荐服务的质量水平,在一定程度上改善了传统的不分特征维度的推荐算法准确率偏低的问题。2、数据预处理步骤可以去掉一些无效的、重复的数据,且将数据处理成方便后续计算处理的形式。提取合并以及排序电影特征维度可以从电影评论中挖取细粒度的特征维度,可以体现更为具体的电影特征。3、特征维度进行重要性排序,这样可以降低算法的复杂度。构建针对性的情感词典能够提高情感分析的准确度。4、通过二分聚类能够克服普通K-means聚类算法容易收敛于局部最小值问题。
附图说明
图1是本发明实施例中电影推荐方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于分维度情感分析的电影推荐方法,包括如下步骤,
S1、通过爬虫爬取电影的评论数据;
S2、对爬取得到的评论数据进行数据预处理;
S3、对进行数据预处理后的评论数据进行特征维度的提取;
S4、将提取到的特征维度利用Hownet语义相似度进行合并处理;
S5、将合并处理后的特征维度按照重要性进行排序;
S6、在已有权威性情感词典中加入适用于电影的情感词,构建适用于电影领域的情感词典;
S7、利用构建的情感词典对电影的评论数据进行情感分析,得出每部电影的每条评论中各个特征维度的情感值,获取电影的类型模型;
S8、利用二分聚类对电影的类型模型进行聚类运算得出推荐结果。
本实施例中,电影评论数据的获取,采用爬虫的方法获取了豆瓣用户影评及打分数据,爬取数据之前需要根据网页内容设计好元数据,然后模拟登陆+设置user agent+xpath、正则表达式等等进行爬取工作。
本实施例中,步骤S2中,所述数据预处理具体包括分词、去停用词以及词性标注;电影评论数据的预处理,对收集到的评论数据利用jieba分词进行分词处理,过滤掉停用词,并对分完的词进行词性标注,可以过滤掉无用词汇,提高程序运行速率和准确率。
本实施例中,提取评论的特征维度,利用PMI(互信息)来进行特征提取最能体现出电影评论的特征的词语作为特征维度,其中pos代表文档的情感,word代表一个词语,分子表示的就是同时表现为pos情感以及出现word词语的概率。
本实施例中,合并评论数据的特征维度,用户在评论电影时表达不一,往往会使用不同的词汇表达相同的意见描述,因此需要利用HowNet的语义词汇相似度对电影特征进行合并,有助于理解,如“战争”和“战斗”可以合并。
本实施例中,步骤S5中,所述重要性通过简化PageRank来评判;电影特征维度重要性排序,使用简化版的PageRank算法模型对电影特征维度进行重要性排序,假设电影评论中同时出现了电影特征,则意味两个特征维度互相回指,简化计算复杂度。
本实施例中,构建情感词典,在大连理工大学林鸿飞教授所整理和标注的中文情感词汇本题库基础上添加使用卡方统计得到的评价电影的情感词,扩充情感词典。
本实施例中,利用构建的情感词典对各个电影的评论数据进行情感分析处理,对每个子句匹配特征维度,计算该维度情感值,得出每条评论数据中各个特征维度的情感值,得出电影的类型模型。
本实施例中,二分K-means聚类方法推荐,对得到的电影类型模型进行二分K-means聚类运算,得出推荐结果。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供一种基于分维度情感分析的电影推荐方法,采用基于分维度情感分析的推荐方法,获取了较好的推荐效果,数据预处理步骤可以去掉一些无效的、重复的数据,且将数据处理成方便后续计算处理的形式。提取合并以及排序电影特征维度可以从电影评论中挖取细粒度的特征维度,可以体现更为具体的电影特征。而且由于各个用户对于类似意见的表达方式不同,因此需要对特征维度进行合并,有利于对结果的理解。而且电影评论往往篇幅短,每篇影评中所涉及到的特征维度有限,因此可以对特征维度进行重要性排序,这样可以降低算法的复杂度。构建针对性的情感词典能够提高情感分析的准确度,通过二分聚类能够克服普通K-means聚类算法容易收敛于局部最小值问题。通过对用户电影评论进行分特征维度的情感分析,计算出电影的类型模型,更精确更全面地展现了电影的各特征维度特点,从而提升了推荐服务的质量水平,在一定程度上改善了传统的不分特征维度的推荐算法准确率偏低的问题。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (3)

1.一种基于分维度情感分析的电影推荐方法,其特征在于:包括如下步骤,
S1、通过爬虫爬取电影的评论数据;
S2、对爬取得到的评论数据进行数据预处理;
S3、对进行数据预处理后的评论数据进行特征维度的提取;
S4、将提取到的特征维度利用Hownet语义相似度进行合并处理;
S5、将合并处理后的特征维度按照重要性进行排序;
S6、在已有权威性情感词典中加入适用于电影的情感词,构建适用于电影领域的情感词典;
S7、利用构建的情感词典对电影的评论数据进行情感分析,得出每部电影的每条评论中各个特征维度的情感值,获取电影的类型模型;
S8、利用二分聚类对电影的类型模型进行聚类运算得出推荐结果。
2.根据权利要求1所述的基于分维度情感分析的电影推荐方法,其特征在于:步骤S2中,所述数据预处理具体包括分词、去停用词以及词性标注。
3.根据权利要求1所述的基于分维度情感分析的电影推荐方法,其特征在于:步骤S5中,所述重要性通过简化PageRank来评判。
CN201910387095.XA 2019-05-10 2019-05-10 一种基于分维度情感分析的电影推荐方法 Active CN110096618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387095.XA CN110096618B (zh) 2019-05-10 2019-05-10 一种基于分维度情感分析的电影推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387095.XA CN110096618B (zh) 2019-05-10 2019-05-10 一种基于分维度情感分析的电影推荐方法

Publications (2)

Publication Number Publication Date
CN110096618A true CN110096618A (zh) 2019-08-06
CN110096618B CN110096618B (zh) 2021-06-15

Family

ID=67447585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387095.XA Active CN110096618B (zh) 2019-05-10 2019-05-10 一种基于分维度情感分析的电影推荐方法

Country Status (1)

Country Link
CN (1) CN110096618B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586089A (zh) * 2020-03-20 2020-08-25 上海大犀角信息科技有限公司 基于向量评分的客户端、服务端内容推荐***和方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071843A1 (en) * 2006-09-14 2008-03-20 Spyridon Papadimitriou Systems and methods for indexing and visualization of high-dimensional data via dimension reorderings
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
US8838438B2 (en) * 2011-04-29 2014-09-16 Cbs Interactive Inc. System and method for determining sentiment from text content
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN106250365A (zh) * 2016-07-21 2016-12-21 成都德迈安科技有限公司 基于文本分析的消费者评论中商品属性特征词的提取方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析***
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN108710680A (zh) * 2018-05-18 2018-10-26 哈尔滨理工大学 一种利用深度学习进行基于情感分析的电影推荐方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071843A1 (en) * 2006-09-14 2008-03-20 Spyridon Papadimitriou Systems and methods for indexing and visualization of high-dimensional data via dimension reorderings
US8838438B2 (en) * 2011-04-29 2014-09-16 Cbs Interactive Inc. System and method for determining sentiment from text content
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN106250365A (zh) * 2016-07-21 2016-12-21 成都德迈安科技有限公司 基于文本分析的消费者评论中商品属性特征词的提取方法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析***
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN108710680A (zh) * 2018-05-18 2018-10-26 哈尔滨理工大学 一种利用深度学习进行基于情感分析的电影推荐方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
彭云: "《基于语义约束主题模型的商品特征和情感词提取研究》", 30 November 2017, 北京:北京理工大学出版社 *
董国忠: "《面向微博突发话题的舆情分析若干关键技术研究》", 30 October 2018, 徐州:中国矿业大学出版社 *
黑马程序员: "《解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫》", 31 July 2018, 北京:中国铁道出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586089A (zh) * 2020-03-20 2020-08-25 上海大犀角信息科技有限公司 基于向量评分的客户端、服务端内容推荐***和方法

Also Published As

Publication number Publication date
CN110096618B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
Mann et al. Unsupervised personal name disambiguation
CN103678576B (zh) 基于动态语义分析的全文检索***
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及***
Chen et al. Tracking and recognizing emotions in short text messages from online chatting services
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
Toshevska et al. Comparative analysis of word embeddings for capturing word similarities
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
Tiwari et al. Ensemble approach for twitter sentiment analysis
Gao et al. SCOPE: the South Carolina psycholinguistic metabase
Fu et al. Learning semantic hierarchies: A continuous vector space approach
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
Qu et al. A novel approach based on multi-view content analysis and semi-supervised enrichment for movie recommendation
Shafaei-Bajestan et al. Semantic properties of English nominal pluralization: Insights from word embeddings
Movshovitz-Attias et al. Discovering subsumption relationships for web-based ontologies
CN110096618A (zh) 一种基于分维度情感分析的电影推荐方法
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
Nguyen et al. Web search clustering and labeling with hidden topics
Corrada-Emmanuel et al. Answer passage retrieval for question answering
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
Jou et al. Going deeper for multilingual visual sentiment detection
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Belerao et al. Summarization using mapreduce framework based big data and hybrid algorithm (HMM and DBSCAN)
Ye et al. Starrysky: A practical system to track millions of high-precision query intents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant