CN111339439A - 一种融合评论文本与时序效应的协同过滤推荐方法和装置 - Google Patents
一种融合评论文本与时序效应的协同过滤推荐方法和装置 Download PDFInfo
- Publication number
- CN111339439A CN111339439A CN202010099934.0A CN202010099934A CN111339439A CN 111339439 A CN111339439 A CN 111339439A CN 202010099934 A CN202010099934 A CN 202010099934A CN 111339439 A CN111339439 A CN 111339439A
- Authority
- CN
- China
- Prior art keywords
- item
- user
- score
- target
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000000694 effects Effects 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 154
- 230000008451 emotion Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 230000002996 emotional effect Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种融合评论文本与时序效应的协同过滤推荐方法和装置,通过获取的目标数据中的评论文本计算情感值,进而计算物品在预置主题上的评分,在基于各评论文本的评论时间对评分进行筛选后,计算物品相似度;根据物品相似度对物品进行聚类,计算物品的虚拟评分,并将虚拟评分填充到目标数据中的用户‑物品评分矩阵R,得到用户‑物品评分矩阵R';基于户‑物品评分矩阵R'计算目标用户未评论过的物品的预测评分;对预测评分进行降序排序,将排在前预置数量位的物品推荐给所述目标用户,解决了现有的协同过滤推荐算法受到数据稀疏性和动态性的限制,以及只依靠于评分分数进行推荐,使得推荐准确率不高的技术问题。
Description
技术领域
本申请涉及个性化推荐技术领域,尤其涉及一种融合评论文本与时序效应的协同过滤推荐方法和装置。
背景技术
随着信息技术的兴起和信息时代的发展,获取信息的障碍已经从信息资源匮乏变成了信息资源过载和有效信息获取成本过高。为了帮助人们方便的获取到想要的资源信息,现有的推荐***能够根据用户的历史记录从海量的互联网数据中搜索出匹配用户兴趣的信息内容。然而想要准确地为用户进行推荐,需要以下几个前提:一是用户清楚知道自己想要什么内容,二是推荐***清楚知道内容的属性性质。但是用户不总是准确了解自己的需求,以及层出不穷、种类繁多的内容导致用户难以对目标内容有清晰的认识。
协同过滤是推荐***中最重要的推荐方法之一,该方法使用他人的评分分数或文本信息为用户提供预测或者推荐的个性化服务。协同过滤的思想基于一种假设是如果两用户在过去对同样的项目具有相似的评分,那么这两个用户在未来对相同项目也应该具有相似的偏好;另一种假设是用户对类似项目应该具有相似的评价或评分。
协同过滤通常可以大致分为两大类:基于内存的协同过滤和基于模型的协同过滤。基于内存的协同过滤方法又可以分为基于用户的协同过滤和基于项目的协同过滤。基于用户的协同过滤需要将用户对项目的评分转换为基于用户的评分向量,每个用户对项目的评分抽取为一个评分向量,然后采用余弦相似度、皮尔逊相关系数或杰拉德系数等相似度度量方法计算用户评分向量的相似度,从所有评价过目标项目的用户中选取跟目标用户的评分向量最相似的若干个用户作为邻居,并根据邻居相似度,来对邻居评分加权,从而预测目标用户对目标项目的可能评分;基于项目的协同过滤需要将用户对项目的评分矩阵转换为基于项目的评分向量,每个项目被所有用户赋予的评分被抽取为一个评分向量,然后计算项目间的相似度,推荐算法找出与目标项目最相似的邻居项目,利用邻居项目和目标项目的相似度以及用户对邻居项目的评分进行加权累加来预测用户对项目的评分。
而基于模型的协同过滤方法将推荐问题建模为数据挖掘和机器学习中的模型,通过用户和项目的评分矩阵训练模型中的参数,然后根据已知参数的模型直接计算用户的预测评分,常见的用于协同过滤推荐算法的模型有贝叶斯网络、神经网络、奇异值分解和矩阵分解等。
协同过滤推荐算法虽然具有简单、通用性强的优势,但是也存在着一些缺陷。要保证较好的推荐效果的前提条件是推荐***中必须具有足够的评分数据,由于数据稀疏性和动态性的问题,使得推荐效果受到限制;另外,由于用户除了给予评分外,也会使用评论文本的方式传递个人评论,不同用户即使给予相同的分数,仍然也会有不同的原因,因此,只依靠于评分分数进行推荐存在推荐准确率不高的问题。
发明内容
本申请提供了一种融合评论文本与时序效应的协同过滤推荐方法和装置,用于解决现有的协同过滤推荐算法受到数据稀疏性和动态性的限制,以及只依靠于评分分数进行推荐,使得推荐准确率不高的技术问题。
有鉴于此,本申请第一方面提供了一种融合评论文本与时序效应的协同过滤推荐方法,包括:
获取目标数据,所述目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,所述用户集合中的用户包括目标用户和非目标用户;
基于所述评论文本集合得到的物品特征集合计算情感值;
基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵;
基于所述评论文本集合中各评论文本的评论时间对所述物品-主题评分矩阵中的所述评分进行筛选,基于筛选后的所述物品-主题评分矩阵计算物品相似度;
基于所述物品相似度对所述物品集合中的所述物品进行聚类,得到若干个簇;
当存在用户对所述簇中的所述物品没有评分时,基于所述物品相似度计算所述物品的虚拟评分,并将所述虚拟评分填充到所述用户-物品评分矩阵R,得到用户-物品评分矩阵R';
基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分;
对所述预测评分进行降序排序,将排在前预置数量位的所述物品推荐给所述目标用户。
优选地,所述基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分,包括:
对所述用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵;
将所述用户隐含因子矩阵和所述物品隐含因子矩阵相乘得到预测评分矩阵,基于所述预测评分矩阵得到所述目标用户未评论过的所述物品的预测评分。
优选地,所述基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分,还包括:
基于所述户-物品评分矩阵R'计算所述非目标用户与所述目标用户的用户相似度;
对所述用户相似度进行降序排序,选择前k个所述用户相似度对应的所述非目标用户作为所述目标用户的近邻用户,其中,k为大于0的整数;
基于所述近邻用户对目标物品的评分、所述目标用户对所有所述物品的评分的平均值以及所述目标用户与所述近邻用户的所述用户相似度计算所述目标物品的预测评分,其中,所述目标物品为所述目标用户未评论过的所述物品,且所述近邻用户评论过的所述物品。
优选地,所述基于所述评论文本集合得到的物品特征集合计算情感值,包括:
对所述评论文本集合中的所述评论文本进行词性标注,并统计词频;
将所述词频超过预置阈值的名词作为所述评论文本的物品特征,得到所述物品特征集合;
基于依存句法分析法分析所述物品特征和情感词之间的关系,并计算所述情感值。
优选地,所述虚拟评分的计算公式为:
优选地,所述基于所述特征质量计算每个所述物品在每个预置主题上的评分,生成物品-主题评分矩阵,之前还包括:
采用LDA模型抽取所述评论文本的主题,生成预置主题集合。
优选地,所述基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵,包括:
基于所述情感值计算所述物品集合中每个物品的每个物品特征的特征质量;
基于所述特征质量计算每个所述物品在每个预置主题上的评分,生成物品-主题评分矩阵。
本申请第二方面提供了一种融合评论文本与时序效应的协同过滤推荐装置,包括:
数据获取模块,用于获取目标数据,所述目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,所述用户集合中的用户包括目标用户和非目标用户;
第一计算模块,用于基于所述评论文本集合得到的物品特征集合计算情感值;
第二计算模块,用于基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵;
第三计算模块,用于基于所述评论文本集合中各评论文本的评论时间对所述物品-主题评分矩阵中的所述评分进行筛选,基于筛选后的所述物品-主题评分矩阵计算物品相似度;
聚类模块,用于基于所述物品相似度对所述物品集合中的所述物品进行聚类,得到若干个簇;
第四计算模块,用于当存在用户对所述簇中的所述物品没有评分时,基于所述物品相似度计算所述物品的虚拟评分,并将所述虚拟评分填充到所述用户-物品评分矩阵R,得到用户-物品评分矩阵R';
第五计算模块,用于基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分;
推荐模块,用于对所述预测评分进行降序排序,将排在前预置数量位的所述物品推荐给所述目标用户。
优选地,所述第五计算模块包括:
矩阵分解子模块,用于对所述用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵;
相乘子模块,用于将所述用户隐含因子矩阵和所述物品隐含因子矩阵相乘,得到预测评分矩阵,基于所述预测评分矩阵得到所述目标用户未评论过的所述物品的预测评分。
优选地,所述第五计算模块还包括:
第六计算子模块,用于基于所述户-物品评分矩阵R'计算所述非目标用户与所述目标用户的用户相似度;
排序子模块,用于对所述用户相似度进行降序排序,选择前k个所述用户相似度对应的所述非目标用户作为所述目标用户的近邻用户,其中,k为大于0的整数;
第七计算子模块,用于基于所述近邻用户对目标物品的评分、所述目标用户对所有所述物品的评分的平均值以及所述目标用户与所述近邻用户的所述用户相似度计算所述目标物品的预测评分,其中,所述目标物品为所述目标用户未评论过的所述物品,且所述近邻用户评论过的所述物品。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种融合评论文本与时序效应的协同过滤推荐方法,包括:获取目标数据,目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,用户集合中的用户包括目标用户和非目标用户;基于评论文本集合得到的物品特征集合计算情感值;基于情感值计算物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵;基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,基于筛选后的物品-主题评分矩阵计算物品相似度;基于物品相似度对物品集合中的物品进行聚类,得到若干个簇;当存在用户对簇中的物品没有评分时,基于物品相似度计算物品的虚拟评分,并将虚拟评分填充到用户-物品评分矩阵R,得到用户-物品评分矩阵R';基于户-物品评分矩阵R'计算目标用户未评论过的物品的预测评分;对预测评分进行降序排序,将排在前预置数量位的物品推荐给目标用户。
本申请中的融合评论文本与时序效应的协同过滤推荐方法,不只是对评分分数进行分析,同时对评论文本进行了分析,并对物品的特征和情感进行了处理和深度挖掘,从而提高了推荐准确率;并且,通过对物品特征进行主题聚类,将评论文本和协同过滤方法进行融合,从而降低了数据的稀疏性;此外,充分考虑了在线评论的动态性,基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,降低了时间和时序对评分的干扰,从而解决了现有的协同过滤推荐算法受到数据稀疏性和动态性的限制,以及只依靠于评分分数进行推荐,使得推荐准确率不高的技术问题。
附图说明
图1为本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例一的流程示意图;
图2为本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例二的流程示意图;
图3为本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例三的流程示意图;
图4为本申请实施例提供的一种融合评论文本与时序效应的协同过滤推荐装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例一,包括:
步骤101、获取目标数据。
需要说明的是,目标数据可以从网络上获取,其中,目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,用户集合中的用户包括目标用户和非目标用户,用户-物品评分矩阵R中的各元素为各用户对各物品的评分。
步骤102、基于评论文本集合得到的物品特征集合计算情感值。
步骤103、基于情感值计算物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵。
需要说明的是,通过评论文本可以获取用户具体的情感偏好信息,评论文本用于用户建模通常有三种方式:词项建模,是指直接从评论文本中抽取与用户相关的词作为建模用户的依据;评分建模,是指通过对评论文本进行挖掘来推测未知评分或增强已有评分;偏好建模,是指基于用户在评论文本中表达的意见来推知用户的偏好。由于评分建模对于数据稀疏性问题最为有效,因此,本申请实施例中通过分析用户更细粒度的情感偏向和情感强度,并将其用于评分建模之中来提高推荐准确率。
步骤104、基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,基于筛选后的物品-主题评分矩阵计算物品相似度。
需要说明的是,对于物品,用户的情感存在着明显的时间动态性,经过对用户的物品评价分析,得出三点时间动态性上下影响:
(1)早期用户对物品的敏感性导致用户具有负面的评价效应,从而后续的评分会产生一个上升的动态过程;
(2)用户的购买决策能力也影响产品的评分,早期用户的购买决策能力较弱,相应的评分会较低,随着时间的推移,用户的购买决策能力逐渐增强,相应的评分逐渐提高;
(3)在已有的评价环境中,用户只会在认为自己发表的评论能产生一定的影响时,才会有发表评论的动机,也就是说,当现有评论大势与用户的想法相近时,用户就不会发布新的评论。
本申请实施例中考虑到对于物品,用户的情感存在明显的时间动态性,因此在评论时间上进行了限制,在计算物品相似度时除去了物品的早期评论数据,其中,可以基于皮尔逊相关系数来计算物品相似度。
步骤105、基于物品相似度对物品集合中的物品进行聚类,得到若干个簇。
需要说明的是,可以采用聚类算法对物品进行聚类,例如K-means算法。
步骤106、当存在用户对簇中的物品没有评分时,基于物品相似度计算物品的虚拟评分,并将虚拟评分填充到用户-物品评分矩阵R,得到用户-物品评分矩阵R'。
需要说明的是,由于用户在实际评分过程中,会有一个动态过程,并在一定时期后评分基本趋于稳定,不再出现明显的上升或下降趋势,因此,需要选择一个延长时间段,然后选择发表在此时间段之后的评分用于推荐,但是这样会导致评分的稀疏性增加,为了解决该问题,本申请实施例中基于前述计算得到的物品相似度对物品进行聚类,进而计算虚拟评分,将虚拟评分填充到原用户-物品评分矩阵R中,得到用户-物品评分矩阵R',从而缓解评分矩阵稀疏性问题。
步骤107、基于户-物品评分矩阵R'计算目标用户未评论过的物品的预测评分。
步骤108、对预测评分进行降序排序,将排在前预置数量位的物品推荐给目标用户。
需要说明的是,对目标用户未评论过的物品的预测评分进行由高到低的降序排序,将排在前预置数量位的目标用户未评论过的物品推荐给目标用户,从而达到了推荐的目的。
本申请实施例中的融合评论文本与时序效应的协同过滤推荐方法,不只是对评分分数进行分析,同时对评论文本进行了分析,并对物品的特征和情感进行了处理和深度挖掘,从而提高了推荐准确率;并且,通过对物品特征进行主题聚类,将评论文本和协同过滤方法进行融合,从而降低了数据的稀疏性;此外,充分考虑了在线评论的动态性,基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,降低了时间和时序对评分的干扰,从而解决了现有的协同过滤推荐算法受到数据稀疏性和动态性的限制,以及只依靠于评分分数进行推荐,使得推荐准确率不高的技术问题。
为了便于理解,请参阅图2,本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例二,包括:
步骤201、获取目标数据。
需要说明的是,目标数据可以从网络上获取,其中,目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,用户集合中的用户包括目标用户和非目标用户,用户-物品评分矩阵R中的各元素为各用户对各物品的评分。
步骤202、基于评论文本集合得到的物品特征集合计算情感值。
需要说明的是,对评论文本集合中的评论文本进行词性标注,并统计词频;将词频超过预置阈值的名词作为评论文本的物品特征,得到物品特征集合;基于依存句法分析法分析物品特征和情感词之间的关系,从而将情感识别出来,并以不同的分数对情感强度进行量化,SentiWordNet从三个方面量化一个情感词o,分别为褒义性、贬义性和客观性,分别记为Pos(o)、Neg(o)和Obj(o),它们满足:
Pos(o)+Neg(o)+Obj(o)=1,0≤Pos(o),Neg(o),Obj(o)≤1;
融合Pos(o)、Neg(o)和Obj(o),得到情感值S(o),即:
其中,Rmax=5,Rmin=1,分别为最高的情感分值和最低的情感分值。
步骤203、基于情感值计算物品集合中每个物品的每个物品特征的特征质量。
需要说明的是,物品是由多个物品特征组成的,物品的多个物品特征之间也存在着不同的特征质量,特征质量可以看作是对物品特征的评分,通过将所有用户对物品特征的情感综合,就能衡量该物品特征好坏,其中,特征质量的计算公式为:
其中,U是用户集合,Suif为用户u对物品i的物品特征f的情感值,qif为物品i的物品特征f的特征质量。
步骤204、基于特征质量计算每个物品在每个预置主题上的评分,生成物品-主题评分矩阵。
需要说明的是,主题和物品特征都是对物品的描述,但一个主题可以归纳多个物品特征,从而可以达到特征的聚类,本申请实施例中采用LDA模型抽取评论文本的主题,生成预置主题集合P=(p1,p2,…,pτ)。假设物品i的某个主题p由μ个物品特征组成,表示为p=(f1,f2,…,fμ),可以计算得到每个物品在每个预置主题上的评分,计算公式为:
将计算得到的每个物品在每个预置主题上的评分构成物品-主题评分矩阵形式。
步骤205、基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,基于筛选后的物品-主题评分矩阵计算物品相似度。
需要说明的是,本申请实施例中考虑到对于物品,用户的情感存在明显的时间动态性,因此在评论时间上进行了限制,在计算物品相似度时除去了物品的早期评论数据,其中,物品相似度的计算公式为:
步骤206、基于物品相似度对物品集合中的物品进行聚类,得到若干个簇。
需要说明的是,本申请实施例中采用K-means算法对物品集合中的物品进行聚类,得到若干个簇。
步骤207、当存在用户对簇中的物品没有评分时,基于物品相似度计算物品的虚拟评分,并将虚拟评分填充到用户-物品评分矩阵R,得到用户-物品评分矩阵R'。
需要说明的是,假设有a个物品在同一个簇中,记作cluster(i1,i2,…is,…,ia),当用户对其中的物品is没有评分,也就是在原用户-物品评分矩阵R中,可以基于前述计算得到的物品相似度计算物品is的虚拟评分计算公式为:
步骤208、对用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵。
需要说明的是,矩阵分解也有助于解决数据稀疏性问题,从而提高推荐准确率,通过将用户和物品分别映射到一个维度的空间中,找到用户和物品的隐含因子,而用户对物品的评分就是两个隐含因子相互作用的结果,矩阵分解的公式为:
其中,K为用户-物品评分矩阵R'中已知评分对应的用户-物品对,wu为用户隐含因子,ri为物品隐含因子,r'ui为用户-物品评分矩阵R'中的元素,通过对用户-物品评分矩阵R'中进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵。
步骤209、将用户隐含因子矩阵和物品隐含因子矩阵相乘得到预测评分矩阵,基于预测评分矩阵得到目标用户未评论过的物品的预测评分。
需要说明的是,通过将用户隐含因子矩阵和物品隐含因子矩阵相乘得到预测评分矩阵,通过预测评分矩阵查询到目标用户未评论过的物品的预测评分。
步骤210、对预测评分进行降序排序,将排在前预置数量位的物品推荐给目标用户。
需要说明的是,对目标用户未评论过的物品的预测评分进行由高到低的降序排序,将排在前预置数量位的目标用户未评论过的物品推荐给目标用户,从而达到了推荐的目的。
为了便于理解,请参阅图3,本申请提供的一种融合评论文本与时序效应的协同过滤推荐方法的实施例三,包括:
步骤301、获取目标数据。
步骤302、基于评论文本集合得到的物品特征集合计算情感值。
步骤303、基于情感值计算物品集合中每个物品的每个物品特征的特征质量。
步骤304、基于特征质量计算每个物品在每个预置主题上的评分,生成物品-主题评分矩阵。
步骤305、基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,基于筛选后的物品-主题评分矩阵计算物品相似度。
步骤306、基于物品相似度对物品集合中的物品进行聚类,得到若干个簇。
需要说明的是,本申请实施例中采用K-means算法对物品集合中的物品进行聚类,得到若干个簇。
步骤307、当存在用户对簇中的物品没有评分时,基于物品相似度计算物品的虚拟评分,并将虚拟评分填充到用户-物品评分矩阵R,得到用户-物品评分矩阵R'。
需要说明的是,本申请实施例中的步骤301至步骤307与前述实施例二中的步骤201至步骤207一致,在此不再对步骤301至步骤307的具体过程进行赘述。
步骤308、基于户-物品评分矩阵R'计算非目标用户与目标用户的用户相似度。
需要说明的是,可以采用皮尔逊相关系数计算非目标用户与目标用户的用户相似度。
步骤309、对用户相似度进行降序排序,选择前k个用户相似度对应的非目标用户作为目标用户的近邻用户。
需要说明的是,k为大于0的整数。
步骤310、基于近邻用户对目标物品的评分、目标用户对所有物品的评分的平均值以及目标用户与近邻用户的用户相似度计算目标物品的预测评分,其中,目标物品为目标用户未评论过的物品,且近邻用户评论过的物品。
需要说明的是,目标物品的预测评分的计算公式为:
步骤311、对预测评分进行降序排序,将排在前预置数量位的物品推荐给目标用户。
需要说明的是,对目标用户未评论过的物品的预测评分进行由高到低的降序排序,将排在前预置数量位的目标用户未评论过的物品推荐给目标用户,从而达到了推荐的目的。
为了便于理解,请参阅图4,本申请提供的一种融合评论文本与时序效应的协同过滤推荐装置的一个实施例,包括:
数据获取模块,用于获取目标数据,目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,用户集合中的用户包括目标用户和非目标用户。
第一计算模块,用于基于评论文本集合得到的物品特征集合计算情感值。
第二计算模块,用于基于情感值计算物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵。
第三计算模块,用于基于评论文本集合中各评论文本的评论时间对物品-主题评分矩阵中的评分进行筛选,基于筛选后的物品-主题评分矩阵计算物品相似度。
聚类模块,用于基于物品相似度对物品集合中的物品进行聚类,得到若干个簇。
第四计算模块,用于当存在用户对簇中的物品没有评分时,基于物品相似度计算物品的虚拟评分,并将虚拟评分填充到用户-物品评分矩阵R,得到用户-物品评分矩阵R'。
第五计算模块,用于基于户-物品评分矩阵R'计算目标用户未评论过的物品的预测评分。
推荐模块,用于对预测评分进行降序排序,将排在前预置数量位的物品推荐给目标用户。
进一步地,第五计算模块包括:
矩阵分解子模块,用于对用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵。
相乘子模块,用于将用户隐含因子矩阵和物品隐含因子矩阵相乘,得到预测评分矩阵,基于预测评分矩阵得到目标用户未评论过的物品的预测评分。
进一步地,第五计算模块还包括:
第六计算子模块,用于基于户-物品评分矩阵R'计算非目标用户与目标用户的用户相似度。
排序子模块,用于对用户相似度进行降序排序,选择前k个用户相似度对应的非目标用户作为目标用户的近邻用户,其中,k为大于0的整数。
第七计算子模块,用于基于近邻用户对目标物品的评分、目标用户对所有物品的评分的平均值以及目标用户与近邻用户的用户相似度计算目标物品的预测评分,其中,目标物品为目标用户未评论过的物品,且近邻用户评论过的物品。
进一步地,第一计算模块具体用于:
对评论文本集合中的评论文本进行词性标注,并统计词频;
将词频超过预置阈值的名词作为评论文本的物品特征,得到物品特征集合;
基于依存句法分析法分析物品特征和情感词之间的关系,并计算情感值。
进一步地,还包括:
主题抽取模块,用于采用LDA模型抽取评论文本的主题,生成预置主题集合。
进一步地,第二计算模块具体用于:
基于情感值计算物品集合中每个物品的每个物品特征的特征质量;
基于特征质量计算每个物品在每个预置主题上的评分,生成物品-主题评分矩阵。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种融合评论文本与时序效应的协同过滤推荐方法,其特征在于,包括:
获取目标数据,所述目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,所述用户集合中的用户包括目标用户和非目标用户;
基于所述评论文本集合得到的物品特征集合计算情感值;
基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵;
基于所述评论文本集合中各评论文本的评论时间对所述物品-主题评分矩阵中的所述评分进行筛选,基于筛选后的所述物品-主题评分矩阵计算物品相似度;
基于所述物品相似度对所述物品集合中的所述物品进行聚类,得到若干个簇;
当存在用户对所述簇中的所述物品没有评分时,基于所述物品相似度计算所述物品的虚拟评分,并将所述虚拟评分填充到所述用户-物品评分矩阵R,得到用户-物品评分矩阵R';
基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分;
对所述预测评分进行降序排序,将排在前预置数量位的所述物品推荐给所述目标用户。
2.根据权利要求1所述的融合评论文本与时序效应的协同过滤推荐方法,其特征在于,所述基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分,包括:
对所述用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵;
将所述用户隐含因子矩阵和所述物品隐含因子矩阵相乘得到预测评分矩阵,基于所述预测评分矩阵得到所述目标用户未评论过的所述物品的预测评分。
3.根据权利要求1所述的融合评论文本与时序效应的协同过滤推荐方法,其特征在于,所述基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分,还包括:
基于所述户-物品评分矩阵R'计算所述非目标用户与所述目标用户的用户相似度;
对所述用户相似度进行降序排序,选择前k个所述用户相似度对应的所述非目标用户作为所述目标用户的近邻用户,其中,k为大于0的整数;
基于所述近邻用户对目标物品的评分、所述目标用户对所有所述物品的评分的平均值以及所述目标用户与所述近邻用户的所述用户相似度计算所述目标物品的预测评分,其中,所述目标物品为所述目标用户未评论过的所述物品,且所述近邻用户评论过的所述物品。
4.根据权利要求1所述的融合评论文本与时序效应的协同过滤推荐方法,其特征在于,所述基于所述评论文本集合得到的物品特征集合计算情感值,包括:
对所述评论文本集合中的所述评论文本进行词性标注,并统计词频;
将所述词频超过预置阈值的名词作为所述评论文本的物品特征,得到所述物品特征集合;
基于依存句法分析法分析所述物品特征和情感词之间的关系,并计算所述情感值。
6.根据权利要求1所述的融合评论文本与时序效应的协同过滤推荐方法,其特征在于,所述基于所述特征质量计算每个所述物品在每个预置主题上的评分,生成物品-主题评分矩阵,之前还包括:
采用LDA模型抽取所述评论文本的主题,生成预置主题集合。
7.根据权利要求1所述的融合评论文本与时序效应的协同过滤推荐方法,其特征在于,所述基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵,包括:
基于所述情感值计算所述物品集合中每个物品的每个物品特征的特征质量;
基于所述特征质量计算每个所述物品在每个预置主题上的评分,生成物品-主题评分矩阵。
8.一种融合评论文本与时序效应的协同过滤推荐装置,其特征在于,包括:
数据获取模块,用于获取目标数据,所述目标数据包括用户集合、物品集合、用户-物品评分矩阵R和评论文本集合,所述用户集合中的用户包括目标用户和非目标用户;
第一计算模块,用于基于所述评论文本集合得到的物品特征集合计算情感值;
第二计算模块,用于基于所述情感值计算所述物品集合中每个物品在每个预置主题上的评分,生成物品-主题评分矩阵;
第三计算模块,用于基于所述评论文本集合中各评论文本的评论时间对所述物品-主题评分矩阵中的所述评分进行筛选,基于筛选后的所述物品-主题评分矩阵计算物品相似度;
聚类模块,用于基于所述物品相似度对所述物品集合中的所述物品进行聚类,得到若干个簇;
第四计算模块,用于当存在用户对所述簇中的所述物品没有评分时,基于所述物品相似度计算所述物品的虚拟评分,并将所述虚拟评分填充到所述用户-物品评分矩阵R,得到用户-物品评分矩阵R';
第五计算模块,用于基于所述户-物品评分矩阵R'计算所述目标用户未评论过的所述物品的预测评分;
推荐模块,用于对所述预测评分进行降序排序,将排在前预置数量位的所述物品推荐给所述目标用户。
9.根据权利要求8所述的融合评论文本与时序效应的协同过滤推荐装置,其特征在于,所述第五计算模块包括:
矩阵分解子模块,用于对所述用户-物品评分矩阵R'进行矩阵分解,得到用户隐含因子矩阵和物品隐含因子矩阵;
相乘子模块,用于将所述用户隐含因子矩阵和所述物品隐含因子矩阵相乘,得到预测评分矩阵,基于所述预测评分矩阵得到所述目标用户未评论过的所述物品的预测评分。
10.根据权利要求8所述的融合评论文本与时序效应的协同过滤推荐装置,其特征在于,所述第五计算模块还包括:
第六计算子模块,用于基于所述户-物品评分矩阵R'计算所述非目标用户与所述目标用户的用户相似度;
排序子模块,用于对所述用户相似度进行降序排序,选择前k个所述用户相似度对应的所述非目标用户作为所述目标用户的近邻用户,其中,k为大于0的整数;
第七计算子模块,用于基于所述近邻用户对目标物品的评分、所述目标用户对所有所述物品的评分的平均值以及所述目标用户与所述近邻用户的所述用户相似度计算所述目标物品的预测评分,其中,所述目标物品为所述目标用户未评论过的所述物品,且所述近邻用户评论过的所述物品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099934.0A CN111339439B (zh) | 2020-02-18 | 2020-02-18 | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099934.0A CN111339439B (zh) | 2020-02-18 | 2020-02-18 | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339439A true CN111339439A (zh) | 2020-06-26 |
CN111339439B CN111339439B (zh) | 2023-05-09 |
Family
ID=71185430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099934.0A Active CN111339439B (zh) | 2020-02-18 | 2020-02-18 | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339439B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915409A (zh) * | 2020-08-11 | 2020-11-10 | 深圳墨世科技有限公司 | 基于物品的物品推荐方法、装置、设备及存储介质 |
CN112765458A (zh) * | 2021-01-07 | 2021-05-07 | 同济大学 | 基于度量分解和标签自适应分配权重的混合推荐方法 |
CN112949322A (zh) * | 2021-04-27 | 2021-06-11 | 李蕊男 | 线上文本评论驱动的电商意见挖掘推荐*** |
CN113011787A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 基于数据聚类的虚拟对象分配方法及相关设备 |
CN113781180A (zh) * | 2021-09-16 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种物品推荐方法、装置、电子设备及存储介质 |
CN116308685A (zh) * | 2023-05-18 | 2023-06-23 | 湖南工商大学 | 一种基于方面情感预测和协同过滤的产品推荐方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN108681739A (zh) * | 2018-03-26 | 2018-10-19 | 安徽师范大学 | 一种基于用户情感和时间动态的旅游目的地推荐方法 |
CN109635291A (zh) * | 2018-12-04 | 2019-04-16 | 重庆理工大学 | 一种基于协同训练的融合评分信息和物品内容的推荐方法 |
CN109670914A (zh) * | 2018-12-17 | 2019-04-23 | 华中科技大学 | 一种基于时间动态特性的产品推荐方法 |
-
2020
- 2020-02-18 CN CN202010099934.0A patent/CN111339439B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681739A (zh) * | 2018-03-26 | 2018-10-19 | 安徽师范大学 | 一种基于用户情感和时间动态的旅游目的地推荐方法 |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN109635291A (zh) * | 2018-12-04 | 2019-04-16 | 重庆理工大学 | 一种基于协同训练的融合评分信息和物品内容的推荐方法 |
CN109670914A (zh) * | 2018-12-17 | 2019-04-23 | 华中科技大学 | 一种基于时间动态特性的产品推荐方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915409A (zh) * | 2020-08-11 | 2020-11-10 | 深圳墨世科技有限公司 | 基于物品的物品推荐方法、装置、设备及存储介质 |
CN111915409B (zh) * | 2020-08-11 | 2023-08-04 | 深圳墨世科技有限公司 | 基于物品的物品推荐方法、装置、设备及存储介质 |
CN112765458A (zh) * | 2021-01-07 | 2021-05-07 | 同济大学 | 基于度量分解和标签自适应分配权重的混合推荐方法 |
CN113011787A (zh) * | 2021-04-22 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 基于数据聚类的虚拟对象分配方法及相关设备 |
CN113011787B (zh) * | 2021-04-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 基于数据聚类的虚拟对象分配方法及相关设备 |
CN112949322A (zh) * | 2021-04-27 | 2021-06-11 | 李蕊男 | 线上文本评论驱动的电商意见挖掘推荐*** |
CN113781180A (zh) * | 2021-09-16 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种物品推荐方法、装置、电子设备及存储介质 |
CN116308685A (zh) * | 2023-05-18 | 2023-06-23 | 湖南工商大学 | 一种基于方面情感预测和协同过滤的产品推荐方法及*** |
CN116308685B (zh) * | 2023-05-18 | 2023-07-25 | 湖南工商大学 | 一种基于方面情感预测和协同过滤的产品推荐方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111339439B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339439B (zh) | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 | |
CN106485562B (zh) | 一种基于用户历史行为的商品信息推荐方法及*** | |
Zhang et al. | Dynamic topic modeling for monitoring market competition from online text and image data | |
Ziegler et al. | Taxonomy-driven computation of product recommendations | |
CN112667899A (zh) | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 | |
CN110555717A (zh) | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 | |
CN108665311B (zh) | 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法 | |
CN111460130A (zh) | 信息推荐方法、装置、设备和可读存储介质 | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
KR20210036184A (ko) | 사용자 취향정보 파악 방법 및 사용자 취향 정보에 기반한 아이템 추천 모듈 | |
Xu et al. | Personalized recommendation based on reviews and ratings alleviating the sparsity problem of collaborative filtering | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
Kumar et al. | Comparative Study of different Machine Learning Algorithms to Analyze Sentiments with a Case Study of Two Person's Microblogs on Twitter | |
CN114579858A (zh) | 内容推荐方法和装置、电子设备、存储介质 | |
CN109670922B (zh) | 一种基于混合特征的线上图书价值发现方法 | |
CN109460474B (zh) | 用户偏好趋势挖掘方法 | |
CN112464106B (zh) | 对象推荐方法及装置 | |
CN117474631A (zh) | 基于电商平台评论的数据挖掘与情感分析的推荐算法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识*** | |
Compiani et al. | Demand estimation with text and image data | |
CN115600677A (zh) | 针对序列推荐***成员推断攻击推理***及方法 | |
Zakry et al. | Classification of dances using AlexNet, ResNet18 and SqueezeNet1_0 | |
Fang | Enhanced Customer Analysis Based on Variations of Natural Language Processing Algorithms Implemented on Past E-Commerce Reviews | |
CHRISTANTO et al. | SENTIMENT ANALYSIS FOR TIKTOK SHOP'S CLOSURE IN INDONESIA USING NAIVE BAYES MODELS AND NLP. | |
Raju et al. | Aspect Based Text Summarization Model for the E-Commerce Recommendation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |