CN112307332B - 基于用户画像聚类的协同过滤推荐方法、***及存储介质 - Google Patents
基于用户画像聚类的协同过滤推荐方法、***及存储介质 Download PDFInfo
- Publication number
- CN112307332B CN112307332B CN202011114490.XA CN202011114490A CN112307332B CN 112307332 B CN112307332 B CN 112307332B CN 202011114490 A CN202011114490 A CN 202011114490A CN 112307332 B CN112307332 B CN 112307332B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- behavior
- clustering
- adopting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001914 filtration Methods 0.000 title claims abstract description 51
- 238000012512 characterization method Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 230000006835 compression Effects 0.000 claims abstract description 21
- 238000007906 compression Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 100
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000008859 change Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的基于用户画像聚类的协同过滤推荐方法、***及存储介质,通过获取用户数据,包括属性数据和行为数据;对用户数据进行表征,形成用户表征信息;对用户表征信息进行降维压缩,形成低维用户画像;采用聚类方法对低维用户画像进行聚类,形成用户兴趣簇;对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。考虑了用户行为随时间信息的变化,对用户的固有属性信息、用户过往行为和用户短期行为进行了自适应融合,并将用户按照低维用户画像进行聚类,根据聚类后的类别对用户进行基于用户的协同过滤推荐,能够兼顾效率和精度,降低了计算复杂度,保证了更高的推荐速度和准确率,实现了应对用户行为变化的自适应推荐。
Description
技术领域
本发明涉及大数据人工智能技术领域,尤其涉及一种基于用户画像聚类的协同过滤推荐方法、***及存储介质。
背景技术
随着互联网和自动技术的飞速发展,现在越来越多的人都拥有智能手机,平板电脑和其他智能终端,这使得生产、生活的数据信息呈***式增长,这就导致了信息超载问题。当用户在搜索其感兴趣的信息时,会花费大量的时间和精力去过滤掉无用的信息,然而结果往往无法让用户满意,于是,个性化推荐技术应时而生。个性化推荐技术是指利用用户某种兴趣点和购买特点,向用户推荐感兴趣的内容,是解决信息超载问题的有效途径。在个性化推荐技术中,协同过滤推荐技术是最成熟,也是应用最广泛的一种技术。协同过滤简单来说是根据兴趣相投的用户群体来预测用户感兴趣的信息,并将其推荐给目标用户。但是由于用户和商品数的快速增长,传统的协同过滤推荐方法出现了冷启动、数据稀疏性、效率低下等问题。
为了改善传统协同推荐方法的性能,研究人员从以上问题出发对其进行研究。
针对数据稀疏性问题,通常对用户评分稀疏矩阵进行填充,并引入了相似性计算因子计算用户相似性;还可以采用矩阵分解算法对高维稀疏数据进行预处理,降低数据稀疏性。
针对冷启动问题,通常采用扩展用户本身固有属性的信息(如社交信息、属性信息等)融合入用户行为的协同过滤算法,有效缓解了用户冷启动问题。
针对效率低下问题,通过对用户评价矩阵进行分析,采用K-means聚类算法把兴趣和偏好相似程度较高的用户分到同一个簇中,以减少搜索最近邻的时间。
上述方法虽然在很大程度上解决部分问题,但是缺乏整体性,片面的追求效率或者准确性。
如专利公开号为CN106548255A提出的一种基于海量用户行为的商品推荐方法,该专利申请虽采用了聚类方法,但通常海量行为的超高维度,会造成聚类方法的相似度计算失效;而部分基于降维和聚类的协同过滤推荐算法,例如采用PCA和K-means相结合的方式对用户评分矩阵进行分析,虽然考虑了效率,但仍然存在冷启动问题,未考虑到用户行为变化问题。
对用户进行很好地表征是协同过滤推荐算法的关键和前提。尽可能多地利用用户数据是广为认可的思路,然而如何利用好这些数据是困难的。一方面,对不同的数据进行区别对待,特别是由于用户兴趣可能存在的变化,需要区分数据类型并进行恰当的处理;另一方面,对数据进行融合也不能简单地用数据拼接或者简单的加权算法来实现;此外,不恰当的数据融合可能导致更高维度的用户数据,不仅导致可能的维数诅咒问题使得计算失效,可能还会使得精妙设计的算法效率低下。
发明内容
本发明提供的基于用户画像聚类的协同过滤推荐方法、***及存储介质,主要解决的技术问题是:如何对用户数据进行处理,以降低数据处理复杂度,且提升推荐的准确性。
为解决上述技术问题,本发明提供一种基于用户画像聚类的协同过滤推荐方法,包括:
S1:获取用户数据,包括属性数据和行为数据;
S2:对用户数据进行表征,形成用户表征信息;
S3:对所述用户表征信息进行降维压缩,形成低维用户画像;
S4:采用聚类方法对所述低维用户画像进行聚类,形成用户兴趣簇;
S5:对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。
可选的,所述行为数据包括:根据行为发生的时间信息分为历史行为数据和近期行为数据。
可选的,所述S2对用户数据进行表征,形成用户表征信息包括:
S21:对所述属性数据采用One-Hot方法进行编码,并采用Concat进行融合,形成表征用户属性;
S22:对所述行为数据采用LSTM网络进行编码,并采用Attention神经网络进行自适应融合,形成表征用户行为;
S23:对所述表征用户属性和所述表征用户行为采用Attention神经网络进行自适应融合,形成用户表征信息。
可选的,所述S22对所述行为数据采用LSTM网络进行编码包括:
采用两个并联的LSTM网络分别对所述近期行为数据和所述历史行为数据进行编码,所述LSTM网络的工作过程可公式描述为:
fk=σ(xkWf+hk-1Uf+bf)
ik=σ(xkWi+hk-1Ui+bi)
ck=fk⊙ck-1+ik⊙φ(xkWc+hk-1Uc+bc)
ok=σ(xkWo+hk-1Uo+bo)
hk=ok⊙φ(ck)
其中,所述hk为第k个项目的hidden state,W*为权重,U*为hk的权重,fk、ik、ok分别为遗忘门、输入门和输出门,ck为cell state,xk为输入,⊙为点乘,b*为网络偏置项,σ为激活函数,φ为tanh函数。
可选的,所述采用Attention神经网络进行自适应融合,形成用户表征信息包括:
所述的Attention神经网络对两个输入p1、p2进行数据自适应融合,网络层数为N,融合公式如下:
α=σ(Wm[p1,p2]+bm)
p=α·p1+(1-α)p2
其中,Wm为网络第m层的权重,bm为网络第m层偏置项,所述m小于等于所述N;σ为激活函数,p1、p2分别为Attention神经网络的输入;当对所述行为数据进行融合时,所述p1、p2分别为所述近期行为数据和所述历史行为数据;当对所述表征用户属性和所述表征用户行为进行融合时,所述p1、p2分别为所述表征用户属性和所述表征用户行为;所述p为所述用户表征信息,所述α为Attention网络的输出。
可选的,所述S3对所述用户表征信息进行降维压缩包括:
对所述用户表征信息采用Auto-Encoder神经网络进行降维压缩,所述Auto-Encoder神经网络由编码层、解码层和隐含层构成;其中,所述隐含层为低维数据,编码层和解码层层数相同,且以所述隐含层为轴线呈对称分布,所述Auto-Encoder神经网络的层数取决于数据的压缩比;所述Auto-Encoder神经网络降维方法训练过程采用的损失函数为:L=‖ru-D(E(p))‖2,其中,所述E(·)为经过编码层变换,所述D(·)为经过解码层变换,所述E(p)为低维用户画像。
可选的,所述S4所采用聚类方法为K-means聚类方法。
可选的,所述S5包括:基于用户的协同过滤推荐方法,给目标用户u推荐其所在兴趣簇内用户v喜欢的对象:
S52:计算对第j个对象目标用户u的行为相似度:p(u,j)=∑v∈iwuvrv,j,其中,rv,j表示用户v对第j个对象的行为,有行为则为1,否则为0。
本发明还提供一种基于用户画像聚类的协同过滤推荐***,包括:
数据获取模块,用于获取用户数据,包括属性数据和行为数据;
表征模块,用于对用户数据进行表征,形成用户表征信息;
压缩模块,用于对所述用户表征信息进行降维压缩,形成低维用户画像;
聚类模块,用于采用聚类方法对所述低维用户画像进行聚类,形成用户兴趣簇;
推荐模块,用于对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。
本发明还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于用户画像聚类的协同过滤推荐方法的步骤。
本发明的有益效果是:
根据本发明提供的基于用户画像聚类的协同过滤推荐方法、***及存储介质,通过获取用户数据,包括属性数据和行为数据;对用户数据进行表征,形成用户表征信息;对用户表征信息进行降维压缩,形成低维用户画像;采用聚类方法对低维用户画像进行聚类,形成用户兴趣簇;对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。考虑了用户行为随时间信息的变化,对用户的固有属性信息、用户过往行为和用户短期行为进行了自适应融合,并将用户按照低维用户画像进行聚类,根据聚类后的类别对用户进行基于用户的协同过滤推荐,能够兼顾效率和精度,降低了计算复杂度,保证了更高的推荐速度和准确率,实现了应对用户行为变化的自适应推荐。
附图说明
图1为本发明实施例一的基于用户画像聚类的协同过滤推荐方法流程示意图;
图2为本发明实施例一的协同过滤推荐的框架结构图;
图3为本发明实施例一的用户数据编码融合框架结构图;
图4为本发明实施例一的Auto-Encoder网络结构示意图;
图5为本发明实施例二的基于用户画像聚类的协同过滤推荐***结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
为了传统推荐方法数据处理方法不适,片面追求效率或者准确性的问题,本实施例提供一种基于用户画像聚类的协同过滤推荐方法,本方法能够更好地刻画用户兴趣,并体现用户兴趣的变化,在保证推荐精度的情况下,降低了在线推荐的计算复杂度,提高了推荐效率和效果。
本实施例以Movie-Lens电影推荐***获取基础数据进行分析,包括6040名用户对3900部电影的1000209个评分记录及其评分时间,评分范围是1-5分,用户对某电影的评分值越高,则说明用户越喜欢这部电影。用户信息包括性别,年龄,职业,邮编等属性信息。
请参见图1-3,该方法包含以下步骤:
步骤S1:根据用户电影数据集,获取用户属性数据和行为数据,形成用户信息库。
用户属性,包括性别、年龄、职业和地理位置;用户行为,包括评分数据及相应的评分时间。
用户行为按照行为发生的时间信息可划分为用户近期行为数据和历史行为数据。本实施例按照评分数量划分,取最近5%的评分数据为最近行为数据,将其余的评分数据作为历史行为数据。由此得到三个用户信息,分别为用户的属性数据U、历史行为数据R和近期行为数据Rn。
在本发明可选的实施例中,可以取最近一个月的评分数据,作为最近新书数据,将一个月以前的评分数据作为历史行为数据。
步骤S2:对用户数据进行表征,形成用户表征信息,并存储于用户表征信息库。具体为:
步骤S21:对用户属性数据U采用One-Hot(一位有效编码)方法进行编码,并采用Concat进行融合,形成表征用户属性。使用One-Hot编码对这个信息进行编码,其中按性别化为2维,按年龄化为7维,按职业化为21维,按地理位置化为99维,最后得到一个维度为129维的向量,记为Uc。
用户历史行为数据和近期行为数据都是评分数据,均为维度为3900(一个用户对每一部电影都产生一条评分数据)的向量。
步骤S22:对行为数据采用LSTM(Long short-term memory,长短期记忆网络)进行编码,并采用Attention神经网络进行自适应融合,形成表征用户行为。
采用两个并联的LSTM网络分别对用户近期行为数据和历史行为数据进行编码,形成40维的向量Rnc和40维的向量Rc。其工作过程可公式描述为:
fk=σ(xkWf+hk-1Uf+bf)
ik=σ(xkWi+hk-1Ui+bi)
ck=fk⊙ck-1+ik⊙φ(xkWc+hk-1Uc+bc)
ok=σ(xkWo+hk-1Uo+bo)
hk=ok⊙φ(ck)
其中,hk为第k个项目的hidden state,W*为权重,U*为hk的权重,fk、ik、ok分别为遗忘门、输入门和输出门,ck为cell status,xk为输入,⊙为点乘,b*为网络偏置项,σ为激活函数,φ为tanh函数。
α=σ(Wm[Rc,Rnc]+bm)
其中,Wm为网络第m层的权重,bm为网络第m层偏置项,σ为激活函数,Rc和Rnc分别为Attention网络的输入。
步骤S23:对表征用户属性Uc(129维)和表征用户行为(80维)采用Attention网络进行自适应融合,形成一个由209维数据向量构成的用户表征信息,记为其中Attention网络的自适应融合公式如下:
α=σ(Wm[Uc,Rc]+bm)
本实施例使用Auto-Encoder(Autoencoder,简称AE,自编码器,一种利用反向传播算法使得输出值等于输入值的神经网络)神经网络来进行降维。
结合表1,Auto-Encoder由4层编码层、4层解码层和1层隐含层构成;其中隐含层为低维数据,编码层和解码层层数相同且以隐含层为轴线呈对称分布,请参见图4。训练验证时,Auto-Encoder网络编码层和解码层都进行训练,训练过程对应的损失函数为:其中,E(·)为经过编码层变换,D(·)为经过解码层变换,为低维用户画像。正常工作时,Auto-Encoder网络仅使用4层的编码层和1层隐含层来实现功能。
表1本实施例的Auto-Encoder算法
在本发明的其他实施例中,步骤S3中的降维方法还可以采用PCA(PrincipalComponents Analysis,主成分分析)方法、MLP(Multi-Layer Perceptron,多层感知器)网络方法或SVD(Singular Value Decomposition,矩阵奇异值分解)方法。
步骤S4:采用K-means聚类方法对低维用户画像集合Uf进行聚类,形成用户兴趣簇。
K-manes方法是成熟的聚类算法,如下表2所示。
表2本实施例的K-means算法
满足精度需求的情况下,分类簇数越多越好,可以降低计算复杂度,提高计算效率。实施例中k=4;通过训练可以得出分类簇数为4时精度满足需求,将用户数量为6040的用户数据分为用户数量分别为1373,2520,749,1398的4组用户数据,原本计算复杂度为:聚类处理后新的计算复杂度为:复杂度大大降低,降低了约4倍。计算复杂度的估计公式为:其中,Num(i)为第i个用户兴趣簇中的用户数量。
在本发明的其他可选实施例中,步骤S4中聚类方法还可采用密度峰值方法。
步骤S5:对目标用户,在其对应兴趣簇内采用基于用户的协同过滤方法对其进行Top-N推荐。
基于用户的协同过滤推荐方法,是给待推荐的目标用户u推荐那些和他在同一簇内,且有共同兴趣爱好的用户v喜欢的电影,具体的计算步骤为:
需要预先对用户行为类别进行设定和筛选,例如,恶意差评等行为不能被规定为正反馈行为。
2)计算用户u对第j个电影的可能评分:p(u,j)=∑v∈iwuvrv,j,其中,rv,j表示用户v对第j个电影的行为,有行为则为1,否则为0。
将评分最高的k个电影推荐给目标用户u。
进一步,聚类方法和基于用户的协同过滤推荐方法在训练过程中要联合训练,以便确定聚类类别个数i、确保模型精度、降低计算复杂度。
应当理解,本实施例所提供的基于用户画像聚类的协同过滤推荐方法并不限于对电影的推荐,对于其他对象(例如商品、景点等)同样适用。
本发明提供的基于用户画像聚类的协同过滤推荐方法、***及存储介质,通过获取用户数据,包括属性数据和行为数据;对用户数据进行表征,形成用户表征信息;对用户表征信息进行降维压缩,形成低维用户画像;采用聚类方法对低维用户画像进行聚类,形成用户兴趣簇;对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。考虑了用户行为随时间信息的变化,对用户的固有属性信息、用户过往行为和用户短期行为进行了自适应融合,并将用户按照低维用户画像进行聚类,根据聚类后的类别对用户进行基于用户的协同过滤推荐,能够兼顾效率和精度,降低了计算复杂度,保证了更高的推荐速度和准确率,实现了应对用户行为变化的自适应推荐。
实施例二:
本实施例在上述实施例一的基础上,提供一种基于用户画像聚类的协同过滤推荐***,具有可实现上述实施例一中所述的基于用户画像聚类的协同过滤推荐方法各步骤的功能模块,请参见图5,该***包括:
数据获取模块51用于获取用户数据,包括属性数据和行为数据;
表征模块52用于对用户数据进行表征,形成用户表征信息;
压缩模块53用于对用户表征信息进行降维压缩,形成低维用户画像;
聚类模块54用于采用聚类方法对低维用户画像进行聚类,形成用户兴趣簇;
推荐模块55用于对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。
本实施例提供的基于用户画像聚类的协同过滤推荐***的具体功能,可参见实施例中相关步骤的描述,在此不再赘述。
实施例三:
本实施例在上述实施例一的基础上,提供一种存储介质,该存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如实施例一中所述的基于用户画像聚类的协同过滤推荐方法的步骤。具体参见实施例中相关步骤的描述,在此不再赘述。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于用户画像聚类的协同过滤推荐方法,其特征在于,包括:
S1:获取用户数据,包括属性数据、历史行为数据和近期行为数据;
S21:对所述属性数据采用One-Hot方法进行编码,并采用Concat进行融合,形成表征用户属性;
S22:采用两个并联的LSTM网络分别对所述近期行为数据和所述历史行为数据进行编码,并采用Attention神经网络进行自适应融合,形成表征用户行为;
S23:对所述表征用户属性和所述表征用户行为采用Attention神经网络进行自适应融合,形成用户表征信息;
其中步骤S22和S23中,采用Attention神经网络进行自适应融合包括:
所述Attention神经网络对两个输入p1、p2进行数据自适应融合,网络层数为N,融合公式如下:
α=σ(Wm[p1,p2]+bm)
p=α·p1+(1-α)p2
式中,Wm为网络第m层的权重,bm为网络第m层偏置项,所述m小于等于所述N,σ为激活函数,p1、p2分别为Attention神经网络的输入,所述α为Attention神经网络输出;当对行为数据进行融合时,所述p1、p2分别为所述近期行为数据和所述历史行为数据,所述p为所述表征用户行为;当对所述表征用户属性和所述表征用户行为进行融合时,所述p1、p2分别为所述表征用户属性和所述表征用户行为, 所述p为所述用户表征信息;
S3:对所述用户表征信息进行降维压缩,形成低维用户画像;
S4:采用聚类方法对所述低维用户画像进行聚类,形成用户兴趣簇;
S5:对目标用户,在其所在的兴趣簇内采用基于协同过滤方法对其进行推荐。
2.如权利要求1所述的基于用户画像聚类的协同过滤推荐方法,其特征在于,所述S22采用两个并联的LSTM网络分别对所述近期行为数据和所述历史行为数据进行编码包括:
所述LSTM网络的工作过程可公式描述为:
fk=σ(xkWf+hk-1Uf+bf)
ik=σ(xkWi+hk-1Ui+bi)
ck=fk⊙ck-1+ik⊙φ(xkWc+hk-1Uc+bc)
ok=σ(xkWo+hk-1Uo+bo)
hk=ok⊙φ(ck)
其中,所述hk为第k个项目的hidden state,W*为权重,U*为hk的权重,fk、ik、ok分别为遗忘门、输入门和输出门,ck为cell state,xk为输入,⊙为点乘,b*为网络偏置项,σ为激活函数,φ为tanh函数。
3.如权利要求1所述的基于用户画像聚类的协同过滤推荐方法,其特征在于,所述S3对所述用户表征信息进行降维压缩包括:
对所述用户表征信息采用Auto-Encoder神经网络进行降维压缩,所述Auto-Encoder神经网络由编码层、解码层和隐含层构成;其中,所述隐含层为低维数据,编码层和解码层层数相同,且以所述隐含层为轴线呈对称分布,所述Auto-Encoder神经网络的层数取决于数据的压缩比;所述Auto-Encoder神经网络降维方法训练过程采用的损失函数为:L=||ru-D(E(ru))||2,其中,所述ru为用户u的数据,E(·)为经过编码层变换,D(·)为经过解码层变换,E(ru)为低维用户画像。
4.如权利要求1所述的基于用户画像聚类的协同过滤推荐方法,其特征在于,所述S4所采用聚类方法为K-means聚类方法。
6.一种基于用户画像聚类的协同过滤推荐***,其特征在于,包括:
数据获取模块,用于获取用户数据,包括属性数据、历史行为数据和近期行为数据;
表征模块,用于对所述属性数据采用One-Hot方法进行编码,并采用Concat进行融合,形成表征用户属性;以及采用两个并联的LSTM网络分别对所述近期行为数据和所述历史行为数据进行编码,并采用Attention神经网络进行自适应融合,形成表征用户行为;对所述表征用户属性和所述表征用户行为采用Attention神经网络进行自适应融合,形成用户表征信息;所述表征模块采用Attention神经网络进行自适应融合包括:
所述Attention神经网络对两个输入p1、p2进行数据自适应融合,网络层数为N,融合公式如下:
α=σ(Wm[p1,p2]+bm)
p=α·p1+(1-α)p2
式中,Wm为网络第m层的权重,bm为网络第m层偏置项,所述m小于等于所述N,σ为激活函数,p1、p2分别为Attention神经网络的输入,所述α为Attention神经网络输出;当对行为数据进行融合时,所述p1、p2分别为所述近期行为数据和所述历史行为数据,所述p为所述表征用户行为;当对所述表征用户属性和所述表征用户行为进行融合时,所述p1、p2分别为所述表征用户属性和所述表征用户行为, 所述p为所述用户表征信息;
压缩模块,用于对所述用户表征信息进行降维压缩,形成低维用户画像;
聚类模块,用于采用聚类方法对所述低维用户画像进行聚类,形成用户兴趣簇;
推荐模块,用于对目标用户,在其所在的兴趣簇内采用基于用户的协同过滤方法对其进行推荐。
7.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的基于用户画像聚类的协同过滤推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114490.XA CN112307332B (zh) | 2020-10-16 | 2020-10-16 | 基于用户画像聚类的协同过滤推荐方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011114490.XA CN112307332B (zh) | 2020-10-16 | 2020-10-16 | 基于用户画像聚类的协同过滤推荐方法、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307332A CN112307332A (zh) | 2021-02-02 |
CN112307332B true CN112307332B (zh) | 2021-08-24 |
Family
ID=74327695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011114490.XA Expired - Fee Related CN112307332B (zh) | 2020-10-16 | 2020-10-16 | 基于用户画像聚类的协同过滤推荐方法、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307332B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560831B (zh) * | 2021-03-01 | 2021-05-04 | 四川大学 | 一种基于多尺度空间校正的行人属性识别方法 |
CN113343127B (zh) * | 2021-04-25 | 2023-03-21 | 武汉理工大学 | 一种旅游路线推荐方法、***、服务器及存储介质 |
CN113515697A (zh) * | 2021-05-27 | 2021-10-19 | 武汉理工大学 | 一种基于用户多意图的群组动态旅游路线推荐方法及*** |
CN115017419A (zh) * | 2022-08-10 | 2022-09-06 | 玫斯江苏宠物食品科技有限公司 | 一种基于个性化推荐的定制宠物食品方法及*** |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279552A (zh) * | 2013-06-06 | 2013-09-04 | 浙江大学 | 一种基于用户兴趣分组的协同过滤推荐方法 |
CN104391849B (zh) * | 2014-06-30 | 2017-12-15 | 浙江大学苏州工业技术研究院 | 融入时间上下文信息的协同过滤推荐方法 |
CN107391713B (zh) * | 2017-07-29 | 2020-04-28 | 内蒙古工业大学 | 一种解决协同过滤推荐技术中冷启动问题的方法及*** |
CN107423442B (zh) * | 2017-08-07 | 2020-09-25 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备 |
CN107818306B (zh) * | 2017-10-31 | 2020-08-07 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN110543603B (zh) * | 2019-09-06 | 2023-06-30 | 上海喜马拉雅科技有限公司 | 基于用户行为的协同过滤推荐方法、装置、设备和介质 |
CN111079056A (zh) * | 2019-10-11 | 2020-04-28 | 深圳壹账通智能科技有限公司 | 提取用户画像的方法、装置、计算机设备和存储介质 |
CN110851718B (zh) * | 2019-11-11 | 2022-06-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
-
2020
- 2020-10-16 CN CN202011114490.XA patent/CN112307332B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN112307332A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307332B (zh) | 基于用户画像聚类的协同过滤推荐方法、***及存储介质 | |
Zhang et al. | A recommendation model based on deep neural network | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN112785397B (zh) | 一种产品推荐方法、装置及存储介质 | |
CN111127142B (zh) | 一种基于广义神经注意力的物品推荐方法 | |
US20190251435A1 (en) | Matching cross domain user affinity with co-embeddings | |
CN111737578B (zh) | 一种推荐方法及*** | |
Cheng et al. | Semantic-based facial expression recognition using analytical hierarchy process | |
Basilico et al. | A joint framework for collaborative and content filtering | |
Alfarhood et al. | DeepHCF: a deep learning based hybrid collaborative filtering approach for recommendation systems | |
Wang et al. | Low-rank and sparse matrix factorization with prior relations for recommender systems | |
Chen et al. | Deformable convolutional matrix factorization for document context-aware recommendation in social networks | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
Li et al. | Learning latent multi-criteria ratings from user reviews for recommendations | |
Gu et al. | Sequence neural network for recommendation with multi-feature fusion | |
Alabdulrahman et al. | Active learning and deep learning for the cold-start problem in recommendation system: A comparative study | |
Singh et al. | Image collection summarization: Past, present and future | |
CN110769288A (zh) | 一种视频冷启动推荐方法及*** | |
Zeng et al. | User Personalized Recommendation Algorithm Based on GRU Network Model in Social Networks | |
CN111931035B (zh) | 业务推荐方法、装置及设备 | |
Liu et al. | Filter pruning by quantifying feature similarity and entropy of feature maps | |
Hanafi et al. | Word Sequential Using Deep LSTM and Matrix Factorization to Handle Rating Sparse Data for E‐Commerce Recommender System | |
Yong-sheng | Image Tag Recommendation Algorithm Using Tensor Factorization. | |
CN113495969B (zh) | 数字指纹生成、媒体数据推荐方法、装置和计算机设备 | |
Mi et al. | Matrix regression-based classification for face recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210824 |