CN112100512A - 一种基于用户聚类和项目关联分析的协同过滤推荐方法 - Google Patents

一种基于用户聚类和项目关联分析的协同过滤推荐方法 Download PDF

Info

Publication number
CN112100512A
CN112100512A CN202010278287.XA CN202010278287A CN112100512A CN 112100512 A CN112100512 A CN 112100512A CN 202010278287 A CN202010278287 A CN 202010278287A CN 112100512 A CN112100512 A CN 112100512A
Authority
CN
China
Prior art keywords
user
item
matrix
similarity
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010278287.XA
Other languages
English (en)
Inventor
赵学健
邱钟成
孙知信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010278287.XA priority Critical patent/CN112100512A/zh
Publication of CN112100512A publication Critical patent/CN112100512A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明针对传统协同过滤推荐算法存在的冷启动、数据稀疏及推荐准确率低等问题,公开了一种基于用户聚类和项目关联分析的协同过滤推荐方法。该方法采用改进模糊C均值聚类算法对用户隐藏特征偏好程度进行挖掘,并采用基于预判筛选的关联分析策略对频繁项集进行筛选。在此基础上,该算法利用用户特征偏好矩阵和用户评分矩阵计算用户之间的相似度,利用频繁项集矩阵和用户评分矩阵计算项目之间的相似度,并综合用户相似度和项目相似度计算用户对未评分项目的预测评分,实现Top‑K推荐。该方法相比于传统的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法能够有效避免冷启动问题和数据稀疏性问题,具有更好的推荐质量。

Description

一种基于用户聚类和项目关联分析的协同过滤推荐方法
技术领域:
本发明涉及一种协同过滤推荐方法,尤其是一种基于用户聚类和项目关联分析的协 同过滤推荐方法,属于计算机数据挖掘及信息处理技术领域。
技术背景:
随着电子商务的迅速发展,电商平台提供的商品种类和数量急剧增长,商品信息过 载时代来临。面对海量的商品信息,具有明确需求的用户可通过电商平台提供的搜索功能定位想要购买的商品。然而,当用户需求不确定或者具有模糊性,难以通过关键词进 行搜索定位时,如何帮助用户快速的找到感兴趣的商品极为重要。推荐***应运而生, 作为一种有效的信息处理工具,其通过用户的历史行为信息,将用户和商品关联起来, 解决信息过载的问题。目前,推荐***已经成功应用于电子商务、在线音乐、视频网站 以及社交平台等众多领域。据亚马逊统计,在其网站购物的客户中,有明确购买意向的 用户仅占16%,有超过20%~30%的销售来自于推荐***。
推荐算法是推荐***的重要组成部分,是推荐***性能好坏的关键所在。推荐算法 的种类有很多,常用的推荐算法有基于人口统计的推荐算法、基于内容的推荐算法、基于关联规则的推荐算法、协同过滤推荐算法,混合推荐算法等。其中,协同过滤推荐算 法是目前发展最成熟、应用最广泛的个性化推荐技术之一,主要包括基于用户的协同过 滤推荐算法和基于项目的协同过滤推荐算法。然而,这两种协同过滤推荐算法及大多数 以这两种算法为基础的改进算法都存在冷启动、数据稀疏和推荐准确率不高的问题。
发明内容
针对传统协同过滤推荐算法存在的冷启动、数据稀疏及推荐准确率低等问题,公开 了一种基于用户聚类和项目关联分析的协同过滤推荐方法,如图1所示,包括如下步骤:
步骤1,数据预处理,从原始数据中提取用户项目评分数据和项目特征数据并进行数据清洗操作,获得特定格式的数据集,并构建用户项目评分矩阵UIn×m和项目特征隶 属矩阵IFm×k,通常特征数目k的取值远小于项目的数量m;
步骤2,构建用户特征偏好矩阵,利用用户项目评分矩阵和项目类别特征矩阵构建用户特征偏好矩阵UFPn×k,用户对项目特征的偏好矩阵相对于用户项目评分矩阵维度 得到了极大降低,有利于降低推荐算法的时间和空间复杂度;
步骤3,对UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1];
步骤4,通过FCM算法实现用户聚类划分,并将遗传算法与FCM的算法融合,使 FCM算法快速高效收敛,避免陷入局部最优;
步骤5,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目特征偏好的隐性信息;
步骤6,基于用户项目评分矩阵UIn×m,生成事务数据集D;
步骤7,针对事务数据集D,使用基于预判筛选的频繁项集挖掘策略生成频繁项集,并构建频繁项集矩阵FISf×m
步骤8,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系;
步骤9,确定用户u的最近邻用户和项目i的最近邻项目,综合用户相似度和项目相似度进行Top-K推荐。
进一步的,步骤2中还包括:利用用户项目评分矩阵UIn×m和项目特征隶属矩阵 IFm ×k构建用户特征偏好矩阵UFPn×k,用户特征偏好矩阵中元素Rui计算过程如下式(1) 所示:
Figure BDA0002445572430000021
其中,ru=(ru1,ru2,ru3,...,rum)为用户u对项目的评分向量,fi=(f1i,f2i,f3i,...,fmi)为项 目i对应特征的隶属向量,构建过程如附图1所示。
进一步的,步骤3中,对用户特征偏好UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1],映射方法如下式(2)所示:
Figure BDA0002445572430000022
其中xij为用户特征偏好矩阵第i行第j列对应的元素值,表示用户i对项目特征j的偏爱程度, xmin为所有用户对项目特征偏爱程度的最小值,xmax为所有用户对项目特征偏爱程度的最 大值。
进一步的,步骤4中,通过FCM算法实现用户聚类划分,并将遗传算法与FCM 的算法融合,使FCM算法快速高效收敛,避免陷入局部最优,步骤如下:
①参数初始化,初始化相关参数,包括种群大小M,交叉概率Pc,变异概率Pm,最大迭代次数tmax,聚类簇数c、隶属度因子m的值,收敛精度ε;
②编码及种群初始化,根据公式进行编码,并随机产生一个种群X,X中有n个研究对 象作为初始个体,即X=[x1,x2,x3...,xn];
③计算个体适应度fitm,计算方法如下式(3)所示:
Figure BDA0002445572430000031
上式中,cj(j=1,2,3,...,k)为每个聚类的中心,μi,j表示第i个样本对应第j类的隶属度函数;
④对当前种群执行选择、交叉和变异操作,产生新一代个体;
⑤若t=tmax,遗传算法结束,输出最终的数据,并转入步骤7;否则,令t=t+1, 并返回步骤③;
⑥根据全局最优解模糊划分整个数据集,输出聚类中心矩阵,实现用户聚类划分。
进一步的,步骤5中,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目 特征偏好的隐性信息,计算方法如下式(4)所示:
Sim(u,v)=λSim1(u,v)+(1-λ)Sim2(u,v) (4)
其中λ是权重因子,取值范围为(0,1),Sim(u,v)表示用户u和用户v的综合相似度;Sim1(u,v)表示使用原始用户项目评分矩阵得到的相似度,计算方法如下式(5)所示:
Figure BDA0002445572430000032
其中,Iuv表示用户u和用户v共同评分的项目构成的集合;rui是用户u对项目i的评分;
Figure BDA0002445572430000033
表 示用户u所有评分的平均值;Sim2(u,v)表示使用用户对项目特征偏好矩阵得到的相似度, 计算方法如下式(6)所示:
Figure BDA0002445572430000034
其中Fuv表示用户u和用户v共同偏好的特征的集合,Rui是用户u对特征i的偏好程度,Rvi是 用户v对特征i的偏好程度,
Figure BDA0002445572430000041
表示用户u对所有特征偏好程度的平均值,
Figure BDA0002445572430000042
表示用户v对所 有特征偏好程度的平均值。
进一步的,步骤6中,基于用户项目评分矩阵UIn×m,生成事务数据集D,生成方 法为若用户u对项目i进行了评分,即ru,i非空,则将项目i加入用户u对应的事务。
进一步的,步骤7中,针对事务数据集D,使用赵学健等(<电子与信息学报>,2016, 38(7),1654-1659)提出的基于预判筛选的频繁项集挖掘策略生成频繁项集集合 SFI=(FS1,FS2,…,FSt),FS表示频繁项集,t表示频繁项集的个数,并构建频繁项集矩阵 FISt ×m,构建方法如下公式(7)所示:
Figure BDA0002445572430000043
上式中,Fij表示频繁项集矩阵FISf×m中第i行第j列的元素,i∈(0,t),j∈(0,m),频繁项 集矩阵FISt×m示例如下所示
Figure BDA0002445572430000044
进一步的,步骤8中,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系,计算方法如下式(8)所示:
Sim′(i,j)=βSim′1(i,j)+(1-β)Sim′2(i,j) (8)
其中β是权重因子,取值范围为(0,1),Sim′(i,j)表示项目i和项目j的综合相似度;
Sim′1(u,v)表示使用原始用户项目评分矩阵得到的项目相似度,计算方法如下式(9)所示:
Figure BDA0002445572430000045
其中,Uij表示评价项目i和项目j的用户集合;rui是用户u对项目i的评分;
Figure BDA0002445572430000051
表示对项目i的 平均评分;Sim′2(u,v)表示基于频繁项集矩阵得到的项目相似度,计算方法如下式(10) 所示:
Figure BDA0002445572430000052
其中t表示频繁项集的数目,Fsi表示第s个频繁项集中是否包括项目i。
进一步的,步骤9中,确定用户u的最近邻用户和项目i的最近邻项目,计算用户u对所有未评分项目的预测评分并进行Top-K推荐,用户u对未评分项目i预测评分计算方法 如下:
①对根据公式(4)计算得到的用户相似度进行排序得到用户u的最近邻居集合Nu,对 根据公式(8)计算得到的用户相似度进行排序得到项目i的最近邻居集合Ni
②计算用户u对未评分项目i的预测评分
Figure BDA0002445572430000053
计算公式如下式(11)所示:
Figure BDA0002445572430000054
上式中,ω为权重系数,Nu为用户u的最近邻居集合,Ni为项目i的最近邻居集合,
Figure BDA0002445572430000055
Figure BDA0002445572430000056
分 别表示用户u和用户p的平均评分,
Figure BDA0002445572430000057
Figure BDA0002445572430000058
分别表示项目i和项目q获得的平均评分,Sim(u,p) 表示用户u和用户v的相似度,Sim′(i,q)表示项目i和项目q的相似度。根据(11)式计算用 户u对所有未评分项目的预测评分,并进行降序排列,选择预测评分最高的K个项目进行 Top-K推荐。
有益效果:
本发明利用用户特征偏好矩阵和用户评分矩阵计算用户之间的相似度,利用频繁项 集矩阵和用户评分矩阵计算项目之间的相似度,并综合用户相似度和项目相似度计算用 户对未评分项目的预测评分,实现Top-K推荐。该方法相比于传统的基于用户的协同 过滤推荐算法和基于项目的协同过滤推荐算法能够有效避免冷启动问题和数据稀疏性 问题,具有更好的推荐质量。
附图说明
图1为本发明中用户特征偏好矩阵构建示意图。
图2为本发明流程图。
具体实施方式
本实施例提供了一种基于用户聚类和项目关联分析的协同过滤推荐方法,包括如下 步骤:
步骤1,数据预处理,从原始数据中提取用户项目评分数据和项目特征数据并进行数据清洗操作,获得特定格式的数据集,并构建用户项目评分矩阵UIn×m和项目特征隶 属矩阵IFm×k,通常特征数目k的取值远小于项目的数量m;
步骤2,构建用户特征偏好矩阵,利用用户项目评分矩阵和项目类别特征矩阵构建用户特征偏好矩阵UFPn×k,用户对项目特征的偏好矩阵相对于用户项目评分矩阵维度 得到了极大降低,有利于降低推荐算法的时间和空间复杂度;
步骤3,对UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1];
步骤4,通过FCM算法实现用户聚类划分,并将遗传算法与FCM的算法融合,使 FCM算法快速高效收敛,避免陷入局部最优;
步骤5,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目特征偏好的隐性信息;
步骤6,基于用户项目评分矩阵UIn×m,生成事务数据集D;
步骤7,针对事务数据集D,使用基于预判筛选的频繁项集挖掘策略生成频繁项集,并构建频繁项集矩阵FISf×m
步骤8,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系;
步骤9,确定用户u的最近邻用户和项目i的最近邻项目,综合用户相似度和项目相似度进行Top-K推荐。
进一步的,步骤2中还包括:利用用户项目评分矩阵UIn×m和项目特征隶属矩阵 IFm ×k构建用户特征偏好矩阵UFPn×k,用户特征偏好矩阵中元素Rui计算过程如下式(1) 所示:
Figure BDA0002445572430000073
其中,ru=(ru1,ru2,ru3,...,rum)为用户u对项目的评分向量,fi=(f1i,f2i,f3i,...,fmi)为项 目i对应特征的隶属向量,构建过程如附图1所示。
进一步的,步骤3中,对用户特征偏好UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1],映射方法如下式(2)所示:
Figure BDA0002445572430000071
其中xij为用户特征偏好矩阵第i行第j列对应的元素值,表示用户i对项目特征j的偏爱程度, xmin为所有用户对项目特征偏爱程度的最小值,xmax为所有用户对项目特征偏爱程度的最 大值。
进一步的,步骤4中,通过FCM算法实现用户聚类划分,并将遗传算法与FCM 的算法融合,使FCM算法快速高效收敛,避免陷入局部最优,步骤如下:
①参数初始化,初始化相关参数,包括种群大小M,交叉概率Pc,变异概率Pm,最大迭代次数tmax,聚类簇数c、隶属度因子m的值,收敛精度ε;
②编码及种群初始化,根据公式进行编码,并随机产生一个种群X,X中有n个研究对 象作为初始个体,即X=[x1,x2,x3...,xn];
③计算个体适应度fitm,计算方法如下式(3)所示:
Figure BDA0002445572430000072
上式中,cj(j=1,2,3,...,k)为每个聚类的中心,μi,j表示第i个样本对应第j类的隶属度函数;
④对当前种群执行选择、交叉和变异操作,产生新一代个体;
⑤若t=tmax,遗传算法结束,输出最终的数据,并转入步骤7;否则,令t=t+1, 并返回步骤③;
⑥根据全局最优解模糊划分整个数据集,输出聚类中心矩阵,实现用户聚类划分。
进一步的,步骤5中,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目 特征偏好的隐性信息,计算方法如下式(4)所示:
Sim(u,v)=λSim1(u,v)+(1-λ)Sim2(u,v) (4)
其中λ是权重因子,取值范围为(0,1),Sim(u,v)表示用户u和用户v的综合相似度;Sim1(u,v)表示使用原始用户项目评分矩阵得到的相似度,计算方法如下式(5)所示:
Figure BDA0002445572430000081
其中,Iuv表示用户u和用户v共同评分的项目构成的集合;rui是用户u对项目i的评分;
Figure BDA0002445572430000082
表 示用户u所有评分的平均值;Sim2(u,v)表示使用用户对项目特征偏好矩阵得到的相似度, 计算方法如下式(6)所示:
Figure BDA0002445572430000083
其中Fuv表示用户u和用户v共同偏好的特征的集合,Rui是用户u对特征i的偏好程度,Rvi是 用户v对特征i的偏好程度,
Figure BDA0002445572430000084
表示用户u对所有特征偏好程度的平均值,
Figure BDA0002445572430000085
表示用户v对所 有特征偏好程度的平均值。
进一步的,步骤6中,基于用户项目评分矩阵UIn×m,生成事务数据集D,生成方 法为若用户u对项目i进行了评分,即ru,i非空,则将项目i加入用户u对应的事务,事务数据 集D如表1所示。
Figure BDA0002445572430000086
表1
进一步的,步骤7中,针对事务数据集D,使用赵学健等(<电子与信息学报>,2016, 38(7),1654-1659)提出的基于预判筛选的频繁项集挖掘策略生成频繁项集集合 SFI=(FS1,FS2,…,FSt),FS表示频繁项集,t表示频繁项集的个数,并构建频繁项集矩阵 FISt ×m,构建方法如下公式(7)所示:
Figure BDA0002445572430000091
上式中,Fij表示频繁项集矩阵FISf×m中第i行第j列的元素,i∈(0,t),j∈(0,m),频繁项 集矩阵FISt×m示例如下所示
Figure BDA0002445572430000092
进一步的,步骤8中,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系,计算方法如下式(8)所示:
Sim′(i,j)=βSim′1(i,j)+(1-β)Sim′2(i,j) (8)
其中β是权重因子,取值范围为(0,1),Sim′(i,j)表示项目i和项目j的综合相似度;
Sim′1(u,v)表示使用原始用户项目评分矩阵得到的项目相似度,计算方法如下式(9)所示:
Figure BDA0002445572430000093
其中,Uij表示评价项目i和项目j的用户集合;rui是用户u对项目i的评分;
Figure BDA0002445572430000094
表示对项目i的 平均评分;Sim′2(u,v)表示基于频繁项集矩阵得到的项目相似度,计算方法如下式(10) 所示:
Figure BDA0002445572430000095
其中t表示频繁项集的数目,Fsi表示第s个频繁项集中是否包括项目i。
进一步的,步骤9中,确定用户u的最近邻用户和项目i的最近邻项目,计算用户u对所有未评分项目的预测评分并进行Top-K推荐,用户u对未评分项目i预测评分计算方法 如下:
①对根据公式(4)计算得到的用户相似度进行排序得到用户u的最近邻居集合Nu,对 根据公式(8)计算得到的用户相似度进行排序得到项目i的最近邻居集合Ni;
②计算用户u对未评分项目i的预测评分
Figure BDA0002445572430000101
计算公式如下式(11)所示:
Figure BDA0002445572430000102
上式中,ω为权重系数,Nu为用户u的最近邻居集合,Ni为项目i的最近邻居集合,
Figure BDA0002445572430000103
Figure BDA0002445572430000104
分 别表示用户u和用户p的平均评分,
Figure BDA0002445572430000105
Figure BDA0002445572430000106
分别表示项目i和项目q获得的平均评分,Sim(u,p) 表示用户u和用户v的相似度,Sim′(i,q)表示项目i和项目q的相似度。根据(11)式计算用 户u对所有未评分项目的预测评分,并进行降序排列,选择预测评分最高的K个项目进行 Top-K推荐。

Claims (9)

1.一种基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:
包括如下步骤:
步骤1,数据预处理,从原始数据中提取用户项目评分数据和项目特征数据并进行数据清洗操作,构建用户项目评分矩阵UIn×m和项目特征隶属矩阵IFm×k
步骤2,构建用户特征偏好矩阵,利用用户项目评分矩阵和项目类别特征矩阵构建用户特征偏好矩阵UFPn×k
步骤3,对UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1];
步骤4,通过FCM算法实现用户聚类划分,并将遗传算法与FCM的算法融合;
步骤5,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目特征偏好的隐性信息;
步骤6,基于用户项目评分矩阵UIn×m,生成事务数据集D;
步骤7,针对事务数据集D,使用基于预判筛选的频繁项集挖掘策略生成频繁项集,并构建频繁项集矩阵FISf×m
步骤8,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系;
步骤9,确定用户u的最近邻用户和项目i的最近邻项目,综合用户相似度和项目相似度进行Top-K推荐。
2.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤2中还包括:利用用户项目评分矩阵UIn×m和项目特征隶属矩阵IFm×k构建用户特征偏好矩阵UFPn×k,用户特征偏好矩阵中元素Rui计算过程如下式(1)所示:
Figure FDA0002445572420000011
其中,ru=(ru1,ru2,ru3,...,rum)为用户u对项目的评分向量,fi=(f1i,f2i,f3i,...,fmi)为项目i对应特征的隶属向量。
3.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤3中,对用户特征偏好UFP矩阵进行min-max归一化处理,将矩阵各元素数值映射到区间[0,1],映射方法如下式(2)所示:
Figure FDA0002445572420000021
其中xij为用户特征偏好矩阵第i行第j列对应的元素值,表示用户i对项目特征j的偏爱程度,xmin为所有用户对项目特征偏爱程度的最小值,xmax为所有用户对项目特征偏爱程度的最大值。
4.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤4中,通过FCM算法实现用户聚类划分,并将遗传算法与FCM的算法融合,其步骤如下:
①参数初始化,初始化相关参数,包括种群大小M,交叉概率Pc,变异概率Pm,最大迭代次数tmax,聚类簇数c、隶属度因子m的值,收敛精度ε;
②编码及种群初始化,根据公式进行编码,并随机产生一个种群X,X中有n个研究对象作为初始个体,即X=[x1,x2,x3...,xn];
③计算个体适应度fitm,计算方法如下式(3)所示:
Figure FDA0002445572420000022
上式中,cj(j=1,2,3,...,k)为每个聚类的中心,μi,j表示第i个样本对应第j类的隶属度函数;
④对当前种群执行选择、交叉和变异操作,产生新一代个体;
⑤若t=tmax,遗传算法结束,输出最终的数据,并转入步骤7;否则,令t=t+1,并返回步骤③;
⑥根据全局最优解模糊划分整个数据集,输出聚类中心矩阵,实现用户聚类划分。
5.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤5中,综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度,使用户相似度既能包含原始用户项目评分矩阵的显性信息,又能体现到用户对项目特征偏好的隐性信息,计算方法如下式(4)所示:
Sim(u,v)=λSim1(u,v)+(1-λ)Sim2(u,v) (4)
其中λ是权重因子,取值范围为(0,1),Sim(u,v)表示用户u和用户v的综合相似度;Sim1(u,v)表示使用原始用户项目评分矩阵得到的相似度,计算方法如下式(5)所示:
Figure FDA0002445572420000031
其中,Iuv表示用户u和用户v共同评分的项目构成的集合;rui是用户u对项目i的评分;
Figure FDA0002445572420000037
表示用户u所有评分的平均值;Sim2(u,v)表示使用用户对项目特征偏好矩阵得到的相似度,计算方法如下式(6)所示:
Figure FDA0002445572420000032
其中Fuv表示用户u和用户v共同偏好的特征的集合,Rui是用户u对特征i的偏好程度,Rvi是用户v对特征i的偏好程度,
Figure FDA0002445572420000033
表示用户u对所有特征偏好程度的平均值,
Figure FDA0002445572420000034
表示用户v对所有特征偏好程度的平均值。
6.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤6中,基于用户项目评分矩阵UIn×m,生成事务数据集D,生成方法为若用户u对项目i进行了评分,即ru,i非空,则将项目i加入用户u对应的事务。
7.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤7中,针对事务数据集D,使用基于预判筛选的频繁项集挖掘策略生成频繁项集集合SFI=(FS1,FS2,…,FSt),FS表示频繁项集,t表示频繁项集的个数,并构建频繁项集矩阵FISt×m,构建方法如下公式(7)所示:
Figure FDA0002445572420000035
上式中,Fij表示频繁项集矩阵FISf×m中第i行第j列的元素,i∈(0,t),j∈(0,m),频繁项集矩阵FISt×m如下所示:
Figure FDA0002445572420000036
8.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:步骤8中,综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度,使项目相似度既能包含原始用户对项目的显示评分信息,又能体现项目间的内在联系,计算方法如下式(8)所示:
Sim′(i,j)=βSim′1(i,j)+(1-β)Sim′2(i,j) (8)
其中β是权重因子,取值范围为(0,1),Sim′(i,j)表示项目i和项目j的综合相似度;Sim′1(u,v)表示使用原始用户项目评分矩阵得到的项目相似度,计算方法如下式(9)所示:
Figure FDA0002445572420000041
其中,Uij表示评价项目i和项目j的用户集合;rui是用户u对项目i的评分;
Figure FDA0002445572420000042
表示对项目i的平均评分;Sim′2(u,v)表示基于频繁项集矩阵得到的项目相似度,计算方法如下式(10)所示:
Figure FDA0002445572420000043
其中t表示频繁项集的数目,Fsi表示第s个频繁项集中是否包括项目i。
9.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法,其特征在于:所述步骤9中,确定用户u的最近邻用户和项目i的最近邻项目,计算用户u对所有未评分项目的预测评分并进行Top-K推荐,用户u对未评分项目i预测评分计算方法如下:
①对根据公式(4)计算得到的用户相似度进行排序得到用户u的最近邻居集合Nu,对根据公式(8)计算得到的用户相似度进行排序得到项目i的最近邻居集合Ni
②计算用户u对未评分项目i的预测评分
Figure FDA0002445572420000044
计算公式如下式(11)所示:
Figure FDA0002445572420000045
上式中,ω为权重系数,Nu为用户u的最近邻居集合,Ni为项目i的最近邻居集合,
Figure FDA0002445572420000046
Figure FDA0002445572420000047
分别表示用户u和用户p的平均评分,
Figure FDA0002445572420000051
Figure FDA0002445572420000052
分别表示项目i和项目q获得的平均评分,Sim(u,p)表示用户u和用户v的相似度,Sim′(i,q)表示项目i和项目q的相似度,根据(11)式计算用户u对所有未评分项目的预测评分,并进行降序排列,选择预测评分最高的K个项目进行Top-K推荐。
CN202010278287.XA 2020-04-10 2020-04-10 一种基于用户聚类和项目关联分析的协同过滤推荐方法 Withdrawn CN112100512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010278287.XA CN112100512A (zh) 2020-04-10 2020-04-10 一种基于用户聚类和项目关联分析的协同过滤推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010278287.XA CN112100512A (zh) 2020-04-10 2020-04-10 一种基于用户聚类和项目关联分析的协同过滤推荐方法

Publications (1)

Publication Number Publication Date
CN112100512A true CN112100512A (zh) 2020-12-18

Family

ID=73749592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010278287.XA Withdrawn CN112100512A (zh) 2020-04-10 2020-04-10 一种基于用户聚类和项目关联分析的协同过滤推荐方法

Country Status (1)

Country Link
CN (1) CN112100512A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052392A (zh) * 2020-09-10 2020-12-08 江苏电力信息技术有限公司 一种基于lfm模型的线上服务推荐方法
CN113076478A (zh) * 2021-04-14 2021-07-06 同济大学 一种基于混合推荐算法的技术资源及服务推荐***
CN113094542A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种针对用户隐式反馈数据的集合排序音乐推荐方法
CN113221003A (zh) * 2021-05-20 2021-08-06 北京建筑大学 一种基于对偶理论的混合过滤推荐方法及***
CN113704608A (zh) * 2021-08-26 2021-11-26 武汉卓尔数字传媒科技有限公司 个性化项目推荐方法、装置、电子设备及存储介质
CN114638443A (zh) * 2022-05-19 2022-06-17 安徽数智建造研究院有限公司 一种基于改进遗传算法的施工设备智能选型及调配方法
CN115713432A (zh) * 2022-09-21 2023-02-24 湖南科技大学 一种工业互联网环境下面向生产要素的服务推荐方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052392A (zh) * 2020-09-10 2020-12-08 江苏电力信息技术有限公司 一种基于lfm模型的线上服务推荐方法
CN113094542A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种针对用户隐式反馈数据的集合排序音乐推荐方法
CN113094542B (zh) * 2021-03-24 2023-08-15 西安交通大学 一种针对用户隐式反馈数据的集合排序音乐推荐方法
CN113076478A (zh) * 2021-04-14 2021-07-06 同济大学 一种基于混合推荐算法的技术资源及服务推荐***
CN113221003A (zh) * 2021-05-20 2021-08-06 北京建筑大学 一种基于对偶理论的混合过滤推荐方法及***
CN113704608A (zh) * 2021-08-26 2021-11-26 武汉卓尔数字传媒科技有限公司 个性化项目推荐方法、装置、电子设备及存储介质
CN114638443A (zh) * 2022-05-19 2022-06-17 安徽数智建造研究院有限公司 一种基于改进遗传算法的施工设备智能选型及调配方法
CN114638443B (zh) * 2022-05-19 2022-08-23 安徽数智建造研究院有限公司 一种基于改进遗传算法的施工设备智能选型及调配方法
CN115713432A (zh) * 2022-09-21 2023-02-24 湖南科技大学 一种工业互联网环境下面向生产要素的服务推荐方法

Similar Documents

Publication Publication Date Title
CN112100512A (zh) 一种基于用户聚类和项目关联分析的协同过滤推荐方法
CN106844787B (zh) 一种为汽车行业寻找目标用户并匹配目标产品的推荐方法
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐***及方法
Basiri et al. Alleviating the cold-start problem of recommender systems using a new hybrid approach
CN109710835B (zh) 一种带有时间权重的异构信息网络推荐方法
Cintia Ganesha Putri et al. Design of an unsupervised machine learning-based movie recommender system
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及***
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN116431931A (zh) 实时增量数据统计分析方法
Li et al. Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS
Fareed et al. A collaborative filtering recommendation framework utilizing social networks
Zheng et al. Graph-convolved factorization machines for personalized recommendation
Alsalama A hybrid recommendation system based on association rules
Agustyaningrum et al. Online shopper intention analysis using conventional machine learning and deep neural network classification algorithm
WO2020095357A1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN111612583A (zh) 一种基于聚类的个性化导购***
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及***
Lu et al. Artificial immune network with feature selection for bank term deposit recommendation
CN114997959A (zh) 一种电子智造产品营销推荐方法
CN114429384A (zh) 基于电商平台的产品智能推荐方法及***
Compiani et al. Demand estimation with text and image data
CN115114517A (zh) 基于用户属性和项目评分的协同过滤推荐算法
Wang et al. NAUI: Neural attentive user interest model for cross-domain CTR prediction
Srinivasarao et al. Enhanced Movie Recommendation and Sentiment Analysis Model Achieved by Similarity Method through Cosine and Jaccard Similarity algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201218

WW01 Invention patent application withdrawn after publication