CN105426550A - 一种基于用户质量模型的协同过滤标签推荐方法及*** - Google Patents

一种基于用户质量模型的协同过滤标签推荐方法及*** Download PDF

Info

Publication number
CN105426550A
CN105426550A CN201511018787.5A CN201511018787A CN105426550A CN 105426550 A CN105426550 A CN 105426550A CN 201511018787 A CN201511018787 A CN 201511018787A CN 105426550 A CN105426550 A CN 105426550A
Authority
CN
China
Prior art keywords
user
label
model
prof
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511018787.5A
Other languages
English (en)
Other versions
CN105426550B (zh
Inventor
冯研
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201511018787.5A priority Critical patent/CN105426550B/zh
Publication of CN105426550A publication Critical patent/CN105426550A/zh
Application granted granted Critical
Publication of CN105426550B publication Critical patent/CN105426550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户质量模型的协同过滤标签推荐方法及***,所述方法包括:对在现有***中出现的情况对标签体系进行完善;将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;计算***中邻居用户的模型质量;根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法产生最佳推荐;将最佳推荐结果通过WEB服务器返回至用户界面。本发明对传统最佳推荐用户选取过程进行优化,提高了推荐的正确率和召回率,***现标签体系的演进和更新;并根据用户和资源在***中的出现情况,选取合适的标签源,解决了冷启动和标签源单一的问题。

Description

一种基于用户质量模型的协同过滤标签推荐方法及***
技术领域
本发明涉及WEB应用技术领域,尤其涉及一种基于用户质量模型的协同过滤标签推荐方法及***。
背景技术
随着网络技术的深入发展,标签已经成为互联网上的一种标准信息组织方式,在自由分类法中得到了广泛的应用,自由分类法是一种用户对信息自由存取的方法,这种方法使得用户能够用自己的语音以“标签”的形式对信息特征进行标注。利用标签对本文、图片、视频以及音频资源进行信息的分类、组织和检索,实现信息的搜索和共享,是互联网信息环境中一种独具特色的信息组织工具。在过去的近几年,用户建立、分享元数据的标签***已经在internet上得到了探索和应用,例如Flickrtll,Del.icio.us21,Connoteat以及LibraryThingt等网站都被认为是Web2.0技术应用的实例,因为它们利用网络来收集和整理信息,这类***提供了“团体驱动”和“有机”的方法来对网络信息资源分类,便于信息的发现、浏览、以及复用。
传统分类***中的分类词汇往往缺乏流行性和相关性,词汇相对过时,并且专业人士很难通过传统分类词汇搜索获得相关信息和预期结果,且传统分类结构中使用的元数据成本相对高昂,因为元数据的定义和分类需要耗费专业人士大量的时间和精力,而在标签***中,***将繁琐的元数据定义任务交给用户来完成,标签定义是用户对资源的团体行为,因此标签***较之传统的固定层次结构分类***对用户来说紧密性更强、适应性更好,更符合当前流行趋势。标签分类通过标签使得搜寻的重点得到更好的显示和突出,与一般的关键词不同的是,用关键词进行搜索时,只能搜索到内容里包含关键词的文章,但tag包含了文中没有的关键词,使用tag来搜索,可以搜索到包含关键词以外词汇的文章,扩大了搜索的宽度和广度。
虽然标签在实现信息资源的检索和网页导航时体现出卓越的优势,但标签的使用要求人们必须预先定义标签,然而手工标签的定义过程往往费时繁琐,为了将人们从费时繁琐的标签定义工作中解放出来,使自由分类能得到更广泛应用,标签推荐服务的推出迫在眉睫,该服务实现的是给用户推荐一些潜在的可能为用户所感兴趣的标签,让用户从中选择,从而使标签定义更为方便快捷。
标签推荐是一个伴随着网络技术推广应用而出现的新兴领域,但从整体上看存在以下问题:
1.标签陈旧问题。所推荐的标签来源于固定的标签体系,随着时间的推移,数据量的不断增大,必需增加一些原有标签体系中所缺乏的,而又适用于新资源的标签,但固定的标签体系并不能随着时间的推移而演进,势必会造成推荐质量的下降。
2.冷启动问题。用户、标签、资源是标签推荐***的三大要素,推荐时应充分考虑这三大要素在***中的出现情况,但现有标签推荐***大都只从现有的用户模型和资源模型来提取信息,却忽略了***在面对一个新用户、新资源时应该必须解决的数据挖掘问题。
3.标签源的单一性。资源内容、用户历史标签(也称为用户兴趣标签)、资源历史标签是标签推荐的三种最主要的标签来源,而且每种标签源都有自身的优缺点,现有的标签推荐***大都只专注于其中的某一种,没有把多种标签源结合起来。
因此,现有技术还有待于改进和发展。
发明内容
鉴于现有技术的不足,本发明目的在于提供一种基于用户质量模型的协同过滤标签推荐方法及***,旨在解决现有技术中基于协同过滤推荐算法以及现有的大多数标签推荐算法都存在着标签空间陈旧、冷启动以及标签源过于单一等问题。
本发明的技术方案如下:
一种基于用户质量模型的协同过滤标签推荐方法,其中,方法包括:
A、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善;
B、将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;
C、获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;
D、计算***中邻居用户的模型质量;
E、根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法产生最佳推荐;
F、将最佳推荐结果通过WEB服务器返回至用户界面。
所述的基于用户质量模型的协同过滤标签推荐方法,其中,所述步骤A具体包括:
A1、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,...,tn};
A2、判断资源Ri和用户Ui在现有***S中出现的情况;
A3、若或是若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;
A4、若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;
A5、若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息。
所述的基于用户质量模型的协同过滤标签推荐方法,其中,所述步骤B具体包括:
B1、将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;
B2、矩阵中每一行向量VUk=(w(T1);w(T2);...;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T i ) = t f ( T i , U k ) × l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数。
所述的基于用户质量模型的协同过滤标签推荐方法,其中,所述步骤C具体为:获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv)
s i m ( prof u , prof v ) : = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量。
所述的基于用户质量模型的协同过滤标签推荐方法,其中,所述步骤D具体包括:计算***中邻居用户的模型质量Qu(v),
Q u ( v ) = &Sigma; i = 1 | P l ( v ) | | u l , k i | N u &times; avgU s i m , l , k i &times; N k i , l N l &times; w ( l , k i ) | P l ( v ) |
其中:
a v g U s i m , l , k i = 1 | u l , k i | | u l , k j | &Sigma; u s i m x &Element; U l , k i &Sigma; u s i m y &Element; U l , k j s i m ( u s i m x , u s i m y ) w ( l , k i ) = &Sigma; U r e c &Element; U l , k i s i m ( U r e c , v ) &times; kf k i , v , l &times; log ( N N k i ) max k &Element; k r e c , w l , k
上述式子中,ki为用户v的第i个标签,为ki的用户数规范化值,avg为ki的用户平均相似度,为ki的词频,w(l,ki)为ki的特异性值,邻居用户的模型质量为该邻居用户的平均标签质量。
所述的基于用户质量模型的协同过滤标签推荐方法,其中,所述步骤E中的改进的协同过滤推荐算法中的最佳推荐结果记为T(u,r),计算公式为:
N u : = argmax v &Element; U k Q u ( v ) s i m ( prof u , prof v )
T ( u , l ) : = argmax t &Element; N u n &Sigma; v &Element; U Q u ( v ) s i m ( prof u , prof v ) &delta; ( v , l , t )
δ(v,l,t):=1ifδ(v,l,t)∈U×L×T,else0。,
上式中Nu为当前用户u的k个最相近的邻居用户,T(u,r)为算法的最佳推荐结果,sim(profu,profv)为当前用户u和邻居用户v之间的相似度,δ(v,r,t)∈U×R×T表示用户v对资源r存在标签定义关系。
一种基于用户质量模型的协同过滤标签推荐***,其中,***包括:
标签体系完善模块,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善;
用户模型构建模块,用于将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;
相似度计算模块,用于获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;
模型质量计算模块,用于计算***中邻居用户的模型质量;
最佳推荐生成模块,用于根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法生成最佳推荐;
结果反馈模块,用于将最佳推荐结果通过WEB服务器返回至用户界面。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述标签体系完善模块具体包括:
标签体系构成单元,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,...,tn};
判断单元,用于判断资源Ri和用户Ui在现有***S中出现的情况;
第一处理单元,用于若或是若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;
第二处理单元,用于若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;
第三处理单元,用于若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述用户模型构建模块具体包括:
存储单元,用于将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;
用户模型构建单元,用于矩阵中每一行向量VUk=(w(T1);w(T2);…;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T i ) = t f ( T i , U k ) &times; l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述相似度计算模块具体为:获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv),
s i m ( prof u , prof v ) : = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量。
本发明提供了一种基于用户质量模型的协同过滤标签推荐方法及***,本发明中将用户模型质量判定理论应用到传统的协同过滤标签推荐中,对传统算法中的最佳推荐用户选取过程进行优化,进而提高了推荐的正确率和召回率,***可以实现标签体系的演进和更新,解决了标签空间陈旧问题;同时分析各种标签源的优点,并根据用户和资源在***中的出现情况,选取合适的标签源,解决了冷启动和标签源过于单一的问题。
附图说明
图1为本发明的一种基于用户质量模型的协同过滤标签推荐方法的较佳实施例的流程图。
图2为本发明的一种基于用户质量模型的协同过滤标签推荐方法的具体应用实施例的示意图。
图3为本发明的一种基于用户质量模型的协同过滤标签推荐***的较佳实施例的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
传统的基于最近邻居集的协同过滤推荐***已经得到了广泛和成功地运用,用同样的方法来解决标签推荐问题是理所当然的选择,但标签推荐***存在自身的特殊性,因为在标签推荐***中没有评分,取而代之的是标签。
标签***通常由用户、资源和标签三种元素组成,用户可以对***中的资源定义标签,资源的类型由***类型决定,一个标签推荐***可由以下4部分构成:
1.***中所有用户构成的集合U
2.***中所有资源构成的集合R
3.***中所有标签组成的集合T
4.关系函数该关系函数表示用户U对资源定义了标签集合其中
***中输入一个用户u∈U和一个资源r∈R产生带有分值的标签集合T(u,r),推荐集合中评分最高的前n个标签。
与协同过滤算法类似,标签推荐***也将用户信息映射到二维矩阵来存储,映射结果将得到两个用户模型矩阵:一个为K×M大小的用户-资源矩阵记为矩阵X;另一个为K×L大小的用户-标签矩阵,记为Y,其中K=|U|,M:=|R|,L=|T|,在协同过滤标签***中没有评分信息记录,只有用户和资源的关联信息以及用户和标签的关联信息,这些信息以编码的形式记录在二元矩阵X和Y中,其中X∈{0,1}k×m,Y∈{0,1}k×1例如,若X矩阵中的元素Xk,m=1,表示第k个用户与第m个资源有关联,若等于0,则表示无关联。同理,矩阵Y中的元素Yk,l=1时,表示第k个用户和第1个标签有关联,若等于0,则表示无关联。
对于既定用户u和资源r,算法首先找到曾经为资源r定义过标签的用户,然后采用基于用户的协同过滤算法的相似度计算公式分别出计算当前用户与这些用户的相似性,将会得到当前用户的邻居用户集(根据相似度计算采用模型的不同,邻居用户将会有所不同,因为相似度的计算可能基于两种矩阵模型,一种是用户-资源矩阵模型,另一种是用户-标签矩阵模型),然后根据邻居用户与当前用户的相似度对被邻居的标签进行推荐评分,多个邻居用户共享的标签拥有更高的推荐评分。
在用户集为U,标签集为T,资源集为R的标签推荐***中,协同过滤标签荐算法如下:
N u : = argmax v &Element; U k s i m ( prof u , prof v )
T ( u , r ) : = argmax t &Element; T n &Sigma; v &Element; U u s i m ( prof u , prof v ) &delta; ( v , l , t )
δ(v,r,t):=1ifδ(v,r,t)∈U×R×Telse0
上式中Nu为当前用户u的k个最相近的邻居用户,T(u,r)为算法的推荐结果,sim(profu,profv)为当前用户u和邻居用户v之间的相似度,δ(v,r,t)∈U×R×T表示用户v对资源r存在标签定义关系。其中:=运算符表示动态赋值,每一次当式中右侧的参数值发生变化时,左边的值自动覆盖前一次的值。
在标签推荐***中,用户u∈U模型通常用P1(u)=∪r∈RD(u,l)来表示,其中D(u,l)表示用户u对资源l定义的标签集合,用户模型描述的是用户在***中所定义过的标签集合,因此标签的质量直接决定了用户模型的质量。标签是用户根据个人兴趣以及资源内容所定义的关键词,因此一个好的标签应该具有个性化和特异性,不但符合用户的词汇使用习惯,还能高度描述资源并反映用户的兴趣倾向。
用户u对资源l定义了标签ki后,则标签ki的质量可用用户数、用户相似性、词频、标签特异性等参数衡量。
标签ki的用户数为使用ki来定义资源l的用户个数。ki用户数越大,质量也越高。ki用户数可表示为|ul,ki|,ul,ki为使用标签ki来定义资源l的所有用户集合,采用***用户总数Nall对其进行规范化得:
标签ki的用户相似性为使用ki来定义资源l的那些用户的平均相似性。平均用户相似性越大,标签ki的质量高。用户的平均相似性计算公式如下:
a v g U s i m , l , k i = 1 | u l , k i | | u l , k j | &Sigma; u s i m x &Element; U l , k i &Sigma; u s i m y &Element; U l , k j s i m ( u s i m x , u s i m y )
其中表示使用标签ki来定义资源l的所有用户集合,|ul,ki|来表示用户群中的用户数,usimx和usimy示用户群中任意两个不相同的用户,sim(usimx,usimy)表示两用户的用户模型相似性,可通过计算用户模型特征向量余弦夹角获得。
标签ki的词频定义为ki被用来定义资源l的次数占资源l被所有标签定义次数的分比。ki词频越高,它的质量也越高。ki标签的词频可用表示,表示ki标签被用来定义资源l的次数,Nl表示资源l被所有标签定义的总次数。
标签ki的标签特异性是用来衡量ki对资源l的表征程度重要指标,它显示了ki被用于定义不同的资源的广泛程度。特异性越高,标签质量越好。标签特异性可通过TF-IDF算法计算获得:
w l , k i = kf k i , l &times; l o g ( N N k i )
上述式子中表示标签ki被用来定义资源l的频率,N为所有的资源总数,为至少被ki标签定义过的一次资源数。
用户标签整体质量越高,用户模型质量也越高,用户模型质量反映了用户标签定义行为的准确性,可取性,也就是说,一个用户的用户模型质量越高,他定义的标签就更适合用于推荐。
传统的协同过滤标签推荐算法从邻居用户寻求标签推荐,只考虑到邻居用户和当前用户的用户模型相似性,却忽略了邻居户的用户模型质量,推荐质量不高,因此可以采用基于用户模型质量的标签推荐算法。
本发明提供了一种基于用户质量模型的协同过滤标签推荐方法的较佳实施例的流程图,如图1所示,方法包括:
步骤S100、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善。
具体实施时,从标签分类信息数据库中选出训练集,提取训练集中的所有标签构成现成***S的标签体系C{t1,t2,...,tn},并根据资源和用户在现有***中出现的情况分别进行完善。进一步地,检测到用户输入信息,还从标签分类信息数据库中获取测试集,其中测试集为标签分类信息数据库的标签的采样集。当提取训练集中所有标签构成现有***S的标签体系C{t1,t2,...,tn}时,采用测试集对标签体系进行检测,判断当前的标签体系C{t1,t2,...,tn}是否完备,具体的,当测试集中的所有标签都在当前的标签体系中,则判定当前的标签体系C{t1,t2,...,tn}是完备的,若当测试集中的所有标签中有些标签不在当前的标签体系中,则判定当前的标签体系C{t1,t2,...,tn}是不完备的,要将进一步的对现有的标签体系进行完善。具体地,完善标签体系可重新选取训练集,或是将测试集中未出现的标签加入标签体系中。
具体实施时,所述步骤S100具体包括:
步骤S101、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,...,tn};
步骤S102、判断资源Ri和用户Ui在现有***S中出现的情况;
步骤S103、若或是,若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;
步骤S104、若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;
步骤S105、若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息。
具体实施时,分析资源Ri和用户Ui在现有***S中出现的情况,用户Ui和资源Ri可以出现以下4种情形:
(1)完全为冷启动情形,新用户,新资源;
(2)用户在***中出现过,资源没有出现过;
(3)资源在***中出现过,用户没有出现过;
(4)Ui∈SandRi∈S用户和资源都在***中出现过。
针对不同情形的标签完善措施如下:
当出现情形(1)与情形(2)时,提取资源Ri中的前X个权重最高的资源标题关键字{key1,key2,key3}加入***标签体系C中,即C←{key1,key2,key3};
当出现情形(3)时,提取资源Ri中的Y个最流行标签和X个权重最高的资源标题关键字加入***标签体系C中;
当出现情形(4)时,采用历史标签信息。
具体实施时,X可预先设置,优先为3个,Y的值也可预先设置,优先为2个。
步骤S200、将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储。
具体实施时,用户模型通过将***中k个用户的信息映射到二维矩阵来构建,映射结果将到一个用户一标签特征矩阵QT所示,矩阵中的每一行向量VUk=(w(T1);w(T2);…;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重。
所述步骤S200具体包括:
步骤S201、将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;
步骤S202、矩阵中每一行向量VUk=(w(T1);w(T2);…;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T i ) = t f ( T i , U k ) &times; l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数。
步骤S300、获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度。
具体实施时,邻居用户是指与当前用户的相关度较高的用户,比如同在一个地区的用户。标签推荐***中的用户模型是以用户-标签二维矩阵的形式存储的,当前用户与***中其他用户的相似度可以通过计算它们在矩阵中对应的用户模型向量余弦相似值获得。具体地获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv),
s i m ( prof u , prof v ) : = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量。
步骤S400、计算***中邻居用户的模型质量。
具体实施时,由用户模型质量理论得知,用户模型质量受用户使用频度、用户群相似度、标签表征频度、以及标签特异性的影响。计算***中邻居用户的模型质量Qu(v),
Q u ( v ) = &Sigma; i = 1 | P l ( v ) | | u l , k i | N u &times; a v g U s i m , l , k i &times; N k i , l N l &times; w ( l , k i ) | P l ( v ) |
其中:
a v g U s i m , l , k i = 1 | u l , k i | | u l , k j | &Sigma; u s i m x &Element; U l , k i &Sigma; u s i m y &Element; U l , k j s i m ( u s i m x , u s i m y ) w ( l , k i ) = &Sigma; U r e c &Element; U l , k i s i m ( U r e c , v ) &times; kf k i , v , l &times; log ( N N k i ) max k &Element; k r e c , w l , k
上述式子中,ki为用户v的第i个标签,为ki的用户数规范化值,avg为ki的用户平均相似度,为ki的词频,w(l,ki)为ki的特异性值,邻居用户的模型质量为该邻居用户的平均标签质量。
步骤S500、根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法产生最佳推荐。
具体实施时,在标签推荐***中,对于当前用户来说,作为推荐者的邻居用户,他的用户模型质量的高低对推荐效果有重要影响,因此将协同过滤标签推荐算法进行改进,改进的协同过滤推荐算法中的最佳推荐结果记为T(u,r),计算公式为:
N u : = argmax v &Element; U k Q u ( v ) s i m ( prof u , prof v )
T ( u , l ) : = argmax t &Element; N u n &Sigma; v &Element; U Q u ( v ) s i m ( prof u , prof v ) &delta; ( v , l , t )
δ(v,l,t):=1ifδ(v,l,t)∈U×L×T,else0。,
上式中Nu为当前用户u的k个最相近的邻居用户,T(u,r)为算法的最佳推荐结果,sim(profu,profv)为当前用户u和邻居用户v之间的相似度,δ(v,r,t)∈U×R×T表示用户v对资源r存在标签定义关系。
步骤S600、将最佳推荐结果通过WEB服务器返回至用户界面。
具体实施时,将最佳推荐结果通过WEB服务器,返回到用户界面。用户可使用不同的界面,若用户使用的是电视界面,则返回至用户电视界面。
本发明还提供了一种基于用户质量模型的协同过滤标签推荐方法的具体应用实施例的流程图,以用户电视界面为例进行介绍,如图2所示,方法包括:
具体地,所述电视与WEB服务器连接,所述WEB服务器还与所述数据库连接。所述数据库中包括存储有用户历史信息的用户信息库,存储资源信息的资源信息库,存储有标签信息的标签信息库。
用户通过电视的用户电视界面观看电视时,并将用户观看信息发送至WEB服务器,WEB服务器对观看信息进行数据预处理,并从用户信息库获取用户历史信息,根据用户历史信息生成当前用户质量模型,根据当前用户质量模型及资源信息库的资源信息和标签信息库的标签信息生成核心推荐模型,根据核心推荐模型生成推荐结果,并将推荐结果发送至WEB服务器,WEB服务器通过推荐页面将推荐结果返回至用户电视界面供用户查看。
本发明还提供了一种基于用户质量模型的协同过滤标签推荐***的功能原理框图,如图3所示,其中,方法包括:
标签体系完善模块100,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善;具体如上所述。
用户模型构建模块200,用于将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;具体如上所述。
相似度计算模块300,用于获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;具体如上所述。
模型质量计算模块400,用于计算***中邻居用户的模型质量;具体如上所述。
最佳推荐生成模块500,用于根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法生成最佳推荐;具体如上所述。
结果反馈模块600,用于将最佳推荐结果通过WEB服务器返回至用户界面;具体如上所述。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述标签体系完善模块具体包括:
标签体系构成单元,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,...,tn};
判断单元,用于判断资源Ri和用户Ui在现有***S中出现的情况;具体如上所述。
第一处理单元,用于若或是若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;具体如上所述。
第二处理单元,用于若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;具体如上所述。
第三处理单元,用于若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息;具体如上所述。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述用户模型构建模块具体包括:
存储单元,用于将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;具体如上所述。
用户模型构建单元,用于矩阵中每一行向量VUk=(w(T1);w(T2);...;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T i ) = t f ( T i , U k ) &times; l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数;具体如上所述。
所述的基于用户质量模型的协同过滤标签推荐***,其中,所述相似度计算模块具体为:获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv),
s i m ( prof u , prof v ) : = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量;具体如上所述。
综上所述,本发明提供了一种基于用户质量模型的协同过滤标签推荐方法及***,所述方法包括:对在现有***中出现的情况对标签体系进行完善;将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;计算***中邻居用户的模型质量;根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法产生最佳推荐;将最佳推荐结果通过WEB服务器返回至用户界面。本发明对传统算法中的最佳推荐用户选取过程进行优化,提高了推荐的正确率和召回率,***现标签体系的演进和更新;并根据用户和资源在***中的出现情况,选取合适的标签源,解决了冷启动和标签源单一的问题。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于用户质量模型的协同过滤标签推荐方法,其特征在于,方法包括:
A、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善;
B、将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;
C、获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;
D、计算***中邻居用户的模型质量;
E、根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法产生最佳推荐;
F、将最佳推荐结果通过WEB服务器返回至用户界面。
2.根据权利要求1所述的基于用户质量模型的协同过滤标签推荐方法,其特征在于,所述步骤A具体包括:
A1、检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,…,tn};
A2、判断资源Ri和用户Ui在现有***S中出现的情况;
A3、若或是若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;
A4、若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;
A5、若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息。
3.根据权利要求2所述的基于用户质量模型的协同过滤标签推荐方法,其特征在于,所述步骤B具体包括:
B1、将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;
B2、矩阵中每一行向量VUk=(w(T1);w(T2);…;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T 1 ) = t f ( T i , U k ) &times; l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数。
4.根据权利要求3所述的基于用户质量模型的协同过滤标签推荐方法,其特征在于,所述步骤C具体为:获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv)
s i m ( prof u , prof v ) = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量。
5.根据权利要求4所述的基于用户质量模型的协同过滤标签推荐方法,其特征在于,所述步骤D具体包括:计算***中邻居用户的模型质量Qu(v),
Q u ( v ) = &Sigma; i = 1 | P l ( v ) | | u l , k i | N u &times; a v g U s i m , l , k i &times; N k i , l N l &times; w ( l , k i ) | P l ( v ) |
其中:
a v g U s i m , l , k i = 1 | u l , k i | | u l , k j | &Sigma; u s i m x &Element; U l , k i &Sigma; u s i m y &Element; U l , k j s i m ( u s i m x , u s i m y )
w ( l , k i ) = &Sigma; U r e c &Element; U l , k i s i m ( U r e c , v ) &times; kf k i , v , l &times; log ( N N k i ) max k &Element; k r e c , w l , k
上述式子中,ki为用户v的第i个标签,为ki的用户数规范化值,为ki的用户平均相似度,为ki的词频,w(l,ki)为ki的特异性值,邻居用户的模型质量为该邻居用户的平均标签质量。
6.根据权利要求5所述的基于用户质量模型的协同过滤标签推荐方法,其特征在于,所述步骤E中的改进的协同过滤推荐算法中的最佳推荐结果记为T(u,r),计算公式为:
N u = argmax v &Element; U k Q u ( v ) s i m ( prof u , prof v )
T ( u , l ) = argmax t &Element; N u n &Sigma; v &Element; U Q u ( v ) s i m ( prof u , prof v ) &delta; ( v , l , t )
δ(v,l,t)=1ifδ(v,l,t)∈U×L×T,else0,
上式中Nu为当前用户u的k个最相近的邻居用户,T(u,r)为算法的最佳推荐结果,sim(profu,profv)为当前用户u和邻居用户v之间的相似度,δ(v,r,t)∈U×R×T表示用户v对资源r存在标签定义关系。
7.一种基于用户质量模型的协同过滤标签推荐***,其特征在于,***包括:
标签体系完善模块,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中所有标签构成现有***的标签体系,并根据资源和用户在现有***中出现的情况对标签体系进行完善;
用户模型构建模块,用于将***中用户的信息映射到二维矩阵构建用户模型,并以用户-标签二维矩阵形式进行存储;
相似度计算模块,用于获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度;
模型质量计算模块,用于计算***中邻居用户的模型质量;
最佳推荐生成模块,用于根据***中邻居用户的模型质量,根据改进的协同过滤推荐算法生成最佳推荐;
结果反馈模块,用于将最佳推荐结果通过WEB服务器返回至用户界面。
8.根据权利要求7所述的基于用户质量模型的协同过滤标签推荐***,其特征在于,所述标签体系完善模块具体包括:
标签体系构成单元,用于检测到用户输入信息,获取标签分类信息数据库中的训练集,提取训练集中的所有标签构成现有***S的标签体系C{t1,t2,…,tn};
判断单元,用于判断资源Ri和用户Ui在现有***S中出现的情况;
第一处理单元,用于若或是若资源没有在现有***中出现过,则提取资源Ri中的前X个权重最高的资源标题关键字加入***标签体系C中;
第二处理单元,用于若即资源在***中出现过,用户没有出现过,则提取资源Ri中的Y个使用频率最高的标签和X个权重最高的资源标题关键字加入***标签体系C中;
第三处理单元,用于若Ui∈SandRi∈S,即用户和资源都在***中出现过,采用历史标签信息。
9.根据权利要求8所述的基于用户质量模型的协同过滤标签推荐***,其特征在于,所述用户模型构建模块具体包括:
存储单元,用于将***中K个用户的信息映射到二维矩阵构建用户模型,并映射结果以用户-标签特征矩阵进行存储;
用户模型构建单元,用于矩阵中每一行向量VUk=(w(T1);w(T2);…;w(Ti);w(Tn))代表一个用户的用户模型,其中Ti表示第i个与用户Uk相关的资源,w(Ti)表示标签Ti在向量VUk中的权重,
W ( T i ) = t f ( T i , U k ) &times; l o g ( N N T i )
其中tf(Ti,Uk)表示Ti标签被用户Uk使用的次数,N表示***标签总数,表示至少使用过一次Ti标签的用户数。
10.根据权利要求9所述的基于用户质量模型的协同过滤标签推荐***,其特征在于,所述相似度计算模块具体为:获取当前用户的模型向量,计算当前用户与***中邻居用户的相似度sim(profu,profv),
s i m ( prof u , prof v ) : = < prof u , prof v > | | prof u | | | | prof v | |
其中profu和profv分别为当前用户u和邻居用户v的用户模型向量。
CN201511018787.5A 2015-12-28 2015-12-28 一种基于用户质量模型的协同过滤标签推荐方法及*** Active CN105426550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511018787.5A CN105426550B (zh) 2015-12-28 2015-12-28 一种基于用户质量模型的协同过滤标签推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511018787.5A CN105426550B (zh) 2015-12-28 2015-12-28 一种基于用户质量模型的协同过滤标签推荐方法及***

Publications (2)

Publication Number Publication Date
CN105426550A true CN105426550A (zh) 2016-03-23
CN105426550B CN105426550B (zh) 2020-02-07

Family

ID=55504762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511018787.5A Active CN105426550B (zh) 2015-12-28 2015-12-28 一种基于用户质量模型的协同过滤标签推荐方法及***

Country Status (1)

Country Link
CN (1) CN105426550B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679242A (zh) * 2017-10-30 2018-02-09 河海大学 融合多信息源耦合张量分解的标签推荐方法
CN108848152A (zh) * 2018-06-05 2018-11-20 腾讯科技(深圳)有限公司 一种对象推荐的方法及服务器
CN108985854A (zh) * 2018-07-31 2018-12-11 天津大学 一种用户参与的个性化产品概念设计方法
CN109145280A (zh) * 2017-06-15 2019-01-04 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN109582875A (zh) * 2018-12-17 2019-04-05 武汉泰乐奇信息科技有限公司 一种在线医疗教育资源的个性化推荐方法及***
CN109977302A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 用户画像信息获取的方法
CN111797325A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 事件贴标方法、装置、存储介质及电子设备
CN112100489A (zh) * 2020-08-27 2020-12-18 北京百度网讯科技有限公司 对象推荐的方法、装置和计算机存储介质
CN114357292A (zh) * 2021-12-29 2022-04-15 阿里巴巴(中国)有限公司 模型训练方法、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
US20110252044A1 (en) * 2010-04-13 2011-10-13 Konkuk University Industrial Cooperation Corp. Apparatus and method for measuring contents similarity based on feedback information of ranked user and computer readable recording medium storing program thereof
CN102508870A (zh) * 2011-10-10 2012-06-20 南京大学 一种结合评分数据与标签数据的个性化推荐方法
CN102929959A (zh) * 2012-10-10 2013-02-13 杭州东信北邮信息技术有限公司 一种基于用户行为的图书推荐方法
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN104077357A (zh) * 2014-05-31 2014-10-01 浙江工商大学 基于用户的协同过滤组合推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
US20110252044A1 (en) * 2010-04-13 2011-10-13 Konkuk University Industrial Cooperation Corp. Apparatus and method for measuring contents similarity based on feedback information of ranked user and computer readable recording medium storing program thereof
CN102508870A (zh) * 2011-10-10 2012-06-20 南京大学 一种结合评分数据与标签数据的个性化推荐方法
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN102929959A (zh) * 2012-10-10 2013-02-13 杭州东信北邮信息技术有限公司 一种基于用户行为的图书推荐方法
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN104077357A (zh) * 2014-05-31 2014-10-01 浙江工商大学 基于用户的协同过滤组合推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荣辉桂 等: ""基于用户相似度的协同过滤推荐算法"", 《通信学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145280A (zh) * 2017-06-15 2019-01-04 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN107679242A (zh) * 2017-10-30 2018-02-09 河海大学 融合多信息源耦合张量分解的标签推荐方法
CN107679242B (zh) * 2017-10-30 2018-07-27 河海大学 融合多信息源耦合张量分解的标签推荐方法
CN108848152A (zh) * 2018-06-05 2018-11-20 腾讯科技(深圳)有限公司 一种对象推荐的方法及服务器
CN108848152B (zh) * 2018-06-05 2021-09-21 腾讯科技(深圳)有限公司 一种对象推荐的方法及服务器
CN108985854A (zh) * 2018-07-31 2018-12-11 天津大学 一种用户参与的个性化产品概念设计方法
CN109582875B (zh) * 2018-12-17 2021-02-02 武汉泰乐奇信息科技有限公司 一种在线医疗教育资源的个性化推荐方法及***
CN109582875A (zh) * 2018-12-17 2019-04-05 武汉泰乐奇信息科技有限公司 一种在线医疗教育资源的个性化推荐方法及***
CN109977302A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 用户画像信息获取的方法
CN111797325A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 事件贴标方法、装置、存储介质及电子设备
CN112100489A (zh) * 2020-08-27 2020-12-18 北京百度网讯科技有限公司 对象推荐的方法、装置和计算机存储介质
CN114357292A (zh) * 2021-12-29 2022-04-15 阿里巴巴(中国)有限公司 模型训练方法、设备和存储介质
CN114357292B (zh) * 2021-12-29 2023-10-13 杭州溢六发发电子商务有限公司 模型训练方法、设备和存储介质

Also Published As

Publication number Publication date
CN105426550B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及***
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
US9569499B2 (en) Method and apparatus for recommending content on the internet by evaluating users having similar preference tendencies
CN102982042B (zh) 一种个性化内容推荐方法、平台以及***
Lai et al. Novel personal and group-based trust models in collaborative filtering for document recommendation
CN106407420B (zh) 一种多媒体资源的推荐方法及***
CN103455487B (zh) 一种搜索词的提取方法及装置
CN104572797A (zh) 基于主题模型的个性化服务推荐***和方法
JP2013168186A (ja) レビュー処理方法およびシステム
CN102063433A (zh) 相关项推荐方法和装置
CN103106285A (zh) 一种基于信息安全专业社交网络平台的推荐算法
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐***
CN103593425A (zh) 基于偏好的智能检索方法及***
CN104111941A (zh) 信息展示的方法及设备
CN103020049A (zh) 搜索方法及搜索***
CN102262653A (zh) 一种基于用户动机倾向性的标签推荐方法及***
CN105430505A (zh) 一种基于组合策略的iptv节目推荐方法
CN103309869A (zh) 数据对象的展示关键词推荐方法及***
CN106354867A (zh) 多媒体资源的推荐方法及装置
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其***
Aliannejadi et al. User model enrichment for venue recommendation
CN110213660B (zh) 节目的分发方法、***、计算机设备和存储介质
WO2012115254A1 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US20160188595A1 (en) Semantic Network Establishing System and Establishing Method Thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant