CN104794250A - 一种基于自适应主动学习的项目选择方法 - Google Patents

一种基于自适应主动学习的项目选择方法 Download PDF

Info

Publication number
CN104794250A
CN104794250A CN201510255684.4A CN201510255684A CN104794250A CN 104794250 A CN104794250 A CN 104794250A CN 201510255684 A CN201510255684 A CN 201510255684A CN 104794250 A CN104794250 A CN 104794250A
Authority
CN
China
Prior art keywords
mrow
item
msub
score
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510255684.4A
Other languages
English (en)
Other versions
CN104794250B (zh
Inventor
吴健
李承超
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Feiyu Mutual Entertainment Information Technology Co Ltd
Original Assignee
SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd filed Critical SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510255684.4A priority Critical patent/CN104794250B/zh
Publication of CN104794250A publication Critical patent/CN104794250A/zh
Application granted granted Critical
Publication of CN104794250B publication Critical patent/CN104794250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自适应主动学习的项目选择方法,包括:计算候选项目的不确定性;计算候选项目的代表性;根据所述不确定性和代表性,自适应地动态选择信息含量最高的项目。本发明能够综合考虑项目的不确定性和代表性挑选出信息含量最高的项目。

Description

一种基于自适应主动学习的项目选择方法
技术领域
本发明涉及推荐***技术领域,尤其涉及一种基于自适应主动学习的项目选择方法。
背景技术
在协同过滤推荐***中,解决用户冷启动问题的关键在于如何快速建立新用户的兴趣偏好模型。在用户初始使用***时,基于主动学习评分引导的方法主动挑选一些项目让用户评价可以有效获得用户的个性化偏好信息。挑选项目给用户评分出于两点考虑:(1)用户对项目评分可以获得用户更多的评分数据,评分信息越多,推荐***越有效;(2)并非所有评分信息都是等效的,有些评分能够代表用户的个性化信息,有些则不能,因此不同的主动学习评分引导方法会带来不同的效果。比如一直挑选热门项目给用户评价,虽然能获得更多的用户评分数据,但是对于***获得用户的个性化偏好信息帮助不大,因为大多数用户都喜欢热门项目。因此,如何设计一个有效的主动学习项目选择策略,能尽可能少的选择信息含量较高的项目评分数据来更好地表示用户的偏好信息是非常关键的问题,也是目前亟待解决的问题。
发明内容
本发明提供了一种基于自适应主动学习的项目选择方法,能够综合考虑项目的不确定性和代表性挑选出信息含量最高的项目。
本发明提供了一种基于自适应主动学习的项目选择方法,包括:
计算候选项目的不确定性;
计算候选项目的代表性;
根据所述不确定性和代表性选择信息含量最高的项目。
优选地,所述计算候选项目的不确定性为:
依据公式计算出候选项目的不确定性,其中:Rcx表示用户c对项目x的评分,表示用户的平均评分,Ux(sim)表示和当前新用户相似且对项目x有评分行为的用户集合。
优选地,所述计算候选项目的代表性包括:
在训练集Tc上根据预测模型θ计算得到c对x的预测评分并估计c为x评分为r的概率p(U=c,Rcx=r),并将r当作ycx(θ)变化值,其中,
更新评分训练集合Tc,将预测评分变化值添加到c的已评分项目集合列表中,得到新的评分训练集Tc,r=Tc∪(x,r);
在评分训练集Tc和Tc,r上,根据预测模型θ,预测c对未评分项目集合中的其它未评分项目xi的评分值,分别得到对应训练集上的预测评分为
在评分为r的概率p(U=c,Rcx=r)下,估计当前候选项目x的评分变化对其它项目预测评分的影响,用差值的平方表示评分变化,依据公式 rep ( x ) = Σ x i ∈ X c ( u \ x ) Σ r ∈ R ( p ( U = c , R = r ) ( y cx i T c ( θ ) - y cx i T c , r ( θ ) ) 2 ) 计算出当前候选项目x的代表性rep(x),其中:c表示当前新用户,x代表当前候选项目,代表c的未评分项目集合,表示c的已评分项目集合,表示去掉x后c的剩余未评分项目集合,即 X c ( u \ x ) = X c ( u ) \ { x } , 中的每个项目用xi表示, T c ( T c = ∪ x ∈ X c ( r ) ( x , R cx ) ) 是c对应的训练数据集,Rcx表示c对x的评分。
优选地,所述根据所述不确定性和代表性选择信息含量最高的项目为:
依据公式计算得出信息含量高的项目,其中:uncertainty(x)为不确定性,rep(x)为代表性,c表示当前新用户,x代表当前候选项目,代表c的未评分项目集合。
优选地,所述计算候选项目的代表性后还包括:
预先指定权值集合W,W={w1,w2,…,wn-1,wn},其大小|W|=n;
设置候选项目集合I为空,
针对当前权值wi,wi∈W,选择前L个候选项目,构成项目集合Ii
更新候选项目集合I=I∪Ii
在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc
计算每个项目对应的预测评分偏差ε(x);
从候选项目集合I中选择最具信息含量的项目x*
优选地,所述针对当前权值wi,wi∈W,选择前L个候选项目为:
根据所述不确定性uncertainty(x)和代表性rep(x),依据公式info(x)=uncertainty(x)w×rep(x)(1-w)计算出组合后项目的信息含量info(x);
依据公式计算出最具信息含量的项目x*,选择前L个候选项目。
优选地,所述在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc为:
依据公式更新训练集Tc
优选地,所述计算每个项目对应的预测评分偏差ε(x)为:
根据更新后的Tc训练得到新的预测模型基于预测c对已评分项目训练集合中项目t(t∈Tc)的评分根据公式估计真实评分与预测评分的偏差ε(x),其中:表示更新后的协同过滤模型预测的c对项目t的评分。
优选地,所述从候选项目集合I中选择最具信息含量的项目x*为:
依据公式选择最具信息含量的项目x*
由上述方案可知,本发明提供的一种基于自适应主动学习的项目选择方法,通过对候选项目不确定性和代表性的计算,综合考虑了项目的不确定性和代表性,在挑选信息含量最高的项目给用户评分时,克服了基于不确定性项目选择策略的不足,能够挑选出信息含量最高的项目。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于自适应主动学习的项目选择方法的流程图;
图2为本发明另一实施例公开的一种基于自适应主动学习的项目选择方法的流程图;
图3为不确定项目示意图;
图4为不确定性采样缺陷示意图;
图5为代表性项目选择示意图;
图6为项目xi评分变化影响示意图;
图7为项目xj评分变化影响示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例公开的一种基于自适应主动学习的项目选择方法,包括:
S101、计算候选项目的不确定性;
在主动学习分类领域中,基于不确定采样的主要原理就是每次从未标注数据集中挑选数据样本时,要求被选取或被构造的未标注样本相当于当前的学习模型是最不确定的。在协同过滤推荐***中,不确定的项目就是指***不能判断用户对其喜好态度的项目。如果根据用户的评分历史以及其他用户的评分信息,***能够准确预测用户喜欢(或不喜欢)此项目,则说明此项目是确定的,否则就是不确定的项目。由于用户对项目的评分信息可以表示用户的偏好,所以大多数研究用评分信息来度量项目的不确定性。用户对项目的评分越不一致,称此类项目的不确定性越高。如图3所示,在3个用户(User1,User2,User3)对3个项目(Item1,Item2,Item3)的评分矩阵中,3个用户对项目Item1的评分值最不一致,所以项目Item1的不确定性高于项目Item2和Item3。
项目的不确定性越高,说明已评分用户对此类项目的争议越大,推荐***肯定不能确定待推荐用户对此类项目的兴趣。选择不确定性高的项目给待推荐用户评分,能从用户身上获得对此类项目的特定评分,从而更好地了解用户的偏好信息。对于项目x,其不确定性uncertainty(x)计算公式如下:
uncertainty ( x ) = variance ( x ) = Σ c ∈ U x ( R cx - R → x ) 2 | U x |
其中,Ux代表对项目x有评分的用户集合,|Ux|表示用户个数,Rcx表示用户c对项目x的评分,表示用户的平均评分。
在计算当前候选项目的方差时,现有的方法都是基于***中所有用户的评分数据来计算的。对于一个项目,若根据***中所有用户的评分计算,其方差较低,而在待推荐新用户的相似用户中计算其方差很高,对于此类项目,根据现有***全局用户度量方差的方法,肯定不会选择此项目给用户。由协同过滤的基本原理可知,其相似用户对此项目不确定,那么经过评分预测计算后,此项目的不确定性依然很高。为了解决这个问题,在计算方差时,只根据待推荐用户的相似用户的评分分布信息来计算项目的方差。改进后的计算项目不确定性度量方法公式如下:
uncertainty ( x ) = Σ c ∈ U x ( sim ) ( R cx - R x → ) 2 | U x ( sim ) |
其中,Ux(sim)表示和当前新用户相似且对项目x有评分行为的用户集合。
S102、计算候选项目的代表性;
在主动学习分类问题中,不确定性仅仅体现了候选未标注样本对当前分类器的影响,没有考虑其在大量未标注样本集中的信息含量。在很多情况下,最不确定的样本可能是独立点或噪声点。如图4所示,三角形和菱形代表已标注样本集中的样本,剩余圆圈代表未标注样本集中的样本。由于xA离分类边界线最近,其对分类器的影响最大,使用不确定性采样方法,必然选择xA样本交由人类专家标注,由于xA是孤立点,很有可能导致分类边界线错移,如图中分类器的分类边界线由原先的实线位置变化为虚线的位置,这样可能导致分类该类别的剩余样本时大量出错。实际上,样本xB具有更高的信息含量,因其更能代表样本的整体分布,应挑选xB人工标注。为了解决上述孤立点或噪声点问题,需要考虑当前样本在未标注样本集中的代表性。
在协同过滤推荐中,不确定项目的选择也存在着类似的问题,因为基于不确定性标准选择的不确定项目仅仅降低了当前项目的不确定性,通过用户对其评分仅仅能够了解用户对当前所选项目的偏好,不能了解用户对其他项目的偏好,即不确定性缩减方法没有考虑当前所选项目与大量未评分项目的关系,不能从全局降低其它项目的不确定性。图5给出了一个图示解释。图中实心圆圈表示已评分项目,空心圆圈表示未评分项目,用户对图中距离较近、同一类别集合中的项目具有相似的评分行为。当同类别中的一个项目被评分后,会降低同类别中其它项目的不确定性。对于***中的两个项目a和d,如果已评分用户对项目d的评分更不一致,d的不确定性大于a,即uncertainty(d)>uncertainty(a),不确定性缩减策略会选择项目d给用户评分,但是明显项目a在剩余未评分项目中的代表性更高,选择该项目给用户评分能够获得用户对大量剩余未评分项目的偏好,所以选择项目a,***能给用户展示更好的推荐结果。
基于以上分析,为考虑所选项目在其他未评分项目集合中的影响,并克服最不确定项目可能为边界点的问题,还需要衡量所选项目的代表性。
由协同过滤推荐算法的基本原理可知,当***获得待推荐新用户对一个候选项目的评分时,此评分会影响对其它未评分项目的评分预测,用这种影响来衡量候选项目的代表性,这种代表性度量方法考虑到了新用户已有的偏好信息。候选项目的评分对其他未评分项目的评分值变化影响越大,则说明当前项目的代表性越高。图6与图7分别给出了候选项目xi与xj的评分值变化后对其他未评分项目的影响的示意图,从图示中可以看出,候选项目xi的评分值变化后对其他未评分项目的评分变化影响更大,因此认为项目xi的代表性高于项目xj的代表性,即rep(xi)>rep(xj)。
推荐***中,一般用户给出的项目评分都是有限的几个评分值,如0、1表示不喜欢、喜欢,或者电影推荐场景中常用的5个值(1-5)的评分。把用户能够提供的评分值记为r,对应可能的评分值集合记为R,r∈R。类似于期望错误率缩减策略中考虑未标注样本的所有可能类别,考虑用户可能给出的所有评分值。根据用户的已有评分,利用协同过滤方法计算用户的预测评分并统计用户已评分集合R的概率分布,将预测评分看作用户对候选项目的真实评分,每个r值为预测评分的改变值。在不同概率下估计评分变化对其他未评分项目的评分值变化的影响,目标是找出对其它项目评分影响较大的项目,即代表性较高的项目。基于以上分析,可以得到基于评分变化影响度量项目代表性的方法。详细描述如下:
首先,给出如下符号说明:c表示当前新用户,x代表当前候选项目,代表c的未评分项目集合,表示c的已评分项目集合,表示去掉x后c的剩余未评分项目集合,即 中的每个项目用xi表示,是c对应的训练数据集,Rcx表示c对x的评分。
在训练集Tc上根据预测模型θ计算得到c对x的预测评分并估计c为x评分为r的概率p(U=c,Rcx=r),并将r当作ycx(θ)变化值,变化值公式如下所示:
y ^ cx ( θ ) = r
更新评分训练集合Tc,将预测评分变化值添加到c的已评分项目集合列表中,得到新的评分训练集,公式如下所示:
Tc,r=Tc∪(x,r)
在评分训练集Tc和Tc,r上,根据预测模型θ,预测c对未评分项目集合中的其它未评分项目xi的评分值,分别得到对应训练集上的预测评分为在评分为r的概率p(U=c,Rcx=r)下,估计当前候选项目x的评分变化对其它项目预测评分的影响,用差值的平方表示评分变化。可知,当前候选项目x的代表性rep(x)度量方法公式如下所示:
rep ( x ) = Σ x i ∈ X c ( u \ x ) Σ r ∈ R ( p ( U = c , R = r ) ( y cx i T c ( θ ) - y cx i T c , r ( θ ) ) 2 ) .
S103、根据所述不确定性和代表性选择信息含量最高的项目。
基于以上评分变化影响的代表性度量方法,既考虑到了项目的代表性又充分利用了每个用户的已有评分信息。在未评分项目集合中考虑项目的代表性可以克服不确定项目选择过程中可能选择到离群点或者孤立点的问题,导致挑选出给用户评分的项目不具有代表性,从而无法有效地预测更多的用户偏好信息。综合考虑项目的不确定性和代表性,挑选信息含量最高的项目x*,常用的组合方法公式如下所示:
x * = arg max x ∈ X c ( u ) { uncertainty ( x ) × rep ( x ) } .
上述实施例公开的固定组合方法综合考虑项目的不确定性和代表性,二者乘积值较大的项目即为信息含量较高的项目,其在一定程度上克服了基于不确定性标准挑选项目方法的不足。但是在每次迭代过程中,都是同时衡量项目的不确定性和代表性,需要处理未评分项目集合中的所有项目,当未评分项目集合较大或者代表性度量过程比较复杂时,计算量无疑会很高。考虑到展示尽可能少的、信息含量高的项目给新用户评分以更好地表达用户偏好信息,应当避免信息含量低的项目选择。如果***能够根据已有评分信息确定新用户对某一项目的喜好,那就不需要挑选此类项目给用户评分,这样就可以避免选择信息含量低的项目。所以,可以采用一种串行组合挑选项目的方法:先采用不确定性缩减标准衡量未评分项目的不确定性,将不确定性从高到低排序,选择***最不确定的项目,得到最不确定项目集合(The MostUncertain Item Set,简称MUIS)。并且为克服最不确定项目可能为独立点或离群点的问题,用代表性标准计算MUIS集合中项目的代表性,然后对MUIS集合中的项目进行代表性排序,选择代表性高的项目展示给用户,这样可以保证交由用户评分的项目既有较高的不确定性也有较高的代表性。
串行组合的方法能够避免选择***比较确定的项目,相对于固定组合的方法,能够有效提高项目选择的效率,避免把信息含量低的项目展示给用户评分。该方法也有一定的弊端,对于不确定性比较低而代表性比较高的项目,肯定被排除在MUIS集合之外,即该方法在某种程度上是以牺牲项目的代表性为代价的。然而,在实际情况下,很难确定是着重考虑项目的不确定性还是代表性。固定组合方法同等看待项目的不确定性和代表性,也存在着类似的问题。针对此,本发明在上述实施例的基础上公开了另一种基于自适应主动学习的项目选择方法。
如图2所示,为本发明另一实施例公开的一种基于自适应主动学习的项目选择方法,包括:
S201、计算候选项目的不确定性;
S202、计算候选项目的代表性;
S203、预先指定权值集合W,W={w1,w2,…,wn-1,wn},其大小|W|=n;
S204、设置候选项目集合I为空,
S205、针对当前权值wi,wi∈W,选择前L个候选项目,构成项目集合Ii
S206、更新候选项目集合I=I∪Ii
S207、在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc
S208、计算每个项目对应的预测评分偏差ε(x);
S209、从候选项目集合I中选择最具信息含量的项目x*
具体的,上述实施例的工作原理为:固定组合方法与串行组合方法都存在不能动态调整项目不确定性和代表性的权重分配问题。给定项目的不确定性和代表性度量方法后,目标是提出一种组合框架,能整合不确定性和代表性的优势。目的是保证挑选出的候选项目,相对于当前***是不确定的,并且在未评分项目集中有较高的代表性。因此,当把候选项目加入到已评分项目集后,所得到的更新后的协同过滤模型能更好的预测用户的偏好信息,从而为新用户提供更精准的推荐。研究中常用的组合框架就是使用乘积的形式。假设当前候选项目x的不确定性表示为uncertainty(x),代表性表示为rep(x),则组合后项目的信息含量info(x)表示为:
info(x)=uncertainty(x)w×rep(x)(1-w)
最具信息含量的项目x*为:
x * = arg max x ∈ X c ( u ) { info ( x ) } ;
其中w(0≤w≤1)是控制项目不确定性和代表性大小的一个权衡因子。当w>0.5时,说明选择项目时,项目的不确定性权重大于代表性;当w<0.5时,在挑选项目时,则优先考虑项目的代表性。极端情况下,若w=1,组合方法则成了单一的不确定性项目选择方法;若w=0,则是单一的代表性项目选择方法。这种组合框架存在一个无法避免的问题,就是权衡因子w的大小很难确定。在不同的情况下,很难确定应该优先考虑项目的不确定性还是代表性。并且在主动选择项目的过程中,两种标准的重要性也应该动态调整。为了在项目选择的过程中,能动态调整w,选择当前最有价值的项目交由用户评分,提出了一种自适应组合的策略,具体描述如下:
(1)预先指定权值集合W:W={w1,w2,…,wn-1,wn},其大小|W|=n;
(2)在每次项目选择过程中,设置候选项目集合I为空;
(3)计算项目x的不确定性uncertainty(x),代表性rep(x);
(4)根据权值集合中的每个值wi(wi∈W),按照公式选出前L个候选项目,得到当前候选项目集合Ii
(5)可知最终的候选项目集合I为I=I1∪I2∪…∪In-1∪In
(6)选择最优的w值即相当于从候选项目集合I中选择信息含量最高的项目。
在协同过滤推荐中,主动学习用于项目选择的目标就是挑选出信息含量高的项目评分数据,以更好地预测用户偏好信息,也就是最大化用户满意度。类似于估计错误率缩减策略的思想,设计了能最大化用户满意度的项目挑选方法以自适应选择最优的权值w,其基本思想为:对于侯选项目集合I中的每个项目x,使用当前的协同过滤预测模型估计用户对x的预测评分,将x及其预测评分逐个模拟添加至已评分训练集合,更新训练得到新的预测模型,使用新的预测模型估计用户对已评分项目的评分,选择能使用户真实评分与预测评分的偏差最小的项目给用户评分。用户满意度最大化方法符合基于项目的协同过滤推荐的基本原理,如果用户对某个项目比较感兴趣,那么可以推测该用户也会喜欢与此项目比较相似的其它项目。选择能使用户真实评分与预测评分的偏差最小的项目,即是选择最能反映用户偏好信息的项目。用户满意度最大化方法具体描述如下:
在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc
T c = T c &cup; < x , y c , x &theta; >
根据更新后的Tc训练得到新的预测模型基于预测c对已评分项目训练集合中项目t(t∈Tc)的评分估计真实评分与预测评分的偏差ε(x),公式如下所示:
&epsiv; ( x ) = &Sigma; t &Element; T c ( y c , t &theta; x ~ - R ct ) 2
其中,表示更新后的协同过滤模型预测的c对项目t的评分。能使偏差ε(x)最小的项目即是最符合用户偏好、最能使用户满意的项目,即信息含量最高的项目。基于以上给出的用户满意度最大化策略,选择最优的权值w,即是从最终的候选项目集合I中选择信息含量最高的项目交由用户评分,可知,最具有信息含量的项目x*选择标准公式如下所示:
x * = arg min x &Element; I &epsiv; ( x ) = arg min x &Element; I &Sigma; t &Element; T c ( y c , t &theta; x ~ - R ct ) 2
至此,通过衡量未评分项目集合中项目的不确定性、代表性,再通过用户满意度最大化标准挑选出使新用户已评分项目集合的预测评分偏差最小即信息含量最高的项目,给用户评分。获得用户评分信息后,更新已评分项目集合、未评分项目集合,更新协同过滤预测模型,迭代上述过程,直至达到停止标准(如新用户给出的评分数达到一定的数量)。
由于本发明研究的不确定性与代表性策略是直接利用用户的评分信息来度量的,所以预测模型θ采用基于用户的协同过滤推荐方法,用户间的相似性度量采用皮尔逊相关相似性方法,对用户的评分预测采用考虑用户评分尺度问题的加权平均预测方法。
综上所述,本发明在挑选信息含量最高的项目给用户评分时,克服了基于不确定性项目选择策略的不足,综合考虑了项目的不确定性和代表性。自适应组合框架,能最优调整不确定性和代表性的组合,保证挑选出的候选项目,相对于当前推荐***是不确定的,并且在未评分项目集中有较高的代表性。因此,当把候选项目加入到用户的已评分项目集合后,所得到的更新后的协同过滤模型能更好的预测用户的偏好信息,从而为用户提供更准确的推荐。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于自适应主动学习的项目选择方法,其特征在于,包括:
计算候选项目的不确定性;
计算候选项目的代表性;
根据所述不确定性和代表性选择信息含量最高的项目。
2.根据权利要求1所述的方法,其特征在于,所述计算候选项目的不确定性为:
依据公式计算出候选项目的不确定性,其中:Rcx表示用户c对项目x的评分,表示用户的平均评分,Ux(sim)表示和当前新用户相似且对项目x有评分行为的用户集合。
3.根据权利要求2所述的方法,其特征在于,所述计算候选项目的代表性包括:
在训练集Tc上根据预测模型θ计算得到c对x的预测评分并估计c为x评分为r的概率p(U=c,Rcx=r),并将r当作ycx(θ)变化值,其中,
更新评分训练集合Tc,将预测评分变化值添加到c的已评分项目集合列表中,得到新的评分训练集Tc,r=Tc∪(x,r);
在评分训练集Tc和Tc,r上,根据预测模型θ,预测c对未评分项目集合中的其它未评分项目xi的评分值,分别得到对应训练集上的预测评分为
在评分为r的概率p(U=c,Rcx=r)下,估计当前候选项目x的评分变化对其它项目预测评分的影响,用差值的平方表示评分变化,依据公式 rep ( x ) = &Sigma; x i &Element; X c ( u \ x ) &Sigma; r &Element; R ( p ( U = c , R = r ) ( y c x i T c ( &theta; ) - y cx i T c , r ( &theta; ) ) 2 ) 计算出当前候选项目x的代表性rep(x),其中:c表示当前新用户,x代表当前候选项目,代表c的未评分项目集合,表示c的已评分项目集合,表示去掉x后c的剩余未评分项目集合,即 中的每个项目用xi表示,是c对应的训练数据集,Rcx表示c对x的评分。
4.根据权利要求3所述的方法,其特征在于,所述根据所述不确定性和代表性选择信息含量最高的项目为:
依据公式计算得出信息含量高的项目,其中:uncertainty(x)为不确定性,rep(x)为代表性,c表示当前新用户,x代表当前候选项目,代表c的未评分项目集合。
5.根据权利要求1所述的方法,其特征在于,所述计算候选项目的代表性后还包括:
预先指定权值集合W,W={w1,w2,…,wn-1,wn},其大小|W|=n;
设置候选项目集合I为空,
针对当前权值wi,wi∈W,选择前L个候选项目,构成项目集合Ii
更新候选项目集合I=I∪Ii
在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc
计算每个项目对应的预测评分偏差ε(x);
从候选项目集合I中选择最具信息含量的项目x*
6.根据权利要求5所述的方法,其特征在于,所述针对当前权值wi,wi∈W,选择前L个候选项目为:
根据所述不确定性uncertainty(x)和代表性rep(x),依据公式
info(x)=uncertainty(x)w×rep(x)(1-w)计算出组合后项目的信息含量info(x);
依据公式计算出最具信息含量的项目x*,选择前L个候选项目。
7.根据权利要求6所述的方法,其特征在于,所述在用户c已有的评分集合Tc上训练得到预测模型θ,根据θ计算c对项目x的预测评分更新训练集Tc为:
依据公式更新训练集Tc
8.根据权利要求7所述的方法,其特征在于,所述计算每个项目对应的预测评分偏差ε(x)为:
根据更新后的Tc训练得到新的预测模型基于预测c对已评分项目训练集合中项目t(t∈Tc)的评分根据公式估计真实评分与预测评分的偏差ε(x),其中:表示更新后的协同过滤模型预测的c对项目t的评分。
9.根据权利要求8所述的方法,其特征在于,所述从候选项目集合I中选择最具信息含量的项目x*为:
依据公式 x * = arg min x &Element; I &epsiv; ( x ) = arg min x &Element; I &Sigma; t &Element; T c ( y c , t &theta; x ~ - R ct ) 2 选择最具信息含量的项目x*
CN201510255684.4A 2015-05-19 2015-05-19 一种基于自适应主动学习的项目选择方法 Active CN104794250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510255684.4A CN104794250B (zh) 2015-05-19 2015-05-19 一种基于自适应主动学习的项目选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510255684.4A CN104794250B (zh) 2015-05-19 2015-05-19 一种基于自适应主动学习的项目选择方法

Publications (2)

Publication Number Publication Date
CN104794250A true CN104794250A (zh) 2015-07-22
CN104794250B CN104794250B (zh) 2018-10-19

Family

ID=53559042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510255684.4A Active CN104794250B (zh) 2015-05-19 2015-05-19 一种基于自适应主动学习的项目选择方法

Country Status (1)

Country Link
CN (1) CN104794250B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001096255A (ja) * 1999-10-01 2001-04-10 Matsushita Electric Ind Co Ltd 銅粉の再生法
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001096255A (ja) * 1999-10-01 2001-04-10 Matsushita Electric Ind Co Ltd 銅粉の再生法
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡正平等: "基于样本不确定性和代表性相结合的可控主动学习算法研究", 《燕山大学学报》 *

Also Published As

Publication number Publication date
CN104794250B (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN105787061B (zh) 信息推送方法
KR101573601B1 (ko) 사용자 프로파일과 상황 정보를 이용한 선호도 기반 하이브리드 필터링 콘텐츠 추천 장치 및 방법
CN103927675B (zh) 判断用户年龄段的方法及装置
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
CN110163647B (zh) 一种数据处理方法及装置
JP5440394B2 (ja) 評価予測装置、評価予測方法、及びプログラム
CN103744917B (zh) 混合推荐方法及***
CN106202519A (zh) 一种结合用户评论内容和评分的项目推荐方法
GB2547395A (en) User maintenance system and method
CN113256367B (zh) 用户行为历史数据的商品推荐方法、***、设备及介质
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN106126549A (zh) 一种基于概率矩阵分解的社区信任推荐方法及其***
CN107016122B (zh) 基于时间迁移的知识推荐方法
CN104766219B (zh) 基于以列表为单位的用户推荐列表生成方法及***
US20190378180A1 (en) Method and system for generating and using vehicle pricing models
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN104298772A (zh) 一种优化近邻选择的协同过滤推荐方法及装置
JP2011203991A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20170097535A (ko) 비관심 아이템을 활용한 아이템 추천 방법 및 장치
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN112613953A (zh) 一种商品选品方法、***及计算机可读存储介质
CN112883282A (zh) 一种基于麻雀搜索优化聚类的组推荐方法
CN109460474B (zh) 用户偏好趋势挖掘方法
CN104794250B (zh) 一种基于自适应主动学习的项目选择方法
Nahm New competitive priority rating method of customer requirements for customer-oriented product design

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181212

Address after: 215021 Unit 16-B502, Creative Industry Park, 328 Xinghu Street, Suzhou Industrial Park, Jiangsu Province

Patentee after: Suzhou Feiyu Mutual Entertainment Information Technology Co., Ltd.

Address before: 215021 Room B302, 16th Building, International Science and Technology Park Phase 5 Creative Industry Park, 328 Xinghu Street, Suzhou Industrial Park, Jiangsu Province

Patentee before: SUZHOU RONGXI INFORMATION TECHNOLOGY CO., LTD.

TR01 Transfer of patent right