CN104063445B - 一种相似性度量的方法以及*** - Google Patents

一种相似性度量的方法以及*** Download PDF

Info

Publication number
CN104063445B
CN104063445B CN201410267170.6A CN201410267170A CN104063445B CN 104063445 B CN104063445 B CN 104063445B CN 201410267170 A CN201410267170 A CN 201410267170A CN 104063445 B CN104063445 B CN 104063445B
Authority
CN
China
Prior art keywords
article
similarity
matrix
user
sim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410267170.6A
Other languages
English (en)
Other versions
CN104063445A (zh
Inventor
朱宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Mobile Network Technology (beijing) Co Ltd
Original Assignee
Baidu Mobile Network Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Mobile Network Technology (beijing) Co Ltd filed Critical Baidu Mobile Network Technology (beijing) Co Ltd
Priority to CN201410267170.6A priority Critical patent/CN104063445B/zh
Publication of CN104063445A publication Critical patent/CN104063445A/zh
Application granted granted Critical
Publication of CN104063445B publication Critical patent/CN104063445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种相似性度量的方法以及***。所述相似性度量方法包括以下步骤:数据获取步骤,获取关于用户的行为数据以及和物品的特征数据;基于行为数据的相似度计算步骤,计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算步骤,计算基于特征数据的物品和物品之间的相似度;以及相似度综合步骤,将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用贝叶斯公式进行综合。

Description

一种相似性度量的方法以及***
技术领域
本发明涉及信息处理领域,特别涉及信息处理领域中的相似性度量的方法以及***。
背景技术
当前,在众多领域均涉及相似性度量,并基于各种已有的相似性度量方法进行相似性分析。例如在互联网行业等领域所涉及的相似性度量。
现有的进行相似性度量包括以下两类。一种基于行为数据。如矩阵分解、协同过滤等技术中计算物体相似度的方法。一种是基于特征数据计算相似度,利用用户行为进行特征相似度学习,如遗传算法等。但是上述的算法都存在以下问题,或者只考虑行为数据计算相似度,或者只考虑物体特征进行相似度计算。没有能够将行为数据和特征数据进行综合利用,以求出最佳的相似度结果。
发明内容
本发明就是鉴于上述问题而完成的,其目的在于提供一种将基于物体特征的相似性结果和基于行为数据的相似性结果进行有效综合基于相似性度量的方法和***。
本发明涉及的一种相似性度量方法,包括以下步骤:数据获取步骤,获取关于用户的行为数据以及物品的特征数据;基于行为数据的相似度计算步骤,计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算步骤,计算基于特征数据的物品和物品之间的相似度;以及相似度综合步骤,将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,
其中,bi、bj表示物品,下标变量i=1,2……,先验概率密度sim′(bi,bj)为基于特征数据的的物品bi和物品bj之间的相似度结果,条件概率密度sim"(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
根据上述的相似性度量方法,可以是在所述基于行为数据的相似度计算步骤中,包括以下步骤:利用获取的所述行为数据生成用户和物品之间的关系矩阵、以及物品和用户之间的关系矩阵;利用所述用户和物品之间的关系矩阵和所述物品和用户之间的关系矩阵生成用户对物品的概率矩阵、以及物品对用户的概率矩阵;对所述物品对用户的概率矩阵和用户对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
根据上述的相似性度量方法,也可以是在所述基于行为数据的相似度计算步骤中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim″(bj,bi)的计算,以生成相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据上述的相似性度量方法,可以是针对所述相似度矩阵利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
根据上述的相似性度量方法,可以是在计算基于行为数据的相似度之前还包括白噪声补偿步骤:将用户对物品操作的次数低于预定次数的用户补充至预定次数。
根据上述的相似性度量方法,可以是在所述基于特征数据的相似度计算步骤中,包括以下步骤:利用获取的所述特征数据生成物品和属性之间的关系矩阵、以及属性和物品之间的关系矩阵;利用所述物品和属性之间的关系矩阵和所述属性和物品之间的关系矩阵生成物品对属性的概率矩阵、以及属性对物品的概率矩阵;对所述物品对属性的概率矩阵和属性对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
根据上述的相似性度量方法,可以是在所述基于特征数据的相似度计算步骤中,包括以下步骤:利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim′(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据上述的相似性度量方法,可以是还包括基于特征数据的相似度的白噪声补偿步骤:针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
本发明涉及一种相似性度量***,包括:数据获取单元,其获取关于用户的行为数据以及物品的特征数据;基于行为数据的相似度计算单元,其计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算单元,其计算基于特征数据的物品和物品之间的相似度;以及相似度综合单元,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下贝叶斯公式进行综合,
其中,bi、bj表示物品,下标变量i和j为正整数,先验概率密度sim′(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim"(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
根据上述的相似性度量***,可以是在所述基于行为数据的相似度计算单元中,包括:数学模型建立单元,其利用获取的所述行为数据生成用户和物品之间的关系矩阵、以及物品和用户之间的关系矩阵;概率矩阵生成单元,利用所述用户和物品之间的关系矩阵和所述物品和用户之间的关系矩阵生成用户对物品的概率矩阵、以及物品对用户的概率矩阵;相似度计算单元,其对所述物品对用户的概率矩阵和用户对物品的概率矩阵进行相乘矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
根据上述的相似性度量***,也可以是在所述基于行为数据的相似度计算单元中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim"(bj,bi)的计算,以生成相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据上述的相似性度量***,可以还包括相似度增强单元,针对所述相似度矩阵通过所述相似度计算单元法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
根据上述的相似性度量***,可以还包括行为数据的白噪声补偿单元:在通过相似度计算单元计算基于行为数据的相似度之前,将用户对物品操作的次数低于预定次数的用户补充至预定次数。
根据上述的相似性度量方法,可以在所述基于特征数据的相似度计算单元,包括:数学模型建立单元,其利用获取的所述特征数据生成物品和属性之间的关系矩阵、以及属性和物品之间的关系矩阵;概率生成单元,其利用所述物品和属性之间的关系矩阵和所述属性和物品之间的关系矩阵生成物品对属性的概率矩阵、以及属性对物品的概率矩阵;相似度计算单元,其对所述物品对属性的概率矩阵和属性对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
根据上述的相似性度量***,可以是在所述基于特征数据的相似度计算单元,利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性sim′(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
根据上述的相似性度量***,可以是还包括基于特征数据的相似度的白噪声补偿单元,其针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
根据上述的相似性度量方法以及***,能够得到考虑了基于特征数据和基于行为数据的相似度值的相似性度量结果。
附图说明
图1示出实施例1的相似性度量方法的流程图;
图2示出实施例2的相似性度量方法的流程图;
图3是示出相似性度量***的框图;
图4示出实施例1的增强相似性关联的方法的流程图;
图5示出实施例2的增强相似性关联的方法的流程图;
图6示出增强相似性关联的相似性度量***的框图;
图7示出又一相似性度量方法的流程图;
图8示出又一相似性度量***的框图;
图9示出一白噪声补偿方法的流程图;
图10示出又一白噪声补偿方法的流程图;
图11示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的方法的流程图;
图12示出计算行为数据的相似度的流程图;
图13示出计算特征数据的相似度的流程图;
图14示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的***的框图。
具体实施方式
在个性化推荐的过程中,对于已知用户、物品、以及用户对物品的操作历史的情况,如何能够在未知用户和物品的属性向量的情况下计算出用户和用户、或者物品和物品之间的相似度,下面进行说明。
关于属性向量值服从均匀分布下的相似度计算
下面,本发明给出一种新的相似性定义,首先针对属性向量值服从在负无穷大到正无穷大上的均匀分布的情况进行介绍。
物体可以用n维属性向量描述,物体a的属性向量为[a[1],a[2],a[3],……,a[n]],物体b的属性向量为[b[1],b[2],b[3],……,b[n]],sim(a,b)表示物体a和物体b的在给定权重为k和方差向量为[δ2[1],δ2[2],δ2[3],……,δ2[n]]情况下的相似度值。
式1
例如在仅具有一个属性,且属性向量值服从在负无穷大到正无穷大上的均匀分布的情况下,物体a和物体b的相似度为属性值变量x服从N(a[1],δ[1]2)正态分布时的在b[1]处概率密度值。虽然上述属性向量未知,无法通过正态分布公式直接计算出概率密度值,但是根据已有的操作历史数据能够计算出概率密度值。在未知属性向量的情况下,利用正态分布卷积运算时仍然服从正态分布的良好特性来建立物体之间的关联,从而利用能够求出的概率密度值来求出相似性。因此该相似度定义对于隐藏属性的物品或用户的相似性分析有用。
在物体属性向量已知的条件下,带入向量值,即可得到相似度结果。
对于未知物体属性向量的情况,我们列举了以下例子。
实施例1
首先以连续的情况为例。对于连续情况,给定权重都为1。例举了网络书城的图书推荐,参考图1对相似性度量方法进行说明。首先,如步骤S1所示,服务器收集网络书城的所有用户信息和所有图书信息、以及用户对图书进行点击阅读的所有历史数据。将网络书城所有图书的集合设为集合M(m1,m2,……),将所有用户的集合设为集合N(n1,n2,……),假设在集合M和集合N中的元素所具有的属性值满足正无穷大到负无穷大下均匀分布。下面我们介绍在不知道图书的任何属性信息、也不知道用户的任何属性信息的情况下,如何根据用户对图书进行操作的历史数据来得到用户与用户之间的相似度。
现在假设用户集合N中用户n1希望看到的图书是图书m1,图书m1具有一个属性,属性值为μ。用户集合中其他某一个用户n2希望看到图书m2,图书m2具有属性值为x,则该用户n1希望看到的图书m1与其他某一个用户n2希望看到的图书m2之间的相似度,即用户与用户之间的相似度f0(x),在给定方差δ2的情况下,可以依据上述定义得到式2。
式2
但是,实际上我们不知道用户希望看到的图书m1和m2的属性值,当然也就不知道用户n1希望看到的图书m1和其他某一个用户n2希望看到的图书m2之间的相似度。然而我们根据用户对图书的操作历史,知道用户n1实际对图书m3进行了点击阅读,并能够计算出用户n1对图书m3的点击次数相对于该用户对所有图书的点击次数的概率D1。由于用户n1实际操作的图书是图书m3,设图书m3的属性值是y,那么用户n1希望看到的图书m1应该与图书m3相似。
如果将用户n1对图书m3的点击阅读视为一次测量,将用户n1希望看到的图书m1的属性值μ作为被测量值,将用户n1实际看到的图书m3的属性值作为测量值,将所有图书的属性值构成测量值域,如果图书的属性值无穷多,且满足大小在负无穷大到正无穷大的均匀分布,则测量得到的样本均值、即实际物品属性均值与被测量值满足极大似然估计,测量得到的样本值结果满足以被测量值μ为期望,以某未知方差为方差的正态分布。即,将样本所在值对应的概率密度值作为该样本值与实际被测量值的相似度。根据上述,使用用户n1实际读取的图书m3的属性值y去测量用户n1希望读取的图书m1的属性值μ,则图书m3的概率密度g(y)为式3。
式3
g(y)是如上所述能够根据操作历史数据计算出的概率密度值。即,如步骤S2所示,根据历史记录,计算用户n1点击图书m3的次数相对于用户n1对所有图书的点击次数的概率g(y)。
同理,如果已知某些用户点击读取了图书m3,则对于用户n1来说,用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率是已知的,即能够计算出用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率D2。同理,使用用户n2希望读取的图书m2的属性值x去测量用户n1实际读取的图书m3的属性值y,其概率密度分布z(x)也满足类似的公式(4)。
式4
z(x)是如上所述也能够根据操作历史数据计算出的概率密度值。即,如步骤S3所示,根据历史记录,计算用户n1点击图书m3的次数相对于所有用户点击图书m3的次数的概率z(x)。
现在通过一种运算将属性值x和u关联起来,对g(y)和z(x)进行卷积运算,来获取和f0(x)近似的表达式。将新的积分的结果命名f(x),以和f0(x)区别,则f(x)为式5。
式5
即,如步骤S4所示,计算g(y)与z(x)的卷积,根据上述的式5,由于g(y)和z(x)已知,因此能够得到f(x)的值。f(x)为图书m1和图书m2的相似度,即该用户n1喜欢看的书与其他某一个用户n2喜欢看的书的相似度,即用户n1与用户n2之间的相似度。由于在上述中g(y)和z(x)的概率密度D1和D2通过对用户历史行为数据进行统计可以计算出,因此相似度sim(x,u)=f(x),因此在未知图书m1和图书m2的属性向量的情况下,得到了它们的相似度值,即得到用户与用户之间的相似度。
同理,计算z(x)与g(y)的卷积,能够得到图书和图书之间的相似度。
另外,通过对式5进行推导计算,可以得到式6,这里忽略了推导过程。
式6
根据进一步推导出来的式6,可知f(x)满足式1的相似性度量方法,对比式6和式2,f(x)和f0(x)形式一致,给定方差变成2δ2
对于属性个数不为1的情况,可以将上述过程看做是对很多独立属性联合分布密度的统计。服从正态分布的独立随机变量的卷积,其方差为每个正态分布的方差的和。如果依据式2所得给定的方差为(δ1 2,δ2 2,δ3 2,…),其中括号中的各个方差表示每个独立属性的统计方差,那么由于属性独立,可以推导得到给定的方差为(2δ1 2,2δ2 2,2δ3 2,…)的相似度。
另外以上推导须满足集合M、N服从负无穷大到正无穷大之间的均匀分布的假设,和集合M、N中元素的属性值保持不变的假设。但在具体情况下,都可以利用该基本原理和方法,计算出符合定义的相似度结果。
实施例1给出了连续情况的一个例子,下面对应连续情况下的相似性度量方法,对离散情况下的相似性度量方法进行介绍。
实施例2
以在网络购物中为了向用户推荐物品而计算用户和用户、或物品和物品之间的相似度为例,这里比较对象是用户和用户、或者物品和物品。参考图2进行以下说明。首先,如图2的步骤S21所示,服务器根据用户的登录注册、网站所销售的物品、以及用户对物品的操作情况进行信息的收集,即所收集的信息包括用户、物品、以及用户和物品之间的交互情况,以获取用户、物品、以及用户对物品的操作的数据。服务器对上述信息进行分析,一个是用户集合User,一个是物品集合Item,以及用户对物品的操作记录。这里每次用户对物品的操作相互独立,每次操作表达含义相同,都表达了用户对物品感兴趣。表1示出现有的用户集合User和物品集合Item之间的交互情况。aij表示用户Useri对物品Itemj的操作次数,i表示用户标号,j表示物品标号,i、j均为整数。例如用户User1对物品Item1的操作次数是a11次,用户User1对物品Item2的操作次数是a12次,用户User1对物品Item3的操作次数是a13次,用户User1对物品Item4的操作次数是a14次,依次类推,假设物品Item4没有被任何用户进行过操作,则a14=a24=a34=a44=0,假设用户User4没有对任何物品进行过操作,则a41=a42=a43=a44=0。
表1
Item1 Item2 Item3 Item4
User1 a11 a12 a13 a14
User2 a21 a22 a23 a24
User3 a31 a32 a33 a34
User4 a41 a42 a43 a44
在步骤S22中,对上述获得的数据建立数学模型形成矩阵,利用矩阵来表达上述表1,得到如下用户和物品的关系矩阵a。
矩阵a
如图2的步骤S23所示计算用户对物品的概率矩阵。首先,针对矩阵a以用户为行,依次将各物品被该用户的操作次数,除以该用户进行过的操作总次数,得到矩阵A。如果该行对应的用户没有进行任何操作,则矩阵该行取满足元素值都相同且和为1的值。矩阵A可以看做实际物品测量用户希望得到的物品的统计分布,即用户对物品的概率矩阵。这里,物品相对于用户的概率的概率密度是服从相同或者相近方差的正态分布密度。
Aij表示矩阵A的元素,即表示用户Useri对物品Itemj操作的次数与该用户Useri对所有物品进行的操作总次数的比,则如下式7所示,其中k表示所有物品的数量。
式7
矩阵A
矩阵第一行表示:Item1被User1操作的概率是A11,A11=a11/(a11+a12+a13+a14),以下依次类推,Item2被User1操作的概率是A12,Item3被User1操作的概率是A13,Item4被User1操作的概率是A14。矩阵第二行表示:Item1被User2操作的概率是A21,Item2被User2操作的概率是A22,Item3被User2操作的概率是A23,Item4被User2操作的概率是A24。依次类推,假设User4没有进行任何操作,因此该行取各值相同并且和为1的值,即均取A41=A42=A43=A44=0.25。
如图2的步骤S24所示计算物品对用户的概率矩阵。首先物品和用户的关系矩阵为b,矩阵b=aT
矩阵b
针对矩阵b,以物品为行,依次将各用户操作该物品的操作次数,除以该物品被进行过的操作总次数。如果该行对应的物品没有***作过,则矩阵该列取满足元素值都相同且和为1的值。矩阵B可以看做用户希望得到的物品测量实际物品的统计分布,即物品对用户的概率矩阵。这里,所述物品对用户的概率的概率密度是服从相同或者相近方差的正态分布密度。
Bij表示矩阵B的元素,即表示物品Itemj被用户Useri操作的次数与该物品Itemj被所有用户的操作总次数的比,则如下式8所示,其中h表示所有用户的数量。
式8
矩阵B
矩阵B第一行表示:Item1被User1操作的概率是B11,其中,B11=a11/(a11+a21+a31+a41),以下依次类推,Item1被User2操作的概率是B21,Item1被User3操作的概率是B31,Item1被User4操作的概率是B41。矩阵BT第二行表示:Item2被User1操作的概率是B12,依次类推。如果Item4没有被进行任何操作,因此该行取各值相同并且和为1的值,即均取B14=B24=B34=B44=0.25。
在步骤S25中,在计算出上述概率的情况下,对应实施例1取卷积,即,对矩阵A和B进行相乘得到用户和用户之间的相似度矩阵AB,AB=A*B。
ABij表示矩阵AB的元素,则AB11=A11*B11+A12*B12+A13*B13+A14*B14,AB12=A11*B21+A12*B22+A13*B23+A14*B24,依次类推。
矩阵AB
该相似度值是在某个未知权值k以及某个未知方差向量下的相似度值,该矩阵AB为用户和用户之间的相似度矩阵。例如第一行表示User1和User1的相似度是的AB11,User1和User2的相似度是AB12,User1和User3的相似度是AB13,User1和User4的相似度是AB14,同理依此类推。
如果计算矩阵B*A,则得到物品和物品之间的相似度矩阵BA=B*A。
BAij表示矩阵BA的元素,则BA11=B11*A11+B21*A21+B31*A31+B41*A41,BA12=B11*A12+B21*A22+B31*A32+B41*A42,依次类推。
矩阵E
例如矩阵E第一行表示Item1和Item1的相似度BA11,Item1和Item2的相似度是BA12,Item1和Item3的相似度是BA13,Item1和Item4的相似度是BA14。矩阵E第二行、第三行、第四行依此类推。
在本实施例中,不知道物品的属性,也不知道用户的属性,但是根据正态分布在卷积的情况下仍然服从正态分布的特性,利用用户对物品的操作历史,得到物品相对于用户的概率矩阵以及用户相对于物品的概率矩阵,从而能够计算出用户与用户之间的相似度或者物品和物品的相似度。从而可以依此来向用户推荐物品,提高所推荐的物品被用户的采纳的可能性。
图3示出了一种相似性度量***300,相似性度量***包括数据收集单元301、数学模型建立单元302、概率矩阵生成单元303、相似度计算单元304。数据收集单元301例如收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。数学模型建立单元302建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。概率矩阵生成单元303根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户对物品的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品对用户的概率矩阵。相似性计算单元304计算所述用户对物品的概率矩阵与所述物品对用户的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述物品对用户的概率矩阵与所述用户对物品的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。
利用了本发明的相似性度量方法所得出的相似性的结果与以往计算相似性的方法在满足假设的条件下相比具有很好的效果。
根据上述利用了正态分布的特性的对相似性的定义,能够在未知属性向量的情况下计算出物品之间的相似度,其应用不限于上述实施例,能够应用于各个未知属性的比较对象之间的相似度计算上。
针对上述相似度的增强相似度关联的运算
实施例3是对实施例1所得的结果进行增强相似度关联的运算。我们知道,方差越大表明关联的结果增多,但其误差也相应增大。
图4示出示出实施例1的增强相似性关联的方法的流程图,参考图4对实施例3进行说明。利用上述相似性定义式1,并根据在实施例1中所得到的相似度结果,在图4的步骤S41通过对任意图书mx和my、与my和mz的相似度进行对my的卷积运算,如式9所示,能够得到mx和mz之间的关联,从而扩大了图书之间相似性的关联的范围,增强图书之间相似性的关联,得到增强相似度sim(mx,my)。通过式9的运算,满足式1的方差也变成4δ2
式9
并且根据式1和式9得到式10的结果,其中C0是常数。
式10
方差增大,虽然增强了图书之间的相似性关联,但同时误差也扩大了。为了减小误差,使相似度给定的方差重新为2δ2,在图4的步骤S42中进行式11的方差收回运算,得到进行了方差收回的增强相似度sim’(mx,my)。
式11
根据式10和式11得到式12,即方差变回了δ2,这里C0、C1、C0’均是常数。
根据上述,方差重新为2δ2,能够增强比较对象之间的相似性关联,并保持误差不变。
通过上述,方差实现了从2δ2变为4δ2又重新回到2δ2的变化,即得到了更大范围与mx具有相似度关联的图书,可以从中选择相似度高的图书用于推荐。增强后的相似度sim’(mx,mz)的值可根据式11得到。
实施例3给出了连续情况的一个例子,下面对应连续情况下的增强相似性关联的相似性度量方法,对离散情况下的增强相似性关联的相似性度量方法进行介绍。
实施例4
图5是示出对实施例2的增强相似性关联的方法的流程图,参考图5对实施例4进行说明。实施例4是对实施例2所得的相似矩阵进行增强相似性关联的运算。这里一般给定的权值,使用能使相似度的和为1的权值进行计算。
例如表示用户和用户之间的相似度的相似矩阵AB,在图5的步骤S51中,首先对其进行增强相似性的计算,来进一步扩大用户之间的关联。增强后的相似矩阵f=(AB)*(AB)T
fij表示矩阵f的元素,则f11=AB11*AB11+AB12*AB12+AB13*AB13+AB14*AB14,f12=AB11*AB21+AB12*AB22+AB13*AB23+AB14*AB24,依次类推。
矩阵f
矩阵f为经过相似度增强之后的用户和用户之间的增强相似矩阵,通过增强运算扩大了用户和用户之间关联的范围,使之间计算出相似度为零的用户之间具有了关联。同理,计算(BA)*(BA)T则得到增强了物品和物品之间关联的增强相似矩阵。
随着上述的相似性增强,用户与用户之间的相似性所满足的方差增加了一倍,其误差也增加了一倍,这里为了使误差大小保持与原来一致,如图5的步骤S52所示,对增强的相似矩阵进行方差收回运算,如式13所示。矩阵g表示进行了方差收回运算后的用户与用户之间的相似矩阵。该运算如下所示,fij表示增强矩阵f中的元素,gij表示方差收回运算后的增强矩阵g中的元素,i表示矩阵的行号,j表示矩阵的列号,h表示列号的最大值,i、j、h均为大于零的整数。
式13
矩阵g
矩阵g中g11表示用户User1和User1进行了方差收回运算的增强相似度值,g11=f11 2/(f11 2+f12 2+f13 2+f14 2)。其他依次类推。
图6示出了一种增强相似性关联的相似性度量***600,增强相似性关联的相似性度量***包括获取相似性矩阵单元601、相似度增强运算单元602、以及方差收回运算单元603。获取相似性矩阵单元601获取比较对象之间的相似度矩阵。获取相似性矩阵单元601与图3所示相似性度量***300同样,包括数据收集单元、数学模型建立单元、概率矩阵生成单元、以及相似性计算单元。所述数据收集单元收集登录注册用户、网站所销售的物品、用户操作物品的历史数据。所述数学模型建立单元建立用户与物品的交互关系的数学模型,生成用户与物品交互关系的矩阵。所述概率矩阵生成单元根据所述用户与物品之间交互关系矩阵,针对每个用户,计算出各物品被所述每个用户操作的次数相对于所述物品被所有用户操作的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的物品相对于用户的概率矩阵;并根据所述用户与物品之间交互关系矩阵,针对每个物品,计算出各用户操作所述每个物品的次数相对于所述用户操作所有物品的次数的概率,生成与所述用户与物品之间交互关系矩阵对应的用户相对于物品的概率矩阵。所述相似性计算单元计算所述物品相对于用户的概率矩阵与所述用户相对于物品的概率矩阵的乘积,得到用户与用户之间的相似度矩阵;或者所述用户相对于物品的概率矩阵与所述物品相对于用户的概率矩阵的乘积,得到物品与物品之间的相似度矩阵。相似度增强运算单元602计算比较对象之间的相似度矩阵与自身的转置矩阵的乘积,从而得到增强相似度关联的比较对象之间的增强相似度关联的增强相似度矩阵。方差收回计算单元603计算增强相似度矩阵中各元素的平方与该元素所在的行的各元素的平方和的比作为新的元素,从而得到进行方差收回计算后的比较对象户之间的相似矩阵。
根据实施例3和4,对在实施例1和2中所得的相似矩阵进行增强相似度关联的运算,从而增大了比较对象(例如用户与用户、或者物品和物品)之间的关联,并进行方差收回运算,从而使增强相似度关联所带来的误差与原来一致,保持不变。在上述的实施例中得到被比较对象之间相似度关联范围更大、误差不变的相似度。
关于数据存在偏斜的情况下的相似度的计算
在上述相似性计算中,各属性向量值、即各行为数据需要服从在负无穷大到正无穷大上的均匀分布,在不满足上述情况、即存在数据偏斜的情况下,得到的物品和物品之间的相似度矩阵可能不对称,无法进行进一步的相似度增强运算。为了得到对称的相似性矩阵,对于上述求出的相似性的方法可以进行一个相似度结果的逼近,以获取更加准确的相似度。
以下对相似度结果的逼近进行详细介绍。
图7示出又一相似性度量方法的流程图。参考图7可知,首先如步骤S71所示,获取集合a与集合b的元素以及元素之间的操作关系数据,然后如步骤S72所示,根据上述数据得到集合b中元素之间的相似度值。例如获取集合a和集合b的元素,将无差别的相似性操作次数表示为sim(item_a,item_b),这里所说的无差别的相似性操作次数是指集合a中的元素item_a与集合b中的元素item_b之间的操作关系。利用以下公式求取集合b内部元素之间的相似性值sim’(Item_bi,Item_bj)。公式如下:
式14
其中,sim’(Item_bi,Item_bj)表示集合b中元素Item_bi和Item_bj之间的相似度,是对利用式1的方法所求出的相似度结果进行逼近的值。k是归一化因子,进行归一化后定义2是对定义1中的一个相似度结果的逼近。由于无差别的相似性操作次数表示为sim(item_a,item_b),因此例如sim(item_am,item_bi)表示集合a中的元素item_am与集合b中的元素item_bi之间无差别的相似性操作次数。sim(item_am,item_bj)表示集合a中的元素item_am与集合b中的元素item_bj之间无差别的相似性操作次数。其中,m、n、i、j均表示集合中元素的标号。
在上述式14中,将相似性操作发生时间设为t(item_a,item_b),即集合a中的元素item_a对集合b中的元素item_b的操作时间点。利用以下公式求取集合b内部元素之间的相似性方法。假设用G表示式14中的以下部分:
则在考虑与时间有关的滤波系数f(t(item_am,item_bi),t(item_am,item_bj))的情况下,则相似性公式如下:
式15
其中k是归一化因子,f(t(item_am,item_bi),t(item_am,item_bj))是和时间有关的某个函数,使得时间越相近,函数值越大。如一般用的低通滤波函数,让时间相近的值较大。例如时间滤波函数f为式16。
式16
其中β是小于1大于0的低通滤波系数。
图8示出又一相似性度量***的框图,本发明的相似性度量***,包括:数据获取单元,其获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);相似度计算单元,其执行基于式14的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算。这里关于数据存在偏斜的情况下的相似度的计算并不仅仅适用于在数据存在偏斜的情况,在数据均匀分布的情况下也能适用。同理以下说明的关于数据存在偏斜的情况下的增强相似度的计算也能适用于数据均匀分布的情况。
关于数据存在偏斜的情况下的增强相似度的计算
针对上述相似度度量方法以及***所计算出的矩阵可以进行进一步的相似度增强运算,该增强运算为将根据得到的集合b内部元素的相似度值所得的相似度矩阵以及该相似度矩阵的转置矩阵,继续使用式14的计算相似度,并进行归一化计算,以执行增强相似度的计算。
关于白噪声补偿
在上述的实施例中,以仅一个属性为例进行了说明,但对于物品来说存在多个属性,用户对物品进行操作的同时会对某些物品的某些属性进行了评价,但是有些物品却不存在用户评价的数据,或者用户未对所操作的物品的所有属性进行评价,导致所得到的用户对物品属性的评价的交互数据比较少。
白噪声补偿方法包括以下步骤:计算样本空间中的各样本的属性向量的测量值的平均值作为所述属性向量的估计值;计算所有样本的所述属性向量的估计值的平均值;对于所述属性向量的测量值数目小于预定数目的样本,利用上述所有样本的所述属性向量的估计值的平均值作为样本的所述属性向量的测量值,将样本的所述属性向量的测量值数目补足至预定数目;重新计算被补足所述属性向量的测量值数目的样本的所述属性向量测量值的平均值作为估计值。
另外,又一白噪声补偿方法包括以下步骤:计算样本空间中的各样本的属性向量的测量值的平均值作为所述属性向量的估计值;计算所有样本的所有所述属性向量的测量值的平均值;对于所述属性向量的测量值数目小于预定数目的样本,利用上述所有样本的所有所述属性向量的测量值的平均值作为样本的所述属性向量的测量值,将样本的所述属性向量的测量值数目补足至预定数目;重新计算被补足所述属性向量的测量值数目的样本的所述属性向量测量值的平均值作为估计值。
参考图9对存在多个独立属性进行样本统计的情况进行说明。假设国内某个网站上有很多的电影,评分与观看时长是电影的属性向量。现在想确定某部电影的评分和用户观看时长。已知现在有三个用户对该电影进行了观看和评分。该网站上关于评分的测量值分别为7、5、8,关于观看时长的测量值分别为1.4、1.6、1.5。具体情况如表2所示。
表2
评分(满分10分) 观看时长(小时)
用户1 7 1.4
用户2 5 1.6
用户3 8 1.5
首先如步骤S91所示,计算出关于该电影的评分测量值的平均值以及观看时长测量值的平均值,即评分测量值的平均值为(7+5+8)/3=6.67,观看时长测量值的平均值为(1.4+1.6+1.5)/3=1.5。
已知一部电影观看的用户数目在30以上,才能反映电影在该网站的实际评分和观看时长。但是由于上述该网站对于该电影的评价数量只有3个,评价数量过少,因此对该网站的该电影的两个属性向量进行白噪声补偿。
如步骤S92所示,为了准确的预测该部电影的评分和用户观看时长,该网站找到同类的其他网站上,获取各个网站对该部电影的评分和观看时长的平均值,并计算出包含该网站在内的各个网站的评分和观看时长测量值的平均值的平均值,如下表3所示。
表3
评分(满分10分) 观看时长(小时)
电影 6 1.2
如步骤S93所示,利用上述平均值的平均值对该网站的该电影的两个属性进行白噪声补偿,将属性向量的数量补足至30个。如步骤S94所示,计算出补足属性向量测量值后的该电影的属性向量测量值的平均值作为估计值,该网站预测该部电影的评分和观看时长为:
([7,1.4]+[5,1.6]+[8,1.5]+27*[6,1.2])/30=[6.0667,1.230]
所以该网站预测该部电影,在该网站上的评分为6.0667分,观看时长为1.230小时。从而得到了更为准确的预测。
也可以取代图9中的步骤S92,而如图10所示的步骤S102所示,计算出所有网站的关于属性评分的测量值的平均值,并计算出所有网站的关于属性观看时长的测量值的平均值,并如步骤S103所示,利用上述计算出的测量值的平均值去补足该网站的该部电影的属性向量测量值的个数,使其为30个,并利用补足白噪声后的属性向量测量值来计算属性向量测量值的平均值作为估计值。
下面,以上述说明为基础,介绍将基于行为数据的相似度和基于特征数据的相似度利用贝叶斯公式进行综合的方法。
参考图11至图13进行说明。图11示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合方法的流程图;图12示出计算行为数据的相似度的流程图。如图11的步骤S111所示,首先获取特征数据和行为数据。然后,如步骤S112所示,计算出基于行为数据的物品和物品之间的相似度矩阵。具体的如图12所示,首先如步骤S121所示,基于获取行为数据而获取用户、物品、以及用户对物品的操作的数据;然后如步骤S122所示,利用上述数据计算出物品和物品之间的相似度矩阵。对于上述计算出的相似度矩阵还可以如步骤S123所示,对上述物品和物品之间的相似度矩阵进行增强相似度运算。
根据上述计算相似度的方法、以及相似度增强方法,能够在未知属性向量的情况下利用行为数据进行相似性的度量。即基于行为数据获取比较对象之间的相似度值,并进行增强相似度的运算。这里,针对行为数据比较少的情况,为了稳定统计结果也可以利用上述的白噪声补偿方法进行上述的白噪声补偿。通过上述,获取基于行为数据的相似度值。
如图11中的步骤S113所示,计算出基于特征数据的物品和物品之间的相似度矩阵。同样地,利用上述的相似度计算方法以及相似度增强方法能够计算出基于特征数据的物品和物品之间的相似度。具体的如图13所示,在步骤S131中,获取物品、属性、以及物品所对应的属性的属性值的数据。在步骤S132中,根据上述数据利用式1或者式14计算出物品和物品之间的相似度矩阵。在步骤S133中,对属性信息进行白噪声补偿,并按照已知属性信息和未知属性信息对相似度的贡献比例来计算出补偿了白噪声的相似度矩阵。物品包括已知属性和未知属性,对于已知属性能够获得作为物品和属性的关系的属性值,可以利用属性值根据式1或者式14所介绍的相似度计算方法计算出基于属性信息的物品和物品之间的相似度。由于已知的属性,只占物品属性信息的一部分,那么计算出来的相似度结果,需要进行白噪声补偿。补偿方法是,对未知的物品属性信息,假设其贡献的相似性信息是白色噪声,即任意一个物品和其他物品的相似度相同。这样得到一个相似度矩阵。将该相似度矩阵和利用已知属性计算出来的相似度矩阵,按照某个比例相加,就得到了利用属性方法所计算得到的相似度矩阵。具体的,已知的属性信息占物品属性信息的比例,并不能事先知道,这样就需要利用交叉验证的方法,来确定这个比例系数,以达到最佳的推荐效果。
如图11的步骤S114所示,利用贝叶斯公式对上述基于行为数据的物品和物品之间的相似度矩阵和基于特征数据的物品和物品之间的相似度矩阵进行综合。具体地,对于物品和物品之间,将基于补充了白噪声的基于特征数据的相似度和基于行为数据的相似度利用贝叶斯公式进行综合,其中基于特征数据计算得到的相似度结果作为先验分布,将利用行为数据计算得到的相似度结果作为条件分布,如下式所示。
式17
其中,bi、bj表示物品,下标变量i=1,2……,先验概率密度sim′(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim"(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。该相似度同样是满足式1定义的相似度的估计值。
下面举例对基于特征数据的相似度和基于行为数据的相似度利用贝叶斯公式进行综合的情况进行说明。由于基于式1的相似度计算方法仅适用于在数据均匀分布的情况下,而式14的相似度计算方法适用于任何的数据的计算,因此,这里以式14的相似度计算方法为例来进行说明。
例如用户和物品(行为数据)的关系如下
物品1 物品2 物品3
用户1 1 1 0
用户2 1 0 1
用户3 2 0 0
物品和属性(特征数据)的关系如下
属性1 属性2 属性3
物品1 1 1 1
物品2 1 0 0
物品3 0 1 0
基于行为数据(log数据)用户和物品之间的关系矩阵log_a为
基于特征数据(Tag数据)的物品和属性的关系矩阵tag_c为
根据用户和物品之间的关系矩阵log_a利用式14计算基于行为数据的物品和物品之间的相似度矩阵sim_log为
这里如果有时间滤波,可以在乘上一个和时间有关的滤波函数。下面以不进行时间滤波为例继续进行计算。
该相似度矩阵是被进行了归一化后的相似度矩阵,在归一化之前的相似度矩阵是对称的。对该归一化的相似度矩阵进行增强,即利用该相似度矩阵sim_log进一步利用式14进行相似度计算,并进行归一化,得到下述的增强相似度矩阵sim_log_enhance
以上针对基于行为数据的物品和物品之间的增强相似度进行了计算,下面对基于特征数据(Tag数据)的物品和物品之间的相似度进行计算。
首先,基于特征数据(Tag数据)的属性和物品的关系矩阵tag_c求出其基于特征数据的物品和属性的关系矩阵(tag_c)T,根据物品和属性的关系矩阵(tag_c)T利用式14以与上述相同的方式计算相似度,得到物品和物品之间的相似度,并对其进行归一化,得到归一化的物品和物品之间的相似度矩阵sim_tag为
对于当前的属性向量进行白噪声补偿,假设一共需要6个属性向量,则需要补偿白噪声,所补偿的白噪声的属性值为1/(6-3),所补偿的属性向量的矩阵W为
假设所补偿的物品的属性信息对相似度的贡献是9/10,实际有的属性信息对相似度的贡献是1/10。则实际物品和物品之间,基于属性信息的相似度估计值为sim_tag’=(sim_tag*0.1)+(W*0.9),根据上述sim_tag’矩阵为
这里假设已知属性信息占比10%,而实际的占比需要通过交叉验证法来求,使结果的RMSE最低。
下面,根据已求出的基于行为数据的物品和物品之间的增强相似度矩阵sim_log_enhance和基于特征数据的物品和物品之间的补足白噪声的相似度矩阵sim_tag’,基于贝叶斯公式17,将相似度进行综合。其中,加了白噪声的基于特征的相似度矩阵sim_tag’是先验信息(即式子中的sim’(bi,bj)),基于行为数据的物品和物品之间的相似度矩阵sim_log_enhance是条件信息(即式子中的sim"(bj,bi))。所以综合如下:
贝叶斯的分子部分矩阵为矩阵sim_tag’点乘矩阵(sim_log_enhance)T,并对上述矩阵点乘结果进行归一化得到综合了基于行为数据的相似度和基于特征数据的相似度的相似度矩阵,并进行归一化,得到归一化后的贝叶斯相似矩阵sim_BAYES,矩阵sim_BAYES为:
根据上述的计算,将基于行为数据和基于特征数据的相似度进行了有效综合,从而得到较好的相似度结果。
参考图14,图14示出针对行为数据的相似度和特征数据的相似度的贝叶斯综合的***的框图,相似性度量***141包括:数据获取单元142,其获取关于用户的行为数据以及物品的特征数据;基于行为数据的相似度计算单元143,其计算基于行为数据的物品和物品之间的相似度;基于特征数据的相似度计算单元144,其计算基于特征数据的物品和物品之间的相似度;以及相似度综合单元145,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用贝叶斯公式进行综合,
其中,bi、bj表示物品,下标变量i=1,2……,先验概率密度sim′(bi,bj)为基于特征数据的的物品bi和物品bj之间的相似度结果,条件概率密度sim″(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim″′(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
在上述中我们一直以物品和物品之间的相似度进行举例,但也同样适用于用户和用户之间的相似度计算。即首先获取用户的行为数据以及用户的特征数据,基于上述的方法我们可以计算出基于行为数据的用户和用户之间的相似度,也可以计算出基于特征数据的用户和用户之间的相似度,将两者利用贝叶斯公式进行综合,从而得到综合了用户的行为数据和特征数据的、用户和用户之间的贝叶斯相似度。同样地,上述的关于行为数据和特征数据的白噪声补偿方法与增强相似度的方法也能应用于用户和用户的相似度计算中。
根据本发明的相似度方法以及***能够对基于行为数据的相似度和基于特征数据的相似度进行有效的综合,从而得到基于行为数据和特征数据的更为准确的相似度。本领域技术人员将理解,还存在可用于实现本发明实施例的更多可选实施方式和改进方式,并且上述实施方式和示例仅是一个或多个实施例的说明。
根据上述,本发明提供了一种进行综合了行为数据的相似度和特征数据的相似度的相似度度量方法以及***。本发明不限于上述的实施例,只要在该技术构思的范围内,均包含在本发明的范围中。

Claims (16)

1.一种相似性度量方法,其特征在于,包括以下步骤:
数据获取步骤,获取关于用户的行为数据以及物品的特征数据;
基于行为数据的相似度计算步骤,计算基于行为数据的物品和物品之间的相似度;
基于特征数据的相似度计算步骤,计算基于特征数据的物品和物品之间的相似度;以及
相似度综合步骤,将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用以下的贝叶斯公式进行综合,
sim ′ ′ ′ ( b i , b j ) = sim ′ ( b i , b j ) * sim ′ ′ ( b j , b i ) Σ j sim ′ ( b i , b j ) * sim ′ ′ ( b j , b i )
其中,bi、bj表示物品,下标变量i和j为正整数,先验概率密度sim'(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim”(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim”'(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
2.根据权利要求1所述的相似性度量方法,其特征在于,
在所述基于行为数据的相似度计算步骤中,包括以下步骤:
利用获取的所述行为数据生成用户和物品之间的关系矩阵、以及物品和用户之间的关系矩阵;
利用所述用户和物品之间的关系矩阵和所述物品和用户之间的关系矩阵生成用户对物品的概率矩阵、以及物品对用户的概率矩阵;
对所述物品对用户的概率矩阵和用户对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
3.根据权利要求1所述的相似性度量方法,其特征在于,
在所述基于行为数据的相似度计算步骤中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim”(bj,bi)的计算,以生成相似度矩阵,
sim ′ ′ ( b j , b i ) = k * Σ m ( s i m ( a m , b j ) * s i m ( a m , b i ) Σ n s i m ( a m , b n ) * Σ n s i m ( a m , b n ) * Σ n s i m ( a n , b j ) * Σ n s i m ( a n , b i ) )
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
4.根据权利要求3所述的相似性度量方法,其特征在于,
针对所述相似度矩阵利用计算所述相似度矩阵的方法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果。
5.根据权利要求1所述的相似性度量方法,其特征在于,
在计算基于行为数据的相似度之前还包括白噪声补偿步骤:将用户对物品操作的次数低于预定次数的用户补充至预定次数。
6.根据权利要求1所述的相似性度量方法,其特征在于,
在所述基于特征数据的相似度计算步骤中,包括以下步骤:
利用获取的所述特征数据生成物品和属性之间的关系矩阵、以及属性和物品之间的关系矩阵;
利用所述物品和属性之间的关系矩阵和所述属性和物品之间的关系矩阵生成物品对属性的概率矩阵、以及属性对物品的概率矩阵;
对所述物品对属性的概率矩阵和属性对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
7.根据权利要求1所述的相似性度量方法,其特征在于,
在所述基于特征数据的相似度计算步骤中,利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim'(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
sim ′ ( b i , b j ) = k * Σ m ( s i m ( c m , b i ) * s i m ( c m , b j ) Σ n s i m ( c m , b n ) * Σ n s i m ( c m , b n ) * Σ n s i m ( c n , b i ) * Σ n s i m ( c n , b j ) )
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
8.根据权利要求7所述的相似性度量方法,其特征在于,
还包括基于特征数据的相似度的白噪声补偿步骤:针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
9.一种相似性度量***,其特征在于,包括:
数据获取单元,其获取关于用户的行为数据以及物品的特征数据;
基于行为数据的相似度计算单元,其计算基于行为数据的物品和物品之间的相似度;
基于特征数据的相似度计算单元,其计算基于特征数据的物品和物品之间的相似度;以及
相似度综合单元,其将基于行为数据所得到的相似度与基于特征数据所得到的相似度利用贝叶斯公式进行综合,
sim ′ ′ ( b i , b j ) = sim ′ ( b i , b j ) * sim ′ ′ ( b j , b i ) Σ j sim ′ ( b i , b j ) * sin ′ ′ ( b j , b i )
其中,bi、bj表示物品,下标变量i和j为正整数,先验概率密度sim'(bi,bj)为基于特征数据的物品bi和物品bj之间的相似度结果,条件概率密度sim”(bj,bi)为基于行为数据的物品bj和物品bi相似度结果,sim”'(bi,bj)表示进行了相似度综合的物品bi和物品bj之间的贝叶斯相似度。
10.根据权利要求9所述的相似性度量***,其特征在于,
在所述基于行为数据的相似度计算单元中,包括:
数学模型建立单元,其利用获取的所述行为数据生成用户和物品之间的关系矩阵、以及物品和用户之间的关系矩阵;
概率矩阵生成单元,利用所述用户和物品之间的关系矩阵和所述物品和用户之间的关系矩阵生成用户对物品的概率矩阵、以及物品对用户的概率矩阵;
相似度计算单元,其对所述物品对用户的概率矩阵和用户对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
11.根据权利要求9所述的相似性度量***,其特征在于,
在所述基于行为数据的相似度计算单元中,利用所获取用户集合中的用户a和物品集合中的物品b、以及用户集合中的用户a对物品集合中的物品b无差别的相似性操作次数sim(a,b),执行基于下式的物品集合内部物品bj与物品bi的相似性值sim”(bj,bi)的计算,以生成相似度矩阵,
sim ′ ′ ( b j , b i ) = k * Σ m ( s i m ( a m , b j ) * s i m ( a m , b i ) Σ n s i m ( a m , b n ) * Σ n s i m ( a m , b n ) * Σ n s i m ( a n , b j ) * Σ n s i m ( a n , b i ) )
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
12.根据权利要求11所述的相似性度量***,其特征在于,
还包括相似度增强单元,针对所述相似度矩阵通过所述相似度计算单元法再次进行计算,以得到增强相似度关联的物品和物品之间的增强相似度矩阵来作为所述行为数据的物品bj和物品bi相似度结果,
所述相似度综合单元利用所述增强相似度矩阵利用所述贝叶斯公式进行综合。
13.根据权利要求9所述的相似性度量***,其特征在于,
还包括行为数据的白噪声补偿单元:在通过相似度计算单元计算基于行为数据的相似度之前将用户对物品操作的次数低于预定次数的用户补充至预定次数。
14.根据权利要求9所述的相似性度量***,其特征在于,
在所述基于特征数据的相似度计算单元,包括:
数学模型建立单元,其利用获取的所述特征数据生成物品和属性之间的关系矩阵、以及属性和物品之间的关系矩阵;
概率生成单元,其利用所述物品和属性之间的关系矩阵和所述属性和物品之间的关系矩阵生成物品对属性的概率矩阵、以及属性对物品的概率矩阵;
相似度计算单元,其对所述物品对属性的概率矩阵和属性对物品的概率矩阵进行相乘以计算出物品和物品之间的相似度矩阵。
15.根据权利要求9所述的相似性度量***,其特征在于,
在所述基于特征数据的相似度计算单元,利用所获取物品集合中的物品a和属性集合中的已知属性c、以及属性集合中的已知属性c与物品集合中的物品b的对应属性值sim(c,b),执行基于下式的物品集合内部物品bi与物品bj的相似性值sim'(bi,bj)的计算,以生成针对已知属性的物品和物品之间的相似度矩阵,
sim ′ ( b i , b j ) = k * Σ m ( s i m ( c m , b i ) * s i m ( c m , b j ) Σ n s i m ( c m , b n ) * Σ n s i m ( c m , b n ) * Σ n s i m ( c n , b i ) * Σ n s i m ( c n , b j ) )
其中,i,j,m,n表示集合中元素的标号,k是归一化因子。
16.根据权利要求15所述的相似性度量***,其特征在于,
还包括基于特征数据的相似度的白噪声补偿单元,其针对未知属性将任一物品与其他物品之间的相似度设为相同且和为1,得到针对未知属性的物品和物品之间相似度的白噪声补偿矩阵,并将所述针对已知属性的物品和物品之间的相似度矩阵与针对未知属性的物品和物品之间相似度的白噪声补偿矩阵按照预定比例求和,来作为补充了白噪声的基于特征数据的相似度矩阵。
CN201410267170.6A 2014-06-16 2014-06-16 一种相似性度量的方法以及*** Active CN104063445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410267170.6A CN104063445B (zh) 2014-06-16 2014-06-16 一种相似性度量的方法以及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410267170.6A CN104063445B (zh) 2014-06-16 2014-06-16 一种相似性度量的方法以及***

Publications (2)

Publication Number Publication Date
CN104063445A CN104063445A (zh) 2014-09-24
CN104063445B true CN104063445B (zh) 2017-04-26

Family

ID=51551159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410267170.6A Active CN104063445B (zh) 2014-06-16 2014-06-16 一种相似性度量的方法以及***

Country Status (1)

Country Link
CN (1) CN104063445B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462288B (zh) * 2014-11-27 2017-10-17 华为技术有限公司 一种路径相似度分析方法以及***
JP6686151B2 (ja) * 2017-01-27 2020-04-22 三菱日立パワーシステムズ株式会社 モデルパラメータ値推定装置及び推定方法、プログラム、プログラムを記録した記録媒体、モデルパラメータ値推定システム
CN106845874B (zh) * 2017-03-16 2020-09-08 北京中电普华信息技术有限公司 一种关联度计算方法及装置
CN106991193B (zh) * 2017-04-26 2020-03-13 努比亚技术有限公司 获取物品相似度的方法及终端、计算机可读存储介质
CN109829116B (zh) * 2019-02-14 2021-07-30 北京达佳互联信息技术有限公司 一种内容推荐方法、装置、服务器及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
CN102184314A (zh) * 2011-04-02 2011-09-14 中国医学科学院医学信息研究所 面向偏差性症状描述的自动辅助诊断方法
CN103546789A (zh) * 2013-08-23 2014-01-29 Tcl集团股份有限公司 一种电视节目推荐方法、***及智能终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4276107B2 (ja) * 2004-02-27 2009-06-10 学校法人早稲田大学 心臓磁気計測装置
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
US7640218B2 (en) * 2005-01-18 2009-12-29 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
CN102184314A (zh) * 2011-04-02 2011-09-14 中国医学科学院医学信息研究所 面向偏差性症状描述的自动辅助诊断方法
CN103546789A (zh) * 2013-08-23 2014-01-29 Tcl集团股份有限公司 一种电视节目推荐方法、***及智能终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
推荐引擎中的稀疏性问题研究;覃俊;《万方数据学位首页计算机应用技术》;20140331;全文 *

Also Published As

Publication number Publication date
CN104063445A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
Bag et al. An efficient recommendation generation using relevant Jaccard similarity
CN104063589B (zh) 一种推荐方法以及***
Mohammad The effect of customer empowerment and customer engagement on marketing performance: the mediating effect of brand community membership
US11995702B2 (en) Item recommendations using convolutions on weighted graphs
Jannach et al. What recommenders recommend: an analysis of recommendation biases and possible countermeasures
CN104063445B (zh) 一种相似性度量的方法以及***
Slud et al. Mean-squared error estimation in transformed Fay–Herriot models
CN104111969B (zh) 一种相似性度量的方法以及***
CN106682114A (zh) 一种融合用户信任关系和评论信息的个性化推荐方法
Cho et al. A loss function approach to group preference aggregation in the AHP
CN105787061A (zh) 信息推送方法
CN104199818B (zh) 一种基于分类的社会化推荐方法
Massuia et al. Influence diagnostics for Student-t censored linear regression models
Badriyah et al. A hybrid recommendation system for E-commerce based on product description and user profile
Jeon et al. Understanding E-commerce consumers’ repeat purchase intention: the role of trust transfer and the moderating effect of neuroticism
Hu et al. An item orientated recommendation algorithm from the multi-view perspective
Ivanova et al. How can online marketplaces reduce rating manipulation? A new approach on dynamic aggregation of online ratings
Fisher et al. A limited information estimator for dynamic factor models
Rezaei et al. The moderating impact of product classification on the relationship between online trust, satisfaction, and repurchase intention
Kim The role of dedication-based and constraint-based mechanisms in consumers’ sustainable outcomes in the coffee chain industry
TWI634499B (zh) 資料分析方法、系統及非暫態電腦可讀取媒體
Gatziolis et al. Adaptive user profiling in E-commerce and administration of public services
Alaa El-deen Ahmed et al. Neural collaborative filtering with ontologies for integrated recommendation systems
Brzezinski Empirical modeling of the impact factor distribution
Kumar et al. Context-aware social popularity based recommender system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant