CN102959539B - 一种业务交叉时的项目推荐方法及*** - Google Patents

一种业务交叉时的项目推荐方法及*** Download PDF

Info

Publication number
CN102959539B
CN102959539B CN201180001057.8A CN201180001057A CN102959539B CN 102959539 B CN102959539 B CN 102959539B CN 201180001057 A CN201180001057 A CN 201180001057A CN 102959539 B CN102959539 B CN 102959539B
Authority
CN
China
Prior art keywords
project
user
business
digital media
electronic commerce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180001057.8A
Other languages
English (en)
Other versions
CN102959539A (zh
Inventor
杜家春
汪芳山
钟杰萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN102959539A publication Critical patent/CN102959539A/zh
Application granted granted Critical
Publication of CN102959539B publication Critical patent/CN102959539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了数字媒体或电子商务业务交叉时的项目推荐方法及***,所述方法包括:通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识,并根据所述业务标识从存储器中获取预先存储的业务源数据;为所述目标用户生成候选推荐项目集合;获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。采用本发明实施例的方法或***,能够减少项目推荐时的处理时间,从而提升项目推荐的效率。

Description

一种业务交叉时的项目推荐方法及***
技术领域
本发明涉及通信及互联网技术领域,尤其涉及一种数字媒体或电子商务业务交叉时的项目推荐方法及***。
背景技术
随着互联网技术的普及和迅猛发展,互联网上出现了大量的数据信息,而用户在浏览网页的时候只希望看到自己感兴趣或者需要的数据信息,但是在实际场景中往往会同时出现很多其他无关的数据信息,这就导致虽然数据信息越来越多,但数据信息的利用率却越来越低的现象,称为信息超载现象。
为了防止或者尽量减少信息超载现象给用户与互联网的交互带来的影响,可以在数据信息显示给用户之前对数据信息进行分析处理,例如个性化推荐技术即是通过为用户推荐符合其兴趣或需求的资源来减少信息超载现象的一种方法。个性化推荐技术目前已被广泛应用到电子商务、数字图书馆、音乐、视频和新闻等多个领域中,这多个应用领域也包含多种业务,例如电信运营商在音乐领域里推出了彩铃业务、振铃业务和全曲业务等,对电信运营商而言,各个业务中的项目(这里指音乐)又有一部分是相互重合的,进一步的各个业务的用户可能也有重合。再例如电子商务网站,每一个卖家可以看成是一个业务,卖家的商品可能是重合的,卖家的客户也可能是重合的。这种同一应用领域中多种业务的业务项目和/或用户的部分重合现象,即是业务交叉现象。
个性化推荐的一个传统的技术是协同过滤技术,协同过滤技术基于用户-项目评分数据来进行个性化推荐,用户-项目评分数据可以显式和/或隐式获得。数据的稀疏性会影响最终的推荐效果。在个性化推荐技术的应用领域中,用户-项目评分数据表示用户对于业务中某个项目的喜好程度,用户-项目评分数据的分值越大表示用户越喜好这个项目。用户-项目评分数据可以显式或隐式获得,例如用户直接对项目进行评分操作。但是大多数应用领域中,用户可能仅对大量项目集合中的很少的一部分进行了评分,因此用户-项目评分数据就有很多缺失的现象,用户-项目评分数据也会比较稀疏。
现有技术中,为解决用户-项目评分数据的稀疏性问题,有一种方法是补足用户对未评分项目的评分数据;例如可以将用户对未评分项目的评分设为评分范围的中间值,或是直接将未评分项目的评分设置为用户的平均评分;但是这种默认设置的评分数据具有一定的主观性,通常与实际的用户-项目评分数据差异较大;还有一种方法发是采用某些推荐算法预测出用户对未评分项目的评分;但是这种基于预测评分的方法因为是基于原稀疏数据得到的评分模型,所以也不能保证评分数据的真实有效。
进一步的,当应用现有技术的上述方法时,因为每次在进行项目推荐时都需要动态获取用户-项目评分数据,再根据用户-项目评分数据进行推荐,所以也导致项目推荐的效率较低;并且,因为无法很好的解决用户-项目评分数据的稀疏性问题,且数据质量也不够高,会使得本来不需要显示给用户的数据信息显示给用户,降低了项目推荐的有效性和准确性。
发明内容
本发明实施例提供数字媒体或电子商务业务交叉时的项目推荐方法及***,以结合实际应用领域解决现有技术中用户-项目评分数据的稀疏性问题,减少项目推荐时的处理时间,从而提升项目推荐的效率。
为解决上述技术问题,本发明实施例提供了一种数字媒体或电子商务业务交叉时的项目推荐方法,该方法包括:
通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识,并根据所述业务标识从存储器中获取预先存储的业务源数据;
根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合;
至少根据所述业务源数据中的用户相似度和/或项目相似度获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;
根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;
数字媒体或电子商务业务服务器将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
本发明实施例提供了一种数字媒体或电子商务业务交叉时的项目推荐***,该***包括:
获取标识单元,用于通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识;
获取业务源数据单元,用于根据所述业务标识从存储器中获取预先存储的业务源数据;
生成候选集合单元,用于根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合;
获取预测评分单元,用于至少根据所述业务源数据中的用户相似度和/或项目相似度,获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;
生成最终列表单元,用于根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;
展示单元,用于将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
本发明实施例具有以下优点:
本发明实施例中公开的项目推荐方法通过从存储器中获取预先存储的用户相似度和项目相似度,可以直接为项目推荐提供数据,这样就能减少项目推荐时的处理时间,从而提升项目推荐的效率。进一步的,在预先存储用户相似度和项目相似度之前,通过很好的选择该业务的映射后的用户-项目评分数据,可以通过计算出的用户相似度和项目相似度提高推荐结果的有效性和准确性。因此,本发明实施例能够很好的解决用户-项目评分数据的稀疏性问题,能减少项目推荐时的处理时间,从而提升项目推荐的效率,并且可以通过提升用户-项目评分数据的有效性和真实性,来提升线上推荐结果的有效性和准确性。当然,实施本发明公开的任意一个实施例不一定需要同时达到上述所有效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的数字媒体或电子商务业务交叉时的项目推荐方法中用户相似度和/或项目相似度的获取流程图;
图2是图1所示的流程图中步骤102的流程图;
图3是图2所示的流程图中步骤202的流程图;
图4是图3所示的流程图中步骤304的流程图;
图5是本发明的数字媒体或电子商务业务交叉时的项目推荐方法一个实施例的流程图;
图6是本发明的数字媒体或电子商务业务交叉时的项目推荐方法另一个实施例的流程图;
图7是的数字媒体或电子商务业务交叉时的项目推荐方法又一个实施例的流程图;
图8是本发明的数字媒体或电子商务业务交叉时的用户相似度和/或项目相似度的获取实施例的结构示意图;
图9是图8所示的实施例中整合单元802的结构示意图;
图10是图9所示的整合单元802中第二匹配子单元902的结构示意图;
图11是图10所示的第二匹配子单元902中业务匹配子单元1004的结构示意图;
图12是本发明的数字媒体或电子商务业务交叉时的项目推荐***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对背景技术中提到的个性化推荐技术作进一步的介绍。在个性化推荐技术中应用最广泛的是协同过滤技术。协同过滤技术基于用户-项目评分数据为用户进行个性化推荐。这里假设用户Ui对项目Ij的评分为rij,这种评分可以显式获得(用户对项目进行评分操作),也可以隐式获得(通过用户对项目的搜索、浏览或/和购买等行为构造评分函数计算得到)。通常,用户-项目评分的分值都会以限定在某一范围内的整数表示,分值越大表示用户越喜欢该项目。
在协同过滤技术中最常用的为基于记忆的协同过滤技术,基于记忆的协同过滤技术包括基于用户的协同过滤技术与基于项目的协同过滤技术。基于用户的协同过滤算法的基本原理是利用用户对项目评分的相似性来互相推荐用户可能感兴趣的项目。例如,对当前用户U,***通过其评分记录及特定相似度函数,计算出与其评分行为最相近的k个用户作为用户U的最近邻居集,通过统计U的近邻用户评分过而U未评分的项目生成候选推荐集,然后计算U对候选推荐集中每个项目i的预测评分,并取其中预测评分最高的N个项目作为用户U的top-N推荐集。基于项目的协同过滤算法则比较项目之间的相似性,并根据当前用户已评分项目的相似项目生成候选推荐集。
本发明的数字媒体或电子商务业务交叉时的项目推荐方法主要由线下(可以理解为后台***)和线上(可以理解为前台***)两部分组成,其中,项目推荐的功能是在线上部分实现的,而项目推荐方法中所使用的业务源数据在线下部分进行运算并存储至存储器中,所述源数据应至少包括用户相似度和/或项目相似度,以便线上***可以根据用户相似度和/或项目相似度进行项目推荐。并且,所述相似度和/或项目相似度的获取方法可由处理器执行,并将执行结果存储至存储器中;而用户项目推荐方法在具体实施时可由与所述处理器功能上相连的数字媒体或电子商务服务器执行,该数字媒体或电子商务服务器可以通过人机交互界面和用户进行数据交互,并可通过计算机网络接口实现初始源数据或者业务源数据的获取和共享。
在实施例部分,为了方便本领域技术人员更清楚的了解存储器中存储的用户相似度和/或项目相似度的获取方式,所以参考图1,为实现本发明实施例中用户相似度和/或项目相似度的获取方法流程图,具体可以包括以下步骤:
步骤101:获取多种不同数字媒体或电子商务业务的初始源数据,所述初始源数据包括:所述多种数字媒体或电子商务业务的初始用户-项目评分数据。
在实际应用中,所述初始源数据应该至少包括多种业务的初始用户-项目评分数据;可选的,还可以包括多种业务的用户属性数据和项目属性数据,以及通话详单数据等。
其中,所述数字媒体或电子商务业务,包括但不限于:音乐、应用下载、网上书店、电子阅读、游戏和/或网上购物。用户-项目评分数据为各种业务对应的用户在业务使用过程中产生的用户对项目的评分数据。通话详单为一段时间内用户之间的通话记录,也可利用短信详单、即时通讯记录或电子邮件通信记录等类似反映用户之间联系情况的数据。
步骤102:依据多种数字媒体或电子商务业务之间的所有用户和项目的匹配结果及所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果,将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述多种数字媒体或电子商务业务的所有用户及项目的统一用户-项目评分数据。
其中,所述初始源数据还可以包括:多种业务的用户属性数据和项目属性数据,参考图2,所述步骤102在具体实现时又可以包括如下步骤:
步骤201:依据所述用户属性数据中的初始用户标识、初始用户属性及初始用户属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际用户;所述初始用户标识表示在某一种业务内唯一的用户;所述初始用户属性值用于表示在所述多种业务之间都唯一的用户。
其中,所述用户属性数据用以描述各种业务中的各个用户的属性,所述项目属性数据用以描述各种业务中的各个项目的属性。例如在音乐领域内,各业务中的用户属性数据包括用户的联系电话等,而各业务中的项目属性数据包括音乐名、歌手、流派、专辑名、发行时间、地域、语种、时长和/或格式等。
步骤201执行的即是步骤102中对多种数字媒体或电子商务业务之间的所有用户进行匹配的过程,这里的用户匹配是指确定在这些不同的用户属性数据中,哪些用户是同一个用户。用户匹配可以根据各业务的用户属性值与用户标识之间的关联匹配完成,其中用户属性值能唯一标识用户身份;并通过关联匹配关系找出各业务中哪些用户是同一个用户。
例如在业务A中,初始用户标识为“张律师”,而在业务B中,初始用户标识为“张三”,但是这两个初始用户标识对应的联系方式都为“1380000000”,即是用户属性值都为“1380000000”,则表示业务A中的“张律师”与业务B中的“张三”为同一个人。
步骤202:依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际项目;所述初始项目标识表示在某一种业务内唯一的项目。
所述步骤202执行的即是步骤102中对各种业务之间的所有项目进行匹配的过程。项目匹配是指确定在这些不同的业务中哪些项目是同一个项目。
参考图3所示,所述步骤202在具体实现时又可以包括如下步骤:
步骤301:利用多种数字媒体或电子商务业务的初始项目属性匹配多种数字媒体或电子商务业务之间不同的实际项目属性。
本步骤即是利用初始项目属性的名称匹配关系将各种数字媒体或电子商务业务的项目属性数据所包含的项目的属性名称进行匹配,得到在各个数字媒体或电子商务业务之间的实际项目属性。初始项目属性的名称匹配关系可以是各领域预先建立好的,也可以由人工参与的方式完成。在属性名称匹配的过程中,可以认为“音乐名”与“歌曲名”指的是同一个项目属性,或者“歌手”与“歌唱家”指的是同一个项目属性。
步骤302:依据所述不同的实际项目属性获取多种数字媒体或电子商务业务之间的项目属性集重合度以及每一种业务与其他业务的项目属性集重合度均值。
假设经过项目属性的名称匹配之后得到的所有的不同属性名称为T个,则两种数字媒体或电子商务业务之间的项目属性集重合度通过公式(1)计算:
C ( S i , S j ) = | { Attr t | Attr t ∈ S i } ∩ { Attr t | Attr t ∈ S j } | | { Attr t | Attr t ∈ S i } ∪ { Attr t | Attr t ∈ S j } | , 1≤t≤T(1)
其中,假设业务一共有K种,Si和Sj(1≤i≠j≤K)分别表示第i种业务和第j种业务,{Attrt|Attrt∈Si}表示第i种业务中的项目属性集合,Attrt表示第t个属性。
那么,第i种业务与其他业务的项目属性集重合度均值通过公式(2)计算:
C S i ‾ = 1 K Σ j = 1 K C ( S i , S j ) - - - ( 2 )
步骤303:按照所述项目属性集重合度均值的大小对所述多种数字媒体或电子商务业务进行排序。
对所述各种数字媒体或电子商务业务进行排序,排序之后位于序列前面的业务的项目属性集重合度均值大,位于序列后面的数字媒体或电子商务业务的项目属性集重合度均值小。
步骤304:按照排序之后多种数字媒体或电子商务业务的先后顺序,以第一种业务为当前业务执行业务匹配流程,所述业务匹配流程包括:确定所述当前业务与其他业务的匹配项目,以及,删除所述当前业务。
选择序列中第一种业务,按照该业务内所包含项目的项目标识顺序,依次为该第一种业务中的每一个项目在其他业务中确定匹配项目,该匹配项目与第一种业务中的项目是同一个项目,当第一种业务的各个项目匹配完成之后,删除第一种业务,再开始匹配第二种业务中的各个项目,以此类推,直至所有的业务都匹配完成。
参考图4所示,所述步骤304中在确定所述当前业务与其他业务的匹配项目时,可以按照如下方式进行:
步骤401:按照当前业务所包含的初始项目标识顺序,选择第一个项目作为当前项目执行项目匹配流程。
具体在当前数字媒体或电子商务业务(即是第一种业务)包括的各个项目中,需要按照初始项目标识顺序先选择第一个项目作为当前项目执行项目匹配流程;具体的,所述项目匹配流程可以包括:
子步骤4011:利用初始项目属性值计算当前项目与其他业务中各个项目的项目匹配度;
在计算项目匹配度的时候,可以利用初始项目属性值采用公式(3)进行处理:
M ( I i , I j ) = Σ t = 1 T w t · δ Attr t ( I i ) , Attr t ( I j ) - - - ( 3 )
其中,Ii和Ij分别表示两个项目,wt(1≤t≤T)为第t个属性的权重,Attrt(Ii)表示项目Ii的第t个属性的属性值。当项目Ii和Ij的第t个属性的属性值都存在且相等时,函数取值为1,否则为0。
子步骤4012:针对每一种其他业务,依据预设的阈值条件选取合适的项目匹配度,以形成多个项目匹配度集合;
针对每一种其他业务,保留所有不小于预定阈值的项目匹配度,形成多个项目匹配度数据集。这里的预定阈值与每个业务相关,其取值在0~1之间,可以依据实际业务有所不同。
子步骤4013:在每个项目匹配度集合中选择匹配度最高的项目作为当前项目的匹配项目;
子步骤4014:记录所述当前项目与其匹配项目的匹配关系,并删除所述多种数字媒体或电子商务业务中包括的所述匹配项目;
子步骤4015:删除所述当前项目;
子步骤4016:判断该数字媒体或电子商务业务的所有项目集是否为空,如果是则结束,否则执行步骤402。
步骤402:以所述第一种业务中的第二个项目为当前项目,执行所述项目匹配流程,直至所述第一种业务中包含的项目为空。
当所述第一种业务的第一个项目匹配完毕之后,以第二个项目为当前项目,执行所述项目匹配流程,直至所述第一种业务中包含的项目全部匹配完毕。
步骤305:以第二种业务为所述当前业务执行业务匹配流程,直至所述序列中的业务为空时,依据所述匹配项目以及项目匹配关系获取在所述多种数字媒体或电子商务业务之间都唯一的实际项目。
当所述第一种业务包含的所有项目都匹配完毕之后,再以第二种业务为当前业务,执行业务匹配流程,直至所有的数字媒体或电子商务业务中的所有项目都匹配完毕。
当所有数字媒体或电子商务业务的所有项目都匹配完毕之后,依据匹配项目以及项目匹配关系确定出在各个数字媒体或电子商务业务之间都唯一的实际项目。
步骤203:依据多种数字媒体或电子商务业务的初始用户-项目评分数据、多种数字媒体或电子商务业务的用户-项目评分分值范围及所述分值范围的最小值,获取所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果。
当确定出实际项目之后,将各种数字媒体或电子商务业务的用户-项目评分数据中的评分分值范围规范化,并计算规范化后的各种数字媒体或电子商务业务的用户-项目评分数据。规范化结果的计算公式为:
r ij ( k ) ′ = [ r ij ( k ) - min ( rate ( k ) ) range ( k ) · min 1 ≤ k ≤ K ( range ( k ) ) + min ( rank ( arg min 1 ≤ k ≤ K ( range ( k ) ) ) ) + 0.5 ] - - - ( 4 )
其中,假设业务一共有K种,(1≤k≤K)表示规范化后第k种业务中用户Ui对项目Ij的规范化结果的评分,(1≤k≤K)表示第k种业务中用户Ui对项目Ij的原始评分,range(k)(1≤k≤K)表示第k种业务的评分分值范围,min(rate(k))(1≤k≤K)表示第k种业务的评分分值范围的最小值。
步骤204:依据所述实际用户、实际项目以及规范化结果,整合所述多种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据,所述统一的用户-项目评分数据中包括所述多种数字媒体或电子商务业务中所有用户和项目的整合后的用户-项目评分数据。
基于用户匹配、项目匹配以及各种数字媒体或电子商务业务的用户-项目评分数据规范化之后的结果,整合各种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据。因为在原始的用户-项目评分数据中,各个用户之间以及各个项目之间存在重复现象,所以要将原始的用户-项目评分数据进行整合,生成的统一的用户-项目评分数据中用户和项目都是实际用户和实际项目,因此,同一个用户对同一个项目的评分数据只有一个分值。
在本步骤中,实际用户Ui对实际项目Ij的唯一的评分rij可以使用公式(5)、(6)或者(7)中的任一种方法得到:
r ij = max 1 ≤ k ≤ K ( r ij ( k ) ) - - - ( 5 )
存在至少一个(6)
其中,公式(6)中的αik(1≤k≤K)为用户Ui对第k种业务的偏好权重,可以预先设为用户Ui在第k种业务中的评分次数,或是用户Ui使用第k种业务的时长等;需要说明的是,在用户项目属性数据中包括通话详单时,可以采用公式(7)来计算,公式(7)中的NB(Ui)是用户Ui在一段时间内的联系人集合,通过通话详单可以得到,也可以通过短信详单、即时通讯记录或电子邮件通信记录等得到。βis是用户Ui与用户Us的紧密度,可以预先设为一段时间内用户Ui与用户Us的联系频率,或者联系时长等。
步骤103:将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据。
当得到统一的用户-项目评分数据之后,需要再将统一的用户-项目评分数据依次映射到各种数字媒体或电子商务业务,以生成各种数字媒体或电子商务业务映射后的用户-项目评分数据。
针对每种业务,方式一:可以在统一的用户-项目评分数据中抽取出每种业务所包含的全体项目对应的所有评分数据,构成映射后的各种业务相关的用户-项目评分数据;
方式二:也可以在统一的用户-项目评分数据中抽取出每种业务所包含的全体用户对应的所有的评分数据,构成映射后的各种业务相关的用户-项目评分数据;
方式三:也可以在统一的用户-项目评分数据中抽取出每种业务所包含的全体项目和全体用户均对应的所有评分数据,构成映射后的各种业务相关的用户-项目评分数据。
步骤104:依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据获取同一种业务内不同用户之间的用户相似度和/或同一种业务内不同项目之间的项目相似度。
具体的,依据所述映射后的用户-项目评分数据、同一种业务内两个不同用户共同评分的项目的集合和所述两个不同用户各自评分的项目的集合计算所述两个不同用户之间的用户相似度;和/或,
依据所述映射后的用户-项目评分数据、同一种业务内对两个不同项目共同评分的用户的集合和所述对两个不同项目各自评分的用户的集合计算所述两个不同项目之间的项目相似度。
需要说明的是,在步骤104中,可以只计算同一种业务内不同用户之间的用户相似度,也可以只计算同一种业务内不同项目之间的用户相似度,也可以同一种业务中不同用户和不同项目之间都计算相似度。具体的,可以采用公式(8)的余弦相似度计算同一种业务内不同用户之间的用户相似度:
sim ( U i , U j ) = Σ I t ∈ X U i , U j r it · r jt Σ I t ∈ X U i r it 2 · Σ I t ∈ X U j r jt 2 - - - ( 8 )
其中,表示用户Ui和用户Uj所共同评过分的项目的集合,表示用户Ui所评过分的项目的集合。
采用公式(9)的余弦相似度计算同一种业务内不同项目之间的项目相似度:
sim ( I i , I j ) = Σ U t ∈ X I i , I j r ti · r tj Σ U t ∈ X I i r ti 2 · Σ U t ∈ X I j r tj 2 - - - ( 9 )
其中,表示对项目Ii和项目Ij都评过分的用户的集合,表示对项目Ii评过分的用户的集合。
步骤105:将所述用户相似度和/或项目相似度存储至所述存储器中。
在获取到用户相似度和/或项目相似度之后,因为需要在进行项目推荐时使用,所以可以先将用户相似度和/或项目相似度存储至存储器中,这样后续如果需要向用户进行项目推荐,就可以直接从存储器中获取到所需要的用户相似度和/或项目相似度,这样就能够直接为后续执行的项目推荐提供业务源数据,以减少项目推荐的推荐时间,从而提高项目推荐的效率。
进一步的,图1公开的用户相似度和/或项目相似度的获取方法,因为通过用户-项目评分数据的规范整合以及映射来计算用户相似度或者项目相似度,不仅可以为项目推荐提供数据,还可以通过很好的选择该业务的映射后的用户-项目评分数据以及相应的用户相似度和/或项目相似度,可以提高项目推荐的有效性准确性。
为了方便本领域技术人员更好的理解关于用户相似度和/或项目相似度的原理,参考图5,给出了一个获取用户相似度和/或项目相似度的具体实例,其实现的方法可以包括以下步骤:
步骤501:获取多种数字媒体或电子商务业务的初始源数据,所述初始源数据包括:多种数字媒体或电子商务业务的初始用户-项目评分数据。
假设在音乐领域中存在3种业务,分别记为S1,S2,S3,在业务S1中,假设评分分值范围是1-5,业务S1中的用户-项目评分数据如表1所示:
表1
表1中没有数据的位置表示用户没有针对对应的项目评过分,即用户-项目评分数据不存在。
业务S1中的用户属性数据如表2所示:
表2
  用户标识   联系电话
  U1   134********
  U2   134********
  U3   138********
  U4   158********
  U5   137********
业务S1中的项目属性数据如表3所示:
表3
  项目标识   音乐名   歌手
  I1   一路上有你   张学友
  I2   为了爱梦一生   王杰
  I3   寂寞沙洲冷   周传雄
  I4   完美的互动   王力宏
而在业务S2中,评分分值范围是1-10,业务S2中的用户-项目评分数据如表4所示:
表4
业务S2中的用户属性数据如表5所示:
表5
  用户标识   联系电话
  U1   138********
  U2   138********
  U3   134********
  U4   137********
  U5   150********
  U6   139********
业务S2中的项目属性数据如表6所示:
表6
  项目标识   歌曲名   歌唱家   专辑名
  I1   一路上有你   张学友   黑与白
  I2   一颗不变心   张学友   一颗不变心
  I3   寂寞沙洲冷   周传雄   星空下的传说
  I4   一剪梅   费玉清   天之大
  I5   七里香   周杰伦   七里香
而在业务S3中,评分分值范围是1-5,业务S3中的用户-项目评分数据如表7所示:
表7
业务S3中的用户属性数据如表8所示:
表8
  用户标识   联系电话
  U1   139********
  U2   137********
  U3   134********
  U4   138********
  U5   138********
  U6   150********
  U7   137********
业务S3中的项目属性数据如表9所示:
表9
  项目标识   歌曲名   歌手   流派   语种
  I1   完美的互动   王力宏   流行   普通话
  I2   一剪梅   费玉清   经典老歌   普通话
  I3   秋天不回来   王强   流行   普通话
  I4   七里香   周杰伦   流行   普通话
  I5   园游会   周杰伦   流行   普通话
步骤502:依据所述用户属性数据中的初始用户标识、初始用户属性及初始用户属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际用户。
首先进行多种业务中的用户匹配过程。根据表2、表5和表8的内容,以联系电话相同的用户为同一个用户,得到3种业务中的所有用户匹配关系数据如表10所示:
表10
  匹配后分配的用户标识   业务S1   业务S2   业务S3
U′1 U1 U3
U′2 U2 U3
U′3 U3 U2
U′4 U4
U′5 U5 U4 U2
U′6 U1 U4
U′7 U5 U6
U′8 U6 U1
U′9 U5
U′10 U7
在表10中的第一列表示经过用户匹配之后重新分配的在各个业务内都唯一的实际用户标识,也表示在统一的用户-项目评分数据中的用户。以表10的第二行为例说明用户匹配关系:该行表明业务S1的用户U1与业务S2的用户U3是同一个用户,在统一的用户-项目评分数据中以U1表示。
步骤503:依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在所述多种数字媒体或电子商务业务之间唯一的实际项目。
在本步骤中首先是属性名称匹配。在本实例中,项目属性“音乐名”与“歌曲名”指的是同一个项目属性,而“歌手”与“歌唱家”也指的是同一个项目属性。那么由公式(1)和(2)得到的各种业务的项目属性集重合度均值如表11所示:
表11
  业务标识   项目属性集重合度均值
  S1   0.58
  S2   0.53
  S3   0.45
假设在项目匹配过程中,取音乐名、歌手、专辑名、流派和语种的权重分别为0.5、0.3、0.1、0.05和0.05,并取业务S1与业务S2、业务S1与业务S3、业务S2与业务S3的项目匹配度阈值分别为0.8、0.7和0.7的情况下,得到本实例中的项目匹配关系如表12所示:
表12
  匹配后分配的项目标识   S1   S2   S3
I′1 I1 I1
I′2 I2
I′3 I3 I3
I′4 I4 I1
I′5 I2
I′6 I4 I2
I′7 I5 I4
I′8 I3
I′9 I5
在表12中的第一列数据表示经过项目匹配之后重新分配的在各种业务间都唯一的实际项目标识,也表示在统一的用户-项目评分数据中的项目。以表12的第二行为例说明项目匹配关系:该行表明业务S1的项目I1与业务S2的项目I1是同一个项目,在统一的用户-项目评分数据中以I′1表示。
步骤504:依据所述多种数字媒体或电子商务业务的初始用户-项目评分数据、多种数字媒体或电子商务业务的用户-项目评分分值范围及所述分值范围的最小值,计算得到所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果。
在本步骤中利用公式(4),得到的规范化之后的各种业务的用户-项目评分数据。业务S1的规范化后用户-项目评分数据如表13所示:
表13
业务S2的规范化后的用户-项目评分数据如表14所示:
表14
业务S3的规范化后的用户-项目评分数据如表15所示:
表15
步骤505:依据所述实际用户、实际项目以及规范化结果,整合所述多种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据,所述统一的用户-项目评分数据中包括所述多种数字媒体或电子商务业务中所有用户和项目的整合后的用户-项目评分数据。
在步骤505中具体利用前述公式(5),得到的统一用户-项目评分数据,具体如表16所示:
表16
在表16中,用户和项目都分别在各种业务之间唯一,则可以从表16中看出,在3种业务中,不同的实际用户有10个,不同的实际项目有9个。
步骤506:将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据。
利用前述方式三,可以得到各种业务映射后的业务相关的用户-项目评分数据。业务S1中映射后的用户-项目评分数据如表17所示:
表17
业务S2中映射后的用户-项目评分数据如表18所示:
表18
业务S3中映射后的用户-项目评分数据如表19所示:
表19
步骤507:依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据计算同一种业务内不同项目之间的项目相似度。
在步骤507中假设计算同一种数字媒体或电子商务业务内不同项目之间的相似度,利用前述公式(9)可以计算得到各种数字媒体或电子商务业务的项目相似度。业务S1的项目相似度数据如表20所示:
表20
I′1 I′2 I′3 I′4
I′1 1.00 0.44 0.73 0.00
I′2 0.44 1.00 0.00 0.39
I′3 0.73 0.00 1.00 0.35
I′4 0.00 0.39 0.35 1.00
业务S2的项目相似度数据如表21所示:
表21
I′1 I′5 I′3 I′6 I′7
I′1 1.00 0.44 0.49 0.38 0.24
I′5 0.44 1.00 0.00 0.77 0.64
I′3 0.49 0.00 1.00 0.00 0.42
I′6 0.38 0.77 0.00 1.00 0.73
I′7 0.24 0.64 0.42 0.73 1.00
业务S3的项目相似度数据如表22所示:
表22
I′4 I′6 I′8 I′7 I′9
I′4 1.00 0.44 0.23 0.57 0.77
I′6 0.44 1.00 0.41 0.54 0.56
I′8 0.23 0.41 1.00 0.44 0.00
I′7 0.57 0.54 0.44 1.00 0.24
I′9 0.77 0.56 0.00 0.24 1.00
在本例子中,因为各种数字媒体或电子商务业务同属于音乐领域,所以进行用户-项目评分数据的规范、整合与映射是合理的。通过本实施例的这种项目相似度的获取方法,得到的映射后的业务相关的用户-项目评分数据比原始的各种业务的用户-项目评分数据更加丰富,并且可信度高,可以很好地解决用户-项目评分数据的稀疏性问题,而在进行项目推荐时再通过很好的选择该业务的映射后的用户-项目评分数据以及相应的用户相似度和/或项目相似度,也可以提高项目推荐的有效性和准确性。
介绍完本发明实施例中涉及的用户相似度和/或项目相似度的获取流程之后,参考图6所示,本发明实施例公开的项目推荐方法具体可以包括:
步骤601:通过计算机网络接口获取目标用户正在使用的业务标识和目标用户标识。
在本步骤中目标用户即是需要为其推荐项目的用户,首先获取目标用户正在使用的业务标识及其用户标识。需要说明的是,这里的目标用户标识在同一个业务内是唯一的,在不同业务中不一定唯一,但是因为可以依据业务标识唯一确定一个目标业务,因此,目标业务标识在该目标业务中可以唯一确定一个用户。
步骤602:根据所述业务标识从存储器中获取预先存储的业务源数据。
其中,所述业务源数据具体可以包括:该业务映射后的用户-项目评分数据、该业务的不同项目之间的相似度、用户匹配关系数据和项目匹配关系数据;或者,该业务映射后的用户-项目评分数据、该业务的不同用户之间的相似度、用户匹配关系数据和项目匹配关系数据。
根据业务标识可以从线下数据处理流程的结果中获取该业务映射后的用户-项目评分数据和该业务的不同项目之间的相似度,以及用户匹配关系数据和项目匹配关系数据,也可以从线下数据处理流程的结果中获取该业务映射后的用户-项目评分数据和该业务的不同用户之间的相似度,还可以获取到用户匹配关系数据和项目匹配关系数据。
假设在实际中需要为前述业务S3的用户U5推荐一个项目,则获取到的目标业务标识为业务S3,目标用户标识为业务S3中的用户U5,根据目标业务标识获取到的映射后的用户-项目评分数据为表19所示的内容,该业务内不同项目之间的相似度为表22所示的内容,用户匹配关系数据为表10所示的内容,项目匹配关系数据为表12所示的内容。
步骤603:根据所述目标用户标识、目标用户正在使用的业务标识及业务源数据,为所述目标用户生成候选推荐项目集合。
在本步骤中需要根据目标用户标识、目标用户正在使用的业务标识及业务源数据为目标用户生成候选推荐项目集合。该候选推荐项目结合在获取过程中可以采用如下任一种方式或者两种方式的结合:
方式A:选择与所述目标用户的用户相似度满足预置条件的用户,并选择所述用户相似度满足预置条件的用户的评分高于预定阈值且所述目标用户没有评分的项目组成候选推荐项目集合;
其中,所述候选推荐项目集合中的候选推荐项目均属于所述目标用户正在使用的数字媒体或电子商务业务。
其中,所述候选推荐项目可以包括:数字媒体内容、电子商务产品或统一资源定位符URL。
方式B:选择与所述目标用户的用户-项目评分高于预设阈值的项目,并选择与所述用户-项目评分高于预设阈值的项目之间的项目相似度满足预置条件且所述目标用户没有评分的项目组成候选推荐项目集合;其中,所述候选推荐项目集合中的候选推荐项目均属于所述目标用户正在使用的业务。
其中,判断一个项目是否属于目标用户正在使用的数字媒体或电子商务业务,可以根据目标用户正在使用的业务标识和实际项目标识进行判断。
以方式B为例,根据步骤601中获取到的表19和表22,针对用户U5(即是表19中的U′9)的用户-项目数据的评分值高的项目,满足与所述评分值高的项目之间的相似度高并且用户U5没有评过分的项目组成候选推荐项目集合。
在本例子中,假设认为用户U5评分值不小于3的项目定义为评分值高的项目,则得到的项目为I′4和I′8;再假设相似度高的含义为相似度不小于0.4,那么,与I′4相似度高且用户U5没有评过分的项目为I′6、I′7和I′9,与I′8相似度高并且用户U5没有评过分的项目为I′6和I′7,因此候选推荐项目集合包括I′6、I′7和I′9,对应到业务S3中的项目为I2、I4和I5
步骤604:至少根据所述业务源数据中的用户相似度和/或项目相似度获取所述候选推荐项目集合中每一个候选推荐项目的预测评分。
在实际应用中,用户Ui对项目Ij的预测评分可以采用公式(10)、(11)和(12)中的任意一种方式计算:
P U i , I j = Σ U k ∈ NN U i sim ( U i , U k ) · r kj Σ U k ∈ NN U i | sim ( U i , U k ) | - - - ( 10 )
P U i , I j = Σ I k ∈ NN I j sim ( I j , I k ) · r ik Σ I k ∈ NN I j | sim ( I j , I k ) | - - - ( 11 )
P U i , I j = α · Σ U k ∈ NN U i sim ( U i , U k ) · r kj Σ U k ∈ NN U i | sim ( U i , U k ) | + ( 1 - α ) Σ I k ∈ NN I j sim ( I j , I k ) · r ik Σ I k ∈ NN I j | sim ( I j , I k ) | - - - ( 12 )
其中,公式(10)中的表示与用户Ui相似度高的用户组成的集合,即用户Ui的近邻;sim(Ui,Uk)表示用户Ui与用户Uk的相似度;公式(11)中的表示与项目Ij相似度高的项目组成的集合,即项目Ij的相似项目集,sim(Ij,Ik)表示项目Ij与项目Ik的相似度;公式(12)中的α是0到1之间的参数,可以依据经验人工设定,或者根据训练数据学习得到,例如不断调整α的值,选择最终误差最小的那一个。
假设利用公式(11)计算预测评分,则用户U5对项目I2、I4和I5的预测评分分别为3.96、3.87和3.00。
步骤605:根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表。
根据预测评分为目标用户生成最终项目列表,该最终项目列表包含预测评分较高的若干个项目,具体选取多少个项目还可以根据实际情况进行调整。假设在本实例中取预测评分最高的候选推荐项目作为最终项目列表,则最终项目列表为项目I2。当然,也可以选择项目I2和I4作为最终项目列表。
步骤606:数字媒体或电子商务业务服务器将所述最终推荐项目列表发送至所述目标用户的客户端进行展示。
当生成最终项目列表之后,数字媒体或电子商务业务服务器在将最终推荐项目列表发送给所述目标用户的客户端进行展示。
在本实施例中,进行项目推荐时,根据目标用户标识和业务标识,可以选择该业务的映射后的用户-项目评分数据以及相应的用户相似度和/或项目相似度,通过直接利用存储器中存储的用户相似度和/或项目相似度,即是较好地选择了该业务的映射后的用户-项目评分数据以及相应的相似度,所以减少了项目推荐的处理时间,提升了项目推荐的效率,并且可以提高项目推荐的有效性和准确性。
参考图7,本发明实施例还公开了一种业务交叉时的项目推荐方法,该方法同时包括了用户相似度和/或项目相似度的获取流程和项目推荐流程;具体的,该业务交叉时的项目推荐方法可以包括如下步骤:
步骤701:获取多种不同数字媒体或电子商务业务的初始源数据,所述初始源数据包括:多种业务的初始用户-项目评分数据。
步骤702:依据多种数字媒体或电子商务业务之间的用户和项目的匹配结果及所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果,将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述各多种数字媒体或电子商务业务的用户及项目的统一用户-项目评分数据。
步骤703:将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据。
步骤704:依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据获取同一种业务内不同用户之间的用户相似度和/或同一种业务内不同项目之间的项目相似度。
步骤705:将所述用户相似度和/或项目相似度存储至所述存储器中。
需要说明的是,步骤701~步骤705所示意的存储用户相似度和/或项目相似度的过程可以认为是预处理过程,可以和后续步骤706~711所示意的项目推荐过程独立进行,这样也能保证项目推荐的实时性和有效性。在本实施例中为了方便起见才将预处理过程和项目推荐过程按照顺序进行介绍。
步骤706:通过计算机网络接口获取目标用户正在使用的业务标识和目标用户标识。
步骤707:根据所述业务标识从存储器中获取预先存储的业务源数据。
步骤708:根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及源数据,为所述目标用户生成候选推荐项目集合。
步骤709:至少根据所述业务源数据中的用户相似度和/或项目相似度获取所述候选推荐项目集合中每一个候选推荐项目的预测评分。
步骤710:根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表。
步骤711:数字媒体或电子商务业务服务器将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
因为用户相似度和/或项目相似度的获取流程与项目推荐流程在之前的实施例中已经介绍的非常详细,所以本实施例未尽之处,可以参考用户相似度和/或项目相似度的获取流程与项目推荐流程的相关介绍。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
与上述本发明实施例所提供的用户相似度和/或项目相似度的获取方法相对应,参见图8,本发明实施例还提供了用户相似度和/或项目相似度的获取实施例的结构示意图,具体可以包括:
获取初始源数据单元801,用于获取不同数字媒体或电子商务业务的初始源数据,所述初始源数据包括:多种数字媒体或电子商务业务的初始用户-项目评分数据;
整合单元802,用于依据多种数字媒体或电子商务业务之间的用户和项目的匹配结果及所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果,将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述多种数字媒体或电子商务业务的用户及项目的统一用户-项目评分数据;
所述初始源数据还可以包括:多种数字媒体或电子商务业务的用户属性数据和项目属性数据,参考图9所示,则所述整合单元802具体可以包括:
第一匹配子单元901,用于依据所述用户属性数据中的初始用户标识、初始用户属性及初始用户属性值,匹配得到在所述多种数字媒体或电子商务业务之间唯一的实际用户;所述初始用户标识表示在某一种业务内唯一的用户;所述初始用户属性值用于表示在所述多种业务之间都唯一的用户;
第二匹配子单元902,用于依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际项目;所述初始项目标识表示在某一种业务内唯一的项目;
参考图10所示,所述第二匹配子单元902具体又可以包括:
第三匹配子单元1001,用于利用多种数字媒体或电子商务业务的初始项目属性匹配多种数字媒体或电子商务业务之间不同的实际项目属性;
第二获取子单元1002,用于依据所述不同的实际项目属性获取多种数字媒体或电子商务业务之间的项目属性集重合度以及每一种业务与其他业务的项目属性集重合度均值;
排序子单元1003,用于按照所述项目属性集重合度均值的大小对所述多种数字媒体或电子商务业务进行排序;
业务匹配子单元1004,用于按照排序之后所述多种数字媒体或电子商务业务的先后顺序,以第一种业务为当前业务执行业务匹配流程,所述业务匹配流程包括:确定所述当前业务与其他业务的匹配项目,以及,删除所述当前业务;
参考图11所示,所述业务匹配子单元1004,具体又可以包括:
项目匹配子单元1102,用于按照第一种业务所包含的初始项目标识顺序,选择第一个项目作为当前项目执行项目匹配流程;所述项目匹配流程包括:计算当前项目与其他业务中各个项目的项目匹配度;针对每一种其他业务,依据预设的阈值条件选取合适的项目匹配度,以形成多个项目匹配度集合;在每个项目匹配度集合中选择匹配度最高的项目作为当前项目的匹配项目;记录所述当前项目与其匹配项目的匹配关系,并删除各种业务中包括的所述匹配项目;删除所述当前项目;
循环子单元1103,以所述第一种业务中的第二个项目为当前项目,执行所述项目匹配流程,直至所述第一种业务中包含的项目为空。
第三获取子单元1005,用于以第二种业务为所述当前业务执行业务匹配流程,直至所述序列中的业务为空时,依据所述匹配项目以及项目匹配关系获取在所述多种数字媒体或电子商务业务之间都唯一的实际项目。
第一获取子单元903,用于依据多种业务的初始用户-项目评分数据、多种业务的用户-项目评分分值范围及所述分值范围的最小值,获取所述多种业务的初始用户-项目评分数据的规范化结果;
整合子单元904,用于依据所述实际用户、实际项目以及规范化结果,整合所述多种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据,所述统一的用户-项目评分数据包括所述多种数字媒体或电子商务业务中用户和项目的整合后的用户-项目评分数据。
生成评分数据单元803,用于将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据;
在实际应用中,所述生成评分数据单元803,进一步可以用于:
针对每种业务,在统一的用户-项目评分数据中抽取出每种数字媒体或电子商务业务所包含的全体项目和/或全体用户对应的所有用户-项目评分数据,构成各种业务的映射后的用户-项目评分数据。
获取相似度单元804,用于依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据计算同一种业务内不同用户之间的相似度和/或同一种业务内不同项目之间的相似度。
在实际应用中,所述获取相似度单元804,进一步可以用于:
依据所述映射后的用户-项目评分数据、同一种业务内两个不同用户共同评分的项目的集合和所述两个不同用户各自评分的项目的集合计算所述两个不同用户之间的相似度;和/或,
依据所述映射后的用户-项目评分数据、同一种业务内对两个不同项目共同评分的用户的集合和所述对两个不同项目各自评分的用户的集合计算所述两个不同项目之间的相似度。
存储单元805,用于将所述用户相似度和/或项目相似度存储至所述存储器中。
本发明实施例中公开的用户相似度和/或项目相似度的获取***,因为通过用户-项目评分数据的规范整合以及映射来计算用户相似度或者项目相似度,不仅可以为项目推荐提供数据,还可以通过很好的选择该业务的映射后的用户-项目评分数据以及相应的用户相似度和/或项目相似度,可以提高项目推荐的有效性准确性。
参考图12所示,本发明实施例还公开了一种业务交叉时的项目推荐***,该项目推荐***包括:
获取标识单元1201,用于通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识;
获取业务源数据单元1202,用于根据所述业务标识从存储器中获取预先存储的业务源数据;
生成候选集合单元1203,用于根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合;
在实际应用中,所述生成候选集合单元1202进一步可以用于:
选择与所述目标用户的用户相似度满足预置条件的用户,并选择所述用户相似度满足预置条件的用户的评分高于预定阈值且所述目标用户没有评分的项目组成候选推荐项目集合;和/或,
选择与所述目标用户的用户-项目评分高于预设阈值的项目,并选择与所述用户-项目评分高于预设阈值的项目之间的项目相似度满足预置条件且所述目标用户没有评分的项目组成候选推荐项目集合。
其中,所述候选推荐项目均属于所述目标用户正在使用的数字媒体或电子商务业务。
获取预测评分单元1204,用于至少根据所述业务源数据中的用户相似度和/或项目相似度,获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;
生成最终列表单元1205,用于根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;
展示单元1206,用于将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
本实施例的项目推荐***在进行项目推荐时,根据目标用户标识和业务标识,可以选择该业务的映射后的用户-项目评分数据以及相应的用户相似度和/或项目相似度,通过直接利用存储器中存储的用户相似度和/或项目相似度,即是较好地选择了该业务的映射后的用户-项目评分数据以及相应的相似度,所以减少了项目推荐的处理时间,提升了项目推荐的效率,并且可以提高项目推荐的有效性和准确性。
需要说明的是,在实际应用的项目推荐***中,执行获取用户相似度和/或项目相似度的***和进行项目推荐的***,可以分别独立工作,因为获取用户相似度和/或项目相似度的项目推荐可以同时进行,只需在进行项目推荐时能够获取已经计算出来的用户相似度和/或项目相似度即可,这样也能保证项目推荐***所推荐项目的实时性和有效性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的业务交叉时的项目推荐方法及***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明实施例的方法及其思想;同时,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种数字媒体或电子商务业务交叉时的项目推荐方法,其特征在于,包括:
通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识,并根据所述业务标识从存储器中获取预先存储的业务源数据;
根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合;
至少根据所述业务源数据中的用户相似度和/或项目相似度获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;
根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;
数字媒体或电子商务业务服务器将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合,包括:
选择与所述目标用户的用户相似度满足预置条件的用户,并选择所述用户相似度满足预置条件的用户的评分高于预定阈值且所述目标用户没有评分的项目组成候选推荐项目;和/或,
选择与所述目标用户的用户-项目评分高于预设阈值的项目,并选择与所述用户-项目评分高于预设阈值的项目之间的项目相似度满足预置条件且所述目标用户没有评分的项目组成候选推荐项目;
其中,所述候选推荐项目均属于所述目标用户正在使用的数字媒体或电子商务业务。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取多种不同数字媒体或电子商务业务的初始源数据,所述初始源数据包括:所述多种数字媒体或电子商务业务的初始用户-项目评分数据;
依据所述多种数字媒体或电子商务业务之间的用户和项目的匹配结果及所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果,将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述多种数字媒体或电子商务业务的用户及项目的统一用户-项目评分数据;
将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据;
依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据获取同一种业务内不同用户之间的用户相似度和/或同一种业务内不同项目之间的项目相似度;
将所述用户相似度和/或项目相似度存储至所述存储器中。
4.根据权利要求3所述的方法,其特征在于,所述初始源数据还包括:多种数字媒体或电子商务业务的用户属性数据和项目属性数据,则所述将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述多种数字媒体或电子商务业务的用户及项目的统一用户-项目评分数据,包括:
依据所述用户属性数据中的初始用户标识、初始用户属性及初始用户属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际用户;所述初始用户标识表示在某一种业务内唯一的用户;所述初始用户属性值用于表示在所述多种数字媒体或电子商务业务之间都唯一的用户;
依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际项目;所述初始项目标识表示在某一种业务内唯一的项目;
依据多种数字媒体或电子商务业务的初始用户-项目评分数据、多种数字媒体或电子商务业务的用户-项目评分分值范围及所述分值范围的最小值,获取所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果;
依据所述实际用户、实际项目以及规范化结果,整合所述多种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据,所述统一的用户-项目评分数据包括所述多种数字媒体或电子商务业务中用户和项目的整合后的用户-项目评分数据。
5.根据权利要求4所述的方法,其特征在于,所述依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在多种数字媒体或电子商务业务之间唯一的实际项目,包括:
利用所述多种数字媒体或电子商务业务的初始项目属性匹配所述数字媒体或电子商务多种业务之间不同的实际项目属性;
依据所述不同的实际项目属性获取所述多种数字媒体或电子商务业务之间的项目属性集重合度以及每一种业务与其他业务的项目属性集重合度均值;
按照所述项目属性集重合度均值的大小对所述多种数字媒体或电子商务业务进行排序;
按照排序之后多种数字媒体或电子商务业务的先后顺序,以第一种业务为当前业务执行业务匹配流程,所述业务匹配流程包括:确定所述当前业务与其他业务的匹配项目,以及,删除所述当前业务;
以第二种业务为所述当前业务执行业务匹配流程,直至序列中的业务为空时,依据所述匹配项目以及项目匹配关系获取在所述多种数字媒体或电子商务业务之间都唯一的实际项目。
6.根据权利要求5所述的方法,其特征在于,所述确定所述当前业务与其他业务的匹配项目,包括:
按照当前业务所包含的初始项目标识顺序,选择第一个项目作为当前项目执行项目匹配流程;所述项目匹配流程包括:计算当前项目与其他业务中各个项目的项目匹配度;针对每一种其他业务,依据预设的阈值条件选取合适的项目匹配度,以形成多个项目匹配度集合;在每个项目匹配度集合中选择匹配度最高的项目作为当前项目的匹配项目;记录所述当前项目与其匹配项目的匹配关系,并删除所述多种业务中包括的所述匹配项目;删除所述当前项目;
以所述当前业务中的第二个项目为当前项目,执行所述项目匹配流程,直至所述当前业务中包含的项目为空。
7.根据权利要求3所述的方法,其特征在于,所述将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据,包括:
针对每种业务,在统一的用户-项目评分数据中抽取出每种业务所包含的全体项目和/或全体用户对应的所有用户-项目评分数据,构成各种业务的映射后的用户-项目评分数据。
8.根据权利要求3所述的方法,其特征在于,所述依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据获取同一种业务内不同用户之间的相似度和/或同一种业务内不同项目之间的相似度,包括:
依据所述映射后的用户-项目评分数据、同一种业务内两个不同用户共同评分的项目的集合和所述两个不同用户各自评分的项目的集合计算所述两个不同用户之间的相似度;和/或,
依据所述映射后的用户-项目评分数据、同一种业务内对两个不同项目共同评分的用户的集合和所述对两个不同项目各自评分的用户的集合计算所述两个不同项目之间的相似度。
9.根据权利要求1所述的方法,其特征在于,所述数字媒体或电子商务业务,包括:音乐、应用下载、电子阅读、游戏和/或网上购物。
10.根据权利要求1所述的方法,其特征在于,所述候选推荐项目包括:数字媒体内容、电子商务产品或统一资源定位符URL。
11.一种数字媒体或电子商务业务交叉时的项目推荐***,其特征在于,包括:
获取标识单元,用于通过计算机网络接口获取目标用户正在使用的数字媒体或电子商务业务标识和目标用户标识;
获取业务源数据单元,用于根据所述业务标识从存储器中获取预先存储的业务源数据;
生成候选集合单元,用于根据所述目标用户标识、目标用户正在使用的数字媒体或电子商务业务标识及业务源数据,为所述目标用户生成候选推荐项目集合;
获取预测评分单元,用于至少根据所述业务源数据中的用户相似度和/或项目相似度,获取所述候选推荐项目集合中每一个候选推荐项目的预测评分;
生成最终列表单元,用于根据所述候选推荐项目的预测评分从所述候选推荐项目中抽取符合条件的候选推荐项目生成所述目标用户的最终推荐项目列表;
展示单元,用于将所述最终项目推荐列表发送至所述目标用户的客户端进行展示。
12.如权利要求11所述的***,其特征在于,所述生成候选集合单元进一步用于:
选择与所述目标用户的用户相似度满足预置条件的用户,并选择所述用户相似度满足预置条件的用户的评分高于预定阈值且所述目标用户没有评分的项目组成候选推荐项目;和/或,
选择与所述目标用户的用户-项目评分高于预设阈值的项目,并选择与所述用户-项目评分高于预设阈值的项目之间的项目相似度满足预置条件且所述目标用户没有评分的项目组成候选推荐项目;
其中,所述候选推荐项目均属于所述目标用户正在使用的数字媒体或电子商务业务。
13.如权利要求11所述的***,其特征在于,还包括:
获取初始源数据单元,用于获取多种数字媒体或电子商务业务的初始源数据,所述初始源数据包括:所述多种数字媒体或电子商务业务的初始用户-项目评分数据;
整合单元,用于依据多种数字媒体或电子商务业务之间的用户和项目的匹配结果及所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果,将所述多种数字媒体或电子商务业务的初始用户-项目评分数据整合为包括所述多种数字媒体或电子商务业务的用户及项目的统一用户-项目评分数据;
生成评分数据单元,用于将所述统一用户-项目评分数据依次映射到所述多种数字媒体或电子商务业务,生成所述多种数字媒体或电子商务业务映射后的用户-项目评分数据;
获取相似度单元,用于依据所述多种数字媒体或电子商务业务映射后的用户-项目评分数据获取同一种业务内不同用户之间的用户相似度和/或同一种业务内不同项目之间的项目相似度;
存储单元,用于将所述用户相似度和/或项目相似度存储至所述存储器中。
14.如权利要求13所述的***,其特征在于,所述初始源数据还包括:多种数字媒体或电子商务业务的用户属性数据和项目属性数据,则所述整合单元包括:
第一匹配子单元,用于依据所述用户属性数据中的初始用户标识、初始用户属性及初始用户属性值,匹配得到在所述多种数字媒体或电子商务业务之间唯一的实际用户;所述初始用户标识表示在某一种业务内唯一的用户;所述初始用户属性值用于表示在所述多种数字媒体或电子商务业务之间都唯一的用户;
第二匹配子单元,用于依据所述项目属性数据中的初始项目标识、初始项目属性及初始项目属性值,匹配得到在所述多种数字媒体或电子商务业务之间唯一的实际项目;所述初始项目标识表示在某一种业务内唯一的项目;
第一获取子单元,用于依据多数字媒体或电子商务业务的初始用户-项目评分数据、多种数字媒体或电子商务业务的用户-项目评分分值范围及所述分值范围的最小值,获取所述多种数字媒体或电子商务业务的初始用户-项目评分数据的规范化结果;
整合子单元,用于依据所述实际用户、实际项目以及规范化结果,整合所述多种数字媒体或电子商务业务的用户-项目评分数据,生成统一的用户-项目评分数据,所述统一的用户-项目评分数据包括所述多种数字媒体或电子商务业务中用户和项目的整合后的用户-项目评分数据。
15.如权利要求14所述的***,其特征在于,所述第二匹配子单元包括:
第三匹配子单元,用于利用所述多种数字媒体或电子商务业务的初始项目属性匹配多种数字媒体或电子商务业务之间不同的实际项目属性;
第二获取子单元,用于依据所述不同的实际项目属性获取多种数字媒体或电子商务业务之间的项目属性集重合度以及每一种业务与其他业务的项目属性集重合度均值;
排序子单元,用于按照所述项目属性集重合度均值的大小对所述多种数字媒体或电子商务业务进行排序;
业务匹配子单元,用于按照排序之后多种数字媒体或电子商务业务的先后顺序,以第一种业务为当前业务执行业务匹配流程,所述业务匹配流程包括:确定所述当前业务与其他业务的匹配项目,以及,删除所述当前业务;
第三获取子单元,用于以第二种业务为所述当前业务执行业务匹配流程,直至序列中的业务为空时,依据所述匹配项目以及项目匹配关系获取在所述多种数字媒体或电子商务业务之间都唯一的实际项目。
16.如权利要求15所述的***,其特征在于,所述业务匹配子单元具体配置为:
项目匹配子单元,用于按照当前业务所包含的初始项目标识顺序,选择第一个项目作为当前项目执行项目匹配流程;所述项目匹配流程包括:计算当前项目与其他业务中各个项目的项目匹配度;针对每一种其他业务,依据预设的阈值条件选取合适的项目匹配度,以形成多个项目匹配度集合;在每个项目匹配度集合中选择匹配度最高的项目作为当前项目的匹配项目;记录所述当前项目与其匹配项目的匹配关系,并删除所述多种业务中包括的所述匹配项目;删除所述当前项目;
循环子单元,用于以所述当前业务中的第二个项目为当前项目,执行所述项目匹配流程,直至所述当前业务中包含的项目为空。
17.如权利要求13所述的***,其特征在于,所述生成评分数据单元具体配置为:
针对每种业务,在统一的用户-项目评分数据中抽取出每种业务所包含的全体项目和/或全体用户对应的所有用户-项目评分数据,构成所述多种数字媒体或电子商务业务的映射后的用户-项目评分数据。
18.如权利要求13所述的***,其特征在于,所述获取相似度单元具体配置为:
依据所述映射后的用户-项目评分数据、同一种业务内两个不同用户共同评分的项目的集合和所述两个不同用户各自评分的项目的集合计算所述两个不同用户之间的相似度;和/或,
依据所述映射后的用户-项目评分数据、同一种业务内对两个不同项目共同评分的用户的集合和所述对两个不同项目各自评分的用户的集合计算所述两个不同项目之间的相似度。
CN201180001057.8A 2011-06-29 2011-06-29 一种业务交叉时的项目推荐方法及*** Active CN102959539B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/076551 WO2012159308A1 (zh) 2011-06-29 2011-06-29 一种业务交叉时的项目推荐方法及***

Publications (2)

Publication Number Publication Date
CN102959539A CN102959539A (zh) 2013-03-06
CN102959539B true CN102959539B (zh) 2015-09-23

Family

ID=47216551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180001057.8A Active CN102959539B (zh) 2011-06-29 2011-06-29 一种业务交叉时的项目推荐方法及***

Country Status (2)

Country Link
CN (1) CN102959539B (zh)
WO (1) WO2012159308A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108355349A (zh) * 2018-03-14 2018-08-03 张伟东 游戏***

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338408B (zh) * 2015-12-02 2018-11-13 南京理工大学 基于时间因子的视频推荐方法
CN107656938B (zh) * 2016-07-26 2022-01-11 北京搜狗科技发展有限公司 一种推荐方法和装置、一种用于推荐的装置
WO2018103516A1 (zh) 2016-12-06 2018-06-14 腾讯科技(深圳)有限公司 一种虚拟对象的虚拟资源获取的方法及客户端
CN106512405B (zh) * 2016-12-06 2019-02-19 腾讯科技(深圳)有限公司 一种虚拟对象的外挂资源获取的方法及装置
CN107807967B (zh) * 2017-10-13 2021-10-22 平安科技(深圳)有限公司 实时推荐方法、电子设备及计算机可读存储介质
CN108536662B (zh) * 2018-04-16 2022-04-12 苏州大学 一种数据标注方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339538B2 (en) * 2004-02-26 2019-07-02 Oath Inc. Method and system for generating recommendations
US7797197B2 (en) * 2004-11-12 2010-09-14 Amazon Technologies, Inc. Method and system for analyzing the performance of affiliate sites
US8566884B2 (en) * 2007-11-29 2013-10-22 Cisco Technology, Inc. Socially collaborative filtering
CN101459908B (zh) * 2007-12-13 2012-04-25 华为技术有限公司 一种业务订阅方法、***、服务器
US8131732B2 (en) * 2008-06-03 2012-03-06 Nec Laboratories America, Inc. Recommender system with fast matrix factorization using infinite dimensions
CN101329683A (zh) * 2008-07-25 2008-12-24 华为技术有限公司 推荐***及方法
CN101685458B (zh) * 2008-09-27 2012-09-19 华为技术有限公司 一种基于协同过滤的推荐方法和***
JP2010176327A (ja) * 2009-01-28 2010-08-12 Sony Corp 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム
US20110112981A1 (en) * 2009-11-09 2011-05-12 Seung-Taek Park Feature-Based Method and System for Cold-Start Recommendation of Online Ads
JP5740814B2 (ja) * 2009-12-22 2015-07-01 ソニー株式会社 情報処理装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108355349A (zh) * 2018-03-14 2018-08-03 张伟东 游戏***

Also Published As

Publication number Publication date
WO2012159308A1 (zh) 2012-11-29
CN102959539A (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
US11853354B2 (en) Override of automatically shared meta-data of media
CN102959539B (zh) 一种业务交叉时的项目推荐方法及***
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN105335409B (zh) 一种目标用户的确定方法、设备和网络服务器
CN106202331A (zh) 分层次隐私保护的推荐***及基于该推荐***的作业方法
Xu et al. Integrated collaborative filtering recommendation in social cyber-physical systems
CN105005582A (zh) 多媒体信息的推荐方法及装置
CN105446972A (zh) 基于及融合用户关系数据的搜索方法、装置和***
CN104951544A (zh) 用户数据处理方法、用户数据的提供方法和***
CN104951468A (zh) 数据搜索处理方法和***
CN102279851A (zh) 一种智能导航方法、装置和***
CN104636371A (zh) 信息推荐方法及设备
CN104077415A (zh) 搜索方法及装置
WO2016101811A1 (zh) 一种信息排序方法及装置
CN104424302A (zh) 一种同类数据对象的匹配方法和装置
WO2021208583A1 (zh) 推荐信息生成方法、装置、电子设备及可读存储介质
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN104750760A (zh) 一种推荐应用软件的实现方法及装置
CN104641371A (zh) 社交网络***中基于上下文的对象检索
Prando et al. Content-based Recommender System using Social Networks for Cold-start Users.
CN105488522A (zh) 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
CN106257449B (zh) 一种信息确定方法和装置
Jia et al. Study on data sparsity in social network-based recommender system
CN103164407B (zh) 一种信息搜索方法和***
WO2017128681A1 (zh) 一种适于交易处理的会员管理***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant