CN103870452A - 数据推荐方法及*** - Google Patents

数据推荐方法及*** Download PDF

Info

Publication number
CN103870452A
CN103870452A CN201210525892.8A CN201210525892A CN103870452A CN 103870452 A CN103870452 A CN 103870452A CN 201210525892 A CN201210525892 A CN 201210525892A CN 103870452 A CN103870452 A CN 103870452A
Authority
CN
China
Prior art keywords
data
recommended
user
feature
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210525892.8A
Other languages
English (en)
Inventor
纪达麒
陈运文
刘作涛
辛颖伟
王文广
姚璐
邹溢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengle Information Technolpogy Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN201210525892.8A priority Critical patent/CN103870452A/zh
Publication of CN103870452A publication Critical patent/CN103870452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据推荐方法及***,所述方法包括:将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子;从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率;对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。本发明能够充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐,而且特征因子比较容易扩展,可以根据新的特征因子快速训练出新的权重因子。

Description

数据推荐方法及***
技术领域
本发明涉及一种数据推荐方法及***。
背景技术
数据的个性化推荐如视频网站的个性化推荐往往是根据用户与数据如视频的交互行为,向用户推荐用户感兴趣的数据如视频。
然而,对于新用户在没有任何的点击、观看或者互动行为的情况下,如何对这些新用户进行个性化推荐是个很大的问题。针对这些新用户,现有技术仅是从数据库中选取热门数据向其推荐,但是这种推荐方法实现不了个性化推荐的目的。因此,目前亟需一种针对新用户的个性化推荐方法及***。
发明内容
本发明的目的在于提供一种数据推荐方法及***,能够充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐,而且特征因子比较容易扩展,可以根据新的特征因子快速训练出新的权重因子。
为解决上述问题,本发明提供一种数据推荐方法,包括:
将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子;
从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率;
对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。
进一步的,在上述方法中,所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。
进一步的,在上述方法中,根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
进一步的,在上述方法中,根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e=2.71828,W0和WM×N代表所述权重因子,F N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
进一步的,在上述方法中,用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路和用户着陆页中的一种或任意组合。
进一步的,在上述方法中,所述第一待推荐数据为定期获取的优质数据。
进一步的,在上述方法中,根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,其中Q为正整数。
根据本发明的另一面,提供一种数据推荐***,包括:
模型模块,用于将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子;
推荐引擎模块,用于从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率,并对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。
进一步的,在上述***中,根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
进一步的,在上述***中,根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e=2.71828,W0和WM×N代表所述权重因子,F N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
与现有技术相比,本发明通过将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子,从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率,对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,可以充分利用用户的特征和待推荐数据所携带的特征因子进行对新用户进行个性化推荐。
另外,根据公式
Figure BDA00002545030300042
训练所有用户的权重因子,其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,并根据公式
Figure BDA00002545030300051
获取第二待推荐数据相对于请求推荐的用户的预测点击率,其中,P为预测点击率,e=2.71828,W0和WM×N代表所述权重因子,FM×N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,使特征因子比较容易扩展,可以根据新的特征因子快速训练出新的权重因子。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
附图说明
图1是本发明实施例一的数据推荐方法的流程图;
图2是本发明实施例一的个性化推荐结果示意图;
图3是本发明实施例二的数据推荐方法流程图;
图4是本发明实施例三的数据推荐***的模块示意图;
图5是本发明实施例三的数据推荐***的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种数据推荐方法,包括:
步骤S11,将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。其中,所述数据可以是视频,所述第一待推荐数据的编号可以为视频ID,不用用户的特征代表了对待推荐数据的不同喜好。
优选的,所述用户的特征可以从一用户行为日志中获取,所述用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer)和用户着陆页(landing page)中的一种或任意组合,所述用户的特征包括一个或多个特征因子,当然所述用户的特征还可包括用户被展现的数据、用户所点击或观看的数据。
具体的,每一个用户的特征具体可包括:
1)浏览器类型可包括:360、IE7、IE6、IE8、Sogou、Chome、FireFox或其他;
2)显示器分辩率可包括:1440*900、1024*768、1280*800、800*680或其他;
3)网络设备类型可包括:pc、移动或其他;
4)访问网站时间可包括各种小时数;
5)所在地区可精确到省份;
6)各种用户网站来路,用户网站来路(referrer)是访问者进入网站任何途径,HTTP referer是header的一部分,当浏览器向web服务器发出请求的时候,一般会带上referer告诉服务器用户从那个页面连接过来的,服务器藉此可以获得一些信息用语处理
7)各种用户着陆页,用户着陆页(Landing Page,有时被称为首要捕获用户页)是当***点击广告或者利用搜索引擎搜索后显示给用户的网页。一般这个页面会显示和所点击广告或搜索结果链接相关的扩展内容,而且这个页面应该是针对某个关键字(或短语)做过搜索引擎优化。
优选的,所述权重因子的数量=1+所有用户的特征的数量M×待推荐数据的数量N。
较佳的,可根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,通过该公式可以对用户的特征因子进行LR建模,并且生成权重因子。
假设只使用1个网络设备类型的用户的特征包括pc、mobile和other,并且有2个数据的编号如视频ID包括video1和video2,这样一共有6个特征因子包括:Fpc×video1,Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2,则一共需要训练1+3*2=7个权重因子包括:W0,Wpc×video1,Wmobile×video1,Wother×video1,Wpc×viedo2,Wmobile×video2和Wother×video2
那么,公式 Z = W 0 + Σ M × N ( W M × N × F M × N ) 转化为:
Z=W0+Wpc×video1×Fpc×video1+Wmobile×video1×Fmobile×video1+Wother×video1×Fother× video1+Wpc×viedo2×Fpc×viedo2+Wmobile×video2×Fmobile×video2+Wother×video2×Fother×video2
如果某个用户通过PC看到向其展示视频Video1,却没有点击Video1,Z为0,由于只有Fpc×video1为1,剩下的Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2均为0,则上述公式进一步转化为:
0=W0+Wpc×video1
按照上述同样的方式即可以训练出上述7个权重因子。
步骤S12,从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率。
优选的,可根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e为自然对数,e=2.71828,,W0和WM×N代表所述权重因子,FM×N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量通过该公式能够对第二待推荐数据进行ctr预估以获取预测点击率。
步骤S13,对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数,具体的,对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说,当其请求个性化推荐时仍可以推荐出准确的数据,图2是本实施例向新用户展示的个性化推荐结果。
综上,本实施例可以使特征因子比较容易扩展,能够根据新的特征因子快速训练出新的权重因子,从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
实施例二
如图2所示,本发明提供另一种数据推荐方法,本实施例与实施例的区别在于所述第一待推荐数据为定期获取的优质数据,另外根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,从而使推荐结果更精确,所述方法包括:
步骤S21,定期获取的优质数据作为第一待推荐数据;具体的,所述数据可为视频,例如可以定期从一全网视频库中获取优质视频并更新存储到一优质视频库中,由于全网视频库的视频可能有几千万甚至几亿,数据量太大,对全网视频库的所有视频训练所有用户的权重因子工作量会很大,也没有必要,所过可先对全网视频库中的视频进行筛选获取优质视频作为第一待推荐数据,具体可以根据视频的播放数、评论数、视频质量等维度进行筛选。
步骤S22,将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。其中,所述数据可以是视频,所述第一待推荐数据的编号可以为视频ID。
优选的,所述用户的特征可以从一用户行为日志中获取,所述用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer)和用户着陆页(landing page)中的一种或任意组合,所述用户的特征包括一个或多个特征因子,当然所述用户的特征还可包括用户被展现的数据、用户所点击或观看的数据。
具体的,每一个用户的特征具体可包括:
1)浏览器类型可包括:360、IE7、IE6、IE8、Sogou、Chome、FireFox或其他;
2)显示器分辩率可包括:1440*900、1024*768、1280*800、800*680或其他;
3)网络设备类型可包括:pc、移动或其他;
4)访问网站时间可包括各种小时数;
5)所在地区可精确到省份;
6)各种用户网站来路,用户网站来路(referrer)是访问者进入网站任何途径,HTTP referer是header的一部分,当浏览器向web服务器发出请求的时候,一般会带上referer告诉服务器用户从那个页面连接过来的,服务器藉此可以获得一些信息用语处理
7)各种用户着陆页,用户着陆页(Landing Page,有时被称为首要捕获用户页)是当***点击广告或者利用搜索引擎搜索后显示给用户的网页。一般这个页面会显示和所点击广告或搜索结果链接相关的扩展内容,而且这个页面应该是针对某个关键字(或短语)做过搜索引擎优化。
优选的,所述权重因子的数量=1+所有用户的特征的数量M×待推荐数据的数量N。
较佳的,可根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,通过该公式可以对用户的特征因子进行LR建模,并且生成权重因子。
假设只使用1个网络设备类型的用户的特征包括pc、mobile和other,并且有2个数据的编号如视频ID包括video1和video2,这样一共有6个特征因子包括:Fpc×video1,Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2,则一共需要训练1+3*2=7个权重因子包括:W0,Wpc×video1,Wmobile×video1,Wother×video1,Wpc×viedo2,Wmobile×video2和Wother×video2
那么,公式 Z = W 0 + Σ M × N ( W M × N × F M × N ) 转化为:
Z=W0+Wpc×video1×Fpc×video1+Wmobile×video1×Fmobile×video1+Wother×video1×Fother× video1+Wpc×viedo2×Fpc×viedo2+Wmobile×video2×Fmobile×video2+Wother×video2×Fother×video2
如果某个用户通过PC看到向其展示视频Video1,却没有点击Video1,Z为0,由于只有Fpc×video1为1,剩下的Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2均为0,则上述公式进一步转化为:
0=W0+Wpc×video1
按照上述同样的方式即可以训练出上述7个权重因子。
步骤S23,根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,其中Q为正整数,具体的,当数据为视频时,可以通过浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer)和用户着陆页(landing page)对所述优质视频排序,获取前Q个优质视频如1024个更优质的数据作为第二推荐数据。
步骤S24,从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率。
优选的,可根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e为自然对数,e=2.71828,,W0和WM×N代表所述权重因子,FM×N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量通过该公式能够对第二待推荐数据进行ctr预估以获取预测点击率。
步骤S25,对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数,具体的,对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说,当其请求个性化推荐时仍可以推荐出准确的数据。
综上,本实施例可以使特征因子比较容易扩展,能够根据新的特征因子快速训练出新的权重因子,从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐,而且通过所述第一待推荐数据为定期获取的优质数据,并根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,从而使推荐结果更精确。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
实施例三
如图4所示,本发明还提供一种数据推荐***,包括模型模块1和推荐引擎模块2。其中,所述数据可以是视频,所述第一待推荐数据的编号可以为视频ID。
模型模块1用于将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。
较佳的,所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。
优选的,所述用户的特征可以从一用户行为日志中获取,所述用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer)和用户着陆页(landing page)中的一种或任意组合,所述用户的特征包括一个或多个特征因子,当然所述用户的特征还可包括用户被展现的数据、用户所点击或观看的数据。
具体的,每一个用户的特征具体可包括:
1)浏览器类型可包括:360、IE7、IE6、IE8、Sogou、Chome、FireFox或其他;
2)显示器分辩率可包括:1440*900、1024*768、1280*800、800*680或其他;
3)网络设备类型可包括:pc、移动或其他;
4)访问网站时间可包括各种小时数;
5)所在地区可精确到省份;
6)各种用户网站来路,用户网站来路(referrer)是访问者进入网站任何途径,HTTP referer是header的一部分,当浏览器向web服务器发出请求的时候,一般会带上referer告诉服务器用户从那个页面连接过来的,服务器藉此可以获得一些信息用语处理
7)各种用户着陆页,用户着陆页(Landing Page,有时被称为首要捕获用户页)是当***点击广告或者利用搜索引擎搜索后显示给用户的网页。一般这个页面会显示和所点击广告或搜索结果链接相关的扩展内容,而且这个页面应该是针对某个关键字(或短语)做过搜索引擎优化。
优选的,可根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,通过该公式可以对用户的特征因子进行LR建模,并且生成权重因子。
假设只使用1个网络设备类型的用户的特征包括pc、mobile和other,并且有2个数据的编号如视频ID包括video1和video2,这样一共有6个特征因子包括:Fpc×video1,Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2,则一共需要训练1+3*2=7个权重因子包括:W0,Wpc×video1,Wmobile×video1,Wother×video1,Wpc×viedo2,Wmobile×video2和Wother×video2。则公式
Figure BDA00002545030300161
转化为:
Z=W0+Wpc×video1×Fpc×video1+Wmobile×video1×Fmobile×video1+Wother×video1×Fother× video1+Wpc×viedo2×Fpc×viedo2+Wmobile×video2×Fmobile×video2+Wother×video2×Fother×video2
如果某个用户通过PC看到向其展示视频Video1,却没有点击Video1,Z为0,由于只有Fpc×video1为1,剩下的Fmobile×video1,Fother×video1,Fpc×viedo2,Fmobile×video2和Fother×video2均为0,则上述公式进一步转化为:
0=W0+Wpc×video1
按照上述同样的方式即可以训练出上述7个权重因子。
较佳的,所述第一待推荐数据为定期获取的优质数据。具体的,所述数据可为视频,例如可以定期从一全网视频库中获取优质视频并更新存储到一优质视频库中,由于全网视频库的视频可能有几千万甚至几亿,数据量太大,对全网视频库的所有视频训练所有用户的权重因子工作量会很大,也没有必要,所过可先对全网视频库中的视频进行筛选获取优质视频作为第一待推荐数据,具体可以根据视频的播放数、评论数、视频质量等维度进行筛选。
推荐引擎模块2用于从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率,并对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。具体的,当数据为视频时,可以通过浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer)和用户着陆页(landing page)对所述优质视频排序,获取前Q个优质视频如1024个更优质视频作为第二推荐数据,对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说,当其请求个性化推荐时仍可以推荐出准确的数据。
优选的,可根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e为自然对数,e=2.71828,W0和WM×N代表所述权重因子,FM×N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,通过该公式能够对第二待推荐数据进行ctr预估以获取预测点击率。
较佳的,可根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,其中Q为正整数。
如图5所示,当数据为视频时,可通过一VideoSelector模块4从一全网视频库3中筛选出优质视频存入一优质视频库5,模型模块1根据一用户行日志6中的用户的特征和优质视频生成权重因子8,然后推荐引擎2根据优质视频库5中的进一步筛选的部分视频和权重因子8生成推荐结果发送到前端,实现向新用户进行个性化的视频推荐。
综上,本实施例可以使特征因子比较容易扩展,能够根据新的特征因子快速训练出新的权重因子,从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐,而且通过所述第一待推荐数据为定期获取的优质数据,并根据一个或多个用户的特征对所述优质数据排序,获取前Q个优质数据作为第二推荐数据,从而使推荐结果更精确。
与现有技术相比,本发明通过将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子,从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率,对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,可以充分利用用户的特征和待推荐数据所携带的特征因子进行对新用户进行个性化推荐。
另外,根据公式训练所有用户的权重因子,其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,并根据公式
Figure BDA00002545030300191
获取第二待推荐数据相对于请求推荐的用户的预测点击率,其中,P为预测点击率,e为自然对数,e=2.71828,W0和WM×N代表所述权重因子,FM×N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量,使特征因子比较容易扩展,可以根据新的特征因子快速训练出新的权重因子。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种数据推荐方法,其特征在于,包括:
将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子;
从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率;
对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。
2.如权利要求1所述的数据推荐方法,其特征在于,根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
3.如权利要求2所述的数据推荐方法,其特征在于,根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e=2.71828,W0和WM×N代表所述权重因子,F N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
4.如权利要求1所述的数据推荐方法,其特征在于,所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。
5.如权利要求1所述的数据推荐方法,其特征在于,用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路和用户着陆页中的一种或任意组合。
6.如权利要求1所述的数据推荐方法,其特征在于,所述第一待推荐数据为定期获取的优质数据。
7.如权利要求6所述的数据推荐方法,其特征在于,根据一个或多个用户的特征对所述优质数据进行排序,获取前Q个优质数据作为第二推荐数据,其中Q为正整数。
8.一种数据推荐***,其特征在于,包括:
模型模块,用于将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子;
推荐引擎模块,用于从第一待推荐数据中获取第二待推荐数据,并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率,并对所述预测点击率从大到小排序,获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户,其中K为正整数。
9.如权利要求8所述的数据推荐***,其特征在于,根据下述公式训练所有用户的权重因子:
Z = W 0 + Σ M × N ( W M × N × F M × N )
其中,Z代表用户对某一第一待推荐数据的点击情况,点击时Z为1,未点击时Z为0,W0和WM×N代表所述权重因子,FM×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
10.如权利要求8所述的数据推荐***,其特征在于,根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率:
P = 1 1 + e - ( W 0 + Σ M × N ( W M × N × F M × N )
其中,P为预测点击率,e=2.71828,W0和WM×N代表所述权重因子,F N代表某一用户的特征下某一第一待推荐数据的展示情况,展示时FM×N为1,未展示时FM×N为0,M为用户的特征的数量,N为第一待推荐数据的数量。
CN201210525892.8A 2012-12-07 2012-12-07 数据推荐方法及*** Pending CN103870452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210525892.8A CN103870452A (zh) 2012-12-07 2012-12-07 数据推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210525892.8A CN103870452A (zh) 2012-12-07 2012-12-07 数据推荐方法及***

Publications (1)

Publication Number Publication Date
CN103870452A true CN103870452A (zh) 2014-06-18

Family

ID=50908996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210525892.8A Pending CN103870452A (zh) 2012-12-07 2012-12-07 数据推荐方法及***

Country Status (1)

Country Link
CN (1) CN103870452A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168980A (zh) * 2016-07-26 2016-11-30 合网络技术(北京)有限公司 多媒体资源推荐排序方法及装置
CN108537568A (zh) * 2018-03-07 2018-09-14 阿里巴巴集团控股有限公司 一种信息推荐方法和装置
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
WO2019127845A1 (zh) * 2017-12-28 2019-07-04 平安科技(深圳)有限公司 一种录音推荐方法、装置、设备及计算机可读存储介质
CN110415063A (zh) * 2018-07-31 2019-11-05 北京京东尚科信息技术有限公司 商品推荐方法、装置、电子设备及可读介质
CN111314790A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种视频播放记录的排序方法、装置和电子设备
CN113870641A (zh) * 2021-09-29 2021-12-31 上海乐项信息技术有限公司 一种用于直播带货的模拟培训方法和***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168980A (zh) * 2016-07-26 2016-11-30 合网络技术(北京)有限公司 多媒体资源推荐排序方法及装置
CN106168980B (zh) * 2016-07-26 2020-07-28 阿里巴巴(中国)有限公司 多媒体资源推荐排序方法及装置
WO2019127845A1 (zh) * 2017-12-28 2019-07-04 平安科技(深圳)有限公司 一种录音推荐方法、装置、设备及计算机可读存储介质
CN108537568A (zh) * 2018-03-07 2018-09-14 阿里巴巴集团控股有限公司 一种信息推荐方法和装置
CN108537568B (zh) * 2018-03-07 2021-12-21 创新先进技术有限公司 一种信息推荐方法和装置
CN110415063A (zh) * 2018-07-31 2019-11-05 北京京东尚科信息技术有限公司 商品推荐方法、装置、电子设备及可读介质
CN109862432A (zh) * 2019-01-31 2019-06-07 厦门美图之家科技有限公司 点击率预测方法和装置
CN111314790A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种视频播放记录的排序方法、装置和电子设备
CN113870641A (zh) * 2021-09-29 2021-12-31 上海乐项信息技术有限公司 一种用于直播带货的模拟培训方法和***

Similar Documents

Publication Publication Date Title
CN103870452A (zh) 数据推荐方法及***
US8332775B2 (en) Adaptive user feedback window
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN102831114B (zh) 实现互联网用户访问情况统计分析的方法及装置
CN104462385A (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
CN103544212A (zh) 一种内容推荐方法及***
CN104199874A (zh) 一种基于用户浏览行为的网页推荐方法
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN102929928A (zh) 基于多维相似度的个性化新闻推荐方法
CN109325179A (zh) 一种内容推广的方法及装置
CN105589971A (zh) 训练推荐模型的方法、装置及推荐***
CN103019550A (zh) 关联内容实时展现方法及***
CN105045864B (zh) 一种数字化资源个性化推荐方法
CN103186595A (zh) 音视频推荐方法及***
US9558175B2 (en) Generating an individualized web page template with entities of a web page publisher organization associated with areas of the template
CN106021609A (zh) 一种实现网站视频智能推荐的方法及装置
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN104951518A (zh) 一种基于动态增量更新的上下文推荐方法
CN102957949A (zh) 为用户推荐视频的装置及方法
CN104503988A (zh) 搜索方法及装置
CN104281619A (zh) 搜索结果排序***及方法
CN105160016A (zh) 用户属性的获取方法及装置
Nasraoui et al. Performance of recommendation systems in dynamic streaming environments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618