CN103870452A

CN103870452A - 数据推荐方法及***

Info

Publication number: CN103870452A
Application number: CN201210525892.8A
Authority: CN
Inventors: 纪达麒; 陈运文; 刘作涛; 辛颖伟; 王文广; 姚璐; 邹溢
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-18

Abstract

本发明涉及一种数据推荐方法及***，所述方法包括：将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子；从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率；对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数。本发明能够充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐，而且特征因子比较容易扩展，可以根据新的特征因子快速训练出新的权重因子。

Description

数据推荐方法及***

技术领域

本发明涉及一种数据推荐方法及***。

背景技术

数据的个性化推荐如视频网站的个性化推荐往往是根据用户与数据如视频的交互行为，向用户推荐用户感兴趣的数据如视频。

然而，对于新用户在没有任何的点击、观看或者互动行为的情况下，如何对这些新用户进行个性化推荐是个很大的问题。针对这些新用户，现有技术仅是从数据库中选取热门数据向其推荐，但是这种推荐方法实现不了个性化推荐的目的。因此，目前亟需一种针对新用户的个性化推荐方法及***。

发明内容

本发明的目的在于提供一种数据推荐方法及***，能够充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐，而且特征因子比较容易扩展，可以根据新的特征因子快速训练出新的权重因子。

为解决上述问题，本发明提供一种数据推荐方法，包括：

将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子；

从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率；

对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数。

进一步的，在上述方法中，所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。

进一步的，在上述方法中，根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

其中，Z代表用户对某一第一待推荐数据的点击情况，点击时Z为1，未点击时Z为0，W₀和W_M×N代表所述权重因子，F_M×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量。

进一步的，在上述方法中，根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率：

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

其中，P为预测点击率，e=2.71828，W₀和W_M×N代表所述权重因子，F_M× _N代表某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量。

进一步的，在上述方法中，用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路和用户着陆页中的一种或任意组合。

进一步的，在上述方法中，所述第一待推荐数据为定期获取的优质数据。

进一步的，在上述方法中，根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，其中Q为正整数。

根据本发明的另一面，提供一种数据推荐***，包括：

模型模块，用于将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子；

推荐引擎模块，用于从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率，并对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数。

进一步的，在上述***中，根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

进一步的，在上述***中，根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率：

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

与现有技术相比，本发明通过将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子，从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率，对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，可以充分利用用户的特征和待推荐数据所携带的特征因子进行对新用户进行个性化推荐。

另外，根据公式

训练所有用户的权重因子，其中，Z代表用户对某一第一待推荐数据的点击情况，点击时Z为1，未点击时Z为0，W₀和W_M×N代表所述权重因子，F_M×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，并根据公式

获取第二待推荐数据相对于请求推荐的用户的预测点击率，其中，P为预测点击率，e=2.71828，W₀和W_M×N代表所述权重因子，F_M×N代表某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，使特征因子比较容易扩展，可以根据新的特征因子快速训练出新的权重因子。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

附图说明

图1是本发明实施例一的数据推荐方法的流程图；

图2是本发明实施例一的个性化推荐结果示意图；

图3是本发明实施例二的数据推荐方法流程图；

图4是本发明实施例三的数据推荐***的模块示意图；

图5是本发明实施例三的数据推荐***的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供一种数据推荐方法，包括：

步骤S11，将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。其中，所述数据可以是视频，所述第一待推荐数据的编号可以为视频ID，不用用户的特征代表了对待推荐数据的不同喜好。

优选的，所述用户的特征可以从一用户行为日志中获取，所述用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer）和用户着陆页(landing page)中的一种或任意组合，所述用户的特征包括一个或多个特征因子，当然所述用户的特征还可包括用户被展现的数据、用户所点击或观看的数据。

具体的，每一个用户的特征具体可包括：

1)浏览器类型可包括：360、IE7、IE6、IE8、Sogou、Chome、FireFox或其他；

2)显示器分辩率可包括：1440*900、1024*768、1280*800、800*680或其他；

3)网络设备类型可包括：pc、移动或其他；

4)访问网站时间可包括各种小时数；

5)所在地区可精确到省份；

6)各种用户网站来路，用户网站来路(referrer)是访问者进入网站任何途径，HTTP referer是header的一部分，当浏览器向web服务器发出请求的时候，一般会带上referer告诉服务器用户从那个页面连接过来的，服务器藉此可以获得一些信息用语处理

7)各种用户着陆页，用户着陆页(Landing Page，有时被称为首要捕获用户页)是当***点击广告或者利用搜索引擎搜索后显示给用户的网页。一般这个页面会显示和所点击广告或搜索结果链接相关的扩展内容，而且这个页面应该是针对某个关键字(或短语)做过搜索引擎优化。

优选的，所述权重因子的数量=1+所有用户的特征的数量M×待推荐数据的数量N。

较佳的，可根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

其中，Z代表用户对某一第一待推荐数据的点击情况，点击时Z为1，未点击时Z为0，W₀和W_M×N代表所述权重因子，F_M×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，通过该公式可以对用户的特征因子进行LR建模，并且生成权重因子。

假设只使用1个网络设备类型的用户的特征包括pc、mobile和other，并且有2个数据的编号如视频ID包括video1和video2，这样一共有6个特征因子包括：F_pc×video1，F_{mobile×video1}，F_{other×video1}，F_pc×viedo2，F_{mobile×video2}和F_{other×video2}，则一共需要训练1+3*2=7个权重因子包括：W₀，W_pc×video1，W_{mobile×video1}，W_{other×video1}，W_pc×viedo2，W_{mobile×video2}和W_{other×video2}。

那么，公式

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

转化为：

Z=W₀+W_pc×video1×F_pc×video1+W_{mobile×video1}×F_{mobile×video1}+W_{other×video1}×F_other× _video1+W_pc×viedo2×F_pc×viedo2+W_{mobile×video2}×F_{mobile×video2}+W_{other×video2}×F_{other×video2}

如果某个用户通过PC看到向其展示视频Video1，却没有点击Video1，Z为0，由于只有F_pc×video1为1，剩下的F_{mobile×video1}，F_{other×video1}，F_pc×viedo2，F_{mobile×video2}和F_{other×video2}均为0，则上述公式进一步转化为：

0=W₀+W_pc×video1

按照上述同样的方式即可以训练出上述7个权重因子。

步骤S12，从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率。

优选的，可根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率：

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

其中，P为预测点击率，e为自然对数，e=2.71828，，W₀和W_M×N代表所述权重因子，F_M×N代表某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量通过该公式能够对第二待推荐数据进行ctr预估以获取预测点击率。

步骤S13，对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数，具体的，对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说，当其请求个性化推荐时仍可以推荐出准确的数据，图2是本实施例向新用户展示的个性化推荐结果。

综上，本实施例可以使特征因子比较容易扩展，能够根据新的特征因子快速训练出新的权重因子，从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

实施例二

如图2所示，本发明提供另一种数据推荐方法，本实施例与实施例的区别在于所述第一待推荐数据为定期获取的优质数据，另外根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，从而使推荐结果更精确，所述方法包括：

步骤S21，定期获取的优质数据作为第一待推荐数据；具体的，所述数据可为视频，例如可以定期从一全网视频库中获取优质视频并更新存储到一优质视频库中，由于全网视频库的视频可能有几千万甚至几亿，数据量太大，对全网视频库的所有视频训练所有用户的权重因子工作量会很大，也没有必要，所过可先对全网视频库中的视频进行筛选获取优质视频作为第一待推荐数据，具体可以根据视频的播放数、评论数、视频质量等维度进行筛选。

步骤S22，将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。其中，所述数据可以是视频，所述第一待推荐数据的编号可以为视频ID。

具体的，每一个用户的特征具体可包括：

3)网络设备类型可包括：pc、移动或其他；

4)访问网站时间可包括各种小时数；

5)所在地区可精确到省份；

较佳的，可根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

那么，公式

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

转化为：

0=W₀+W_pc×video1

按照上述同样的方式即可以训练出上述7个权重因子。

步骤S23，根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，其中Q为正整数，具体的，当数据为视频时，可以通过浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer）和用户着陆页(landing page)对所述优质视频排序，获取前Q个优质视频如1024个更优质的数据作为第二推荐数据。

步骤S24，从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率。

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

步骤S25，对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数，具体的，对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说，当其请求个性化推荐时仍可以推荐出准确的数据。

综上，本实施例可以使特征因子比较容易扩展，能够根据新的特征因子快速训练出新的权重因子，从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐，而且通过所述第一待推荐数据为定期获取的优质数据，并根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，从而使推荐结果更精确。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

实施例三

如图4所示，本发明还提供一种数据推荐***，包括模型模块1和推荐引擎模块2。其中，所述数据可以是视频，所述第一待推荐数据的编号可以为视频ID。

模型模块1用于将所有用户的特征和第一待推荐数据的编号作为特征因子训练所有用户的权重因子。

较佳的，所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。

具体的，每一个用户的特征具体可包括：

3)网络设备类型可包括：pc、移动或其他；

4)访问网站时间可包括各种小时数；

5)所在地区可精确到省份；

优选的，可根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

假设只使用1个网络设备类型的用户的特征包括pc、mobile和other，并且有2个数据的编号如视频ID包括video1和video2，这样一共有6个特征因子包括：F_pc×video1，F_{mobile×video1}，F_{other×video1}，F_pc×viedo2，F_{mobile×video2}和F_{other×video2}，则一共需要训练1+3*2=7个权重因子包括：W₀，W_pc×video1，W_{mobile×video1}，W_{other×video1}，W_pc×viedo2，W_{mobile×video2}和W_{other×video2}。则公式

转化为：

0=W₀+W_pc×video1

按照上述同样的方式即可以训练出上述7个权重因子。

较佳的，所述第一待推荐数据为定期获取的优质数据。具体的，所述数据可为视频，例如可以定期从一全网视频库中获取优质视频并更新存储到一优质视频库中，由于全网视频库的视频可能有几千万甚至几亿，数据量太大，对全网视频库的所有视频训练所有用户的权重因子工作量会很大，也没有必要，所过可先对全网视频库中的视频进行筛选获取优质视频作为第一待推荐数据，具体可以根据视频的播放数、评论数、视频质量等维度进行筛选。

推荐引擎模块2用于从第一待推荐数据中获取第二待推荐数据，并根据所述权重因子、请求推荐的用户的特征和第二待推荐数据的编号获取所述第二待推荐数据相对于请求推荐的用户的预测点击率，并对所述预测点击率从大到小排序，获取预测点击率最大的前K个第二待推荐数据推荐至所述请求推荐的用户，其中K为正整数。具体的，当数据为视频时，可以通过浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路(referer）和用户着陆页(landing page)对所述优质视频排序，获取前Q个优质视频如1024个更优质视频作为第二推荐数据，对于无登陆、历史记录信息如点击、观看或者互动行为等无或很少的新用户来说，当其请求个性化推荐时仍可以推荐出准确的数据。

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

其中，P为预测点击率，e为自然对数，e=2.71828，W₀和W_M×N代表所述权重因子，F_M×N代表某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，通过该公式能够对第二待推荐数据进行ctr预估以获取预测点击率。

较佳的，可根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，其中Q为正整数。

如图5所示，当数据为视频时，可通过一VideoSelector模块4从一全网视频库3中筛选出优质视频存入一优质视频库5，模型模块1根据一用户行日志6中的用户的特征和优质视频生成权重因子8，然后推荐引擎2根据优质视频库5中的进一步筛选的部分视频和权重因子8生成推荐结果发送到前端，实现向新用户进行个性化的视频推荐。

综上，本实施例可以使特征因子比较容易扩展，能够根据新的特征因子快速训练出新的权重因子，从而充分利用用户的特征和待推荐数据所携带的特征因子对新用户进行个性化推荐，而且通过所述第一待推荐数据为定期获取的优质数据，并根据一个或多个用户的特征对所述优质数据排序，获取前Q个优质数据作为第二推荐数据，从而使推荐结果更精确。

另外，根据公式训练所有用户的权重因子，其中，Z代表用户对某一第一待推荐数据的点击情况，点击时Z为1，未点击时Z为0，W₀和W_M×N代表所述权重因子，F_M×N代表特征因子即某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，并根据公式

获取第二待推荐数据相对于请求推荐的用户的预测点击率，其中，P为预测点击率，e为自然对数，e=2.71828，W₀和W_M×N代表所述权重因子，F_M×N代表某一用户的特征下某一第一待推荐数据的展示情况，展示时F_M×N为1，未展示时F_M×N为0，M为用户的特征的数量，N为第一待推荐数据的数量，使特征因子比较容易扩展，可以根据新的特征因子快速训练出新的权重因子。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种数据推荐方法，其特征在于，包括：

2.如权利要求1所述的数据推荐方法，其特征在于，根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

3.如权利要求2所述的数据推荐方法，其特征在于，根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率：

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}

4.如权利要求1所述的数据推荐方法，其特征在于，所述权重因子的数量=1+所有用户的特征的数量×待推荐数据的数量。

5.如权利要求1所述的数据推荐方法，其特征在于，用户的特征包括浏览器类型、显示器分辩率、网络设备类型、访问网站时间、所在地区、用户网站来路和用户着陆页中的一种或任意组合。

6.如权利要求1所述的数据推荐方法，其特征在于，所述第一待推荐数据为定期获取的优质数据。

7.如权利要求6所述的数据推荐方法，其特征在于，根据一个或多个用户的特征对所述优质数据进行排序，获取前Q个优质数据作为第二推荐数据，其中Q为正整数。

8.一种数据推荐***，其特征在于，包括：

9.如权利要求8所述的数据推荐***，其特征在于，根据下述公式训练所有用户的权重因子：

Z = W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})

10.如权利要求8所述的数据推荐***，其特征在于，根据下述公式获取第二待推荐数据相对于请求推荐的用户的预测点击率：

P = \frac{1}{1 + e^{- (W_{0} + \underset{M \times N}{Σ} (W_{M \times N} \times F_{M \times N})}}