CN102663617A - 一种广告的点击率预测方法及*** - Google Patents

一种广告的点击率预测方法及*** Download PDF

Info

Publication number
CN102663617A
CN102663617A CN201210074541XA CN201210074541A CN102663617A CN 102663617 A CN102663617 A CN 102663617A CN 201210074541X A CN201210074541X A CN 201210074541XA CN 201210074541 A CN201210074541 A CN 201210074541A CN 102663617 A CN102663617 A CN 102663617A
Authority
CN
China
Prior art keywords
data
sample
user
advertisement
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210074541XA
Other languages
English (en)
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201210074541XA priority Critical patent/CN102663617A/zh
Publication of CN102663617A publication Critical patent/CN102663617A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种广告的点击率预测方法及***,以解决原始样本集合中样本数据严重不均衡会影响点击率预测的准确性的问题。所述的方法包括:提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;通过对所述原始样本集合进行采样,构建训练样本集合;以所述训练样本集合中的样本数据为模型参数构建预测模型;利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。本发明可以消除原始样本集合中点击数据和未点击数据之间比例严重失衡的问题,构建相对均衡的训练样本集合,提高预测模型对点击数据的识别率,提高了点击率预测的准确性。

Description

一种广告的点击率预测方法及***
技术领域
本申请涉及网络技术,特别是涉及一种广告的点击率预测方法及***。
背景技术
互联网的兴起使人们可以在浏览相同的页面时看到不同的广告,可以实现广告的个性化展示。通过对点击率进行测试,可以了解不同用户感兴趣的广告,从而向每个用户更精准的展示对应的广告,以提高广告的点击率,改善广告投放效果和页面的访问量。
对点击率进行测试时需要对历史的投放效果进行分析建模。首先要提取样本数据来构建原始样本集合,对点击率进行预测,因此样本数据中包括用户的点击数据和未点击数据。在这过程中,样本数据的不均衡问题是制约建模效果的一大问题。资料显示,目前互联网广告投放平均只有0.3%左右的用户进行了点击,即广告每展示1000次,只有3次左右的点击。
因而将原始样本集合作为训练样本集合时,会造成训练样本集合中点击数据和未点击数据之间比例严重失衡。在这种严重不均衡的样本数据中未点击数据的样本特征占据了绝大部分,在现有技术中,直接将所述原始样本集合作为训练样本集合构造预测模型,导致预测模型的预测结果偏向于未点击数据,预测结果不准确。
样本数据分布不均衡一般会造成某类样本数据量非常稀少,如在申请中点击数据非常匮乏。而在实际数据挖掘中,噪声数据的存在是不可避免,并在一定程度上对预测或分类模型产生影响。在这种不均衡的问题中,由于点击数据本身非常稀少,难以提供足够的统计数据将其与噪声数据相区分,抗噪能力相对较弱。从而,少量的噪声样本就会影响训练模型建立和预测结果。
通常原始样本集合中会含有噪声,由于点击数据和未点击数据之间比例严重失衡,例如点击数据和未点击数据的比例为3∶997,其中含有1个噪声数据,则噪声数据对点击数据的影响就比较大,而对未点击数据的影响比较小。
因而基于此种样本数据进行预测模型的训练时,未点击数据在模型中产生影响偏大,进而导致预测模型更加偏向于未点击数据,根据样本数据得到的预测模型的预测结果偏向于未点击数据,而点击数据仅占小部分空间,基于所述预测模型对测试样本进行测试时,偏差的预测模型会产生偏差的预测结果,使得预测结果偏向于未点击的情况从而影响了点击率预测的准确性。
发明内容
本申请提供了一种广告的点击率预测方法及***,以解决原始样本集合中样本数据严重不均衡会影响点击率预测的准确性的问题。
为了解决上述问题,本申请公开了一种广告的点击率预测方法,包括:
提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
通过对所述原始样本集合进行采样,构建训练样本集合;
以所述训练样本集合中的样本数据为模型参数构建预测模型;
利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
优选的,所述通过对所述原始样本集合进行采样构建训练样本集合,包括:
以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合,其中,所述预置的采样比为通过统计得出的点击数据和未点击数据的比值。
优选的,通过对所述原始样本集合进行采样,构建训练样本集合,包括:
采样中,将所有点击数据均加入所述训练样本集合中。
优选的,所述提取样本数据构建原始样本集合,包括:
从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;
并提取原始样本集合中每个样本数据对应的样本特征,所述样本特征用于描述样本数据;
其中,将投放数据中用户的点击次数作为点击数据,用户的未点击次数作为未点击数据。
优选的,测试样本集合为:针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据后,构建的测试样本集合。
优选的,所述的方法还包括:
针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
相应的,本申请还公开了一种广告的点击率预测***,包括:
构建原始样本集合模块,用于提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
构建训练样本集合模块,用于通过对所述原始样本集合进行采样构建训练样本集合;
构建预测模型模块,用于以所述训练样本集合中的样本数据为模型参数构建预测模型;
点击率预测模块,用于利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
优选的,所述构建训练样本集合模块,用于以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合,其中,所述预置的采样比为通过统计得出的点击数据和未点击数据的比值。
优选的,所述构建原始样本集合模块,用于从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;并提取每个样本数据对应的样本特征,所述样本特征用于描述样本数据;其中,将投放数据中用户的点击次数作为点击数据,用户的未点击次数作为未点击数据。
优选的,所述的***还包括:
构建测试样本集合模块,用于针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据构建测试样本集合。
展示模块,用于针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
与现有技术相比,本申请包括以下优点:
本申请提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据,然后通过对所述原始样本集合进行采样构建训练样本集合。本申请没有直接将原始样本集合作为训练样本集合,而是对原始样本集合进行优化来构建训练样本集合,这样就可以消除原始样本集合中点击数据和未点击数据之间比例严重失衡的问题,构建相对均衡的训练样本集合,并且此时噪声数据对所述训练样本集合中点击数据的影响小于噪声数据对原始样本集合中点击数据的影响。再以所述训练样本集合中的样本数据为模型参数构建预测模型,比例相对均衡的样本数据使得预测模型对点击数据的识别率比较高,利用所述预测模型对测试样本集合进行预测,预测用户针对每种广告的点击率,此时预测模型不会严重偏向于未点击数据,提高了点击率预测的准确性。
其次,本申请所述的采样比所对应的点击数据和未点击数据的比值,是依据多次实验的统计结果得出的,具有统计的准确性和客观性,因此针对采样比进行采样构建的训练样本集合中的数据也具有准确性和客观性,进一步的提高了点击率预测的准确性。
再次,本申请可以以预置的采样比对所述原始样本集合进行采样,在采样中将所有点击数据均加入所述训练样本集合中,在保证点击数据数量不变的情况下,减少了训练样本集合中的数据,使得执行模型训练构建预测模型的数据比较少,减少了***的负担,加快了数据的处理速度,提高模型训练的效率。
再次,本申请以预置的采样比为取样数量的依据,因此在构建测试样本集合时,可以选取在最符合所述集合特征的样本,提高样本的准确性和针对性,进一步提高了测试的准确性。
附图说明
图1是本申请实施例所述一种广告的点击率预测方法流程图;
图2是本申请优选实施例所述一种广告的点击率预测方法流程图;
图3是本申请优选实施例所述一种广告的点击率预测方法中基于特征空间决策面示意图;
图4是本申请优选实施例所述一种广告的点击率预测方法示意图;
图5是本申请实施例所述一种广告的点击率预测***结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
现有技术中,原始样本集合中点击数据和未点击数据之间比例严重失衡,导致预测模型的预测结果偏向于未点击数据,从而影响了点击率预测的性能和准确性。
本申请对原始样本集合进行优化来构建训练样本集合,采用比例相对均衡的训练样本集合中的样本数据构建预测模型,利用所述预测模型对测试样本集合进行预测,可以预测用户针对每种广告的点击率,此时预测模型不会偏向于未点击数据,提高了点击率预测的准确性。
参照图1,其给出了本申请实施例所述一种广告的点击率预测方法流程图。
步骤11,提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
首先要提取样本数据来构建原始样本集合,对点击率进行预测,因此样本数据中包括用户的点击数据和未点击数据。
其中,所述原始样本集合中存在点击数据和未点击数据之间比例严重失衡的情况。
步骤12,通过对所述原始样本集合进行采样构建训练样本集合;
上述论述可知,若直接将所述原始样本集合作为训练样本集合构造预测模型,会导致预测模型的预测结果偏向于点击数据。
为了解决这个问题,本申请中不是直接将所述原始样本集合作为训练样本集合,而是对原始样本集合进行采样,使用采样后的样本数据来构建训练样本集合。因此所述训练样本集合中的样本数据也包括点击数据和未点击数据。
采样后构建的训练样本集合中的样本数据分布比较均衡,则若含噪声数据,则噪声数据对点击数据和未点击数据的影响也比较均衡。点击数据本身就能提供足够的统计数据将其与噪声数据相区分,抗噪能力相对较高。从而即使含有少量的噪声样本,也不会影响训练模型建立和预测结果,因此构建的预测模型结构比较准确。
步骤13,以所述训练样本集合为模型参数构建预测模型;
训练样本集合构造完成后,可以以所述训练样本集合中的样本数据为模型参数,来构建预测模型。其中预测模型有多种,可根据具体需求选择,本申请对此不做限定。
步骤14,利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
对测试样本集合进行预测时,可以预测出用户针对每种广告的点击率,例如,针对电子商务类广告的点击率为50%,针对网游类广告的点击率为20%,针对网站推介类广告的点击率为15%,其它为15%。
综上所述,本申请提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据,然后通过对所述原始样本集合进行采样构建训练样本集合。本申请没有直接将原始样本集合作为训练样本集合,而是对原始样本集合进行优化来构建训练样本集合,这样就可以消除原始样本集合中点击数据和未点击数据之间比例严重失衡的问题,构建相对均衡的训练样本集合,并且此时噪声数据对所述训练样本集合中点击数据的影响小于噪声数据对原始样本集合中点击数据的影响。再以所述训练样本集合中的样本数据为模型参数构建预测模型,比例相对均衡的样本数据使得预测模型对点击数据的识别率比较高,利用所述预测模型对测试样本集合进行预测,预测用户针对每种广告的点击率,此时预测模型不会严重偏向于未点击数据,提高了点击率预测的准确性。
参照图2,其给出了本申请优选实施例所述一种广告的点击率预测方法流程图。
步骤21,从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;
例如,针对广告的点击率进行测试时,存在一份投放数据,其中包括某种广告的投放次数,在这些投放次数中,对应用户的点击次数和未点击次数。
因此可以从投放数据中获取某一段时间内的数据,统计针对某种广告,用户的点击次数作为点击数据,用户的未点击次数作为未点击数据,将所述点击数据和未点击数据作为样本数据构建样本集合。
例如,若预测广告的点击率,则样本数据中包括是否点击所投放的广告。若预测网页中娱乐新闻的点击率,则样本数据中包括针对所述娱乐新闻的点击次数和未点击次数。
统计某一段时间内投放数据中用户是否点击了所投放的广告,可以统计出样本数据中有多少点击数据,和多少未点击数据。如,在最近的3个月内,针对某广告投放了1000次,通过统计可能得到点击数据为2,未点击数据为998。
当然样本数据中还包括其他的数据,本申请对此不做限定。例如,针对广告的点击率预测:
首先从广告投放日志中提取出需要投放的广告的样本数据,一个样本数据可以包括该次投放的用户标识ID或用户的IP(Internet Protocol,网络之间互连的协议)地址、广告的投放时间、所投放广告的url(Uniform ResourceLocator,统一资源定位符),及用户是否点击了所投放的广告。
步骤22,提取每个样本数据对应的样本特征,所述样本特征用于描述样本数据;
构建一个样本集合,除了提取样本数据以外,还要提取对应的样本特征,其中样本特征用于描述样本数据,每一维特征都由一个对应的特征值进行量化,通过特征值可以区分不同的样本。
其中,通过特征值对样本特征进行量化的方法很多,例如,采用样本特征出现的频度来进行度量,又如某个网站的访问特征可以使用固定时间内的访问量除以注册用户的总数等,本申请对此不做限定。
从网络报文日志中提取投放样本数据对应的样本特征,其中样本特征至少包含以下一项特征:
用户的相关特征、投放url相关特征和广告的相关特征。
其中,用户的相关特征可以包括:用户历史所访问的网站或网页、用户使用的查询词信息、用户以前所点击过的广告信息等。
投放url相关特征包括:内容特征、锚文本特征、url所对应的查询词特征及超链接特征等。
广告的相关特征可以包括:广告维度,广告的着陆页(Landing Page,有时被称为首要捕获用户页)相关特征、竞价词、描述信息、广告行业等。
例如,广告的点击率预测中,样本特征为电子商务广告,还可以包括对应的链接信息和竞价词等。又如,网页中娱乐新闻的点击率预测,则样本特征可以为特征词和内容特征等。
步骤23,以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合;
本申请可以预先设置一个采样比P,对原始训练样本进行采样时可以按照预置的采样比进行采样。其中所述预置的采样比是通过统计得出的点击数据和未点击数据的比值,使二者分布相对原始样本集合更加均衡。
所述采样比的确定方法可以包括:
1、设置i个采样比,针对每一个采样比,分别对原始样本集合进行采样构建训练样本集合,再构建预测模型。每个预测模型对应一份预测指标,所述预测指标是关于广告投放的准确率和召回率的指标。
其中,第一个采样比对应的预测指标为A1,......,第i个采样比对应的预测指标为Ai
2、直接使用原始样本集合构建预测模型,该预测模型对应的预测指标为B。
针对i个采样比对应i个预测指标Ai,将每一个预测指标Ai分别与预测指标B进行比较,多次重复上述过程,统计比较后的结果。
其中,若预测指标Ai大于等于预测指标B,则为合适的采样比,可以用来对原始样本集合进行采样。否则,为不合适的采样比,不能用来对原始样本集合进行采样。
针对原始样本集合中点击数据和未点击数据之间比例严重失衡的问题,本申请所述选取的采样比P的取值范围可以为1∶2~1∶10,适用于原始样本集合中点击数据和未点击数据之间比例大于1∶10的情况。
根据预置的采样比P进行采样后,采样出的点击数据和未点击数据即可作为样本数据构建对应的训练样本集合。
在采样中,可以将原始样本集合中所有点击数据均加入所述训练样本集合中,此时可以在训练样本集合中最大限度的保留点击数据。若原始样本集合中点击数据为n个,则训练样本集合中点击数据为n个,未点击数据为n*P个。
例如,原始样本集合中样本数据为1000个,其中点击数据与未点击数据的比值为2∶998,则采样时可以按照预置的采样比P=1∶10进行采样,将原始样本数据中所有点击数据加入构建的训练样本集合中,则训练样本集合中样本数据为22个,其中点击数据为2个,未点击数据为20个。
此时保留了全部的点击数据,并且改善了原始样本集合中样本数据分布非常不均衡的问题。其中预置的采样比是通过统计得出的,具有客观性和准确性。
步骤24,以所述训练样本的样本数据集合为模型参数构建预测模型;
以所述训练样本集合的样本数据为模型参数构建预测模型,例如构建中根据需求选择对应的预测模型,如BT(behavioral targeting,用户行为定向)模型、CM(contextual match,内容匹配)模型或搜索触发模型。
例如,所述预测模型为基于概率估计的贝叶斯模型,若以原始样本集合中的样本数据为模型参数,点击数据较少时,对可能会产生广告点击的特征进行概率估计的准确率将会降低,导致对可能产生点击数据的识别率下降。
而以所述训练样本集合中的样本数据为模型参数,点击数据与未点击数据分布比较均衡,可以提高对可能会产生广告点击的特征进行概率估计的准确率,并且提升对可能产生点击数据的识别率。
参照图3,给出了本申请优选实施例所述一种点击率预测方法中基于特征空间决策面示意图。
又如,所述预测模型为基于特征空间决策面,该预测模型目的在于寻找使结构风险最小的最优决策面。当训练样本不均衡时,所选取的支持向量分布也会分布不均衡,在计算结构风险最小过程中,模型会忽略掉点击数据对结构风险的影响,从而扩大了非点击数据的决策边界,导致模型得到的实际决策面与最优决策面产生偏差。
图3为特征维度为2时,点击数据和非点击数据示例图,其中圆圈表示未点击数据本,方框表示点击数据,虚线为最优决策面,实线表示实际决策面。
其中图(a)为当样本分布不均衡时,由于噪音数据的存在,点击数据和未点击数据在最优决策面附近相互重叠,由于未点击数据在样本量上更占优势,导致模型得到的实际决策面(实线所示)偏向于未点击数据。
图(b)为经过为采样比为1∶2的比例进行采样后,构建的训练样本集合的样本数据分布实例。通过采样,有效抑制了未点击数据对决策面产生的影响,得到的实际决策面更接近于最优决策面。
步骤25,针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据构建测试样本集合;
在进行点击率预测时,预测模型需要对测试样本集合进行测试,才能得到预测的点击率,因此需要构建测试样本集合。
广告的一次投放对应着具体的广告投放页面,例如,在网页A中投放了广告,则网页A即为广告投放页面。用户点击了某网站的页面,会生成并发送页面请求给所述网站的服务器,若该页面为广告投放页面,则该网站的服务器也会发送广告请求给广告服务器,广告服务器会对用户可能点击的广告进行预测,因此对提取点击投放页面的用户作为测试的样本数据构建测试样本集合,同时还会提取样本数据对应的样本特征。
其中,所述测试样本集合中的样本数据可以与训练样本集合的样本数据基本一致,包括用户标识ID或用户的IP地址,广告的投放时间、所投放广告的url等。
步骤26,利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率;
例如,所述预测模型为基于特征空间的线性决策面,则可以区分每个特征能够产生点击数据的权重,因此在使用预测模型对测试样本进行预测时,就可以通过计算该样本每一维特征值与该维度上特征权重之积,并对所有特征维度上的积求和,从而预测出包含一些样本特征的样本数据对应用户为可能点击某种广告的用户,并且预测出用户针对所述广告的点击率,而不包含这些样本特征的样本数据对应用户为不可能点击该广告的用户。
例如,针对网游类广告,则样本特征中曾经点击过网游网站的用户为可能点击网游类广告的用户,而样本特征中没有点击过网游网站的用户为不可能点击网游类广告的用户。
通过上述的方法可以预测出的用户可能点击的广告以及针对该广告的点击率,并且用户可能点击的广告有多种,例如,针对电子商务类广告的点击率为50%,针对网游类广告的点击率为20%,针对网站推介类广告的点击率为15%,其它为15%。
步骤27,针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
上述预测出用户针对每种广告的点击率,可以将所有广告的点击率进行排序,选取点击率最高的广告,在用户打开一个页面时,可以展示所述点击率最高的广告,即该用户的本次访问行为最有可能点击的广告,进而可以提高对应广告的点击率。此时不同用户即使打开的是同一个页面,显示的广告也可能是不同的。
例如,预测结果显示用户1可能点击电子商务类广告,用户2可能点击网游广告,因此在用户1和用户2点击同一个网站的首页时,用户1看到的是电子商务类广告,用户2看到的是网游类广告。
又如,上述预测出用户针对电子商务类广告的点击率为50%,针对网游类广告的点击率为20%,针对网站推介类广告的点击率为15%,其它为15%。则对所有的广告的点击率进行排序后,该用户针对电子商务类广告的点击率最高,因此可以向用户展示电子商务类广告。
针对,广告的点击率预测,目前进行精准广告投放的主要策略包括搜索触发(sponsored search)、内容匹配、用户行为定向(behavioral targeting,BT)几种方式。
其中搜索触发的广告是根据用户向搜索引擎提交的关键词进行广告检索,由于关键词直接反映了用户当前的兴趣,故可以向用户推送与当前搜索内容相关的广告。
内容匹配则是对用户正在浏览的网页的内容进行建模分析,向用户展示与网页内容相近的广告。
用户行为定向可以在根据用户的历史行为记录,如用户的搜索历史、网页浏览历史记录、广告展示和点击记录等,对用户的兴趣和行为进行建模和预测,选取符合该用户兴趣的广告进行展示。
可以根据需求,选择对应的策略建立预测模型,进行点击率预测。
参照图4,给出了本申请优选实施例所述一种广告的点击率预测方法示意图。
在广告点击率预测中广告的点击数据的样本数据分布严重失衡。在实际工作中,为了保证足够量的小类样本数据(点击数据),这种失衡一方面导致训练样本数据急剧膨胀,增加计算实际和存储资源。另一方面,样本数据失衡可能会对模型的训练性能产生负面影响。
基于这种观察,本专利提供一种欠采样策略,在这种样本数据失衡情况下,一方面减少多类样本数据数量,从而降低训练样本集合规模,节省所需要的存储空间和计算资源,提供训练效率;另一方面,由于样本数据分布相对均衡,可以有效避免样本集和本身对模型性能产生的负面影响,提高预测效果。
下面论述广告的点击率预测方法。
针对广告的点击率预测,首先可以从网络报文日志中提取样本特征,并从广告投放日志中提取广告投放的样本,所述广告投放的样本包括点击数据和未点击数据。然后根据所述样本和样本特征构建原始样本集合,通常所述原始样本集合中点击数据和未点击数据分布非常不均衡。因此对所述原始样本集合进行采样,构建训练样本集合,所述训练样本集合中点击数据和未点击数据分布比较均衡。然后根据以所述训练样本集合为模型参数,构建预测模型,使用预测模型对测试样本集合进行点击率测试。
综上所述,本申请所述的采样比所对应的点击数据和未点击数据的比值,是依据多次实验的统计结果得出的,具有统计的准确性和客观性,因此针对采样比进行采样构建的训练样本集合中的数据也具有准确性和客观性,进一步的提高了点击率预测的准确性。
其次,由于点击数据和未点击数据之间比例严重失衡,通常训练样本集合中的数据相应的比较多,因此执行模型训练的数据比较多,***负担较大,处理速度较慢,影响模型训练的效率。本申请可以以预置的采样比对所述原始样本集合进行采样,在采样中将所有点击数据均加入所述训练样本集合中,在保证点击数据数量不变的情况下,减少了训练样本集合中的数据,使得执行模型训练构建预测模型的数据比较少,减少了***的负担,加快了数据的处理速度,提高模型训练的效率。
再次,本申请以预置的采样比为取样数量的依据,因此在构建测试样本集合时,可以选取在最符合所述集合特征的样本,提高样本的准确性和针对性,进一步提高了测试的准确性。
参照图5,给出了本申请实施例所述一种点击率预测***结构图。
相应的,本申请还提供了一种点击率的预测***,该***中的每个模块均可由计算机实现。所述的***包括:构建原始样本集合模块11、构建训练样本集合模块12、构建预测模型模块13和点击率预测模块15,其中:
构建原始样本集合模块11,用于提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
构建训练样本集合模块12,用于通过对所述原始样本集合进行采样,构建训练样本集合;
构建预测模型模块13,用于以所述训练样本集合中的样本数据为模型参数构建预测模型;
点击率预测模块15,用于利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
优选的,所述构建原始样本集合模块11用于从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;并提取每个样本数据对应的样本特征,所述样本特征用于描述样本数据。
其中,将投放数据中用户的点击次数作为点击数据,用户的未点击次数作为未点击数据。
优选的,所述构建训练样本集合模块12,用于以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合。
其中,所述预置的采样比为通过统计得出的点击数据和未点击数据的比值。采样中,将所有点击数据均加入所述训练样本集合中。
优选的,所述的***还包括:
构建测试样本集合模块14,用于针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据构建测试样本集合。
展示模块16,用于针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种广告的点击率预测方法及***,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种广告的点击率预测方法,其特征在于,包括:
提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
通过对所述原始样本集合进行采样,构建训练样本集合;
以所述训练样本集合中的样本数据为模型参数构建预测模型;
利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
2.根据权利要求1所述的方法,其特征在于,所述通过对所述原始样本集合进行采样构建训练样本集合,包括:
以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合,其中,所述预置的采样比为通过统计得出的点击数据和未点击数据的比值。
3.根据权利要求1所述的方法,其特征在于,通过对所述原始样本集合进行采样,构建训练样本集合,包括:
采样中,将所有点击数据均加入所述训练样本集合中。
4.根据权利要求1所述的方法,其特征在于,所述提取样本数据构建原始样本集合,包括:
从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;
并提取原始样本集合中每个样本数据对应的样本特征,所述样本特征用于描述样本数据;
其中,将投放数据中用户的点击次数作为点击数据,用户的未点击次数作为未点击数据。
5.根据权利要求1所述的方法,其特征在于,测试样本集合为:
针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据后,构建的测试样本集合。
6.根据权利要求5所述的方法,其特征在于,还包括:
针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
7.一种广告的点击率预测***,其特征在于,包括:
构建原始样本集合模块,用于提取样本数据构建原始样本集合,其中所述样本数据包括用户的点击数据与未点击数据;
构建训练样本集合模块,用于通过对所述原始样本集合进行采样构建训练样本集合;
构建预测模型模块,用于以所述训练样本集合中的样本数据为模型参数构建预测模型;
点击率预测模块,用于利用所述预测模型对测试样本集合进行预测,预测出用户针对每种广告的点击率。
8.根据权利要求7所述的***,其特征在于,包括:
所述构建训练样本集合模块,用于以预置的采样比对原始训练样本进行采样,并构建与所述采样比相对应的训练样本集合,其中,所述预置的采样比为通过统计得出的点击数据和未点击数据的比值。
9.根据权利要求7所述的***,其特征在于,包括:
所述构建原始样本集合模块,用于从投放数据中提取某段时间内的数据作为样本数据构建原始样本集合;并提取每个样本数据对应的样本特征,所述样本特征用于描述样本数据;其中,将投放数据中用户的点击次数作为点击数据,用户的未点击次数作为未点击数据。
10.根据权利要求9所述***,其特征在于,还包括:
构建测试样本集合模块,用于针对广告投放页面,提取点击广告投放页面的用户作为测试的样本数据构建测试样本集合。
11.根据权利要求10所述***,其特征在于,还包括:
展示模块,用于针对所述测试样本集合中的用户,在页面中向所述用户展示点击率最高的广告。
CN201210074541XA 2012-03-20 2012-03-20 一种广告的点击率预测方法及*** Pending CN102663617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210074541XA CN102663617A (zh) 2012-03-20 2012-03-20 一种广告的点击率预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210074541XA CN102663617A (zh) 2012-03-20 2012-03-20 一种广告的点击率预测方法及***

Publications (1)

Publication Number Publication Date
CN102663617A true CN102663617A (zh) 2012-09-12

Family

ID=46773097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210074541XA Pending CN102663617A (zh) 2012-03-20 2012-03-20 一种广告的点击率预测方法及***

Country Status (1)

Country Link
CN (1) CN102663617A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880688A (zh) * 2012-09-14 2013-01-16 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN103235893A (zh) * 2013-05-06 2013-08-07 重庆大学 一种用户-商品点击率自适应预测装置和预测方法
CN103246985A (zh) * 2013-04-26 2013-08-14 北京亿赞普网络技术有限公司 一种广告点击率预测方法及装置
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及***
CN103345512A (zh) * 2013-07-06 2013-10-09 北京品友互动信息技术有限公司 一种基于用户属性的网络广告点击率预测方法和装置
CN103746898A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 基于采样分析的电子邮件发送方法和***
CN103853711A (zh) * 2012-11-28 2014-06-11 ***通信集团广西有限公司 一种文本信息处理方法及装置
CN103914475A (zh) * 2013-01-05 2014-07-09 腾讯科技(北京)有限公司 一种视频播放量的预测方法、***和装置
CN104090919A (zh) * 2014-06-16 2014-10-08 华为技术有限公司 推荐广告的方法及广告推荐服务器
CN104268644A (zh) * 2014-09-23 2015-01-07 新浪网技术(中国)有限公司 广告位上的广告的点击次数预估方法和装置
CN104536983A (zh) * 2014-12-08 2015-04-22 北京掌阔技术有限公司 一种预测广告点击率的方法和装置
CN104778608A (zh) * 2015-04-13 2015-07-15 合一信息技术(北京)有限公司 一种n+广告投放优化方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN104951965A (zh) * 2015-06-26 2015-09-30 深圳市腾讯计算机***有限公司 广告投放方法及装置
CN105095625A (zh) * 2014-05-14 2015-11-25 阿里巴巴集团控股有限公司 点击率预估模型建立方法、装置及信息提供方法、***
CN105654200A (zh) * 2015-12-30 2016-06-08 上海珍岛信息技术有限公司 一种基于深度学习的广告点击率预测方法及装置
CN105915438A (zh) * 2016-04-15 2016-08-31 北京奇虎科技有限公司 消息推送方法、装置及***
CN106227743A (zh) * 2016-07-12 2016-12-14 精硕世纪科技(北京)有限公司 广告目标群体触达比率评估方法及装置
CN106886915A (zh) * 2017-01-17 2017-06-23 华南理工大学 一种基于时间衰减采样的广告点击预估方法
WO2017107571A1 (zh) * 2015-12-24 2017-06-29 北京大学 一种基于用户管理应用行为的应用质量判别方法及***
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN107369052A (zh) * 2017-08-29 2017-11-21 北京小度信息科技有限公司 用户注册行为预测方法、装置及电子设备
CN107463580A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 训练点击率预估模型方法和装置、点击率预估方法和装置
CN107527243A (zh) * 2017-08-29 2017-12-29 有米科技股份有限公司 一种预测app冲榜所需广告投放量的方法
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN108965951A (zh) * 2018-07-12 2018-12-07 北京奇艺世纪科技有限公司 广告的播放方法及装置
CN109408724A (zh) * 2018-11-06 2019-03-01 北京达佳互联信息技术有限公司 多媒体资源预估点击率的确定方法、装置及服务器
CN110188942A (zh) * 2019-05-27 2019-08-30 北京金山安全软件有限公司 点击通过率的预测方法、装置及设备
CN112907284A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 一种目标特征组合的构建方法和装置
CN113129046A (zh) * 2019-12-31 2021-07-16 上海哔哩哔哩科技有限公司 点击率预测方法、装置以及计算机设备
CN113706228A (zh) * 2021-11-01 2021-11-26 腾讯科技(深圳)有限公司 多媒体信息播放控制方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203875A (zh) * 2005-03-30 2008-06-18 谷歌公司 利用广告将被用户察觉或感知的可能性来调整费用,例如每广告显现的费用
CN101385018A (zh) * 2005-12-30 2009-03-11 谷歌公司 使用估计的广告质量来进行广告过滤、排名和提升
CN101390118A (zh) * 2005-12-30 2009-03-18 谷歌公司 预测广告质量
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机***有限公司 一种预估网络广告效果的方法及***
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203875A (zh) * 2005-03-30 2008-06-18 谷歌公司 利用广告将被用户察觉或感知的可能性来调整费用,例如每广告显现的费用
CN101385018A (zh) * 2005-12-30 2009-03-11 谷歌公司 使用估计的广告质量来进行广告过滤、排名和提升
CN101390118A (zh) * 2005-12-30 2009-03-18 谷歌公司 预测广告质量
CN102110265A (zh) * 2009-12-23 2011-06-29 深圳市腾讯计算机***有限公司 一种预估网络广告效果的方法及***
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880688B (zh) * 2012-09-14 2016-07-27 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN102880688A (zh) * 2012-09-14 2013-01-16 北京百度网讯科技有限公司 一种用于对网页进行评估的方法、装置和设备
CN103853711A (zh) * 2012-11-28 2014-06-11 ***通信集团广西有限公司 一种文本信息处理方法及装置
CN103853711B (zh) * 2012-11-28 2017-02-08 ***通信集团广西有限公司 一种文本信息处理方法及装置
CN103914475A (zh) * 2013-01-05 2014-07-09 腾讯科技(北京)有限公司 一种视频播放量的预测方法、***和装置
CN103914475B (zh) * 2013-01-05 2018-05-04 腾讯科技(北京)有限公司 一种视频播放量的预测方法、***和装置
CN103246985B (zh) * 2013-04-26 2016-12-28 北京亿赞普网络技术有限公司 一种广告点击率预测方法及装置
CN103246985A (zh) * 2013-04-26 2013-08-14 北京亿赞普网络技术有限公司 一种广告点击率预测方法及装置
CN103235893B (zh) * 2013-05-06 2016-03-23 重庆大学 一种用户-商品点击率自适应预测装置和预测方法
CN103235893A (zh) * 2013-05-06 2013-08-07 重庆大学 一种用户-商品点击率自适应预测装置和预测方法
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及***
CN103345512A (zh) * 2013-07-06 2013-10-09 北京品友互动信息技术有限公司 一种基于用户属性的网络广告点击率预测方法和装置
CN103746898A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 基于采样分析的电子邮件发送方法和***
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN105095625A (zh) * 2014-05-14 2015-11-25 阿里巴巴集团控股有限公司 点击率预估模型建立方法、装置及信息提供方法、***
WO2015192667A1 (zh) * 2014-06-16 2015-12-23 华为技术有限公司 推荐广告的方法及广告推荐服务器
CN104090919B (zh) * 2014-06-16 2017-04-19 华为技术有限公司 推荐广告的方法及广告推荐服务器
CN104090919A (zh) * 2014-06-16 2014-10-08 华为技术有限公司 推荐广告的方法及广告推荐服务器
CN104268644A (zh) * 2014-09-23 2015-01-07 新浪网技术(中国)有限公司 广告位上的广告的点击次数预估方法和装置
CN104536983A (zh) * 2014-12-08 2015-04-22 北京掌阔技术有限公司 一种预测广告点击率的方法和装置
CN104778608A (zh) * 2015-04-13 2015-07-15 合一信息技术(北京)有限公司 一种n+广告投放优化方法
CN104951965A (zh) * 2015-06-26 2015-09-30 深圳市腾讯计算机***有限公司 广告投放方法及装置
WO2017107571A1 (zh) * 2015-12-24 2017-06-29 北京大学 一种基于用户管理应用行为的应用质量判别方法及***
CN105654200A (zh) * 2015-12-30 2016-06-08 上海珍岛信息技术有限公司 一种基于深度学习的广告点击率预测方法及装置
CN105915438B (zh) * 2016-04-15 2019-02-19 北京奇虎科技有限公司 消息推送方法、装置及***
CN105915438A (zh) * 2016-04-15 2016-08-31 北京奇虎科技有限公司 消息推送方法、装置及***
CN107346464B (zh) * 2016-05-06 2021-04-16 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN107463580B (zh) * 2016-06-06 2020-07-24 腾讯科技(深圳)有限公司 训练点击率预估模型方法和装置、点击率预估方法和装置
CN107463580A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 训练点击率预估模型方法和装置、点击率预估方法和装置
CN106227743A (zh) * 2016-07-12 2016-12-14 精硕世纪科技(北京)有限公司 广告目标群体触达比率评估方法及装置
CN106227743B (zh) * 2016-07-12 2019-09-24 精硕科技(北京)股份有限公司 广告目标群体触达比率评估方法及装置
CN106886915B (zh) * 2017-01-17 2020-07-28 华南理工大学 一种基于时间衰减采样的广告点击预估方法
CN106886915A (zh) * 2017-01-17 2017-06-23 华南理工大学 一种基于时间衰减采样的广告点击预估方法
CN107124320A (zh) * 2017-06-30 2017-09-01 北京金山安全软件有限公司 流量数据的监控方法、装置及服务器
CN107527243A (zh) * 2017-08-29 2017-12-29 有米科技股份有限公司 一种预测app冲榜所需广告投放量的方法
CN107369052A (zh) * 2017-08-29 2017-11-21 北京小度信息科技有限公司 用户注册行为预测方法、装置及电子设备
CN108921604B (zh) * 2018-06-22 2022-03-29 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN108965951A (zh) * 2018-07-12 2018-12-07 北京奇艺世纪科技有限公司 广告的播放方法及装置
CN108965951B (zh) * 2018-07-12 2020-10-02 北京奇艺世纪科技有限公司 广告的播放方法及装置
CN109408724A (zh) * 2018-11-06 2019-03-01 北京达佳互联信息技术有限公司 多媒体资源预估点击率的确定方法、装置及服务器
CN110188942A (zh) * 2019-05-27 2019-08-30 北京金山安全软件有限公司 点击通过率的预测方法、装置及设备
CN113129046A (zh) * 2019-12-31 2021-07-16 上海哔哩哔哩科技有限公司 点击率预测方法、装置以及计算机设备
CN112907284A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 一种目标特征组合的构建方法和装置
CN113706228A (zh) * 2021-11-01 2021-11-26 腾讯科技(深圳)有限公司 多媒体信息播放控制方法、装置、电子设备和存储介质
CN113706228B (zh) * 2021-11-01 2022-02-08 腾讯科技(深圳)有限公司 多媒体信息播放控制方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN102663617A (zh) 一种广告的点击率预测方法及***
US11100178B2 (en) Method and device for pushing information
CN102609474B (zh) 一种访问信息提供方法及***
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
AU2006332534B2 (en) Predicting ad quality
US9576251B2 (en) Method and system for processing web activity data
CN102760124B (zh) 一种推荐数据的推送方法及***
CN103914468B (zh) 一种投放信息搜索的方法和装置
CN103577413B (zh) 搜索结果排序方法及***、搜索结果排序优化方法及***
CN103221951B (zh) 预测查询建议高速缓存
CN103797474B (zh) 提供与转化路径相关的数据的方法、装置及***
US8615514B1 (en) Evaluating website properties by partitioning user feedback
US8856146B2 (en) Device for determining internet activity
WO2015175384A1 (en) Query categorizer
CN102262661B (zh) 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
US8886650B2 (en) Algorithmically choosing when to use branded content versus aggregated content
CN106251174A (zh) 信息推荐方法及装置
CN102932206B (zh) 监测网站访问信息的方法和***
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN104462293A (zh) 搜索处理方法、生成搜索结果排序模型的方法和装置
EP1969486A2 (en) Using estimated ad qualities for ad filtering, ranking and promotion
WO2019161027A1 (en) System and method for bot detection
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN104899229A (zh) 基于群体智能的行为聚类***
CN103795697A (zh) 一种网络媒介信息投放效果模拟方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120912