CN108830416A - 基于用户行为的广告点击率预测框架及算法 - Google Patents

基于用户行为的广告点击率预测框架及算法 Download PDF

Info

Publication number
CN108830416A
CN108830416A CN201810608374.XA CN201810608374A CN108830416A CN 108830416 A CN108830416 A CN 108830416A CN 201810608374 A CN201810608374 A CN 201810608374A CN 108830416 A CN108830416 A CN 108830416A
Authority
CN
China
Prior art keywords
feature
advertisement
text
formula
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810608374.XA
Other languages
English (en)
Other versions
CN108830416B (zh
Inventor
琚生根
孙界平
李兴国
王婧妍
刘宁宁
张芮
金玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810608374.XA priority Critical patent/CN108830416B/zh
Publication of CN108830416A publication Critical patent/CN108830416A/zh
Application granted granted Critical
Publication of CN108830416B publication Critical patent/CN108830416B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户行为的广告点击率预测框架及算法,将ID类特征与其他特征在不同层次上进行联合转换为有意义的数值特征,该特征能降低特征稀疏性和冗余度以及提高特征表达性;同时,为进一步提高特征表达性,本发明利用了GBDT模型进行特征选择与特征组合,利用LR模型来处理高维特征;最后为解决类别不平衡问题,本发明提出了基于K_Means模型的下采样算法。实验过程中,首先对原始特征进行特征提取,然后采用启发式思维进行特征分类,将感性特征输入GBDT模型进行特征组合,最后,将理性特征与组合特征以一定的权值输入LR模型进行广告点击率预测。实验结果表明,本发明算法在RMSE与R2指标上均有改善。

Description

基于用户行为的广告点击率预测框架及算法
技术领域
本发明涉及一种广告点击率预测算法,尤其涉及一种基于用户行为的广告点击率预测框架及算法。
背景技术
互联网的快速发展,为广告业提供了广阔的平台。互联网广告[1-2]具有受众范围广、交互性强、实时灵活等优点,使得广告行业逐渐向其倾斜。互联网广告可以利用用户上网行为,挖掘用户兴趣,达到广告的精准推送,既提升了用户体验,又带来了经济效益。点击率预测算法是广告***的核心算法之一,是基于会话日志在给定用户查询与广告时,预测用户点击广告的概率。
准确的广告点击率预测会给用户带来良好的体验,也会给网站拥有者和广告商带来更大的经济效益[3-5],因此,无论是工业界中还是学术界中,都出现了越来越多的计算广告的研究者。MJ Effendi[6]等人提出了基于线性回归的上下文广告点击率预测算法,该算法利用上下文信息对广告间的相互影响进行建模,利用聚类算法辅助计算文本相似度,该算法简单高效,易于调参,但很难学习特征之间的复杂关系。Y Juan[7]等人提出了基于域的因子分解机的在线广告点击率预测算法,该算法能够解决数据稀疏性问题,但模型参数较多,模型效率较低,同时,很难学习特征之间的高阶关系。N Yin[8]等人采用基于MapReduce的耦合逻辑回归模型对广告点击率进行预测,该算法利用MapReduce的分而治之思想来处理大量稀疏数据,同时,利用基于方向导数的拟牛顿优化方法来处理非凸非光滑数据集,但模型很难学习特征间的复杂关系。H Guo[9]等人采用基于因子分解机与神经网络的融合模型对广告点击率进行预测,该算法利用因子分解机的特性和神经网络的体系结构,来学习特征之间的复杂关系,提高模型预测准确率。
目前研究存在以下难点[10-12]:1、广告点击日志文件数据量大且增长较快;2、广告点击日志文件包含大量取值较多的类别特征;3、广告点击率数值较小且呈长尾分布,同时,存在类别不平衡问题;4、很难基于某种假设对兴趣漂移现象建模。
发明内容
本发明为了解决上述问题而提供一种基于用户行为的广告点击率预测框架及算法。
本发明通过以下技术方案来实现上述目的:
本发明首先采用基于K_Means模型的下采样算法来解决类别不平衡问题,然后,采用启发式思维对特征进行特征分类,再然后,利用梯度提升树对感性特征进行特征组合,最后,将组合后的特征与理性特征按一定权重输入逻辑回归模型进行广告点击率预测;
特征提取:
基于实验数据集及实际业务分析,进行特征提取工作,目的是降低特征冗余度和特征稀疏性以及提高特征表达性;主要特征如下:
查询相关度:
本发明文本特征属于短文本且经过加密处理,同时,广告关键字、广告标题、广告描述互为强相关,所以,本发明采用Dice系数、Jaccard距离、tf_idf来联合计算文本相似度;
Dice系数计算公式如公式1所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,len(t1)表示文本1的总词数;
Jaccard距离计算公式如公式2所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,union(t1,t2)表示文本1与文本2去重后的总词数;
tf_idf计算公式如公式3所示:
其中,count(w,t)表示查询词在文本中出现的次数,size(t)表示文本的总词数,tf(w,t)表示词频,idf表示逆文本频率;
最终相似度计算公式如公式(4)所示;
sim=α*dice+β*Jaccard+λ*tf_idf (4)
网站吸引度:
网站吸引度是指展示在特定网站上广告的点击率的方差;计算公式如公式(5)所示;
其中,表示展示在网站上广告的平均点击率,ctrij表示网站i的广告点击率;
广告商宣传力度:
广告商宣传力度是指特定广告商所投放广告的点击率方差;计算公式如公式(6)所示;
其中,表示广告商所投放广告的平均点击率,ctrij表示网站i的广告点击率;
广告位置:
广告位置是指广告实际位置;基于数据分析,广告点击率与广告实际位置呈负相关,与广告相对位置呈非相关;
广告受众分析:
广告具有定向性,即每个广告都有自己的目标群体;本发明将特定广告下点击次数最多的年龄、性别作为广告受众的年龄、性别;
广告点击率:
广告点击率是指在给定用户与广告时,预测用户点击广告的概率;计算公式如公式7所示;
其中,clicks表示广告的实际点击次数,impression表示广告的总展示次数;
基于实际业务分析,理性特征包括用户查询相关性和广告展示位置分,感性广告包括网站吸引度、广告商宣传力度、性别、年龄、受众性别、受众年龄以及广告深度;
认为每个用户都是感性与理性的混合体,而感性与理性的占比会随时间地点环境发生变化;为了更加准确地定位用户,本发明将特征分为两个互不相交的特征集合,然后基于用户输入查询词的详细程度来衡量特征集权重;
理性特征集权重计算公式如公式8所示;
感性特征集权重计算公式如公式9所示;
其中,qNumi表示用户i输入的查询词个数,kNumj表示待点击广告j所包含的关键字个数,w1ij表示在给定用户i和待点击广告j时,理性特征集的权重,w2ij表示在给定用户i和待点击广告j时,感性特征集的权重。
本发明的有益效果在于:
本发明是一种基于用户行为的广告点击率预测框架及算法,与现有技术相比,本发明具有如下技术效果:1、为降低特征冗余度和稀疏性,将ID类特征与其他特征联合转换为有意义的数值特征;2、为提高文本特征的计算准确率,采用三种不同的方法进行文本相似度计算;3、为缓解类别不平衡问题,提出了基于K_Means模型的下采样算法;4、为提高特征表达性和处理大量稀疏数据,采用梯度提升树与逻辑回归的融合模型进行广告点击率预测;5、利用用户输入查询词的详细程度来实时预测用户发生兴趣漂移的概率。
将ID类特征与其他特征在不同层次上进行联合转换为有意义的数值特征,该特征能降低特征稀疏性和冗余度以及提高特征表达性;同时,为进一步提高特征表达性,本发明利用了GBDT模型进行特征选择与特征组合,利用LR模型来处理高维特征;最后为解决类别不平衡问题,本发明提出了基于K_Means模型的下采样算法。实验过程中,首先对原始特征进行特征提取,然后采用启发式思维进行特征分类,将感性特征输入GBDT模型进行特征组合,最后,将理性特征与组合特征以一定的权值输入LR模型进行广告点击率预测。实验结果表明,本发明算法在RMSE与R2指标上均有改善。
附图说明
图1是本发明的算法框架图
图2是本发明的不同k值下DBI的变化曲线图
图3是本发明的不同采样比例下rmse和r2的变化曲线图
图4是本发明的不同学习速率与基学习器个数下测试集
(a)损失函数为huber,最大特征数为sqrt;(b)损失函数为ls,最大特征数为all;(c)损失函数为ls,最大特征数为sqrt;
图5是本发明的不同最大树深度下rmse的变化曲线;
图6是本发明的不同叶子节点最少样本数下rmse的变化曲线;
图7是本发明的不同内部节点再划分所需最小样本数下rmse的变化曲线;
图8是本发明的不同特征下的rmse对比条形图;
图9是本发明的不同特征下的R2对比条形图;
图10是本发明的在不同数据集下RMSE对比条形图;
图11是本发明的在不同数据集下R2对比条形图;
图12是本发明的不同算法下RMSE和R2对比条形图。
具体实施方式
下面结合附图对本发明作进一步说明:
算法框架
本发明首先采用基于K_Means模型的下采样算法来解决类别不平衡问题,然后,采用启发式思维对特征进行特征分类,再然后,利用梯度提升树对感性特征进行特征组合,最后,将组合后的特征与理性特征按一定权重输入逻辑回归模型进行广告点击率预测。本发明算法框架如图1所示。
特征提取:
本发明基于实验数据集及实际业务分析,进行特征提取工作,目的是降低特征冗余度和特征稀疏性以及提高特征表达性。主要特征如下:
查询相关度:
本发明文本特征属于短文本且经过加密处理,同时,广告关键字、广告标题、广告描述互为强相关,所以,本发明采用Dice系数、Jaccard距离、tf_idf来联合计算文本相似度。
Dice系数计算公式如公式1所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,len(t1)表示文本1的总词数。
Jaccard距离计算公式如公式2所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,union(t1,t2)表示文本1与文本2去重后的总词数。
tf_idf计算公式如公式3所示:
其中,count(w,t)表示查询词在文本中出现的次数,size(t)表示文本的总词数,tf(w,t)表示词频,idf表示逆文本频率。
最终相似度计算公式如公式(4)所示。
sim=α*dice+β*Jaccard+λ*tf_idf (4)
网站吸引度:
网站吸引度是指展示在特定网站上广告的点击率的方差。计算公式如公式(5)所示。
其中,表示展示在网站上广告的平均点击率,ctrij表示网站i的广告点击率。
广告商宣传力度:
广告商宣传力度是指特定广告商所投放广告的点击率方差。计算公式如公式(6)所示。
其中,表示广告商所投放广告的平均点击率,ctrij表示网站i的广告点击率。
广告位置:
广告位置是指广告实际位置。基于数据分析,广告点击率与广告实际位置呈负相关,与广告相对位置呈非相关。
广告受众分析:
广告具有定向性,即每个广告都有自己的目标群体。本发明将特定广告下点击次数最多的年龄、性别作为广告受众的年龄、性别。
广告点击率:
广告点击率是指在给定用户与广告时,预测用户点击广告的概率。计算公式如公式7所示。
其中,clicks表示第i广告的实际点击次数,impression表示第i广告的总展示次数。
基于实际业务分析,理性特征包括用户查询相关性和广告展示位置分,感性广告包括网站吸引度、广告商宣传力度、性别、年龄、受众性别、受众年龄以及广告深度。
本发明认为每个用户都是感性与理性的混合体,而感性与理性的占比会随时间地点环境发生变化。为了更加准确地定位用户,本发明将特征分为两个互不相交的特征集合,然后基于用户输入查询词的详细程度来衡量特征集权重。
理性特征集权重计算公式如公式8所示。
感性特征集权重计算公式如公式9所示。
其中,qNumi表示用户i输入的查询词个数,kNumj表示待点击广告j所包含的关键字个数,w1ij表示在给定用户i和待点击广告j时,理性特征集的权重,w2ij表示在给定用户i和待点击广告j时,感性特征集的权重。
基于K_Means模型的下采样算法:
由数据分析可得,本发明训练样本正负样本比例为1:8,属于类别不平衡。本发明提出了基于K_Means模型的下采样算法,从数据层面解决类别不平衡问题,同时,缓解了由下采样造成的有用信息丢失问题。
待聚类簇数参数实验:
本发明先采用K_Means模型对大众类样本聚类,目的是学习大众类样本的分布特性。不同k值下DBI的变化曲线图如图2所示。
由图2所得,当K为3时,DBI值最小为0.551。所以,在后续的随机下采样率参数实验过程中,将待聚类簇数设置为3。
下采样率参数实验:
本发明通过随机下采样算法和GBDT_LR模型进行下采样率参数实验。不同采样比例下rmse和r2的变化曲线图如图3所示。
由图3所得,当下采样率为0.28时,GBDT_LR模型效果最好,此时,训练集中正负样本的数量比例为1:2。
梯度提升树+逻辑回归:
本发明利用GBDT的结构特性进行特征选择和组合,利用LR模型来处理大量稀疏数据,目的是提高模型预测准确率和模型训练效率。
GBDT模型参数实验:
在GBDT模型参数训练部分,本发明先进行过程参数训练,再进行基分类器参数训练。
1)GBDT模型的过程参数实验
测试集在不同学习速率与迭代次数下的rmse变化曲线图如图4所示。
由图4所得,当GBDT模型的损失函数为ls,最大特征数为sqrt,学习率为0.05,基分类器个数为700时,此时,模型效果最好。
2)GBDT模型的基分类器参数实验
在损失函数为ls,最大特征数凭为sqrt,学习率为0.05,基分类器个数为700下,RMSE在不同树深度、叶子节点最少样本、内部节点再划分所需最小样本数的变化曲线图如图5-7所示。
由图5-7所得,当GBDT模型的最大树深度为8,叶子节点最少样本数为25,内部节点再划分所需最小样本数为20,此时,模型效果最好。
实验:
实验数据:
本发明数据是腾讯搜搜的广告点击日志文件。具体的数据描述如表1所示。
表1字段描述
由数据分析及实际业务分析可得,本发明原始数据中存在未知用户和误点情况。本发明对数据清理后的数据进行了统计性分析。不同类别下的样本数统计表如表2所示。
表2不同类别下的记录数
算法实验
参数设置:
本发明参数由基于K_Means模型的下采样算法参数实验和GBDT参数实验可得。本发明参数列表如表3所示。
表3本发明参数列表
对比算法:
为了验证本发明算法的有效性,本发明选择了2个传统算法和3个流行算法进行性效果对比实验。对比算法及参数设置如下所示。
逻辑回归算法:最大迭代次数为700,学习率为0.05。
梯度提升树:最大子模型数为700,学***方根,决策树最大深度为8,内部节点再划分所需最小样本数为20,叶子节点最少样本数为25。
文献4(FNN算法):输入层12个节点,第一层隐藏层300个节点,第二层隐藏层100个节点,输出层1个节点,学习率为0.05,输入层节点的激活函数为linear函数,隐藏层激活函数为sigmoid函数。
文献5(GBDT_LR算法):最大子模型数为700,学***方根,决策树最大深度为8,内部节点再划分所需最小样本数为20,叶子节点最少样本数为25。
文献7(FFM算法):学习率为0.05,损失函数为Logloss,迭代次数为700。2.2.3评价指标
均方根误差是点击率的预测值与真实值差值的平方和,除以测试集大小后的平方根,其能衡量预测值的离散程度,从而能度量算法预测的稳定性。RMSE指标计算公式如公式4所示。
R2指标就是将模型预测的数值与不使用模型进行预测而用均值作为预测值的方法,进行误差对比,以此来衡量模型的预测能力。R2指标计算公式如公式5所示。
其中,tctri表示样本i的预测点击率,pctri表示样本i的真实点击率,n表示测试集的样本个数。
实验结果:
本发明先从特征提取和类别不平衡两个角度验证本发明处理有效性,最后,验证本发明算法-基于用户行为的广告点击率预测算法的有效性。
1)特征提取
本发明采用逻辑回归算法、随机森林算法、梯度提升树算法、线性回归算法和GBDT_LR算法,从RMSE和R2上验证本发明特征提取有效性。
由上图所得,新特征在RMSE、R2方面优于原始特征,说明了本发明特征处理的有效性。
2)类别不平衡
本发明采用逻辑回归算法、梯度提升树算法、GBDT_LR算法、FMM算法、FNN算法,从RMSE和R2上验证基于K_Means模型的下采样算法的有效性。
由上图所得,采用基于K_Means模型的下采样算法处理后的数据集在RMSE、R2方面优于原始数据集,说明了基于K_Means模型的下采样算法的有效性。
3)本发明算法
本发明采用逻辑回归算法、梯度提升树算法、GBDT_LR算法、FMM算法、FNN算法,从RMSE和R2上验证本发明算法的有效性。
由上图所得,本发明算法在RMSE、R2方面优于前人算法以及经典算法,说明了本发明算法的有效性。
结束语:
本发明基于目前研究难点,首先根据实验数据及实际业务分析,进行特征提取工作,目的是降低特征冗余度与特征稀疏性以及提高特征表达性;然后,基于用户行为分析,通过用户输入查询词的详细程度来实时预测用户发生兴趣漂移的概率;然后,提出了基于K_Means模型的下采样算法,目的是缓解由下采样所造成的有用信息丢失问题和类别不平衡问题;再然后,利用GBDT模型进一步进行特征选择与特征组合,提高特征表达性;最后,利用逻辑回归模型处理大量高维数据。
因为本发明利用GBDT模型来学习特征间的复杂关系,所以,当处理大规模训练数据时,本发明算法的时间性能较差。基于上述分析,未来工作将集中于两个部分,一是特征引用方面,主要考虑用户历史点击信息;二是时间性能方面,主要考虑限制LR模型的输入特征-即GBDT的叶子节点个数。
参考文献:
[1]刘庆振.“互联网+”时代的计算广告学:产生过程,概念界定与关键问题[J].新闻知识,2016(6):9-15.
[2]McMahan H B,Holt G,Sculley D,et al.Ad click prediction:a view fromthe trenches[C]//Proceedings of the 19th ACM SIGKDD international conferenceon Knowledge discovery and data mining.ACM,2013:1222-1230.
[3]Gai K,Zhu X,Li H,et al.Learning Piece-wise Linear Models fromLarge Scale Data for Ad Click Prediction[J].2017.
[4]Zhang W,Du T,Wang J.Deep learning over multi-field categoricaldata[C]//European conference on information retrieval.Springer,Cham,2016:45-57.
[5]He X,Pan J,Jin O,et al.Practical lessons from predicting clicks onads at facebook[C]//Proceedings of the Eighth International Workshop on DataMining for Online Advertising.ACM,2014:1-9.
[6]Effendi M J,Ali S A.Click Through Rate Prediction for ContextualAdvertisment Using Linear Regression[J].arXiv preprint arXiv:1701.08744,2017.
[7]Juan Y,Lefortier D,Chapelle O.Field-aware Factorization Machinesin a Real-world Online Advertising System[J].2017.
[8]Yin N,Li H,Su H.CLR:coupled logistic regression model for CTRprediction[C]//ACM Turing,Celebration Conference-China.ACM,2017:21.
[9]Guo H,Tang R,Ye Y,et al.Holistic Neural Network for CTR Prediction[C]//Proceedings of the 26th International Conference on World Wide WebCompanion.International World Wide Web Conferences Steering Committee,2017:787-788.
[10]Ling X,Deng W,Gu C,et al.Model Ensemble for Click Prediction inBing Search Ads[C]//International Conference on World Wide WebCompanion.International World Wide Web Conferences Steering Committee,2017:689-698.
[11]An experimental comparison of three methods for constructingensembles of decision trees:Bagging,boosting,and randomization[J].
Machine learning,2000,40(2):139-157.
Xia Y,Liu C,Li Y Y,et al.A boosted decision tree approach usingBayesian hyper-parameter optimization for credit scoring[J].Expert Systemswith Applications,2017,78:225-241.
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种基于用户行为的广告点击率预测框架及算法,其特征在于:首先采用基于K_Means模型的下采样算法来解决类别不平衡问题,然后,采用启发式思维对特征进行特征分类,再然后,利用梯度提升树对感性特征进行特征组合,最后,将组合后的特征与理性特征按一定权重输入逻辑回归模型进行广告点击率预测;
特征提取:
基于实验数据集及实际业务分析,进行特征提取工作,目的是降低特征冗余度和特征稀疏性以及提高特征表达性;主要特征如下:
查询相关度:
文本特征属于短文本且经过加密处理,同时,广告关键字、广告标题、广告描述互为强相关,所以,本发明采用Dice系数、Jaccard距离、tf_idf来联合计算文本相似度;
Dice系数计算公式如公式1所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,len(t1)表示文本1的总词数;
Jaccard距离计算公式如公式2所示:
其中,comm(t1,t2)表示文本1与文本2的共同部分,union(t1,t2)表示文本1与文本2去重后的总词数;
tf_idf计算公式如公式3所示:
其中,count(w,t)表示查询词在文本中出现的次数,size(t)表示文本的总词数,tf(w,t)表示词频,idf表示逆文本频率;
最终相似度计算公式如公式(4)所示;
sim=α*dice+β*Jaccard+λ*tf_idf (4)
网站吸引度:
网站吸引度是指展示在特定网站上广告的点击率的方差;计算公式如公式(5)所示;
其中,表示展示在网站上广告的平均点击率,ctrij表示网站i的广告点击率;
广告商宣传力度:
广告商宣传力度是指特定广告商所投放广告的点击率方差;计算公式如公式(6)所示;
其中,表示广告商所投放广告的平均点击率,ctrij表示网站i的广告点击率;
广告位置:
广告位置是指广告实际位置;基于数据分析,广告点击率与广告实际位置呈负相关,与广告相对位置呈非相关;
广告受众分析:
广告具有定向性,即每个广告都有自己的目标群体;本发明将特定广告下点击次数最多的年龄、性别作为广告受众的年龄、性别;
广告点击率:
广告点击率是指在给定用户与广告时,预测用户点击广告的概率;计算公式如公式7所示;
其中,clicks表示第i广告的实际点击次数,impression表示第i广告的总展示次数;
基于实际业务分析,理性特征包括用户查询相关性和广告展示位置分,感性广告包括网站吸引度、广告商宣传力度、性别、年龄、受众性别、受众年龄以及广告深度;
认为每个用户都是感性与理性的混合体,而感性与理性的占比会随时间地点环境发生变化;为了更加准确地定位用户,本发明将特征分为两个互不相交的特征集合,然后基于用户输入查询词的详细程度来衡量特征集权重;
理性特征集权重计算公式如公式8所示;
感性特征集权重计算公式如公式9所示;
其中,qNumi表示用户i输入的查询词个数,kNumj表示待点击广告j所包含的关键字个数,w1ij表示在给定用户i和待点击广告j时,理性特征集的权重,w2ij表示在给定用户i和待点击广告j时,感性特征集的权重。
CN201810608374.XA 2018-06-13 2018-06-13 基于用户行为的广告点击率预测方法 Expired - Fee Related CN108830416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810608374.XA CN108830416B (zh) 2018-06-13 2018-06-13 基于用户行为的广告点击率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810608374.XA CN108830416B (zh) 2018-06-13 2018-06-13 基于用户行为的广告点击率预测方法

Publications (2)

Publication Number Publication Date
CN108830416A true CN108830416A (zh) 2018-11-16
CN108830416B CN108830416B (zh) 2020-02-18

Family

ID=64143854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810608374.XA Expired - Fee Related CN108830416B (zh) 2018-06-13 2018-06-13 基于用户行为的广告点击率预测方法

Country Status (1)

Country Link
CN (1) CN108830416B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、***、介质和计算设备
CN110210902A (zh) * 2019-05-27 2019-09-06 北京金山安全软件有限公司 点击通过率的预测方法、装置及设备
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质
CN111353803A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 广告主分类方法及装置、计算设备
CN111369278A (zh) * 2020-02-19 2020-07-03 杭州电子科技大学 一种基于用户长短时期兴趣建模的点击率预测方法
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN111738303A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于层次学习的长尾分布图像识别方法
CN112149352A (zh) * 2020-09-23 2020-12-29 上海数鸣人工智能科技有限公司 一种结合gbdt自动特征工程对营销活动点击的预测方法
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN113808755A (zh) * 2020-06-17 2021-12-17 中移动信息技术有限公司 感染人群预测模型训练的方法、预测的方法、装置、设备
CN114611720A (zh) * 2022-03-14 2022-06-10 北京字节跳动网络技术有限公司 联邦学习模型训练方法、电子设备及存储介质
CN116843388A (zh) * 2023-08-29 2023-10-03 新义互联(北京)科技有限公司 一种广告投放分析方法及***
CN117035873A (zh) * 2023-10-09 2023-11-10 广州钛动科技股份有限公司 少样本广告多任务联合预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及***
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
US9213749B1 (en) * 2013-03-15 2015-12-15 Google Inc. Content item selection based on presentation context
CN105590240A (zh) * 2015-12-30 2016-05-18 合一网络技术(北京)有限公司 一种品牌广告效果优化的离散计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213749B1 (en) * 2013-03-15 2015-12-15 Google Inc. Content item selection based on presentation context
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及***
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
CN105590240A (zh) * 2015-12-30 2016-05-18 合一网络技术(北京)有限公司 一种品牌广告效果优化的离散计算方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353803A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 广告主分类方法及装置、计算设备
CN111353803B (zh) * 2018-12-24 2024-04-05 三六零科技集团有限公司 广告主分类方法及装置、计算设备
CN109992710A (zh) * 2019-02-13 2019-07-09 网易传媒科技(北京)有限公司 点击率预估方法、***、介质和计算设备
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质
CN110210902A (zh) * 2019-05-27 2019-09-06 北京金山安全软件有限公司 点击通过率的预测方法、装置及设备
CN111369278A (zh) * 2020-02-19 2020-07-03 杭州电子科技大学 一种基于用户长短时期兴趣建模的点击率预测方法
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN111738303A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于层次学习的长尾分布图像识别方法
CN111738301B (zh) * 2020-05-28 2023-06-20 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN111738303B (zh) * 2020-05-28 2023-05-23 华南理工大学 一种基于层次学习的长尾分布图像识别方法
CN113808755A (zh) * 2020-06-17 2021-12-17 中移动信息技术有限公司 感染人群预测模型训练的方法、预测的方法、装置、设备
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112749333B (zh) * 2020-07-24 2024-01-16 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112149352A (zh) * 2020-09-23 2020-12-29 上海数鸣人工智能科技有限公司 一种结合gbdt自动特征工程对营销活动点击的预测方法
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112633937B (zh) * 2020-12-30 2023-10-20 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合gbdt的营销预测方法
CN114611720A (zh) * 2022-03-14 2022-06-10 北京字节跳动网络技术有限公司 联邦学习模型训练方法、电子设备及存储介质
CN114611720B (zh) * 2022-03-14 2023-08-08 抖音视界有限公司 联邦学习模型训练方法、电子设备及存储介质
WO2023174036A1 (zh) * 2022-03-14 2023-09-21 北京字节跳动网络技术有限公司 联邦学习模型训练方法、电子设备及存储介质
CN116843388A (zh) * 2023-08-29 2023-10-03 新义互联(北京)科技有限公司 一种广告投放分析方法及***
CN116843388B (zh) * 2023-08-29 2023-11-17 新义互联(北京)科技有限公司 一种广告投放分析方法及***
CN117035873A (zh) * 2023-10-09 2023-11-10 广州钛动科技股份有限公司 少样本广告多任务联合预测方法
CN117035873B (zh) * 2023-10-09 2024-03-29 广州钛动科技股份有限公司 少样本广告多任务联合预测方法

Also Published As

Publication number Publication date
CN108830416B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN108830416A (zh) 基于用户行为的广告点击率预测框架及算法
US9824124B2 (en) Method and apparatus for web ad matching
US7921069B2 (en) Granular data for behavioral targeting using predictive models
CN103514304B (zh) 一种项目推荐方法和装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
US20150186938A1 (en) Search service advertisement selection
CN106251174A (zh) 信息推荐方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN105912669A (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及***
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103593353A (zh) 信息搜索方法、展示信息排序权重值确定方法及其装置
CN106777282B (zh) 相关搜索的排序方法和装置
CN103646070A (zh) 搜索引擎的数据处理方法及装置
CN103279504B (zh) 一种基于歧义消解的搜索方法及装置
CN103617235A (zh) 一种基于粒子群算法的网络水军账号识别方法及***
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN112612951B (zh) 一种面向收益提升的无偏学习排序方法
Li et al. A hybrid model for experts finding in community question answering
CN113837842A (zh) 一种基于用户行为数据的商品推荐方法及设备
Lin et al. A consumer review-driven recommender service for web e-commerce
CN103744958B (zh) 一种基于分布式计算的网页分类方法
Zhou et al. MMSE: A multi-model stacking ensemble learning algorithm for purchase prediction
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
CN110516175A (zh) 一种确定用户标签的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200218

CF01 Termination of patent right due to non-payment of annual fee