CN112149352A - 一种结合gbdt自动特征工程对营销活动点击的预测方法 - Google Patents

一种结合gbdt自动特征工程对营销活动点击的预测方法 Download PDF

Info

Publication number
CN112149352A
CN112149352A CN202011007410.0A CN202011007410A CN112149352A CN 112149352 A CN112149352 A CN 112149352A CN 202011007410 A CN202011007410 A CN 202011007410A CN 112149352 A CN112149352 A CN 112149352A
Authority
CN
China
Prior art keywords
user
dpi
gbdt
prediction model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011007410.0A
Other languages
English (en)
Other versions
CN112149352B (zh
Inventor
项亮
方同星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuming Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuming Artificial Intelligence Technology Co ltd filed Critical Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority to CN202011007410.0A priority Critical patent/CN112149352B/zh
Publication of CN112149352A publication Critical patent/CN112149352A/zh
Application granted granted Critical
Publication of CN112149352B publication Critical patent/CN112149352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种结合GBDT自动特征工程对营销活动的点击预测方法,数据预处理步骤、GBDT预测模型建立步骤、带正则化项的预测模型建立步骤和对营销活动点击的预测步骤;数据预处理步骤包括从用户原始信息提取原始特征信息、依次处理具有任务批次号的所有批次中的原始特征信息,对用户手机号码归属地特征进行One‑hot编码处理、将所有任务批次号按照升序得到任务批次的排序;用户预测模型选择为带正则化项的LR模型+GBDT预测模型的结合;对营销活动点击的预测步骤采用用户预测模型对拟互联网产品营销的用户群体进行点击意愿度预测。因此,本发明能提供用户对广告点击意愿进行直接预测的途径,能处理具有大规模稀疏特征的数据。

Description

一种结合GBDT自动特征工程对营销活动点击的预测方法
技术领域
本发明涉及人工智能在互联网营销的技术领域,更具体地,涉及一种结合GBDT自动特征工程对营销活动点击的预测方法。
背景技术
随着互联网行业市场竞争的日益激烈,应用大数据已经成为互联网营销的新方式,即互联网运营商大数据精准获客***应运而生。大数据智能获客***,以运营商大数据库为中心,直接抓取符合自定义条件用户的联系方式,直接与客户进行沟通,降低企业获客成本,提高企业利润。
目前,往往通过用户画像和用户行为特征来进行对广告营销行为的预测,比较常用的机器学习算法可以分为以线性模型为代表的逻辑回归(Logistic regression,LR)和因子分解机(Factorization Machine,FM),以及以梯度提升决策树(Gradient BoostingDecision tree,GBDT)。
然而,上述两类算法都有一些固有的缺点存在:
①.对于线性模型,由于线性模型本身的表达能力有限,因此,特征之间的交互信息并不能被线性模型有效学习,如逻辑回归只能学习一阶特征本身,而即使因子分解机考虑了特征交互,其也只能学习到二阶特征交互信息。因此,线性模型非常依赖算法工程师进行的特征工程,其通过手动选择特征并进行高阶交互特征的构造,来提升线性模型的学习能力。
②.梯度提升决策树模型,其通过对特征进行遍历并以此对样本进行特征空简的划分能够轻松实现特征之间的交互,因此,有很强的学习能力。但是,在营销广告推荐领域,用户特征往往包含大量稀疏的one-hot类型特征,如归属地、访问4G页面的URL等,这些特征仅有少数才有相应的值。
因此,基于梯度提升决策树的算法,非常不适合处理上述这种包含大量稀疏特征的数据,不仅太容易造成过拟合,且由于大量的特征可能并不会作为决策树的***节点被使用,从而导致特征信息被浪费。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种结合GBDT自动特征工程对营销活动点击的预测方法,其用GBDT对的高阶特征交互作用对用户特征中的连续特征进行建模,将模型中的叶节点作为新的高阶交互的稀疏特征和原本用户的稀疏特征进行结合,不仅可以充分利用用户特征信息,并可以解决GBDT对稀疏特征不敏感的问题。
为实现上述目的,本发明的技术方案如下:
一种结合GBDT自动特征工程对营销活动点击的预测方法,其特征在于,包括数据预处理步骤S1、GBDT预测模型建立步骤S2和带正则化项的LR预测模型建立步骤S3;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI和用户访问DPI频次;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI和用户访问DPI频次为每一个任务批次号为计量单位;
步骤S12:依次处理具有所述任务批次号的所有批次中的所述原始特征信息,对所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为用户访问DPI与DPI的频次的关系特征;
步骤S13:将所有所述任务批次号按照升序进行排序,得到所有所述任务批次号的排序;其中,所述任务批次号的升序是同日期时间的远近成正比,所述日期时间越近,所述任务批次号越大;
所述GBDT预测模型建立步骤S2包括如下步骤:
步骤S21:在预处理之后,以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次定义为连续特征;
步骤S22:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S23:提供所需建立的GBDT预测模型,将所述训练集中的每一个样本的连续特征作为所述GBDT预测模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出,对集所述GBDT预测模型进行训练和验证,得到参数优化后的所述GBDT预测模型;
所述带正则化项的LR预测模型建立步骤S3具体包括:
步骤S31:以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
步骤S32:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S33:提供带正则化项的LR模型,将所述训练集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述带正则化项的LR模型的输出,对所述带正则化项的LR模型进行训练和验证,得到参数优化后的所述带正则化项的LR模型。
进一步地,所述结合GBDT自动特征工程对营销活动的点击预测方法还包括对营销活动点击的预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S42:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S43:以用户ID为样本单位,将所述用户访问DPI频次定义为连续特征,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
步骤S44:提供建立好的用户预测模型,将所述样本集中的每一个样本的连续特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的所述第一预测概率值,以及将所述样本集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,得到所述带正则化项的LR模型的所述第二预测概率值;其中,所述用户预测模型为所述带正则化项的LR模型+所述GBDT预测模型;
步骤S45:将所述第一预测概率值和所述第二预测概率值进行加权处理,并将加权后的输出值结果作为所述带正则化项的LR模型+所述GBDT预测模型的输出值。
进一步地,所述带正则化项的LR模型输出值的权重为0.8,所述GBDT预测模型输出值的权重为0.2。
进一步地,所述的结合GBDT自动特征工程对营销活动的点击预测方法还包括:
步骤S46:根据实际投放需求,选择全部或部分所述带正则化项的LR模型+所述GBDT预测模型输出值超过某一阈值的用户进行精准营销的任务。
从上述技术方案可以看出,本发明的结合GBDT自动特征工程对营销活动点击的预测方法,可以有效利用GBDT的特点对用户的连续特征进行高阶交互并输出为稀疏特征,再和原本的稀疏特征部分结合,使用擅长处理稀疏特征的逻辑回归模型进行建模,最后将逻辑回归的输出结果与之前GBDT的输出结果进行加权平均得到最终结果。该方法能够显著提升对用户点击行为预测的准确性。
附图说明
图1所示为本发明实施例中结合GBDT自动特征工程对营销活动的点击预测方法的流程示意图
图2所示为本发明实施例中步骤S2-步骤S4的过程实现示意图
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
在下述的具体实施方式中,在详述本发明的实施方式时,为了清楚地表示本发明的结构以便于说明,特对附图中的结构不依照一般比例绘图,并进行了局部放大、变形及简化处理,因此,应避免以此作为对本发明的限定来加以理解。
需要说明的是,在以下本发明的具体实施方式中,该结合GBDT自动特征工程对营销活动的点击预测方法可以包括数据预处理步骤、模型建立步骤和模型使用步骤,与传统的基于梯度提升决策树的算法相比,本发明能提供用户对广告点击意愿进行直接预测的途径,也适合处理具有大规模稀疏特征的数据。
请参阅图1,图1所示为本发明实施例中结合GBDT自动特征工程对营销活动的点击预测方法的流程示意图。如图1所示,结合GBDT自动特征工程对营销活动的点击预测方法,其包括数据预处理步骤S1、GBDT预测模型建立步骤S2、带正则化项的LR预测模型建立步骤S3和对营销活动点击的预测步骤S4。
在本发明的实施例中,数据预处理步骤非常重要,所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID(id)、用户手机号码归属地(location)、任务批次号(batch number)、用户访问DPI(dpi)和用户访问DPI频次(dpi frequency);其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI和用户访问DPI频次为每一个任务批次号为计量单位。
步骤S12:依次处理具有所述任务批次号的所有批次中的所述原始特征信息,对所述用户手机号码归属地特征进行One-hot编码处理(One-hot编码是一种数据预处理常用方法,将类别特征按照不同取值进行0/1映射为新的特征);其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。
具体地,可以认为,一个任务批次号(batch number)对应一天的用户数据,用户的原始信息中同一个任务批次号(batch number)中的用户可能会有重复,因为,同一个用户可能会访问多个用户访问DPI。因此,需要将所有不同的用户访问DPI展开作为单独的特征,如果一个用户访问过该用户访问DPI,则在该特征下,当前用户的值为1,否则为0。
同理,将用户访问DPI访问频次也按照所有不同的用户访问DPI展开为用户访问DPI与用户访问DPI频次的特征,若用户访问某用户访问DPI共m次则该特征下当前用户的值为m,否则为0。
请参阅下表1,表1为预处理之前的原始数据的表格描述,以同一批次的数据为例,可简略的表示如下:
预处理之前的原始数据:
表1:
用户id 批次号 访问dpi dpi访问频次 归属地 是否点击
用户A #1 dpi 1 5 HN 1
用户A #1 dpi 3 1 HN 1
用户B #1 dpi 2 10 SH 0
用户C #1 dpi 3 3 JS 1
请参阅下表2,表2为预处理之后的数据的表格描述,以同一批次的数据为例,可简略的表示如下:
表2
Figure BDA0002696435340000071
步骤S13:将所有所述任务批次号按照升序进行排序,得到所有所述任务批次号的排序;其中,所述任务批次号的升序是同日期时间的远近成正比,所述日期时间越近,所述任务批次号越大。
经过上述处理后,每一个任务批次内的用户ID将是唯一值;然后,将所有批次的用户数据都做上述处理,并按照批次进行用户方向合并,按照任务批次号(batch number)升序进行排序,任务批次的日期越新则任务批次号(batch number)越大,可以得到处理好的样本。
经过上述数据预处理步骤完成后,就可以选择最后一个批次的数据作为验证样本集来进行模型参数的选择,除此之外的所有样本组成训练样本集用来建立模型,即训练样本集用来进行模型训练的样本集合;验证样本集用来进行模型参数选择的样本集合。
在本发明实施例中的发明思路是一种结合GBDT自动特征工程对营销活动的点击预测方法,其用户预测模型为所述带正则化项的LR模型+所述GBDT预测模型,即利用GBDT对的高阶特征交互作用对用户特征中的连续特征进行建模,将模型中的叶节点作为新的高阶交互的稀疏特征和原本用户的稀疏特征进行结合,可以充分利用用户特征信息,并解决GBDT对稀疏特征不敏感的问题。
因此,在本发明的实施例中,用户预测模型其实是包括了两个模型,一个是GBDT预测模型,另一个是带正则化项的LR模型,也就是说,用户预测模型为带正则化项的LR模型+GBDT预测模型的组合。
所述GBDT预测模型建立步骤S2包括如下步骤:
步骤S21:在预处理之后,以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次定义为连续特征;
步骤S22:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S23:提供所需建立的GBDT预测模型,将所述训练集中的每一个样本的连续特征作为所述GBDT预测模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出,对集所述GBDT预测模型进行训练和验证,得到参数优化后的所述GBDT预测模型;
所述带正则化项的LR预测模型建立步骤S3具体包括:
步骤S31:以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
步骤S32:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S33:提供带正则化项的LR模型,将所述训练集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述带正则化项的LR模型的输出,对所述带正则化项的LR模型进行训练和验证,得到参数优化后的所述带正则化项的LR模型。
也就是说,对处理好的数据,选择最后一个批次的数据作为验证样本集来进行模型参数的选择,除此之外的所有样本组成训练样本集用来建立模型。用户预测模型选择为所述带正则化项的LR模型+所述GBDT预测模型的结合。
具体地,请参阅图2,图2所示为本发明实施例中步骤S2-步骤S4的过程实现示意图。步骤S2和步骤S3的模型训练和验证过程在此不再赘诉。
在本发明的实施例中,所述结合GBDT自动特征工程对营销活动的点击预测方法所包括对营销活动点击的预测步骤S4,其可以具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位。
上述步骤主要是对拟互联网产品营销的用户群体进行特征提取,后续还需要对所述当前任务批次号的所述原始特征信息进行预处理,该预处理的步骤S42如下:
步骤S42:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。
步骤S43:以用户ID为样本单位,将所述用户访问DPI频次定义为连续特征,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
上述处理步骤完成后,就可以通过将上述特征带入用户预测模型,能够提前在广告投放之前就筛选出意愿较高的部分用户,并对这些用户进行营销广告的精准投放。
步骤S44:提供建立好的用户预测模型,将所述样本集中的每一个样本的连续特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的所述第一预测概率值,以及将所述样本集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,得到所述带正则化项的LR模型的所述第二预测概率值;其中,所述用户预测模型为所述带正则化项的LR模型+所述GBDT预测模型;
步骤S45:将所述第一预测概率值和所述第二预测概率值进行加权处理,并将加权后的输出值结果作为所述带正则化项的LR模型+所述GBDT预测模型的输出值。
在本发明的实施例中,所述带正则化项的LR模型输出值的权重可以设为0.8,所述GBDT预测模型输出值的权重为可以设为0.2。
当然,本发明还可以包括步骤S46:根据实际投放需求,选择全部或部分所述带正则化项的LR模型+所述GBDT预测模型输出值超过某一阈值的用户进行精准营销的任务。
结果表明,通过该用户预测模型,可以将大量的低意愿用户直接从投放目标中筛出,从而节省大量的营销成本,实现利润率的增加。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (4)

1.一种结合GBDT自动特征工程对营销活动点击的预测方法,其特征在于,包括数据预处理步骤S1、GBDT预测模型建立步骤S2和带正则化项的LR预测模型建立步骤S3;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI和用户访问DPI频次;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI和用户访问DPI频次为每一个任务批次号为计量单位;
步骤S12:依次处理具有所述任务批次号的所有批次中的所述原始特征信息,对所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为用户访问DPI与DPI的频次的关系特征;
步骤S13:将所有所述任务批次号按照升序进行排序,得到所有所述任务批次号的排序;其中,所述任务批次号的升序是同日期时间的远近成正比,所述日期时间越近,所述任务批次号越大;
所述GBDT预测模型建立步骤S2包括如下步骤:
步骤S21:在预处理之后,以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次定义为连续特征;
步骤S22:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S23:提供所需建立的GBDT预测模型,将所述训练集中的每一个样本的连续特征作为所述GBDT预测模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出,对集所述GBDT预测模型进行训练和验证,得到参数优化后的所述GBDT预测模型;
所述带正则化项的LR预测模型建立步骤S3具体包括:
步骤S31:以用户ID为样本单位,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
步骤S32:选择所述任务批次号最大的任务批次中的数据作为验证集,剩余的所述任务批次号的数据作为训练集;
步骤S33:提供带正则化项的LR模型,将所述训练集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述带正则化项的LR模型的输出,对所述带正则化项的LR模型进行训练和验证,得到参数优化后的所述带正则化项的LR模型。
2.根据权利要求1所述结合GBDT自动特征工程对营销活动的点击预测方法,其特征在于,还包括对营销活动点击的预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S42:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S43:以用户ID为样本单位,将所述用户访问DPI频次定义为连续特征,将所述归属地特征和/或所述用户访问DPI是否点击的特征看作所述样本的稀疏特征,将所述用户访问DPI频次经过所述GBDT预测模型获得所述样本的叶子节点位置稀疏特征,其中,所述样本的叶子节点位置稀疏特征的个数为所述训练集中样本的叶子节点数*子树数个稀疏特征;
步骤S44:提供建立好的用户预测模型,将所述样本集中的每一个样本的连续特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的所述第一预测概率值,以及将所述样本集中的每一个样本的所述样本的叶子节点位置稀疏特征和所述样本的稀疏特征进行特征拼接,作为所述带正则化项的LR模型的输入,得到所述带正则化项的LR模型的所述第二预测概率值;其中,所述用户预测模型为所述带正则化项的LR模型+所述GBDT预测模型;
步骤S45:将所述第一预测概率值和所述第二预测概率值进行加权处理,并将加权后的输出值结果作为所述带正则化项的LR模型+所述GBDT预测模型的输出值。
3.根据权利要求2所述的结合GBDT自动特征工程对营销活动的点击预测方法,其特征在于,所述带正则化项的LR模型输出值的权重为0.8,所述GBDT预测模型输出值的权重为0.2。
4.根据权利要求2或3任意一个所述的结合GBDT自动特征工程对营销活动的点击预测方法,其特征在于,还包括:
步骤S46:根据实际投放需求,选择全部或部分所述带正则化项的LR模型+所述GBDT预测模型输出值超过某一阈值的用户进行精准营销的任务。
CN202011007410.0A 2020-09-23 2020-09-23 一种结合gbdt自动特征工程对营销活动点击的预测方法 Active CN112149352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011007410.0A CN112149352B (zh) 2020-09-23 2020-09-23 一种结合gbdt自动特征工程对营销活动点击的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011007410.0A CN112149352B (zh) 2020-09-23 2020-09-23 一种结合gbdt自动特征工程对营销活动点击的预测方法

Publications (2)

Publication Number Publication Date
CN112149352A true CN112149352A (zh) 2020-12-29
CN112149352B CN112149352B (zh) 2021-08-31

Family

ID=73897702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011007410.0A Active CN112149352B (zh) 2020-09-23 2020-09-23 一种结合gbdt自动特征工程对营销活动点击的预测方法

Country Status (1)

Country Link
CN (1) CN112149352B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112819523A (zh) * 2021-01-29 2021-05-18 上海数鸣人工智能科技有限公司 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112884513A (zh) * 2021-02-19 2021-06-01 上海数鸣人工智能科技有限公司 基于深度因子分解机的营销活动预测模型结构和预测方法
CN113344615A (zh) * 2021-05-27 2021-09-03 上海数鸣人工智能科技有限公司 一种基于gbdt和dl融合模型的营销活动预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180012264A1 (en) * 2016-07-08 2018-01-11 Facebook, Inc. Custom features for third party systems
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN110689368A (zh) * 2019-08-22 2020-01-14 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测***设计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180012264A1 (en) * 2016-07-08 2018-01-11 Facebook, Inc. Custom features for third party systems
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN110689368A (zh) * 2019-08-22 2020-01-14 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测***设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINRAN HE 等: ""Practical Lessons from Predicting Clicks on Ads at Facebook"", 《ADKDD"14: PROCEEDINGS OF THE EIGHTH INTERNATIONAL WORKSHOP ON DATA MINING FOR ONLINE ADVERTISING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112633937B (zh) * 2020-12-30 2023-10-20 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合gbdt的营销预测方法
CN112819523A (zh) * 2021-01-29 2021-05-18 上海数鸣人工智能科技有限公司 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112819523B (zh) * 2021-01-29 2024-03-26 上海数鸣人工智能科技有限公司 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112884513A (zh) * 2021-02-19 2021-06-01 上海数鸣人工智能科技有限公司 基于深度因子分解机的营销活动预测模型结构和预测方法
CN113344615A (zh) * 2021-05-27 2021-09-03 上海数鸣人工智能科技有限公司 一种基于gbdt和dl融合模型的营销活动预测方法
CN113344615B (zh) * 2021-05-27 2023-12-05 上海数鸣人工智能科技有限公司 一种基于gbdt和dl融合模型的营销活动预测方法

Also Published As

Publication number Publication date
CN112149352B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN112149352B (zh) 一种结合gbdt自动特征工程对营销活动点击的预测方法
CN109345302B (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN108320171B (zh) 热销商品预测方法、***及装置
CN109961142B (zh) 一种基于元学习的神经网络优化方法及装置
CN108205766A (zh) 信息推送方法、装置及***
CN106997549A (zh) 一种广告信息的推送方法及***
CN109816483B (zh) 信息推荐方法及装置、可读存储介质
CN107507016A (zh) 一种消息推送方法和***
CN111950806B (zh) 一种基于因子分解机的营销活动预测模型结构和预测方法
CN112258223B (zh) 一种基于决策树的营销广告点击的预测方法
CN115203311B (zh) 一种基于数据大脑的行业数据分析挖掘方法及***
CN116431931B (zh) 实时增量数据统计分析方法
CN112132209B (zh) 一种基于偏向性特征的属性预测方法
CN117271905A (zh) 基于人群画像的侧向需求分析方法及***
CN117668582A (zh) 基于行为数据的用户聚类分析方法
CN112884513A (zh) 基于深度因子分解机的营销活动预测模型结构和预测方法
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN111259267A (zh) 一种基于稀疏性感知的分布式混合协同智能推荐方法
CN112633937B (zh) 基于深度自动编码器降维结合gbdt的营销预测方法
CN116127188A (zh) 目标反馈值确定方法、装置、电子设备及存储介质
CN112308419A (zh) 数据处理方法、装置、设备及计算机存储介质
CN112269927A (zh) 一种基于会话序列动态行为偏好耦合关系分析的推荐方法
CN116485352B (zh) 会员管理和数据分析的方法、装置、设备及存储介质
CN118132856B (zh) 一种基于大数据的智能分析方法及***
CN109710876B (zh) 一种信息推荐方法及装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 200436 room 406, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Patentee after: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.

Address before: Room 1601-026, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436

Patentee before: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.