CN113591971B - 基于dpi时间序列词嵌入向量的用户个性行为预测方法 - Google Patents
基于dpi时间序列词嵌入向量的用户个性行为预测方法 Download PDFInfo
- Publication number
- CN113591971B CN113591971B CN202110857134.5A CN202110857134A CN113591971B CN 113591971 B CN113591971 B CN 113591971B CN 202110857134 A CN202110857134 A CN 202110857134A CN 113591971 B CN113591971 B CN 113591971B
- Authority
- CN
- China
- Prior art keywords
- user
- dpi
- access
- layer
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013135 deep learning Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012847 principal component analysis method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 25
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0257—User requested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于DPI时间序列词嵌入向量的用户个性行为预测方法,其包括数据预处理步骤S1、通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2、模型建立步骤S3和点击率预测步骤S4。因此,本发明通过基于深度学习框架的词向量嵌入技术学习用户访问DPI之间的内在关联,并与原有用户特征一起作为模型输入,得到最终的预测用户点击的二分类学习器,即受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI序列进行学习,挖掘其中的关联,对于提高用户点击率预测的准确性具有重要的理论和应用价值。
Description
技术领域
本发明涉及人工智能在互联网营销的技术领域,更具体地,涉及一种基于DPI(Deep Packet Inspection,数据包的深度检测技术)时间序列词嵌入向量的用户个性行为预测方法。
背景技术
点击率(Click-Through Rate,简称CTR)预估问题是互联网计算广告收益中的关键环节,对用户预估的准确性直接影响公司营销广告的收入。在广告投放过程中,一般会经历广告曝光、用户点击、用户注册(或称转化)这三个过程,CTR预估的一大目的是提高从广告曝光到用户点击的效率,即提高点击率。
由于用户点击或不点击一般定义为用户行为的标签,因此,传统的CTR预估可看作是一种有监督学习问题,即已知了用户点击行为等一系列特征后,将用户点击记为1,用户不点击记为0,从而进行二分类学习。
在数据收集过程中,用户访问DPI一般是用户最后点击记录的DPI,然后在最后一次点击之前,用户一般还会有一系列点击行为。例如,在网购过程中,用户一般会从遵循从大类到小类的顺序进行浏览,或者在点击的某一步中,跳转到相似的物品进行浏览。
因此,怎样挖掘上述用户行为的内在关联性,以提高点击预测的准确率是目前业内急需解决的问题。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于DPI时间序列词嵌入向量的用户个性行为预测方法,其通过基于这样的用户行为分析,在传统的CTR预估中,引入DPI访问序列对于提高点击预测的准确率具有重要的作用。
为实现上述目的,本发明的技术方案如下:
一种基于DPI时间序列词嵌入向量的用户个性行为预测方法,其包括数据预处理步骤S1、通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2、模型建立步骤S3和点击率预测步骤S4。
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从每一个所述用户在一个日期时间段中的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户;
步骤S12:依次对所述用户的原始信息进行异常检测与处理步骤;
步骤S13:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列;
步骤S14:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理;
所述通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2包括:
S21:构建DPI访问序列的词向量嵌入模型;其中,所述词向量嵌入模型包括:输入层、位置嵌入层、注意力层、残差层、全连接层和输出层;
S22:将所述数据预处理步骤S1处理后的N个用户访问DPI访问序列输入到输入层:
S23:所述位置嵌入层接收所述输入层的输出,将单词的位置信息编码成特征向量,并构成第一特征矩阵;
S24:所述注意力层接收所述位置嵌入层的信息编码成特征向量,学习用户DPI访问序列内部不同DPI之间的关联程度,并构成第二特征矩阵;
S25:将第一特征矩阵与第二特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
S26:所述残差层构造的特征矩阵输入到所述全连接层接收;
S27:添加softmax函数,所述输出层输出经过词向量嵌入后的用户DPI访问序列的预测概率;
所述模型建立步骤S3用于形成基于DPI时间序列词嵌入向量的用户个性行为预测方法模型,其使用所述训练集对所述预测模型进行训练,并使用验证集进行验证,得到最终的预测模型,其中所述训练集和验证集的比例为N1:N2,N1+N2为N,其包括如下步骤:
步骤S31:提供初始化的基于DPI时间序列词嵌入向量的用户个性行为预测方法模型,其中,所述点击率预测模型包括第一部分输入层、第二部分输入层、合并层、嵌入层、残差层和输出层;第一部分输入层和第二部分输入层为并列层;
步骤S32:所述第一部分输入层依次接收每一个训练集中的经过词向量嵌入后的用户DPI访问序列的预测概率,所述第二部分输入层依次接收经步骤S1预处理后的除用户DPI访问序列之外的所有特征;
步骤S33:在所述合并层将所述第一部分输入层的输出和所述第二部分输入层的输出合并,得到第三特征矩阵;
步骤S34:所述嵌入层将合并后的特征向量转化为稠密的第四特征矩阵;
步骤S35:将第三特征矩阵与第四特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
步骤S36:接收所述残差层的输入,通过sigmoid函数从所述输出层输出对于点击的二分类问题预测的概率,得到所述用户是否点击数字标签的预测值,即所述点击率预测模型的预测值;
步骤S37:通过所述的预测值,计算所述点击率预测模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述点击率预测模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的点击率预测模型。
进一步地,所述基于DPI时间序列词嵌入向量的用户个性行为预测方法还包括点击率预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟互联网产品营销的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息,依次对所述用户的原始信息进行异常检测与处理步骤;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户;
步骤S42:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列;
步骤S43:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理;
步骤S44:通过深度学习构建用户访问DPI访问序列的词向量嵌入,得到经过词向量嵌入后的用户DPI访问序列的预测概率;
步骤S45:提供建立好的所述点击率预测模型,将用户DPI访问序列的预测概率输入到所述第一部分输入层,预处理后的除用户DPI访问序列之外的所有特征输入到所述第二部分输入层;经所述合并层、嵌入层、残差层和输出层处理后,得到所述用户是否点击数字标签的预测值,最终得到N个用户是否点击数字标签的预测值。
进一步地,所述模型预测步骤S4还包括:
步骤S46:根据实际投放需求,选择全部或部分所述用户的数字标签的预测值点击意愿度为1的用户进行精准营销的任务。
进一步地,所述训练集和验证集的比例为8:2。
进一步地,所述的基于DPI时间序列词嵌入向量的用户个性行为预测方法还包括对所述用户访问DPI时间序列词嵌入向量的点击率预测模型进行模型评价指标处理和/或调优处理。
进一步地,所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。
进一步地,所述模型调优处理包括如下一种或几种:
增加批归一化,解决数据的内部协变量偏移问题;
在网络中增加让部分神经元在训练过程中处于休眠状态的功能;
调整学习率,一般会通过指数式衰减等策略调整训练过程中的学习率;
设置多种子训练取平均,以提高由于数据方差较大引起的泛化能力不足的问题;
增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险;
对超参数的优化方法。
进一步地,所述步骤S37中,训练参数可以设置为mini-batch为128;epoch为50;优化器为Adam优化器。
从上述技术方案可以看出,本发明通过基于深度学习框架的词向量嵌入技术学习用户访问DPI之间的内在关联,并与原有用户特征一起作为模型输入,得到最终的预测用户点击的二分类学习器,即受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI序列进行学习,挖掘其中的关联,对于提高用户点击率预测的准确性具有重要的理论和应用价值。
因此,本发明能够提前在广告投放之前就筛选出意愿较高的部分用户,并对这些用户进行营销广告的精准投放。结果表明,本算法选出的高意愿用户的点击率是低意愿用户点击率的数倍。进一步地,本发明可以将大量的低意愿用户直接从投放目标中筛出,从而节省大量的营销成本,实现利润率的增加。
附图说明
图1所示为本发明实施例中基于DPI时间序列词嵌入向量的用户个性行为预测方法的流程示意图
图2所示为本发明实施例中用户DPI访问序列词向量嵌入模型网络整体框架示意图
图3所示为本发明实施例中基于DPI时间序列词嵌入向量的用户个性行为预测方法模型的框架示意图
图4所示为本发明实施例中用户点击率训练中损失函数-训练轮次关系曲线的示意图
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
在下述的具体实施方式中,在详述本发明的实施方式时,为了清楚地表示本发明的结构以便于说明,特对附图中的结构不依照一般比例绘图,并进行了局部放大、变形及简化处理,因此,应避免以此作为对本发明的限定来加以理解。
需要说明的是,在以下本发明的具体实施方式中,该基于DPI时间序列词嵌入向量的用户个性行为预测方法可以包括数据预处理步骤S1、训练集和验证集形成步骤S2和模型建立步骤S3;与传统的利用运营商数据的数据营销领域所采用的技术相比,本发明通过基于这样的用户行为分析,在传统的CTR预估中,引入DPI访问序列对于提高点击预测的准确率具有重要的作用。本领域技术人员清楚,DPI访问序列一般由一系列字符串组成,如何挖掘其内在关联并转化为模型可以学习的数据输入是关键。
在本发明的实施例中,可以将DPI访问序列理解为一系列语句(sentence),挖掘DPI访问序列之间的内在关联即可转化为挖掘语句之间,或上下文之间的关系,就可以采用自然语言处理中词向量模型对其处理。
词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。典型的词向量技术包括了word2vec、glove、ELMo、BERT等。例如,经典的word2vec词向量技术的核心思想是通过词的上下文得到词的向量化表示,word2vec有两种实现方法,一种称为CBOW,核心思想是把一个句子里面的词扣掉,然后用这个词的上文和下文去预测这个被抠掉的这个词;另外一种称为Skip-gram,和CBOW正好反过来,输入某个单词,要求网络预测它的上下文单词。
受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI访问序列进行学习,挖掘其中的关联,对于提高用户点击率预测的准确性具有重要的理论和应用价值。
请参阅图1,图1所示为本发明实施例中基于DPI时间序列词嵌入向量的用户个性行为预测方法的流程示意图。如图1所示,基于DPI时间序列词嵌入向量的用户个性行为预测方法,其包括数据预处理步骤S1、训练集和验证集形成步骤S2和模型建立步骤S3。
在本发明的实施例中,数据预处理步骤非常重要,所述数据预处理步骤S1包括如下步骤:
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从每一个所述用户在一个日期时间段中的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID(id)、用户手机号码归属地(location)、用户访问DPI(dpi)、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户。
通常,户原始特征为:用户ID(id)、用户手机号码归属地(location)、用户当日访问DPI访问序列(dpi)、用户访问时间等。原始数据形式如下表1所示:
用户id | 访问DPI | 归属地 | 访问时间 | 是否点击 |
199990 | dpi 1 | HN | 150702957019 | 1 |
199990 | dpi 3 | HN | 150702957147 | 1 |
199990 | dpi 2 | HN | 150702960147 | 1 |
… | … | … | … | … |
199990 | dpi 4 | HN | 150702953220 | 1 |
199991 | dpi 3 | LN | 150702158424 | 0 |
199991 | dpi 5 | LN | 150702983485 | 0 |
199991 | dpi 1 | LN | 150712478952 | 0 |
… | … | … | … | … |
199991 | dpi 6 | LN | 150702957147 | 0 |
199992 | dpi 8 | SH | 150702158424 | 1 |
199992 | dpi 9 | SH | 150702983485 | 1 |
199992 | dpi 2 | SH | 150712478952 | 1 |
… | … | … | … | … |
199992 | dpi 5 | SH | 150702957147 | 1 |
步骤S12:依次对所述用户的原始信息进行异常检测与处理步骤。
异常检测与处理:结合业务要求,对于缺失值和过大值等进行删除和填充等处理。在数据的采集过程中,由于一般用户量为百万级别,因此采集过程中可能出现缺失情况。若缺失量较小,一般可直接进行剔除;若无法判断缺失数据是否会影响最终的模型训练效果,则一般可根据取平均数、众数和中位数等方法来填补缺失值。
另外,数据采集中,可能还会遇到过大值的问题,比如某用户在一天之内访问了DPI上万次,这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助,因此也可以采用剔除或填补的方法进行相应的处理。
步骤S13:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列。
从上表1中可以看出,相比于传统的用户访问数据,每一个用户ID对应多个DPI访问记录,同时还给出了访问的时间,因此,在本发明的实施例中,首先需要通过对用户ID分组后,再对访问时间排序,给出按照访问时间先后的DPI访问序列,如下表2所示:
表2
用户id | 访问DPI访问序列 | 归属地 | 是否点击 |
199990 | 1,3,2,…,4 | HN | 1 |
199991 | 3,5,1,…,6 | LN | 0 |
199992 | 8,9,2,…,5 | SH | 1 |
… | … | … | … |
在处理完用户DPI访问序列后,再对其他连续型或类别型特征进行处理。
步骤S14:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理。
类别特征处理:对于用户号码归属地等类别型特征,可以通过独热编码(one-hotenconding)进行展开。例如,归属地有(HN,LN,SH),通过独热编码后,某个用户所在的归属地则为1,其他归属地则为0。以用户ID为199990为例,其归属地为HN,于是经过独热编码后,其归属地向量为(1,0,0);对应的,用户199991和199992的归属地向量则为(0,1,0)和(0,0,1)。
连续特征处理:对于访问时长等连续特征,可利用RankGauss方法,调整数据分布。
降维:采用主成分分析(PCA)对髙维特征进行降维处理。由上述对于类别特征的处理可知,一般经过独热编码后,会形成高维稀疏矩阵,对于神经网络的训练而言,这意味着在误差反向传播时,很多地方没有办法求导,这显然是不利于网络训练的。同时,高维度特征,也增加了计算开销。因此有必要对于高维特征先进行降维处理。PCA通过求解原始数据在某投影方向的方差最大,实现降维目的;在减少特征维度的同时,尽量减少原始特征包含信息的损失,以达到对所收集数据进行全面分析的目的。
经过上述数据预处理步骤完成后,为了学习到用户访问DPI访问序列中的内在关联,并将其转化为数值型数据,作为其它学习器的输入,就可以执行所述通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2。
具体地,在本发明的实施例中,其通过深度学习框架构建用户访问DPI访问序列的词向量嵌入模型。请参阅图2,图2所示为本发明实施例中用户DPI访问序列词向量嵌入模型网络整体框架示意图。如图所示,所述词向量嵌入模型包括:输入层、位置嵌入层、注意力层、残差层、全连接层和输出层。
输入层(Input layer):用于所述数据预处理步骤S1处理后的N个用户访问DPI访问序列;
位置嵌入层(Position embedding):位置嵌入层是指将单词的位置信息编码成特征向量,位置嵌入层是向所述词向量嵌入模型中引入单词位置关系的至关重要的一环。
注意力层(Attention layer):用于学习用户DPI访问序列内部不同DPI之间的关联程度。
残差层(Residual layer):将注意力层所得特征矩阵与位置嵌入层中所得的特征矩阵构造短路连接(short-cut connection),并做平均处理(average)。
全连接层(fully-connected layer):在残差层后增加全连接的神经网络层。
输出层(Output layer):通过添加softmax函数即可用户DPI访问序列词向量嵌入模型输出预测的概率。
所述通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2包括:
S21:构建DPI访问序列的词向量嵌入模型;其中,所述词向量嵌入模型包括:输入层、位置嵌入层、注意力层、残差层、全连接层和输出层;
S22:将所述数据预处理步骤S1处理后的N个用户访问DPI访问序列输入到输入层:
S23:所述位置嵌入层接收所述输入层的输出,将单词的位置信息编码成特征向量,并构成第一特征矩阵;
S24:所述注意力层接收所述位置嵌入层的信息编码成特征向量,学习用户DPI访问序列内部不同DPI之间的关联程度,并构成第二特征矩阵;
S25:将第一特征矩阵与第二特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
S26:所述残差层构造的特征矩阵输入到所述全连接层接收;
S27:添加softmax函数,所述输出层输出经过词向量嵌入后的用户DPI访问序列的预测概率。
在本发明实施例中,经过上述步骤对用户访问DPI序列经过词向量嵌入后,最后转化为如下表3所示的数值型特征:
表3
表中,横坐标表示用户ID,纵坐标表示词向量嵌入后的DPI访问序列的概率值。
请参阅图3,图3所所示为本发明实施例中基于DPI时间序列词嵌入向量的用户个性行为预测方法模型的框架示意图。如图所示,所提供初始化的基于DPI时间序列词嵌入向量的用户个性行为预测方法模型,包括第一部分输入层、第二部分输入层、合并层、嵌入层、残差层和输出层;第一部分输入层和第二部分输入层为并列层。该模型是在上一步中对用户访问DPI序列完成词向量嵌入后,将其与原有原始特征信息一起输入如3所示的深度学习框架进行用户点击率预测。
对所述点击率预测模型的网络整体架构描述如下:
第一部分输入层1(Input layer 1):用于接收上一步经过词嵌入的用户访问DPI序列。
第二部分输入层2(Input layer 2):用于将原有的经过预处理后的除用户DPI访问序列之外的所有特征,如归属地、访问时长等。
合并层(Concatenate layer):用于将输入层1和输入层2的输出进行合并。
嵌入层(Embedding layer):用于将上一层得到的特征向量转化为更加稠密的特征矩阵。
残差层(Residual layer):将嵌入层输出的得特征矩阵与合并层中所得的特征矩阵构造短路连接(short-cut connection),并做平均处理(average)。
输出层(Output layer):用于对用户点击/不点击这一二分类问题,通过sigmoid函数输出最后的预测概率。
有了上述点击率预测模型的框架后,就可以用N个用户的原始信息对初始化的N个用户的原始信息进行训练。所述模型建立步骤S3用于形成基于DPI时间序列词嵌入向量的用户个性行为预测方法模型,其使用所述训练集对所述预测模型进行训练,并使用验证集进行验证,得到最终的预测模型,其中所述训练集和验证集的比例为N1:N2,N1+N2为N,较佳地,N1:N2的比例为8:2。
具体地,请再参考图1,步骤S3具体包括如下步骤:
步骤S31:提供初始化的基于DPI时间序列词嵌入向量的用户个性行为预测方法模型,其中,所述点击率预测模型包括第一部分输入层、第二部分输入层、合并层、嵌入层、残差层和输出层;第一部分输入层和第二部分输入层为并列层;
步骤S32:所述第一部分输入层依次接收每一个训练集中的经过词向量嵌入后的用户DPI访问序列的预测概率,所述第二部分输入层依次接收经步骤S1预处理后的除用户DPI访问序列之外的所有特征;
步骤S33:在所述合并层将所述第一部分输入层的输出和所述第二部分输入层的输出合并,得到第三特征矩阵;
步骤S34:所述嵌入层将合并后的特征向量转化为稠密的第四特征矩阵;
步骤S35:将第三特征矩阵与第四特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
步骤S36:接收所述残差层的输入,通过sigmoid函数从所述输出层输出对于点击的二分类问题预测的概率,得到所述用户是否点击数字标签的预测值,即所述点击率预测模型的预测值;
步骤S37:通过所述的预测值,计算所述点击率预测模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述点击率预测模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的点击率预测模型。
在本发明的实施例中,训练参数可以设置为mini-batch为128;epoch为50;优化器为Adam优化器。请参阅图4,图4所示为本发明实施例中用户点击率训练中损失函数-训练轮次关系曲线的示意图。
上述模型训练完成后,还包括步骤S38,对所述基于DPI时间序列词嵌入向量的用户个性行为预测方法模型进行模型评价指标处理和调优处理;所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。一般来说,AUC值越接近1,则模型分类效果越好。Log loss值越小,说明点击率预估的准确度越高;相对信息增益值越大模型效果越好。
例如,在对数据按照上述步骤处理并通过模型训练后,通过本地验证的AUC值,可以判断该模型的训练效果;若效果较差,一般需要对模型进行调优,对于深度学习算法,一般可从如下几方面进行优化:
①、增加批归一化(Batch Normalization),解决数据的内部协变量偏移问题(Internal Covariate Shift)。
②、在网络中增加Dropout,即让部分神经元在训练过程中处于休眠状态。
③、调整学习率,一般会通过指数式衰减等策略调整训练过程中的学习率。
④、设置多种子训练取平均,降低训练过程中的过拟合风险。
⑤、增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险。
⑥、超参数的优化。
在对超参数的优化方法上,一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search);但上述两种方法对于计算资源的消耗较大,且效率不高。在本发明的实施例中,采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布,得到每一个超参数在每一个取值点的均值和方差;贝叶斯优化通过均衡均值和方差,根据超参数间的联合概率分布,最终选择一组较好的超参数。
上述所有处理步骤完成后,就可采用所述基于DPI时间序列词嵌入向量的用户个性行为预测方法,进行营销活动预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟互联网产品营销的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息,依次对所述用户的原始信息进行异常检测与处理步骤;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户;
步骤S42:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列;
步骤S43:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理;
步骤S44:通过深度学习构建用户访问DPI访问序列的词向量嵌入,得到经过词向量嵌入后的用户DPI访问序列的预测概率;
步骤S45:提供建立好的所述点击率预测模型,将用户DPI访问序列的预测概率输入到所述第一部分输入层,预处理后的除用户DPI访问序列之外的所有特征输入到所述第二部分输入层;经所述合并层、嵌入层、残差层和输出层处理后,得到所述用户是否点击数字标签的预测值,最终得到N个用户是否点击数字标签的预测值。
本发明所述步骤S4还可以包括:
步骤S46:根据实际投放需求,选择全部或部分所述用户的数字标签的预测值点击意愿度为1的用户进行精准营销的任务。
综上所述,本发明通过基于深度学习框架的词向量嵌入技术学习用户访问DPI之间的内在关联,并与原有用户特征一起作为模型输入,得到最终的预测用户点击的二分类学习器,即受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI序列进行学习,挖掘其中的关联,对于提高用户点击率预测的准确性具有重要的理论和应用价值。
因此,本发明能够提前在广告投放之前就筛选出意愿较高的部分用户,并对这些用户进行营销广告的精准投放。结果表明,本算法选出的高意愿用户的点击率是低意愿用户点击率的数倍。进一步地,本发明可以将大量的低意愿用户直接从投放目标中筛出,从而节省大量的营销成本,实现利润率的增加。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (8)
1.一种结合用户访问DPI时间序列词嵌入向量的点击率预测方法,其特征在于,包括数据预处理步骤S1、通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2和模型建立步骤S3;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从每一个所述用户在一个日期时间段中的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户;
步骤S12:依次对所述用户的原始信息进行异常检测与处理步骤;
步骤S13:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列;
步骤S14:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理;
所述通过深度学习构建用户访问DPI访问序列的词向量嵌入步骤S2包括:
S21:构建DPI访问序列的词向量嵌入模型;其中,所述词向量嵌入模型包括:输入层、位置嵌入层、注意力层、残差层、全连接层和输出层;
S22:将所述数据预处理步骤S1处理后的N个用户访问DPI访问序列输入到输入层:
S23:所述位置嵌入层接收所述输入层的输出,将单词的位置信息编码成特征向量,并构成第一特征矩阵;
S24:所述注意力层接收所述位置嵌入层的信息编码成特征向量,学习用户DPI访问序列内部不同DPI之间的关联程度,并构成第二特征矩阵;
S25:将第一特征矩阵与第二特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
S26:所述残差层构造的特征矩阵输入到所述全连接层接收;
S27:添加softmax函数,所述输出层输出经过词向量嵌入后的用户DPI访问序列的预测概率;
所述模型建立步骤S3用于形成结合用户访问DPI时间序列词嵌入向量的点击率预测模型,其使用训练集对预测模型进行训练,并使用验证集进行验证,得到最终的预测模型,其中所述训练集和验证集的比例为N1:N2,N1+N2为N,其包括如下步骤:
步骤S31:提供初始化的结合用户访问DPI时间序列词嵌入向量的点击率预测模型,其中,所述点击率预测模型包括第一部分输入层、第二部分输入层、合并层、嵌入层、残差层和输出层;第一部分输入层和第二部分输入层为并列层;
步骤S32:所述第一部分输入层依次接收每一个训练集中的经过词向量嵌入后的用户DPI访问序列的预测概率,所述第二部分输入层依次接收经步骤S1预处理后的除用户DPI访问序列之外的所有特征;
步骤S33:在所述合并层将所述第一部分输入层的输出和所述第二部分输入层的输出合并,得到第三特征矩阵;
步骤S34:所述嵌入层将合并后的特征向量转化为稠密的第四特征矩阵;
步骤S35:将第三特征矩阵与第四特征矩阵所得的特征矩阵在所述残差层构造短路连接,并做平均处理;
步骤S36:接收所述残差层的输入,通过sigmoid函数从所述输出层输出对于点击的二分类问题预测的概率,得到所述用户是否点击数字标签的预测值,即所述点击率预测模型的预测值;
步骤S37:通过所述的预测值,计算所述点击率预测模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述点击率预测模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的点击率预测模型。
2.根据权利要求1所述结合用户访问DPI时间序列词嵌入向量的点击率预测方法,其特征在于,还包括点击率预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟互联网产品营销的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息,依次对所述用户的原始信息进行异常检测与处理步骤;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI、用户访问时间和用户是否点击的数字标签;所述用户ID至少对应一个用户访问DPI;一个用户ID对应一个用户;
步骤S42:对每一个用户ID号进行分组,以使每一个用户ID与其对应的一个或多个用户访问DPI,并根据所述用户访问时间所进行的排序,给出每一个用户ID按照访问时间先后的访问DPI访问序列;
步骤S43:对所述原始特征信息中的类别特征进行独热编码展开处理;利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理;
步骤S44:通过深度学习构建用户访问DPI访问序列的词向量嵌入,得到经过词向量嵌入后的用户DPI访问序列的预测概率;
步骤S45:提供建立好的所述点击率预测模型,将用户DPI访问序列的预测概率输入到所述第一部分输入层,预处理后的除用户DPI访问序列之外的所有特征输入到所述第二部分输入层;经所述合并层、嵌入层、残差层和输出层处理后,得到所述用户是否点击数字标签的预测值,最终得到N个用户是否点击数字标签的预测值。
3.根据权利要求2所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,其特征在于,所述模型预测步骤S4还包括:
步骤S46:根据实际投放需求,选择全部或部分所述用户的数字标签的预测值点击意愿度为1的用户进行精准营销的任务。
4.根据权利要求1所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,其特征在于,所述训练集和验证集的比例为8:2。
5.根据权利要求1所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,其特征在于,还包括对所述用户访问DPI时间序列词嵌入向量的点击率预测模型进行模型评价指标处理和/或调优处理。
6.根据权利要求5所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。
7.根据权利要求5所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,所述模型调优处理包括如下一种或几种:
增加批归一化,解决数据的内部协变量偏移问题;
在网络中增加让部分神经元在训练过程中处于休眠状态的功能;
调整学习率,通过指数式衰减策略调整训练过程中的学习率;
设置多种子训练取平均,以提高由于数据方差引起的泛化能力不足的问题;
增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险;
对超参数的优化方法。
8.根据权利要求1所述的结合用户访问DPI时间序列词嵌入向量的点击率预测方法,所述步骤S37中,训练参数设置为mini-batch为128;epoch为50;优化器为Adam优化器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857134.5A CN113591971B (zh) | 2021-07-28 | 2021-07-28 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857134.5A CN113591971B (zh) | 2021-07-28 | 2021-07-28 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591971A CN113591971A (zh) | 2021-11-02 |
CN113591971B true CN113591971B (zh) | 2024-05-07 |
Family
ID=78251044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110857134.5A Active CN113591971B (zh) | 2021-07-28 | 2021-07-28 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591971B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022202B (zh) * | 2021-11-03 | 2022-11-01 | 中南大学 | 基于深度学习的用户流失预测方法及*** |
CN114493657A (zh) * | 2021-12-24 | 2022-05-13 | 上海数鸣人工智能科技有限公司 | 一种基于深度游走词向量图嵌入技术的预测方法 |
CN114331531A (zh) * | 2021-12-28 | 2022-04-12 | 上海数鸣人工智能科技有限公司 | 基于模拟退火思想的WaveNet技术针对个体行为洞察的预测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446964A (zh) * | 2018-03-30 | 2018-08-24 | 中南大学 | 一种基于移动流量dpi数据的用户推荐方法 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN112019497A (zh) * | 2020-07-10 | 2020-12-01 | 上海大学 | 一种基于词嵌入的多阶段网络攻击检测方法 |
CN112258223A (zh) * | 2020-10-13 | 2021-01-22 | 上海数鸣人工智能科技有限公司 | 一种基于决策树的营销广告点击的预测方法 |
CN112395489A (zh) * | 2019-08-15 | 2021-02-23 | 中移(苏州)软件技术有限公司 | 一种推荐方法及装置、设备和计算机存储介质 |
CN112581177A (zh) * | 2020-12-24 | 2021-03-30 | 上海数鸣人工智能科技有限公司 | 结合自动特征工程及残差神经网络的营销预测方法 |
CN112884513A (zh) * | 2021-02-19 | 2021-06-01 | 上海数鸣人工智能科技有限公司 | 基于深度因子分解机的营销活动预测模型结构和预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100228852A1 (en) * | 2009-03-06 | 2010-09-09 | Steven Gemelos | Detection of Advertising Arbitrage and Click Fraud |
US10880321B2 (en) * | 2017-01-27 | 2020-12-29 | Vectra Ai, Inc. | Method and system for learning representations of network flow traffic |
-
2021
- 2021-07-28 CN CN202110857134.5A patent/CN113591971B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446964A (zh) * | 2018-03-30 | 2018-08-24 | 中南大学 | 一种基于移动流量dpi数据的用户推荐方法 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112395489A (zh) * | 2019-08-15 | 2021-02-23 | 中移(苏州)软件技术有限公司 | 一种推荐方法及装置、设备和计算机存储介质 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN112019497A (zh) * | 2020-07-10 | 2020-12-01 | 上海大学 | 一种基于词嵌入的多阶段网络攻击检测方法 |
CN112258223A (zh) * | 2020-10-13 | 2021-01-22 | 上海数鸣人工智能科技有限公司 | 一种基于决策树的营销广告点击的预测方法 |
CN112581177A (zh) * | 2020-12-24 | 2021-03-30 | 上海数鸣人工智能科技有限公司 | 结合自动特征工程及残差神经网络的营销预测方法 |
CN112884513A (zh) * | 2021-02-19 | 2021-06-01 | 上海数鸣人工智能科技有限公司 | 基于深度因子分解机的营销活动预测模型结构和预测方法 |
Non-Patent Citations (4)
Title |
---|
nnDPI: A Novel Deep Packet Inspection Technique Using Word Embedding, Convolutional and Recurrent Neural Networks;M. Bahaa等;《2nd Novel Intelligent and Leading Emerging Sciences Conference (NILES)》;165-170 * |
Xiao Yang等.Learning Compositional, Visual and Relational Representations for CTR Prediction in Sponsored Search.《CIKM '19: Proceedings of the 28th ACM International Conference on Information and Knowledge Management》.2019,2851–2859. * |
基于异构网络表示学习的App使用行为研究与应用;陈辉;《中国优秀硕士学位论文全文数据库:信息科技辑》(第9期);1-66 * |
基于电信DPI数据的电商用户行为分析;李子森;《中国优秀硕士学位论文全文数据库:信息科技辑》(第3期);1-78 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591971A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591971B (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
WO2022161202A1 (zh) | 多媒体资源分类模型训练方法和多媒体资源推荐方法 | |
CN109345302A (zh) | 机器学习模型训练方法、装置、存储介质和计算机设备 | |
CN113344615B (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN110796313B (zh) | 一种基于带权图卷积和项目吸引力模型的会话推荐方法 | |
CN106649479B (zh) | 一种基于概率图的变压器状态关联规则挖掘方法 | |
CN112967088A (zh) | 基于知识蒸馏的营销活动预测模型结构和预测方法 | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN110619540A (zh) | 一种神经网络的点击流预估方法 | |
CN112819523B (zh) | 结合内/外积特征交互和贝叶斯神经网络的营销预测方法 | |
WO2021035412A1 (zh) | 一种自动机器学习AutoML***、方法及设备 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及*** | |
US20240104159A1 (en) | Creating an effective product using an attribute solver | |
CN113255844A (zh) | 基于图卷积神经网络交互的推荐方法及*** | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
CN113705188B (zh) | 一种海关进出口商品规范申报智能评估的方法 | |
Zhang | Research on precision marketing based on consumer portrait from the perspective of machine learning | |
CN113256335A (zh) | 数据筛选方法、多媒体数据的投放效果预测方法及装置 | |
CN112989182A (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
Hao et al. | Deep collaborative online learning resource recommendation based on attention mechanism | |
CN115310004A (zh) | 融合项目时序关系的图神经协同过滤推荐方法 | |
CN112581177B (zh) | 结合自动特征工程及残差神经网络的营销预测方法 | |
CN115048530A (zh) | 融合邻居重要度和特征学习的图卷积推荐*** | |
CN114741597A (zh) | 一种基于知识增强注意力图神经网络的下一项推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |