CN112990480A

CN112990480A - 构建模型的方法、装置、电子设备和存储介质

Info

Publication number: CN112990480A
Application number: CN202110262260.6A
Authority: CN
Inventors: 江攀; 叶舟
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18
Anticipated expiration: 2041-03-10
Also published as: CN112990480B

Abstract

本发明实施例提出了一种构建模型方法、装置、电子设备和存储介质。本发明实施例的构建模型方法包括：获取目标参数；根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，所述特征选择模型以经过用户授权的用户数据为训练数据采用强化学习算法训练获得，所述用户数据包括嵌入向量和特征，所述嵌入向量通过特征提取模型从用户行为数据中提取，用于表征用户行为，所述特征经过预先标注，所述嵌入向量和所述特征预先存储在数据库中；以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，以确定目标模型。本发明实施例的构建模型的方法通过嵌入向量来确定目标特征，能够提高模型训练的效率。

Description

构建模型的方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及计算机技术领域，具体而言，涉及一种构建模型的方法、装置、电子设备和存储介质。

背景技术

随着电子技术迅速发展，用户行为在网络上产生庞大的数据。通过数据分析能把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来，从而找出所研究对象的内在规律。通常会通过构建数据模型来对数据进行分析。然而，在数学模型训练的过程中，模型的开发周期很长，效率低，因此需要一种能够自动化构建模型的方法。

发明内容

本发明实施例正是基于上述问题，提出了一种新的技术方案，通过根据特征选择模型确定与目标参数相关的目标特征，根据目标特征训练目标模型。能够实现特征的自动化选择，提高模型的训练效率。

根据本发明实施例的第一方面，提出了一种构建模型方法，所述构建模型方法包括：

获取目标参数，所述目标参数用于表征与用户相关的行为偏好；

根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，所述特征选择模型以经过用户授权的用户数据为训练数据采用强化学习算法训练获得，所述用户数据包括嵌入向量和特征，所述嵌入向量通过特征提取模型从用户行为数据中提取，用于表征用户行为，所述特征为经过预先标注的用户属性，所述嵌入向量和所述特征预先存储在数据库中；以及

以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，以确定目标模型，所述目标模型用于预测用户的行为。

优选地，提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵；

将所述时序矩阵进行嵌入处理，以生成初始向量；

将所述初始向量进行卷积操作，以生成多个卷积向量；

将多个所述卷积向量进行全局平均池化以及全连接，以提取嵌入向量。

优选地，所述嵌入处理包括：CBOW算法和Skip-Gram算法处理所述时序矩阵。

优选地，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

将降维处理得到的向量进行多维卷积，以生成多个不同的卷积向量。

优选地，所述以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，包括：

采用网格搜索、随机搜索以及贝叶斯优化中的任一方法自动调参。

优选地，所述方法还包括：

响应于模型衰减小于预定阈值，自动更新所述目标模型；以及

响应于模型衰减大于预定阈值，再次根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，以再次训练目标模型。

根据本发明实施例的第三方面，提出了一种构建模型装置，所述装置包括：

参数获取单元，用于获取目标参数，所述目标参数用于表征与用户相关的行为偏好；

特征选择单元，用于根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，所述特征选择模型以经过用户授权的用户数据为训练数据采用强化学习算法训练获得，所述用户数据包括嵌入向量和特征，所述嵌入向量通过特征提取模型从用户行为数据中提取，用于表征用户行为，所述特征为经过预先标注的用户属性，所述嵌入向量和所述特征预先存储在数据库中；以及

模型确定单元，用于以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，以确定目标模型，所述目标模型用于预测用户的行为。

优选地，提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵；

将所述时序矩阵进行嵌入处理，以生成初始向量；

将所述初始向量进行卷积操作，以生成多个卷积向量；

优选地，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

优选地，所述模型确定单元，包括：

自动调参模块，用于采用网格搜索、随机搜索以及贝叶斯优化中的任一方法自动调参。

优选地，所述装置还包括：

第一模型更新单元，用于响应于模型衰减小于预定阈值，自动更新所述目标模型；以及

第二模型更新单元，用于响应于模型衰减大于预定阈值，再次根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，以再次训练目标模型。

根据本发明实施例的第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法。

根据本发明实施例的第四方面，提出了一种电子设备，其中，所述移动终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面中任一项所述的方法。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的构建模型方法的流程示意图；

图2是本发明实施例提取所述嵌入向量的流程图；

图3是本发明实施例的时序矩阵的示意图；

图4是本发明实施例的特征提取模型的示意图；

图5是本发明实施例的构建模型装置的结构示意图；

图6是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明实施例进行描述，但是本发明实施例并不仅仅限于这些实施例。在下文对本发明实施例的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明实施例的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在本发明实施例中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明实施例的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

现有的模型训练过程中，很多与人(主要为乘客和司机)相关的算法标签生产业务，比如基础属性(性别，年龄等)，乘客成为高转化人群的概率，司机成为介绍人的概率等，这些算法标签都是以人为主体，很多特征可以共用，然而，这些特征并没有被充分的利用起来。因此，有必要将各个模型训练过程中经过标注的特征共用起来，以减少模型训练过程中数据标注的工作量，进而提高模型训练的效率。

同时，在模型的调参需要花费较长时间，导致模型训练的周期长且效率低。大部分场景下的数据挖掘任务主要分成特征关联，特征筛选，模型建立和模型上线，不同场景下的这些流程都具有很高的相似性，为了提升模型训练的效率，需要构建一个自动化数据挖掘建模***。

用户通过使用用户终端产生大量行为数据，面对这样一个巨大的数据宝藏，我们缺乏有效的手段从里面挖掘有用的信息，以往滑窗方法从原始数据中提取数据太糙了，可能有很多的信息都在加工特征的过程中消失了。另一方面，加工出来的特征太多了，可以成千上万维度，在实际中很难使用起来。为了解决上述问题，本发明实施例采用无监督+embedding的技术方案，即训练一个无监督模型从原始行为数据中抽取embedding特征，因为无监督可以保证抽取的特征不会偏向任何监督信息，增强特征的泛化能力，而且embedding可大幅降低特征维度，能够提高模型的计算效率。

在本实施例中，以分析打车以及租车的过程中产生的数据为例说明本申请的构建模型方法。

图1是本发明实施例的构建模型方法的流程图。如图1所示，本发明实施例的构建模型方法包括：

步骤S110，获取目标参数。

所述目标参数为目标模型的输出结果。所述目标参数用于表征与用户相关的行为偏好。其中，乘客和司机通过不同的用户终端形成各种用户行为数据，例如乘客打车或者租车，司机加油以及车辆维修保养等。例如，目标参数可以是乘客成为高转化人群的概率以及司机成为介绍人的概率。目标参数还可以包括乘客打车的概率、乘客大金额订单的概率以及司机接单或者拒单的概率等等。

步骤S120，根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征。所述特征选择模型以经过用户授权的用户数据为训练数据采用强化学习算法(Deep QNetwork，DQN)训练获得。所述用户数据包括嵌入向量和特征，所述嵌入向量通过特征提取模型从用户行为数据中提取，用于表征用户行为，所述特征为经过预先标注的用户属性，所述嵌入向量和所述特征预先存储在数据库中。

所述特征可以包括乘客或者司机的属性。例如乘客或者司机的属性可以包括：“年龄”“性别”以及“受教育程度”等等。

用户数据经过预处理，以标注的特征以及嵌入向量的形式预先存储在数据库中。数据库预先存储这些特征的元数据，比如均值、方差以及峰度等。

特征选择可通过获取特征的重要性来衡量，所述特征选择模型用于选择易于确定目标参数的特征。特征选择模型以目标参数和嵌入向量为输入，特征为输出，通过强化学习算法训练确定。

嵌入向量通过特征提取模型确定，其中，特征提取模型通过预先训练确定。具体来说，特征提取模型在训练特征选择模型的同时确定。

图2是本发明实施例提取所述嵌入向量的流程图。图3是本发明实施例的时序矩阵的示意图。图4是本发明实施例的特征提取模型的示意图。如图2-图4所示，在步骤S120中，通过特征提取模型从用户行为数据中提取所述嵌入向量具体包括：

步骤S121，根据用户行为数据确定用户的时序矩阵。

如图3所示，时间是时序矩阵的一个维度，行为是时序矩阵的另一个维度。

步骤S122，将所述时序矩阵进行嵌入处理，以生成初始向量。

具体地，所述嵌入处理包括：连续词袋(Continuous Bag-Of-Words Model，CBOW)算法和Skip-Gram(Continuous Skip-gram Model)算法处理所述时序矩阵。应理解，在其他可选的实现方式中，也可以采用其他嵌入算法进行嵌入处理，例如图嵌入算法等。

步骤S123，将所述初始向量进行卷积操作，以生成多个卷积向量。

具体地，所述卷积操作包括：将所述扩展向量进行卷积降维处理。具体将初始向量进行1×1卷积处理。将降维处理得到的向量进行多维卷积，以生成多个不同的卷积向量。

步骤S124，将多个所述卷积向量进行全局平均池化以及全连接，以提取嵌入向量。

本发明实施例中采用基于Q-learning和DQN的特征选择算法，它将特征按照业务域分成多个特征组，算法会迭代不同特征组训练模型并调整策略，从而不断寻找最优的特征组合。在保证效果的同时，能够减少人工的干预，变得更加自动化，并能够提高选择效率。

步骤S130，以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，以确定目标模型，所述目标模型用于预测用户的行为。

所述目标模型用于预测用户的行为，具体可以是根据用户数据确定目标参数。例如，目标模型可以预测乘客是否会取消订单以及司机是否会接单等等。

具体地，以所述目标参数相关的目标特征为输入，目标参数为输出，依次根据不同的算法训练多个不同的模型，并分别进行模型的超参调优，将最终获取到的精度最高的模型确定为目标模型。

不同的算法可以包括但不限于逻辑回归(Logistic Regression，LR)算法、极端梯度增压(Gradient Boosting Decision Tree，GBDT)算法、分布式梯度增强库(eXtremeGradient Boosting，XGBoost)、深度学习算法或者端到端(end-to-end)算法。

其中，LR算法是机器学习中做分类任务常用的模型，其本质是一种广义的线性回归分析模型，LR模型的模型结构简单，训练速度快，而且对于输出变量有很好的概率解释。其中，XGBoost算法是一种可扩展机器学习***，该***可以作为开源的软件包，同时，该***的影响已经在大量的机器学习和数据挖掘挑战中被广泛地认可，在本发明实施例中，随着数据量的不断增大，XGBoost可以起到良好的分类作用。所述历史对象为用户历史点击或浏览的对象。深度学习模型是基于深度神经网络建立的模型，其可以基于良好的学习能力，实现准确的分类。end-to-end模型区别于传统的机器学习模型(由多个独立的模块组成)，其整合了多个模块，将所有的模块作为一个整体，简化了模型训练的流程，增加了容错率。GBDT模型是一种基于Gradient Boosting策略训练的Decision Tree模型，其可以基于决策树实现数据的分类功能。另外，单独使用的GBDT模型容易出现过拟合现象，因此，在实际应用中，可以结合GBDT模型以及LR模型实现数据分类功能，也就是通过GBDT+LR模型实现行为分类。

其中，训练模型过程中的超参调优采用网格搜索、随机搜索以及贝叶斯优化中的任一方法自动调参。

自动调参就是通过自动化的学习算法自主调节模型的最优超参，从而逼近甚至超过人工调参的最优效果。构建自动化参数服务可以通过集成化的方式管理调参算法，服务化的方式提供自动化调参，做到真正的端到端构建的机器学习管线(pipeline)。

在一种可选的实现方式中，以目标参数为用户生产高消费预测标签为例：准备好高消费的样本表，选择需要用到的特征和想要测试的模型(LR/XGBooost)，创建实验，然后自动化进行模型的超参数调优。

具体地，在超参数调优的过程中，评估超参数。响应于评估未通过，再次根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，以再次训练目标模型。响应于评估通过，选择一组超参数自动布署目标模型。

针对不同类型的数据，采用不同的方式划分训练测试集，采用不同的交叉验证方式以及不同的验证指标来评估所述目标模型。验证指标可以包括平均绝对误差、平均方差以及R平方值等。具体可以设置不同验证数据的预定阈值，以评估确定的验证指标的值和预定阈值的关系来判断是否通过评估。

交叉验证也称作循环估计(Rotation Estimation)，是一种统计学上将数据样本切割成较小子集的实用方法，该理论是由Seymour Geisser提出的。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和，称为预测残差平方和(PredictedError Sum of Squares，PRESS)。

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(trainset)，另一部分做为验证集(validation set or test set)。首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。无论分类还是回归模型，都可以利用交叉验证，进行评估。

在一种可选的实现方式中，所述方法还包括：

步骤S140，判断目标模型的衰减是否大于预定阈值。

在本实施例中，预先设置模型重新训练条件为模型衰减程度。在一种可选的实现方式中，也可以设置不同的模型重新训练条件，如训练样本量级或者模型时间周期。

步骤S150，自动更新所述目标模型。

具体地，响应于模型衰减小于预定阈值，执行步骤S150。可以根据数据库中用户新的行为数据来不断调整目标模型的参数，以更新目标模型。

响应于模型衰减大于预定阈值，执行步骤S120。再次根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，以再次训练目标模型。

在一种可选的实现方式中，模型更新的方式也可以是定时更新或者手动更新。

本发明实施例对于长期部署的任务，设计成支持日常自动迭代调优，由***尝试新的方案(算法、特征、超参)，线上任务再也不会出现无人维护优化的情况。

图5是本发明实施例的构建模型装置的结构示意图。如图5所示，在一种可选的实现方式中，本发明实施例的构建模型装置包括：参数获取单元510，特征选择单元520以及模型确定单元530。

参数获取单元510用于获取目标参数，所述目标参数用于表征与用户相关的行为偏好。

特征选择单元520用于根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，所述特征选择模型以经过用户授权的用户数据为训练数据采用强化学习算法训练获得，所述用户数据包括嵌入向量和特征，所述嵌入向量通过特征提取模型从用户行为数据中提取，用于表征用户行为，所述特征为经过预先标注的用户属性，所述嵌入向量和所述特征预先存储在数据库中。

所述提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵。

将所述时序矩阵进行嵌入处理，以生成初始向量。

具体地，所述嵌入处理包括：CBOW算法和Skip-Gram算法处理所述时序矩阵。

将所述初始向量进行卷积操作，以生成多个卷积向量。

具体地，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

模型确定单元530用于以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，以确定目标模型，所述目标模型用于预测用户的行为。

所述模型确定单元530，包括：

自动调参模块用于采用网格搜索、随机搜索以及贝叶斯优化中的任一方法自动调参。

在一种可选的实现方式中，所述装置还包括：第一模型更新单元540以及第二模型更新单元550。

第一模型更新单元540用于响应于模型衰减小于预定阈值，自动更新所述目标模型。

第二模型更新单元550用于响应于模型衰减大于预定阈值，再次根据目标参数和自动特征选择模型选择与所述目标参数相关的目标特征，以再次训练目标模型。

图6是本发明实施例的电子设备的示意图。图6所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器601和存储器602。处理器601和存储器602通过总线603连接。存储器602适于存储处理器601可执行的指令或程序。处理器601可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器601通过执行存储器602所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线603将上述多个组件连接在一起，同时将上述组件连接到显示控制器604和显示装置以及输入/输出(I/O)装置605。输入/输出(I/O)装置605可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置605通过输入/输出(I/O)控制器606与***相连。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明实施例各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例提供了TS1、一种用于构建模型的方法，所述方法包括：

TS2、根据TS1所述的方法，提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵；

将所述时序矩阵进行嵌入处理，以生成初始向量；

将所述初始向量进行卷积操作，以生成多个卷积向量；以及

TS3、根据TS2所述的方法，所述嵌入处理包括：CBOW算法和Skip-Gram算法处理所述时序矩阵。

TS4、根据TS2所述的方法，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

TS5、根据TS2所述的方法，所述以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，包括：

TS6、根据TS5所述的方法，所述方法还包括：

TS7、一种构建模型装置，所述装置包括：

TS8、根据TS7所述的装置，提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵；

将所述时序矩阵进行嵌入处理，以生成初始向量；

将所述初始向量进行卷积操作，以生成多个卷积向量；

TS9、根据TS8所述的装置，所述嵌入处理包括：CBOW算法和Skip-Gram算法处理所述时序矩阵。

TS10、根据TS8所述的方法，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

TS11、根据TS8所述的装置，所述模型确定单元，包括：

TS12、根据TS11所述的装置，所述装置还包括：

TS13、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如TS1至6中任一项所述的方法。

TS14、一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如TS1至6中任一项所述的方法。

TS15、一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现TS1至6中任一项所述方法的步骤。

Claims

1.一种用于构建模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取所述嵌入向量包括：

根据用户行为数据确定用户的时序矩阵；

将所述时序矩阵进行嵌入处理，以生成初始向量；

将所述初始向量进行卷积操作，以生成多个卷积向量；以及

3.根据权利要求2所述的方法，其特征在于，所述嵌入处理包括：CBOW算法和Skip-Gram算法处理所述时序矩阵。

4.根据权利要求2所述的方法，其特征在于，所述卷积操作包括：

将所述扩展向量进行卷积降维处理；以及

5.根据权利要求2所述的方法，其特征在于，所述以所述目标参数相关的目标特征为输入，目标参数为输出训练模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种构建模型装置，其特征在于，所述装置包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。

9.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。