CN108280542A

CN108280542A - 一种用户画像模型的优化方法、介质以及设备

Info

Publication number: CN108280542A
Application number: CN201810035915.4A
Authority: CN
Inventors: 宋国庆; 罗伟东
Original assignee: Shenzhen Information Technology Co Ltd
Current assignee: Shenzhen Information Technology Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-07-13
Anticipated expiration: 2038-01-15
Also published as: CN108280542B

Abstract

本发明提供了一种用户画像模型的优化方法、介质以及设备。所述方法，包括：获取用户行为数据；根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果；根据所述第一预测结果和所述行为数据，训练优化第二预测模型。通过获取用户行为数据，根据第一预测模型，得到第一预测结果，并根据第一预测结果和行为数据，训练优化第二预测模型，通过给第二预测模型增加训练优化模型的输入样本数据类型，能够提高第二预测模型预测的准确性；同时，通过利用第一预测模型的预测结果训练优化第二预测模型，当第一预测模型变更时，能够实现对第二预测模型的自动训练优化，进而能够节省时间，减少成本。

Description

一种用户画像模型的优化方法、介质以及设备

技术领域

本发明涉及大数据机器学习领域，具体涉及一种用户画像模型的优化方法、介质以及设备。

背景技术

在大数据的背景下，我们需要根据用户的行为、性别、年龄等标签进行有目的、分类别的产品推荐的广告推送，以实现用户画像细分，精准营销的目的。随着互联网技术的不断升级，当我们使用用户数据建立用户画像的时候，用户每时每刻都会接受到各种信息，每一瞬间做出的选择都是不一样的，很难用一个固定的模型对用户进行分析和行为预测。这样就失去了实时性，造成了消息滞后、预测结果不准确的现象，导致营销效果差，广告推动转化率低。如果每次都需要人为的修改模型，手动更新的话，无论从时间成本还是人力成本上来说都是巨大的，而且效果也不好。

发明内容

针对现有技术中的缺陷，本发明提供一种用户画像模型的优化方法、介质以及设备，能够提高预测模型的准确度，能够节省模型优化时间，减少成本。

第一方面，本发明提供了一种用户画像模型的优化方法，包括：

获取用户行为数据；

根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果；

根据所述第一预测结果和所述行为数据，训练优化第二预测模型。

可选的，在根据所述第一行为数据，基于预先建立的第一预测模型，获得第一预测结果的步骤之前，还包括：

OF17-P19424

获取样本数据；

对所述样本数据进行分类；

对分类后的所述样本数据进行数据清洗，获得所述样本数据的特征样本数据；

根据所述特征样本数据，训练第一预测模型。

可选的，所述对所述样本数据进行分类，包括：

根据行为模式，对所述样本数据进行分类。

可选的，在根据所述特征样本数据，训练第一预测模型的步骤之前，还包括：

对所述特征样本数据进行组合，获得新特征样本数据；

所述根据所述特征样本数据，训练第一预测模型，包括：

根据所述新特征样本数据，训练第一预测模型。

可选的，在对所述特征样本数据进行组合，获得新特征样本数据的步骤之后，还包括：

对所述新特征样本数据进行归一化处理；

所述根据所述特征样本数据，训练第一预测模型，包括：

根据归一化处理后的所述新特征样本数据，训练第一预测模型。

可选的，在训练第一预测模型的步骤之后，还包括：

获取测试数据；

根据所述测试数据，计算所述第一预测模型的准确度分值；

判断所述准确度分值是否大于预设准确度阈值；

若大于，则执行所述根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果的步骤；

若不大于，则重新执行所述根据所述特征样本数据，训练第一预测模型的步骤。

可选的，在根据所述第一预测结果和所述行为数据，训练优化第二预测模型的步骤之前，还包括：

基于所述第一预测模型，获得所述第一预测结果的置信度；

判断所述置信度是否小于相应的第一阈值；若小于，则重新执行所述根据所述特征样本数据，训练第一预测模型的步骤；

若不小于，则输出所述第一预测结果；并判断所述置信度是否大于相应的第二阈值；

若大于，则判断所述第一预测结果可做为训练特征；若不大于，则判断所述第一预测结果不可做为训练特征；

所述根据所述第一预测结果和所述行为数据，训练优化第二预测模型，包括：

根据所述置信度大于所述第二阈值的所述第一预测结果和所述行为数据，训练优化第二预测模型。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述一种用户画像模型的优化方法。

第三方面，本发明提供一种用户画像模型的优化设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种用户画像模型的优化方法。

本发明提供了一种用户画像模型的优化方法，包括：获取用户行为数据；根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果；根据所述第一预测结果和所述行为数据，训练优化第二预测模型。通过获取用户行为数据，根据第一预测模型，得到第一预测结果，并根据第一预测结果和行为数据，训练优化第二预测模型，通过给第二预测模型增加训练优化模型的输入样本数据类型，能够提高第二预测模型预测的准确性；同时，通过利用第一预测模型的预测结果训练优化第二预测模型，当第一预测模型变更时，能够实现对第二预测模型的自动训练优化，进而能够节省时间，减少成本。

本发明提供的一种计算机可读存储介质和一种用户画像模型的优化设备，与上述用户画像模型的优化方法出于相同的发明构思，具有相同的有益效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明提供的一种用户画像模型的优化方法的流程图；

图2为本发明提供的一种用户画像模型的优化设备的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明提供了一种用户画像模型的优化方法、介质以及设备。下面结合附图对本发明的实施例进行说明。

第一实施例：

请参考图1，图1为本发明具体实施例提供的一种用户画像模型的优化方法的示意图，本实施例提供的一种用户画像模型的优化方法，包括：

步骤S101：获取用户行为数据。

步骤S102：根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果。

步骤S103：根据所述第一预测结果和所述行为数据，训练优化第二预测模型。

通过获取用户行为数据，根据第一预测模型，得到第一预测结果，并根据第一预测结果和行为数据，训练优化第二预测模型，通过给第二预测模型增加训练优化模型的输入样本数据类型，能够提高第二预测模型预测的准确性；同时，通过利用第一预测模型的预测结果训练优化第二预测模型，当第一预测模型变更时，能够实现对第二预测模型的自动训练优化，进而能够节省时间，减少成本。

在本发明中，第一预测模型可以是多个预测模型，也可以是一个预测模型；第二预测模型可以是多个预测模型，也可以是一个预测模型。这里并不限制第一预测模型和第二预测模型的个数，都在本发明的保护范围内。

例如，可以将多个第一预测模型的第一预测结果作为多个第二预测模型的训练优化数据。

在本发明提供的一个具体实施例中，在根据所述第一行为数据，基于预先建立的第一预测模型，获得第一预测结果的步骤之前，还包括：获取样本数据；对所述样本数据进行分类；对分类后的所述样本数据进行数据清洗，获得所述样本数据的特征样本数据；根据所述特征样本数据，训练第一预测模型。

在利用第一预测模型获得第一预测结果之前，还应该包括：训练第一预测模型。

训练第一预测模型的过程如下：

第一步，获取样本数据，其中，样本数据包括输入样本数据和输出样本数据。其中，样本数据可以是用户行为数据。例如，安装了什么APP、打开了哪些APP、去过哪些地方、居住地小区的房价等。

第二步，对样本数据进行分类；在分类的时候，可以按照行为模式，对样本数据进行分类。例如，可以按照线上和线下的行为对样本数据进行分类，将用户在线上购买商品分为一类，将线下购买商品分为另一类。

第三步，对分类后的样本数据进行数据清洗，获得特征样本数据。对数据清洗，包括删掉空值、删掉错误数据等。

第四步，根据特征样本数据，训练第一预测模型。其中，在训练预测模型时，可以使用机器学习算法，也可以使用深度学习算法、随机森林算法等，这都适用于本发明。

利用随机森林算法训练模型时，可以按照数据维度做参数搜索，可同时训练多个不同参数的模型。

通过对样本数据进行分类，能够避免对不必要的样本数据进行训练，节省计算量。通过对样本数据进行清洗，能够避免错误数据、空值数据等的输入，进而能够提高预测模型的准确性。

在本发明提供的一个具体实施例中，在根据所述特征样本数据，训练第一预测模型的步骤之前，还可以包括：对所述特征样本数据进行组合，获得新特征样本数据；所述根据所述特征样本数据，训练第一预测模型，包括：根据所述新特征样本数据，训练第一预测模型。

在获取特征样本数据之后，根据特征样本数据，训练第一预测模型的步骤之前，还可以包括：对特征样本数据进行组合，获得新特征样本数据。

在对特征样本数据进行组合时，可以分析特征之间的关联性，将各种特征进行组合，做多层线性变换，并将特征空间进行旋转，能够得到更有价值的特征。例如，我们装了很多APP，这些APP可能都是某种类型的APP，比如ofo，摩拜，小蓝单车等，这些都是共享单车，虽然是不同的APP，但是代表的含义是一样的，都是有骑行需求的人才会安装；本发明可以对安装ofo，摩拜，小蓝单车等这些特征进行组合汇总，得到“有骑行需求的人才会安装”的新特征。同理，本发明也可适用于理财类的APP，这都在本发明的保护范围内。

通过对特征样本数据进行组合，能够获得更多的新特征，通过训练这些新特征集合获得预测模型，能够提高预测模型的准确性、实时性，能够显著的降低时间、人工上的成本，为运营、广告投放提供正确的导向，进而极大的提高运营、广告投放效果。

在本发明提供的一个具体实施例中，在对所述特征样本数据进行组合，获得新特征样本数据的步骤之后，还可以包括：对所述新特征样本数据进行归一化处理；所述根据所述特征样本数据，训练第一预测模型，包括：根据归一化处理后的所述新特征样本数据，训练第一预测模型。

在对特征样本数据进行组合得到新特征样本数据后，可能会存在相同特征之间的值域跨度很大的情况。通过对特征进行归一化处理，即对每一个特征做最大最小值标准化：(x–min(x))/(max(x)–min(x)),这样就可以把这些列的特征值缩放到0-1之间，进而能够提高计算速度。

比如，有一个特征中有以下两条数据：A、用户很有钱，居住地房价是150000元/平米，B、另一个用户是租房，房租只有200元/月，这两个值之间的差值太大，在后面的计算中会导致预测模型收敛速度极慢，影响工作效率，对所有特征做归一化处理后，可以提高计算速度。

在本发明提供的一个具体实施例中，在训练第一预测模型的步骤之后，还可以包括：获取测试数据；根据所述测试数据，计算所述第一预测模型的准确度分值；判断所述准确度分值是否大于预设准确度阈值；若大于，则执行所述根据所述行为数据，基于预先建立的第一预测模型，获得第一预测结果的步骤；若不大于，则重新执行所述根据所述特征样本数据，训练第一预测模型的步骤。

当第一预测模型为二分类模型时，在利用测试数据测试第一预测模型时，每个二分类模型的预测结果都会与测试数据中的真实数据作比较，通过计算F1score来评价模型的好坏：F1＝2TP/(2TP+FP+FN)。F1值越高，表明模型越好，准确度越高。其中，F1值为二分类模型的准确度分值。TP为真实样本为正样本，预测结果为正样本的个数；FP为真实样本为负样本，预测结果为正样本的个数；FN为真实样本为负样本，预测结果为负样本的个数。

当第一预测模型为多分类模型时，准确度分值为准确率。可以通过预测模型随机测试的准确率作为多分类模型的准确度分值。

本发明适用于任何一种预测模型，例如，收入能力预测模型、性别预测模型、年龄预测模型等，但是每种模型的准确度阈值是不同的，这依据具体的模型来设置。

当计算的准确度分值大于预设的准确度阈值时，则可以使用该第一预测模型，将行为数据输入至第一预测模型，获得第一预测结果；当计算的准确度分值不大于预设的准确度阈值时，则表明该第一预测模型不可用，需要重新根据特征样本数据，训练第一预测模型，直到计算的准确度分值大于准确度阈值。

在本发明中，利用测试数据对第一预测模型进行预测时，可以采用抽样的方式对第一预测模型进行预测，这样，能够确保准确度分值的准确率。

通过计算第一预测模型的准确度分值，根据准确度分值判断预测模型的好坏，能够确保在使用预测模型时得到较准确的预测结果。

在本发明提供的一个具体实施例中，在根据所述第一预测结果和所述行为数据，训练优化第二预测模型的步骤之前，还包括：基于所述第一预测模型，获得所述第一预测结果的置信度；判断所述置信度是否小于相应的第一阈值；若小于，则重新执行所述根据所述特征样本数据，训练第一预测模型的步骤；若不小于，则输出所述第一预测结果；并判断所述置信度是否大于相应的第二阈值；若大于，则判断所述第一预测结果可做为训练特征；若不大于，则判断所述第一预测结果不可做为训练特征；所述根据所述第一预测结果和所述行为数据，训练优化第二预测模型，包括：根据所述置信度大于所述第二阈值的所述第一预测结果和所述行为数据，训练优化第二预测模型。

在得到第一预测结果后，可以利用第一预测结果和用户的行为数据，训练优化第二预测模型，这样，能够采用较多的特征来训练优化第二预测模型，能够提高第二预测模型的实时性和准确性。

在训练优化第二预测模型之前，还包括：基于第一预测模型，获得第一预测结果的置信度。其中，在每个预测结果输出时，还可以输出该预测结果的置信度。置信度可以用来表示每个预测结果的准确度，置信度越高，表明预测结果越准确。

当置信度小于第一阈值时，则表明该预测结果不可靠，需要重新训练第一预测模型；若不小于，则表明该结果可以被使用，可以为广告推广提供导向；虽然预测结果可以使用，但不一定该预测结果可以作为第二预测模型的训练样本数据或者优化样本数据。当预测结果的置信度大于第二阈值时，则判断该预测结果可作为训练特征，当不大于时，则表明该预测结果不可作为训练特征。

若预测结果可以作为第二预测模型的训练特征，那么，可以根据该预测结果和行为数据，训练优化第二预测模型。这样，通过确保训练数据的准确性，能够提高第二预测模型的准确度。

例如，采集的用户行为数据没有性别这个特征，但是第一预测模型可以用来预测性别特征，经过对第一预测模型的验证，能够保证第一预测模型的预测结果的准确性，然后，可以利用第一预测模型的性别预测结果训练优化第二预测模型，利用第二预测模型来预测兴趣爱好特征，通过加入性别特征来训练优化第二预测模型，能够提高兴趣爱好特征预测的准确性。

通过本发明的方法，可以得到很多丰富的特征，并且，随着某一个模型准确度的提高，其它模型的准确度也可以跟着提高，进而能够实时优化其它模型。

以上，为本发明提供的一种用户画像模型的优化方法。

第二实施例：

在上述的第一实施例中，提供了一种用户画像模型的优化方法，结合上述第一实施例，本发明第二实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一实施例提供的一种用户画像模型的优化方法。

第三实施例：

结合第一实施例提供的一种用户画像模型的优化方法，本发明还提供一种用户画像模型的优化设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一实施例提供的一种用户画像模型的优化方法。图2示出了本发明实施例提供的一种用户画像模型的优化设备的硬件结构示意图。

具体地，上述处理器201可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器202可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器202可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器202可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器202可在数据处理装置的内部或外部。在特定实施例中，存储器202是非易失性固态存储器。在特定实施例中，存储器202包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器201通过读取并执行存储器202中存储的计算机程序指令，以实现上述实施例中的任意一种用户画像模型的优化方法。

在一个示例中，用户画像模型的优化设备还可包括通信接口203和总线210。其中，如图2所示，处理器201、存储器202、通信接口203通过总线210连接并完成相互间的通信。

通信接口203，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线210包括硬件、软件或两者，将用户画像模型的优化设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线210可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种用户画像模型的优化方法，其特征在于，包括：

获取用户行为数据；

2.根据权利要求1所述的方法，其特征在于，在根据所述第一行为数据，基于预先建立的第一预测模型，获得第一预测结果的步骤之前，还包括：

获取样本数据；

对所述样本数据进行分类；

根据所述特征样本数据，训练第一预测模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述样本数据进行分类，包括：

根据行为模式，对所述样本数据进行分类。

4.根据权利要求2所述的方法，其特征在于，在根据所述特征样本数据，训练第一预测模型的步骤之前，还包括：

对所述特征样本数据进行组合，获得新特征样本数据；

所述根据所述特征样本数据，训练第一预测模型，包括：

根据所述新特征样本数据，训练第一预测模型。

5.根据权利要求4所述的方法，其特征在于，在对所述特征样本数据进行组合，获得新特征样本数据的步骤之后，还包括：

对所述新特征样本数据进行归一化处理；

所述根据所述特征样本数据，训练第一预测模型，包括：

6.根据权利要求2所述的方法，其特征在于，在训练第一预测模型的步骤之后，还包括：

获取测试数据；

根据所述测试数据，计算所述第一预测模型的准确度分值；

判断所述准确度分值是否大于预设准确度阈值；

7.根据权利要求6所述的方法，其特征在于，在根据所述第一预测结果和所述行为数据，训练优化第二预测模型的步骤之前，还包括：

基于所述第一预测模型，获得所述第一预测结果的置信度；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7之一所述的方法。

9.一种用户画像模型的优化设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7之一所述的方法。