CN112465565A

CN112465565A - 一种基于机器学习的用户画像预测的方法及装置

Info

Publication number: CN112465565A
Application number: CN202011460997.0A
Authority: CN
Inventors: 行康泽; 余承乐; 彭喜喜
Original assignee: Addnewer Corp
Current assignee: Addnewer Corp
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-09
Anticipated expiration: 2040-12-11
Also published as: CN112465565B

Abstract

本申请实施例公开了一种基于机器学习的用户画像预测的方法。本申请方法包括：获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有画像信息的用户；通过关联所述目标用户与所述第一用户的行动热点信息、地理位置信息以及时间信息确定所述目标用户的第一画像信息；利用最近邻方法计算所述目标用户的第二画像信息；将通过深度学习所述第一用户的部分标签信息预测出的结果确定为所述目标用户的第三画像信息；结合所述第一画像信息、所述第二画像信息以及所述第三画像信息确定所述目标用户的预测画像信息。这样从多维度获取用户画像信息基础数据，丰富可靠的数据源减少了用户画像预测结果不精准的情况。

Description

一种基于机器学习的用户画像预测的方法及装置

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种基于机器学习的用户画像预测的方法及装置。

背景技术

随着目前广告数据量的逐渐增大，用户数量的不断累积，广告业务的精准投放的要求越来多，用户画像的重要性比重与日俱增，只有将用户的画像刻画的精准，对用户的行为轨迹分析清楚，才能够更好的发挥出数据的价值，才能将广告的价值发挥到最大。

在现有技术中，用户主要的刻画方式有几类，其中有使用规则进行客户用户画像，通过用户近一个月的行为数据，通过每天来往的地理位置规则刻画出用户画像；还有就是使用机器学习方法进行预测，即利用机器学习或者深度学习的方法来预测出用户的画像数据。现有技术如果出现使用规则定义不准或者学习样本不精准，可能导致用户画像预测结果不精准的情况。

发明内容

本申请实施例提供了一种基于机器学习的用户画像预测的方法及装置，用于减少用户画像预测结果不精准的情况。

本申请实施例第一方面提供了基于机器学习的用户画像预测的方法，包括：

获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有画像信息的用户；

通过关联所述目标用户与所述第一用户的行动热点信息、地理位置信息以及时间信息确定所述目标用户的第一画像信息；

利用最近邻方法计算所述目标用户的第二画像信息；

将通过深度学习所述第一用户的部分标签信息预测出的结果确定为所述目标用户的第三画像信息；结合所述第一画像信息、所述第二画像信息以及所述第三画像信息确定所述目标用户的预测画像信息。

可选的，所述通过关联所述目标用户与所述第一用户的行动热点信息、地理位置信息以及时间信息确定所述目标用户的第一画像信息，包括：

关联所述目标用户与所述第一用户的所述行动热点信息、所述地理位置信息以及所述时间信息；

确定所述目标用户与所述第一用户的关系；

通过规则计算所述第一用户的画像信息确定所述目标用户的第一画像信息。

可选的，将通过深度学习所述第一用户的部分标签信息预测出的结果确定为所述目标用户的第三画像信息；包括：

将所述第一用户的部分标签信息进行模型训练，生成训练模块，所述部分标签为所述目标用户不携带的标签；

通过所述训练模型预测所述目标用户的第三画像信息，所述第三画像信息包括所述部分标签信息。

可选的，所述获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有画像信息的用户，包括：

获取目标用户在第一预设时间内的画像基础数据信息；

提取所述画像基础数据信息中的行动热点信息、地理位置信息以及时间信息；

通过计算统计出所述目标用户与第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有用户画像信息的用户。

可选的，所述第一预设时间小于所述预设时间。

可选的，在结合所述第一画像信息、所述第二画像信息以及所述第三画像信息确定所述目标用户的预测画像信息之前，所述方法还包括：

通过筛选所述第一画像信息、所述第二画像信息以及所述第三画像信息类似的标签信息进行综合。

本申请实施例第二方面提供了基于机器学习的用户画像预测的装置，包括：

获取单元，用于获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有画像信息的用户；

第一确定单元，用于通过关联所述目标用户与所述第一用户的行动热点信息、地理位置信息以及时间信息确定所述目标用户的第一画像信息；

计算单元，用于利用最近邻方法计算所述目标用户的第二画像信息；

第二确定单元，用于将通过深度学习所述第一用户的部分标签信息预测出的结果确定为所述目标用户的第三画像信息；

第三确定单元，用于结合所述第一画像信息、所述第二画像信息以及所述第三画像信息确定所述目标用户的预测画像信息。

可选的，所述第一确定单元包括：

关联模块，用于关联所述目标用户与所述第一用户的所述行动热点信息、所述地理位置信息以及所述时间信息；

第一确定模块，用于确定所述目标用户与所述第一用户的关系；

第二确定模块，用于通过规则计算所述第一用户的画像信息确定所述目标用户的第一画像信息。

可选的，所述第二确定单元包括：

生成模块，用于将所述第一用户的部分标签信息进行模型训练，生成训练模块，所述部分标签为所述目标用户不携带的标签；

预测模块，用于通过所述训练模型预测所述目标用户的第三画像信息，所述第三画像信息包括所述部分标签信息。

可选的，所述获取单元包括：

获取模块，用于获取目标用户在第一预设时间内的画像基础数据信息；

提取模块，用于提取所述画像基础数据信息中的行动热点信息、地理位置信息以及时间信息；

统计模块，用于通过计算统计出所述目标用户与第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有用户画像信息的用户。

可选的，在所述第三确定单元之前，所述装置还包括：

综合单元，用于通过筛选所述第一画像信息、所述第二画像信息以及所述第三画像信息类似的标签信息进行综合。

本申请实施例第三方面提供了基于机器学习的用户画像预测的装置，包括：

处理器、存储器、输入输出单元、总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述处理器具体执行如下操作：

利用最近邻方法计算所述目标用户的第二画像信息；

可选的，所述处理器还用于执行第一方面中任意可选方案的操作。

本申请实施例第四方面提供了基于机器学习的用户画像预测的计算机可读存储介质，包括：

所述计算机可读存储介质上保存有程序，所述程序在计算机上执行前述基于机器学习的用户画像预测的方法。

从以上技术方案可以看出，先获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，其中第一用户为已经拥有用户画像信息的用户，通过关联目标用户和第一用户的行动热点信息、地理位置信息以及时间信息获得目标用户的第一画像信息，再利用最近邻方法计算得到目标用户的第二画像信息，最后通过深度学习第一用户的部分标签确定目标用户的第三画像信息，将第一画像信息、第二画像信息以及第三画像信息进行统计结合预测出目标用户的画像信息。这样从多维度获取用户画像信息基础数据，丰富可靠的数据源减少了用户画像预测结果不精准的情况。

附图说明

图1为本申请实施例中基于机器学习的用户画像预测的方法一个实施例流程示意图；

图2-1为本申请实施例中基于机器学习的用户画像预测的方法另一个实施例流程示意图；

图2-2为本申请实施例中基于机器学习的用户画像预测的方法另一个实施例流程示意图；

图3为本申请实施例中基于机器学习的用户画像预测的装置一个实施例结构示意图；

图4为本申请实施例中基于机器学习的用户画像预测的装置另一个实施例结构示意图；

图5为本申请实施例中基于机器学习的用户画像预测的装置另一个实施例结构示意图。

具体实施方式

在本申请中，基于机器学习的用户画像预测的方法可以在***实现，可以在服务器实现，也可以在终端实现，具体不做明确限定。

请参阅图1，下面以执行主体为***举例进行描述，本申请实施例基于机器学习的用户画像预测的方法一个实施例包括：

101、获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有画像信息的用户；

在实际场景中，目前用户画像主要的刻画方式有几种，比如，用户自己填写自己的画像数据，这样存在的问题是可能用户填写本身就是错误的或者用户填写的信息不全；还有是获取用户近一个月每天来往的地理位置后通过规则刻画出用户画像，这样方法如果规则定义不准那么用户整个画像就不准确；还有就是利用机器学习方法预测出用户的画像数据，这样会出现因本申样本不精确导致预测结果不精确的问题。

因此，在本实施例中，***在得到目标用户更准确的画像信息之前要收统计通过不同维度获取到的用户的画像信息，其中一个维度是首先获取目标用户和已经拥有画像信息的用户在预设时间内的行动热点信息、地理位置信息以及时间信息。例如，获取用户A在观看视频时，一定时间内的行动信息为{"Ip":"192.168.0.1","wifi_name":"小名家的wifi"}、地理位置信息为{"wm629s9":"地名地址信息；交通地名；道路名"}，时间信息为20:00-21:00。

102、通过关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息确定目标用户的第一画像信息；

在本实施例中，***将目标用户的行动热点信息与第一用户的行动热点信息进行关联，将目标用户的地理位置信息与第一用户的地理位置信息进行关联，将目标用户的时间信息与第一用户的时间信息进行关联，例如，***获取到用户A的行动热点信息为{"Ip":"192.168.0.1","wifi_name":"小名家的wifi"}、{"Ip":"192.168.0.1","wifi_name":"小名家的wifi"}、{"Ip":"192.168.0.2","wifi_name":"公司a的wifi"}，然后提取***本身就保存有的用户的行为热点信息，将数据信息进行对比，找出相似的特征信息，可以预测这些关联数据信息之前的关联性，从而确定目标用户的第一画像信息。

103、利用最近邻方法计算目标用户的第二画像信息；

另一维度是通过最近邻方法计算目标用户的第二画像信息，具体的，邻近算法或者说K最近邻(KNN，K-Nearest Neighbor)是数据挖掘分类计数中最简单的方法之一，其核心思想是如果一个样本在特征空间中K个相邻的样本中大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特征。

例如，***中K个已有画像信息的用户与目标用户相邻，并且省份为湖北省所占比例最大，那么目标用户的画像信息省份为湖北省。

104、将通过深度学习第一用户的部分标签信息预测出的结果确定为目标用户的第三画像信息；在本实施例中，***经过关联数据信息以及最近邻算法维度得到目标用户的画像信息可能还是不够全面，部分标签还是没有，就可以通过深度学习已有画像信息的用户部分标签，例如，目标用户缺少兴趣爱好特征信息，已有画像信息的用户具备兴趣爱好这个标签的画像，***就可以深度学习兴趣爱好这个标签来确定目标用户的第三画像信息。

105、结合第一画像信息、第二画像信息以及第三画像信息确定目标用户的预测画像信息。

在本实施例中，通过关联数据信息维度确定目标用户的第一画像信息，利用最近邻算法计算确定目标用户的第二画像信息，最后目标用户缺少的特征信息通过深度学习获取目标用户的第三画像信息，通过这样多维度的计算将这些画像信息进行整合就能预测目标用户的画像信息，丰富可靠的数据源减少了用户画像信息结构不精确的情况。

请参阅图2，下面以执行主体为***举例描述，本申请实施例基于机器学习的用户画像预测的方法另一个实施例包括：

201、获取目标用户在第一预设时间内的画像基础数据信息；

实际场景中，用户在观看视频广告时，媒体都会给广告投放***推送用户的流量，***进行优选用户进行曝光，在这个过程中会产生用户的日志，包括用户的一些画像基础数据信息。

本实施例中，用户在观看视频广告时，***获取用户的基础数据信息，例如包括用户的姓、性别以及电话号码等基础数据信息。需要说明的是第一预设时间根据***获取推送数据数量以及其他外界因素影响设置，这里可以设置为一天。

202、提取画像基础数据信息中的行动热点信息、地理位置信息以及时间信息；

在本实施例中，由于***获取到的基础数据比较杂乱，***预测目标用户的画像信息需要的数据不完全包括，所以***需要提取画像基础数据信息中的行动热点信息、地理位置信息以及时间信息作为后面多维度预测目标用户的画像信息依据数据。

203、通过计算统计出目标用户与第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有用户画像信息的用户；

需要说明的是，这里的预设时间不等于第一预设时间，预设时间可以根据目标用户的基础数据信息设置，可以设置为一个月，这里的预设时间一定大于第一预设时间，这样数据更加丰富准确。

***获取到一天内目标用户的行动热点信息、地理位置信息以及时间信息后计算目标用户在一个月内的行动热点信息、地理位置信息以及时间信息，同时，***提取存储的已有画像信息的用户的基础数据信息，并计算在一个月内已有画像信息的用户的行动热点信息、地理位置信息以及时间信息。

204、关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息；

***将计算得到的目标用户和已经拥有画像信息的用户的行动热点信息、地理位置信息以及时间信息进行数据关联，其中关联的时候是一一对应的。

205、确定目标用户与第一用户的关系；

***关联数据后，可以通过关联的结果确定目标用户与第一用户的关系。例如，将目标用户的行动热点信息与第一用户的行动热点信息进行关联，发现两者都是用的小名家的wifi，通过关联目标用户的地理位置信息和第一用户的地理位置信息，发现地名地址信息一样，并且从这些相似的第一用户中取出5个用户，大致就可以预测目标用户与这5个用户的关系为亲人关系。

206、通过规则计算第一用户的画像信息确定目标用户的第一画像信息；

***预测目标用户与第一用户的关系后，大致可以预测目标用户的一些画像数据信息，再通过规则计算5个用户的画像信息，比如，这5个用户的年龄有低于10岁的，高于60岁的，大致可以预测是目标用户的晚辈和长辈，再根据他们的地址和时间计算，确定目标用户的家庭地址以及家庭成员等画像信息。

207、利用最近邻方法计算目标用户的第二画像信息；

本实施例中的步骤207与前述步骤103类似，此处不做赘述。

208、将所述第一用户的部分标签信息进行模型训练，生成训练模块，部分标签为目标用户不携带的标签；

在本实施例中，***通过多维度已经预测到目标用户的大部分画像信息，其余的可以通过深度学习进行预测。具体的，将已有画像信息的用户的部分标签信息进行深度学习生成模型，其中部分标签为目标用户不携带的标签，例如，***已经预测到目标用户的身高体重，手机号码以及家庭地址等画像信息，但是关于兴趣爱好这个特征没有，可以与目标用户具有关联性的用户进行深度学习。

209、通过训练模型预测目标用户的第三画像信息，第三画像信息包括部分标签信息；

在本实施例中，模型训练的过程与实际应用中类似，只不过这里的模型训练样本数据比较少，也就是训练的过程比较简单，只训练部分标签样本数据，这样过程比较简单，解释性也强。

210、通过筛选第一画像信息、第二画像信息以及第三画像信息类似的标签信息进行综合；

在本实施例中，***通过多维度计算得到目标用户的画像信息，可能会存在类似的数据信息，具体的，***提取类似的数据信息，将数据信息进行综合整理，统计出最精确的数据信息。

211、结合第一画像信息、第二画像信息以及第三画像信息确定目标用户的预测画像信息。

本实施例中的步骤211与前述步骤105类似，此处不做赘述。

上面对本申请实施例中基于机器学习的用户画像预测的方法进行了描述，下面对本申请实施例中基于机器学习的用户画像预测的装置进行描述：

请参阅图3，本申请实施例基于机器学习的用户画像预测的装置一个实施例包括：

获取单元301，用于获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有画像信息的用户；

第一确定单元302，用于通过关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息确定目标用户的第一画像信息；

计算单元303，用于利用最近邻方法计算目标用户的第二画像信息；

第二确定单元304，用于将通过深度学习第一用户的部分标签信息预测出的结果确定为目标用户的第三画像信息；第三确定单元305，用于结合第一画像信息、第二画像信息以及第三画像信息确定目标用户的预测画像信息。

本实施例中，获取单元301获取到目标用户以及已拥有画像信息的用户的行动热点信息、地理位置信息以及时间信息后，第一确定单元通过关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息确定目标用户的第一画像信息，然后运用最近邻计算方法计算目标用户的第二画像信息，关联数据信息以及最近邻算法还不能完全刻画用户画像信息，其实还有一部分通过深度学习已拥有画像信息的用户的部分标签信息确定第三画像信息，最后结合第一画像信息、第二画像信息以及第三画像信息预测目标用户的画像信息。这样从多维度计算获取到的用户画像信息数据更精确。

下面对本申请实施例中基于机器学习的用户画像预测的装置进行详细描述，请参阅图4，本申请实施例基于机器学习的用户画像预测的装置另一个实施例包括：

获取单元401，用于获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有画像信息的用户；

第一确定单元402，用于通过关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息确定目标用户的第一画像信息；

计算单元403，用于利用最近邻方法计算目标用户的第二画像信息；

第二确定单元404，用于将通过深度学习第一用户的部分标签信息预测出的结果确定为目标用户的第三画像信息；第三确定单元405，用于结合第一画像信息、第二画像信息以及第三画像信息确定目标用户的预测画像信息。

本实施中获取单元401可以包括：

获取模块4011，用于获取目标用户在第一预设时间内的画像基础数据信息；

提取模块4012，用于提取画像基础数据信息中的行动热点信息、地理位置信息以及时间信息；

统计模块4013，用于通过计算统计出目标用户与第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有用户画像信息的用户。

本实施例中第一确定单元402可以包括：

关联模块4021，用于关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息；

第一确定模块4022，用于确定目标用户与第一用户的关系；

第二确定模块4023，用于通过规则计算第一用户的画像信息确定目标用户的第一画像信息。

本实施例中第二确定单元404可以包括：

生成模块4041，用于将第一用户的部分标签进行算法深度学习生成训练模型，部分标签为目标用户不携带的标签；

预测模块4042，用于通过训练模型预测目标用户的第三画像信息，第三画像信息包括部分标签信息。

本实施例中，各单元及模块的功能与前述图2所示实施例中的步骤对应，此处不做赘述。

下面对本申请实施例中基于机器学习的用户画像预测的装置进行详细的描述，请参阅图5，本申请实施例中基于机器学习的用户画像预测的装置另一个实施例包括：

处理器501、存储器502、输入输出单元503、总线504；

处理器501与存储器502、输入输出单元503以及总线504相连；

处理器501执行如下操作：

获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，第一用户为已经拥有画像信息的用户；

通过关联目标用户与第一用户的行动热点信息、地理位置信息以及时间信息确定目标用户的第一画像信息；

利用最近邻方法计算目标用户的第二画像信息；

将通过深度学习第一用户的部分标签信息预测出的结果确定为目标用户的第三画像信息；结合第一画像信息、第二画像信息以及第三画像信息确定目标用户的预测画像信息。

可选的，处理器501的功能与前述图1至图2所示实施例中的步骤对应，此处不做赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于机器学习的用户画像预测的方法，其特征在于，包括：

利用最近邻方法计算所述目标用户的第二画像信息；

2.根据权利要求1所述的方法，其特征在于，所述通过关联所述目标用户与所述第一用户的行动热点信息、地理位置信息以及时间信息确定所述目标用户的第一画像信息，包括：

确定所述目标用户与所述第一用户的关系；

3.根据权利要求1所述的方法，其特征在于，所述将通过深度学习所述第一用户的部分标签信息预测出的结果确定为所述目标用户的第三画像信息，包括：

将所述第一用户的部分标签信息进行模型，生成训练模块，所述部分标签为所述目标用户不携带的标签；

4.根据权利要求1所述的方法，其特征在于，所述获取目标用户和第一用户在预设时间内的行动热点信息、地理位置信息以及时间信息，所述第一用户为已经拥有画像信息的用户，包括：

获取目标用户在第一预设时间内的画像基础数据信息；

5.根据权利要求4所述的方法，其特征在于，所述第一预设时间小于所述预设时间。

6.根据权利要求1至4中任一项所述的方法，其特征在于，在结合所述第一画像信息、所述第二画像信息以及所述第三画像信息确定所述目标用户的预测画像信息之前，所述方法还包括：

7.一种基于机器学习的用户画像预测的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元包括：

9.根据权利要求7所述的装置，其特征在于，所述第二确定单元包括：

生成模块，用于将所述第一用户的部分标签进行算法深度学习生成训练模型，所述部分标签为所述目标用户不携带的标签；

10.根据权利要求7所述的装置，其特征在于，所述获取单元包括：