CN111651668A

CN111651668A - 用户画像的标签生成方法及装置、存储介质、终端

Info

Publication number: CN111651668A
Application number: CN202010373398.9A
Authority: CN
Inventors: 汤奇峰; 刘立喆
Original assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Current assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-09-11
Anticipated expiration: 2040-05-06
Also published as: CN111651668B

Abstract

一种用户画像的标签生成方法及装置、存储介质、终端，所述方法包括：获取待处理的用户画像；对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。通过本发明方案能够有效丰富用户画像的标签数量，且利于提高标签生产的准确度。

Description

用户画像的标签生成方法及装置、存储介质、终端

技术领域

本发明涉及大数据处理技术领域，具体地涉及一种用户画像的标签生成方法及装置、存储介质、终端。

背景技术

用户画像作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，在各领域得到了广泛的应用。在大数据时代背景下，用户信息充斥在网络中，通过将用户的每个具体信息抽象成标签，利用这些标签将用户形象(即用户画像)具体化，能够为用户提供有针对性的服务。

通常，为了能够很好地将用户形象具体化，需要尽可能多的标签来描述用户形象，往往会有几十个甚至上百个标签来描述一个用户。这些标签不仅数量众多，而且每个标签中的枚举值也各有不同，少则两三个，多则上千个。除了这些大量的标签，用户的行为也是十分重要的描述用户的数据。

虽然在做用户画像的时候，这些数据经过整理能够很好的用于描述人群的画像。但是，在基于用户画像的上层应用中(如推荐，排序，投放等)，则由于标签数量众多且具有带有时间性质的行为数据，使得对于画像的建模有一定的困难。导致模型不易拟合或者是画像之间的区分度、关联度不够。

由于用户画像生产的最终目标是尽可能多的丰富用户画像的标签数量以及尽可能正确地生产标签。而模型不易拟合影响标签生产的准确性，画像之间的关联度不够则影响用户画像的标签扩充，均不利于用户画像标签的准确生产。

发明内容

本发明解决的技术问题是如何有效丰富用户画像的标签数量，且利于提高标签生产的准确度。

为解决上述技术问题，本发明实施例提供一种用户画像的标签生成方法，包括：获取待处理的用户画像；对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

可选的，所述标签生成方法还包括：接收所述预设嵌入网络模型输出的处理后特征向量，其中，所述处理后特征向量的长度小于所述原始特征向量的长度。

可选的，所述用户画像包括至少一个已有标签和行为，所述预设嵌入网络模型根据所述用户画像包括的已有标签和行为预测所述用户画像与所述目标标签的关联度。

可选的，所述对所述用户画像进行编码处理，以得到原始特征向量包括：对所述用户画像包括的各已有标签和行为进行独热编码并拼接，以得到所述原始特征向量。

可选的，所述对所述用户画像进行编码处理，以得到原始特征向量还包括：将拼接得到的特征向量记作过渡特征向量；当所述过渡特征向量的长度小于所述预设嵌入网络模型的标准输入长度时，将所述过渡特征向量的长度补齐至所述标准输入长度，以得到所述原始特征向量。

可选的，所述预设嵌入网络模型基于如下步骤训练获得：查找用户画像库中包含所述目标标签的用户画像，以得到原始数据集；将所述原始数据集中的一部分用户画像确定为训练集，剩余部分用户画像确定为测试集；对于所述训练集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；基于所述训练集中各用户画像对应的原始特征向量训练所述预设嵌入网络模型。

可选的，所述预设嵌入网络模型还基于如下步骤训练获得：对于所述测试集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；将所述测试集中各用户画像对应的原始特征向量输入训练得到的所述预设嵌入网络模型，并根据所述预设嵌入网络模型的输出结果调整所述预设嵌入网络模型的参数和权重，直至所述预设嵌入网络模型的输出结果表明所述预设嵌入网络模型的准确率高于预设基准值。

可选的，所述预设嵌入网络模型包括：嵌入层，所述嵌入层的输入为所述原始特征向量；至少一层全连接层，所述至少一层全连接层中第一层全连接层的输入为所述嵌入层的输出，自所述至少一层全连接层中的第二层全连接层起，每一层全连接层的输入为上一层全连接层的输出，所述至少一层全连接层中最后一层全连接层的输出为所述预设嵌入网络模型的输出。

可选的，所述至少一层全连接层的数量为两层。

可选的，对于所述预设嵌入网络模型中的每一层，所述层输出的特征向量的长度小于所述特征向量输入所述层时的长度。

为解决上述技术问题，本发明实施例还提供一种用户画像的标签生成装置，包括：获取模块，用于获取待处理的用户画像；处理模块，用于对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；输入模块，用于将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；接收模块，用于接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；确定模块，用于根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种用户画像的标签生成方法，包括：获取待处理的用户画像；对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

采用本实施例方案，能够有效丰富用户画像的标签数量，且利于提高标签生产的准确度。具体而言，基于预设嵌入网络模型将用户画像特征化，亦即将用户画像从一堆标签和行为数字化为固定长度的特征向量。由此，便于模型学习训练，从而提高标签生产的准确性。进一步，基于预设嵌入网络模型降低用户画像的向量维度，以增强用户画像和用户画像之间的关联度，利于进一步扩充用户画像的标签。

例如，对于不具有目标标签的用户画像，将该用户画像包括的特征(即标签和行为)数字化后输入预设嵌入网络模型，以基于预设嵌入网络模型预测用户画像具有目标标签的概率。若概率较高，则可以将目标标签补充至该用户画像，从而实现对用户画像的标签扩充。

进一步，基于所述预设嵌入网络模型，还能够有效提升用户画像与标签的匹配准确性。

附图说明

图1是本发明实施例一种用户画像的标签生成方法的流程图；

图2是本发明实施例一种预设嵌入网络模型的训练流程图；

图3是图2中预设嵌入网络模型的示意图；

图4是本发明实施例一种用户画像的标签生成装置的结构示意图。

具体实施方式

如背景技术所言，现有用户画像的标签生产准确度低，且无法有效丰富用户画像的标签数量。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种用户画像的标签生成方法的流程图。

所述用户画像可以包括至少一个标签，所述标签用于描述用户的某一属性。多个标签组成用户的用户画像，以多角度描述用户的不同属性。例如，年龄、性别、居住城市等可以体现用户的某一方面属性但又不会涉及用户个人隐私的信息均可以作为标签。

所述用户画像还可以包括至少一个行为，如消费行为、互联网浏览行为等。基于行为可以抽象、总结得到一个或多个标签。行为包含的用户信息可以广于标签所体现的用户信息，因此，用户画像可以同时包含行为以及基于所述行为抽象得到的标签，以便后续进行标签扩充。

具体地，参考图1，本实施例所述用户画像的标签生成方法可以包括如下步骤：

步骤S101，获取待处理的用户画像；

步骤S102，对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；

步骤S103，将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；

步骤S104，接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；

步骤S105，根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

在一个具体实施中，待处理的用户画像可以指需要进行标签扩充的用户画像。

例如，所述待处理的用户画像可以获取自用户画像库，其中，所述用户画像库可以记录有多个用户画像。

在本实施中，所述待处理的用户画像可以包括至少一个已有标签和行为，所述已有标签和行为可以是历史上执行本实施例方案扩充得到的。进一步，所述待处理的用户画像已经包含的所述已有标签中没有所述目标标签，则通过执行本实施例方案，能够判断是否将所述目标标签扩充至所述用户画像。

在一个具体实施中，所述步骤S102可以用于将用户画像中离散无需的属性特征数字化为可以被计算机识别和处理的特征向量。特征向量可以理解为用户画像包括的特征属性(标签和行为)的集合。

所述步骤S102可以包括：对所述用户画像包括的各已有标签和行为进行独热(one-hot)编码并拼接，以得到所述原始特征向量。

具体而言，独热编码也可称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都对应独立的寄存器位，并且在任意时候只有一位有效。进一步而言，独热编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

进一步地，当所述用户画像包括多个已有标签和行为时，可以选取其中特定数量的标签和行为进行独热编码。例如，选取的标签可以包括年龄、性别、地域等对于描述用户形象较重要的标签。又例如，用户画像包括的所有行为均可以进行独热编码，因为行为包含的用户信息更多，将其全部输入预设嵌入网络模型更利于提高预测准确度。

在一个具体实施中，所述步骤S102还可以包括：将拼接得到的特征向量记作过渡特征向量；当所述过渡特征向量的长度小于所述预设嵌入网络模型的标准输入长度时，将所述过渡特征向量的长度补齐至所述标准输入长度，以得到所述原始特征向量。

具体而言，针对不同用户画像，可以选择相同数量的属性编码得到特征向量，此时不同用户画像编码得到的特征向量的长度是相同的。

而针对不同用户画像，可以选择用户画像中所有的行为编码得到特征向量。由于不同用户画像包括的行为的数量可能不相同，编码得到的特征向量的长度可能不相同。因此，本实施将不同用户画像编码得到的原始特征向量的长度统一化，以便预设嵌入网络模型处理。

例如，所述标准输入长度可以根据预设嵌入网络模型训练时输入的所有原始特征向量中最长向量的长度确定。

在所述步骤S102中，对于长度小于所述标准输入长度的过渡特征向量，可以采用补零的方式将所述过渡特征向量补齐呈符合标准输入长度的原始特征向量。

在一个具体实施中，所述预设嵌入(embedding，也可称为嵌套)网络模型可以根据所述用户画像包括的已有标签和行为预测所述用户画像与所述目标标签的关联度。其中，关联度可以指用户画像具有目标标签的概率。

在一个具体实施中，在所述步骤S105的之前、之后或同时，本实施例所述标签生成方法还可以包括：接收所述预设嵌入网络模型输出的处理后特征向量，其中，所述处理后特征向量的长度小于所述原始特征向量的长度。

具体地，为了更具体地描述用户形象，用户画像包括的已有标签数量通常较多，且不同用户画像针对同一标签的枚举值也可能各有不同。这就导致独热编码得到的原始特征向量的向量维度高、长度大、很稀疏。如果上层应用直接使用原始特征向量则运算量大。而且，由于不同用户画像的原始特征向量之间关联度低且不直观，上层应用无法将用户形象实际上相近的用户画像有效关联起来。

因此，本实施例方案基于预设嵌入网络模型对原始特征向量进行降维处理，以缩短处理后特征向量的长度，利于降低后续数据模型的运算量。

在一个具体实施中，参考图2，所述预设嵌入网络模型可以基于如下步骤训练获得：

步骤S201，查找用户画像库中包含所述目标标签的用户画像，以得到原始数据集；

步骤S202，将所述原始数据集中的一部分用户画像确定为训练集，剩余部分用户画像确定为测试集；

步骤S203，对于所述训练集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；

步骤S204，基于所述训练集中各用户画像对应的原始特征向量训练所述预设嵌入网络模型。

具体地，将待生产的属性确定为所述目标标签，并遍历所述用户画像库以找到所有已经包含所述目标标签的用户画像。查找结果组成所述原始数据集。

进一步，将原始数据集分为训练集和测试集。其中，训练集用于预设嵌入网络模型的训练，测试集用于预设嵌入网络模型的验证。

原始数据集中除目标标签外的所有已有标签和行为均可以作为训练数据。

进一步地，所述步骤S203的编码处理过程可以参考上述图1中步骤S102的相关描述。

进一步地，在所述步骤S204中，将处理好的数据(即原始特征向量)输入所述预设嵌入网络模型中进行训练，当训练出一个可用的网络后，即可使用所述预设嵌入网络模型执行上述图1所示实施例方案，以进行新标签的生产。

其中，所述可用的网络可以指训练得到的预设嵌入网络模型经测试集验证后准确度高于预设基准值。

在一个具体实施中，在所述步骤S204之后，对预设嵌入网络模型的训练过程还可以包括步骤：对于所述测试集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；将所述测试集中各用户画像对应的原始特征向量输入训练得到的所述预设嵌入网络模型，并根据所述预设嵌入网络模型的输出结果调整所述预设嵌入网络模型的参数和权重，直至所述预设嵌入网络模型的输出结果表明所述预设嵌入网络模型的准确率高于预设基准值。

具体而言，所述预设嵌入网络模型的输出结果可以包括损失函数，所述损失函数可以用于评估模型的预测值与真实值之间的差异程度。另外，损失函数也是神经网络中优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程。损失函数越小，说明模型的预测值就越接近真实值，模型的准确性也就越好。

例如，所述损失函数可以选自：平方损失函数，对数损失函数以及交叉熵损失函数等不同形式的损失函数。

在一个具体实施中，所述步骤S104中的概率预测结果也可以是基于所述损失函数表征的。

在一个具体实施中，参考图3，所述预设嵌入网络模型3可以包括：嵌入层(embedding layer)31，所述嵌入层31的输入(对应图中示出的“输入数据”)为所述原始特征向量；至少一层全连接层(full connect layer)32，所述至少一层全连接层32中第一层全连接层32的输入为所述嵌入层31的输出，自所述至少一层全连接层32中的第二层全连接层32起，每一层全连接层32的输入为上一层全连接层32的输出，所述至少一层全连接层32中最后一层全连接层32的输出为所述预设嵌入网络模型3的输出(对应图中示出的“输出数据”)。

图3所示预设嵌入网络模型3是以所述至少一层全连接层32的数量为两层为例进行示例性展示的。在实际应用中，可以根据需要调整预设嵌入网络模型包括的全连接层的数量。

在一个具体实施中，对于所述预设嵌入网络模型3中的每一层(嵌入层31或全连接层32)，所述层输出的特征向量的长度小于所述特征向量输入所述层时的长度。

例如，越靠近输出层(对应图中示出的“输出数据”)的嵌入层31或全连接层32，该层中神经元的数量越少，相应的，该层输出的特征向量的长度较之输入时更短。

在一个具体实施中，在所述步骤S105中，若所述概率预测结果表明所述用户画像与目标标签的关联度大于预设阈值，则可以将所述目标标签确定为所述用户画像的新增标签。

具体地，所述预设阈值可以根据用户需要确定。预设阈值越大，将目标标签确定为用户画像的新增标签的标准越严格。

由上，采用本实施例方案，能够有效丰富用户画像的标签数量，且利于提高标签生产的准确度。具体而言，基于预设嵌入网络模型将用户画像特征化，亦即将用户画像从一堆标签和行为数字化为固定长度的特征向量。由此，便于模型学习训练，从而提高标签生产的准确性。进一步，基于预设嵌入网络模型降低用户画像的向量维度，以增强用户画像和用户画像之间的关联度，利于进一步扩充用户画像的标签。

图4是本发明实施例一种用户画像的标签生成装置的结构示意图。本领域技术人员理解，本实施例所述用户画像的标签生成装置可以用于实施上述图1至图3所述实施例中所述的方法技术方案。

具体地，参考图4，本实施例所述用户画像的标签生成装置4可以包括：获取模块41，用于获取待处理的用户画像；处理模块42，用于对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；输入模块43，用于将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；接收模块44，用于接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；确定模块45，用于根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

关于所述用户画像的标签生成装置4的工作原理、工作方式的更多内容，可以参照上述图1至图3中的相关描述，这里不再赘述。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1至图3所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1至图3所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种用户画像的标签生成方法，其特征在于，包括：

获取待处理的用户画像；

对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；

将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；

接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；

根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

2.根据权利要求1所述的标签生成方法，其特征在于，还包括：

接收所述预设嵌入网络模型输出的处理后特征向量，其中，所述处理后特征向量的长度小于所述原始特征向量的长度。

3.根据权利要求1所述的标签生成方法，其特征在于，所述用户画像包括至少一个已有标签和行为，所述预设嵌入网络模型根据所述用户画像包括的已有标签和行为预测所述用户画像与所述目标标签的关联度。

4.根据权利要求3所述的标签生成方法，其特征在于，所述对所述用户画像进行编码处理，以得到原始特征向量包括：

对所述用户画像包括的各已有标签和行为进行独热编码并拼接，以得到所述原始特征向量。

5.根据权利要求4所述的标签生成方法，其特征在于，所述对所述用户画像进行编码处理，以得到原始特征向量还包括：

将拼接得到的特征向量记作过渡特征向量；

当所述过渡特征向量的长度小于所述预设嵌入网络模型的标准输入长度时，将所述过渡特征向量的长度补齐至所述标准输入长度，以得到所述原始特征向量。

6.根据权利要求1所述的标签生成方法，其特征在于，所述预设嵌入网络模型基于如下步骤训练获得：

查找用户画像库中包含所述目标标签的用户画像，以得到原始数据集；

将所述原始数据集中的一部分用户画像确定为训练集，剩余部分用户画像确定为测试集；

对于所述训练集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；

基于所述训练集中各用户画像对应的原始特征向量训练所述预设嵌入网络模型。

7.根据权利要求6所述的标签生成方法，其特征在于，所述预设嵌入网络模型还基于如下步骤训练获得：

对于所述测试集中的每一用户画像，对所述用户画像进行编码处理，以得到原始特征向量；

将所述测试集中各用户画像对应的原始特征向量输入训练得到的所述预设嵌入网络模型，并根据所述预设嵌入网络模型的输出结果调整所述预设嵌入网络模型的参数和权重，直至所述预设嵌入网络模型的输出结果表明所述预设嵌入网络模型的准确率高于预设基准值。

8.根据权利要求1所述的标签生成方法，其特征在于，所述预设嵌入网络模型包括：

嵌入层，所述嵌入层的输入为所述原始特征向量；

至少一层全连接层，所述至少一层全连接层中第一层全连接层的输入为所述嵌入层的输出，自所述至少一层全连接层中的第二层全连接层起，每一层全连接层的输入为上一层全连接层的输出，所述至少一层全连接层中最后一层全连接层的输出为所述预设嵌入网络模型的输出。

9.根据权利要求8所述的标签生成方法，其特征在于，所述至少一层全连接层的数量为两层。

10.根据权利要求8所述的标签生成方法，其特征在于，对于所述预设嵌入网络模型中的每一层，所述层输出的特征向量的长度小于所述特征向量输入所述层时的长度。

11.一种用户画像的标签生成装置，其特征在于，包括：

获取模块，用于获取待处理的用户画像；

处理模块，用于对所述用户画像进行编码处理，以得到原始特征向量，其中，所述原始特征向量为所述用户画像的数字化表示；

输入模块，用于将所述原始特征向量输入预设嵌入网络模型，其中，所述预设嵌入网络模型用于降低所述原始特征向量的向量维度；

接收模块，用于接收所述预设嵌入网络模型输出的概率预测结果，其中，所述概率预测结果用于表征所述用户画像与目标标签的关联度；

确定模块，用于根据所述概率预测结果将所述目标标签确定为所述用户画像的新增标签。

12.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器运行时执行权利要求1至10任一项所述方法的步骤。

13.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至10任一项所述方法的步骤。