CN109359180A

CN109359180A - 用户画像生成方法、装置、电子设备及计算机可读介质

Info

Publication number: CN109359180A
Application number: CN201811099279.8A
Authority: CN
Inventors: 蔡业首; 汤煌; 张小鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-02-19
Anticipated expiration: 2038-09-20
Also published as: CN109359180B

Abstract

本公开涉及一种用户画像生成方法、装置、电子设备及计算机可读介质。该方法包括：获取用户的行为信息和/或行为对应的物品描述信息；通过行为信息生成物品集合；通过物品描述信息生成描述文档；将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型计算文档主题向量和/或物品主题向量；以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。本公开涉及的用户画像生成方法、装置、电子设备及计算机可读介质，能够提高物品描述信息在用户画像中的覆盖率，提升用户画像精度。

Description

用户画像生成方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种用户画像生成方法、装置、电子设备及计算机可读介质。

背景技术

用户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。在实际生成用户画像的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来，作为实际用户的虚拟代表，以期望基于用户画像用于后续挖掘用户兴趣。在用户兴趣挖掘中，目前常用物品描述信息及用户行为信息来构建用户画像。首先利用物品描述信息对用户购买或者下载的物品进行聚类或者分类；然后依据用户的行为信息，将从物品描述中获得的类目信息映射到用户层面。

但是，目前用户画像挖掘方法在实际应用中存在一些问题。首先，部分物品缺失描述信息，例如，物品可例如为应用程序，而拥有描述信息的应用程序只占所有应用程序数量的60％左右，利用上述方法进行挖掘，不可避免的将丢弃掉40％不包含描述信息的应用程序及用户在应用程序上的行为。这种将物品信息和行为信息的剔除行为，容易造成兴趣对用户的覆盖率下降及用户画像不够精准的问题。

因此，需要一种新的用户画像生成方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种用户画像生成方法、装置、电子设备及计算机可读介质，能够提高物品描述信息在用户画像中的覆盖率，提升用户画像精度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种用户画像生成方法，该方法包括：获取用户的行为信息，所述行为信息包括物品操作信息与物品描述信息；通过物品操作信息生成物品集合；通过物品描述信息生成描述文档；将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型逆推计算文档主题向量和/或物品主题向量；以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

根据本公开的一方面，提出一种用户画像生成装置，该装置包括：信息模块，用于获取用户的行为信息，所述行为信息包括物品操作信息与物品描述信息；物品集合模块，用于通过物品操作信息生成物品集合；描述文档模块，用于通过物品描述信息生成描述文档；向量模块，用于将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型逆推计算文档主题向量和/或物品主题向量；以及用户画像模块，用于通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的用户画像生成方法、装置、电子设备及计算机可读介质，能够提高物品描述信息在用户画像中的覆盖率，提升用户画像精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种用户画像生成方法及装置的***框图。

图2是根据一示例性实施例示出的一种用户画像生成方法及装置的应用场景图。

图3是根据另一示例性实施例示出的一种用户画像生成方法的流程图。

图4是根据一示例性实施例示出的一种用户画像生成方法的示意图。

图5是根据一示例性实施例示出的一种用户画像生成方法的示意图。

图6是根据另一示例性实施例示出的一种用户画像生成方法的流程图。

图7是根据另一示例性实施例示出的一种用户画像生成方法的流程图。

图8是根据另一示例性实施例示出的一种用户画像生成方法的流程图。

图9是根据一示例性实施例示出的一种用户画像生成装置的框图。

图10是根据另一示例性实施例示出的一种用户画像生成装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

图12是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本申请的发明人发现，如上文所述，现有技术中的用户画像方式会造成兴趣特征对用户的覆盖率下降及用户画像不够精准的问题。现有技术中的用户画像方式的缺陷可以通过基于行为的LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)来解决，主要思路是，将每一个用户看作“文档”，“文档”中的内容则是用户产生过行为的物品列表。基于这样的假设，可以利用用户的行为对物品进行聚类。

基于行为的LDA可以解决对缺失描述物品进行聚类的问题，但在实际场景中，通过LDA构建用户画像的方式，由于抛弃了与物品相关的文本信息，完全依赖用户的行为信息，通过这种方式得到的聚类簇，物品之间的语义相关性较弱。例如，在对用户群进行聚类的场景中，通过LDA构建用户画像的方式经常会将同一个地域的群划分到一个聚类簇。

有鉴于此，本申请的发明人提出了一种用户画像生成方法及装置，通过建立多输入潜在狄利克雷分布模型，经过对多输入潜在狄利克雷分布模型的模型训练获取概率图模型，概率图模型能够同时接受行为和文本多种输入，概率图模型能够在相同主题空间下，同时获得用户、物品及关键词等多个层面的主题向量，通过多个层面的主题向量生成的用户画像，能够更加全面的反映用户特征，更加精准的描述用户个人信息。

下面将借助于具体的实施例，对本申请的内容进行详细的描述：

如图1所示，***架构1000可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器 105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以在终端设备101、102、103上面进行常用的网络操作，终端设备101、102、103可通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

终端设备101、102、103可将用户的行为信息实时发送至服务器105 中，以便服务器105实时生成用户画像。终端设备101、102、103还可通过定时任务的形式，定时将用户的行为信息发送至服务器105中，以便服务器105定时生成和/或更新用户画像。终端设备101、102、103还可例如将用户的行为信息储存在日常日志中，服务器105可以通过拉取数据的方式，主动由终端设备101、102、103中拉取用户的行为信息，本申请不以此为限。

服务器105可以是提供各种服务的服务器，例如对用户行为进行分析的后台服务器。服务器105可以对接收到的用户行为信息进行分析等处理，并生成处理结果(用户画像、用户标签等)。

服务器105可例如获取用户的行为信息和/或行为对应的物品描述信息；服务器105可例如通过物品操作信息生成物品集合；服务器105可例如通过物品描述信息生成描述文档；服务器105可例如将所述物品集合和 /或所述描述文档输入概率图模型中以确定文档主题向量和/或物品主题向量；服务器105可例如通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

服务器105还可例如根据一个或多个用户的行为信息和/或对应的物品描述信息，通过多输入潜在狄利克雷分布模型而生成所述概率图模型，所述多输入潜在狄利克雷分布模型的输入为多个数据集。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的用户画像生成方法可以由服务器 105执行，相应地，用户画像生成装置可以设置于服务器105中。而提供给用户进行网络操作、完成用户常规使用请求的响应端一般位于终端设备 101、102、103中。

图2是根据一示例性实施例示出的一种用户画像生成方法及装置的应用场景图。如图2所示，不同的用户在终端设备中进行常规的使用操作，使用操作可包括网络浏览，在应用商店中购买应用，并应用下载，使用应用完成预定功能等等。用户的行为信息可包括上述行为的时间、上述行为的频率等等。终端设备可将用户的行为信息发送至预定的服务器中，服务器根据分析，确定该用户的用户画像。

其中，终端设备可将用户的行为信息实时发送至服务器中，以便服务器实时生成用户画像。终端设备还可通过定时任务的形式，定时将用户的行为信息发送至服务器中，以便服务器定时生成和/或更新用户画像。终端设备还可例如将用户的行为信息储存在日常日志中，服务器可以通过拉取数据的方式，主动由终端设备中拉取用户的行为信息，本申请不以此为限。

图3是根据另一示例性实施例示出的一种用户画像生成方法的流程图。用户画像生成方法30包括步骤S302至S310。

如图3所示，在S302中，获取用户的行为信息和/或行为对应的物品描述信息。用户的行为信息可包括：用户在终端设备中进行常规的使用操作，使用操作可包括网络浏览，在应用商店中购买应用，并应用下载，使用应用完成预定功能等等。用户的行为信息还可包括上述行为的时间、上述行为的频率等等。

在一个实施例中，物品可例如为应用商店中的应用信息，还可例如包括用户在网上商城中购买的实际物品的信息，本申请不以此为限。可例如，在物品为应用商店中的应用软件时，物品对应的物品描述信息为该应用的物品介绍信息，可为应用涉及的兴趣领域、玩家范围、应用使用场景等等信息。在物品为网上商场中实际使用物品时，物品对应的物品描述信息可为该物品的类目、作用、价格范围等等信息。

在S304中，通过物品操作信息生成物品集合。可包括：由物品交互日志中提取物品操作信息；以及由物品交互日志中的预定操作的物品生成所述物品集合。例如，由物品购买日志中提取物品购买信息；以及由物品购买信息中的已购买的物品生成所述物品集合。还可例如，通过应用下载日志中提取应用下载信息，以及由应用下载信息中已下载应用生成所述物品集合。

在一个实施例中，物品集合可将用户购买的所有的物品信息依次罗列，还可例如将用户购买的物品信息与购买该物品信息的次数同时进行储存。

在一个实施例中，设定时间窗口范围，提取时间窗口范围内用户购买的物品信息，通过时间窗口范围内的用户物品信息生成物品集合。

在S306中，通过物品描述信息生成描述文档。可包括：获取多个物品对应的多个描述信息；将所述多个描述信息进行拼接生成所述物品描述信息；以及将所述物品描述信息进行分词处理以生成所述描述文档。

其中，分词处理可为对汉字进行中文分词处理，中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在本申请实施例中，对物品描述信息进行分析时，分词算法可分为三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

当然，在物品描述信息为英文或其他语言信息时，也可通过其他语言对应的分词处理方法对物品描述信息进行分词处理，具体分词处理的方法不影响本公开后续实施例的处理步骤。在本公开中，可通过以上多种分词方法中的一种或几种来对本公开中的物品描述信息进行分词处理，本公开不以此为限。

在S308中，将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型计算文档主题向量和/或物品主题向量。可包括：根据所述物品集合确定关键物品(可为一个或多个或预定数量个)，根据所述描述文档确定关键词(可为一个或多个或预定数量个)；至少通过所述关键词、关键物品构建概率函数；以及求解所述概率函数以确定文档主题向量与物品主题向量。

在一个实施例中，根据所述物品集合确定关键物品，根据所述描述文档确定关键词包括：根据所述描述文档与所述文档主题矩阵确定关键词；以及根据所述关键词通过所述物品集合与所述物品主题矩阵确定关键物品。

在一个实施例中，根据所述描述文档与所述文档主题矩阵确定关键词包括：根据所述文档主题矩阵中的每一个主题的概率分布提取所述关键词。

在一个实施例中，根据所述关键词通过所述物品集合与所述物品主题矩阵确定关键物品包括：根据所述关键词确定抽取主题词；以及根据所述抽取主题词在所述物品集合中按照所述物品主题矩阵中的每一个关键物品的概率分布提取的关键物品。

在一个实施例中，对于每个用户u，将该用户购买过的物品对应的描述信息拼接起来并分词，作为该用户的兴趣描述文档d_u，将用户购买过的物品集合定义为t_u，将每个用户可为三元组(u,d_u,t_u)的形式。

通过预先的模型训练，可获得概率图模型的模型参数：文档主题矩阵Λ和物品主题矩阵φ，模型主题数量设置为K，求解所述概率图模型对应的概率函数以确定文档主题向量T_d和物品主题向量T_t。每个主题词和物品，分别在Λ矩阵及矩阵中被表达为K维主题分布向量。关于概率图模型训练的过程将在图6对应的实施例中进行详细描述；关于概率图模型求解的具体过程将在图7对应的实施例中进行详细描述。

在一个实施例中，概率图模型通过多输入潜在狄利克雷分布模型生成，概率图模型的输入信息除了物品操作信息与物品描述信息之外，还可接收其他的用户特征输入，可根据输入的信息数量，调整多输入潜在狄利克雷分布模型结构，本申请不以此为限。

在S310中，通过文档主题向量和/或物品主题向量生成所述用户的用户画像。通过文档主题向量T_d和物品主题向量T_t，生成用户兴趣向量，可用用户兴趣向量来对用户画像进行描述。

可利用如下公式最终生成用户兴趣向量：

T_u＝η*T_d+(1-η)*T_t(0＜η＜1)

根据本公开的用户画像生成方法，通过将物品集合与所述描述文档输入概率图模型中，以确定文档主题向量与物品主题向量的方式，能够从物品自身信息以及用户行为信息两个方面对用户的特征进行描述，能够提高物品描述信息在用户画像中的覆盖率，提升用户画像精度。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

在一个实施例中，可通过历史用户的行为信息与多输入潜在狄利克雷分布模型生成所述概率图模型。下面将对多输入潜在狄利克雷分布模型的基本理论进行描述：

图4、5分别是根据一示例性实施例示出的一种用户画像生成方法的示意图。在本申请中，单输入潜在狄利克雷分布可为LDA主题模型，将单输入的潜在狄利克雷分布的进行模型结构的扩展，例如，将输入信息定义为两种，或多种，即可生成多输入潜在狄利克雷分布模型。设单输入潜在狄利克雷分布中描述文档为D，某个物品描述信息i中的单词用w表示，K 表示物品描述信息中的文档主题数量，K可例如为用户预先设定的数值，K 的取值范围可为(1,100)，K的取值为正整数。

图4为单输入潜在狄利克雷分布构成的概率图模型，下面对单输入潜在狄利克雷分布构成的概率图模型中参数说明：

1、α和β分别是Dirichlet分布(狄利克雷分布)的模型超参数，用来产生θ和φ；狄利克雷分布是一组连续多变量的概率分布，是多变量普遍化的Β(贝塔)分布，贝塔分布是指一组定义在(0,1)区间的连续概率分布。狄利克雷分布常作为贝叶斯统计的先验概率。当狄利克雷分布维度趋向无限时，便成为狄利克雷过程(Dirichlet process)；

2、θ～Dir(α)是每个物品描述信息在K个主题下的概率分布；

3、φ～Dir(β)是每个主题下文档主题向量的概率分布，体现为K*V 的矩阵，|V|为关键词数量；

4、Dirichelt和Multinormal(多维正态分布)是共轭的；

5、α控制着θ的均值和Multinomial稀疏度。

单输入潜在狄利克雷分布假设某个描述文档D中的物品描述信息都是由K个主题构成的。每个主题k下，都有各自产生每一个关键词的维度为|V|的概率分布向量，其中|V|为关键词的总数。例如，在音乐主题下，钢琴和小提琴，演奏家这类词产生的概率会比较大，而在体育主题下，足球、篮球、姚明等词产生的概率会比较大。

单输入潜在狄利克雷分布的概率图模型可以形象的解释为如下过程，人在撰写某一篇文档的时候，首先会从以α为参数的Dirichlet分布抽取K维的主题分布向量θ，在撰写文档中每一个单词w的时候，作者都会在以θ为参数的多项分布中抽取一个主题k，再依据关键词在主题k下出现的概率抽取关键词w来表达该主题。若文章有N个关键词，则需重复上述关键词抽取过程N次，最终生成整篇文章。

公式(1)为单输入潜在狄利克雷分布(LDA)对应一篇文档的联合概率分布函数，对隐变量θ和z进行积分，并将每个文档的概率相乘，可得到公式 (2)，p(W|α,β)表示文档集出现的总概率。依据最大似然估计，只需要在保证p(D|α,β)概率最大的情况下，求解单输入潜在狄利克雷分布的模型参数即可。利用吉布斯抽样或者EM算法可对LDA中的隐变量z,θ进行求解，进而求得关键词在各主题下的概率分布矩阵φ。其中，EM算法指的是最大期望算法(Expectation Maximization Algorithm，又叫期望最大化算法)，是一种迭代算法，在统计学中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

对应到用户画像业务场景上，为得到用户兴趣表达，可通过增加输入的方式，使得单输入潜在狄利克雷分布转化为多输入潜在狄利克雷分布模型，以分别从用户和从物品侧出发，确定用户画像。

首先，为用户生成物品集合与描述文档：

1)描述文档囊括该用户所有产生行为物品的相关信息。

2)物品集合直接为用户所有产生行为的物品的ID。

然后，从物品侧出发，基于多输入潜在狄利克雷分布模型，每个物品将得到一个K维的主题向量，再将用户产生行为的物品的主题向量进行叠加来表达用户。

根据以上的模型分析，如图5所示，在本申请实施例中，为使用户行为信息及物品的描述信息同时对用户画像构建产生影响，在单输入潜在狄利克雷分布的基础上进行扩展，图5为扩展之后的BC-LDA(Behavior Content Topic Model，多输入潜在狄利克雷分布模型)的概率图模型，改进后的主题模型可同时接受行为和文本双向输入，可例如，通过多输入潜在狄利克雷分布模型的第一层模型结构生成对应于所述第一文档主题向量的文档主题矩阵；通过多输入潜在狄利克雷分布模型的第二层模型结构生成对应于所述第一物品主题向量的物品主题矩阵；以及根据所述文档主题矩阵、所述物品主题矩阵生成所述概率图模型。经过训练，将得到相同主题空间下，用户，物品及关键词层面的主题向量。

图5中上半部分的参数说明和单输入潜在狄利克雷分布的一致，下面给出下半部分的参数说明：

1、t为用户产生行为的物品；

2、每一个用户产生行为的物品t将对应一个主题c；

3、每个主题下物品的概率分布，K*|I|的矩阵，|I|为物品的数量。

通过将用户产生行为的物品描述进行叠加，可生成用户的描述文档，该过程与从用户侧出发的方案一相同，在此基础上，BC-LDA假设用户对物品产生行为经历了如下过程：

1、类似LDA，为用户描述文本上的每一个关键词w都产生一个z；

2、用户在对物品产生行为前，首先会从描述文本主题向量Z_u上等概率抽取一个主题c；

3、从c对应的物品概率分布向量上抽取物品t产生行为；

4、如果用户对M个物品产生了行为，则重复b-c步骤M次。

BC-LDA的概率图模型可形式化表示为以下概率函数：

p(W,T,Z,C,Θ|α,β,γ)＝p(Z|Θ)p(Θ|α)p(W|Z,β)p(T|C,γ)p(C|Z) (3)

图6是根据另一示例性实施例示出的一种用户画像生成方法的流程图。用户画像生成方法的流程60示例性的描述了“通过历史用户的行为信息与多输入潜在狄利克雷分布模型生成所述概率图模型”的过程。

在S602中，通过一个或多个行为信息生成物品集合组。

在S604中，通过一个或多个物品描述信息生成描述文档组。

在S606中，将所述物品集合组与所述描述文档组输入多输入潜在狄利克雷分布模型，以获取第一文档主题向量与第一物品主题向量。

在一个实施例中，通过多输入潜在狄利克雷分布模型的第一层模型结构生成对应于所述第一文档主题向量的文档主题矩阵；还可例如，通过多输入潜在狄利克雷分布模型的第二层模型结构生成对应于所述第一物品主题向量的物品主题矩阵；以及根据所述文档主题矩阵、所述物品主题矩阵生成所述概率图模型。

在S608中，通过吉布斯(Gibbs)抽样对所述第一文档主题向量与所述第一物品主题向量进行迭代抽样计算。其中，吉布斯是一种的采样技术，吉布斯采样是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法，用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。该序列可用于近似联合分布、部分变量的边缘分布或计算积分。

在S610中，在迭代抽样计算满足条件时，通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型。包括：获取当前的多输入潜在狄利克雷分布模型的文档主题矩阵与物品主题矩阵，以及模型主题数量；以及通过所述文档主题矩阵、所述物品主题矩阵、所述模型主题数量与多输入潜在狄利克雷分布模型的模型结构生成所述概率图模型。

其中，可例如，在迭代抽样计算中第一阈值满足条件时，确定多输入潜在狄利克雷分布模型的相关参数以作为概率图模型。其中，在一个实施例中第一阈值可为perplexity(困惑度)，perplexity是用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较本申请实施例中文档主题向量Λ和物品主题分布矩阵φ两个概率分布或概率模型。在本申请实施例中，可认为低困惑度的概率分布模型能更好地对用户行为数据进行预测，获得更好的预测样本。

在一个实施例中，多输入潜在狄利克雷分布模型的输入可例如为两个数据集，分别为如上文所述的通过用户行为信息中的物品操作信息生成的物品集合组，以及物品描述信息生成的描述文档组。根据两个数据集确定的概率图模型可为双层狄利克雷分布结构，具体结构可如图5所示。

为了使得具有双层狄利克雷分布结构的概率图模型进行后续的计算，需要所述文档主题矩阵、所述物品主题矩阵与所述模型主题数量作为双层狄利克雷分布结构的概率图模型的计算参数。其中，通过吉布斯(Gibbs)抽样对两个数据集输入之后所产生的第一文档主题向量与第一物品主题向量进行迭代抽样计算，在吉布斯抽样计算中，可将困惑度满足条件时的所述文档主题矩阵、所述物品主题矩阵与所述模型主题数量作为双层狄利克雷分布结构的概率图模型的参数。

在后续的计算过程中，将当前用户的行为信息输入具有确定的文档主题矩阵、确定的物品主题矩阵与确定的模型主题数量的双层狄利克雷分布结构的概率图模型中，以获取当前用户对应的文档主题向量与物品主题向量。

图7是根据另一示例性实施例示出的一种用户画像生成方法的流程图。用户画像生成方法的流程70示例性的描述了“将所述物品集合与所述描述文档输入概率图模型中以确定文档主题向量与物品主题向量”的过程。

在S702中，根据所述物品集合确定关键物品，根据所述描述文档确定关键词。

在一个实施例中，根据所述物品集合与所述描述文档确定关键词(可为一个或多个或预定数量个)与的关键物品(可为一个或多个或预定数量个)包括：根据所述主题数量k通过所述描述文档与所述文档主题矩阵Λ确定关键词；以及根据所述主题数量通过所述物品集合与所述物品主题矩阵φ确定关键物品。

其中，可例如通过关键词在所述文档主题矩阵中出现的概率来依次确定k个关键词。可例如，k为50，共有100个可供选择的关键词，依次计算100个可供选择的关键词在文档主题矩阵中出现的概率，在计算之后，按照可供选择的关键词出现概率的大小依次排序，由大致小的依次选取出 50个待选关键词作为该次计算过程中的关键词。

其中，k个关键物品的选择过程与k个关键词的选择过程相同，本申请在此不再赘述。

在S704中，至少通过所述关键词、关键物品构建概率函数。在上文中多输入潜在狄利克雷分布模型中文档主题向量Λ和物品主题分布矩阵的求解上，可通过吉布斯抽样分别对模型假设的两组隐变量、关键词的主题z 和物品的主题c进行迭代抽样，在迭代抽样计算中当第一阈值满足条件时，通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型。

在S706中，将关键词及其对应的分布函数，关键物品及其对应的分布函数代入所述概率函数中。

在公式(3)的基础上，将各个因子的分布函数代入，经过推导后的抽样用户u的关键词和物品主题的概率公式分别如下：

参数说明：

·Z_j：用户u描述文档中第j个关键词的主题。

·c_i：用户u产生行为的物品列表中，第i个物品的主题。

·|V|：关键词字典中关键词的总数量。

·|I|：物品字典中物品的总数量。

·N_ku\j：用户u描述文档中，剔除第j个关键词，属于第k个主题的关键词数量。

·w_j对应的关键词中，剔除w_j对应的主题属于第k个主题的计数。

·N_u：用户u描述文档中，关键词的总数量。

·M_ku：用户d产生行为的物品列表中，属于第k个主题的物品总数。

·t_i对应的物品中，剔除t_i对应的主题属于第k个主题计数。

·M_k\i：剔除当前抽样的i外，属于第k个主题的物品总数。

在S708中，求解所述概率函数，确定文档主题向量与物品主题向量。

在一个实施例中，求解所述概率函数以确定文档主题向量与物品主题向量包括：通过吉布斯抽样对所述概率函数中的文档主题向量T_d和物品主题向量T_t进行迭代抽样计算；以及在所述迭代抽样计算收敛时，确定所述文档主题向量与所述物品主题向量。

公式(4)(5)描述的抽样过程，可看出物品及单词的主题Gibbs抽样相互影响。用户u描述文档中单词j属于主题k的概率受用户对应的物品列表中属于主题k的物品数量M_ku的影响，属于主题k的物品数量越多，单词j 属于k的概率越大。同理，用户的物品列表中物品i属于主题k的概率受用户描述文档中属于主题k的关键词数量N_kd影响，属于主题k的单词数量越多，则物品i属于k的概率越大。

图8是根据另一示例性实施例示出的一种用户画像生成方法的流程图。用户画像生成方法80示例性的描述了用户画像中多输入潜在狄利克雷分布模型与实时用户画像确定的过程。

在S802中，获取物品描述信息。

在S804中，获取用户购买日志。

在S806中，生成用户三元组数据。

在S808中，BC-LDA模型训练。

在S810中，确定BC-LDA模型。

在S812中，用户三元组数据入库。

在S814中，用户画像构建。

在S816中，储存至用户画像数据库。

具体来说，假设在电商场景下通过BC-LDA生成用户画像。首先从后台获取用户购买物品的日志及物品的描述信息。对于每个用户u，将该用户购买过的物品对应的描述信息拼接起来并分词，作为该用户的兴趣描述文档d_u，将用户购买过的物品集合定义为t_u，将每个用户表达为三元组(u, d_u,t_u)。

模型主题数量设置为K，通过用户三元组集合进行训练，得到文档主题矩阵Λ和物品主题矩阵φ。每个关键词和物品，分别在Λ矩阵及φ矩阵中被表达为K维主题分布向量。

得到多输入潜在狄利克雷分布模型参数Λ和φ后，确定该参数下的多输入潜在狄利克雷分布模型为本实施例中的概率图模型。将用户三元组输入到模型中，利用Gibbs抽样获得用户文档主题分布向量及用户购买物品集合主题向量,进而最终生成用户兴趣向量。

在一个实施例中，用户A通过在线商店购买多个产品，可分别为体育用品B，生活用品C，学习用户D等。可通过A购买的产品生成物品集合文档，物品集合文档可为{B，C，D}，可通过B，C，D的描述信息生成描述文档。

具体描述文档的生成过程可例如：在线上获取B，C，D的描述信息，可例如包括B：{XX品牌的篮球鞋}，C：{XX品牌矿泉水一箱}，D：{蓝色黑色签字笔各一盒}。描述信息可例如包括产品的使用方法、产品特征、外观、颜色、以及价格等等信息。

将B，C，D的描述信息进行拼接以生成物品描述信息：{XX品牌的篮球鞋，YY品牌矿泉水一箱，蓝色黑色签字笔各一盒}，对物品描述信息进行分词处理，以生成描述文档：{XX，篮球鞋，YY，矿泉水，一箱，蓝色，黑色，签字笔，一盒}。

将物品集合{B，C，D}与生成描述文档{XX，篮球鞋，YY，矿泉水，一箱，蓝色，黑色，签字笔，一盒}输入如上文所述的概率图模型中，该概率图模型具有确定的各项参数(例如：确定的文档主题矩阵、确定的物品主题矩阵与确定的模型主题数量)，通过所述概率图模型逆推计算文档主题向量与物品主题向量。然后利用文档主题向量与物品主题向量确定用户 A的画像。

根据本公开的用户画像生成方法，能够提高兴趣对用户的覆盖率，以及提高用户画像精准度。

根据本公开的用户画像生成方法，抽取60000个用户的安装app列表信息，包含8677个app，其中5003个app拥有描述信息，设置topic数量为80个。根据本公开的用户画像生成方法，在通过概率图模型对物品操作信息与物品描述信息的计算过程中，通过物品操作信息与物品描述信息的相互验证，还能为缺失描述的应用确定主题词，下表为部分主题中单词和App的情况。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图9是根据一示例性实施例示出的一种用户画像生成装置的框图。用户画像生成装置90包括：信息模块902，物品集合模块904，描述文档模块906，向量模块908，以及用户画像模块910。

信息模块902用于获取用户的行为信息，所述行为信息包括物品操作信息与物品描述信息；用户的行为信息可包括：用户在终端设备中进行常规的使用操作，使用操作可包括网络浏览，在应用商店中购买应用，并应用下载，使用应用完成预定功能等等。用户的行为信息还可包括上述行为的时间、上述行为的频率等等。

物品集合模块904用于通过物品操作信息生成物品集合；。可包括：由物品购买日志中提取物品操作信息；以及由物品操作信息中的已购买的物品生成所述物品集合。

描述文档模块906用于通过物品描述信息生成描述文档；可包括：获取多个物品对应的多个描述信息；将所述多个描述信息进行拼接生成所述物品描述信息；以及将所述物品进行进行分词处理以生成所述描述文档。

向量模块908用于将所述物品集合与所述描述文档输入概率图模型中，以通过所述概率图模型逆推计算文档主题向量与物品主题向量；可包括：根据所述物品集合与所述描述文档确定关键词(可为一个或多个或预定数量个)与关键物品(可为一个或多个或预定数量个)；基于所述概率图模型通过关键词，关键物品构建概率函数；以及求解所述概率函数以确定文档主题向量与物品主题向量。

用户画像模块910用于通过文档主题向量与物品主题向量生成所述用户的用户画像。通过文档主题向量Λ和物品主题向量φ，最终生成用户兴趣向量，可用用户兴趣向量来对用户画像进行描述。

根据本公开的用户画像生成装置，通过将物品集合与所述描述文档输入概率图模型中，以确定文档主题向量与物品主题向量的方式，能够从物品自身信息以及用户行为信息两个方面对用户的特征进行描述，能够提高物品描述信息在用户画像中的覆盖率，提升用户画像精度。

图10是根据另一示例性实施例示出的一种用户画像生成装置的框图。用户画像生成装置100在用户画像生成装置90的基础上还包括：模型训练模块1002。

模型训练模块1002用于通过历史用户的行为信息与多输入潜在狄利克雷分布模型生成所述概率图模型。

图11是根据一示例性实施例示出的一种电子设备的框图。

下面参照图11来描述根据本公开的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备 1100的组件可以包括但不限于：至少一个处理单元1110、至少一个存储单元1120、连接不同***组件(包括存储单元1120和处理单元1110)的总线1130、显示单元1140等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1110执行，使得所述处理单元1110执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1110可以执行如图3，图6，图7，以及图8中所示的步骤。

所述存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203。

所述存储单元1120还可以包括具有一组(至少一个)程序模块11205 的程序/实用工具11204，这样的程序模块11205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1100’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子设备1100 还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1160可以通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID ***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件物品的形式体现出来，该软件物品可以存储在一个非易失性存储介质(可以是CD-ROM， U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图12示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图12所示，描述了根据本公开的实施方式的用于实现上述方法的程序物品1200，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序物品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序物品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取用户的行为信息，所述行为信息包括物品操作信息与物品描述信息；通过物品操作信息生成物品集合；通过物品描述信息生成描述文档；将所述物品集合与所述描述文档输入概率图模型中以确定文档主题向量与物品主题向量；以及通过文档主题向量与物品主题向量生成所述用户的用户画像。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件物品的形式体现出来，该软件物品可以存储在一个非易失性存储介质(可以是CD-ROM， U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用户画像生成方法，其特征在于，包括：

获取用户的行为信息和/或行为对应的物品描述信息；

通过行为信息生成物品集合；

通过物品描述信息生成描述文档；

将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型计算文档主题向量和/或物品主题向量；以及

通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

2.如权利要求1所述的方法，其特征在于，还包括：

根据一个或多个用户的行为信息和/或对应的物品描述信息，通过多输入潜在狄利克雷分布模型而生成所述概率图模型，所述多输入潜在狄利克雷分布模型的输入为多个数据集。

3.如权利要求2所述的方法，其特征在于，根据一个或多个用户的行为信息和/或对应的物品描述信息，通过多输入潜在狄利克雷分布模型而生成所述概率图模型包括：

通过一个或多个行为信息生成物品集合组；

通过一个或多个物品描述信息生成描述文档组；以及

通过所述物品集合组与所述描述文档组，训练所述多输入潜在狄利克雷分布模型，以生成所述概率图模型。

4.如权利要求3所述的方法，其特征在于，通过所述物品集合组与所述描述文档组训练所述多输入潜在狄利克雷分布模型以生成所述概率图模型包括：

将所述物品集合组与所述描述文档组输入多输入潜在狄利克雷分布模型，以获取第一文档主题向量与第一物品主题向量；

通过吉布斯抽样对所述第一文档主题向量与所述第一物品主题向量进行迭代抽样计算；以及

在迭代抽样计算满足条件时，通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型。

5.如权利要求4所述的方法，其特征在于，通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型包括：

通过多输入潜在狄利克雷分布模型的第一层模型结构生成对应于所述第一文档主题向量的文档主题矩阵；

通过多输入潜在狄利克雷分布模型的第二层模型结构生成对应于所述第一物品主题向量的物品主题矩阵；以及

根据所述文档主题矩阵、所述物品主题矩阵生成所述概率图模型。

6.如权利要求1所述的方法，其特征在于，将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型计算文档主题向量和/或物品主题向量包括：

根据所述物品集合确定关键物品，根据所述描述文档确定关键词；

至少通过所述关键词、所述关键物品构建概率函数；以及

将所述关键词及其对应的分布函数，所述关键物品及其对应的分布函数代入所述概率函数中；

求解所述概率函数确定文档主题向量与物品主题向量。

7.如权利要求6所述的方法，其特征在于，根据所述物品集合确定关键物品，根据所述描述文档确定关键词包括：

根据所述描述文档与文档主题矩阵确定关键词；以及

根据所述关键词通过所述物品集合与物品主题矩阵确定关键物品。

8.如权利要求7所述的方法，其特征在于，根据所述描述文档与所述文档主题矩阵确定关键词包括：

根据所述文档主题矩阵中的每一个主题的概率分布提取所述关键词。

9.如权利要求7所述的方法，其特征在于，根据所述关键词通过所述物品集合与所述物品主题矩阵确定关键物品包括：

根据所述关键词确定抽取主题词；以及

根据所述抽取主题词在所述物品集合中按照所述物品主题矩阵中的每一个关键物品的概率分布提取关键物品。

10.如权利要求6所述的方法，其特征在于，求解所述概率函数确定文档主题向量与物品主题向量包括：

通过吉布斯抽样对所述概率函数中的文档主题向量与物品主题向量进行迭代抽样计算；以及

在所述迭代抽样计算收敛时，确定所述文档主题向量与所述物品主题向量。

11.如权利要求1所述的方法，其特征在于，通过物品描述信息生成描述文档包括：

获取多个物品对应的多个描述信息；

将所述多个描述信息进行拼接生成所述物品描述信息；以及

将所述物品描述信息进行分词处理以生成所述描述文档。

12.一种用户画像生成装置，其特征在于，包括：

信息模块，用于获取用户的行为信息和/或行为对应的物品描述信息；

物品集合模块，用于通过物品操作信息生成物品集合；

描述文档模块，用于通过物品描述信息生成描述文档；

向量模块，用于将所述物品集合和/或所述描述文档输入概率图模型中，以通过所述概率图模型计算文档主题向量和/或物品主题向量；以及

用户画像模块，用于通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。