CN110517069A

CN110517069A - 一种多模态的用户画像方法及***

Info

Publication number: CN110517069A
Application number: CN201910751330.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Current assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-29

Abstract

本发明利用计算机技术进行用户画像，提出一种多模态的用户画像方法。现有大多数用户画像方法仅利用单模态的用户数据进行用户画像，而实际应用中，用户数据往往是多模态的，现有方法对如何利用多模态用户数据进行用户画像的研究还不足。另外，用户画像的构建需要适应实际的业务需求，从而帮助应用实现个性化的精准服务。本发明对python学习***中的用户进行画像，预测用户对不同知识点的掌握情况，从而针对用户薄弱知识点进行题目推荐，全面提高用户对python的应用能力。具体地，本发明利用用户的显式反馈、隐式反馈和邻居关系数据，实现多模态的用户画像。

Description

一种多模态的用户画像方法及***

技术领域

本发明利用计算机技术进行用户画像，具体是一种利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像的方法及***。

背景技术

互联网技术的高速发展，使得获取海量用户数据成为可能。用户画像旨在从各种用户相关数据中挖掘和抽取用户典型特征进行区分，简单来说，就是用户信息标签化。完备且准确的“标签化”的用户模型作为底层数据基础，将有力揭示用户本质特征，从而极大地促进上层的个性化服务，如精准营销、智能推荐、信息检索等。建立用户画像的数据，主要包括静态数据和动态数据两个方面，前者包含用户的性别、年龄、职业等属性信息，后者一般是用户的行为数据，如用户的点击、浏览、购买等访问日志记录。用户画像的一个重要环节是从用户数据中抽取重要特征进行标签化，用户画像由一个个标签组成，每个标签代表用户的一个属性特征。

大数据背景下，推荐***将用户的喜好和特征建模为用户画像，如推荐领域中常见的评分矩阵、直接根据用户行为学习到的嵌入向量等，然后利用计算机技术从海量物品中筛选出用户可能喜好的物品推荐给用户，以满足用户的个性化信息需求。例如新闻类或阅读类应用，根据用户的喜好不同，展现不同的内容；给一个用户画像是“美妆达人”的用户，应多向其推送一些面膜护肤之类的产品，而给一个“美食博主”更可能推荐一些美食。

在推荐***中，利用计算机技术进行用户画像，就是得到用户的向量化表示，主要包括三种：第一，直接将用户的属性信息等作为用户画像；第二，对大量数据进行统计分析，得到用户的兴趣标签、社交关系等画像数据；第三，通过机器学习得到嵌入向量。其中，前两种向量表示具有稀疏性，但捕捉了显而易见的用户特征，具有较好的解释性，可用于给出推荐理由，而第三种稠密的嵌入向量能学习到更多用户的隐藏特征，但解释性较差。实际应用中，应从实际的业务场景出发，选择合适的用户画像构建方法。

本发明主要应用于python学习***中的题目推荐，旨在预测用户对python中包含的各种知识点的掌握程度，从而针对用户薄弱知识点进行题目推荐，全面提高用户对python这门程序设计语言的应用能力。本发明中，用户对知识点的掌握程度通过用户在知识点上的正确率来衡量。由于人工标注的题目知识点的稀疏性，对用户历史数据进行统计分析得到的正确率向量非常稀疏，直接将其作为用户画像难以促进后续的题目推荐任务，因此需要对用户的正确率向量进行补全。针对特定的业务场景和数据特点，本发明利用统计分析和嵌入向量进行用户画像。为了克服用户交互矩阵的稀疏性，本发明综合利用用户显式反馈、隐式反馈和邻居关系实现多模态的用户画像。

发明内容

本发明的目的在于预测python学习***中的用户对python中包含的各种知识点的掌握情况，从而针对用户薄弱知识点进行题目推荐。

为实现本发明的目的，本发明提出一种综合利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像的方法及***。该发明的多模态用户画像方法主要包括以下步骤：

步骤1：收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系；

步骤2：将数据集划分为训练集和测试集；

步骤3：利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；

步骤4：利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示；

步骤5：基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度。

所述步骤1是收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系，具体方法如下:对于用户集合U，其大小为n，表示n个用户；题目知识点集合I，其大小为m，表示m个知识点；根据用户做题结果，其中1表示做题正确，0表示做题错误，-1表示点击但没有做题，将做题结果为-1的历史记录作为隐式反馈，其余历史记录作为显式反馈；对用户的显式反馈和隐式反馈进行统计分析，得到用户在知识点上的正确率和点击率的画像，步骤如下：

a1.定义两个n行m列矩阵，分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H，矩阵元素分别为用户在知识点上的正确率和点击率，分别由用户的显式反馈和隐式反馈统计得到,具体地，用户u在知识点i上的正确率a_ui计算方式为：用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比；用户u在标签i上的点击率h_ui计算方式为：用户在知识点i上点击过的题目数占用户点击总数的百分比；这里的题目画像由人工标注的知识点构成；

a2.设置一个阈值，当两个用户做过相同题目的数量大于该值时，认为这两个用户是邻居，据此构建***中用户的邻居关系；由于人工标注的不完整和有限的用户做题记录，a1中得到的正确率矩阵A非常稀疏，本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率，其反映了用户对各个知识点的掌握程度。

所述步骤2是将数据集划分为训练集和测试集，具体方法为：对每个用户，随机选择20％的知识点正确率数据作为测试集，用剩余的知识点正确率数据进行训练。

所述步骤3是利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；具体过程如下：

b1.根据用户-知识点正确率矩阵A，对每个用户u,矩阵A的第u行代表该用户的显式反馈，表示为a_u；使用一个全连接网络对a_u进行编码，得到用户u在显式反馈上的隐表示计算如下：

其中，W_au∈R^m*d是待学习的网络参数，d是隐表示的维度，b_au∈R^d是偏置向量；

b2.根据用户-知识点点击率矩阵H，对每个用户u,矩阵H的第u行代表该用户的隐式反馈，表示为h_u；使用另一个全连接网络对h_u进行编码，得到用户u在隐式反馈上的隐表示计算如下：

其中，W_ah∈R^m*d是待学习的网络参数，d是隐表示的维度，b_hu∈R^d是偏置向量。

所述步骤4是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示，具体方法为：学习一个神经门层自适应地合并两种隐表示，这个神经门层用G来表示，融合后的用户隐表示用来表示，也可以看作一种稠密的用户画像，其中编码了用户的知识点正确率和点击率信息；G和的计算如下：

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

所述步骤5是基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度；具体过程如下：

c1.定义用户u的邻居集合为N_i，基于融合的用户隐表示计算用户对邻居的注意力得分，进而得到用户u在邻居关系上的隐表示，计算如下：

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码，将解码后的向量进行逐元素相加后，经过激活函数得到用户在各个标签上的正确率预测值，该值反映了用户对该标签的掌握程度；解码器实现如下：

c3.综上，本方法实际上基于一个自编码器模型，编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示，两种隐表示通过一个神经门结构进行融合后送入解码器，解码器在解码时，同时利用用户的邻居关系来重构用户的显式反馈，即用户在知识点上的正确率；通过最小化重构误差来优化模型参数，本方法的损失函数如下：

其中，是正则项，防止模型过拟合。

该发明的多模态用户画像***主要包括以下模块：

用户信息收集模块：收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系；

数据划分模块：将数据集划分为训练集和测试集；

编码模块：利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；

表示模块：利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示；

画像模块：基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度。

所述用户信息收集模块是收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系，具体方法如下:对于用户集合U，其大小为n，表示n个用户；题目知识点集合I，其大小为m，表示m个知识点；根据用户做题结果，其中1表示做题正确，0表示做题错误，-1表示点击但没有做题，将做题结果为-1的历史记录作为隐式反馈，其余历史记录作为显式反馈；对用户的显式反馈和隐式反馈进行统计分析，得到用户在知识点上的正确率和点击率的画像，步骤如下：

所述数据划分模块是将数据集划分为训练集和测试集，具体方法为：对每个用户，随机选择20％的知识点正确率数据作为测试集，用剩余的知识点正确率数据进行训练。

所述编码模块是利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；具体过程如下：

所述表示模块是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示，具体方法为：学习一个神经门层自适应地合并两种隐表示，这个神经门层用G来表示，融合后的用户隐表示用来表示，也可以看作一种稠密的用户画像，其中编码了用户的知识点正确率和点击率信息；G和的计算如下：

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

所述画像模块是基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度；具体过程如下：

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

c3.综上，本***实际上基于一个自编码器模型，编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示，两种隐表示通过一个神经门结构进行融合后送入解码器，解码器在解码时，同时利用用户的邻居关系来重构用户的显式反馈，即用户在知识点上的正确率；通过最小化重构误差来优化模型参数，本***的损失函数如下：

其中，是正则项，防止模型过拟合。

附图说明

附件“说明书附图.pdf”中，图1为本发明的多模态的用户画像方法流程图。

具体实施方式

步骤2：将数据集划分为训练集和测试集；

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

其中，是正则项，防止模型过拟合。

该发明的多模态用户画像***主要包括以下模块：

数据划分模块：将数据集划分为训练集和测试集；

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

其中，是正则项，防止模型过拟合。

本发明实现了一种多模态的用户画像方法及***。本发明对python学习***中的用户进行画像，预测用户对不同知识点的掌握情况，从而可以针对用户薄弱知识点进行题目推荐，全面提高用户对python的应用能力。具体地，本发明利用用户的显式反馈、隐式反馈和邻居关系数据，实现多模态的用户画像。

Claims

1.一种多模态的用户画像方法，其特征在于包括以下步骤：

步骤2：将数据集划分为训练集和测试集；

2.根据权利要求1所述的一种多模态的用户画像方法，其特征在于：所述步骤1是收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系，具体方法如下:对于用户集合U，其大小为n，表示n个用户；题目知识点集合I，其大小为m，表示m个知识点；根据用户做题结果，其中1表示做题正确，0表示做题错误，-1表示点击但没有做题，将做题结果为-1的历史记录作为隐式反馈，其余历史记录作为显式反馈；对用户的显式反馈和隐式反馈进行统计分析，得到用户在知识点上的正确率和点击率的画像，步骤如下：

a2.设置一个阈值，当两个用户做过相同题目的数量大于该值时，认为这两个用户是邻居，据此构建***中用户的邻居关系；

由于人工标注的不完整和有限的用户做题记录，a1中得到的正确率矩阵A非常稀疏，本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率，其反映了用户对各个知识点的掌握程度。

3.根据权利要求1所述的一种多模态的用户画像方法，其特征在于：所述步骤2是将数据集划分为训练集和测试集，具体方法为：对每个用户，随机选择20％的知识点正确率数据作为测试集，用剩余的知识点正确率数据进行训练。

4.根据权利要求1所述的一种多模态的用户画像方法，其特征在于：所述步骤3是利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；具体过程如下：

5.根据权利要求1所述的一种多模态的用户画像方法，其特征在于：所述步骤4是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示，具体方法为：学习一个神经门层自适应地合并两种隐表示，这个神经门层用G来表示，融合后的用户隐表示用来表示，也可以看作一种稠密的用户画像，其中编码了用户的知识点正确率和点击率信息；G和的计算如下：

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

6.根据权利要求1所述的一种多模态的用户画像方法，其特征在于：所述步骤5是基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度；具体过程如下：

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

c3.综上，本方法实际上基于一个自编码器模型，编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示，两种隐表示通过一个神经门结构进行融合后送入解码器，解码器在解码时，同时利用用户的邻居关系来重构用户的显式反馈，即用户在知识点上的正确率；通过最小化重构误差来优化模型参数，本发明的损失函数如下：

其中，是正则项，防止模型过拟合。

7.一种多模态的用户画像***，其特征在于包括以下模块：

数据划分模块：将数据集划分为训练集和测试集；

8.根据权利要求7所述的一种多模态的用户画像***，其特征在于：所述用户信息收集模块是收集用户的历史做题数据，根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈；同时根据是否做过相同题目，构建用户的邻居关系，具体方法如下:对于用户集合U，其大小为n，表示n个用户；题目知识点集合I，其大小为m，表示m个知识点；根据用户做题结果，其中1表示做题正确，0表示做题错误，-1表示点击但没有做题，将做题结果为-1的历史记录作为隐式反馈，其余历史记录作为显式反馈；对用户的显式反馈和隐式反馈进行统计分析，得到用户在知识点上的正确率和点击率的画像，步骤如下：

9.根据权利要求7所述的一种多模态的用户画像***，其特征在于：所述数据划分模块是将数据集划分为训练集和测试集，具体方法为：对每个用户，随机选择20％的知识点正确率数据作为测试集，用剩余的知识点正确率数据进行训练。

10.根据权利要求7所述的一种多模态的用户画像***，其特征在于：所述编码模块是利用神经网络分别编码用户的显式反馈和隐式反馈，得到两种不同的用户隐表示；具体过程如下：

11.根据权利要求7所述的一种多模态的用户画像***，其特征在于：所述表示模块是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示，具体方法为：学习一个神经门层自适应地合并两种隐表示，这个神经门层用G来表示，融合后的用户隐表示用来表示，也可以看作一种稠密的用户画像，其中编码了用户的知识点正确率和点击率信息；G和的计算如下：

其中，W_g1∈R^d*d,W_g2∈R^d*d,b_g∈R^d是门层的参数。

12.根据权利要求7所述的一种多模态的用户画像***，其特征在于：所述画像模块是基于融合的用户隐表示，利用用户的邻居关系，预测用户对不同知识点的掌握程度；具体过程如下：

a_u＝softmax(s_u) (6)

其中，W_n∈R^d*d是需要学习的参数,d是隐表示的维度；

其中，是正则项，防止模型过拟合。