CN110517069A - 一种多模态的用户画像方法及*** - Google Patents
一种多模态的用户画像方法及*** Download PDFInfo
- Publication number
- CN110517069A CN110517069A CN201910751330.7A CN201910751330A CN110517069A CN 110517069 A CN110517069 A CN 110517069A CN 201910751330 A CN201910751330 A CN 201910751330A CN 110517069 A CN110517069 A CN 110517069A
- Authority
- CN
- China
- Prior art keywords
- user
- knowledge point
- feedback
- portrait
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明利用计算机技术进行用户画像,提出一种多模态的用户画像方法。现有大多数用户画像方法仅利用单模态的用户数据进行用户画像,而实际应用中,用户数据往往是多模态的,现有方法对如何利用多模态用户数据进行用户画像的研究还不足。另外,用户画像的构建需要适应实际的业务需求,从而帮助应用实现个性化的精准服务。本发明对python学习***中的用户进行画像,预测用户对不同知识点的掌握情况,从而针对用户薄弱知识点进行题目推荐,全面提高用户对python的应用能力。具体地,本发明利用用户的显式反馈、隐式反馈和邻居关系数据,实现多模态的用户画像。
Description
技术领域
本发明利用计算机技术进行用户画像,具体是一种利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像的方法及***。
背景技术
互联网技术的高速发展,使得获取海量用户数据成为可能。用户画像旨在从各种用户相关数据中挖掘和抽取用户典型特征进行区分,简单来说,就是用户信息标签化。完备且准确的“标签化”的用户模型作为底层数据基础,将有力揭示用户本质特征,从而极大地促进上层的个性化服务,如精准营销、智能推荐、信息检索等。建立用户画像的数据,主要包括静态数据和动态数据两个方面,前者包含用户的性别、年龄、职业等属性信息,后者一般是用户的行为数据,如用户的点击、浏览、购买等访问日志记录。用户画像的一个重要环节是从用户数据中抽取重要特征进行标签化,用户画像由一个个标签组成,每个标签代表用户的一个属性特征。
大数据背景下,推荐***将用户的喜好和特征建模为用户画像,如推荐领域中常见的评分矩阵、直接根据用户行为学习到的嵌入向量等,然后利用计算机技术从海量物品中筛选出用户可能喜好的物品推荐给用户,以满足用户的个性化信息需求。例如新闻类或阅读类应用,根据用户的喜好不同,展现不同的内容;给一个用户画像是“美妆达人”的用户,应多向其推送一些面膜护肤之类的产品,而给一个“美食博主”更可能推荐一些美食。
在推荐***中,利用计算机技术进行用户画像,就是得到用户的向量化表示,主要包括三种:第一,直接将用户的属性信息等作为用户画像;第二,对大量数据进行统计分析,得到用户的兴趣标签、社交关系等画像数据;第三,通过机器学习得到嵌入向量。其中,前两种向量表示具有稀疏性,但捕捉了显而易见的用户特征,具有较好的解释性,可用于给出推荐理由,而第三种稠密的嵌入向量能学习到更多用户的隐藏特征,但解释性较差。实际应用中,应从实际的业务场景出发,选择合适的用户画像构建方法。
本发明主要应用于python学习***中的题目推荐,旨在预测用户对python中包含的各种知识点的掌握程度,从而针对用户薄弱知识点进行题目推荐,全面提高用户对python这门程序设计语言的应用能力。本发明中,用户对知识点的掌握程度通过用户在知识点上的正确率来衡量。由于人工标注的题目知识点的稀疏性,对用户历史数据进行统计分析得到的正确率向量非常稀疏,直接将其作为用户画像难以促进后续的题目推荐任务,因此需要对用户的正确率向量进行补全。针对特定的业务场景和数据特点,本发明利用统计分析和嵌入向量进行用户画像。为了克服用户交互矩阵的稀疏性,本发明综合利用用户显式反馈、隐式反馈和邻居关系实现多模态的用户画像。
发明内容
本发明的目的在于预测python学习***中的用户对python中包含的各种知识点的掌握情况,从而针对用户薄弱知识点进行题目推荐。
为实现本发明的目的,本发明提出一种综合利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像的方法及***。该发明的多模态用户画像方法主要包括以下步骤:
步骤1:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
步骤4:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
步骤5:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
所述步骤1是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
所述步骤2是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
所述步骤3是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
所述步骤4是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
所述步骤5是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本方法实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本方法的损失函数如下:
其中,是正则项,防止模型过拟合。
该发明的多模态用户画像***主要包括以下模块:
用户信息收集模块:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
编码模块:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
表示模块:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
画像模块:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
所述用户信息收集模块是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
所述编码模块是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
所述表示模块是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
所述画像模块是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本***实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本***的损失函数如下:
其中,是正则项,防止模型过拟合。
附图说明
附件“说明书附图.pdf”中,图1为本发明的多模态的用户画像方法流程图。
具体实施方式
为实现本发明的目的,本发明提出一种综合利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像的方法及***。该发明的多模态用户画像方法主要包括以下步骤:
步骤1:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
步骤4:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
步骤5:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
所述步骤1是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
所述步骤2是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
所述步骤3是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
所述步骤4是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
所述步骤5是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本方法实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本方法的损失函数如下:
其中,是正则项,防止模型过拟合。
该发明的多模态用户画像***主要包括以下模块:
用户信息收集模块:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
编码模块:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
表示模块:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
画像模块:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
所述用户信息收集模块是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
所述编码模块是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
所述表示模块是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
所述画像模块是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本***实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本***的损失函数如下:
其中,是正则项,防止模型过拟合。
本发明实现了一种多模态的用户画像方法及***。本发明对python学习***中的用户进行画像,预测用户对不同知识点的掌握情况,从而可以针对用户薄弱知识点进行题目推荐,全面提高用户对python的应用能力。具体地,本发明利用用户的显式反馈、隐式反馈和邻居关系数据,实现多模态的用户画像。
Claims (12)
1.一种多模态的用户画像方法,其特征在于包括以下步骤:
步骤1:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
步骤4:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
步骤5:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
2.根据权利要求1所述的一种多模态的用户画像方法,其特征在于:所述步骤1是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
3.根据权利要求1所述的一种多模态的用户画像方法,其特征在于:所述步骤2是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
4.根据权利要求1所述的一种多模态的用户画像方法,其特征在于:所述步骤3是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
5.根据权利要求1所述的一种多模态的用户画像方法,其特征在于:所述步骤4是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
6.根据权利要求1所述的一种多模态的用户画像方法,其特征在于:所述步骤5是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本方法实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本发明的损失函数如下:
其中,是正则项,防止模型过拟合。
7.一种多模态的用户画像***,其特征在于包括以下模块:
用户信息收集模块:收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
编码模块:利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;
表示模块:利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示;
画像模块:基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度。
8.根据权利要求7所述的一种多模态的用户画像***,其特征在于:所述用户信息收集模块是收集用户的历史做题数据,根据用户做题结果和题目画像得到用户的显式反馈、隐式反馈;同时根据是否做过相同题目,构建用户的邻居关系,具体方法如下:对于用户集合U,其大小为n,表示n个用户;题目知识点集合I,其大小为m,表示m个知识点;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;对用户的显式反馈和隐式反馈进行统计分析,得到用户在知识点上的正确率和点击率的画像,步骤如下:
a1.定义两个n行m列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点i上的正确率aui计算方式为:用户在知识点i上做对的题目数占用户在该知识点上做题总数的百分比;用户u在标签i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;这里的题目画像由人工标注的知识点构成;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
由于人工标注的不完整和有限的用户做题记录,a1中得到的正确率矩阵A非常稀疏,本发明旨在利用用户的隐式反馈和邻居关系数据帮助预测用户在各个知识点上正确率,其反映了用户对各个知识点的掌握程度。
9.根据权利要求7所述的一种多模态的用户画像***,其特征在于:所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对每个用户,随机选择20%的知识点正确率数据作为测试集,用剩余的知识点正确率数据进行训练。
10.根据权利要求7所述的一种多模态的用户画像***,其特征在于:所述编码模块是利用神经网络分别编码用户的显式反馈和隐式反馈,得到两种不同的用户隐表示;具体过程如下:
b1.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示计算如下:
其中,Wau∈Rm*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b2.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示计算如下:
其中,Wah∈Rm*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量。
11.根据权利要求7所述的一种多模态的用户画像***,其特征在于:所述表示模块是利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,具体方法为:学习一个神经门层自适应地合并两种隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和的计算如下:
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
12.根据权利要求7所述的一种多模态的用户画像***,其特征在于:所述画像模块是基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示和用户的邻居隐表示进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
c3.综上,本***实际上基于一个自编码器模型,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化模型参数,本***的损失函数如下:
其中,是正则项,防止模型过拟合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751330.7A CN110517069A (zh) | 2019-08-15 | 2019-08-15 | 一种多模态的用户画像方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751330.7A CN110517069A (zh) | 2019-08-15 | 2019-08-15 | 一种多模态的用户画像方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110517069A true CN110517069A (zh) | 2019-11-29 |
Family
ID=68626009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910751330.7A Pending CN110517069A (zh) | 2019-08-15 | 2019-08-15 | 一种多模态的用户画像方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517069A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541538A (zh) * | 2023-07-06 | 2023-08-04 | 广东信聚丰科技股份有限公司 | 基于大数据的智慧学习知识点挖掘方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160357845A1 (en) * | 2014-04-29 | 2016-12-08 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium |
CN108563686A (zh) * | 2018-03-14 | 2018-09-21 | 中国科学院自动化研究所 | 基于混合神经网络的社交网络谣言识别方法及*** |
CN108959603A (zh) * | 2018-07-13 | 2018-12-07 | 北京印刷学院 | 基于深度神经网络的个性化推荐***及方法 |
CN110059262A (zh) * | 2019-04-19 | 2019-07-26 | 武汉大学 | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 |
CN110097225A (zh) * | 2019-05-05 | 2019-08-06 | 中国科学技术大学 | 基于动静态深度表征的协同预测方法 |
-
2019
- 2019-08-15 CN CN201910751330.7A patent/CN110517069A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160357845A1 (en) * | 2014-04-29 | 2016-12-08 | Tencent Technology (Shenzhen) Company Limited | Method and Apparatus for Classifying Object Based on Social Networking Service, and Storage Medium |
CN108563686A (zh) * | 2018-03-14 | 2018-09-21 | 中国科学院自动化研究所 | 基于混合神经网络的社交网络谣言识别方法及*** |
CN108959603A (zh) * | 2018-07-13 | 2018-12-07 | 北京印刷学院 | 基于深度神经网络的个性化推荐***及方法 |
CN110059262A (zh) * | 2019-04-19 | 2019-07-26 | 武汉大学 | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 |
CN110097225A (zh) * | 2019-05-05 | 2019-08-06 | 中国科学技术大学 | 基于动静态深度表征的协同预测方法 |
Non-Patent Citations (3)
Title |
---|
CHENMA,ET AL.: "Gated Attentive-Autoencoder for Content-Aware Recommendation", 《WSDM "19: PROCEEDINGS OF THE TWELFTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING,HTTPS://DOI.ORG/10.1145/3289600.3290977》 * |
王立 等: "基于LSTM的POI个性化推荐框架", 《计算机***应用》 * |
谢恩宁 等: "基于注意力机制的深度协同过滤模型", 《中国计量大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541538A (zh) * | 2023-07-06 | 2023-08-04 | 广东信聚丰科技股份有限公司 | 基于大数据的智慧学习知识点挖掘方法及*** |
CN116541538B (zh) * | 2023-07-06 | 2023-09-01 | 广东信聚丰科技股份有限公司 | 基于大数据的智慧学习知识点挖掘方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021203819A1 (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及*** | |
CN108647251B (zh) | 基于宽深度门循环联合模型的推荐排序方法 | |
CN111209386B (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN111859160B (zh) | 一种基于图神经网络会话序列推荐方法及*** | |
Ameisen | Building Machine Learning Powered Applications: Going from Idea to Product | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN102004774A (zh) | 基于统一概率模型的个性化用户标签建模与推荐方法 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN110704510A (zh) | 一种结合用户画像的题目推荐方法及*** | |
CN104281634B (zh) | 一种基于邻居关系的移动用户基础属性预测方法 | |
CN108733669A (zh) | 一种基于词向量的个性化媒体内容推荐***及方法 | |
CN111221881B (zh) | 用户特征数据合成方法、装置及电子设备 | |
He et al. | Research on the influencing factors of film consumption and box office forecast in the digital era: based on the perspective of machine learning and model integration | |
CN117314593B (zh) | 一种基于用户行为分析的保险项目推送方法及*** | |
Al-Otaibi et al. | Finding influential users in social networking using sentiment analysis | |
CN110517069A (zh) | 一种多模态的用户画像方法及*** | |
CN114861079A (zh) | 一种融合商品特征的协同过滤推荐方法和*** | |
CN117112781A (zh) | 文本信息处理模型训练方法、装置、以及存储介质 | |
CN113362034A (zh) | 一种职位推荐方法 | |
CN111782964A (zh) | 一种社区帖子的推荐方法 | |
Liu et al. | Understanding Consumer Preferences---Eliciting Topics from Online Q&A Community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191129 |
|
WD01 | Invention patent application deemed withdrawn after publication |