CN110704510A - 一种结合用户画像的题目推荐方法及*** - Google Patents

一种结合用户画像的题目推荐方法及*** Download PDF

Info

Publication number
CN110704510A
CN110704510A CN201910965991.XA CN201910965991A CN110704510A CN 110704510 A CN110704510 A CN 110704510A CN 201910965991 A CN201910965991 A CN 201910965991A CN 110704510 A CN110704510 A CN 110704510A
Authority
CN
China
Prior art keywords
user
question
implicit
knowledge point
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910965991.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongsen Yunchain (chengdu) Technology Co Ltd
Original Assignee
Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongsen Yunchain (chengdu) Technology Co Ltd filed Critical Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority to CN201910965991.XA priority Critical patent/CN110704510A/zh
Publication of CN110704510A publication Critical patent/CN110704510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明利用计算机技术进行推荐,提出一种结合用户画像的题目推荐方法及***,目的是向用户推荐合适的题目,提高用户使用python在线编程***进行编程训练的效率,同时也能提高用户对该学习***的信任度,提升用户粘性。本发明首先对用户和题目进行画像和建模,然后基于隐因子模型实现一个个性化题目推荐模型。本发明在训练推荐模型的同时,优化用户画像模型,实现了一个多目标优化的推荐模型。用户画像模型得到用户在知识点上的正确率画像,作为推荐模型的额外输出,可以用作给出推荐的解释。

Description

一种结合用户画像的题目推荐方法及***
技术领域
本发明利用计算机技术进行个性化的题目推荐,具体是一种结合用户画像的题目推荐方法及***。
背景技术
随着计算机技术的成熟和各种程序设计语言的流行,各种在线编程评测***,简称OJ***,成为人们自主学习和练习编程、提高程序设计能力的主要途径。由于各大OJ***中各种类型的题目太多,普通用户在得到大量训练机会的同时,也面临着信息过载问题;此外由于自身编程能力的不足和编程经验的缺乏,导致其做题过于盲目,做不适合他们的题目,因此备受打击而过早的失去了自信。对于计算机专业的用户,比如ACM队员,在进行专题训练的时候,由于题目太多也面临着难以挑选出所需题目的问题,导致训练效率低下。推荐***能够在大量信息中筛选出合适的信息推荐给用户,以满足用户的信息需求,从而有效缓解信息过载问题。因此,在OJ***中使用一个恰当的推荐组件,针对用户当前训练需求推荐合适的题目,可以有效提高用户在OJ***中的学习效率,另一方面也能提高用户对 OJ***的信任度,提升用户粘性。
用户画像旨在从各种用户相关数据中挖掘和抽取用户典型特征进行区分,完备且准确的“标签化”的用户模型将有力揭示用户本质特征,从而极大地促进上层的个性化服务,如精准营销、智能推荐、信息检索等。
大数据背景下,推荐***将用户的喜好和特征建模为用户画像,如推荐领域中常见的评分矩阵、直接根据用户行为学习到的嵌入向量等,然后利用计算机技术从海量物品中筛选出用户可能喜好的物品推荐给用户,以满足用户的个性化信息需求。在推荐***中,利用计算机技术进行用户画像,就是得到用户的向量化表示,主要包括三种:第一,直接将用户的属性信息等作为用户画像;第二,对大量数据进行统计分析,得到用户的兴趣标签、社交关系等画像数据;第三,通过机器学习得到嵌入向量。其中,前两种向量表示稀疏但捕捉了显而易见的用户特征,具有较好的解释性,可用于给出推荐理由,而第三种稠密的嵌入向量能学习到更多用户的隐藏特征,但解释性较差。
本发明主要应用于python在线编程***中的题目推荐。本发明首先利用计算机技术根据用户做题历史记录和题目自身标签信息对用户和题目进行画像和建模,然后基于隐因子模型实现一个个性化题目推荐模型,旨在对用户进行个性化的题目推荐,被推荐的题目是预测用户得分较低的题目,从而促进用户对薄弱知识点的练习,全面提高用户对python这门程序设计语言的应用能力。针对特定的业务场景和数据特点,本发明利用统计分析和嵌入向量进行用户画像。为了克服用户交互矩阵的稀疏性,本发明综合利用用户显式反馈、隐式反馈和邻居关系实现多模态用户画像,同时得到隐含用户对知识点掌握能力的稠密画像向量,即用户隐表示;利用题目的标签信息和用户的显式反馈得到隐含知识点信息和题目在知识点上难易程度的稠密画像向量,即题目隐表达。之后利用基于潜因子模型的矩阵分解实现推荐模型。本发明在训练推荐模型的同时,优化多模态用户画像模型,实现了一个多目标优化的推荐模型。用户画像模型利用自编码器得到用户在知识点上的正确率向量,作为推荐模型的额外输出,可以用作给出推荐的解释,形如:用户在该知识点上正确率较低,因此推荐包含该知识点的题目。
发明内容
本发明的目的在于结合用户画像进行个性化的题目推荐,提高用户使用python在线编程***进行编程训练的效率,同时也能提高用户对该学习***的信任度,提升用户粘性。
为实现本发明的目的,本发明提出一种结合用户画像的题目推荐方法及***。该发明的一种结合用户画像的题目推荐方法主要包括以下步骤:
步骤1:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
步骤4:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
步骤5:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
所述步骤1是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
a1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为 m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
a3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
Figure BDA0002230486580000041
所述步骤2是将数据集划分为训练集和测试集,具体方法为:对步骤2得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
所述步骤3是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
b1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点 k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点k上的点击数占点击总数的百分比;
b2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵 A的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure BDA0002230486580000051
计算如下:
Figure BDA0002230486580000052
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵 H的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure BDA0002230486580000053
计算如下:
Figure BDA0002230486580000054
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
b4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用
Figure BDA0002230486580000055
来表示,
Figure BDA0002230486580000056
也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure BDA0002230486580000057
的计算如下:
Figure BDA0002230486580000058
Figure BDA0002230486580000061
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
b5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure BDA0002230486580000062
au=softmax(su) (6)
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示
Figure BDA0002230486580000064
和用户的邻居隐表示
Figure BDA0002230486580000065
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure BDA0002230486580000066
c3.综上,本发明基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
其中,
Figure BDA0002230486580000072
是正则项,防止模型过拟合;
c4.对b3、b4得到的两种用户隐表示
Figure BDA0002230486580000073
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
所述步骤4是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
d1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示
Figure BDA0002230486580000075
计算如下:
Figure BDA0002230486580000076
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
d2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示计算如下:
Figure BDA0002230486580000078
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
d3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
所述步骤5基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,对步骤4和步骤5得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量表示用户u对题目 i的得分,也可以理解为用户u做对题目i的概率,计算如下:
Figure BDA0002230486580000082
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D: D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure BDA0002230486580000083
至此,本发明提出的一种结合用户画像的题目推荐方法的完整目标函数如下:
L=min(LBC+LAE) (14)
该发明的一种结合用户画像的题目推荐***主要包括以下模块:
数据收集及预处理模块:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
用户表示模块:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
题目表示模块:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
分数预测及推荐模块:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
所述数据收集及预处理模块是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
e1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为 m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
e2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
e3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
Figure BDA0002230486580000091
所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对数据收集及预处理模块得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
所述用户表示模块是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
f1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点 k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;
f2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A 的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure BDA0002230486580000101
计算如下:
Figure BDA0002230486580000102
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
f3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H 的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure BDA0002230486580000103
计算如下:
Figure BDA0002230486580000111
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
f4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用
Figure BDA0002230486580000112
来表示,
Figure BDA0002230486580000113
也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure BDA0002230486580000114
的计算如下:
Figure BDA0002230486580000115
Figure BDA0002230486580000116
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
f5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
g1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure BDA0002230486580000117
au=softmax(su) (6)
Figure BDA0002230486580000118
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
g2.使用共享的解码器分别对融合的用户隐表示
Figure BDA0002230486580000119
和用户的邻居隐表示
Figure BDA00022304865800001110
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure BDA0002230486580000121
g3.综上,本***基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
Figure BDA0002230486580000122
其中,
Figure BDA0002230486580000123
是正则项,防止模型过拟合;
g4.对b3、b4得到的两种用户隐表示
Figure BDA0002230486580000124
Figure BDA0002230486580000125
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
所述题目表示模块是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
h1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示
Figure BDA0002230486580000126
计算如下:
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
h2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示
Figure BDA0002230486580000133
计算如下:
Figure BDA0002230486580000131
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
h3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
所述分数预测及推荐模块基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,将g4和h3得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量表示用户u对题目i的得分,也可以理解为用户u做对题目i的概率,计算如下:
Figure BDA0002230486580000132
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D: D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure BDA0002230486580000141
至此,本发明提出的一种结合用户画像的题目推荐***的目标函数如下:
L=min(LBC+LAE) (14)
附图说明
图1为本发明的结合用户画像的题目推荐方法流程图。
具体实施方式
为实现本发明的目的,本发明提出一种结合用户画像的题目推荐方法及***。该发明的一种结合用户画像的题目推荐方法主要包括以下步骤:
步骤1:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
步骤4:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
步骤5:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
所述步骤1是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
a1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为 m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
a3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
Figure BDA0002230486580000151
所述步骤2是将数据集划分为训练集和测试集,具体方法为:对步骤2得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
所述步骤3是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
b1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点k上的点击数占点击总数的百分比;
b2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵 A的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure BDA0002230486580000161
计算如下:
Figure BDA0002230486580000162
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵 H的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure BDA0002230486580000163
计算如下:
Figure BDA0002230486580000164
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
b4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用
Figure BDA0002230486580000165
来表示,
Figure BDA0002230486580000166
也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure BDA0002230486580000167
的计算如下:
Figure BDA0002230486580000169
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
b5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure BDA0002230486580000171
au=softmax(su) (6)
Figure BDA0002230486580000172
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示
Figure BDA0002230486580000173
和用户的邻居隐表示
Figure BDA0002230486580000174
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure BDA0002230486580000175
c3.综上,本发明基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
Figure BDA0002230486580000176
其中,
Figure BDA0002230486580000181
是正则项,防止模型过拟合;
c4.对b3、b4得到的两种用户隐表示
Figure BDA0002230486580000182
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
所述步骤4是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
d1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示计算如下:
Figure BDA0002230486580000185
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
d2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示
Figure BDA0002230486580000186
计算如下:
Figure BDA0002230486580000187
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
d3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
所述步骤5基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,对步骤4和步骤5得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量
Figure BDA0002230486580000191
表示用户u对题目i的得分,也可以理解为用户u做对题目i的概率,计算如下:
Figure BDA0002230486580000192
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D: D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure BDA0002230486580000193
至此,本发明提出的一种结合用户画像的题目推荐方法的完整目标函数如下:
L=min(LBC+LAE) (14)
该发明的一种结合用户画像的题目推荐***主要包括以下模块:
数据收集及预处理模块:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
用户表示模块:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
题目表示模块:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
分数预测及推荐模块:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
所述数据收集及预处理模块是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
e1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为 m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
e2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
e3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
Figure BDA0002230486580000201
所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对数据收集及预处理模块得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
所述用户表示模块是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
f1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点 k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;
f2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A 的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure BDA0002230486580000211
计算如下:
Figure BDA0002230486580000212
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
f3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H 的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure BDA0002230486580000213
计算如下:
Figure BDA0002230486580000214
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
f4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用
Figure BDA0002230486580000221
来表示,
Figure BDA0002230486580000222
也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure BDA0002230486580000223
的计算如下:
Figure BDA0002230486580000224
Figure BDA0002230486580000225
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
f5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
g1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure BDA0002230486580000226
au=softmax(su) (6)
Figure BDA0002230486580000227
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
g2.使用共享的解码器分别对融合的用户隐表示
Figure BDA0002230486580000228
和用户的邻居隐表示
Figure BDA0002230486580000229
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure BDA0002230486580000231
g3.综上,本***基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
Figure BDA0002230486580000232
其中,是正则项,防止模型过拟合;
g4.对b3、b4得到的两种用户隐表示
Figure BDA0002230486580000234
Figure BDA0002230486580000235
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
所述题目表示模块是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
h1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示
Figure BDA0002230486580000236
计算如下:
Figure BDA0002230486580000237
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
h2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示
Figure BDA0002230486580000241
计算如下:
Figure BDA0002230486580000242
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
h3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
所述分数预测及推荐模块基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,将g4和h3得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量表示用户u对题目i的得分,也可以理解为用户u做对题目i的概率,计算如下:
Figure BDA0002230486580000244
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D: D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure BDA0002230486580000245
至此,本发明提出的一种结合用户画像的题目推荐***的目标函数如下:
L=min(LBC+LAE) (14)
本发明提出一种结合用户画像的题目推荐方法及***,旨在提高用户使用python在线编程***进行编程训练的效率,同时也能提高用户对该学习***的信任度,提升用户粘性。通过多目标优化的目标函数,本发明在实现推荐模型的同时,优化了一个用户画像模型。用户画像模型利用自编码器得到用户在知识点上的正确率画像,作为推荐模型的额外输出,可以用作给出推荐的解释,形如:用户在该知识点上正确率较低,因此推荐包含该知识点的题目。

Claims (12)

1.一种结合用户画像的题目推荐方法,其特征在于包括以下步骤:
步骤1:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
步骤2:将数据集划分为训练集和测试集;
步骤3:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
步骤4:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
步骤5:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
2.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述步骤1是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
a1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
a2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
a3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
3.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述步骤2是将数据集划分为训练集和测试集,具体方法为:对步骤2得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
4.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述步骤3是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
b1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;
b2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure FDA0002230486570000022
计算如下:
Figure FDA0002230486570000023
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
b3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure FDA0002230486570000031
计算如下:
Figure FDA0002230486570000032
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
b4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用
Figure FDA0002230486570000033
来表示,
Figure FDA0002230486570000034
也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure FDA0002230486570000035
的计算如下:
Figure FDA0002230486570000036
Figure FDA0002230486570000037
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
b5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
c1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure FDA0002230486570000038
au=softmax(su) (6)
Figure FDA0002230486570000041
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
c2.使用共享的解码器分别对融合的用户隐表示
Figure FDA0002230486570000042
和用户的邻居隐表示
Figure FDA0002230486570000043
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure FDA0002230486570000044
c3.综上,本发明基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
Figure FDA0002230486570000045
其中,是正则项,防止模型过拟合;
c4.对b3、b4得到的两种用户隐表示
Figure FDA0002230486570000047
Figure FDA0002230486570000048
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
5.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述步骤4是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
d1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示
Figure FDA0002230486570000051
计算如下:
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
d2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示
Figure FDA0002230486570000053
计算如下:
Figure FDA0002230486570000054
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
d3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
6.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述步骤5基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,对步骤4和步骤5得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量
Figure FDA0002230486570000055
表示用户u对题目i的得分,也可以理解为用户u做对题目i的概率,计算如下:
Figure FDA0002230486570000056
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D:D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure FDA0002230486570000061
至此,本发明提出的一种结合用户画像的题目推荐方法的完整目标函数如下:
L=min(LBC+LAE) (14) 。
7.一种结合用户画像的题目推荐***,其特征在于包括以下模块:
数据收集及预处理模块:收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系;
数据划分模块:将数据集划分为训练集和测试集;
用户表示模块:使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;
题目表示模块:利用题目的标签信息和用户的显式反馈,学习得到题目隐表示;
分数预测及推荐模块:基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐。
8.根据权利要求7所述的一种结合用户画像的题目推荐***,其特征在于:所述数据收集及预处理模块是收集用户的历史做题数据和题目标签信息,并进行预处理,得到用户的显式反馈、隐式反馈和邻居关系,具体方法如下:
e1.对于用户集合U,其大小为n,表示n个用户;题目知识点集合K,其大小为s,表示s个知识点;题目集合I,其大小为m,表示m道题目;根据用户做题结果,其中1表示做题正确,0表示做题错误,-1表示点击但没有做题,将做题结果为-1的历史记录作为隐式反馈,其余历史记录作为显式反馈;
e2.设置一个阈值,当两个用户做过相同题目的数量大于该值时,认为这两个用户是邻居,据此构建***中用户的邻居关系;
e3.定义n行m列的用户-题目交互矩阵R,根据用户显式反馈填充矩阵,矩阵元素取值如下:
Figure FDA0002230486570000071
9.根据权利要求7所述的一种结合用户画像的题目推荐方法,其特征在于:所述数据划分模块是将数据集划分为训练集和测试集,具体方法为:对数据收集及预处理模块得到的用户题目交互矩阵R,随机选择20%的交互数据作为测试集,用剩余的交互数据进行训练。
10.根据权利要求7所述的一种结合用户画像的题目推荐方法,其特征在于:所述用户表示模块是使用自编码器,利用用户的显式反馈、隐式反馈和邻居关系进行用户画像,同时得到用户隐表示;具体过程如下:
f1.定义两个n行s列矩阵,分别是用户-知识点正确率矩阵A和用户-知识点点击率矩阵H,矩阵元素分别为用户在知识点上的正确率和点击率,分别由用户的显式反馈和隐式反馈统计得到,具体地,用户u在知识点k上的正确率auk计算方式为:用户在知识点k上做对的题目数占用户在该知识点上做题总数的百分比;用户u在知识点i上的点击率hui计算方式为:用户在知识点i上点击过的题目数占用户点击总数的百分比;
f2.根据用户-知识点正确率矩阵A,对每个用户u,矩阵A的第u行代表该用户的显式反馈,即知识点正确率,表示为au;使用一个全连接网络对au进行编码,得到用户u在显式反馈上的隐表示
Figure FDA0002230486570000081
计算如下:
Figure FDA0002230486570000082
其中,Wau∈Rs*d是待学习的网络参数,d是隐表示的维度,bau∈Rd是偏置向量;
f3.根据用户-知识点点击率矩阵H,对每个用户u,矩阵H的第u行代表该用户的隐式反馈,即知识点点击率,表示为hu;使用另一个全连接网络对hu进行编码,得到用户u在隐式反馈上的隐表示
Figure FDA0002230486570000083
计算如下:
Figure FDA0002230486570000084
其中,Whu∈Rs*d是待学习的网络参数,d是隐表示的维度,bhu∈Rd是偏置向量;
f4.利用一个神经门结构融合从显式反馈和隐式反馈中学习到的用户隐表示,这个神经门层用G来表示,融合后的用户隐表示用来表示,也可以看作一种稠密的用户画像,其中编码了用户的知识点正确率和点击率信息;G和
Figure FDA0002230486570000091
的计算如下:
Figure FDA0002230486570000093
其中,Wg1∈Rd*d,Wg2∈Rd*d,bg∈Rd是门层的参数。
f5.基于融合的用户隐表示,利用用户的邻居关系,预测用户对不同知识点的掌握程度;具体过程如下:
g1.定义用户u的邻居集合为Ni,基于融合的用户隐表示计算用户对邻居的注意力得分,进而得到用户u在邻居关系上的隐表示,计算如下:
Figure FDA0002230486570000094
au=softmax(su) (6)
Figure FDA0002230486570000095
其中,Wn∈Rd*d是需要学习的参数,d是隐表示的维度;
g2.使用共享的解码器分别对融合的用户隐表示
Figure FDA0002230486570000096
和用户的邻居隐表示
Figure FDA0002230486570000097
进行解码,将解码后的向量进行逐元素相加后,经过激活函数得到用户在各个标签上的正确率预测值,该值反映了用户对该标签的掌握程度;解码器实现如下:
Figure FDA0002230486570000098
g3.综上,本方法基于一个自编码器模型进行用户画像,编码器部分从用户的显式反馈和隐式反馈中学习用户隐表示,两种隐表示通过一个神经门结构进行融合后送入解码器,解码器在解码时,同时利用用户的邻居关系来重构用户的显式反馈,即用户在知识点上的正确率;通过最小化重构误差来优化自编码器的参数,即最小化如下目标函数:
Figure FDA0002230486570000101
其中,是正则项,防止模型过拟合;
g4.对b3、b4得到的两种用户隐表示
Figure FDA0002230486570000103
Figure FDA0002230486570000104
进行拼接,得到另一种融合的用户隐表示pu,用于后续的推荐模型。
11.根据权利要求7所述的一种结合用户画像的题目推荐方法,其特征在于:所述题目表示模块是利用题目的标签信息和用户的显式反馈,学***均值来衡量;基于此,为题目学习隐表示的过程如下:
h1.将multi-hot的题目知识点向量表示为li,使用一个嵌入层对li进行编码,得到题目i在隐式反馈上的隐表示
Figure FDA0002230486570000105
计算如下:
Figure FDA0002230486570000106
其中,Wli∈Rs*d是待学习的网络参数,d是隐表示的维度,bli∈Rd是偏置向量;
h2.将题目在知识点上的难易程度向量表示为oi,使用另一个嵌入层对oi进行编码,得到题目i在难易程度上的隐表示
Figure FDA0002230486570000107
计算如下:
其中,Woi∈Rs*d是待学习的网络参数,d是隐表示的维度,boi∈Rd是偏置向量;
h3.对上面的得到的两种题目隐表示进行拼接,得到融合的题目隐表示qi,用于后续推荐模型。
12.根据权利要求1所述的一种结合用户画像的题目推荐方法,其特征在于:所述分数预测及推荐模块基于用户隐表示和题目隐表示,预测用户在题目上的得分,并根据得分进行题目推荐;具体方法:基于潜因子模型,将g4和h3得到的用户隐表示pu和题目的隐表示qi进行点积,经过一个sigmoid函数后输出(0,1)之间的标量
Figure FDA0002230486570000111
表示用户u对题目i的得分,也可以理解为用户u做对题目i的概率,计算如下:
针对本发明的数据特点,本发明将预测得分较低的题目推荐给用户。根据用户-题目交互矩阵R,构造训练数据集D:D:={(u,i)|u∈U,i∈I},使用交叉熵损失函数训练推荐模型,即最小化如下目标函数:
Figure FDA0002230486570000113
至此,本发明提出的一种结合用户画像的题目推荐***的目标函数如下:
L=min(LBC+LAE) (14) 。
CN201910965991.XA 2019-10-12 2019-10-12 一种结合用户画像的题目推荐方法及*** Pending CN110704510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910965991.XA CN110704510A (zh) 2019-10-12 2019-10-12 一种结合用户画像的题目推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910965991.XA CN110704510A (zh) 2019-10-12 2019-10-12 一种结合用户画像的题目推荐方法及***

Publications (1)

Publication Number Publication Date
CN110704510A true CN110704510A (zh) 2020-01-17

Family

ID=69199327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965991.XA Pending CN110704510A (zh) 2019-10-12 2019-10-12 一种结合用户画像的题目推荐方法及***

Country Status (1)

Country Link
CN (1) CN110704510A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015780A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 基于深度学习的命题智能分析处理方法和***
CN113254782A (zh) * 2021-06-15 2021-08-13 济南大学 问答社区专家推荐方法及***
CN114386764A (zh) * 2021-12-11 2022-04-22 上海师范大学 一种基于gru和r-gcn的oj平台题目序列推荐方法
CN116383481A (zh) * 2023-02-09 2023-07-04 四川云数赋智教育科技有限公司 一种基于学生画像的个性化试题推荐方法及***
CN117493688A (zh) * 2023-11-20 2024-02-02 上海万雍科技股份有限公司 基于用户画像的教学信息推荐方法、装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023214A (zh) * 2015-07-17 2015-11-04 蓝舰信息科技南京有限公司 一种题目知识点智能推荐方法
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置
CN106407237A (zh) * 2015-08-03 2017-02-15 科大讯飞股份有限公司 在线学习试题推荐方法及***
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN109299380A (zh) * 2018-10-30 2019-02-01 浙江工商大学 在线教育平台中基于多维特征的习题个性化推荐方法
CN109509126A (zh) * 2018-11-02 2019-03-22 中山大学 一种基于用户学习行为的个性化试题推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023214A (zh) * 2015-07-17 2015-11-04 蓝舰信息科技南京有限公司 一种题目知识点智能推荐方法
CN106407237A (zh) * 2015-08-03 2017-02-15 科大讯飞股份有限公司 在线学习试题推荐方法及***
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN109299380A (zh) * 2018-10-30 2019-02-01 浙江工商大学 在线教育平台中基于多维特征的习题个性化推荐方法
CN109509126A (zh) * 2018-11-02 2019-03-22 中山大学 一种基于用户学习行为的个性化试题推荐方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHEN MA等: "Gated Attentive-Autoencoder for Content-Aware", 《HTTPS://ARXIV.ORG/ABS/1812.02869V1》 *
YAO WU等: "Collaborative denoising auto-encoders for top-n recommender systems", 《WSDM "16: PROCEEDINGS OF THE NINTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *
YONGBOSMART: "推荐***:隐语义模型", 《HTTPS://WWW.JIANSHU.COM/P/60B17299BB41》 *
单瑞婷等: "基于认知诊断的协同过滤试题推荐", 《计算机***应用》 *
周亚: "基于混合推荐的试题推荐***设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邱奇波: "基于特征表示的推荐算法实践与研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015780A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 基于深度学习的命题智能分析处理方法和***
CN112015780B (zh) * 2020-08-24 2021-06-01 上海松鼠课堂人工智能科技有限公司 基于深度学习的命题智能分析处理方法和***
CN113254782A (zh) * 2021-06-15 2021-08-13 济南大学 问答社区专家推荐方法及***
CN113254782B (zh) * 2021-06-15 2023-05-05 济南大学 问答社区专家推荐方法及***
CN114386764A (zh) * 2021-12-11 2022-04-22 上海师范大学 一种基于gru和r-gcn的oj平台题目序列推荐方法
CN116383481A (zh) * 2023-02-09 2023-07-04 四川云数赋智教育科技有限公司 一种基于学生画像的个性化试题推荐方法及***
CN116383481B (zh) * 2023-02-09 2024-03-29 四川云数赋智教育科技有限公司 一种基于学生画像的个性化试题推荐方法及***
CN117493688A (zh) * 2023-11-20 2024-02-02 上海万雍科技股份有限公司 基于用户画像的教学信息推荐方法、装置、电子设备
CN117493688B (zh) * 2023-11-20 2024-06-11 上海万雍科技股份有限公司 基于用户画像的教学信息推荐方法、装置、电子设备

Similar Documents

Publication Publication Date Title
US11893071B2 (en) Content recommendation method and apparatus, electronic device, and storage medium
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN108629630B (zh) 一种基于特征交叉联合深度神经网络的广告推荐方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及***
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及***
CN111538912A (zh) 内容推荐方法、装置、设备及可读存储介质
CN110012356A (zh) 视频推荐方法、装置和设备及计算机存储介质
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113793239B (zh) 融合学习行为特征的个性化知识追踪方法与***
CN112241626A (zh) 一种语义匹配、语义相似度模型训练方法及装置
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN114567815B (zh) 一种基于预训练的慕课自适应学习***构建方法和装置
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN113591971B (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN110175857A (zh) 优选业务确定方法及装置
CN114881331A (zh) 一种面向在线教育的学习者异常学习状态预测方法
CN112116137A (zh) 一种基于混合深度神经网络的学生辍课预测方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN111552796A (zh) 组卷方法、电子设备及计算机可读介质
CN111680190A (zh) 一种融合视觉语义信息的视频缩略图推荐方法
CN114863341B (zh) 一种在线课程学习监督方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200117

WD01 Invention patent application deemed withdrawn after publication