CN115238169A - 一种慕课可解释推荐方法、终端设备及存储介质 - Google Patents

一种慕课可解释推荐方法、终端设备及存储介质 Download PDF

Info

Publication number
CN115238169A
CN115238169A CN202210666129.0A CN202210666129A CN115238169A CN 115238169 A CN115238169 A CN 115238169A CN 202210666129 A CN202210666129 A CN 202210666129A CN 115238169 A CN115238169 A CN 115238169A
Authority
CN
China
Prior art keywords
course
path
learner
representing
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210666129.0A
Other languages
English (en)
Inventor
林元国
林凡
张志宏
张伟
游环宇
柳蕴轩
陈鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210666129.0A priority Critical patent/CN115238169A/zh
Publication of CN115238169A publication Critical patent/CN115238169A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种慕课可解释推荐方法、终端设备及存储介质,该方法中包括:根据学习者历史选课记录中实体和实体之间的关系构建三元组数据集;基于三元组数据集构建知识图谱,通过TransE模型对知识图谱中的实体和关系进行向量化表示,其中,分别通过粗粒度的课程表示方法和细粒度的概念表示方法表示学习者和课程;构建基于自监督强化学习方法的学习路径推理模型,用于指导推荐智能体在知识图谱上从学习者至目标课程的学习路径推理;采用执行者‑评论家算法训练学习路径推理模型;通过训练后的学习路径推理模型进行学习者至目标课程之间的学习路径推理。本发明不仅可以在知识图谱中构建显性信息和隐性反馈,而且还通过深度强化学习进行慕课可解释推荐。

Description

一种慕课可解释推荐方法、终端设备及存储介质
技术领域
本发明涉及慕课推荐领域,尤其涉及一种慕课可解释推荐方法、终端设备及存储介质。
背景技术
现有流行的可解释推荐方法并不适用于慕课(Massive Open Online Courses,简称MOOC)推荐场景,因为在线教育环境通常受到两种复杂条件的约束:一是课程先后修关系。课程之间的先后修关系是慕课推荐一个重要的考虑因素。一般来说,课程推荐结果中应该包含先修课程,因为学***。这些复杂条件的约束导致慕课可解释推荐方法的实现面临着高难度的挑战。
发明内容
为了解决上述问题,本发明提出了一种慕课可解释推荐方法、终端设备及存储介质。
具体方案如下:
一种慕课可解释推荐方法,包括以下步骤:
S1:采集学习者的历史选课记录,从历史选课记录中提取学习者、课程、课程概念和学科分类作为实体,并提取实体之间的关系,基于实体和实体之间的关系构建三元组数据集;
S2:基于三元组数据集构建知识图谱,通过TransE模型对知识图谱中的实体和关系进行向量化表示,其中,将学习者的嵌入向量通过粗粒度的课程表示方法进行表示,将课程的嵌入向量通过细粒度的概念表示方法进行表示;
S3:构建基于自监督强化学习方法的学习路径推理模型,用于指导推荐智能体在知识图谱上从学习者至目标课程的学习路径推理;
学习路径推理模型包括执行者网络和路径判别器,执行者网络首先生成路径,然后路径判别器将专家演示路径与生成的路径区分开来,而执行者网络试图通过模仿专家演示路径来欺骗路径判别器;
S4:采用执行者-评论家算法训练学习路径推理模型,其中,执行者网络根据评论家网络的价值函数学习路径推理策略,评论家网络利用时序差分方法来单步更新价值函数;
S5:通过训练后的学习路径推理模型进行学习者至目标课程之间的学习路径推理。
进一步的,将学习者的嵌入向量通过粗粒度的课程表示方法进行表示的方法为:对学习者u的历史选课记录按时间顺序进行排序后,将学习者的嵌入向量表示为:
Figure BDA0003693010880000021
其中,
Figure BDA0003693010880000022
表示学习者u在t时刻选修的课程,1,…,t,…,tu表示从远至近的时刻。
进一步的,课程的嵌入向量表示为ct
ct={(k,w)|(ki,wj),n>i>0,j>0}
其中,n表示课程包含的课程概念的数量,i表示课程概念的序号,j表示课程概念包含的词的序号,ki表示课程的第i个课程概念的嵌入向量,wj表示嵌入向量ki中第j个词的嵌入向量,k表示课程中所有概念的嵌入向量,w表示课程中所有词的嵌入向量。
进一步的,步骤S3中将路径推理问题表述为马尔科夫决策过程,智能体通过在知识图谱上执行多跳路径推理来为学习者推荐学习者至目标课程的学习路径;在马尔科夫决策过程中设定初始状态为s0=u,t时刻的状态为
Figure BDA0003693010880000031
Figure BDA0003693010880000032
根据状态st,智能体按照策略执行相关动作
Figure BDA0003693010880000033
来预测实体et可行的输出边,动作空间
Figure BDA0003693010880000034
其中ε表示实体集合,
Figure BDA0003693010880000035
表云一个知识图谱;通过终端收益Re,T衡量智能体是否生成了一条从学习者u开始并以目标课程
Figure BDA0003693010880000036
结束的多跳路径;其中,u表示学习者,r表示关系,e表示实体,rt表示t时刻的关系向量,et表示t时刻的实体向量,t={1,2,...,t-1,t,t+1},
Figure BDA0003693010880000037
表示收益函数。
进一步的,在马尔科夫决策过程中通过加权动作路径来保留有潜力的输出边,路径中每条边的权重设定为:
Figure BDA0003693010880000038
其中,
Figure BDA0003693010880000039
表示相对于三元组
Figure BDA00036930108800000310
的路径权重,V表示头部实体的向量et与头部实体et与尾部实体
Figure BDA00036930108800000311
之间关系rt的关系向量rt之和,
Figure BDA00036930108800000312
表示尾部实体的向量
Figure BDA00036930108800000313
||.||表示L1范数。
进一步的,专家演示路径的获取方法为:针对所有的学习者u和目标课程
Figure BDA0003693010880000041
基于加权动作路径,使用Dijkstra算法在加权图上生成学习者u和目标课程
Figure BDA0003693010880000042
之间的最短路径,得到一系列演示路径
Figure BDA0003693010880000043
从演示路径
Figure BDA0003693010880000044
中随机采样得到专家演示路径。
进一步的,路径判别器Dp(st,at)表示关于状态st在t时刻的动作at,具体定义为:
Figure BDA0003693010880000045
Figure BDA0003693010880000046
其中,
Figure BDA0003693010880000047
为中间变量,
Figure BDA0003693010880000048
表示状态st的嵌入向量,
Figure BDA0003693010880000049
是在判别器Dp中动作ap,t的嵌入向量,tanh(·)表示双曲正切函数,σ(·)表示logistic sigmoid函数,
Figure BDA00036930108800000410
Figure BDA00036930108800000411
均为被学习的参数,da表示执行者网络中动作嵌入的维度,ds表示状态嵌入的维度,dd表示路径判别器中动作嵌入的维度。
一种慕课可解释推荐终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,不仅可以在知识图谱中构建显性信息和隐性反馈,而且还通过深度强化学习进行慕课可解释推荐。
附图说明
图1所示为本发明实施例一的流程图。
图2所示为本发明实施例一的总体框架示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种慕课可解释推荐方法,如图1和图2所示,所述方法包括以下步骤:
S1:采集学习者的历史选课记录,从历史选课记录中提取学习者、课程、课程概念和学科分类作为实体,并提取实体之间的关系,基于实体和实体之间的关系构建三元组数据集。
S2:基于三元组数据集构建知识图谱,通过TransE模型对知识图谱中的实体进行向量化表示,得到各实体的嵌入向量。
知识图谱可以基于三元组数据(h,r,t)进行构建,通过三元组数据可以进行实体之间的语义关联,其中,h和t表示一条关系的头结点和尾节点,也可以说,h和t表示一条关系的头实体和尾实体,r表示关系,如<学习者-选修-课程>。
需要说明的是,对于构建的知识图谱中的三元组数据,若是想要将其实际应用,需要将其中的词汇文本进行数字化的转换,以供后续的计算使用。具体地,可以通过知识图谱的分布式表示学习,得到三元组数据中的词汇文本在向量空间的映射,即词汇文本在向量空间中对应的向量,其中,实体对应实体向量,关系对应关系向量。本实施例通过TransE模型对知识图谱中的实体ei和关系r进行向量化表示,得到各实体的嵌入向量
Figure BDA0003693010880000061
和关系的嵌入向量
Figure BDA0003693010880000062
其中dE表示向量的维度。
本实施例中为了捕捉学习者对课程的时序偏好,利用粗粒度的课程表示方法从交互序列中对学习者的学习行为进行建模。此外,还利用细粒度的概念表示方法来掌握学习者的知识状态,并将这些概念作为课程的属性级信息。通过这种方式,可以将学习者的时序偏好与属性级偏好相结合,以更好地模拟学习者的知识结构,同时挖掘课程之间先后修关系中的潜在因素,因为相似的课程通常具有一些相同的课程概念。
(1)通过粗粒度的课程表示方法来对学习者进行编码。
在基于知识图谱的课程推荐中,设U表示学习者的集合,C表示课程的集合,给定历史选课记录Cu,推荐任务旨在为特定的学习者u∈U寻找对应目标课程
Figure BDA0003693010880000063
的推荐学习路径。为此,通过对历史选课记录按时间顺序进行排序,学习者u的历史选课记录可以形式化为
Figure BDA0003693010880000064
其中
Figure BDA0003693010880000065
表示学习者u在t时刻选修的课程c∈C,tu表示学习者选修课程的数量。因此,可采用粗粒度的课程表示方法对学习者进行编码,即将学习者的嵌入向量表示为:
Figure BDA0003693010880000066
这样,学习者的嵌入向量通过粗粒度的课程表示方法来建模学习者的学习行为,从而捕捉学习者对课程的时序偏好。
由于粗粒度的课程表示方法无法理解和解释每门课程的隐藏向量,因此很难从历史选课记录中了解学***。为此,本实施例中还提出了细粒度的概念表示方法来应对这一挑战。
(2)通过细粒度的概念表示方法来对课程进行编码。
众所周知,学***。
更准确地说,细粒度的概念表示方法可以通过一系列课程概念来捕捉学习者的知识状态,即{k1,...,ki},其中ki表示课程概念在已修课程中的嵌入向量,可以当作已修课程的属性级信息。通常,课程概念嵌入由一系列词向量组成。形式上,根据一系列的概念嵌入,课程嵌入可以由一组向量对构成:
ct={(k,w)|(ki,wj),n>i>0,j>0}
其中,n表示课程包含的课程概念的数量,i表示课程概念的序号,j表示课程概念包含的词的序号,ki表示课程的第i个课程概念的嵌入向量,wj表示嵌入向量ki中第j个词的嵌入向量,k表示课程中所有概念的嵌入向量,w表示课程中所有词的嵌入向量。
特别地,多个相似的课程可以通过一个或多个相同的课程概念相关联。这种连通性可以揭示课程之间先后修关系的潜在因素。例如课程《遗传学》和它的先修课程《细胞生物学》共享一些相同的课程概念,如“基因”、“细胞”等。在这种情况下,如果学***和兴趣的获取。因此,本实施例方法丰富了知识图谱中语义交互的感知信息,有助于慕课推荐的路径推理。
S3:构建基于自监督强化学习方法的学习路径推理模型(如图2中的自监督模块),用于指导推荐智能体在知识图谱上从学习者至目标课程的学习路径推理。
本实施例在步骤S3中用于为学习者提供可解释的推荐。为此,本实施例中提出了一种自监督深度强化学习方法,用于指导在多尺度表示方法所构建的知识图谱上的路径推理。具体来说,从观察到的历史选课记录Cu中的某个学习者开始,推荐智能体在知识图谱上执行多跳路径推理,从而使所推荐的课程不仅符合学习者的知识结构,还可以满足课程先后修关系的约束要求。本实施例中的学习路径推理模型帮助推荐智能体区分知识图谱中不同路径的强度以推断学习者的偏好并找到合理的演示以实现准确的推荐。
(1)马尔科夫决策过程
本实施例中将路径推理问题表述为马尔科夫决策过程(MDP)。智能体尝试通过在知识图谱上执行多跳路径推理来为学习者推荐合适的课程。形式上,MDP可以定义为一个5元组
Figure BDA0003693010880000081
其中S表示状态空间,
Figure BDA0003693010880000082
表示行动空间,P表示状态转移概率,
Figure BDA0003693010880000083
表示环境中的收益函数,γ表示收益的折扣系数。
·状态:st∈S表示智能体在t时刻在知识图谱中的搜索状态。这里,假设路径发现过程是对学习者u和目标课程
Figure BDA0003693010880000084
之间的多跳关系进行编码,即初始状态s0=u,和其他状态
Figure BDA0003693010880000085
为了增强智能体的路径推理能力以获得更高的推荐准确率,我们引入课程概念作为辅助信息以增加路径连通性。
·动作:根据状态st,智能体按照策略执行相关动作
Figure BDA0003693010880000086
来预测实体et可行的输出边(搜索过的实体除外)。这里有必要控制动作空间的大小,因为一些实体在知识图谱中有很大的出度。因此,本实施例中利用加权动作来保留有潜力的输出边,从而可以调整策略以推断学习者的偏好。形式上,动作空间可以定义为
Figure BDA0003693010880000091
Figure BDA0003693010880000092
其中ε表示实体集合,
Figure BDA0003693010880000093
表示一个知识图谱。
·收益:
Figure BDA0003693010880000094
表示终端收益,它衡量智能体是否生成了一条从学习者u开始并以目标课程
Figure BDA0003693010880000095
结束的多跳路径。形式上,在最后一个时刻T的终端收益可以定义为
Figure BDA0003693010880000096
其中
Figure BDA0003693010880000097
表示路径发现的指示函数,即当
Figure BDA0003693010880000098
时为1;而当
Figure BDA0003693010880000099
时为0。
(2)自监督模块
本实施例中自监督模块包含两个功能:一个是加权动作路径,它帮助推荐智能体(即执行者)区分知识图谱中不同路径的强度以推断学习者的偏好。另一个是基于逆强化学习的路径判别器,它可以获得合理的演示路径以实现准确的推荐。这两个功能的实现细节详述如下。
1)加权动作路径
一些研究假设较短的路径更容易解释推荐,然后采用最小的多跳关系来推理未加权图上的路径。然而,方法没有充分挖掘实体之间的依赖关系和路径的整体语义,这可能会导致不合理的推理。作为一种替代方法,基于实体之间关系具有相似性的加权运算可以学习实体之间的依赖关系并区分不同路径的强度。对于给定任意三元组
Figure BDA00036930108800000910
用于表示头部实体et和尾部实体
Figure BDA00036930108800000911
由关系rt连接,则路径中每条边的权重可以定义如下。
Figure BDA00036930108800000912
其中,
Figure BDA00036930108800000913
表示相对于三元组
Figure BDA00036930108800000914
的边权重,V表示头部实体的向量et与它的关系向量rt之和,
Figure BDA00036930108800000915
表示尾部实体的向量
Figure BDA00036930108800000916
路径中每条边的权重值越小,路径上的两个实体之间的依赖关系就越强,因为它们在向量空间上越接近。
基于加权动作路径,使用Dijkstra算法在加权图上生成学习者u和目标课程
Figure BDA0003693010880000101
之间的最短路径。对所有的学习者u和目标课程
Figure BDA0003693010880000102
都重复此过程,以获得一系列演示路径
Figure BDA0003693010880000103
Figure BDA0003693010880000104
其中,
Figure BDA0003693010880000105
表示相对于三元组
Figure BDA0003693010880000106
的最小边权重。通过这种方式,推荐智能体利用加权动作路径来调整策略以有效地推断学习者的偏好,因为路径权重可以在观察到的交互中探索路径的整体语义。
2)基于逆强化学习的路径判别器
本实施例中采用生成对抗模仿学***和兴趣相匹配的课程,同时增强其推理能力。
具体来说,执行者网络以对抗方式与路径判别器Dp进行合作:执行者网络首先生成路径,然后路径判别器将专家演示路径与生成的路径区分开来,而执行者网络试图通过模仿专家演示路径来欺骗路径判别器。形式上,路径判别器Dp(st,at)表示关于状态st在t时刻的动作at,具体可以定义如下。
Figure BDA00036930108800001011
Figure BDA0003693010880000107
其中,
Figure BDA0003693010880000108
为中间变量,
Figure BDA0003693010880000109
表示状态st的嵌入向量,
Figure BDA00036930108800001010
是在判别器Dp中动作ap,t的嵌入向量,tanh(·)表示双曲正切函数,σ(·)表示logistic sigmoid函数,
Figure BDA0003693010880000111
Figure BDA0003693010880000112
均为被学习的参数,da表示执行者网络中动作嵌入的维度,ds表示状态嵌入的维度,dd表示路径判别器中动作嵌入的维度。
路径判别器Dp(st,at)的训练用于计算(st,at)来自观察到的演示路径的概率。通常,可以通过最小化以下分类损失函数
Figure BDA0003693010880000113
来实现:
Figure BDA0003693010880000114
其中动作
Figure BDA0003693010880000115
和状态
Figure BDA0003693010880000116
由专家演示路径确定,而专家演示路径是从观察到的演示路径
Figure BDA0003693010880000117
中随机采样的。
当执行者网络生成与观察到的演示路径相似的(st,at)时,就可以获得路径判别器的收益Rp,t,具体如下所示。
Rp,t=log Dp(st,at)-log(1-Dp(st,at))
为了平滑地更新策略以找到近似于观察到的演示路径,我们通过路径发现和路径判别器的收益的线性组合来定义聚合收益Rt
Rt=λRe,T+(1-λ)Rp,t
其中λ∈[0,1]是平衡路径发现的收益Re,T和路径判别器的收益Rp,t的一个比例因子。
S4:采用执行者-评论家算法训练学习路径推理模型,其中,执行者网络根据评论家网络的价值函数学习路径推理策略,评论家网络利用时序差分方法来单步更新价值函数。
(1)执行者:执行者网络旨在通过计算状态st中每个动作
Figure BDA0003693010880000118
的概率分布来学习路径推理策略。它利用加权动作路径和专家路径判别器来有效地指导路径推理。本实施例中用多层全连接神经网络来训练执行者网络πθ(at,st):
hθ=ReLU(Wθ,sst)
Figure BDA0003693010880000121
其中,ReLU(·)表示激活函数,
Figure BDA0003693010880000122
表示在执行者网络中动作at的嵌入向量,
Figure BDA0003693010880000123
Figure BDA0003693010880000124
是要学习的执行者网络参数,dh表示隐藏层的维度,ds表示状态嵌入的维度,da表示动作嵌入的维度。在这里,执行者网络通过策略梯度方法进行优化。对于每个采样轨迹,
Figure BDA0003693010880000125
的梯度可以计算如下。
Figure BDA0003693010880000126
其中符号∝表示“成比例于”,Qφ(st,at)表示状态st下动作at的动作值函数.因此,我们可以通过最小化损失函数来学习参与者网络,具体如下所示。
Figure BDA0003693010880000127
其中
Figure BDA0003693010880000128
表示遵循执行者网络策略πθ下给出的变量的期望值。
(2)评论家:评论家网络估计动作价值函数来评估MDP环境中的每个动作。它可以对路径发现和路径判别器的收益进行建模,以有效地引导执行者网络。评论家网络计算状态st下的动作值Qφ
hφ=ReLU(Wφ,sst)
Qφ(st,at)=aφ,tReLU(Wφ,ahφ)
其中
Figure BDA0003693010880000129
表示在评论家网络中动作at的嵌入向量,
Figure BDA00036930108800001210
Figure BDA00036930108800001211
是要学习的评论家网络参数。
评论家网络通过时序差分方法进行训练,该方法根据贝尔曼方程单步更新目标qt,如下所示。
Figure BDA0003693010880000131
其中β∈[0,1]是动作值函数Qφ(st+1,a)的衰减因子。因此,可以通过最小化时序差分误差来学习评论家网络:
Figure BDA0003693010880000132
通过最小化总损失函数,我们联合优化了路径判别器Dp(st,at)、执行者网络πθ以及评论家网络Qφ。因此,学习路径推理模型的目标函数可定义如下:
Figure BDA0003693010880000133
S5:通过训练后的学习路径推理模型进行学习者至目标课程之间的学习路径推理。
本实施例对于知识图谱环境,采用一种多尺度表示学习方法来增强知识图谱的语义表示和关系。更准确地说,粗粒度的课程表示通过用户课程交互来模拟学习者的学习行为;细粒度的概念表示可以捕获学习者的知识状态,即一系列课程概念{k1,...,ki},它们当作已修课程的属性级信息。通过这种方式,可以很好地学习课程之间的潜在关系。
本实施例通过自监督强化学***和兴趣相匹配的目标课程,推荐智能体从一个学习者开始,在知识图谱上进行多跳路径推理,最后向该学习者推荐知识图谱中合适的课程。本方法中的自监督模块包含两个功能:基于逆强化学习的路径判别器可以获得合理的演示路径以实现准确的推荐。此外,加权动作路径可以帮助推荐智能体区分知识图谱中不同路径的强度以推断学习者的偏好。
本实施例利用执行者-评论家算法来训练学习路径推理模型。它使用收益信号(即一个收益Re,T用于路径发现,另一个收益Rp,t用于路径判别)来激励策略评估慕课推荐的路径推理。
综上所述,本实施例不仅可以在知识图谱中构建显性信息(例如学***),而且还通过深度强化学习进行慕课可解释推荐。
实施例二:
本发明还提供一种慕课可解释推荐终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述慕课可解释推荐终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述慕课可解释推荐终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述慕课可解释推荐终端设备的组成结构仅仅是慕课可解释推荐终端设备的示例,并不构成对慕课可解释推荐终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述慕课可解释推荐终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述慕课可解释推荐终端设备的控制中心,利用各种接口和线路连接整个慕课可解释推荐终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述慕课可解释推荐终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述慕课可解释推荐终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (9)

1.一种慕课可解释推荐方法,其特征在于,包括以下步骤:
S1:采集学习者的历史选课记录,从历史选课记录中提取学习者、课程、课程概念和学科分类作为实体,并提取实体之间的关系,基于实体和实体之间的关系构建三元组数据集;
S2:基于三元组数据集构建知识图谱,通过TransE模型对知识图谱中的实体和关系进行向量化表示,其中,将学习者的嵌入向量通过粗粒度的课程表示方法进行表示,将课程的嵌入向量通过细粒度的概念表示方法进行表示;
S3:构建基于自监督强化学习方法的学习路径推理模型,用于指导推荐智能体在知识图谱上从学习者至目标课程的学习路径推理;
学习路径推理模型包括执行者网络和路径判别器,执行者网络首先生成路径,然后路径判别器将专家演示路径与生成的路径区分开来,而执行者网络试图通过模仿专家演示路径来欺骗路径判别器;
S4:采用执行者-评论家算法训练学习路径推理模型,其中,执行者网络根据评论家网络的价值函数学习路径推理策略,评论家网络利用时序差分方法来单步更新价值函数;
S5:通过训练后的学习路径推理模型进行学习者至目标课程之间的学习路径推理。
2.根据权利要求1所述的慕课可解释推荐方法,其特征在于:将学习者的嵌入向量通过粗粒度的课程表示方法进行表示的方法为:对学习者u的历史选课记录按时间顺序进行排序后,将学习者的嵌入向量表示为:
Figure FDA0003693010870000011
其中,
Figure FDA0003693010870000012
表示学习者u在t时刻选修的课程,1,…,t,…,tu表示从远至近的时刻。
3.根据权利要求1所述的慕课可解释推荐方法,其特征在于:将课程的嵌入向量通过细粒度的概念表示方法进行表示的方法为:将课程的嵌入向量表示为ct
ct={(k,w)|(ki,wj),n>i>0,j>0}
其中,n表示课程包含的课程概念的数量,i表示课程概念的序号,j表示课程概念包含的词的序号,ki表示课程的第i个课程概念的嵌入向量,wj表示嵌入向量ki中第j个词的嵌入向量,k表示课程中所有概念的嵌入向量,w表示课程中所有词的嵌入向量。
4.根据权利要求1所述的慕课可解释推荐方法,其特征在于:步骤S3中将路径推理问题表述为马尔科夫决策过程,智能体通过在知识图谱上执行多跳路径推理来为学习者推荐学习者至目标课程的学习路径;在马尔科夫决策过程中设定初始状态为s0=,t时刻的状态为
Figure FDA0003693010870000021
根据状态st,智能体按照策略执行相关动作
Figure FDA0003693010870000022
来预测实体et可行的输出边,动作空间
Figure FDA0003693010870000023
其中ε表示实体集合,
Figure FDA0003693010870000024
表示一个知识图谱;通过终端收益Re,T衡量智能体是否生成了一条从学习者u开始并以目标课程
Figure FDA0003693010870000025
结束的多跳路径;其中,u表示学习者,r表示关系,e表示实体,rt表示t时刻的关系向量,et表示t时刻的实体向量,t={1,2,…,t-1,t,t+1},
Figure FDA0003693010870000029
表示收益函数。
5.根据权利要求1所述的慕课可解释推荐方法,其特征在于:在马尔科夫决策过程中通过加权动作路径来保留有潜力的输出边,路径中每条边的权重设定为:
Figure FDA0003693010870000026
其中,
Figure FDA0003693010870000027
表示相对于三元组
Figure FDA0003693010870000028
的路径权重,V表示头部实体的向量et与头部实体et与尾部实体
Figure FDA0003693010870000031
之间关系rt的关系向量rt之和,
Figure FDA0003693010870000032
表示尾部实体的向量
Figure FDA0003693010870000033
‖.‖表示L1范数。
6.根据权利要求1所述的慕课可解释推荐方法,其特征在于:专家演示路径的获取方法为:针对所有的学习者u和目标课程
Figure FDA0003693010870000034
基于加权动作路径,使用Dijkstra算法在加权图上生成学习者u和目标课程
Figure FDA0003693010870000035
之间的最短路径,得到一系列演示路径
Figure FDA0003693010870000036
从演示路径
Figure FDA0003693010870000037
中随机采样得到专家演示路径。
7.根据权利要求1所述的慕课可解释推荐方法,其特征在于:路径判别器Dp(st,at)表示关于状态st在t时刻的动作at,具体定义为:
Figure FDA0003693010870000038
Figure FDA0003693010870000039
其中,
Figure FDA00036930108700000310
为中间变量,
Figure FDA00036930108700000311
表示状态st的嵌入向量,
Figure FDA00036930108700000312
是在判别器Dp中动作ap,t的嵌入向量,tanh(·)表示双曲正切函数,σ(·)表示logistic sigmoid函数,
Figure FDA00036930108700000313
Figure FDA00036930108700000314
均为被学习的参数,da表示执行者网络中动作嵌入的维度,ds表示状态嵌入的维度,dd表示路径判别器中动作嵌入的维度。
8.一种慕课可解释推荐终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。
CN202210666129.0A 2022-06-14 2022-06-14 一种慕课可解释推荐方法、终端设备及存储介质 Pending CN115238169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210666129.0A CN115238169A (zh) 2022-06-14 2022-06-14 一种慕课可解释推荐方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210666129.0A CN115238169A (zh) 2022-06-14 2022-06-14 一种慕课可解释推荐方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN115238169A true CN115238169A (zh) 2022-10-25

Family

ID=83669551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210666129.0A Pending CN115238169A (zh) 2022-06-14 2022-06-14 一种慕课可解释推荐方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN115238169A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577185A (zh) * 2022-11-15 2023-01-06 湖南师范大学 基于混合推理和中智群决策的慕课推荐方法及装置
CN115658877A (zh) * 2022-12-27 2023-01-31 神州医疗科技股份有限公司 基于强化学习的药物推荐方法、装置、电子设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577185A (zh) * 2022-11-15 2023-01-06 湖南师范大学 基于混合推理和中智群决策的慕课推荐方法及装置
CN115658877A (zh) * 2022-12-27 2023-01-31 神州医疗科技股份有限公司 基于强化学习的药物推荐方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN111460249B (zh) 一种基于学习者偏好建模的个性化学习资源推荐方法
Huo et al. Knowledge modeling via contextualized representations for LSTM-based personalized exercise recommendation
Zuheros et al. Sentiment analysis based multi-person multi-criteria decision making methodology using natural language processing and deep learning for smarter decision aid. Case study of restaurant choice using TripAdvisor reviews
CN111582694B (zh) 一种学习评估方法及装置
CN115238169A (zh) 一种慕课可解释推荐方法、终端设备及存储介质
CN116134454A (zh) 用于使用知识蒸馏训练神经网络模型的方法和***
CN109032591B (zh) 一种基于元学习的众包软件开发者推荐方法
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
Govindarajan et al. Dynamic learning path prediction—A learning analytics solution
CN112221159A (zh) 一种虚拟道具推荐方法、装置及计算机可读存储介质
Habib Hands-on Q-learning with python: Practical Q-learning with openai gym, Keras, and tensorflow
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN112819024A (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
Adnan et al. Improving m-learners’ performance through deep learning techniques by leveraging features weights
CN114358988B (zh) 基于ai技术的教学方式推送方法及装置
Ciaburro Keras reinforcement learning projects: 9 projects exploring popular reinforcement learning techniques to build self-learning agents
CN112825147B (zh) 学习路径规划方法、装置、设备和存储介质
Ge et al. Deep reinforcement learning navigation via decision transformer in autonomous driving
CN112907004B (zh) 学习规划方法、装置及计算机存储介质
Houlsby Efficient Bayesian active learning and matrix modelling
Jiang et al. Learning analytics in a blended computer education course
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
Duran-Dominguez et al. Virtual Classrooms as Data Sources for Prediction Tools
KR102624135B1 (ko) 인공지능 기반 기업용 비대면 프로그래밍 교육 자동화플랫폼 서비스 제공 방법, 장치 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination