CN110288878B - 自适应学习方法及装置 - Google Patents

自适应学习方法及装置 Download PDF

Info

Publication number
CN110288878B
CN110288878B CN201910584394.2A CN201910584394A CN110288878B CN 110288878 B CN110288878 B CN 110288878B CN 201910584394 A CN201910584394 A CN 201910584394A CN 110288878 B CN110288878 B CN 110288878B
Authority
CN
China
Prior art keywords
learning
knowledge unit
student
target
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910584394.2A
Other languages
English (en)
Other versions
CN110288878A (zh
Inventor
马海平
刘淇
陈恩红
王士进
童世炜
黄振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
University of Science and Technology of China USTC
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, iFlytek Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN201910584394.2A priority Critical patent/CN110288878B/zh
Publication of CN110288878A publication Critical patent/CN110288878A/zh
Application granted granted Critical
Publication of CN110288878B publication Critical patent/CN110288878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种自适应学习方法及装置,属于机器学习技术领域。包括:根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元,从而可准确地分析学生在不同时刻的知识掌握程度,并使得推荐结果更符合认知规律,进而可以个性化地为不同学生制定高效的学习路径。

Description

自适应学习方法及装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种自适应学习方法及装置。
背景技术
目前传统教育,特别是课堂教育,只针对一个班级或一个群体进行普适型教育,难以满足学生个性化需求。同时,传统教育对教育资源需求量大,在当前教育资源不足的情况下,容易产生教育资源分配不均的情况,容易导致教育不平等的现象。现急需一种自适应学习方法,以推荐适合学生学习的知识单元满足不同学生的个性化学习需求。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的自适应学习方法及装置。
根据本发明实施例的第一方面,提供了一种自适应学习方法,包括:
根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;
根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
根据本发明实施例的第二方面,提供了一种自适应学习装置,包括:
第一确定模块,用于根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;
第二确定模块,用于根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自适应学习方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自适应学习方法。
本发明实施例提供的自适应学习方法及装置,通过根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合。根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元,从而可准确地分析学生在不同时刻的知识掌握程度,并使得推荐结果更符合认知规律,进而可以个性化地为不同学生制定高效的学习路径。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自适应学习方法的流程示意图;
图2为本发明实施例提供的一种目标学习路径的示意图;
图3为本发明实施例提供的一种预设模型的结构示意图;
图4为本发明实施例提供的一种自适应学习装置的结构示意图;
图5为本发明实施例提供的一种电子设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,自适应学习方法主要是有如下两种:
(1)基于学习状态的方法
由于不同学生的学习能力不同,从而对于每一学生,每一个知识单元所带来的学习收益也各不相同。因此,不同学生的学习状态及其变化规律是不同的。基于项目反应理论,根据学生在不同知识单元上的表现,可以推测学生的状态和能力,并基于此向学生推荐难度适中的知识单元。除此之外,还可以将自适应学习过程视为一个马尔可夫决策过程,将学生学习状态的演变过程用马尔可夫决策过程的转移矩阵来模拟,并使用强化学习算法挖掘学习状态与知识单元之间的关系。
(2)基于知识结构的方法
通过对知识单元之间的关系进行数据分析,结合知识单元的相似性、难度等进行推荐。具体地,可将知识图谱引入其中,通过将知识体系表达为图谱形式,基于知识单元的特征和关系制定推荐规则来为学生规划学习路径。或者,由于学生的学习能力可以反映在其学习轨迹上,而相似的学习能力对应相似的知识结构,从而可以使用协同过滤等方法给学生推荐相似的知识单元。例如,将传统电商推荐的方法迁移运用于教育推荐中。
针对上述第一种方式,基于学生学习状态的方法无法有效地利用已有的知识结构,可能会提供违***认知规律的不合逻辑的学习路径。而针对上述第二种方式,基于知识结构的方法无法有效针对不同学生制定个性化学习方法,只能和传统教育方法一样,从群组层面规划出普适型的学习路径,从而无法保证学习的高效性。
针对上述两种方式中存在的问题,本发明实施例提供了一种自适应学习方法。该方法可以用于知识单元的推荐场景,本发明实施例对此不作具体限定。具体地,由于学生在学习某门课程时,不同的知识单元是前后铺垫的,如学完函数与极限,才能学习导数和微积分,从而学生在学习完某一知识单元后,需要向其推荐下一个需要学习的知识单元。参见图1,该方法包括:
101、根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元。
其中,目标学习路径指的是普适性学习路径,其可以包含知识单元及知识单元之间的先后顺序,具体可以通过带方向的连接示意图的形式进行表示。第一知识单元可以根据学生的学习进展进行确定,如学生当前正在学习第3个知识单元或者第3个知识单元刚好学习完毕,则第3个知识单元即为该学生当前学习的第一知识单元。另外,目标学习路径中包含该第一知识单元,候选知识单元集合也是从目标学习路径中筛选出来的知识单元。
102、根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
其中,学生的当前学习状态可包含该学生的历史测验成绩及该学生的学习目标,并可通过向量的形式进行体现,本发明实施例对此不作具体限定。需要说明的是,在按照上述方式确定下一个需要学习的知识单元后,可向学生推荐该知识单元。若该学生正在学习该知识单元或者学习完了该知识单元,则可将该知识单元作为该学生当前学习的第一知识单元,并按照上述步骤101至102继续为该学生推荐下一个知识单元。通过上述推荐过程,直至学生学习完毕后,每一步推荐的知识单元可以形成一个学习路径。该学习路径可以作为新的目标学习路径,并用于自适应学习的过程。
本发明实施例提供的方法,通过根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合。根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元,从而可准确地分析学生在不同时刻的知识掌握程度,并使得推荐结果更符合认知规律,进而可以个性化地为不同学生制定高效的学习路径。
基于上述实施例的内容,作为一种可选实施例,在根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率之前,还可以获取学生的当前学习状态。本发明实施例不对获取学生的当前学习状态的方式作具体限定,包括但不限于:根据学生的历史测验记录,获取学生的当前学习状态向量,历史测验记录用于表示对目标学习路径中知识单元的测验结果;获取学生的指示向量,将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态,指示向量用于表示目标学习路径中作为学习目标的知识单元。
其中,历史测验记录指的是对于每次历史测验中考核的知识单元,学生对这些知识单元的答题情况或者学习情况。每次历史测验记录都可以通过一个历史测验向量进行表示,所有历史测验记录可以通过如下序列进行表示x=(x1,x2,...)。以x1为例,x1表示的是第一次历史测验记录的答题或者学习情况,也即第一次历史测验记录对应的历史测验向量,x2表示的是第二次历史测验记录对应的历史测验向量,后面的向量同理。以答题情况为例,x1的维度可以为知识单元数量的两倍。
例如,若在第一次历史测验中只考核ID为130的知识单元,且考核了一道题,而该学生答对了ID为130的知识单元对应的题目,则x1=(0,0,...,0,1(261),0,0,...,0)。其中,“261”指的是x1中第261维的元素,该元素的值为1表示学生答对了ID为130的知识单元对应的题目。若该学生答错了ID为130的知识单元对应的题目,则x1=(0,0,...,0,1(260),0,0,...,0)。其中,“260”指的是x1中第260维的元素,该元素的值为1表示学生答错了ID为130的知识单元对应的题目。
也即,每个知识单元对应的题目是答对还是答错,可通过两个维度的元素进行表示。例如,ID为1的知识单元对应的题目是答对还是答错,可以通过第1维及第2维的元素进行表示。ID为130的知识单元对应的题目是答对还是答错,可以通过第260维及第261维的元素进行表示。
由上述内容可知,历史测验记录是可以通过历史测验向量进行表示的,而这些历史测验向量组成的序列x=(x1,x2,...)可以反映学生的学习状态及该学生学习情况的演变规律。因此,根据学生的历史测验向量,可进一步地获取学生的当前学习状态向量。其中,当前学习状态向量可以反映经过多次历史测验记录后学生的学习状态,还可以反映学生学习情况的演变规律。
另外,指示向量的维度可以与知识单元数量相同。通过对所有知识单元进行编号,每个知识单元可以对应一个维度的元素。例如,第i个知识单元可对应指示向量中第i维的元素。对于指示向量中第i维的元素,若第i维的元素为1,则可表示第i个知识单元是作为学习目标的知识单元。若第i维的元素为0,则可表示第i个知识单元不是作为学习目标的知识单元。当然,实际实施过程中也可以反过来,也即1代表不是作为学习目标的知识单元,0代表是作为学习目标的知识单元,本发明实施例对此不作具体限定。
需要说明的是,作为学习目标的知识单元可以不止一个,本发明实施例对此不作具体限定。例如,指示向量可以为(0,0,0,0,1(5),0,0,1(8),0,...,0,1(100),0,…,0)。其中,“5”、“8”及“100”表示第5个、第8个及第100个知识单元是作为学习目标的知识单元。在得到学生的当前学习状态向量及指示向量后,可以将两者进行拼接,从而将拼接后得到的向量作为学生的当前学习状态。
本发明实施例提供的方法,通过根据学生的历史测验记录,获取学生的当前学习状态向量。获取学生的指示向量,将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态。由于学生的当前学习状态可以反映经过多次历史测验记录后学生的学习状态,还可以反映学生学习情况的演变规律,从而后续根据学生的当前学习状态,可以个性化地为不同学生制定高效的学习路径。
基于上述实施例的内容,作为一种可选实施例,历史测验记录为历史测验向量;相应地,本发明实施例不对根据学生的历史测验记录,获取学生的当前学习状态向量的方式作具体限定,包括但不限于:将每一历史测验向量输入至预设模型中,输出测验时刻最晚的历史测验向量对应的学习状态向量,并作为当前学习状态向量。
具体地,每一历史测验向量均可以对应一个学习状态向量。例如,历史测验向量x1可对应学习状态向量S1,历史测验向量xt可对应学习状态向量St。其中,预设模型可以用于预测下次测验该学生的答题或学习情况。预设模型的输入可以为不同的历史测验向量,输出可以为下次测验该学生的答题或学习情况,输出结果也可以通过向量表示。由于每次历史测验均是在不同时刻进行的,从而历史测验向量在时间上存在排序。而测验时刻最晚的历史测验向量对应的学习状态向量,由于其结合了之前所有的历史测验向量,是能够反映该学生的当前学习状态及学习情况演变规律的,从而可作为当前学习状态向量。另外,预设模型可以具体为长短期记忆模型,还可以为基于长短期记忆模型进行改进后的深度知识追踪模型,本发明实施例对此不作具体限定。
本发明实施例提供的方法,由于当前学习状态向量是能够反映该学生的当前学习状态及学习情况演变规律的,从而后续根据学生的当前学习状态,可以个性化地为不同学生制定高效的学习路径。
基于上述实施例的内容,作为一种可选实施例,预设模型至少包括嵌入层、隐层及全连接层;相应地,本发明实施例不对将每一历史测验向量输入至预设模型中,输出每一历史测验向量对应的学习状态向量的方式作具体限定,包括但不限于:将每一历史测验向量输入至嵌入层,输出每一历史测验向量对应的学习表征向量;将每一学习表征向量输入至隐层,输出每一历史测验向量对应的学习状态隐向量;将初始学习状态隐向量及每一学习状态隐向量输入至全连接层,输出测验时刻最晚的历史测验向量对应的学习状态向量。
具体地,由于历史测验向量可能会较为稀疏,从而通过嵌入层,可以将稀疏向量变为稠密向量,以用来压缩学习或答题情况的表征。其中,预设模型的结构及输出学习状态向量的过程可参考图2。在图2中,x1至xt表示历史测验向量,x1’至xt’表示经过嵌入层后输出的学习表征向量,h1至ht表示经过隐层后输出的学习状态隐向量,h0表示初始学习状态隐向量,S1至St表示经过全连接层后输出的学习状态向量。由图2可知,S1是基于h0及h1得到的,S2是基于h0、h1及h2得到的,后面的依次类推,St是基于h0至ht得到的。
需要说明的是,初始学习状态隐向量主要是起到辅助计算的作用,其可能带来的误差会随着从S1计算至St而逐渐削弱。另外,如图2,预设模型实际上会输出每一历史测验向量对应的学习状态向量,本发明实施例主要需要使用St,也即测验时刻最晚的历史测验向量对应的学习状态向量,并作为当前学习状态向量。
本发明实施例提供的方法,由于当前学习状态向量是能够反映该学生的当前学习状态及学习情况演变规律的,从而后续根据学生的当前学习状态,可以个性化地为不同学生制定高效的学习路径。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合的方式作具体限定,包括但不限于:确定目标学习路径中第一知识单元之前m跳内的第二知识单元,以及目标学习路径中第一知识单元之后n跳内的第三知识单元,m与n均为不小于1的正整数;根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元,确定候选知识单元集合。
其中,m与n的值可以根据需求进行设置,两者可以相同,也可以不同,本发明实施例对此不作具体限定。如图3所示,图3为一种目标学习路径的示意图。在图3中,每一个节点均代表一个知识单元,不同的知识单元通过节点中的标号进行区分。以标号为3的节点为第一知识单元,m为1为例,则第一知识单元之前1跳内的第二知识单元,即为标号1对应的节点。以n为2为例,第一知识单元之后2跳内的第三知识单元,为标号为4及标号为8的节点。在确定目标学习路径中的第二知识单元及第三知识单元后,可直接由第二知识单元及第三知识单元组成候选知识单元集合。需要说明的是,第二知识单元与第三知识单元的各自数量可能会不止一个。
还需要说明的是,按照常规学习方式,学生在学习完标号为3的第一知识单元后,应该需要继续向后学习。但考虑到,学生学习还有需要复习的可能性,从而位于第一知识单元之前的第二知识单元也纳入后续可能需要学习的考虑范围内,进而将第二知识单元也放置入候选知识单元集合内。
本发明实施例提供的方法,由于将位于第一知识单元之前的第二知识单元也纳入后续可能需要学习的考虑范围内,从而能够让学生实现复习,以达到更好的学习效果。
考虑到学生学习流程需遵照目标学习路径及以学习终点(也即作为学习目标的知识单元)为目的,而如果直接由第二知识单元及第三知识单元组成候选知识单元集合,则可能会导致候选知识单元集合中存在知识单元不能到达学习终点,进而使得学生学习过程不符合认知规律。针对该情形,基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元,确定候选知识单元集合的方式作具体限定,包括但不限于:基于预设条件及目标学习路径,对第二知识单元及第三知识单元进行筛选,并由筛选后的知识单元组成候选知识单元集合;其中,预设条件为能与第一知识单元及作为目标的知识单元之间组成联通路径。
例如,在图3中,节点1、2、3、4、8、9是能够组成联通路径的,而节点2、0、1、3,由于节点之间连线方向问题,是不能够组成联通路径的。
本发明实施例提供的方法,通过对第二知识单元及第三知识单元进行筛选,得到候选知识单元集合,后续可基于筛选得到的候选知识单元集合,确定下一个需要学习的知识单元。由于候选知识单元集合中的每一知识单元与第一知识单元及作为目标的知识单元之间可以组成联通路径,从而使基于此确定的学习路径符合认知规律。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率的方式作具体限定,包括但不限于:获取从第一知识单元学习至目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值;根据学习能力增量值,确定策略网络模型中预设参数的最终取值,并将当前学习状态输入至策略网络模型,输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。
其中,上述过程可以通过强化学习的方式实现,也即通过策略网络模型及价值网络模型,确定学生下一个需要学习的知识单元。强化学习的过程主要涉及到如下三个要素,分别为状态、动作及奖励。
其中,状态即指的是学生的当前学习状态。对于上述实施例中的步骤101及步骤102,每一次确定学生下一个需要学习的知识单元即为一个动作。另外,在学习过程中,奖励信号始终为0,直至学习至作为目标的知识单元,也即学习过程结束。在学习过程结束后,可以定义学生的学习能力增量值作为奖励信号。其中,学习能力增量值
Figure BDA0002113965410000101
的计算过程可参考如下公式:
Figure BDA0002113965410000102
在上述公式中,
Figure BDA0002113965410000103
表示学习能力增量值,Es表示学习阶段开始时的测验成绩,Ee表示学习阶段结束后的测验成绩,Esup表示测验的满分值。其中,可以在学习阶段开始前及结束后,使学生各参加一次测验,从而根据测验结果各获取Es及Ee
基于上述内容,可以用数学形式给出强化学习的最优化目标:
Figure BDA0002113965410000104
在上述公式中,γ为强化学习中的折扣因子常数,N为学习阶段内的总次数,rj表示每次学习的奖励信号,Ri表示从第i步动至第N步动作(也即表示的是学生从第一知识单元学习至作为目标的知识单元)之间每一步动作的奖励信号之和。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据学习能力增量值,确定策略网络模型中预设参数的最终取值的方式作具体限定,包括但不限于:将当前学习状态输入至价值网络模型,调整价值网络模型中预设参数的取值,以使得价值网络模型的输出结果与学习能力增量值之间的差值最小,并将差值最小时预设参数的取值作为预设参数的最终取值,价值网络模型与策略网络模型均包含有预设参数。
具体地,可先定义一个价值网络模型v(·|θv),以用于估计某一状态在未来可获得的奖励收益总值vi=v(stateiv)。其中,θv指的是价值网络模型中的预设参数。将随机策略应用于价值网络模型上,可以将演员-评判家算法应用于知识单元的推荐生成之上。在进行到第i步动作时,策略梯度函数可参考如下公式:
Figure BDA0002113965410000111
在上述公式中,π(·)表示策略网络模型中的策略函数。候选知识单元集合中的每一知识单元均相当于一种学习路径的策略,在给定当前学习状态statei和预设参数的取值后,可输出候选知识单元集合中的每一知识单元作为下一个需要学习的知识单元时,其作为最优动作的概率值。
其中,预设参数的最终取值可通过价值网络模型的损失函数进行确定,损失函数可参考如下公式:
Figure BDA0002113965410000112
将策略网络模型的策略梯度函数与价值网络模型的损失函数进行结合,可以得到整个网络的损失函数,具体参考如下公式:
Figure BDA0002113965410000113
在上述公式中,α及β均为超参数。通过调整价值网络模型中预设参数的取值,可以使得价值网络模型的输出结果vi发生变化,直至价值网络模型的输出结果与学习能力增量值之间的差值最小,即可将此时的取值作为预设参数θv的最终取值。由于策略网络模型与价值网络模型均包含有预设参数,在确定预设参数后,可将当前学习状态输入至策略网络模型,即可输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率,从而可将最大概率对应的知识单元作为学生下一个需要学习的知识单元。需要说明的是,最优解指的是可达到强化学习的最优化目标,也即使得价值网络模型的输出结果与学习能力增量值之间的差值最小。
本发明实施例提供的方法,通过将学习路径推荐问题转化为逐步的马尔可夫决策问题,并应用演员-评论家算法,动态更新推荐策略,从而顺序地向不同学生推荐能实现高效学习的知识单元。
基于上述实施例的内容,本发明实施例提供了一种自适应学习装置,该自适应学习装置用于执行上述方法实施例中提供的自适应学习方法。参见图4,该装置包括:
第一确定模块401,用于根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;
第二确定模块402,用于根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
作为一种可选实施例,该装置还包括:
第一获取模块,用于根据学生的历史测验记录,获取学生的当前学习状态向量,历史测验记录用于表示对目标学习路径中知识单元的测验结果;
第二获取模块,用于获取学生的指示向量;
拼接模块,用于将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态,指示向量用于表示目标学习路径中作为学习目标的知识单元。
作为一种可选实施例,第一获取模块,用于将每一历史测验向量输入至预设模型中,输出测验时刻最晚的历史测验向量对应的学习状态向量,并作为当前学习状态向量。
作为一种可选实施例,预设模型至少包括嵌入层、隐层及全连接层;相应地,第一获取模块,用于将每一历史测验向量输入至嵌入层,输出每一历史测验向量对应的学习表征向量;将每一学习表征向量输入至隐层,输出每一历史测验向量对应的学习状态隐向量;将初始学习状态隐向量及每一学习状态隐向量输入至全连接层,输出测验时刻最晚的历史测验向量对应的学习状态向量。
作为一种可选实施例,第一确定模块401,用于确定目标学习路径中第一知识单元之前m跳内的第二知识单元,以及目标学习路径中第一知识单元之后n跳内的第三知识单元,m与n均为不小于1的正整数;根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元,确定候选知识单元集合。
作为一种可选实施例,第二确定模块402,包括:
获取单元,用于获取从第一知识单元学习至目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值;
第二确定单元,用于根据学习能力增量值,确定策略网络模型中预设参数的最终取值;
第二输出单元,用于将当前学习状态输入至策略网络模型,输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。
作为一种可选实施例,第二确定单元,用于将当前学习状态输入至价值网络模型,调整价值网络模型中预设参数的取值,以使得价值网络模型的输出结果与学习能力增量值之间的差值最小,并将差值最小时预设参数的取值作为预设参数的最终取值,价值网络模型与策略网络模型均包含有预设参数。
本发明实施例提供的装置,通过根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合。根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元,从而可准确地分析学生在不同时刻的知识掌握程度,并使得推荐结果更符合认知规律,进而可以个性化地为不同学生制定高效的学习路径。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,目标学习路径中包括学生需要学习的所有知识单元;根据学生的当前学习状态,确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元,目标知识单元为学生下一个需要学习的知识单元。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种自适应学习方法,其特征在于,包括:
根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,所述目标学习路径中包括所述学生需要学习的所有知识单元;
根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将所述候选知识单元集合中最大概率对应的知识单元作为所述目标知识单元,所述目标知识单元为所述学生下一个需要学习的知识单元;
其中,所述当前学习状态包含所述学生的历史测验成绩及所述学生的学习目标;
所述根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率通过强化学习实现,所述强化学习的过程中的状态为所述学生的当前学习状态,所述强化学习的过程中的动作为确定所述学生下一个需要学习的知识单元,所述强化学习的过程中的奖励为学习至所述目标知识单元后所述学生的学习能力增量值。
2.根据权利要求1所述的自适应学习方法,其特征在于,所述根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率之前,还包括:
根据所述学生的历史测验记录,获取所述学生的当前学习状态向量,所述历史测验记录用于表示对所述目标学习路径中知识单元的测验结果;
获取所述学生的指示向量,将所述指示向量及所述当前学习状态向量进行拼接后得到的向量作为所述学生的当前学习状态,所述指示向量用于表示所述目标学习路径中作为学习目标的知识单元。
3.根据权利要求2所述的自适应学习方法,其特征在于,所述历史测验记录为历史测验向量;相应地,所述根据所述学生的历史测验记录,获取所述学生的当前学习状态向量,包括:
将每一历史测验向量输入至预设模型中,输出测验时刻最晚的历史测验向量对应的学习状态向量,并作为所述当前学习状态向量。
4.根据权利要求3所述的自适应学习方法,其特征在于,所述预设模型至少包括嵌入层、隐层及全连接层;相应地,所述将每一历史测验向量输入至预设模型中,输出测验时刻最晚的历史测验向量对应的学习状态向量,包括:
将每一历史测验向量输入至所述嵌入层,输出每一历史测验向量对应的学习表征向量;
将每一学习表征向量输入至所述隐层,输出每一历史测验向量对应的学习状态隐向量;
将初始学习状态隐向量及每一学习状态隐向量输入至所述全连接层,输出测验时刻最晚的历史测验向量对应的学习状态向量。
5.根据权利要求1所述的自适应学习方法,其特征在于,所述根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,包括:
确定所述目标学习路径中所述第一知识单元之前m跳内的第二知识单元,以及所述目标学习路径中所述第一知识单元之后n跳内的第三知识单元,m与n均为不小于1的正整数;
根据所述第一知识单元、所述第二知识单元、所述第三知识单元及所述目标学习路径中作为学习目标的知识单元,确定所述候选知识单元集合。
6.根据权利要求1所述的自适应学习方法,其特征在于,所述根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,包括:
获取从所述第一知识单元学习至所述目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值;
根据所述学习能力增量值,确定策略网络模型中预设参数的最终取值,并将所述当前学习状态输入至所述策略网络模型,输出所述候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。
7.根据权利要求6所述的自适应学习方法,其特征在于,所述根据所述学习能力增量值,确定策略网络模型中预设参数的最终取值,包括:
将所述当前学习状态输入至价值网络模型,调整所述价值网络模型中所述预设参数的取值,以使得所述价值网络模型的输出结果与所述学习能力增量值之间的差值最小,并将差值最小时所述预设参数的取值作为所述预设参数的最终取值,所述价值网络模型与所述策略网络模型均包含有所述预设参数。
8.一种自适应学习装置,其特征在于,包括:
第一确定模块,用于根据目标学习路径及学生当前学习的第一知识单元,确定候选知识单元集合,所述目标学习路径中包括所述学生需要学习的所有知识单元;
第二确定模块,用于根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率,并将所述候选知识单元集合中最大概率对应的知识单元作为所述目标知识单元,所述目标知识单元为所述学生下一个需要学习的知识单元;
其中,所述当前学习状态包含所述学生的历史测验成绩及所述学生的学习目标;
所述根据所述学生的当前学习状态,确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率通过强化学习实现,所述强化学习的过程中的状态为所述学生的当前学习状态,所述强化学习的过程中的动作为确定所述学生下一个需要学习的知识单元,所述强化学习的过程中的奖励为学习至所述目标知识单元后所述学生的学习能力增量值。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201910584394.2A 2019-07-01 2019-07-01 自适应学习方法及装置 Active CN110288878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910584394.2A CN110288878B (zh) 2019-07-01 2019-07-01 自适应学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910584394.2A CN110288878B (zh) 2019-07-01 2019-07-01 自适应学习方法及装置

Publications (2)

Publication Number Publication Date
CN110288878A CN110288878A (zh) 2019-09-27
CN110288878B true CN110288878B (zh) 2021-10-08

Family

ID=68021364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910584394.2A Active CN110288878B (zh) 2019-07-01 2019-07-01 自适应学习方法及装置

Country Status (1)

Country Link
CN (1) CN110288878B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928920B (zh) * 2019-11-19 2022-08-09 广东交通职业技术学院 一种基于改进位置社交的知识推荐方法、***及存储介质
CN112053091A (zh) * 2020-09-28 2020-12-08 北京爱论答科技有限公司 一种基于学习操作的数据处理方法及***
CN112180726A (zh) * 2020-09-29 2021-01-05 北京航空航天大学 一种基于元学习的航天器相对运动轨迹规划方法
CN112906293B (zh) * 2021-01-28 2023-05-02 北京航空航天大学 一种基于复习机制的机器教学方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765842A (zh) * 2015-04-15 2015-07-08 中山大学 一种最佳学习方案推送方法及***
CN108614865A (zh) * 2018-04-08 2018-10-02 暨南大学 基于深度强化学习的个性化学习推荐方法
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN109155049A (zh) * 2016-02-25 2019-01-04 日益得有限公司 提供个人定制型教育内容的方法、设备及计算机程序
CN109241291A (zh) * 2018-07-18 2019-01-18 华南师范大学 基于深度强化学习的知识图谱最优路径查询***及其方法
CN109241424A (zh) * 2018-08-29 2019-01-18 陕西师范大学 一种推荐方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105853A (zh) * 2007-08-16 2008-01-16 上海交通大学 网络教学中基于非零起点的个性化导学***
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法
US10043411B2 (en) * 2016-02-24 2018-08-07 NEUROHM Sp. z o.o. Spolka komandytowa Filters and related methods of use in measuring reaction times

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765842A (zh) * 2015-04-15 2015-07-08 中山大学 一种最佳学习方案推送方法及***
CN109155049A (zh) * 2016-02-25 2019-01-04 日益得有限公司 提供个人定制型教育内容的方法、设备及计算机程序
CN108614865A (zh) * 2018-04-08 2018-10-02 暨南大学 基于深度强化学习的个性化学习推荐方法
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN109241291A (zh) * 2018-07-18 2019-01-18 华南师范大学 基于深度强化学习的知识图谱最优路径查询***及其方法
CN109241424A (zh) * 2018-08-29 2019-01-18 陕西师范大学 一种推荐方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向在线智慧学***;《模式识别与人工智能》;20180131;第77-90页 *

Also Published As

Publication number Publication date
CN110288878A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110288878B (zh) 自适应学习方法及装置
Ramírez-Noriega et al. Evaluation module based on Bayesian networks to Intelligent Tutoring Systems
Abu Seman et al. Millennial learners’ acceptance and satisfaction of blended learning environment
Ivanov et al. Implementation of developmental education in the digital learning environment
CN112085560A (zh) 一种基于云计算的智能教育方法及***
CN110909880A (zh) 一种基于深度知识追踪的众包工人表现预测方法
CN116541538B (zh) 基于大数据的智慧学习知识点挖掘方法及***
Intisar et al. Classification of online judge programmers based on rule extraction from self organizing feature map
CN114429212A (zh) 智能学习知识能力跟踪方法、电子设备及存储介质
CN112348725A (zh) 基于大数据的知识点难度定级方法
CN110968512A (zh) 软件质量评估方法、装置、设备及计算机可读存储介质
CN115329959A (zh) 一种基于双流知识嵌入网络的学习目标推荐方法
Galvez et al. Student knowledge diagnosis using item response theory and constraint-based modeling
KR102385073B1 (ko) 점수 확률분포 형태 통일화를 통해 평가 가능한 문제를 추천하는 학습 문제 추천 시스템 및 이것의 동작방법
CN113094404B (zh) 一种大数据采集多核参数自适应分时记忆驱动方法及***
KR102388911B1 (ko) 데이터 증강 기반 지식 추적 모델 학습 장치, 시스템 및 그것의 동작방법
CN114090733A (zh) 学习资源推荐方法、装置、存储介质和电子设备
US11501654B2 (en) Automated decision making for selecting scaffolds after a partially correct answer in conversational intelligent tutor systems (ITS)
CN114595317A (zh) 回复文本的生成方法、装置、设备及存储介质
Rautenberg et al. Methods to construct a step-by-step beginner’s guide to decision analytic cost-effectiveness modeling
CN111815489A (zh) 一种基于大数据的算法分析设计教学方法及装置
CN111178770A (zh) 答题数据评估和学习图像构建方法、装置及存储介质
US20240221523A1 (en) Pre-training modeling system and method for predicting educational element
Abbasov et al. Informational modeling of the behavior of a teacher in the learning process based on fuzzy logic
CN115098790B (zh) 在线教育平台用的课程管理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant