CN110288878B

CN110288878B - 自适应学习方法及装置

Info

Publication number: CN110288878B
Application number: CN201910584394.2A
Authority: CN
Inventors: 马海平; 刘淇; 陈恩红; 王士进; 童世炜; 黄振亚
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-10-08
Anticipated expiration: 2039-07-01
Also published as: CN110288878A

Abstract

本发明实施例提供一种自适应学习方法及装置，属于机器学习技术领域。包括：根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元，从而可准确地分析学生在不同时刻的知识掌握程度，并使得推荐结果更符合认知规律，进而可以个性化地为不同学生制定高效的学习路径。

Description

自适应学习方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种自适应学习方法及装置。

背景技术

目前传统教育，特别是课堂教育，只针对一个班级或一个群体进行普适型教育，难以满足学生个性化需求。同时，传统教育对教育资源需求量大，在当前教育资源不足的情况下，容易产生教育资源分配不均的情况，容易导致教育不平等的现象。现急需一种自适应学习方法，以推荐适合学生学习的知识单元满足不同学生的个性化学习需求。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的自适应学习方法及装置。

根据本发明实施例的第一方面，提供了一种自适应学习方法，包括：

根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；

根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

根据本发明实施例的第二方面，提供了一种自适应学习装置，包括：

第一确定模块，用于根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；

第二确定模块，用于根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自适应学习方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自适应学习方法。

本发明实施例提供的自适应学习方法及装置，通过根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合。根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元，从而可准确地分析学生在不同时刻的知识掌握程度，并使得推荐结果更符合认知规律，进而可以个性化地为不同学生制定高效的学习路径。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自适应学习方法的流程示意图；

图2为本发明实施例提供的一种目标学习路径的示意图；

图3为本发明实施例提供的一种预设模型的结构示意图；

图4为本发明实施例提供的一种自适应学习装置的结构示意图；

图5为本发明实施例提供的一种电子设备的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，自适应学习方法主要是有如下两种：

(1)基于学习状态的方法

由于不同学生的学习能力不同，从而对于每一学生，每一个知识单元所带来的学习收益也各不相同。因此，不同学生的学习状态及其变化规律是不同的。基于项目反应理论，根据学生在不同知识单元上的表现，可以推测学生的状态和能力，并基于此向学生推荐难度适中的知识单元。除此之外，还可以将自适应学习过程视为一个马尔可夫决策过程，将学生学习状态的演变过程用马尔可夫决策过程的转移矩阵来模拟，并使用强化学习算法挖掘学习状态与知识单元之间的关系。

(2)基于知识结构的方法

通过对知识单元之间的关系进行数据分析，结合知识单元的相似性、难度等进行推荐。具体地，可将知识图谱引入其中，通过将知识体系表达为图谱形式，基于知识单元的特征和关系制定推荐规则来为学生规划学习路径。或者，由于学生的学习能力可以反映在其学习轨迹上，而相似的学习能力对应相似的知识结构，从而可以使用协同过滤等方法给学生推荐相似的知识单元。例如，将传统电商推荐的方法迁移运用于教育推荐中。

针对上述第一种方式，基于学生学习状态的方法无法有效地利用已有的知识结构，可能会提供违***认知规律的不合逻辑的学习路径。而针对上述第二种方式，基于知识结构的方法无法有效针对不同学生制定个性化学习方法，只能和传统教育方法一样，从群组层面规划出普适型的学习路径，从而无法保证学习的高效性。

针对上述两种方式中存在的问题，本发明实施例提供了一种自适应学习方法。该方法可以用于知识单元的推荐场景，本发明实施例对此不作具体限定。具体地，由于学生在学习某门课程时，不同的知识单元是前后铺垫的，如学完函数与极限，才能学习导数和微积分，从而学生在学习完某一知识单元后，需要向其推荐下一个需要学习的知识单元。参见图1，该方法包括：

101、根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元。

其中，目标学习路径指的是普适性学习路径，其可以包含知识单元及知识单元之间的先后顺序，具体可以通过带方向的连接示意图的形式进行表示。第一知识单元可以根据学生的学习进展进行确定，如学生当前正在学习第3个知识单元或者第3个知识单元刚好学习完毕，则第3个知识单元即为该学生当前学习的第一知识单元。另外，目标学习路径中包含该第一知识单元，候选知识单元集合也是从目标学习路径中筛选出来的知识单元。

102、根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

其中，学生的当前学习状态可包含该学生的历史测验成绩及该学生的学习目标，并可通过向量的形式进行体现，本发明实施例对此不作具体限定。需要说明的是，在按照上述方式确定下一个需要学习的知识单元后，可向学生推荐该知识单元。若该学生正在学习该知识单元或者学习完了该知识单元，则可将该知识单元作为该学生当前学习的第一知识单元，并按照上述步骤101至102继续为该学生推荐下一个知识单元。通过上述推荐过程，直至学生学习完毕后，每一步推荐的知识单元可以形成一个学习路径。该学习路径可以作为新的目标学习路径，并用于自适应学习的过程。

本发明实施例提供的方法，通过根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合。根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元，从而可准确地分析学生在不同时刻的知识掌握程度，并使得推荐结果更符合认知规律，进而可以个性化地为不同学生制定高效的学习路径。

基于上述实施例的内容，作为一种可选实施例，在根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率之前，还可以获取学生的当前学习状态。本发明实施例不对获取学生的当前学习状态的方式作具体限定，包括但不限于：根据学生的历史测验记录，获取学生的当前学习状态向量，历史测验记录用于表示对目标学习路径中知识单元的测验结果；获取学生的指示向量，将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态，指示向量用于表示目标学习路径中作为学习目标的知识单元。

其中，历史测验记录指的是对于每次历史测验中考核的知识单元，学生对这些知识单元的答题情况或者学习情况。每次历史测验记录都可以通过一个历史测验向量进行表示，所有历史测验记录可以通过如下序列进行表示x＝(x₁，x₂，...)。以x₁为例，x₁表示的是第一次历史测验记录的答题或者学习情况，也即第一次历史测验记录对应的历史测验向量，x₂表示的是第二次历史测验记录对应的历史测验向量，后面的向量同理。以答题情况为例，x₁的维度可以为知识单元数量的两倍。

例如，若在第一次历史测验中只考核ID为130的知识单元，且考核了一道题，而该学生答对了ID为130的知识单元对应的题目，则x₁＝(0，0，...,0，1⁽²⁶¹⁾，0，0，...，0)。其中，“261”指的是x₁中第261维的元素，该元素的值为1表示学生答对了ID为130的知识单元对应的题目。若该学生答错了ID为130的知识单元对应的题目，则x₁＝(0，0，...,0，1⁽²⁶⁰⁾，0，0，...，0)。其中，“260”指的是x₁中第260维的元素，该元素的值为1表示学生答错了ID为130的知识单元对应的题目。

也即，每个知识单元对应的题目是答对还是答错，可通过两个维度的元素进行表示。例如，ID为1的知识单元对应的题目是答对还是答错，可以通过第1维及第2维的元素进行表示。ID为130的知识单元对应的题目是答对还是答错，可以通过第260维及第261维的元素进行表示。

由上述内容可知，历史测验记录是可以通过历史测验向量进行表示的，而这些历史测验向量组成的序列x＝(x₁，x₂，...)可以反映学生的学习状态及该学生学习情况的演变规律。因此，根据学生的历史测验向量，可进一步地获取学生的当前学习状态向量。其中，当前学习状态向量可以反映经过多次历史测验记录后学生的学习状态，还可以反映学生学习情况的演变规律。

另外，指示向量的维度可以与知识单元数量相同。通过对所有知识单元进行编号，每个知识单元可以对应一个维度的元素。例如，第i个知识单元可对应指示向量中第i维的元素。对于指示向量中第i维的元素，若第i维的元素为1，则可表示第i个知识单元是作为学习目标的知识单元。若第i维的元素为0，则可表示第i个知识单元不是作为学习目标的知识单元。当然，实际实施过程中也可以反过来，也即1代表不是作为学习目标的知识单元，0代表是作为学习目标的知识单元，本发明实施例对此不作具体限定。

需要说明的是，作为学习目标的知识单元可以不止一个，本发明实施例对此不作具体限定。例如，指示向量可以为(0,0,0,0,1⁽⁵⁾,0,0,1⁽⁸⁾,0,...,0,1⁽¹⁰⁰⁾,0,…,0)。其中，“5”、“8”及“100”表示第5个、第8个及第100个知识单元是作为学习目标的知识单元。在得到学生的当前学习状态向量及指示向量后，可以将两者进行拼接，从而将拼接后得到的向量作为学生的当前学习状态。

本发明实施例提供的方法，通过根据学生的历史测验记录，获取学生的当前学习状态向量。获取学生的指示向量，将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态。由于学生的当前学习状态可以反映经过多次历史测验记录后学生的学习状态，还可以反映学生学习情况的演变规律，从而后续根据学生的当前学习状态，可以个性化地为不同学生制定高效的学习路径。

基于上述实施例的内容，作为一种可选实施例，历史测验记录为历史测验向量；相应地，本发明实施例不对根据学生的历史测验记录，获取学生的当前学习状态向量的方式作具体限定，包括但不限于：将每一历史测验向量输入至预设模型中，输出测验时刻最晚的历史测验向量对应的学习状态向量，并作为当前学习状态向量。

具体地，每一历史测验向量均可以对应一个学习状态向量。例如，历史测验向量x₁可对应学习状态向量S₁，历史测验向量x_t可对应学习状态向量S_t。其中，预设模型可以用于预测下次测验该学生的答题或学习情况。预设模型的输入可以为不同的历史测验向量，输出可以为下次测验该学生的答题或学习情况，输出结果也可以通过向量表示。由于每次历史测验均是在不同时刻进行的，从而历史测验向量在时间上存在排序。而测验时刻最晚的历史测验向量对应的学习状态向量，由于其结合了之前所有的历史测验向量，是能够反映该学生的当前学习状态及学习情况演变规律的，从而可作为当前学习状态向量。另外，预设模型可以具体为长短期记忆模型，还可以为基于长短期记忆模型进行改进后的深度知识追踪模型，本发明实施例对此不作具体限定。

本发明实施例提供的方法，由于当前学习状态向量是能够反映该学生的当前学习状态及学习情况演变规律的，从而后续根据学生的当前学习状态，可以个性化地为不同学生制定高效的学习路径。

基于上述实施例的内容，作为一种可选实施例，预设模型至少包括嵌入层、隐层及全连接层；相应地，本发明实施例不对将每一历史测验向量输入至预设模型中，输出每一历史测验向量对应的学习状态向量的方式作具体限定，包括但不限于：将每一历史测验向量输入至嵌入层，输出每一历史测验向量对应的学习表征向量；将每一学习表征向量输入至隐层，输出每一历史测验向量对应的学习状态隐向量；将初始学习状态隐向量及每一学习状态隐向量输入至全连接层，输出测验时刻最晚的历史测验向量对应的学习状态向量。

具体地，由于历史测验向量可能会较为稀疏，从而通过嵌入层，可以将稀疏向量变为稠密向量，以用来压缩学习或答题情况的表征。其中，预设模型的结构及输出学习状态向量的过程可参考图2。在图2中，x₁至x_t表示历史测验向量，x₁’至x_t’表示经过嵌入层后输出的学习表征向量，h₁至h_t表示经过隐层后输出的学习状态隐向量，h₀表示初始学习状态隐向量，S₁至S_t表示经过全连接层后输出的学习状态向量。由图2可知，S₁是基于h₀及h₁得到的，S₂是基于h₀、h₁及h₂得到的，后面的依次类推，S_t是基于h₀至h_t得到的。

需要说明的是，初始学习状态隐向量主要是起到辅助计算的作用，其可能带来的误差会随着从S₁计算至S_t而逐渐削弱。另外，如图2，预设模型实际上会输出每一历史测验向量对应的学习状态向量，本发明实施例主要需要使用S_t，也即测验时刻最晚的历史测验向量对应的学习状态向量，并作为当前学习状态向量。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合的方式作具体限定，包括但不限于：确定目标学习路径中第一知识单元之前m跳内的第二知识单元，以及目标学习路径中第一知识单元之后n跳内的第三知识单元，m与n均为不小于1的正整数；根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元，确定候选知识单元集合。

其中，m与n的值可以根据需求进行设置，两者可以相同，也可以不同，本发明实施例对此不作具体限定。如图3所示，图3为一种目标学习路径的示意图。在图3中，每一个节点均代表一个知识单元，不同的知识单元通过节点中的标号进行区分。以标号为3的节点为第一知识单元，m为1为例，则第一知识单元之前1跳内的第二知识单元，即为标号1对应的节点。以n为2为例，第一知识单元之后2跳内的第三知识单元，为标号为4及标号为8的节点。在确定目标学习路径中的第二知识单元及第三知识单元后，可直接由第二知识单元及第三知识单元组成候选知识单元集合。需要说明的是，第二知识单元与第三知识单元的各自数量可能会不止一个。

还需要说明的是，按照常规学习方式，学生在学习完标号为3的第一知识单元后，应该需要继续向后学习。但考虑到，学生学习还有需要复习的可能性，从而位于第一知识单元之前的第二知识单元也纳入后续可能需要学习的考虑范围内，进而将第二知识单元也放置入候选知识单元集合内。

本发明实施例提供的方法，由于将位于第一知识单元之前的第二知识单元也纳入后续可能需要学习的考虑范围内，从而能够让学生实现复习，以达到更好的学习效果。

考虑到学生学习流程需遵照目标学习路径及以学习终点(也即作为学习目标的知识单元)为目的，而如果直接由第二知识单元及第三知识单元组成候选知识单元集合，则可能会导致候选知识单元集合中存在知识单元不能到达学习终点，进而使得学生学习过程不符合认知规律。针对该情形，基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元，确定候选知识单元集合的方式作具体限定，包括但不限于：基于预设条件及目标学习路径，对第二知识单元及第三知识单元进行筛选，并由筛选后的知识单元组成候选知识单元集合；其中，预设条件为能与第一知识单元及作为目标的知识单元之间组成联通路径。

例如，在图3中，节点1、2、3、4、8、9是能够组成联通路径的，而节点2、0、1、3，由于节点之间连线方向问题，是不能够组成联通路径的。

本发明实施例提供的方法，通过对第二知识单元及第三知识单元进行筛选，得到候选知识单元集合，后续可基于筛选得到的候选知识单元集合，确定下一个需要学习的知识单元。由于候选知识单元集合中的每一知识单元与第一知识单元及作为目标的知识单元之间可以组成联通路径，从而使基于此确定的学习路径符合认知规律。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率的方式作具体限定，包括但不限于：获取从第一知识单元学习至目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值；根据学习能力增量值，确定策略网络模型中预设参数的最终取值，并将当前学习状态输入至策略网络模型，输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。

其中，上述过程可以通过强化学习的方式实现，也即通过策略网络模型及价值网络模型，确定学生下一个需要学习的知识单元。强化学习的过程主要涉及到如下三个要素，分别为状态、动作及奖励。

其中，状态即指的是学生的当前学习状态。对于上述实施例中的步骤101及步骤102，每一次确定学生下一个需要学习的知识单元即为一个动作。另外，在学习过程中，奖励信号始终为0，直至学习至作为目标的知识单元，也即学习过程结束。在学习过程结束后，可以定义学生的学习能力增量值作为奖励信号。其中，学习能力增量值

的计算过程可参考如下公式：

在上述公式中，

表示学习能力增量值，E_s表示学习阶段开始时的测验成绩，E_e表示学习阶段结束后的测验成绩，E_sup表示测验的满分值。其中，可以在学习阶段开始前及结束后，使学生各参加一次测验，从而根据测验结果各获取E_s及E_e。

基于上述内容，可以用数学形式给出强化学习的最优化目标：

在上述公式中，γ为强化学习中的折扣因子常数，N为学习阶段内的总次数，r_j表示每次学习的奖励信号，R_i表示从第i步动至第N步动作(也即表示的是学生从第一知识单元学习至作为目标的知识单元)之间每一步动作的奖励信号之和。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据学习能力增量值，确定策略网络模型中预设参数的最终取值的方式作具体限定，包括但不限于：将当前学习状态输入至价值网络模型，调整价值网络模型中预设参数的取值，以使得价值网络模型的输出结果与学习能力增量值之间的差值最小，并将差值最小时预设参数的取值作为预设参数的最终取值，价值网络模型与策略网络模型均包含有预设参数。

具体地，可先定义一个价值网络模型v(·|θ_v)，以用于估计某一状态在未来可获得的奖励收益总值v_i＝v(state_i|θ_v)。其中，θ_v指的是价值网络模型中的预设参数。将随机策略应用于价值网络模型上，可以将演员-评判家算法应用于知识单元的推荐生成之上。在进行到第i步动作时，策略梯度函数可参考如下公式：

在上述公式中，π(·)表示策略网络模型中的策略函数。候选知识单元集合中的每一知识单元均相当于一种学习路径的策略，在给定当前学习状态state_i和预设参数的取值后，可输出候选知识单元集合中的每一知识单元作为下一个需要学习的知识单元时，其作为最优动作的概率值。

其中，预设参数的最终取值可通过价值网络模型的损失函数进行确定，损失函数可参考如下公式：

将策略网络模型的策略梯度函数与价值网络模型的损失函数进行结合，可以得到整个网络的损失函数，具体参考如下公式：

在上述公式中，α及β均为超参数。通过调整价值网络模型中预设参数的取值，可以使得价值网络模型的输出结果v_i发生变化，直至价值网络模型的输出结果与学习能力增量值之间的差值最小，即可将此时的取值作为预设参数θ_v的最终取值。由于策略网络模型与价值网络模型均包含有预设参数，在确定预设参数后，可将当前学习状态输入至策略网络模型，即可输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率，从而可将最大概率对应的知识单元作为学生下一个需要学习的知识单元。需要说明的是，最优解指的是可达到强化学习的最优化目标，也即使得价值网络模型的输出结果与学习能力增量值之间的差值最小。

本发明实施例提供的方法，通过将学习路径推荐问题转化为逐步的马尔可夫决策问题，并应用演员-评论家算法，动态更新推荐策略，从而顺序地向不同学生推荐能实现高效学习的知识单元。

基于上述实施例的内容，本发明实施例提供了一种自适应学习装置，该自适应学习装置用于执行上述方法实施例中提供的自适应学习方法。参见图4，该装置包括：

第一确定模块401，用于根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；

第二确定模块402，用于根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

作为一种可选实施例，该装置还包括：

第一获取模块，用于根据学生的历史测验记录，获取学生的当前学习状态向量，历史测验记录用于表示对目标学习路径中知识单元的测验结果；

第二获取模块，用于获取学生的指示向量；

拼接模块，用于将指示向量及当前学习状态向量进行拼接后得到的向量作为学生的当前学习状态，指示向量用于表示目标学习路径中作为学习目标的知识单元。

作为一种可选实施例，第一获取模块，用于将每一历史测验向量输入至预设模型中，输出测验时刻最晚的历史测验向量对应的学习状态向量，并作为当前学习状态向量。

作为一种可选实施例，预设模型至少包括嵌入层、隐层及全连接层；相应地，第一获取模块，用于将每一历史测验向量输入至嵌入层，输出每一历史测验向量对应的学习表征向量；将每一学习表征向量输入至隐层，输出每一历史测验向量对应的学习状态隐向量；将初始学习状态隐向量及每一学习状态隐向量输入至全连接层，输出测验时刻最晚的历史测验向量对应的学习状态向量。

作为一种可选实施例，第一确定模块401，用于确定目标学习路径中第一知识单元之前m跳内的第二知识单元，以及目标学习路径中第一知识单元之后n跳内的第三知识单元，m与n均为不小于1的正整数；根据第一知识单元、第二知识单元、第三知识单元及目标学习路径中作为学习目标的知识单元，确定候选知识单元集合。

作为一种可选实施例，第二确定模块402，包括：

获取单元，用于获取从第一知识单元学习至目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值；

第二确定单元，用于根据学习能力增量值，确定策略网络模型中预设参数的最终取值；

第二输出单元，用于将当前学习状态输入至策略网络模型，输出候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。

作为一种可选实施例，第二确定单元，用于将当前学习状态输入至价值网络模型，调整价值网络模型中预设参数的取值，以使得价值网络模型的输出结果与学习能力增量值之间的差值最小，并将差值最小时预设参数的取值作为预设参数的最终取值，价值网络模型与策略网络模型均包含有预设参数。

本发明实施例提供的装置，通过根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合。根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元。由于可结合知识结构及学生的学习状态推荐下一个需要学习的知识单元，从而可准确地分析学生在不同时刻的知识掌握程度，并使得推荐结果更符合认知规律，进而可以个性化地为不同学生制定高效的学习路径。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，目标学习路径中包括学生需要学习的所有知识单元；根据学生的当前学习状态，确定候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将候选知识单元集合中最大概率对应的知识单元作为目标知识单元，目标知识单元为学生下一个需要学习的知识单元。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自适应学习方法，其特征在于，包括：

根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，所述目标学习路径中包括所述学生需要学习的所有知识单元；

根据所述学生的当前学习状态，确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将所述候选知识单元集合中最大概率对应的知识单元作为所述目标知识单元，所述目标知识单元为所述学生下一个需要学习的知识单元；

其中，所述当前学习状态包含所述学生的历史测验成绩及所述学生的学习目标；

所述根据所述学生的当前学习状态，确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率通过强化学习实现，所述强化学习的过程中的状态为所述学生的当前学习状态，所述强化学习的过程中的动作为确定所述学生下一个需要学习的知识单元，所述强化学习的过程中的奖励为学习至所述目标知识单元后所述学生的学习能力增量值。

2.根据权利要求1所述的自适应学习方法，其特征在于，所述根据所述学生的当前学习状态，确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率之前，还包括：

根据所述学生的历史测验记录，获取所述学生的当前学习状态向量，所述历史测验记录用于表示对所述目标学习路径中知识单元的测验结果；

获取所述学生的指示向量，将所述指示向量及所述当前学习状态向量进行拼接后得到的向量作为所述学生的当前学习状态，所述指示向量用于表示所述目标学习路径中作为学习目标的知识单元。

3.根据权利要求2所述的自适应学习方法，其特征在于，所述历史测验记录为历史测验向量；相应地，所述根据所述学生的历史测验记录，获取所述学生的当前学习状态向量，包括：

将每一历史测验向量输入至预设模型中，输出测验时刻最晚的历史测验向量对应的学习状态向量，并作为所述当前学习状态向量。

4.根据权利要求3所述的自适应学习方法，其特征在于，所述预设模型至少包括嵌入层、隐层及全连接层；相应地，所述将每一历史测验向量输入至预设模型中，输出测验时刻最晚的历史测验向量对应的学习状态向量，包括：

将每一历史测验向量输入至所述嵌入层，输出每一历史测验向量对应的学习表征向量；

将每一学习表征向量输入至所述隐层，输出每一历史测验向量对应的学习状态隐向量；

将初始学习状态隐向量及每一学习状态隐向量输入至所述全连接层，输出测验时刻最晚的历史测验向量对应的学习状态向量。

5.根据权利要求1所述的自适应学习方法，其特征在于，所述根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，包括：

确定所述目标学习路径中所述第一知识单元之前m跳内的第二知识单元，以及所述目标学习路径中所述第一知识单元之后n跳内的第三知识单元，m与n均为不小于1的正整数；

根据所述第一知识单元、所述第二知识单元、所述第三知识单元及所述目标学习路径中作为学习目标的知识单元，确定所述候选知识单元集合。

6.根据权利要求1所述的自适应学习方法，其特征在于，所述根据所述学生的当前学习状态，确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，包括：

获取从所述第一知识单元学习至所述目标学习路径中作为学习目标的知识单元后所产生的学习能力增量值；

根据所述学习能力增量值，确定策略网络模型中预设参数的最终取值，并将所述当前学习状态输入至所述策略网络模型，输出所述候选知识单元集合中每一知识单元在作为目标知识单元时为最优解的概率。

7.根据权利要求6所述的自适应学习方法，其特征在于，所述根据所述学习能力增量值，确定策略网络模型中预设参数的最终取值，包括：

将所述当前学习状态输入至价值网络模型，调整所述价值网络模型中所述预设参数的取值，以使得所述价值网络模型的输出结果与所述学习能力增量值之间的差值最小，并将差值最小时所述预设参数的取值作为所述预设参数的最终取值，所述价值网络模型与所述策略网络模型均包含有所述预设参数。

8.一种自适应学习装置，其特征在于，包括：

第一确定模块，用于根据目标学习路径及学生当前学习的第一知识单元，确定候选知识单元集合，所述目标学习路径中包括所述学生需要学习的所有知识单元；

第二确定模块，用于根据所述学生的当前学习状态，确定所述候选知识单元集合中每一知识单元作为目标知识单元时为最优解的概率，并将所述候选知识单元集合中最大概率对应的知识单元作为所述目标知识单元，所述目标知识单元为所述学生下一个需要学习的知识单元；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。