CN113221007B

CN113221007B - 答题行为推荐方法

Info

Publication number: CN113221007B
Application number: CN202110563070.8A
Authority: CN
Inventors: 刘菲; 卜晨阳; 孙帅; 胡学钢
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-09-23
Anticipated expiration: 2041-05-21
Also published as: CN113221007A

Abstract

本申请公开了一种答题行为推荐方法。其中，该方法包括：获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，本申请解决了由于相关技术中尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对学生用户是否需要进行相关试题练习，并进行多少道相关习题练习的答题行为进行推荐的技术问题。

Description

答题行为推荐方法

技术领域

本申请涉及习题推荐领域，具体而言，涉及一种答题行为推荐方法。

背景技术

随着教育信息化的持续深入以及互联网的迅猛发展，在线教育已成为计算机融合传统教育领域而形成的一个新的重要研究和应用方向。

现有的推荐***局限于给学生用户推荐内容相关的习题。然而，学生用户在处于动态变化的认知状态时，是否需要进行相关习题练习、进行多少相关习题练习的答题行为推荐具有研究意义和应用价值。尤其是在当前大多数学生都采用题海战术的情况下，如何在不同的阶段高效地选择正确的答题行为有利于提高学习效率。相关技术中，尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对学生用户是否需要进行相关习题练习、进行多少道相关习题练习的答题行为进行推荐。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种答题行为推荐方法，以至少解决由于相关技术中尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对学生用户是否需要进行相关试题练习，并进行多少道相关习题练习的答题行为进行推荐的技术问题。

根据本申请实施例的一个方面，提供了一种答题行为推荐方法，包括：获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题。

可选地，EBQ模型包括：强化学习算法中的Q矩阵，其中，认知状态值个数与Q矩阵行元素的个数对应，推荐继续作答与目标知识点相关习题的次数值的个数与Q矩阵列的个数对应，得到推荐目标对象继续作答与目标知识点相关试题的次数，包括：根据认知跟踪模型确定当前决策时间对应的当前认知状态值；确定当前认知状态值对应的Q矩阵的行，并获取该行中的最大状态值；确定最大状态值对应的Q矩阵的列，将该列对应的推荐继续作答与目标知识点相关习题的次数作为目标对象继续作答与目标知识点相关试题的次数。

可选地，Q矩阵通过以下方式确定：获取零矩阵，其中，零矩阵为矩阵所有元素均为零的矩阵；至少基于认知跟踪模型、EBQ模型对应的奖励模型更新零矩阵得到Q矩阵。

可选地，获取零矩阵，包括：确定动态认知状态集合，以及动作空间集合，其中，动态认知状态集合包括：多个初始认知状态值；动作空间集合包括：多个不同初始动作次数值，其中，初始动作次数用于指示目标对象继续作答与目标知识点相关试题的次数；确定多个初始认知状态值的个数为零矩阵行的个数，确定多个动作次数值的个数为零矩阵列的个数构建零矩阵。

可选地，至少基于认知跟踪模型、EBQ模型对应的奖励模型更新零矩阵得到Q矩阵：将多个样本对象对应的样本分数输入至认知跟踪模型，确定多个样本对象在不同时刻对应的样本认知状态值，其中，样本认知状态值包括：第一决策时间对应的第一认知状态值以及第二决策时间对应的第二认知状态值，其中，第一决策时间为与第二决策时间相邻，且为在第二决策时间之前的决策时刻；确定EBQ模型对应的奖励模型，获取奖励模型对应的势能差，基于势能差和第一认知状态值与第二认知状态值更新零矩阵得到Q矩阵。

可选地，获取奖励模型对应的势能差，基于势能差和第一认知状态值与第二认知状态值更新零矩阵得到Q矩阵，包括：确定第一认知状态值在零矩阵中对应的目标行；从目标行中任意选择一个目标数值，确定目标数值所在列对应的目标动作次数值；确定目标动作次数值对应的列为目标列；确定预定折扣因子与第二认知状态值的乘积，将乘积与第一认知状态值的差值作为势能差；将零矩阵中的目标行中的目标列对应的元素替换为势能差得到初始Q矩阵；确定使得奖励模型对应的函数表达式取得最大值时，所对应的势能差集合，将初始Q矩阵中的势能差，替换为势能差集合中对应的势能差，将完成替换后的初始Q矩阵作为Q矩阵。

可选地，确定多个初始认知状态值的个数为零矩阵行的个数，确定多个动作次数值的个数为零矩阵列的个数构建零矩阵之后，方法还包括：将零矩阵的同一行元素组成数组，将初始认知状态值作为数组中任意一个元素的参考值，其中，参考值与数组一一对应；其中，初始动作次数值根据零矩阵的列确定。

可选地，初始动作次数值根据零矩阵的列确定，包括：将零矩阵的列的序号减去预定数值得到初始动作次数值，其中，预定数值为整数。

可选地，确定第一认知状态值在零矩阵中对应的目标行，包括：比较第一认知状态值与参考值；若第一认知状态值与参考值大小一致，则将参考值作为目标参考值，并将该目标参考值所在行作为目标行；若第一认知状态值与参考值大小不一致，则将当第一认知状态值与参考值的差值的绝对值最小时，对应的参考值作为目标参考值，并将该目标参考值所在行作为目标行。

根据本申请实施例的另一方面，还提供了一种答题行为推荐装置，包括：获取模块，用于获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；第一确定模块，用于将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；第二确定模块，用于将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行任意一种答题行为推荐方法。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行任意一种答题行为推荐方法。

在本申请实施例中，采用基于EBQ模型推荐目标对象继续作答目标试题的次数的方式，通过获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题，达到了基于目标对象的动态认知状态，构建答题行为强化学习EBQ模型，进而推荐目标对象继续作答目标试题的次数的技术效果，进而解决了由于相关技术中尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对学生用户是否需要进行相关试题练习，并进行多少道相关习题练习的答题行为进行推荐的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的答题行为推荐方法的流程示意图；

图2是根据本申请实施例的一种可选的答题行为推荐装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于本领域技术人员更好理解本申请相关实施例，现对本申请实施例可能涉及的技术术语或者部分名词解释如下：

模拟退火算法来源于固体退火原理，是一种基于概率的算法，将固体加温至充分高，再让其徐徐冷却，加温时，固体内部粒子随温升变为无序状，内能增大，而徐徐冷却时粒子渐趋有序，在每个温度都达到平衡态，最后在常温时达到基态，内能减为最小。模拟退火算法(Simulated Annealing，SA)最早的思想是由N.Metropolis[1]等人于1953年提出。1983年，S.Kirkpatrick等成功地将退火思想引入到组合优化领域。它是基于Monte-Carlo迭代求解策略的一种随机寻优算法，其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。模拟退火算法从某一较高初温出发，伴随温度参数的不断下降，结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。模拟退火算法是一种通用的优化算法，理论上算法具有概率的全局优化性能，目前已在工程中得到了广泛应用，诸如VLSI、生产调度、控制工程、机器学习、神经网络、信号处理等领域。模拟退火算法是通过赋予搜索过程一种时变且最终趋于零的概率突跳性，从而可有效避免陷入局部极小并最终趋于全局最优的串行结构的优化算法。

根据本申请实施例，提供了一种答题行为推荐方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的答题行为推荐方法，如图1所示，该方法包括如下步骤：

步骤S102，获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；

步骤S104，将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；

步骤S106，将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题。

该答题行为推荐方法中，获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分，将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值，将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题，达到了基于目标对象的动态认知状态，构建答题行为强化学习EBQ模型，进而推荐目标对象继续作答目标试题的次数的技术效果，进而解决了由于相关技术中尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对目标对象是否需要进行相关试题练习，并进行多少道相关习题练习的答题行为进行推荐的技术问题。

需要说明的是，上述认知状态值用于指示目标对象对目标知识点的掌握程度，其中，认知状态值越大，则目标对象对目标知识点的掌握程度越高(即，掌握的越好)，认知状态值越小，则目标对象对目标知识点的掌握程度越低(即，掌握的越差)。

现结合具体应用步骤对本申请相关的可选实施例进行说明：

1)强化学***台上，每个学生在每个时间步作答一道习题。)；

2)构建面向学生动态认知状态的答题行为强化学习模型EBQ；

3)EBQ模型训练；

4)面向学生动态认知状态的答题行为推荐。

具体步骤如下：

步骤1：强化学习模型EBQ参数初始化。

步骤1.1：初始化认知状态的精度ε＝10^-C，C为大于1的自然数。则共有C种认知状态。

步骤1.2：初始化M中答题行为。

步骤1.3：初始化决策时间p＝1(p∈{1，2，...，P})。

步骤2：构建面向学生动态认知状态的答题行为强化学习模型EBQ。

步骤2.1：构建EBQ的状态空间S＝<S_k>，

其中，S是表示EBQ状态空间，S_k表示学生的动态认知状态。

步骤2.2：构建EBQ的动作空间A＝<A_m>。其中，A是表示EBQ动作空间的二元组。A_m＝{0，1，2，...，m}(m∈{0，...，M})表示推荐继续答题m次；特别地，当m＝0时表示推荐不继续答题。

步骤2.3：初始化EBQ模型中的矩阵Q为C*M大小的零矩阵。

步骤2.4：构建EBQ的奖励模型r^p＝ρ(s^p，a^p，s^p+1)。其中，s^p表示第p个决策时间的状态；a^p表示第p个决策时间的动作；s^p+1表示第p+1个决策时间的状态，由第p个决策时间处于s^p状态执行ap动作后转移至第p+1个决策时间的状态，ρ(s^p，a^p，s^p+1)为奖励函数。

当p＝t，a^p＝m时，p+1＝t+m

若γ＝1，则

当a^p＝m＝0，即执行的动作为不继续答题，则此时(s^p，a^p)的奖励ρ(s^p，a^p，s^p+1)＝e⁰＝1。

步骤2.5：构建EBQ的迁移模型。在第p个决策时间处于状态s^p，执行动作a^p的情况下，状态迁移至s^p+1，当p＝t时，p+1＝t+m，根据认知跟踪模型求得

即为s^p+1。

步骤2.6：设置EBQ的目标函数为：

步骤3：EBQ模型训练。

步骤3.1：知识点i＝1，当i≤I时，循环执行操作3.2-3.10。

步骤3.2：学生n＝1，当n≤N时，循环执行操作3.3-3.9。

步骤3.3：学生n(n∈{1，2，...，N})作答与知识点i(i∈{1，2，...，I})相关联的习题得分为

将其作为认知跟踪的输入，得到学生n在时间步1至t对知识点i的动态认知状态

步骤3.4：决策时间p＝1，当p≤P时，循环执行操作3.5-3.9。

步骤3.5：将状态

概率选择(可采用模拟退火等方法进行动作选择)Q[s^p，：]中最优动作a^p。

步骤3.6：通过认知跟踪模型计算

步骤3.7：根据公式(4)计算r^p＝ρ(s^p，a^p，s^p+1)。

步骤3.8：更新矩阵Q：Q[s^p*10^C，a^p]＝r^p。

步骤3.9：p＝p+1；t＝t+m。

步骤3.10：返回知识点i的EBQ模型EBQ_i＝Q。

步骤4：面向学生动态认知状态的答题行为推荐。

步骤4.1：在时间步1至t，学生n(n∈{1，2，...，N})作答与知识点i(i∈{1，2，...，I})相关联的习题，其得分为

将

作为认知跟踪的输入，可得到学生n在时间步1至t对知识点i的动态认知状态

步骤4.2：将状态

输入至EBQ模型中，概率选择(可采用模拟退火等方法进行动作选择)EBQ_i[s^p*10^C，：]中最优动作a^p，a^p即为用户推荐的答题行为。

即，通过对强化学习模型EBQ(Exercise Behavior&Q-learning)进行参数初始化，然后构建面向学生动态认知状态的答题行为强化学习模型EBQ；再进行EBQ模型训练；最后，面向学生动态认知状态的答题行为推荐。

为了便于本领域技术人员更好理解上述相关实施例，先对上述相关步骤进行举例说明。

具体步骤如下：

步骤1：强化学习模型EBQ参数初始化。

步骤1.1：初始化认知状态的精度ε＝10^-C，C为自然数。则共有10^c种认知状态。

初始化C＝1，则ε＝0.1。

步骤1.2：初始化M种答题行为。

初始化M＝6。

步骤1.3：初始化决策时间p＝1(p∈{1，2，...，P})。

初始化p＝1，P＝3。

步骤2.1：构建EBQ的状态空间S＝<S_k>，

其中，S是表示EBQ状态空间，S_k表示学生的动态认知状态。

S＝<S_k>，S_k＝{0，0.1，...，0.9，1}；

步骤2.2：构建EBQ的动作空间A＝<A_m>。A_m＝{0，1，2，...，M}表示推荐继续答题m次；特别地，当m＝0时表示推荐不继续答题。

A＝<A_m>，A_m＝{0，1，2，3，4，5}

步骤2.3：初始化EBQ模型中的矩阵Q为10^C*M大小的零矩阵。

初始化矩阵Q为10*6的零矩阵：

行代表的含义：认知状态取值；列的含义：答几道题；

步骤2.4：构建EBQ的奖励模型r^p＝ρ(s^p，a^p，s^p+1)。其中，s^p表示第p个决策时间的状态；a^p表示第p个决策时间的动作；s^p+1表示第p+1个决策时间的状态，由第p个决策时间处于s^p状态执行a^p动作后转移至第p+1个决策时间的状态，ρ(s^p，a^p，s^p+1)为奖励函数。

当p＝t，a^p＝m时，p+1＝t+m

若γ＝1，则

需要说明的是，上述公式中

表示势能函数，γ表示未来势能的折扣因子，e为自然底数，时间步为不同时刻，显而易见的，当γ＝1，则表示不打折扣。

步骤2.5：构建EBQ的迁移模型。在第p个决策时间处于状态s^p，执行动作a^p的情况下，状态迁移至s^p+1。当p＝t时，p+1＝t+m。根据认知跟踪模型求得

即为s^p+1。

步骤2.6：设置EBQ的目标函数为：

即使得f(x)取得最大值所对应的变量点x(或x的集合)，对应步骤3的模型参数；

步骤3：EBQ模型训练，该步骤的主要目的为更应新矩阵Q，求出一个最优的矩阵Q，使得矩阵Q能满足最大化目标函数。

步骤3.1：知识点i＝1，当i≤I时，循环执行操作3.2-3.10。

i＝1to I，I为知识点个数；

步骤3.2：学生n＝1，当n≤N时，循环执行操作3.3-3.9。

n＝1to N；

T＝10，即学生1在这10个时间步作答与知识点1相关联的习题，其得分表现为(1，0，0，0，1，1，0，1，1，1，)，将其作为认知跟踪的输入，可得到学生1在时间步1至10的认知状态(0.5，0.3，0.2，0.1，0.5，0.4，0.5，0.5，0.6，0.7)；

步骤3.4：决策时间p＝1，当p≤P时，循环执行操作3.5-3.9。

p＝1to P

步骤3.5：将状态

可进行概率选择(可采用模拟退火等方法进行动作选择，避免局部最优)Q[s^p*10^C，：]中最优动作a^p。

即，第一个学生(n＝1)在第一个时间步(t＝1)的认知状态值；

查矩阵Q[5，：]＝[0 0 0 0 0 0]，所有值相等的情况下，随机选择一个动作，a^p＝m＝2.；将认知模型求的认知状态值0.5；

步骤3.6：通过认知跟踪模型计算

根据认知跟踪模型计算的(0.5，0.3，0.2，0.1，0.5，0.4，0.5，0.5，0.6，0.7)得，

p＝1，m＝2做了两道题，则t+m等于3。

步骤3.7：根据公式(5)计算r^p＝ρ(s^p，a^p，s^p+1)。

设γ＝1，ρ(s^p，a^p，s^p+1)＝0.2-0.5+e^-2＝-0.165

步骤3.8：更新矩阵Q：Q[s^p*10^C，a^p]＝r^p。

更新矩阵Q

即，0.5对应第5行，m＝2对应第3列

步骤3.9：p＝p+1；t＝t+m。

步骤3.10：返回知识点i的EBQ模型EBQ_i＝Q。

迭代更新矩阵Q，最终得到EBQ_i＝Q

步骤4：面向学生动态认知状态的答题行为推荐。

将

学生1在这5个时间步作答与知识点1相关联的习题，其得分表现为(0，1，0，0)，将其作为认知跟踪的输入，可得到学生1在时间步1至5的认知状态(0，0.3，0.2，0.1)。

步骤4.2：将状态

输入至EBQ模型中，概率选择(可采用模拟退火等方法进行动作选择)EBQ_i[s^p*10^C，：]中最优动作a^p。a^p即为用户推荐的答题行为。

查矩阵Q[1，：]＝[0.35 0.28 -0.55 2.25 3.3 -9.8]，选择最优动作，即a¹＝m＝4；即用户认知状态处于0.1的情况下推荐该用户再练习4道与该知识点相关的习题。

本申请一些实施例中，EBQ模型包括：强化学习算法中的Q矩阵，需要说明的是，认知状态值个数与Q矩阵行元素的个数对应，推荐继续作答与目标知识点相关习题的次数值的个数与Q矩阵列的个数对应，得到推荐目标对象继续作答与目标知识点相关试题的次数，包括：根据认知跟踪模型确定当前决策时间对应的当前认知状态值；确定当前认知状态值对应的Q矩阵的行，并获取该行中的最大状态值；确定最大状态值对应的Q矩阵的列，将该列对应的推荐继续作答与目标知识点相关习题的次数作为目标对象继续作答与目标知识点相关试题的次数。

本申请一些可选的实施例中，Q矩阵通过以下方式确定：获取零矩阵，其中，零矩阵为矩阵所有元素均为零的矩阵；至少基于认知跟踪模型、EBQ模型对应的奖励模型更新零矩阵得到Q矩阵，容易注意到的是，其对应上述步骤3的EBQ模型训练过程。

本申请一些实施例中，获取零矩阵，包括：确定动态认知状态集合，以及动作空间集合，其中，动态认知状态集合包括：多个初始认知状态值；动作空间集合包括：多个不同初始动作次数值，其中，初始动作次数用于指示目标对象继续作答与目标知识点相关试题的次数；确定多个初始认知状态值的个数为零矩阵行的个数，确定多个动作次数值的个数为零矩阵列的个数构建零矩阵，即对应上述步骤2.1-步骤2.3。

可选地，至少基于认知跟踪模型、EBQ模型对应的奖励模型更新零矩阵得到Q矩阵：将多个样本对象对应的样本分数输入至认知跟踪模型，确定多个样本对象在不同时刻对应的样本认知状态值，其中，样本认知状态值包括：第一决策时间对应的第一认知状态值以及第二决策时间对应的第二认知状态值，其中，第一决策时间为与第二决策时间相邻，且为在第二决策时间之前的决策时刻；确定EBQ模型对应的奖励模型(即，r^p)，获取奖励模型对应的势能差(即奖励函数ρ(s^p，a^p，s^p+1))，基于势能差和第一认知状态值与第二认知状态值更新零矩阵得到Q矩阵，即对应上述步骤2.4-步骤2.6。

具体地，获取奖励模型对应的势能差(即，上述公式(6))，基于势能差和第一认知状态值与第二认知状态值更新零矩阵得到Q矩阵通过以下方式实现：确定第一认知状态值在零矩阵中对应的目标行；从目标行中任意选择一个目标数值，确定目标数值所在列对应的目标动作次数值；确定目标动作次数值对应的列为目标列；确定预定折扣因子与第二认知状态值的乘积，将乘积与第一认知状态值的差值作为势能差；将零矩阵中的目标行中的目标列对应的元素替换为势能差得到初始Q矩阵；确定使得奖励模型对应的函数表达式取得最大值时，所对应的势能差集合，将初始Q矩阵中的势能差，替换为势能差集合中对应的势能差，将完成替换后的初始Q矩阵作为Q矩阵。

需要说明的是，确定多个初始认知状态值的个数为零矩阵行的个数，确定多个动作次数值的个数为零矩阵列的个数构建零矩阵之后，可将将零矩阵的同一行元素组成数组，将初始认知状态值作为数组中任意一个元素的参考值，其中，参考值与数组一一对应；其中，初始动作次数值根据零矩阵的列确定。

本申请一些实施例中，初始动作次数值根据零矩阵的列确定，具体地：将零矩阵的列的序号减去预定数值得到初始动作次数值，其中，预定数值为整数，需要说明的是，在一种优选的实施例中，预定数值为整数值1，因此，矩阵的第j列，对应的初始动作次数值为j-1，例如，矩阵的第5列，则该列对应的初始动作次数值则为4次。

本申请一些可选的实施例中，确定第一认知状态值在零矩阵中对应的目标行，可通过以下方式确定：比较第一认知状态值与参考值；若第一认知状态值与参考值大小一致，则将参考值作为目标参考值，并将该目标参考值所在行作为目标行；若第一认知状态值与参考值大小不一致，则将当第一认知状态值与参考值的差值的绝对值最小时，对应的参考值作为目标参考值，并将该目标参考值所在行作为目标行，例如，第一认知状态值为0.1，矩阵的第一行元素组成的数组对应的初始状态值为0.1，即参考值为0.1，则第一认知状态值，则零矩阵中对应的目标行为第1行，又例如，当第一认知状态值为0.26时，且第二行元素组成的数组对应的参考值为0.2，则第一认知状态值与该参考值对应的绝对值为0.06；第三行元素组成的数组对应的参考值为0.3，则第一认知状态值与该参考值对应的绝对值为0.04，则确定目标行为第3行。

需要说明的是，上述认知跟踪模型可以为贝叶斯知识追踪(Bayesian KnowledgeTracing)模型。

图2是根据本申请实施例一种答题行为推荐装置，如2所示，该装置包括：

获取模块40，用于获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；

第一确定模块42，用于将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；

第二确定模块44，用于将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题。

该答题行为推荐装置中，获取模块40，用于获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；第一确定模块42，用于将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；第二确定模块44，用于将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题，达到了基于目标对象的动态认知状态，构建答题行为强化学习EBQ模型，进而推荐目标对象继续作答目标试题的次数的技术效果，进而解决了由于相关技术中尚未有研究追踪学生的动态认知状态，并基于动态的认知状态，针对目标对象是否需要进行相关试题练习，并进行多少道相关习题练习的答题行为进行推荐的技术问题。

具体地，上述存储介质用于存储执行以下功能的程序指令，实现以下功能：

获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；将得分输入至认知跟踪模型中，得到目标对象在不同时刻对目标知识点的目标认知状态值；将当前决策时间对应的目标认知状态值输入至目标知识点对应的目标模型中，得到推荐目标对象继续作答目标试题的次数，其中，当前决策时间为答题的开始时刻，目标模型包括：答题行为强化学习EBQ模型，EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与目标知识点相关习题的次数值的关系，目标试题为与目标知识点相关的多个不同的试题。

具体地，上述处理器用于调用存储器中的程序指令，实现以下功能：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种答题行为推荐方法，其特征在于，包括：

获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；

将所述得分输入至认知跟踪模型中，得到所述目标对象在所述不同时刻对所述目标知识点的目标认知状态值；

将当前决策时间对应的目标认知状态值输入至所述目标知识点对应的目标模型中，得到推荐所述目标对象继续作答目标试题的次数，其中，所述当前决策时间为答题的开始时刻，所述目标模型包括：答题行为强化学习EBQ模型，所述EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与所述目标知识点相关习题的次数值的关系，所述目标试题为与目标知识点相关的多个不同的试题；

其中，所述EBQ模型包括：强化学习算法中的Q矩阵，其中，所述认知状态值个数与所述Q矩阵行元素的个数对应，所述推荐继续作答与所述目标知识点相关习题的次数值的个数与所述Q矩阵列的个数对应，得到推荐所述目标对象继续作答与所述目标知识点相关试题的次数，包括：根据所述认知跟踪模型确定当前决策时间对应的当前认知状态值；确定所述当前认知状态值对应的所述Q矩阵的行，并获取该行中的最大状态值；确定所述最大状态值对应的所述Q矩阵的列，将该列对应的所述推荐继续作答与所述目标知识点相关习题的次数作为所述目标对象继续作答与所述目标知识点相关试题的次数。

2.根据权利要求1所述的方法，其特征在于，所述Q矩阵通过以下方式确定：

获取零矩阵，其中，所述零矩阵为矩阵所有元素均为零的矩阵；

至少基于所述认知跟踪模型、所述EBQ模型对应的奖励模型更新所述零矩阵得到所述Q矩阵。

3.根据权利要求2所述的方法，其特征在于，获取零矩阵，包括：

确定动态认知状态集合，以及动作空间集合，其中，所述动态认知状态集合包括：多个初始认知状态值；所述动作空间集合包括：多个不同初始动作次数值，其中，所述初始动作次数值用于指示目标对象继续作答与目标知识点相关试题的次数；

确定所述多个初始认知状态值的个数为所述零矩阵行的个数，确定所述多个动作次数值的个数为所述零矩阵列的个数构建零矩阵。

4.根据权利要求2所述的方法，其特征在于，至少基于所述认知跟踪模型、所述EBQ模型对应的奖励模型更新所述零矩阵得到所述Q矩阵：

将多个样本对象对应的样本分数输入至所述认知跟踪模型，确定多个样本对象在不同时刻对应的样本认知状态值，其中，所述样本认知状态值包括：第一决策时间对应的第一认知状态值以及第二决策时间对应的第二认知状态值，其中，所述第一决策时间为与所述第二决策时间相邻，且为在所述第二决策时间之前的决策时刻；

确定所述EBQ模型对应的奖励模型，获取所述奖励模型对应的势能差，基于所述势能差和所述第一认知状态值与所述第二认知状态值更新所述零矩阵得到所述Q矩阵。

5.根据权利要求4所述的方法，其特征在于，获取所述奖励模型对应的势能差，基于所述势能差和所述第一认知状态值与所述第二认知状态值更新所述零矩阵得到所述Q矩阵，包括：

确定第一认知状态值在所述零矩阵中对应的目标行；

从目标行中任意选择一个目标数值，确定所述目标数值所在列对应的目标动作次数值；

确定目标动作次数值对应的列为目标列；

确定预定折扣因子与第二认知状态值的乘积，将所述乘积与所述第一认知状态值的差值作为所述势能差；

将所述零矩阵中的目标行中的目标列对应的元素替换为所述势能差得到初始Q矩阵；

确定使得所述奖励模型对应的函数表达式取得最大值时，所对应的势能差集合，将所述初始Q矩阵中的所述势能差，替换为所述势能差集合中对应的势能差，将完成替换后的初始Q矩阵作为所述Q矩阵。

6.根据权利要求5所述的方法，其特征在于，确定所述多个初始认知状态值的个数为所述零矩阵行的个数，确定所述多个动作次数值的个数为所述零矩阵列的个数构建零矩阵之后，所述方法还包括：

将所述零矩阵的同一行元素组成数组，将所述初始认知状态值作为所述数组中任意一个元素的参考值，其中，所述参考值与所述数组一一对应；其中，所述初始动作次数值根据所述零矩阵的列确定。

7.根据权利要求6所述的方法，其特征在于，所述初始动作次数值根据所述零矩阵的列确定，包括：

将所述零矩阵的列的序号减去预定数值得到所述初始动作次数值，其中，所述预定数值为整数。

8.根据权利要求6所述的方法，其特征在于，确定第一认知状态值在所述零矩阵中对应的目标行，包括：

比较所述第一认知状态值与所述参考值；

若所述第一认知状态值与所述参考值大小一致，则将所述参考值作为目标参考值，并将该目标参考值所在行作为所述目标行；

若所述第一认知状态值与所述参考值大小不一致，则将当所述第一认知状态值与所述参考值的差值的绝对值最小时，对应的参考值作为目标参考值，并将该目标参考值所在行作为所述目标行。

9.一种答题行为推荐装置，其特征在于，包括：

获取模块，用于获取目标对象在不同时刻作答与目标知识点相关联的习题的对应的得分；

第一确定模块，用于将所述得分输入至认知跟踪模型中，得到所述目标对象在所述不同时刻对所述目标知识点的目标认知状态值；

第二确定模块，用于将当前决策时间对应的目标认知状态值输入至所述目标知识点对应的目标模型中，得到推荐所述目标对象继续作答目标试题的次数，其中，所述当前决策时间为答题的开始时刻，所述目标模型包括：答题行为强化学习EBQ模型，所述EBQ模型用于表示至少一个认知状态值，以及推荐继续作答与所述目标知识点相关习题的次数值的关系，所述目标试题为与目标知识点相关的多个不同的试题；

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至8中任意一项所述答题行为推荐方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述答题行为推荐方法。