CN110569443B - 一种基于强化学习的自适应学习路径规划*** - Google Patents

一种基于强化学习的自适应学习路径规划*** Download PDF

Info

Publication number
CN110569443B
CN110569443B CN201910907990.XA CN201910907990A CN110569443B CN 110569443 B CN110569443 B CN 110569443B CN 201910907990 A CN201910907990 A CN 201910907990A CN 110569443 B CN110569443 B CN 110569443B
Authority
CN
China
Prior art keywords
learning
path
state
student
ability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910907990.XA
Other languages
English (en)
Other versions
CN110569443A (zh
Inventor
吴文峻
刘丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Publication of CN110569443A publication Critical patent/CN110569443A/zh
Application granted granted Critical
Publication of CN110569443B publication Critical patent/CN110569443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于强化学***台上学习的复杂场景构建于马尔科夫决策过程的框架中,以高效获得能力提升为目标,为学生提供学习资源的持续性推荐,规划最优的学习路径,从而提高学习者的学习效果以及学习效率。

Description

一种基于强化学习的自适应学习路径规划***
技术领域
本发明涉及一种基于强化学习的自适应学习路径规划***,属于计算机应用技术领域。
背景技术
随着在线教育的日益普及,学生可以使用各种电子学***的多样性和差异性,在线教育平台需要引入个性化的学习资源推荐工具,以方便学生选择自己的学习路径,满足他们个性化的学习需求。
现有的个性化学习资源推荐算法,基本可以分为两类,基于规则的推荐和数据驱动的推荐,大多数智能导学***(Intelligent Tutoring System,ITS),大多采用基于规则的方法来进行学习资源的推荐,这就需要领域专家来评估不同类型学生的学习场景,并定义相应广泛的推荐规则。很显然,而这种劳动密集型的方法只能应用于特定的学习领域,可扩展性不强。对于现代的大规模在线教育***,设计者通常采用数据驱动的推荐方法,如协同过滤方法来实现学习推荐算法。这些数据驱动的推荐算法试图通过比较学生和学习对象之间的相似性来为学生推荐合适的学习资源。
尽管数据驱动的推荐方法比基于规则的方法更具可扩展性和通用性,但是目前已有的解决方案在实现对学生进行自适应学习资源推荐方面都存在着相同的问题,即往往只能够根据学习资源的内容或学生的学习行为,来检索相似内容的学习资源或相似学习行为的学生群里,并未考虑到学习资源的难度以及学生学习状态的动态变化情况的影响。
基于目前推荐算法的研究现状,传统的推荐算法如协同过滤、隐语义模型等,主要面向于商品推荐或自媒体内容的分发,主要目标是猜测用户的喜好,为用户推荐其感兴趣的商品或内容,不论是用户方面还是内容方面,都更加侧重于相似性的计算;而面向学习资源的推荐,更看重的是学习资源能够为学生带来的能力提升,这不是传统推荐算法中简单基于相似性的计算就可以做到的,且学生能力的提升是过程化的,并非一蹴而就的,这其中便涉及到了学习路径的规划。由此本发明提出一种基于强化学习的自适应学习路径规划方法,有效解决上述问题,并使学生获得最大最快能力提升的策略。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于强化学***台上学习的复杂场景构建于马尔科夫决策过程的框架中,以高效获得能力提升为目标,为学生提供学习资源的持续性推荐,规划最优的学习路径,能够提高学习者的学习效果以及学习效率。
本发明的技术解决方案:一种基于强化学习的自适应学习路径规划***,包括:包括环境模拟模块,策略训练模块和路径规划模块。
环境模拟模块,实现了将复杂的在线学***台上的历史学习记录以及学习资源的基本信息,根据改进后的项目反映原理,形式化得到马尔科夫决策过程的五元组;
策略训练模块,实现了离线训练基于各能力状态下的路径规划策略的功能;根据环境模拟模块得到的马尔科夫决策过程的五元组,应用基于强化学习的Q_learning算法,离线训练得到基于各能力状态下的路径规划策略;
路径规划模块,实现了为目标学生实时进行路径规划的功能;根据策略训练模块得到的策略,基于目标学生当前的能力状态,得到为该目标学生实时规划的最优学习路径。最终达到提高学习效果和效率的目标。
所述环境模拟模块步骤如下:环境模拟需要基于马尔科夫决策过程,将复杂的在线学习场景形式化为马尔科夫决策过程的五元组<S,A,T,R,γ>;
(11)S表示状态,根据改进后的项目反映原理得到的学生每个时刻的能力值,将学生的能力值作为状态S,将每一维的学生能力值按学生数量正态分布比例来划分能力值区间,按照学生数量1∶2∶5∶2∶1的分布比例来划分五个区间,每个区间取均值作为该区间的能力值;
(12)A表示动作,指智能体能够采取的行为集合,在线教育的环境下,即为学生可以学习的资源集合;
(13)T表示状态转移概率,基于(11)中的状态划分,以及大量能力划分后的学生学习行为路径数据,统计计算状态转移概率T;
T(s,a,s′)=P(st=s′|st=s,at=a)
Figure BDA0002212572770000021
(14)R表示奖赏,奖赏分为即时奖赏和累积奖赏;
即时奖赏应用于学生的学习过程,可理解为学生在状态s时刻学习了资源a后转移到状态s′,能够获得即时奖赏值r(s,a,s′),该奖赏值与如下三个因素有关:
·P(T):正确完成概率,学生在该时刻能力值下能够正确完成学习资源a的概率,基于学习效果评估模型预测。
·F(T):正确转移频次,学生路径中所有从状态s转移通过a转移到状态s′的样本,其中通过正确完成学习资源而完成转移的概率,可表示为:
Figure BDA0002212572770000031
C表示样本数
·Diff(s1,s2)=(s′-s)·difficultya,转化前后能力的最大增量表示为能力前后的差值向量与学习资源难度的点积,目的是为匹配学生的能力值与学习资源的难度,并将向量标量化,便于奖赏的计算与比较。
由此,即时奖赏可表示为:
r(s,a,s′)=ω×Diff(s,s′)
ω=P(T)×F(T)+(1-P(T))×(1-F(T))
其中,ω作为最大能力增量的系数,目的是根据学生能力及已知的样本分布,差异化大最大能力增量,学生能从正确完成学习资源中获得能力的增长,反之亦可得到训练,比如学生答错某道题之后根据反馈意识到了其中蕴含的知识点,对学生而言同样也是一种成长。这样的表示方式也保持了P(T)与F(T)的一致性。
累积奖赏
累积奖赏(Return,G),又称之为回报,被定义为奖赏序列的某一具体函数,若第t步后的奖赏序列为Rt+1,Rt+2,Rt+3,...RT,T为总步长,则回报G可简单地表示为每一步即时奖赏的和:
Figure BDA0002212572770000032
但由于学生的路径长度不尽相同,若仅以找到最大累积奖赏为目标,随着学生路径长度的增长,G值也会越来越大,而这并不符合本文为学生推荐最优且最短路径的目标,因此此处应该加入折扣因子,来削弱未来回报的影响。
Figure BDA0002212572770000033
(15)γ表示折扣因子,在上述计算累积奖赏的表示中,γ∈[0,1],相当于将未来的回报打了折扣,若γ趋近于0,则仅关心当前的即时奖赏,往往会执行使当前即时奖赏最大的行为,本质是一种贪心行为;若γ趋近于1,则会更多的考虑未来回报。
所述策略训练模块步骤如下:
(21)存储环境模拟步骤中的得到的马尔科夫决策过程的五元组<S,A,T,R,γ>;
(22)从能力集合S中随机选择一个初始的能力状态S1
(23)基于ε-greedy策略在S1能力状态下选择了资源A1进行学习,学习了A1之后,根据环境可观测下一个能力状态S2,同时得到了即时奖赏R2(完成行为策略),此时选择当前能力状态下最大的Q值用以更新Q函数(完成目标策略):
Qk+1(S1,A1)=(1-α)Qk(S1,A1)+α[R2+γmaxaQk(S2,A2)]
(24)不断循环(23),直至学习能力达到要求,即到达终止状态,循环(22),重新选择初始的能力状态;
(25)以字典的形式存储每个能力状态下的最优策略。
进一步的,ε-greedy策略的具体步骤如下:
(1)指定ε∈[0,1]值,并随机一个0-1之间的随机数;
(2)若随机数小于ε则随机选择当前能力状态下可选择的资源进行学习(每个资源被选择的概率均为
Figure BDA0002212572770000041
其中|A1|为当前状态下可选择的资源个数);
(3)若随机数大于等于ε则选择当前状态下具有最大状态-动作值Q的资源进行学习;
所述路径规划模块步骤如下:
(31)获取目标学生的当前能力状态s;
(32)在步骤(25)存储的策略中,寻找与s最接近的状态下的学习路径l;
(33)将路径1推荐给该目标学生,并在其后续的学习过程中自适应调整规划学习路径。
进一步的,自适应调整规划路径步骤如下:
(1)前序步骤(31,32)根据目标学生当前的能力s可为其规划学习路径l,下一个学习阶段后,目标学生的能力状态变更为s′;
(2)重复步骤(32),依据目标学生更新后的能力状态s′,为其规划新的推荐路径l′比较l的后续路径与l′,若不同,则用l′替换l,若相同则不变。
本发明与现有技术相比的优点在于:现有的学习资源推荐技术主要分为基于规则的推荐和数据驱动的学习资源推荐技术,基于规则的方法来进行学习资源的推荐,需要领域专家来评估不同类型学生的学习场景,并定义相应广泛的推荐规则。是一种劳动密集型的方法,只能应用于特定的学习领域,可扩展性不强,而本发明基于强化学习技术,采用自动化规划学习路径,与基于规则的推荐方法相比,大大节约了人工成本;对于现代的大规模在线教育***,设计者通常采用数据驱动的推荐方法,这些数据驱动的推荐算法大多通过比较学生和学习对象之间的相似性来为学生推荐合适的学习资源,造成学习路径中存在大量相似冗余的学习资源,未考虑到学生能力提升的效率,本发明以大量学生的历史学习轨迹为样本,提取出学生的学生的能力状态,以最终状态为目标训练推荐策略,实现最快最大地提升学生的能力;本发明采用离线训练策略与在线推荐路径相结合的方式,解决了推荐的响应速度问题,以实现自适应规划学习路径。
附图说明
图1为学习路径规划方法的***结构图;
图2为环境模拟的流程示意图;
图3为策略训练的流程示意图;
图4为学习路径合理性评估的示意图;
图5为本技术与现有技术的推荐路径与非推荐路径平均长度对比图;
图6为学习路径有效性评估的示意图;
图7为本技术路径匹配程度与能力增益数据图。
具体实施方式
下面结合附图详细解释本发明提出的基于强化学习的自适应学习路径规划方法。
本发明提出的基于强化学习的自适应学习路径规划方法,整体***架构如图1,基于学生与学习资源的历史数据,教师及学生的用户基本信息,不同学习资源的内容数据(课程视频,课后***,讨论区等),以及学生与学习资源的交互行为数据,将原始数据存储定期传输至HDFS中长期保存,由于学习路径规划***在运行过程中也会产生学生与学习资源的交互行为数据,同样也需要将这批数据进行定期更新。基于该部分数据,依次进行环境模拟,策略训练和路径规划步骤,基于马尔科夫决策过程框架模拟学生的学习场景,提取并离散化学生在每个学习阶段的能力向量作为状态,从历史的学习行为数据中统计状态转移概率,并结合学习效果评估模块训练得到的学习资源的固有属性,训练生成强化学习过程中智能体与环境交互反馈的即时奖赏,由此将复杂的在线学习场景形式化为数学层面的马尔科夫决策过程框架,采用强化学习算法反复试错训练最优的学习策略,以上部分由于其计算时间成本的考虑为定期离线更新,最后基于训练好的学习策略,依据目标学生的当前能力状态,为其规划最优的学习路径,为使推荐***能够快速响应,该部分实时更新,为学生快速并持续地进行学习资源的推荐和学习路径的规划,随后将目标学生新产生的与学习资源的交互数据存入数据库。
本发明基于强化学习,马尔科夫决策过程是对完全可观测的环境进行描述,是对强化学习问题进行的一种数学层面的抽象化和理想化,它使得复杂的环境能够转化成为机器理解的语言和文字,以便于能够使用强化学习的算法对现实环境下的复杂问题进行解答。因而需要对马尔科夫决策过程中的各个关键要素进行数学上的形式化定义,根据学生的学习行为数据,对学生在学习过程中的环境进行模拟步骤流程示意图如图2所示,学习效果评估模型训练得到的学生每个时刻的能力值作为输入,依据正态分布离散化能力值,作为状态S;基于已划分的状态,以及大量的学习行为数据,统计计算状态转移概率T;依据计算公式,即可计算即时奖赏R;基于即时奖赏,采用强化学习算法训练得到策略,即每个状态下可采取的最优动作,可用于为目标学生做推荐,输入目标学生当前的能力状态,为其规划最优的学习路径。基于上述流程,即可将在线教育中复杂的学习环境形式化为马尔科夫决策过程,可表示为一个五元组<S,A,T,R,γ>。
本发明中涉及的策略训练步骤,流程示意如图3所示,具体步骤如下:
(1)存储环境模拟步骤中的得到的马尔科夫决策过程的五元组<S,A,T,R,γ>;
(2)从能力集合S中随机选择一个初始的能力状态S1
(3)基于ε-greedy策略在S1能力状态下选择了资源A1进行学习,学习了A1之后,根据环境可观测下一个能力状态S2,同时得到了即时奖赏R2(完成行为策略),此时选择当前能力状态下最大的Q值用以更新Q函数(完成目标策略):
Qk+1(S1,A1)=(1-α)Qk(S1,A1)+α[R2+γmaxaQk(S2,A2)]
(4)不断循环(23),直至学习能力达到要求,即到达终止状态,循环(22),重新选择初始的能力状态;
(5)以字典的形式存储每个能力状态下的最优策略。
本发明提出的基于强化学习的自适应学习路径规划方法,从目标学生当前的能力状态出发,为其规划最优的学习路径,使学生能力能够得到最高效的提升,对于推荐的学习路径,本发明对比现有技术,对于推荐的学习路径进行了实验评估,实验部分将分为两个方面,推荐路径的有效性实验,以及推荐路径的合理性实验。
1.合理性实验
推荐路径的合理性实验主要用于验证,推荐路径中的学***均长度Lno_rec
Lrec=lrec
Figure BDA0002212572770000071
1)UCF:基于用户的协同过滤算法,计算学生能力的相似性,推荐与目标学生能力相似学生的学习路径。
2)ICF:基于物品的协同过滤算法,计算学习资源属性的相似性,搜索与目标学生历史学习资源的相似学习资源,将与此学习资源有交互行为的学生,其他的学习资源推荐给目标学生。
3)PI:基于策略迭代的路径规划算法,基于动态规划的强化学习算法。
4)VI:基于值迭代的路径规划算法,基于动态规划的强化学习算法。
5)Sarsa:基于Sarsa的路径规划算法,时序差分同步策略强化学习算法。
6)Q_learning:基于Q_learning的路径规划算法,时序差分异步策略强化学习算法,为本发明采用的策略训练方法。
合理性实验的结果如图5所示,对比不同起始能力状态下,推荐算法在起始能力较低时的表现较好,而起始能力已经在一个较高状态时,推荐的效果与非推荐效果相差不大,表明能力值较高的学生本身已具备较强的学习能力,且可选择的资源空间较小。
基于强化学习的推荐算法在相同的初始能力层次下,推荐的路径长度整体短于UCF和ICF算法的推荐路径,原因在于基于协同过滤的路径规划算法仅考虑了学生或学习资源的相似性,为目标学生推荐相似学生的路径或相似的学习资源,并未考虑到学生在学习过程中能力提升的需求。其中ICF更多地为学生推荐了相似的学习资源,虽有反复巩固知识的作用,减少了知识点的遗忘,也可带来能力值的提升,但反复学习类似的学习资源导致学习路径的冗余,从而学习效率降低。相比之下,UCF在路径长度上带来了相对更合理的推荐表现,但由于其搜索现有学生中已存在的学习路径,未对其他的学习路径进行探索,而相似的学生并不一定具有最优的学习路径,从而导致推荐的学习路径并不能使目标学生达到最大能力的提升,如UCF在第II类中的推荐路径长度为12,但其最终综合能力仅能达到最高能力的72%。
比较四种基于强化学习的学习路径规划算法,在相同的初始能力下,均能够达到最高的能力状态。其中基于策略迭代的算法PI与基于值迭代的算法VI推荐效果基本一致,由于其在迭代过程中本质是一致的,均为寻找最优状态值函数,区别在策略迭代基于状态值不断评估策略改进策略,而值迭代则是直接寻找最优状态值函数,再根据状态值计算策略,但由于策略迭代进行了双层迭代,其迭代效率远低于值迭代。
Sarsa和Q_learning算法与基于动态规划的强化学习算法相比,同等初始状态能力下,推荐的学习路径长度相对更短,尤其在第I类和第II类中推荐表现更优,原因在于基于时序差分的强化学习算法是无模型的学习算法,无需依赖样本数据的环境状态转移概率,而通过不断试错的方式来自主学习环境,在学习的同时也丰富了数据的多样性。
同样是时序差分算法,Q_learning算法与Sarsa算法相比,在较低的初始能力状态下,Q_learning的推荐学***衡,因而更易得到全局最优路径,而Sarsa的更新方式则倾向于更安全的局部最优路径。
而由此带来的问题是Q_leanring的收敛速度较Sarsa更慢,但考虑到本发明的研究内容,可以离线训练策略,采用训练好的策略为学生在线实时推荐学习路径,因而Q_learning是本发明的一个更好的选择。
2.有效性实验
推荐有效性实验,如图6所示,利用学生已有的历史交互数据,分析真实学习路径与推荐路径的匹配程度与学生在真实学习场景下能力提升的分布,即分析基础相同的学生,完成相同数量的学习资源后,与推荐路径匹配越多,是否能力值提高越多。
本发明为每个能力状态的学生推荐一条最优路径,对于每一条路径,从大量的学生原始交互数据中,挑选出与推荐路径相同初始能力的真实学习路径,并以推荐路径的长度截断,比较分析实际路径与推荐路径的匹配程度,以及最终能力值相比起始能力值的提升,即比较相同起始能力状态及相同路径长度下,分析其与推荐路径的匹配程度和能力提升的分布情况。
匹配度Match,表示相同起始能力状态下,推荐路径与截断后非推荐路径的匹配程度:
Figure BDA0002212572770000091
其中,||Pathrec∩Pathno_rec||表示推荐路径与非推荐路径最长连续公共子串的长度,||Pathrec||表示推荐路径的长度。
图7为基于Q_learning的路径规划算法实验数据,行表示相同匹配程度下,不同初始能力对应的能力增益;列表示相同初始能力下,不同匹配程度对应的能力增益。其中’-’表示在学生的历史交互行为数据中未找到与推荐路径完全匹配的实际路径。由数据可以看出,在相同匹配程度下,初始能力较低时,能力提升越大,如图。当匹配程度为40%及以上时,相同起始能力状态下,能力增益随匹配程度增加而提高,如图7所示,即实际路径与推荐路径匹配程度越高,越有利于学生能力的提升,充分验证了推荐的路径对于学生能力提升的有效性。
且对于第I,II类初始能力状态下,在实际交互行为数据中,无法找到与推荐路径完全匹配的真实路径,表示基于Q_learning的推荐算法基于已有的数据探索了新的全局最优路径。
上面所述的仅是体现本发明基于强化学习的自适应学习路径规划方法实施例。本发明并不限于上述实施例。本发明的说明书是用于进行说明,不限制权利要求的范围。对于本领域的技术人员,很显然可以有很多的替换、改进和变化。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围内。

Claims (7)

1.一种基于强化学习的自适应学习路径规划***,其特征在于,包括:环境模拟模块、策略训练模块和路径规划模块;
环境模拟模块,实现将复杂的在线学***台上的历史学习记录以及学习资源的基本信息,根据改进后的项目反映原理,形式化得到马尔科夫决策过程的五元组;
策略训练模块,实现离线训练基于各能力状态下的路径规划策略的功能;根据环境模拟模块得到的马尔科夫决策过程的五元组,应用基于强化学习的Q_learning算法,离线训练得到基于各能力状态下的路径规划策略;
路径规划模块,实现为目标学生实时进行路径规划的功能;根据策略训练模块得到的策略,基于目标学生当前的能力状态,得到为该目标学生实时规划的最优学习路径,最终达到提高学习效果和效率的目标;
所述环境模拟模块步骤实现如下:
(21)S表示能力状态集合,根据改进后的项目反映原理得到学生每个时刻的能力值,即将学生的能力值定义为状态,为保证状态的离散型,需要进行能力划分,将每一维的学生能力值按学生数量正态分布比例来划分能力值区间,按照学生数量高斯分布比例来划分区间,每个区间取均值作为该区间的能力值;
(22)A表示动作集合,指智能体能够采取的行为集合,在线教育的环境下,即为学生学习的资源集合;
(23)T表示状态转移概率,基于步骤(21)中的能力划分后的状态,以及能力划分后的学生学习行为路径数据,统计计算状态转移概率T;
T(s,a,s′)=P(st+1=s′|st=s,at=a)
Figure FDA0003585407310000011
其中
Figure FDA0003585407310000012
表示状态实例,
Figure FDA0003585407310000013
表示动作实例,t表示时刻,st表示t时刻下的状态,at表示t时刻下选择的动作;
(24)R表示奖赏,奖赏分为即时奖赏和累积奖赏
即时奖赏应用于学生的学习过程,理解为学生在某个时刻状态为s∈S学习了资源a∈A后转移到状态s′∈S,能够获得该时刻的即时奖赏值r(s,a,s′),表示R在该时刻获得的奖赏实例,该奖赏值与正确完成概率,正确转移频次以及能力增量三个因素有关;
累积奖赏G,又称之为回报,被定义为奖赏序列的某一具体函数,假设当前时刻为t,则t时刻后的奖赏序列为Rt+1,Rt+2,Rt+3,…RM,M为总时长则累积奖赏G表示为每一时刻即时奖赏的和,然后再加入折扣因子得到:
Figure FDA0003585407310000021
(25)γ表示折扣因子,在上述计算累积奖赏的表示中,γ∈[0,1],相当于将未来的回报打了折扣,若γ趋近于0,则仅关心当前的即时奖赏,往往会执行使当前即时奖赏最大的行为,本质是一种贪心行为;若γ趋近于1,则会更多的考虑未来回报。
2.根据权利要求1所述的基于强化学习的自适应学习路径规划***,其特征在于:所述策略训练步骤如下:
(31)存储环境模拟步骤中的得到的马尔科夫决策过程的五元组<S,A,T,R,γ>;
(32)从能力状态集合S中随机选择一个初始的能力状态S1
(33)基于ε-greedy策略在能力状态S1下选择资源A1进行学习,再根据环境可观测下一个能力状态S2,同时得到即时奖赏R2,此时选择当前能力状态下最大的Q值用以更新Q值表:
Figure FDA0003585407310000022
其中Qk表示当前的Q值表,Qk+1表示更新后的Q值表,α表示更新比例,每次按新值部分更新旧值;
(34)不断循环步骤(33),直至学习能力达到要求,即到达终止状态,循环步骤(32),重新选择初始的能力状态;
(35)以字典的形式存储每个能力状态下的最优路径,至此策略训练完成。
3.根据权利要求1所述的基于强化学习的自适应学习路径规划***,其特征在于:所述路径规划模块实现步骤如下:
(41)获取目标学生的当前能力状态s∈S;
(42)在策略中,寻找与能力s最接近的状态下的一个学习路径l;
(43)将所述学习路径推荐给该目标学生,并在后续的学习过程中自适应调整规划学习路径。
4.根据权利要求3所述的基于强化学习的自适应学习路径规划***,其特征在于:所述步骤(43)中,自适应调整规划路径步骤如下:
(51)根据目标学生当前的能力s为该目标学生规划学习路径,下一个学习阶段后,目标学生的能力状态变更为s′;
(52)重复步骤(42),依据目标学生更新后的能力状态s′,为该目标学生规划新的推荐路径l′
(53)比较步骤(42)中的一个学习路径l的后续路径与新的推荐路径l′,若不同,则用新的推荐路径l′替换所述步骤(42)中的学习路径l,若相同则不变。
5.根据权利要求1所述的基于强化学习的自适应学习路径规划***,其特征在于:所述步骤(21)中,学生能力状态区间的离散化方法,依照学生数量1:2:5:2:1的高斯分布分布比例来划分五个区间。
6.根据权利要求1所述的基于强化学习的自适应学习路径规划***,其特征在于:步骤(24)中,即时奖赏值与如下三个因素有关:
P(T):正确完成概率,学生在该某个时刻能力值下能够正确完成学习资源a的概率,基于学习效果评估模型预测;
F(T):正确转移频次,学生路径中所有从状态s转移通过a转移到状态s′的样本,其中通过正确完成学习资源而完成转移的概率,表示为:
Figure FDA0003585407310000031
C表示样本数
Diff(s1,s2)=(s′-s)·difficultya,转化前后能力的最大增量表示为能力前后的差值向量与学习资源难度的点积,以匹配学生的能力值与学习资源的难度,并将向量标量化,便于奖赏的计算与比较;
即时奖赏r表示为:
r(s,a,s′)=ω×Diff(s,s′)
ω=P(T)×F(T)+(1-P(T))×(1-F(T))
其中,ω作为最大能力增量的系数。
7.根据权利要求2所述的基于强化学习的自适应学习路径规划***,其特征在于:所述步骤(33)中,ε-greedy策略的具体步骤如下:
(71)指定ε∈[0,1]值,并随机一个0-1之间的随机数;
(72)若随机数小于ε则随机选择当前能力状态下可选择的资源进行学习,每个资源被选择的概率均为
Figure FDA0003585407310000032
其中|A1|为当前状态下可选择的资源个数;
(73)若随机数大于等于ε则选择当前状态下具有最大状态-动作值Q的资源进行学习。
CN201910907990.XA 2019-03-11 2019-09-24 一种基于强化学习的自适应学习路径规划*** Active CN110569443B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019102024130 2019-03-11
CN201910202413.0A CN109948054A (zh) 2019-03-11 2019-03-11 一种基于强化学习的自适应学习路径规划***

Publications (2)

Publication Number Publication Date
CN110569443A CN110569443A (zh) 2019-12-13
CN110569443B true CN110569443B (zh) 2022-05-17

Family

ID=67008429

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910202413.0A Pending CN109948054A (zh) 2019-03-11 2019-03-11 一种基于强化学习的自适应学习路径规划***
CN201910907990.XA Active CN110569443B (zh) 2019-03-11 2019-09-24 一种基于强化学习的自适应学习路径规划***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910202413.0A Pending CN109948054A (zh) 2019-03-11 2019-03-11 一种基于强化学习的自适应学习路径规划***

Country Status (1)

Country Link
CN (2) CN109948054A (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288878B (zh) * 2019-07-01 2021-10-08 科大讯飞股份有限公司 自适应学习方法及装置
CN112307214A (zh) * 2019-07-26 2021-02-02 株式会社理光 一种基于深度强化学习的推荐方法及推荐装置
CN110601973B (zh) * 2019-08-26 2022-04-05 中移(杭州)信息技术有限公司 一种路由规划方法、***、服务器及存储介质
CN112446526B (zh) * 2019-09-05 2024-03-12 美商讯能集思智能科技股份有限公司台湾分公司 生产排程***及方法
CN110738860B (zh) * 2019-09-18 2021-11-23 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN112712385B (zh) * 2019-10-25 2024-01-12 北京达佳互联信息技术有限公司 广告推荐方法、装置、电子设备及存储介质
CN110941268B (zh) * 2019-11-20 2022-09-02 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111859099B (zh) * 2019-12-05 2021-08-31 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111415048B (zh) * 2020-04-10 2024-04-19 大连海事大学 一种基于强化学习的车辆路径规划方法
CN111626489B (zh) * 2020-05-20 2023-04-18 杭州安恒信息技术股份有限公司 基于时序差分学习算法的最短路径规划方法和装置
CN111896006B (zh) * 2020-08-11 2022-10-04 燕山大学 一种基于强化学习和启发式搜索的路径规划方法及***
CN112187710B (zh) * 2020-08-17 2022-10-21 杭州安恒信息技术股份有限公司 威胁情报数据的感知方法、装置、电子装置和存储介质
CN111898770B (zh) * 2020-09-29 2021-01-15 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN113379063B (zh) * 2020-11-24 2024-01-05 中国运载火箭技术研究院 基于在线增强学习模型的全流程任务时序智能决策方法
CN112612948B (zh) * 2020-12-14 2022-07-08 浙大城市学院 一种基于深度强化学习的推荐***构建方法
CN113111907A (zh) * 2021-03-01 2021-07-13 浙江工业大学 基于强化学习的个性化peep调节方法
CN112734142B (zh) * 2021-04-02 2021-07-02 平安科技(深圳)有限公司 基于深度学习的资源学习路径规划方法及装置
CN113271338B (zh) * 2021-04-25 2022-04-12 复旦大学 一种移动增强现实场景的智能预加载方法
CN113128611B (zh) * 2021-04-27 2023-06-06 陕西师范大学 基于深度学习学生在线学习效率预测的模型检测方法
CN113268611B (zh) * 2021-06-24 2022-11-01 北京邮电大学 一种基于深度知识跟踪与强化学习的学习路径优化方法
CN113467481B (zh) * 2021-08-11 2022-10-25 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113829351B (zh) * 2021-10-13 2023-08-01 广西大学 一种基于强化学习的移动机械臂的协同控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6120300A (en) * 1996-04-17 2000-09-19 Ho; Chi Fai Reward enriched learning system and method II
CN105956754A (zh) * 2016-04-26 2016-09-21 北京京师乐学教育科技有限公司 一种基于学生学业大数据***的学习路径规划***和方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253989A1 (en) * 2017-03-04 2018-09-06 Samuel Gerace System and methods that facilitate competency assessment and affinity matching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6120300A (en) * 1996-04-17 2000-09-19 Ho; Chi Fai Reward enriched learning system and method II
CN105956754A (zh) * 2016-04-26 2016-09-21 北京京师乐学教育科技有限公司 一种基于学生学业大数据***的学习路径规划***和方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Policies for Markov Decision Processes From Data;Manjesh Kumar Hanawal,等;《IEEE Transactions on Automatic Control 》;20180821;第64卷(第6期);第2298-2309页 *
在线学习资源个性化推荐与学习路径规划研究;叶露;《中国优秀硕士学位论文全文数据库信息科技辑》;20180531;第I138-562页 *

Also Published As

Publication number Publication date
CN110569443A (zh) 2019-12-13
CN109948054A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN110569443B (zh) 一种基于强化学习的自适应学习路径规划***
Dulac-Arnold et al. Deep reinforcement learning in large discrete action spaces
CN111582694B (zh) 一种学习评估方法及装置
Tuyls et al. An evolutionary dynamical analysis of multi-agent learning in iterated games
CN111813921B (zh) 题目推荐方法、电子设备及计算机可读存储介质
Kordon Applying computational intelligence: how to create value
Judah et al. Active lmitation learning: formal and practical reductions to IID learning.
CN112434171A (zh) 一种基于强化学习的知识图谱推理补全方法及***
Werbos Reinforcement learning and approximate dynamic programming (RLADP)—foundations, common misconceptions, and the challenges ahead
CN114186084B (zh) 在线多模态哈希检索方法、***、存储介质及设备
CN115186097A (zh) 一种基于知识图谱和强化学习的交互式推荐方法
CN113239209A (zh) 基于RankNet-transformer的知识图谱个性化学习路径推荐方法
CN115249072A (zh) 一种基于生成对抗用户模型的强化学习路径规划方法
Dai et al. Study of online learning resource recommendation based on improved BP neural network
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质
CN113743603A (zh) 控制方法、装置、存储介质及电子设备
EL MEZOUARY et al. An evaluation of learner clustering based on learning styles in MOOC course
Ge et al. A cooperative framework of learning automata and its application in tutorial-like system
Liu et al. SARLR: Self-adaptive Recommendation of Learning Resources.
Coulson Data-enabled predictive control: Theory and practice
Zha Xia Hu
Lieck Learning structured models for active planning: beyond the Markov paradigm towards adaptable abstractions
Wu et al. EN-DIVINE: An enhanced generative adversarial imitation learning framework for knowledge graph reasoning
CN110727768B (zh) 一种候选回答语句生成和自然语言选择方法及***
Li Path Planning for the Fragmented Learning of College Students Based on Artificial Intelligence.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant