CN109902371A - 一种基于深度强化学习的智能排课方法 - Google Patents
一种基于深度强化学习的智能排课方法 Download PDFInfo
- Publication number
- CN109902371A CN109902371A CN201910122698.7A CN201910122698A CN109902371A CN 109902371 A CN109902371 A CN 109902371A CN 201910122698 A CN201910122698 A CN 201910122698A CN 109902371 A CN109902371 A CN 109902371A
- Authority
- CN
- China
- Prior art keywords
- class
- row
- state
- reward
- school timetable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的智能排课方法。它具体包括如下步骤:(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果。本发明的有益效果是:在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。
Description
技术领域
本发明涉及深度强化学习相关技术领域,尤其是指一种基于深度强化学习的智能排课方法。
背景技术
课表是学校和教育机构实施教学计划的时间安排。课表安排老师上课,学生学习,对维护教学秩序保障教学具有重要的意义。课表的排课任务在教务工作中占据重要地位,但其任务规模大,影响因素多,是一项复杂的任务。目前,排课任务大多手工进行,由实践经验丰富的人员集中进行编排,协调出现的各种矛盾,反复检查任务的合理性,修正课表,直至符合要求。1963年,Gotlieb提出排课问题的数学模型,指出排课问题是组合规划中的典型问题,20世纪70年代S.Even等论证了课表排课问题是NP完全类问题,说明了课表问题存在解,并且能够找到解。深度强化学习(deep reinforcement learning)是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决策略和值函数的建模问题,然后使用误差反向传播算法来优化目标函数。深度强化学习是一种强大的学习工具,它是一种非监督学习方法,可以用来对排课问题进行求解。
发明内容
本发明是为了克服现有技术中需要考虑排课的教学资源以及安排合理性等因素的不足,提供了一种不需要考虑排课的教学资源以及安排合理性因素的基于深度强化学习的智能排课方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度强化学习的智能排课方法,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果。
本发明提出了一种智能排课方法,通过对课表的排课要求进行全面分析,通过深度强化学习方法课表的智能排课方法。深度强化学习是一种深度学习技术扩展传统强化学习方法的一种机器学习方法。在本发明中,深度强化学习具体选用深度Q学习算法,它选择动作安排的评价值Q值动作决策的依据。Q值的评价相对客观,不必考虑当前课表状态的好坏,Q学习算法的迭代是策略无关的,总是选择最大的Q值作为输入。同时,结合深度神经网络进行函数逼近。对于深度Q学习算法来说,首先初始化奖励r,排课状态s以及排课动作a,由于其可以自学习,故只需要准备排课任务即可,最后得到学到的Q值表。在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。
作为优选,排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r=-100。
作为优选,在步骤(2)中,排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵。
作为优选,在步骤(2)中,排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00。
作为优选,其特征是,在步骤(3)中,深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组(s,a,r,s′),其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;s′是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练。
本发明的有益效果是:在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。
附图说明
图1是本发明深度强化学习的框架图;
图2是本发明深度Q学习算法训练流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
一种基于深度强化学习的智能排课方法,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r=-100。
排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵。
排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00。
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果;
如图1所示,深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组(s,a,r,s′),其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;s′是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练。
如图2所示,具体的深度Q学习算法训练流程如下:
101、初始化回放记忆单元D,目标值网络的更新步为C;用随机权值θ初始化在线值网络Q,同时初始化目标值网络Q′的权值θ′,θ′=θ;
102、e=1~M,遍历M个回合;
103、t=1~T,遍历T个时间;
104、根据概率ε选择一个随机的动作a;根据当前的状态输入到当前的网络中,计算出下一步每个可能动作的值,选择最优动作a′;执行上面的最优动作a′就可以得到奖励r,以及下一个状态;
105、把记忆单元存入回放记忆单元D;
106、从回放记忆单元D中随机选取一个存储的数据进行运算;计算当前状态的目标值。如果回合结束,那么目标值y=r,如果没有结束,那么就将下一个处理好的状态输入到网络,使目标网络参数得到最大的Q值,然后按下面公式计算:
yj=rj+γmaxa’Q'(sj,a′,θ')
s′是状态s下采取动作a的所到达的下一步状态,
a′是状态s下采取动作a的所到达的下一步动作;
γ表示折扣因子;
107、计算当前状态和动作下的Q值,将当前处理好的状态输入到网络,选择对应的动作的Q值。根据损失函数通过随机梯度算法来更新参数;
损失函数计算公式如下:
Loss=(yi-Q(sj,aj,θ)2)
每C次迭代后更新目标值网络的参数为当前的参数;
108、循环遍历时间状态;
109、循环遍历回合;
110、根据最优在线值网络Q得出最佳排课任务;
111、准备排课任务,深度Q学习算法完成整个训练流程,得到学到的目标值网络和需要的排课结果。
Claims (5)
1.一种基于深度强化学习的智能排课方法,其特征是,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果。
2.根据权利要求1所述的一种基于深度强化学习的智能排课方法,其特征是,排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r=-100。
3.根据权利要求1所述的一种基于深度强化学习的智能排课方法,其特征是,在步骤(2)中,排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵。
4.根据权利要求1所述的一种基于深度强化学习的智能排课方法,其特征是,在步骤(2)中,排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00。
5.根据权利要求1所述的一种基于深度强化学习的智能排课方法,其特征是,在步骤(3)中,深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组(s,a,r,s′),其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;s′是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122698.7A CN109902371B (zh) | 2019-02-19 | 2019-02-19 | 一种基于深度强化学习的智能排课方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122698.7A CN109902371B (zh) | 2019-02-19 | 2019-02-19 | 一种基于深度强化学习的智能排课方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902371A true CN109902371A (zh) | 2019-06-18 |
CN109902371B CN109902371B (zh) | 2023-04-18 |
Family
ID=66945036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910122698.7A Active CN109902371B (zh) | 2019-02-19 | 2019-02-19 | 一种基于深度强化学习的智能排课方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902371B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458737A (zh) * | 2019-08-20 | 2019-11-15 | 暨南大学 | 基于神经网络修改高校教务安排的方法、装置、设备及介质 |
CN112396257A (zh) * | 2020-12-24 | 2021-02-23 | 亿景智联(北京)科技有限公司 | 利用强化学习实现的排班规划的方法和*** |
CN116797423A (zh) * | 2023-08-23 | 2023-09-22 | 湖南强智科技发展有限公司 | 一种基于全局优化的高校自动快速排课方法与*** |
CN116843525A (zh) * | 2023-08-28 | 2023-10-03 | 湖南强智科技发展有限公司 | 一种智能自动排课方法、***、设备及存储介质 |
CN117057413A (zh) * | 2023-09-27 | 2023-11-14 | 珠高智能科技(深圳)有限公司 | 强化学习模型微调方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150079579A1 (en) * | 2013-09-13 | 2015-03-19 | Ian James Oliver | Integrated physical sensor grid and lesson system |
CN108122179A (zh) * | 2016-11-30 | 2018-06-05 | 北京王府学校 | 分层教学排课方法和装置、分层教学选课方法和*** |
-
2019
- 2019-02-19 CN CN201910122698.7A patent/CN109902371B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150079579A1 (en) * | 2013-09-13 | 2015-03-19 | Ian James Oliver | Integrated physical sensor grid and lesson system |
CN108122179A (zh) * | 2016-11-30 | 2018-06-05 | 北京王府学校 | 分层教学排课方法和装置、分层教学选课方法和*** |
Non-Patent Citations (1)
Title |
---|
郭方铭等: "采用增强学习算法的排课模型", 《计算机工程与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458737A (zh) * | 2019-08-20 | 2019-11-15 | 暨南大学 | 基于神经网络修改高校教务安排的方法、装置、设备及介质 |
CN110458737B (zh) * | 2019-08-20 | 2023-09-26 | 暨南大学 | 基于神经网络修改高校教务安排的方法、装置、设备及介质 |
CN112396257A (zh) * | 2020-12-24 | 2021-02-23 | 亿景智联(北京)科技有限公司 | 利用强化学习实现的排班规划的方法和*** |
CN116797423A (zh) * | 2023-08-23 | 2023-09-22 | 湖南强智科技发展有限公司 | 一种基于全局优化的高校自动快速排课方法与*** |
CN116797423B (zh) * | 2023-08-23 | 2023-11-14 | 湖南强智科技发展有限公司 | 一种基于全局优化的高校自动快速排课方法与*** |
CN116843525A (zh) * | 2023-08-28 | 2023-10-03 | 湖南强智科技发展有限公司 | 一种智能自动排课方法、***、设备及存储介质 |
CN116843525B (zh) * | 2023-08-28 | 2023-12-15 | 湖南强智科技发展有限公司 | 一种智能自动排课方法、***、设备及存储介质 |
CN117057413A (zh) * | 2023-09-27 | 2023-11-14 | 珠高智能科技(深圳)有限公司 | 强化学习模型微调方法、装置、计算机设备及存储介质 |
CN117057413B (zh) * | 2023-09-27 | 2024-03-15 | 传申弘安智能(深圳)有限公司 | 强化学习模型微调方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109902371B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378818B (zh) | 基于难度的个性化习题推荐方法、***及介质 | |
CN109902371A (zh) | 一种基于深度强化学习的智能排课方法 | |
CN110516116A (zh) | 一种多步分层的学***挖掘方法及*** | |
Vargas et al. | Automated assessment and monitoring support for competency-based courses | |
CN109165799A (zh) | 基于遗传算法的走班教学排课*** | |
Chen et al. | Education 4.0 using artificial intelligence for students performance analysis | |
CN108256102A (zh) | 一种基于聚类的独立学院学生评教数据分析方法 | |
CN106875305A (zh) | 一种高校教学质量评价方法 | |
CN106095812A (zh) | 一种基于相似性度量的智能试卷生成方法 | |
CN108228674A (zh) | 一种基于dkt的信息处理方法及装置 | |
CN114021722A (zh) | 一种融合认知刻画的注意力知识追踪方法 | |
CN109903201A (zh) | 个性化培养方案生成方法和*** | |
Wang et al. | An automatic classification and clustering algorithm for online learning goals based on cognitive thinking | |
Wang | [Retracted] Feasibility Analysis and Discrete Dynamic Modeling of Physical Education Teaching Strategy Based on Intelligent Computing | |
Ichsan et al. | CPU implementation using only logisim simulator to achieve computer architecture learning outcome | |
CN115205072A (zh) | 一种面向长周期测评的认知诊断方法 | |
Noama et al. | Improvement of E-learning based via learning management systems (LMS) using artificial neural networks | |
Zhao et al. | Evaluation of women’s entrepreneurship education based on BP neural network | |
Cabo | Use of Machine Learning to Identify Predictors of Student Performance in Writing Viable Computer Programs with Repetition Loops and Methods | |
Yang et al. | Mathematical modeling and system design of timetabling problem based on improved GA | |
Gao et al. | Evaluation method of creative dance teaching quality based on fuzzy comprehensive evaluation | |
Yong et al. | Students' perception of non-placement work-integrated learning in chemical engineering: Work-related skills towards the post-pandemic future | |
Arnold et al. | Toward an integrative professional and personal competency-based learning model for inclusive workforce development | |
Shuib et al. | Elman neural network trained by using artificial bee colony for the classification of learning style based on students preferences | |
Chen et al. | Design of Assessment Judging Model for Physical Education Professional Skills Course Based on Convolutional Neural Network and Few‐Shot Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Yangbo Inventor after: Sun Lin Inventor before: Jiang Yangbo |
|
GR01 | Patent grant | ||
GR01 | Patent grant |