CN108614865B

CN108614865B - 基于深度强化学习的个性化学习推荐方法

Info

Publication number: CN108614865B
Application number: CN201810307140.1A
Authority: CN
Inventors: 汤胤; 黄书强; 王雯
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2020-12-11
Anticipated expiration: 2038-04-08
Also published as: CN108614865A

Abstract

本发明公开了一种基于深度强化学习的个性化学习推荐方法，包括以下步骤：定义知识点及题目的难度属性，根据知识点之间的关系构建知识点网络图；根据知识点之间的关系确定知识点下题目之间的关系，构建题目网络图；根据用户行为数据，在题目网络图中得到针对指定用户当前状态下的子图，作为学习边界；进而使用深度强化学习算法，利用用户历史记录建模，训练得到在用户当前状态下的子图中如何选取割集策略。本发明方法可智能化地为用户推荐最佳题目，节省用户学习时间，使其学习效率提高，学习体验提升。

Description

基于深度强化学习的个性化学习推荐方法

技术领域

本发明涉及个性化学习推荐研究领域，特别涉及一种基于深度强化学习的个性化学习推荐方法。

背景技术

伴随着现在越来越多的互联网教育平台推出，网络学***台的普及，能够迅速呈现最适合用户认知水平的学***台普及及用户量增加也积累了越来越多的用户网络学习的行为数据。如何利用用户的行为数据，给用户推荐适合自己的学习教材或题目，从而改进用户的学习体验已成为目前研究的热点。

目前已经有相关研究是针对当前用户的行为数据，根据这些行为数据进行建模，为用户推荐个性化题目，技术方案主要有两个方面，一个是基于推荐***，另一个是基于用户行为模式挖掘。两者存在易忽略用户行为中蕴含的信息，资源利用率不高、推荐输出不稳定以及精准度较低等问题。

发明内容

本发明的目的在于克服现有技术无法进行个性化推荐的缺点，提供一种基于深度强化学习的个性化学习推荐方法，该方法可智能化地为用户推荐“学习区”题目，节省用户学习时间，使学习效率提高，学习体验提升。

本发明的目的通过以下的技术方案实现：基于深度强化学习的个性化学习推荐方法，包括以下步骤：

(1)定义知识点及题目的难度属性，根据知识点之间的关系构建知识点网络图；

(2)根据知识点之间的关系确定知识点下题目之间的关系，构建题目网络图；

(3)根据用户行为数据，在题目网络图中得到指定用户当前状态下的子图；

(4)使用深度强化学习算法，利用用户历史记录建模，训练得到在用户当前状态下的子图中如何选取割集即用户“学习区”策略。

优选的，步骤(1)中，知识点的难度属性值依赖专家或用户数据建模来定义，题目的难度属性根据题目所在的知识点的难度属性值及题目自身的难度依赖专家或用户数据建模来定义。

优选的，步骤(1)中，知识点网络图是指依据知识点作为节点，知识点的难度属性值作为节点的难度属性值，依据知识点间的关系建立连边，知识点间关系程度作为连边的权重值，关系依赖专家或用户数据建模。

优选的，步骤(2)中，题目网络图是指依据知识点下的题目作为节点，题目的难度属性值作为节点的题目难度属性值，题目所在的知识点难度属性值作为节点的知识点难度属性值，依据有连边的知识点下题目间关系及同一知识点下的题目间关系建立连边，题目间关系程度作为连边的权重值。

优选的，步骤(3)中，用户当前状态下的子图的构建方法是：根据用户行为数据，在题目网络图中依据用户行为数据找到作答过的题目节点的前向或后向节点，找到的节点及与其的连边、连边的权重构成用户当前状态下的子图。

优选的，步骤(4)中，构建一深度强化学习模型，将用户的历史作答记录作为深度强化学习模型的状态，根据用户当前状态下的子图中节点的难度属性的选题策略作为动作集，依据用户作答的正确数确定回报值，通过一定量的答题过程进行深度强化学习训练，训练从用户当前状态下的子图中选取割集策略，割集即个性化学习推荐中“学习区”的题目。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明根据用户学习行为建模，使用深度强化学习算法学习用户行为，得到用户的“学习区”，使得最终的推荐用户作答的题目达到既适合用户能力难度，又能使用户的作答有较好的准确率，从而达到用户高效学习的目的。

2、本发明中基于复杂网络图，根据用户历史行为在题目网络图中找到与用户历史行为关联的题目，可充分利用用户历史行为信息，挖掘用户行为的有效信息。

3、本发明在深度强化学习训练过程中，构建深度强化学习模型时，使用用户行为序列建模，即通过一定量的答题进行深度强化学习训练，每次答题后都使用用户最近作答记录作为状态，每次作答后进行更新，这样选取的状态能有效体现用户的个性化。

4、本发明方法可智能化选取用户的“学习区”，即利用深度强化学习算法，学习给用户进行个性化题目推荐的策略，达到智能化地给用户推荐题目，即“学习区”范围内的题目，让用户体验更佳。

附图说明

图1是本实施例方法的原理示意图，(a)表示知识点网络图结构，(b)表示同知识点下题目网络结构，(c)有关联的知识点下题目网络结构，(d)表示选取的用户行为数据在题目网络图中的结构，(e)表示在题目网络图中寻找该题目节点的前向、后向节点，(f)表示用户当前状态下的子图的结构，(g)表示得到的“学习区”题目。

图2是本发明进行深度强化学习训练时的过程图。

图3是本实施例方法实施过程中数据、操作等之间的关系。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例提供一种基于深度强化学习的个性化学习推荐方法，步骤是运用复杂网络图表示知识点间的关系形成知识点网络图及题目间的关系形成题目网络图，通过用户行为数据得到用户行为在题目网络图中的用户当前状态下的子图，将寻找“学习区”问题转化为用户当前状态下的子图中寻找割集问题，利用深度强化学习算法，对用户行为数据建模，训练得到从用户当前状态下的子图中选取割集的策略，从而实现给用户进行个性化学习推荐。下面结合附图对各个步骤进行具体说明。

一、定义知识点及题目的难度属性，根据知识点之间的关系构建知识点网络图。

在实际操作中，知识点及题目的难度属性可由资深教师根据自己的教学经验预先进行设定或者利用用户历史数据生成，题目的难度属性可根据结合题目所在的知识点的难度属性值及题目自身的难度依赖专家或用户数据建模来定义。

构建的知识点网络图中，依据知识点作为节点，知识点的难度属性值作为节点的难度属性值，依据知识点间的关系建立连边，知识点间关系程度作为连边的权重值。构建的知识点网络图结构参见图1(a)。

二、根据知识点之间的关系确定知识点下题目之间的关系，构建题目网络图。

本实施例中，题目网络图是指依据知识点下的题目作为节点，题目的难度属性值作为节点的题目难度属性值，题目所在的知识点难度属性值作为节点的知识点难度属性值，依据有连边的知识点下题目间关系及同一知识点下的题目间关系建立连边，题目间关系程度作为连边的权重值。构建的结构参见图1(b)、图1(c)，图1(b)表示同知识点下题目网络结构，图1(c)有关联的知识点下题目网络结构。

三、根据用户行为数据，在题目网络中得到用户当前状态下的子图。

(1)首先从用户行为库得到用户行为数据，选取最近的答题记录，即用户当前状态的行为数据，在题目网络图中的结构参见图1(d)；

(2)然后根据最近的答题记录从题目网络图中找到作答题目节点的前向、后向节点，具体的，若历史作答题目作答正确，则在题目网络图中寻找该题目节点的后向节点，若历史作答题目作答错误，则在题目网络图中寻找该题目节点的前向节点，结构参见图1(e)；

(3)然后将找到的节点及与其的连边、连边的权重共同构成用户当前状态下的子图，结构参见图1(f)。

四、使用深度强化学习算法，结合用户历史记录，训练得到在用户当前状态下的子图中如何选取割集策略。

参见图2，使用深度强化学习算法进行学习的过程如下：

(1)先构建一深度强化学习初始模型，通过一定量的用户答题进行深度强化学习训练，训练过程中将用户的历史作答记录作为深度强化学习模型的状态，将用户当前状态下的子图中节点的难度属性的选题策略作为动作集，依据用户作答的正确数确定回报值；

(2)根据深度强化学习模型反馈出“学习区”题目，用户作答后得到策略的回报值、新的答题记录、新的用户当前状态下的子图、原答题记录不断输入进深度强化学习模型进行训练；

(3)最终训练得到从用户当前状态下的子图中选取割集的策略，从而实现给用户进行个性化学习推荐，得到的“学习区”题目如图1(g)所示。

参见图3，在方法实施过程中，用户作答不断得到新的历史记录，根据这些记录不断输入到深度强化学习模型进行训练，根据训练结果，得到新的“学习区”题目，即从用户当前状态下的子图中筛选出的新题目，用户继续作答，通过上述过程，得到选取题目的最佳策略，实现个性化学习推荐。

本发明方法基于深度强化学习的神经网络，经过大量训练，能够适应多数用户的行为，对用户行为进行建模，利用深度强化学习技术学习根据用户行为出题策略，从而实现根据用户进行个性化学习推荐，在应用中可达到个性化出题的目的。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于深度强化学习的个性化学习推荐方法，其特征在于，包括以下步骤：

题目网络图是指依据知识点下的题目作为节点，题目的难度属性值作为节点的题目难度属性值，题目所在的知识点难度属性值作为节点的知识点难度属性值，依据有连边的知识点下题目间关系及同一知识点下的题目间关系建立连边，题目间关系程度作为连边的权重值；

(3)根据用户行为数据，在题目网络图中得到指定用户当前状态下的子图，包括了指定期间内其作答正确和错误的节点以及邻居节点；

步骤(3)中，用户当前状态下的子图的构建方法是：根据用户行为数据，在题目网络图中依据用户行为数据找到作答过的题目节点的前向或后向节点，找到的节点及与其的连边、连边的权重构成用户当前状态下的子图；

(4)使用深度强化学习算法，利用用户历史记录建模，训练得到在用户当前状态下的子图中如何选取割集，确定选题策略并进行选题；

步骤(4)中，构建一深度强化学习模型，将用户的历史作答记录作为深度强化学习模型的状态，根据用户当前状态下的子图中节点的难度属性的选题策略作为动作集，依据用户作答的正确数确定回报值，通过一定量的答题进行深度强化学习训练，训练从用户当前状态下的子图中选取割集策略。

2.根据权利要求1所述的基于深度强化学习的个性化学习推荐方法，其特征在于，步骤(1)中，知识点的难度属性值依赖专家或用户数据建模来定义，题目的难度属性根据题目所在的知识点的难度属性值及题目自身的难度依赖专家或用户数据建模来定义。

3.根据权利要求1所述的基于深度强化学习的个性化学习推荐方法，其特征在于，步骤(1)中，知识点网络图是指依据知识点作为节点，知识点的难度属性值作为节点的难度属性值，依据知识点间的关系建立连边，知识点间关系程度作为连边的权重值，关系依赖专家或用户数据建模来定义。