CN114969487A

CN114969487A - 一种课程推荐方法、装置、计算机设备及存储介质

Info

Publication number: CN114969487A
Application number: CN202110190358.5A
Authority: CN
Inventors: 文谊
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-08-30

Abstract

本申请公开了一种课程推荐方法、装置、计算机设备及存储介质，该方法包括根据目标用户的第一历史课程浏览数据，确定目标用户的当前状态；根据当前状态及预先训练的目标强化学***台带来长期收益的效果；同时实现了对强化学习网络模型中所输出动作空间的降维处理，保证了网络课程到用户端的有效推荐，提升了用户体验。

Description

一种课程推荐方法、装置、计算机设备及存储介质

技术领域

本申请涉及信息推荐技术领域，尤其涉及一种课程推荐方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的快速发展和普及应用，数字化的在线学***台中供用户学习的网络课程量也***式增加。面对如此巨大的信息量，用户很难快速的搜寻到自己感兴趣或是想要学习的课程。

目前，平台方往往通过主动或被动向用户进行课程推荐的方式来解决上述问题。现有的课程推荐大多数是通过用户在网络教学平台上中的历史操作数据进行相关性建模来实现，以此来预测用户感兴趣的课程并推荐，这种建模方式是仅仅考虑了用户短期的偏好和收益，忽略了整个平台的长期收益，无法与平台方的利益目标相匹配。而现有考虑长期收益的推荐方法又存在无法适用大规模网络课程推荐的问题。

发明内容

有鉴于此，本申请实施例提供了一种课程推荐方法、装置、计算机设备及存储介质，能够在保证平台长期收益的基础上实现面向大规模网络课程的有效推荐。

第一方面，本申请实施例提供了一种课程推荐方法，包括：

根据目标用户的第一历史课程浏览数据，确定所述目标用户的当前状态；

根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别，其中，所述目标强化学习网络模型以网络课程归属的课程类别作为动作空间，且所输出动作空间的输出数量与所述课程类别的总量相同；

从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户。

进一步地，所述网络课程所归属课程类别的划分步骤包括：

从消息队列中获取所选定各用户的第二历史课程浏览数据，对应各所述用户形成课程浏览序列；

将各所述课程浏览序列作为一个待处理句，通过词向量划分模型获得各网络课程的课程向量，形成课程向量集；

对所述课程向量集进行聚类处理，获得所述输出数量的聚类簇，将每个聚类簇的聚类中心向量相应确定为一种课程类别。

进一步地，所述根据目标用户的历史课程浏览数据，确定所述目标用户的当前状态，包括：

对所述目标用户在设定时间段内的第一历史课程浏览数据进行分词处理，确定所述目标用户所对应已浏览课程的已浏览课程向量；

将各所述已浏览课程向量的平均向量确定所述目标用户的当前状态。

进一步地，所述根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别，包括：

将所述当前状态输入至所述目标强化学习网络模型，通过所述目标强化学习网络模型输出所述输出数量个候选向量作为动作空间，其中，各所述候选向量分别标识一种课程类别；

针对每个课程类别，通过给定的累计回报值模型，结合所述当前状态及所述目标强化学习网络模型的当前网络参数，确定所述课程类别的累计回报值；

按照累计回报值排名各所述课程类别，将处于前第一设定名次的课程类别作为候选课程类别。

进一步地，所述从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户，包括：

针对每个候选课程类别，获取候选课程类别的聚类中心向量；

确定所述聚类中心向量所关联聚类簇中各课程向量与所述聚类中心向量的距离值；

按照距离值排名各所述课程向量，将处于前第二设定名次的课程向量作为待推荐课程；

从各所述待推荐课程中选定满足细粒度筛选条件的目标课程分别推送各所述目标用户。

进一步地，所述目标强化学习网络模型的训练步骤包括：

将网络结构相同、网络参数不同的两个强化学习网络模型分别记为实时训练网络模型和初始强化学习网络模型；

根据采用各所述聚类中心向量标识的各课程类别、以及所选定各用户的第二历史课程浏览数据，构造模型训练的训练样本集，其中，所述训练样本集中每个训练样本包括：用户当前状态的第一状态序列、目标聚类中心向量、瞬时回报值、以及下一状态的第二状态序列；

根据各训练样本分别在所述实时训练网络模型和初始强化学习网络模型下的输出结果进行损失函数拟合，并通过所拟合损失函数的反向学习，获得目标强化学习网络模型。

进一步地，所述根据各训练样本分别在所述实时训练网络模型和初始强化学习网络模型下的输出结果进行损失函数拟合，并通过所拟合损失函数的反向学习，获得目标强化学习网络模型，包括：

针对每个训练样本，确定所包括第一状态序列在所述实时训练网络模型下所输出各动作空间向量的当前累计回报值，并确定最大当前累计回报值；

确定所述第一状态序列在所述初始强化学习网络模型下相对所述目标聚类中心向量的标准累计回报值；

根据各训练样本下对应的最大当前累计回报值及标准累计回报值进行损失函数拟合；

根据拟合的损失函数对所述实时训练网络模型的网络参数进行更新，并在更新次数满足参数替换周期时，采用所述实时训练网络模型的网络参数替换所述初始强化学习网络模型的网络参数；

将参数替换后的初始强化学习网络模型确定为所述目标强化学习网络模型。

第二方面，本申请实施例提供了一种课程推荐装置，包括：

信息确定模块，用于根据目标用户的第一历史课程浏览数据，确定所述目标用户的当前状态；

候选确定模块，目标根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别，其中，所述目标强化学习网络模型以网络课程归属的课程类别作为动作空间，且所输出动作空间的输出数量与所述课程类别的总量相同；

目标推荐模块，用于从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户。

第三方面，本申请实施例还提供一种计算机设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面所述的课程推荐方法。

第四方面，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的课程推荐方法。

上述提供的一种课程推荐方法、装置、计算机设备及存储介质，该方法首先根据目标用户的第一历史课程浏览数据，确定该目标用户的当前状态，然后根据该当前状态集预先训练的目标强化学***台带来长期收益的效果；同时，通过对强化学习网络模型中所输出动作空间的降维处理，即，通过保证所输出动作空间的输出数量仅与网络课程所具备课程类别数量相同，来解决强化学习无法适应大规模数据量处理的问题，由此实现了网络课程到用户端的有效推荐，提升了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例一提供的一种课程推荐方法的流程示意图；

图2为本申请实施例二提供的一种课程推荐方法的流程示意图；

图3为本申请实施例三提供的一种课程推荐装置的结构框图；

图4为本申请实施例四提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

实施例一

图1为本申请实施例一提供的一种课程推荐方法的流程示意图，该方法适用于向用户进行网络教学平台中网络课程推荐的情况。该方法可以由课程推荐装置执行，该装置可以由硬件和/或软件实现，并一般集成在计算机设备中。

需要说明的是，将网络在线教学作为本实施例的应用场景时，可以将集成本实施例所提供方法的计算机设备看作进行网络在线教学的平台服务器。一般的，网络教学平台上往往存在有成千上万供用户学习的网络课程，呈现出大规模的网络课程量。仅采用传统的强化学习方式可以解决长期收益的问题，但考虑到强化学习输出的是作为推荐信息的候选集，当用于候选集确定的原始数据规模较大时，并不无法保证强化学习在信息推荐中的有效执行。

本实施例提供的一种课程推荐方法，能够有效解决网络课程规模较大无法通过强化学习进行推荐的问题。

如图1所示，本实施例一提供的一种课程推荐方法，具体包括如下步骤：

S101、根据目标用户的第一历史课程浏览数据，确定所述目标用户的当前状态。

在本实施例中，具备学***台。网络教学平台侧可以对所注册每位用户的用户信息进行记录。一般的，网络教学平台侧可以对每个在线用户进行网络课程的推荐，本实施例可以将每一位通过登陆操作进入网络教学界面的用户看做一个目标用户，而对于每一位目标用户，均可以通过本实施例提供的方法实现相应的课程推荐。

在本实施例中，历史课程浏览数据具体可理解为用户进入网络教学平台后在一段时间内(如，一天、一周、甚至一个月)对所展示各界面进行浏览操作时产生的数据。具体可以是对课程进行浏览时产生的数据，如，浏览了哪些课程，在一段时间内相对一门课程浏览了多少次等，其中，不同的课程的可以通过课程标识号进行区分。为便于区分，本实施例将相对目标用户获取的历史课程浏览数据记为第一历史课程浏览数据。

在本实施例中，所述当前状态具体可理解为在将进行网络课程学习作为应用环境时，目标用户进行下一个动作操作前相对该网络课程学习所具备的操作状态，如，结束了A课程的浏览就相当于用户的一种状态。

具体的，本步骤可以通过对目标用户所对应第一历史课程浏览数据的分析来确定当前状态。可以知道的是，第一历史课程浏览数据中包括了目标用户在一段时间内的相对网络课程的操作信息，本步骤可以将这些操作信息看作一个句子，之后可从中分析获得目标用户的在该段时间内的关键词信息，如所操作的网络课程ID，之后通过对这些关键词信息的处理和汇总形成能够表征当前状态的向量信息。

S102、根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别。

在本实施例中，本步骤相当于通过强化学习网络模型进行课程推荐所需候选课程确定的操作。需要知道的是，强化学习具体可理解为在一个应用环境下，能够以智能学习的形式不断根据环境的当前状态选择待执行的动作，以保证通过执行所选择的各动作后所获得的奖励数目最大。而在每个状态下进行执行动作选择，并保证最终所获得奖励数目最大的具体执行可以通过强化学习网络模型来实现。

本实施例优选采用的强化学习网络模型为深度强化学习(Deep Q-Learning，DQN)网络模型，且将通过设定的训练样本学习后形成的强化学习网络模型记为目标强化学习网络模型。一般的，强化学习网络模型的输入数据为一个当前状态值，输出数据则为与应用环境相关的动作空间数据，每一个动作空间代表一个候选执行动作的数据信息。该目标强化学习网络模型所输出动作空间的输出数量原则上相当于应用环境中作为可执行动作的数量，但该种模式比较适用于包括小规模可执行动作的场景。

在本实施例中，网络教学平台中所包括的每门网络课程原则上都相当于一个用户可执行的候选动作，因为网络课程的数量规模较大，无法直接将每门网络课程作为目标强化学习网络模型中输出的各可执行候选动作。本实施例考虑对网络课程进行课程类别的划分，并将每个课程类别作为目标强化学习网络模型输出的动作空间。即，所述目标强化学习网络模型以网络课程归属的课程类别作为动作空间，且所输出动作空间的输出数量与所述课程类别的总量相同。

具体的，本步骤可以将目标用户的当前状态作为目标强化学***台中的一种课程类别。之后，可以将输出的每个课程类别看作一个候选集合，可以从中筛选出满足条件的候选课程类别。其中，筛选条件可以通过目标强化学习网络模型所输出各动作空间分别对应的累计回报值来设置。一般的，对于对于筛选条件的设定，往往采用贪心算法的策略将最优累计回报值对应的动作空间确定为本步骤粗粒度筛选的结果，本实施例考虑到基于贪心算法策略所确定的最优解无法保证筛选结果的多样性，优选考虑采用非贪心算法来保证本步骤粗粒度筛选结果的多样性，如，考虑将累计回报值排名靠前的多个课程类别分别作为候选课程类别。

需要说明的是，本实施例可以通过聚类处理的形式根据用户的课程浏览习惯对网络课程进行聚类划分，并可将聚类划分后每个聚类簇的聚类中心向量看作一个课程类别的数据信息。

S103、从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户。

在本实施例中，每一个候选课程类别中都存在所归属的一个或多个网络课程，这些网络课程都可以作为课程推荐的候选课程。示例性的，本步骤可以通过某种筛选策略从每个候选课程类别形成的候选课程集合中筛选出一定量的目标课程并推送给目标用户。

具体的，对于目标课程的筛选，可以是对候选课程类别所包含各候选课程进行分析，将重要度或者权重值高的网络课程作为目标课程。本步骤可以对每个候选课程类别都进行上述目标课程的筛选操作，所筛选出的目标课程排名不分先后的推送给目标用户，以将各目标课程的先关信息展示在目标用户的客户端上。

本申请实施例一提供的一种课程推荐方法，主要采用了强化学***台带来长期收益的效果；同时，通过对强化学习网络模型中所输出动作空间的降维处理，即，通过保证所输出动作空间的输出数量仅与网络课程所具备课程类别数量相同，来解决强化学习无法适应大规模数据量处理的问题，由此实现了网络课程到用户端的有效推荐，提升了用户体验。

作为本申请实施例的一个可选实施例，在上述实施例的基础上，所述网络课程所归属课程类别的划分步骤可以包括：

可以理解的是，本实施例通过目标强化学***台中的用户当前倾向浏览的网络课程只要存在哪些课程类别。由此，本可选实施例提供了根据用户的课程浏览行为数据进行课程类别划分的具体实现。

a1)从消息队列中获取所选定各用户的第二历史课程浏览数据，对应各所述用户形成课程浏览序列。

其中，消息队列具体可理解为要敢于缓存用户与后端交互时所产生各用户行为数据的缓存队列。本步骤可以从所设定的消息队列中获取到所注册各用户，或者所选定参与课程类别划分的各用户在一定时间段内对应的历史课程浏览数据，本实施例记为第二历史课程浏览数据。

本步骤可以通过对每个用户的第二历史课程浏览数据的分析和提取，形成仅包含用户所浏览每个网络课程的课程ID的序列信息，记为该用户对应的课程浏览序列，且每个用户所对应的课程浏览序列相当于一个可进行分词处理的句子。

b1)将各所述课程浏览序列作为一个待处理句，通过词向量划分模型获得各网络课程的课程向量，形成课程向量集。

其中，词向量划分模型优选为产生词向量的相关模型word2vec。本步骤可以将每个课程浏览序列看做一个待处理句作为词向量划分模型的输入数据，就可以获得到词向量划分模型输出的向量集合，向量集合中的每个向量代表一门网络课程的课程向量，包含各课程向量的向量集合也优选记为课程向量集。

c1)对所述课程向量集进行聚类处理，获得所述输出数量的聚类簇，将每个聚类簇的聚类中心向量相应确定为一种课程类别。

在本实施例中，可以通过K-means聚类算法对课程向量集进行聚类处理，所形成聚类簇的K值可以通过拐点法的形式确定，且可将确定出的K值作为本实施例中目标强化学习网络模型所输出动作空间的输出数量。其中，通过拐点法进行K值确定的过程可描述为：

搜索一定范围内K的所有可能取值，并针对每个可能取值，采用该可能取值进行聚类处理，获得相应的聚类结果，然后采用误差平方和计算公式集合每个K值下的聚类结果进行误差平方和的计算。其中，误差平方和计算公式表示为：

其中，k为所有可能取值的最大取值，本实施例从1开始进行K值设定，具体以i来表示K取值的变化，其中，C为K值选定i时所对应聚类结果的聚类簇集合，每个p代表空间中的一个点，m_i代表K值选定i时的一个聚类中心。

通过上述公式，可以相对每个K值获取一个误差平方和，将每个误差平方和进行连线，可以将连线上斜率变化最大的那个K值作为最优K值。

本实施例可以在确定最优K值后，将该K值作为本实施例的输出数量，并可获得输出数量个聚类簇，每个聚类簇中的聚类中心向量就可以看作表征一个课程类别的向量信息。由此实现了本实施例所需课程类别的划分。

需要说明的是，本实施例通过目标强化学习网络模型进行候选课程类别确定的另一个前提为：还需要保证所采用的目标强化学习网络模型为预先训练好的网络模型，本实施例还提供了的另一个可选实施例来实现强化学习网络模型的训练。

具体的，作为本申请实施例的另一个可选实施例，在上述可选实施例的基础上，本实施例可以将目标强化学习网络模型的训练步骤表述为：

a2)将网络结构相同、网络参数不同的两个强化学习网络模型分别记为实时训练网络模型和初始强化学习网络模型。

通过对强化学习的相关分析，可知强化学习的训练过程中需要提供两个网络结构相同的神经网络模型，但两个神经网络模型所具备的网络参数并不相同，可将其中一个记为需要实时进行训练的实时训练网络模型，将另一个记为已经进行了某种学习，并可以用在实际应用场景中，但仍需要持续不断更新的初始强化学习网络模型。

b2)根据采用各所述聚类中心向量标识的各课程类别、以及所选定各用户的第二历史课程浏览数据，构造模型训练的训练样本集。

在本实施中，为了保证训练后所获得的强化学习网络模型能够匹配本实施例的课程推荐应用场景，需要基于本实施例的课程推荐应用场景来设定模型训练所需的训练样本集。本步骤中，可以获取上述进行课程类别划分时标识每个课程类别的聚类中心向量，还可以获取到上述进行课程类别划分时所采用的第二历史课程浏览数据。

通过对每个用户所对应第二历史课程浏览数据的分析，可以进行训练样本的构建，其中，所述训练样本集中每个训练样本包括：用户当前状态的第一状态序列、目标聚类中心向量、瞬时回报值、以及下一状态的第二状态序列。

具体的，为了形成训练样本，本实施例要站在强化学习场景下所需参数的角度确定一条训练样本中应该具备哪些信息。一般的，强化学习场景下的主要参数包括环境的当前状态、用户可执行的动作(如，浏览哪一门课程)、用户执行动作后环境所具备的下一状态，以及用户执行动作后所产生的瞬时回报。通过过第二历史课程浏览数据，可以知道用户在历史时间段内都浏览了哪些课程，由此可以形成用户在该应用环境下所具备的状态序列，进而可以确定出训练样本中每个参数的参数信息。

示例性的，假设分析第二历史课程浏览数据确定该用户在一段时间内依次浏览了课程A、课程B、课程C以及课程D四门课程，则本实施例可以基于前3门课程构建一个用户的当前状态数据，以及基于四门课程构建用户的下一状态数据。

接上述描述，本实施例中每门课程可分别确定出相应的课程向量信息，由此基于前3门课程的课程向量信息形成表征用户当前状态的第一状态序列，如，将前3门课程的课程向量信息进行平均求和所获得的平均向量看作第一状态序列。同时，还可以基于上述4门课程的课程向量信息形成表征用户下一状态的第二状态序列，同样的，可以将上述4门课程的课程向量信息进行求和来获得。

在已知第4门课程(课程D)后，相当于已知了用户从当前状态转换为下一状态时待执行的动作空间，本实施例并不直接采用课程D的向量数据来作为该动作空间，而是先确定该课程D归属的归属的聚类簇，然后将其所归属聚类簇的聚类中心向量作为用户由当前状态转换为下一状态时所执行的动作空间信息，即本实施例所需训练样本中的目标聚类中心向量。

同样的，用户由当前状态转换为下一状态后也可以根据用户所进行的动作操作即时反馈一个瞬时回报值，由此，所反馈的该瞬时回报值也相当于一条训练样本中的一个参数信息。

本步骤可以采用上述描述的方式相对每个用户确定出相应的一条训练样本。

c2)根据各训练样本分别在所述实时训练网络模型和初始强化学习网络模型下的输出结果进行损失函数拟合，并通过所拟合损失函数的反向学习，获得目标强化学习网络模型。

可以知道的是，网络模型的训练过程相当于通过将训练样本中的输入数据输入待训练网络模型后获得的实际输出值，与训练样本中所具备标准输出值通过某种方式的比对，而对网络模型中的网络参数进行反向学习调整的过程。其中，将实际输出值与标准输出值以某种方式比对的方式主要通过对损失函数的拟合来实现。

基于此，本步骤可以将训练样本中的当前状态(即第一状态序列)作为实施训练网络模型的输入数据，将所输出动作空间中累计回报值最大的动作空间作为实际输出值，结合训练样本中给定的作为标准输出值的目标聚类中心向量来进行损失函数的拟合。

本实施例的损失函数拟合实现中，主要基于实际输出值所对应最大累计回报值，与标准输出值在初始强化强化学习网络模型下所对应的累计回报值来设定。再一次训练学习的执行中，可以通过所拟合的损失函数来对实时训练网络模型进行网络参数的调整，之后也可在满足初始强化学习网络模型参数调整的条件后对其网络参数进行调整，最终可以将网络参数调整后的初始强化学习网络模型作为当前可用的目标强化学习网络模型。

进一步地，本实施例可以将上述步骤c2)具体为下述步骤实现：

需要说明的是，目标强化学习网络模型的确定过程中需要上述每个训练样本的参与，对于每个训练样本都需要执行本可选实施例下述所提供的各项步骤。

c21)针对每个训练样本，确定所包括第一状态序列在所述实时训练网络模型下所输出各动作空间向量的当前累计回报值，并确定最大当前累计回报值。

在本步骤中，其具体实现主要包括：首先，将训练样本中的第一状态序列作为输入数据输入实时训练网络模型，并获得通过实时训练网络模型的运行所输出的各动作空间向量(相当于通过聚类划分所形成各课程类别对应的聚类中心向量)。

之后，可以在得到每个动作空间向量的当前累计回报值，并可通过对各当前累计回报值的比较确定出最大当前累计回报值。其中，当前累计回报值可通过一个已知的回报值确定函数计算来获得。利用贝尔曼方程来确定损失函数拟合所需的目标值。其中，贝尔曼方程可表述为：

其中，Y表示损失函数拟合所需的目标值，Rt+1表示训练样本中的瞬时回报值，γ为一个预先设定的参数，Q(S_t+1,a,θ_t)表示在网络参数为θ_t的实时训练网络模型下所获得的一个动作空间由当前状态转换为下一状态时对应的累计回报值，

则在网络参数为θ_t'的初始强化学习网络模型下按照上述所确定目标动作空间确定的累计回报值。

c22)确定所述第一状态序列在所述初始强化学习网络模型下相对所述目标聚类中心向量的标准累计回报值。

本步骤的具体实现包括：将第一状态序列作为输入数据输入初始强化学习网络模型，可以从所输出的动作空间向量中找出训练样本中的聚类中心向量，并由此获得其对应的标准累计回报值。

c23)根据各训练样本下对应的最大当前累计回报值及标准累计回报值进行损失函数拟合。

在本实施例中，可以利用贝尔曼方程来确定损失函数拟合所需的目标值。

其中，贝尔曼方程可表述为：

其中，该贝尔曼方程的计算是相对每个训练样本而言的，Y表示损失函数拟合所需的目标值，R_t+1表示训练样本中的瞬时回报值，γ为一个预先设定的参数，Q(S_t+1,a,θ_t)表示在网络参数为θ_t的实时训练网络模型下所获得的一个动作空间由当前状态S_t转换为下一状态S_t+1时对应的当前累计回报值，基于每个当前累计回报值可以确定出最大累计回报值，

则在网络参数为θ_t'的初始强化学习网络模型下按照上述所确定目标动作空间确定的标准累计回报值。其中，目标动作空间相当于上述最大累计回报值对应的动作空间，该目标动作空间也往往是训练样本中的目标聚类中心向量。

之后，可以根据给定的损失函数确定具体的损失函数值，其中损失函数可以表示为：

其中，Q(S_t+1,a,θ_t表示在网络参数为θ_t的实时训练网络模型下所获得的目标动作空间由上一状态转换为当前状态S_t时对应的上一累计回报值，Y为上述确定的目标值，n为训练样本的个数，上述表达式主要拟合实时训练网络模型的实际值值和目标值Y之间的均方误差。

c24)根据拟合的损失函数对所述实时训练网络模型的网络参数进行更新，并在更新次数满足参数替换周期时，采用所述实时训练网络模型的网络参数替换所述初始强化学习网络模型的网络参数。

具体的，通过该均方误差可以进行实时训练网络模型的反向训练，以对网络参数进行调整来更新网络模型。本步骤除实时对实时训练网络模型的网络参数进行更新外，还实时的进行更新次数的统计，在更新次数的累计值达到参数替换周期时，就需要采用那一时刻下实时训练网络模型的网络参数来替换初始强化学习网络模型的网络参数，以此来实现初始强化学习网络模型的更新。

其中，本实施例优选参数替换周期为更新次数由0累计为一个数量值，该数量值可根据历史经验确定，如50次。

c25)将参数替换后的初始强化学习网络模型确定为所述目标强化学习网络模型。

本实施例上述可选实施例具体给出了网络课程的课程类别划分实现，以及以划分所形成课程类别作为动作空间维度的强化学习网络模型的训练实现。通过课程类别的划分可以有效减少待推荐网络课程中规模，以此来降低强化学习中的动作空间维度，保证强化学习在大规模数据推荐场景中的有效应用。

实施例二

图2为本申请实施例二提供的一种课程推荐方法的流程示意图，本实施例以上述实施例为基础，在本实施例中，可以根据目标用户的历史课程浏览数据，确定所述目标用户的当前状态具体表述为：对所述目标用户在设定时间段内的第一历史课程浏览数据进行分词处理，确定所述目标用户所对应已浏览课程的已浏览课程向量；将各所述已浏览课程向量的平均向量确定所述目标用户的当前状态。

同时，本实施例还可以将根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别具体表述为：将所述当前状态输入至所述目标强化学习网络模型，通过所述目标强化学习网络模型输出所述输出数量个候选向量作为动作空间，其中，各所述候选向量分别标识一种课程类别；针对每个课程类别，通过给定的累计回报值模型，结合所述当前状态及所述目标强化学习网络模型的当前网络参数，确定所述课程类别的累计回报值；按照累计回报值排名各所述课程类别，将处于前第一设定名次的课程类别作为候选课程类别。

此外，本实施例也可以将根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别具体表述为：针对每个候选课程类别，获取候选课程类别的聚类中心向量；确定所述聚类中心向量所关联聚类簇中各课程向量与所述聚类中心向量的距离值；按照距离值排名各所述课程向量，将处于前第二设定名次的课程向量作为待推荐课程；从各所述待推荐课程中选定满足细粒度筛选条件的目标课程分别推送各所述目标用户。

如图2所示，本申请实施例二提供的一种课程推荐方法，具体包括如下操作：

S201、对所述目标用户在设定时间段内的第一历史课程浏览数据进行分词处理，确定所述目标用户所对应已浏览课程的已浏览课程向量。

示例性的，同样可以采用词向量的相关模型word2vec来实现分析处理，由此可以获得用户在该设定时间段内已浏览的所有网络课程的课程向量，本步骤记为已浏览课程向量。

S202、将各所述已浏览课程向量的平均向量确定所述目标用户的当前状态。

本步骤相当于当前状态的一种实现，即通过对各所述已浏览课程向量进行平均值的计算来获得表征目标用户当前状态的平均向量。

S203、将所述当前状态输入至所述目标强化学习网络模型，通过所述目标强化学习网络模型输出所述输出数量个候选向量作为动作空间。

本步骤相当于目标强化学习网络模型的具体应用，可以相应所输入的当前状态输出多个动作空间，每个动作空间的向量形式表示，每个向量记为候选向量，其中，各所述候选向量分别标识一种课程类别，也即，所输出的一个动作空间标识了一种课程类别。由此，所输出的数量相当于上述基于聚类算法进行课程类别划分时所确定的K值。

S204、针对每个课程类别，通过给定的累计回报值模型，结合所述当前状态及所述目标强化学习网络模型的当前网络参数，确定所述课程类别的累计回报值。

可以知道的是，通过上述课程类别的划分可以获得到以聚类中心向量表征的每个课程类别，本步骤相当于对每个课程类别的操作。本步骤中累计回报值的具体确定可优选采用上述所描述的累计回报值函数进行计算。其需要已知的信息由该课程类别对应的候选向量(聚类中心向量)，该目标强化学习网络模型的当前网络参数，以及进行该强化学习处理后所对应的下一状态。

S205、按照累计回报值排名各所述课程类别，将处于前第一设定名次的课程类别作为候选课程类别。

通过上述步骤可以确定每个课程类别所对应的累计回报值，本步骤可以对各累计回报值进行排名，由此可以选择出名次靠前的多个课程类别作为候选课程类别，以此来保证所获得粗粒度筛选结果的多样性。其中，第一设定名词可优选为2，即排名处于前两名的课程类别。

下述S206至S209给出了细粒度筛选出目标课程的具体实现

S206、针对每个候选课程类别，获取候选课程类别的聚类中心向量。

可以知道的是，本步骤与下述S207及S208均为相对每个候选课程类别的操作，一个候选课程类别也相当于一个聚类簇的聚类中心，本步骤可以获取到该具备中心的聚类中心向量，也即每个候选课程类别相对目标强化学习网络模型的候选向量。

S207、确定所述聚类中心向量所关联聚类簇中各课程向量与所述聚类中心向量的距离值。

在本实施例中，一个聚类簇中包含有至少一个归属该聚类中心的网络课程，每个网络课程以相应的课程向量表示。本步骤可以计算出各课程向量到聚类中心向量的距离值。

S208、按照距离值排名各所述课程向量，将处于前第二设定名次的课程向量作为待推荐课程。

本步骤可以对上述获得的各距离值进行排名，由此可以获得到排名靠前的多个课程向量，本步骤优选排名靠前的前20名作为待推荐课程，即第二设定名词优选为20。

S209、从各所述待推荐课程中选定满足细粒度筛选条件的目标课程分别推送各所述目标用户。

本步骤可以汇总相对每个候选课程类别对应的待推荐课程，并可按照给定的细粒度筛选条件对待推荐课程再次进行排序，由此选定合适数量的网络课程作为目标课程。其中，细粒度筛选条件可以依据具体的应用场景来选定，选定后就可以确定出对待推荐课程进行排序的排序参考维度。

本实施例所给定的一种实现方式中，具体可以随机的从每个候选课程类别对应的待推荐课程中选择4门网络课程作为目标课程推送给目标用户。所推送的各目标课程可以展示在用户客户端的首页界面中，以供用户选择浏览。

本发明实施例二提供的一种课程推荐方法，具体化了目标用户当前状态的确定过程，同时具体化了候选课程类别的确定过程，以及目标课程的筛选过程。本实施例提供的方法主要采用了强化学***台带来长期收益的效果；同时，通过对强化学习网络模型中所输出动作空间的降维处理，即，通过保证所输出动作空间的输出数量仅与网络课程所具备课程类别数量相同，来解决强化学习无法适应大规模数据量处理的问题，由此实现了网络课程到用户端的有效推荐，提升了用户体验。

实施例三

图3为本申请实施例三提供的一种课程推荐装置的结构框图，该装置适用于向用户进行网络教学平台中网络课程推荐的情况。该装置可以由硬件和/或软件实现，并一般集成在计算机设备中。如图3所示，该装置包括：信息确定模块31、候选确定模块32以及目标推荐模块33。

信息确定模块31，用于根据目标用户的第一历史课程浏览数据，确定所述目标用户的当前状态；

候选确定模块32，目标根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别，其中，所述目标强化学习网络模型以网络课程归属的课程类别作为动作空间，且所输出动作空间的输出数量与所述课程类别的总量相同；

目标推荐模块33，用于从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户。

本实施例三提供的一种课程推荐装置，主要采用了强化学***台带来长期收益的效果；同时，通过对强化学习网络模型中所输出动作空间的降维处理，即，通过保证所输出动作空间的输出数量仅与网络课程所具备课程类别数量相同，来解决强化学习无法适应大规模数据量处理的问题，由此实现了网络课程到用户端的有效推荐，提升了用户体验。

进一步地，该装置还可以包括：课程分类划分模块，

课程分类划分模块具体可以用于：

进一步地，信息确定模块31具体可以用于：

进一步地，候选确定模块32具体可以用于：

进一步地，目标推荐模块33具体可以用于：

进一步地，该装置还可以包括模型训练模块，其中，模型训练模块可以包括：

信息初始化单元，用于将网络结构相同、网络参数不同的两个强化学习网络模型分别记为实时训练网络模型和初始强化学习网络模型；

样本确定单元，用于根据采用各所述聚类中心向量标识的各课程类别、以及所选定各用户的第二历史课程浏览数据，构造模型训练的训练样本集，其中，所述训练样本集中每个训练样本包括：用户当前状态的第一状态序列、目标聚类中心向量、瞬时回报值、以及下一状态的第二状态序列；

目标获得单元，用于根据各训练样本分别在所述实时训练网络模型和初始强化学习网络模型下的输出结果进行损失函数拟合，并通过所拟合损失函数的反向学习，获得目标强化学习网络模型。

进一步地，目标获得单元具体可以用于：

实施例四

图4为本申请实施例四提供的一种计算机设备的结构示意图。该计算机设备包括：处理器40、存储器41、显示屏42、输入装置43以及输出装置44。该计算机设备中处理器40的数量可以是一个或者多个，图4中以一个处理器40为例。该计算机设备中存储器41的数量可以是一个或者多个，图4中以一个存储器41为例。该计算机设备的处理器40、存储器41、显示屏42、输入装置43以及输出装置44可以通过总线或者其他方式连接，图4中以通过总线连接为例。实施例中，计算机设备可以是电脑、笔记本或智能平板等。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的计算机设备对应的程序指令/模块(例如，课程推荐装置中的信息确定模块31、候选确定模块32以及目标推荐模块33)。存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏42可以为具有触摸功能的显示屏42，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏42用于根据处理器40的指示显示数据，还用于接收作用于显示屏42的触摸操作，并将相应的信号发送至处理器40或其他装置。

输入装置43可用于接收输入的数字或者字符信息，以及产生与展示设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置44可以包括扬声器等音频设备。需要说明的是，输入装置43和输出装置44的具体组成可以根据实际情况设定。

处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的课程推荐方法。

上述提供的计算机设备可用于执行上述任意实施例提供的课程推荐方法，具备相应的功能和有益效果。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种课程推荐方法，包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的课程推荐方法操作,还可以执行本发明任意实施例所提供的课程推荐方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本申请任意实施例所述的课程推荐方法。

值得注意的是，上述课程推荐装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种课程推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述网络课程所归属课程类别的划分步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述根据目标用户的历史课程浏览数据，确定所述目标用户的当前状态，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前状态及预先训练的目标强化学习网络模型，获得满足筛选条件的候选课程类别，包括：

5.根据权利要求2所述的方法，其特征在于，所述从各所述候选课程类别对应的网络课程中筛选设定数量的目标课程推送给所述目标用户，包括：

6.根据权利要求2所述的方法，其特征在于，所述目标强化学习网络模型的训练步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各训练样本分别在所述实时训练网络模型和初始强化学习网络模型下的输出结果进行损失函数拟合，并通过所拟合损失函数的反向学习，获得目标强化学习网络模型，包括：

8.一种课程推荐装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7所述的方法。