CN110929161A

CN110929161A - 一种面向大规模用户的个性化教学资源推荐方法

Info

Publication number: CN110929161A
Application number: CN201911212608.XA
Authority: CN
Inventors: 龚少麟; 贲伟; 赵文涛
Original assignee: Nanjing Laiwangxin Technology Research Institute Co Ltd
Current assignee: Nanjing Laiwangxin Technology Research Institute Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-03-27
Anticipated expiration: 2039-12-02
Also published as: WO2021109464A1; CN110929161B

Abstract

本发明公开了一种面向大规模用户的个性化教学资源推荐方法，包括：获取用户交互数据，对用户交互数据进行数据预处理，获得用户资源评分矩阵；对用户资源评分矩阵进行特征降维，获得用户的教学资源特征矩阵；对教学资源特征矩阵进行聚类，获得教学资源聚类，并对教学资源聚类中的教学资源进行排序；获取用户对所有教学资源的评分，依次利用教学资源兴趣度模型，计算得到用户对教学资源的兴趣度，根据所述兴趣度对所有教学资源降序排列，生成教学资源推荐列表。相较于现有技术，本发明能够为大量用户提供快速准确的数字化教学资源推荐服务，增强用户体验，为智慧校园教学资源的个性化利用提供了一套有效的解决方案。

Description

一种面向大规模用户的个性化教学资源推荐方法

技术领域

本发明涉及智慧校园教学资源个性化推荐领域，尤其涉及一种面向大规模用户的个性化教学资源推荐方法。

背景技术

推荐***是一种信息过滤***，能够有效根据用户的信息需求、兴趣等进行个性化信息推荐，并且已成功应用到在线视频、社交网络、在线音乐、电子商务等诸多领域。随着智慧校园建设中教学资源库的不断完善，利用丰富的教学资源，例如电子书、文献、电子课件、微课视频等，并基于协同过滤进行个性化的推荐有助于提升学员的学习效果。

推荐引擎最流行的技术之一是协同过滤，该方法仅取决于过去的用户操作，如过去的交易或教学资源反馈。传统的协同过滤诸如邻域方法和潜在因子模型之类的算法通常存在几个主要问题。首先是用户-商品评分矩阵的稀疏性问题，主要是由于大多数用户只会对所有商品中的很少一部分商品进行评分。其次为超大规模数据集实时或接近实时地提供推荐的能力的不足。

为了解决以上问题，许多研究人员尝试了不同的方法，如聚类和混合技术。然而这些方法并不适用于海量数据集环境。最近的研究成果成功地利用Hadoop技术实现协同过滤算法的并行化，但Map Reduce的计算时间较长，效率较低。

发明内容

本发明提供了一种面向大规模用户的个性化教学资源推荐方法。在现实中，不可能每个用户都和所有的教学资源都有行为关系。事实上，有交互关系的用户-资源对只占很小的一部分。换句话说，用户-资源关系列表是非常稀疏的。教学资源评分矩阵非常稀疏，会直接影响模型的准确性。

在高校中存在大量的教学资源，如本校教学资源、大型开放式网络课程(MassiveOpen Online Courses，MOOC)或者小规模限制性在线课程(Small Private OnlineCourse，SPOC)资源、教学录播资源等。在大数据环境下，通过搜索全部资源寻找与目标资源相似度排名较高的资源会极大的影响推荐***的效率。

本发明的目的是提供一种能够适用于超大稀疏特征矩阵，并且对于大规模数据集环境有较好的计算效率的教学资源推荐方法。以解决现有的协同过滤方案存在的数据稀疏性造成的模型不准确，以及现有方案不能满足对大规模数据集进行高效计算的问题。

一种面向大规模用户的个性化教学资源推荐方法，包括：

步骤1，获取用户交互数据，对所述用户交互数据进行数据预处理，获得用户资源评分矩阵；

步骤2，对所述用户资源评分矩阵进行特征降维，获得用户的教学资源特征矩阵；

步骤3，对所述教学资源特征矩阵进行聚类，获得教学资源聚类，并对所述教学资源聚类中的教学资源进行排序；

步骤4，获取用户对所有教学资源的评分，依次利用教学资源兴趣度模型，计算得到用户对所有教学资源的兴趣度，根据所述兴趣度对所有教学资源降序排列，生成教学资源推荐列表。

进一步地，在一种实现方式中，所述步骤1，包括：

步骤101，采集教学资源评分数据集，并将所述教学资源评分数据集加载到数据仓库中保存，所述教学资源评分数据集包括教学资源、评分数据以及评分数据对应的用户信息；

步骤102，对所述教学资源评分数据集中的教学资源进行分析，搜索并删除评分数据异常的教学资源和用户，所述评分数据异常的教学资源和用户包括：超范围评分数据及其对应的用户，以及恶意评分用户及其对应的评分数据；

步骤103，提取用户ID、资源ID和评分特征值，构建用户资源评分矩阵。

进一步地，在一种实现方式中，所述步骤2，包括：

步骤201，基于Spark大数据分析平台使用交替最小二乘法将用户资源评分矩阵映射到低维潜在因子空间；

步骤202，最小化第一目标函数计算获得用户特征矩阵和教学资源特征矩阵，所述第一目标函数即平方误差损失函数，表示为：

其中，r_ui表示用户u对教学资源i的评分，评分r_ui的取值范围为[0,5]的整数，p_u表示用户u的特征向量，q_i表示教学资源i的特征向量，λ表示正则化参数，正则化参数λ的取值范围为[0,1]，

表示用户u和教学资源i之间的交互。

进一步地，在一种实现方式中，所述步骤3，包括：

步骤301，基于Spark大数据分析平台对所述教学资源特征矩阵使用K-Means聚类算法对与资源特征相似的教学资源进行聚类，通过最小化第二目标函数，获得教学资源聚类，所述第二目标函数即平方误差函数，表示为：

其中，k表示聚类簇群的数目，b表示聚类簇群的编号，n表示聚类簇群b中数据点的数目，a表示数据点的编号，x_a表示聚类簇群b中数据点a的数值，c_b表示聚类簇群b中心的数值，

是x_a和c_b之间的欧氏距离；

步骤302，检索每个所述教学资源聚类中的教学资源，根据所述教学资源到聚类中心的距离对教学资源按照从小到大的顺序进行排序，并将排序结果保存到数据仓库中。

进一步地，在一种实现方式中，所述步骤4，包括：

步骤401，根据用户的历史评分资源获取所述历史评分资源所属的教学资源聚类，所述历史评分资源即存在用户评分数据的教学资源；

步骤402，在所述历史评分资源所属的教学资源聚类中获取最能代表所述教学资源聚类特征的前K个教学资源，利用教学资源兴趣度模型计算K个教学资源的兴趣度，其中，0<K<N，N代表所述教学资源聚类中教学资源的数量；

步骤403，根据所述用户的所有历史评分资源，利用教学资源兴趣度模型计算得到用户对所有教学资源的兴趣度；

所述教学资源兴趣度模型表示为：

其中，p_ud表示用户u对教学资源d的兴趣度，N(u)表示用户u评价过的教学资源集合，S(d)表示教学资源d所属的资源聚类集合，c表示用户u评价过且在教学资源d所属的资源聚类集合中的一个教学资源，w_d表示教学资源d的特征匹配度，r_uc表示用户u对教学资源c的评分。

由以上技术方案可知，本发明实施例提供一种面向大规模用户的个性化教学资源推荐方法，包括：步骤1，获取用户交互数据，对所述用户交互数据进行数据预处理，获得用户资源评分矩阵；步骤2，对所述用户资源评分矩阵进行特征降维，获得用户的教学资源特征矩阵和用户特征矩阵；步骤3，对所述教学资源特征矩阵进行聚类，获得教学资源聚类，并对所述教学资源聚类中的教学资源进行排序；步骤4，获取用户对所有教学资源的评分，按顺序依次利用教学资源兴趣度模型，计算得到用户对所有教学资源的兴趣度，并根据所述兴趣度对所有教学资源降序排列，生成教学资源推荐列表。

本发明通过对教学资源评分数据集进行预处理构建用户-资源评分矩阵，通过使用ALS降维算法获得用户对隐含特征的偏好矩阵和教学资源所包含的隐含特征矩阵，通过对教学资源所包含的隐含特征矩阵使用K-Means聚类算法，形成教学资源聚类，通过资源推荐模型最终形成为用户推荐的资源兴趣度列表。通过基于Apache Spark实现高效的并行计算并解决可扩展性问题。

综上所述，本发明利用Spark的高并发处理、ALS降维算法、K-Means聚类算法等技术，相较于现有技术，能够为大量用户提供快速准确的数字化教学资源推荐服务，增强用户体验，提高学习效果，为智慧校园教学资源的个性化利用提供了一套有效的解决方案。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法的工作流程示意图；

图2是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的特征降维算法的工作流程示意图；

图3是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的资源聚类算法的工作流程示意图；

图4是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开一种面向大规模用户的个性化教学资源推荐方法，本方法应用于高校的在线学习平台，在自主学习过程中能够在大规模用户和教学资源的场景下为用户提供高效、准确的教学资源推荐能力。

在现实中，不可能每个用户都和所有的教学资源都有行为关系。事实上，有交互关系的用户-资源对只占很小的一部分。换句话说，用户-资源关系列表是非常稀疏的。教学资源评分矩阵非常稀疏，会直接影响模型的准确性。在高校中存在大量的教学资源，如本校教学资源、MOOC/SPOC资源、教学录播资源等。在大数据环境下，通过搜索全部资源寻找与目标资源相似度排名较高的资源会极大的影响推荐***的效率。

本发明实施例采用Spark大数据分析平台，Spark是一款开源的大数据分析框架，该框架分为四大模块，其中，Spark SQL模块提供了类SQL的查询；Spark Streaming为流式计算模块，主要用于处理线上实时时序数据；MLlib模块提供机器学习的各种模型和调优工具，例如分类，回归，聚类，协同过滤，降维等；GraphX模块提供基于图的算法。Spark基于Hadoop MapReduce，扩展了MapReduce模型，以有效地将其用于更多类型的计算，包括交互式查询和流处理。此外，通过Spark的内存计算，可以提高应用程序的处理速度。ApacheSpark实现了推荐算法高效的并行计算，随着教学资源数据量的增加，还可以通过扩展spark集群节点来解决推荐方案的可扩展性问题。

如图1所示，本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法包括：

步骤2，对所述用户资源评分矩阵进行特征降维，获得用户的教学资源特征矩阵和用户特征矩阵；

步骤4，获取用户对所有教学资源的评分，依次利用教学资源兴趣度模型，计算得到用户对所有教学资源的兴趣度，根据所述兴趣度对所有教学资源降序排列，生成教学资源推荐列表。如图4所示，是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图，具体实施中也可以采用其他表现形式。

本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中，所述步骤1，包括：

步骤101，采集教学资源评分数据集，并将所述教学资源评分数据集加载到数据仓库中保存，所述教学资源评分数据集包括教学资源、评分数据以及评分数据对应的用户信息；本步骤中，为通过学校的教学资源访问平台对教学资源评分数据集进行采集。

本实施例中，所述超范围评分数据即评分数值小于1或大于5的教学资源，所述恶意评分用户即评分数据全部小于2的用户。

如图2所示，本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中，所述步骤2，包括：

步骤201，基于Spark大数据分析平台使用交替最小二乘法(ALS)将用户资源评分矩阵映射到低维潜在因子空间；具体的，本步骤中，首先需要将教学资源评分数据集分割为训练集和测试集，然后在训练集上训练模型，在测试集上评估指标的性能。本实施例中，可以按照60/40划分得到训练集和测试集。

其中，r_ui表示用户u对教学资源i的评分，评分r_ui的取值范围为[0,5]的整数，p_u表示用户的特征向量，q_i表示教学资源i的特征向量，λ表示正则化参数，正则化参数λ的取值范围为[0,1]，

表示用户u和教学资源i之间的交互。

本步骤中，首先需要假设隐藏因子数g，隐藏因子数g可以取范围为[10,100]的整数，例如{20，50，70，100}，取λ为{0.01，0.1，1}，分别在训练集上训练得到模型，然后在测试集上计算均方根误差(RMSE)作为评估指标。最后比较评估指标为最小值，则该g值为最优解。

通过所述步骤2，能够克服现有协同过滤方法的稀疏性问题。便于并行化处理，并且可以有效地处理隐式数据集。

如图3所示，本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中，所述步骤3，包括：

是x_a和c_b之间的欧氏距离；

本步骤中，首先需要假设群集的数目k，可以取范围为[10,100]的整数，例如{10，20，40，60，80}，分别在训练集上训练得到模型，然后在测试集上计算目标函数。最后比较目标函数为最小值，则该k值为最优解。

在本步骤之前，首先需要将教学资源特征矩阵分割为训练集和测试集，然后在训练集上训练模型，在测试集上评估指标的性能。具体的，可以按照60/40划分得到训练集和测试集。

本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中，所述步骤4，包括：

步骤401，根据用户的历史评分资源获取所述历史评分资源所属的教学资源聚类，所述历史评分资源即存在用户评分数据的教学资源；本实施例中，在给用户进行资源推荐前，用户必须至少对一个资源进行了评分。

所述教学资源兴趣度模型表示为：

本实施例中，特征匹配度可以用教学资源和聚类簇群中心的距离的倒数表示，距离越小匹配度越高。

如图4所示，是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图，具体实施中也可以采用其他表现形式。本发明最终通过计算用户对同一所述教学资源的兴趣度之和，并根据所述兴趣度之和对所有教学资源降序排列，生成教学资源推荐列表。通过教学资源推荐列表，用户能够快速准确的数字化教学资源推荐服务。

本发明包括一种面向大规模用户的个性化教学资源推荐方法。通过对教学资源评分数据集进行预处理构建用户-资源评分矩阵，通过使用ALS降维算法获得教学资源特征矩阵和用户特征矩阵，通过对教学资源特征矩阵使用K均值聚类算法(k-means clusteringalgorithm)，形成教学资源聚类，通过资源推荐模型最终形成为用户的教学资源推荐列表。

本发明利用Spark的高并发处理、ALS降维算法、K-Means聚类算法等技术，相较于现有技术，能够为大量用户提供快速准确的数字化教学资源推荐服务，增强用户体验，提高学习效果，为智慧校园教学资源的个性化利用提供了一套有效的解决方案。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种面向大规模用户的个性化教学资源推荐方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种面向大规模用户的个性化教学资源推荐方法，其特征在于，包括：

2.根据权利要求1所述的一种面向大规模用户的个性化教学资源推荐方法，其特征在于，所述步骤1，包括：

3.根据权利要求2所述的一种面向大规模用户的个性化教学资源推荐方法，其特征在于，所述步骤2，包括：

表示用户u和教学资源i之间的交互。

4.根据权利要求3所述的一种面向大规模用户的个性化教学资源推荐方法，其特征在于，所述步骤3，包括：

是x_a和c_b之间的欧氏距离；

5.根据权利要求4所述的一种面向大规模用户的个性化教学资源推荐方法，其特征在于，所述步骤4，包括：

所述教学资源兴趣度模型表示为：