CN110929161A - 一种面向大规模用户的个性化教学资源推荐方法 - Google Patents

一种面向大规模用户的个性化教学资源推荐方法 Download PDF

Info

Publication number
CN110929161A
CN110929161A CN201911212608.XA CN201911212608A CN110929161A CN 110929161 A CN110929161 A CN 110929161A CN 201911212608 A CN201911212608 A CN 201911212608A CN 110929161 A CN110929161 A CN 110929161A
Authority
CN
China
Prior art keywords
teaching
resource
user
resources
teaching resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911212608.XA
Other languages
English (en)
Other versions
CN110929161B (zh
Inventor
龚少麟
贲伟
赵文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laiwangxin Technology Research Institute Co Ltd
Original Assignee
Nanjing Laiwangxin Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laiwangxin Technology Research Institute Co Ltd filed Critical Nanjing Laiwangxin Technology Research Institute Co Ltd
Priority to CN201911212608.XA priority Critical patent/CN110929161B/zh
Publication of CN110929161A publication Critical patent/CN110929161A/zh
Priority to PCT/CN2020/090567 priority patent/WO2021109464A1/zh
Application granted granted Critical
Publication of CN110929161B publication Critical patent/CN110929161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向大规模用户的个性化教学资源推荐方法,包括:获取用户交互数据,对用户交互数据进行数据预处理,获得用户资源评分矩阵;对用户资源评分矩阵进行特征降维,获得用户的教学资源特征矩阵;对教学资源特征矩阵进行聚类,获得教学资源聚类,并对教学资源聚类中的教学资源进行排序;获取用户对所有教学资源的评分,依次利用教学资源兴趣度模型,计算得到用户对教学资源的兴趣度,根据所述兴趣度对所有教学资源降序排列,生成教学资源推荐列表。相较于现有技术,本发明能够为大量用户提供快速准确的数字化教学资源推荐服务,增强用户体验,为智慧校园教学资源的个性化利用提供了一套有效的解决方案。

Description

一种面向大规模用户的个性化教学资源推荐方法
技术领域
本发明涉及智慧校园教学资源个性化推荐领域,尤其涉及一种面向大规模用户的个性化教学资源推荐方法。
背景技术
推荐***是一种信息过滤***,能够有效根据用户的信息需求、兴趣等进行个性化信息推荐,并且已成功应用到在线视频、社交网络、在线音乐、电子商务等诸多领域。随着智慧校园建设中教学资源库的不断完善,利用丰富的教学资源,例如电子书、文献、电子课件、微课视频等,并基于协同过滤进行个性化的推荐有助于提升学员的学习效果。
推荐引擎最流行的技术之一是协同过滤,该方法仅取决于过去的用户操作,如过去的交易或教学资源反馈。传统的协同过滤诸如邻域方法和潜在因子模型之类的算法通常存在几个主要问题。首先是用户-商品评分矩阵的稀疏性问题,主要是由于大多数用户只会对所有商品中的很少一部分商品进行评分。其次为超大规模数据集实时或接近实时地提供推荐的能力的不足。
为了解决以上问题,许多研究人员尝试了不同的方法,如聚类和混合技术。然而这些方法并不适用于海量数据集环境。最近的研究成果成功地利用Hadoop技术实现协同过滤算法的并行化,但Map Reduce的计算时间较长,效率较低。
发明内容
本发明提供了一种面向大规模用户的个性化教学资源推荐方法。在现实中,不可能每个用户都和所有的教学资源都有行为关系。事实上,有交互关系的用户-资源对只占很小的一部分。换句话说,用户-资源关系列表是非常稀疏的。教学资源评分矩阵非常稀疏,会直接影响模型的准确性。
在高校中存在大量的教学资源,如本校教学资源、大型开放式网络课程(MassiveOpen Online Courses,MOOC)或者小规模限制性在线课程(Small Private OnlineCourse,SPOC)资源、教学录播资源等。在大数据环境下,通过搜索全部资源寻找与目标资源相似度排名较高的资源会极大的影响推荐***的效率。
本发明的目的是提供一种能够适用于超大稀疏特征矩阵,并且对于大规模数据集环境有较好的计算效率的教学资源推荐方法。以解决现有的协同过滤方案存在的数据稀疏性造成的模型不准确,以及现有方案不能满足对大规模数据集进行高效计算的问题。
一种面向大规模用户的个性化教学资源推荐方法,包括:
步骤1,获取用户交互数据,对所述用户交互数据进行数据预处理,获得用户资源评分矩阵;
步骤2,对所述用户资源评分矩阵进行特征降维,获得用户的教学资源特征矩阵;
步骤3,对所述教学资源特征矩阵进行聚类,获得教学资源聚类,并对所述教学资源聚类中的教学资源进行排序;
步骤4,获取用户对所有教学资源的评分,依次利用教学资源兴趣度模型,计算得到用户对所有教学资源的兴趣度,根据所述兴趣度对所有教学资源降序排列,生成教学资源推荐列表。
进一步地,在一种实现方式中,所述步骤1,包括:
步骤101,采集教学资源评分数据集,并将所述教学资源评分数据集加载到数据仓库中保存,所述教学资源评分数据集包括教学资源、评分数据以及评分数据对应的用户信息;
步骤102,对所述教学资源评分数据集中的教学资源进行分析,搜索并删除评分数据异常的教学资源和用户,所述评分数据异常的教学资源和用户包括:超范围评分数据及其对应的用户,以及恶意评分用户及其对应的评分数据;
步骤103,提取用户ID、资源ID和评分特征值,构建用户资源评分矩阵。
进一步地,在一种实现方式中,所述步骤2,包括:
步骤201,基于Spark大数据分析平台使用交替最小二乘法将用户资源评分矩阵映射到低维潜在因子空间;
步骤202,最小化第一目标函数计算获得用户特征矩阵和教学资源特征矩阵,所述第一目标函数即平方误差损失函数,表示为:
Figure BDA0002298548230000021
其中,rui表示用户u对教学资源i的评分,评分rui的取值范围为[0,5]的整数,pu表示用户u的特征向量,qi表示教学资源i的特征向量,λ表示正则化参数,正则化参数λ的取值范围为[0,1],
Figure BDA0002298548230000031
表示用户u和教学资源i之间的交互。
进一步地,在一种实现方式中,所述步骤3,包括:
步骤301,基于Spark大数据分析平台对所述教学资源特征矩阵使用K-Means聚类算法对与资源特征相似的教学资源进行聚类,通过最小化第二目标函数,获得教学资源聚类,所述第二目标函数即平方误差函数,表示为:
Figure BDA0002298548230000032
其中,k表示聚类簇群的数目,b表示聚类簇群的编号,n表示聚类簇群b中数据点的数目,a表示数据点的编号,xa表示聚类簇群b中数据点a的数值,cb表示聚类簇群b中心的数值,
Figure BDA0002298548230000033
是xa和cb之间的欧氏距离;
步骤302,检索每个所述教学资源聚类中的教学资源,根据所述教学资源到聚类中心的距离对教学资源按照从小到大的顺序进行排序,并将排序结果保存到数据仓库中。
进一步地,在一种实现方式中,所述步骤4,包括:
步骤401,根据用户的历史评分资源获取所述历史评分资源所属的教学资源聚类,所述历史评分资源即存在用户评分数据的教学资源;
步骤402,在所述历史评分资源所属的教学资源聚类中获取最能代表所述教学资源聚类特征的前K个教学资源,利用教学资源兴趣度模型计算K个教学资源的兴趣度,其中,0<K<N,N代表所述教学资源聚类中教学资源的数量;
步骤403,根据所述用户的所有历史评分资源,利用教学资源兴趣度模型计算得到用户对所有教学资源的兴趣度;
所述教学资源兴趣度模型表示为:
Figure BDA0002298548230000034
其中,pud表示用户u对教学资源d的兴趣度,N(u)表示用户u评价过的教学资源集合,S(d)表示教学资源d所属的资源聚类集合,c表示用户u评价过且在教学资源d所属的资源聚类集合中的一个教学资源,wd表示教学资源d的特征匹配度,ruc表示用户u对教学资源c的评分。
由以上技术方案可知,本发明实施例提供一种面向大规模用户的个性化教学资源推荐方法,包括:步骤1,获取用户交互数据,对所述用户交互数据进行数据预处理,获得用户资源评分矩阵;步骤2,对所述用户资源评分矩阵进行特征降维,获得用户的教学资源特征矩阵和用户特征矩阵;步骤3,对所述教学资源特征矩阵进行聚类,获得教学资源聚类,并对所述教学资源聚类中的教学资源进行排序;步骤4,获取用户对所有教学资源的评分,按顺序依次利用教学资源兴趣度模型,计算得到用户对所有教学资源的兴趣度,并根据所述兴趣度对所有教学资源降序排列,生成教学资源推荐列表。
本发明通过对教学资源评分数据集进行预处理构建用户-资源评分矩阵,通过使用ALS降维算法获得用户对隐含特征的偏好矩阵和教学资源所包含的隐含特征矩阵,通过对教学资源所包含的隐含特征矩阵使用K-Means聚类算法,形成教学资源聚类,通过资源推荐模型最终形成为用户推荐的资源兴趣度列表。通过基于Apache Spark实现高效的并行计算并解决可扩展性问题。
综上所述,本发明利用Spark的高并发处理、ALS降维算法、K-Means聚类算法等技术,相较于现有技术,能够为大量用户提供快速准确的数字化教学资源推荐服务,增强用户体验,提高学习效果,为智慧校园教学资源的个性化利用提供了一套有效的解决方案。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法的工作流程示意图;
图2是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的特征降维算法的工作流程示意图;
图3是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的资源聚类算法的工作流程示意图;
图4是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开一种面向大规模用户的个性化教学资源推荐方法,本方法应用于高校的在线学习平台,在自主学习过程中能够在大规模用户和教学资源的场景下为用户提供高效、准确的教学资源推荐能力。
在现实中,不可能每个用户都和所有的教学资源都有行为关系。事实上,有交互关系的用户-资源对只占很小的一部分。换句话说,用户-资源关系列表是非常稀疏的。教学资源评分矩阵非常稀疏,会直接影响模型的准确性。在高校中存在大量的教学资源,如本校教学资源、MOOC/SPOC资源、教学录播资源等。在大数据环境下,通过搜索全部资源寻找与目标资源相似度排名较高的资源会极大的影响推荐***的效率。
本发明的目的是提供一种能够适用于超大稀疏特征矩阵,并且对于大规模数据集环境有较好的计算效率的教学资源推荐方法。以解决现有的协同过滤方案存在的数据稀疏性造成的模型不准确,以及现有方案不能满足对大规模数据集进行高效计算的问题。
本发明实施例采用Spark大数据分析平台,Spark是一款开源的大数据分析框架,该框架分为四大模块,其中,Spark SQL模块提供了类SQL的查询;Spark Streaming为流式计算模块,主要用于处理线上实时时序数据;MLlib模块提供机器学习的各种模型和调优工具,例如分类,回归,聚类,协同过滤,降维等;GraphX模块提供基于图的算法。Spark基于Hadoop MapReduce,扩展了MapReduce模型,以有效地将其用于更多类型的计算,包括交互式查询和流处理。此外,通过Spark的内存计算,可以提高应用程序的处理速度。ApacheSpark实现了推荐算法高效的并行计算,随着教学资源数据量的增加,还可以通过扩展spark集群节点来解决推荐方案的可扩展性问题。
如图1所示,本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法包括:
步骤1,获取用户交互数据,对所述用户交互数据进行数据预处理,获得用户资源评分矩阵;
步骤2,对所述用户资源评分矩阵进行特征降维,获得用户的教学资源特征矩阵和用户特征矩阵;
步骤3,对所述教学资源特征矩阵进行聚类,获得教学资源聚类,并对所述教学资源聚类中的教学资源进行排序;
步骤4,获取用户对所有教学资源的评分,依次利用教学资源兴趣度模型,计算得到用户对所有教学资源的兴趣度,根据所述兴趣度对所有教学资源降序排列,生成教学资源推荐列表。如图4所示,是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图,具体实施中也可以采用其他表现形式。
本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中,所述步骤1,包括:
步骤101,采集教学资源评分数据集,并将所述教学资源评分数据集加载到数据仓库中保存,所述教学资源评分数据集包括教学资源、评分数据以及评分数据对应的用户信息;本步骤中,为通过学校的教学资源访问平台对教学资源评分数据集进行采集。
步骤102,对所述教学资源评分数据集中的教学资源进行分析,搜索并删除评分数据异常的教学资源和用户,所述评分数据异常的教学资源和用户包括:超范围评分数据及其对应的用户,以及恶意评分用户及其对应的评分数据;
本实施例中,所述超范围评分数据即评分数值小于1或大于5的教学资源,所述恶意评分用户即评分数据全部小于2的用户。
步骤103,提取用户ID、资源ID和评分特征值,构建用户资源评分矩阵。
如图2所示,本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中,所述步骤2,包括:
步骤201,基于Spark大数据分析平台使用交替最小二乘法(ALS)将用户资源评分矩阵映射到低维潜在因子空间;具体的,本步骤中,首先需要将教学资源评分数据集分割为训练集和测试集,然后在训练集上训练模型,在测试集上评估指标的性能。本实施例中,可以按照60/40划分得到训练集和测试集。
步骤202,最小化第一目标函数计算获得用户特征矩阵和教学资源特征矩阵,所述第一目标函数即平方误差损失函数,表示为:
Figure BDA0002298548230000071
其中,rui表示用户u对教学资源i的评分,评分rui的取值范围为[0,5]的整数,pu表示用户的特征向量,qi表示教学资源i的特征向量,λ表示正则化参数,正则化参数λ的取值范围为[0,1],
Figure BDA0002298548230000072
表示用户u和教学资源i之间的交互。
本步骤中,首先需要假设隐藏因子数g,隐藏因子数g可以取范围为[10,100]的整数,例如{20,50,70,100},取λ为{0.01,0.1,1},分别在训练集上训练得到模型,然后在测试集上计算均方根误差(RMSE)作为评估指标。最后比较评估指标为最小值,则该g值为最优解。
通过所述步骤2,能够克服现有协同过滤方法的稀疏性问题。便于并行化处理,并且可以有效地处理隐式数据集。
如图3所示,本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中,所述步骤3,包括:
步骤301,基于Spark大数据分析平台对所述教学资源特征矩阵使用K-Means聚类算法对与资源特征相似的教学资源进行聚类,通过最小化第二目标函数,获得教学资源聚类,所述第二目标函数即平方误差函数,表示为:
Figure BDA0002298548230000073
其中,k表示聚类簇群的数目,b表示聚类簇群的编号,n表示聚类簇群b中数据点的数目,a表示数据点的编号,xa表示聚类簇群b中数据点a的数值,cb表示聚类簇群b中心的数值,
Figure BDA0002298548230000074
是xa和cb之间的欧氏距离;
本步骤中,首先需要假设群集的数目k,可以取范围为[10,100]的整数,例如{10,20,40,60,80},分别在训练集上训练得到模型,然后在测试集上计算目标函数。最后比较目标函数为最小值,则该k值为最优解。
在本步骤之前,首先需要将教学资源特征矩阵分割为训练集和测试集,然后在训练集上训练模型,在测试集上评估指标的性能。具体的,可以按照60/40划分得到训练集和测试集。
步骤302,检索每个所述教学资源聚类中的教学资源,根据所述教学资源到聚类中心的距离对教学资源按照从小到大的顺序进行排序,并将排序结果保存到数据仓库中。
本发明实施例所述一种面向大规模用户的个性化教学资源推荐方法中,所述步骤4,包括:
步骤401,根据用户的历史评分资源获取所述历史评分资源所属的教学资源聚类,所述历史评分资源即存在用户评分数据的教学资源;本实施例中,在给用户进行资源推荐前,用户必须至少对一个资源进行了评分。
步骤402,在所述历史评分资源所属的教学资源聚类中获取最能代表所述教学资源聚类特征的前K个教学资源,利用教学资源兴趣度模型计算K个教学资源的兴趣度,其中,0<K<N,N代表所述教学资源聚类中教学资源的数量;
步骤403,根据所述用户的所有历史评分资源,利用教学资源兴趣度模型计算得到用户对所有教学资源的兴趣度;
所述教学资源兴趣度模型表示为:
Figure BDA0002298548230000081
其中,pud表示用户u对教学资源d的兴趣度,N(u)表示用户u评价过的教学资源集合,S(d)表示教学资源d所属的资源聚类集合,c表示用户u评价过且在教学资源d所属的资源聚类集合中的一个教学资源,wd表示教学资源d的特征匹配度,ruc表示用户u对教学资源c的评分。
本实施例中,特征匹配度可以用教学资源和聚类簇群中心的距离的倒数表示,距离越小匹配度越高。
如图4所示,是本发明实施例部分提供的一种面向大规模用户的个性化教学资源推荐方法中的最终生成的推荐列表示意图,具体实施中也可以采用其他表现形式。本发明最终通过计算用户对同一所述教学资源的兴趣度之和,并根据所述兴趣度之和对所有教学资源降序排列,生成教学资源推荐列表。通过教学资源推荐列表,用户能够快速准确的数字化教学资源推荐服务。
本发明包括一种面向大规模用户的个性化教学资源推荐方法。通过对教学资源评分数据集进行预处理构建用户-资源评分矩阵,通过使用ALS降维算法获得教学资源特征矩阵和用户特征矩阵,通过对教学资源特征矩阵使用K均值聚类算法(k-means clusteringalgorithm),形成教学资源聚类,通过资源推荐模型最终形成为用户的教学资源推荐列表。
本发明通过对教学资源评分数据集进行预处理构建用户-资源评分矩阵,通过使用ALS降维算法获得用户对隐含特征的偏好矩阵和教学资源所包含的隐含特征矩阵,通过对教学资源所包含的隐含特征矩阵使用K-Means聚类算法,形成教学资源聚类,通过资源推荐模型最终形成为用户推荐的资源兴趣度列表。通过基于Apache Spark实现高效的并行计算并解决可扩展性问题。
本发明利用Spark的高并发处理、ALS降维算法、K-Means聚类算法等技术,相较于现有技术,能够为大量用户提供快速准确的数字化教学资源推荐服务,增强用户体验,提高学习效果,为智慧校园教学资源的个性化利用提供了一套有效的解决方案。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种面向大规模用户的个性化教学资源推荐方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (5)

1.一种面向大规模用户的个性化教学资源推荐方法,其特征在于,包括:
步骤1,获取用户交互数据,对所述用户交互数据进行数据预处理,获得用户资源评分矩阵;
步骤2,对所述用户资源评分矩阵进行特征降维,获得用户的教学资源特征矩阵;
步骤3,对所述教学资源特征矩阵进行聚类,获得教学资源聚类,并对所述教学资源聚类中的教学资源进行排序;
步骤4,获取用户对所有教学资源的评分,依次利用教学资源兴趣度模型,计算得到用户对所有教学资源的兴趣度,根据所述兴趣度对所有教学资源降序排列,生成教学资源推荐列表。
2.根据权利要求1所述的一种面向大规模用户的个性化教学资源推荐方法,其特征在于,所述步骤1,包括:
步骤101,采集教学资源评分数据集,并将所述教学资源评分数据集加载到数据仓库中保存,所述教学资源评分数据集包括教学资源、评分数据以及评分数据对应的用户信息;
步骤102,对所述教学资源评分数据集中的教学资源进行分析,搜索并删除评分数据异常的教学资源和用户,所述评分数据异常的教学资源和用户包括:超范围评分数据及其对应的用户,以及恶意评分用户及其对应的评分数据;
步骤103,提取用户ID、资源ID和评分特征值,构建用户资源评分矩阵。
3.根据权利要求2所述的一种面向大规模用户的个性化教学资源推荐方法,其特征在于,所述步骤2,包括:
步骤201,基于Spark大数据分析平台使用交替最小二乘法将用户资源评分矩阵映射到低维潜在因子空间;
步骤202,最小化第一目标函数计算获得用户特征矩阵和教学资源特征矩阵,所述第一目标函数即平方误差损失函数,表示为:
Figure FDA0002298548220000011
其中,rui表示用户u对教学资源i的评分,评分rui的取值范围为[0,5]的整数,pu表示用户u的特征向量,qi表示教学资源i的特征向量,λ表示正则化参数,正则化参数λ的取值范围为[0,1],
Figure FDA0002298548220000021
表示用户u和教学资源i之间的交互。
4.根据权利要求3所述的一种面向大规模用户的个性化教学资源推荐方法,其特征在于,所述步骤3,包括:
步骤301,基于Spark大数据分析平台对所述教学资源特征矩阵使用K-Means聚类算法对与资源特征相似的教学资源进行聚类,通过最小化第二目标函数,获得教学资源聚类,所述第二目标函数即平方误差函数,表示为:
Figure FDA0002298548220000022
其中,k表示聚类簇群的数目,b表示聚类簇群的编号,n表示聚类簇群b中数据点的数目,a表示数据点的编号,xa表示聚类簇群b中数据点a的数值,cb表示聚类簇群b中心的数值,
Figure FDA0002298548220000023
是xa和cb之间的欧氏距离;
步骤302,检索每个所述教学资源聚类中的教学资源,根据所述教学资源到聚类中心的距离对教学资源按照从小到大的顺序进行排序,并将排序结果保存到数据仓库中。
5.根据权利要求4所述的一种面向大规模用户的个性化教学资源推荐方法,其特征在于,所述步骤4,包括:
步骤401,根据用户的历史评分资源获取所述历史评分资源所属的教学资源聚类,所述历史评分资源即存在用户评分数据的教学资源;
步骤402,在所述历史评分资源所属的教学资源聚类中获取最能代表所述教学资源聚类特征的前K个教学资源,利用教学资源兴趣度模型计算K个教学资源的兴趣度,其中,0<K<N,N代表所述教学资源聚类中教学资源的数量;
步骤403,根据所述用户的所有历史评分资源,利用教学资源兴趣度模型计算得到用户对所有教学资源的兴趣度;
所述教学资源兴趣度模型表示为:
Figure FDA0002298548220000024
其中,pud表示用户u对教学资源d的兴趣度,N(u)表示用户u评价过的教学资源集合,S(d)表示教学资源d所属的资源聚类集合,c表示用户u评价过且在教学资源d所属的资源聚类集合中的一个教学资源,wd表示教学资源d的特征匹配度,ruc表示用户u对教学资源c的评分。
CN201911212608.XA 2019-12-02 2019-12-02 一种面向大规模用户的个性化教学资源推荐方法 Active CN110929161B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911212608.XA CN110929161B (zh) 2019-12-02 2019-12-02 一种面向大规模用户的个性化教学资源推荐方法
PCT/CN2020/090567 WO2021109464A1 (zh) 2019-12-02 2020-05-15 一种面向大规模用户的个性化教学资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212608.XA CN110929161B (zh) 2019-12-02 2019-12-02 一种面向大规模用户的个性化教学资源推荐方法

Publications (2)

Publication Number Publication Date
CN110929161A true CN110929161A (zh) 2020-03-27
CN110929161B CN110929161B (zh) 2023-04-07

Family

ID=69848115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212608.XA Active CN110929161B (zh) 2019-12-02 2019-12-02 一种面向大规模用户的个性化教学资源推荐方法

Country Status (2)

Country Link
CN (1) CN110929161B (zh)
WO (1) WO2021109464A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931043A (zh) * 2020-07-23 2020-11-13 重庆邮电大学 一种科技资源的推荐方法及***
CN112650948A (zh) * 2020-12-30 2021-04-13 华中师范大学 教育信息化评估的信息网构建方法、***及应用
CN112732867A (zh) * 2020-12-29 2021-04-30 广州视源电子科技股份有限公司 文件的处理方法及装置
CN112749342A (zh) * 2021-01-20 2021-05-04 北京工业大学 一种针对网络教育教学资源的个性化推荐方法
WO2021109464A1 (zh) * 2019-12-02 2021-06-10 南京莱斯网信技术研究院有限公司 一种面向大规模用户的个性化教学资源推荐方法
CN116401567A (zh) * 2023-06-02 2023-07-07 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置
CN117575745A (zh) * 2024-01-17 2024-02-20 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460145A (zh) * 2020-03-18 2020-07-28 天闻数媒科技(北京)有限公司 一种学习资源推荐方法、设备及存储介质
CN113672809A (zh) * 2021-08-18 2021-11-19 广州创显科教股份有限公司 一种基于个性化推荐算法的智能导学方法及***
CN116628339B (zh) * 2023-06-09 2023-11-17 国信蓝桥教育科技股份有限公司 一种基于人工智能的教育资源推荐方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160005099A1 (en) * 2013-02-25 2016-01-07 Thomson Licensing Method and system for item recommendation
CN106528693A (zh) * 2016-10-25 2017-03-22 广东科海信息科技股份有限公司 面向个性化学习的教育资源推荐方法及***
CN106570653A (zh) * 2016-11-10 2017-04-19 国网山东省电力公司济南供电公司 配网抢修工单派发支持***及优化方法
US20170109330A1 (en) * 2012-11-21 2017-04-20 Marketo, Inc. Method for adjusting content of a webpage in real time based on users online behavior and profile
CN106919699A (zh) * 2017-03-09 2017-07-04 华北电力大学 一种面向大规模用户的个性化信息推荐方法
CN108491547A (zh) * 2018-04-04 2018-09-04 深圳明创自控技术有限公司 一种基于大数据的互联网教学***
CN109241405A (zh) * 2018-08-13 2019-01-18 华中师范大学 一种基于知识关联的学习资源协同过滤推荐方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049865A (zh) * 2012-12-17 2013-04-17 中国农业大学 主动推荐产品信息服务的方法及***
CN106339829B (zh) * 2016-11-10 2018-09-21 国网山东省电力公司济南供电公司 基于大云物移技术的配电网主动抢修全景监控***
CN110929161B (zh) * 2019-12-02 2023-04-07 南京莱斯网信技术研究院有限公司 一种面向大规模用户的个性化教学资源推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109330A1 (en) * 2012-11-21 2017-04-20 Marketo, Inc. Method for adjusting content of a webpage in real time based on users online behavior and profile
US20160005099A1 (en) * 2013-02-25 2016-01-07 Thomson Licensing Method and system for item recommendation
CN106528693A (zh) * 2016-10-25 2017-03-22 广东科海信息科技股份有限公司 面向个性化学习的教育资源推荐方法及***
CN106570653A (zh) * 2016-11-10 2017-04-19 国网山东省电力公司济南供电公司 配网抢修工单派发支持***及优化方法
CN106919699A (zh) * 2017-03-09 2017-07-04 华北电力大学 一种面向大规模用户的个性化信息推荐方法
CN108491547A (zh) * 2018-04-04 2018-09-04 深圳明创自控技术有限公司 一种基于大数据的互联网教学***
CN109241405A (zh) * 2018-08-13 2019-01-18 华中师范大学 一种基于知识关联的学习资源协同过滤推荐方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QINGMEI ZHOU 等: "Spectral Clustering-based Matrix Completion Method for Top-n Recommendation", 《ICCDE\" 19: PROCEEDINGS OF THE 2019 5TH INTERNATIONAL CONFERENCE ON COMPUTING AND DATA ENGINEERING》 *
TAO LI 等: "Hybrid Recommendation Algorithm Based on Hamming Clustering for User\"s Access Log and Weighted User Behavior", 《2018 15TH INTERNATIONAL CONFERENCE ON SERVICE SYSTEMS AND SERVICE MANAGEMENT (ICSSSM)》 *
汤传阳: "基于数据分类的交替最小二乘推荐算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109464A1 (zh) * 2019-12-02 2021-06-10 南京莱斯网信技术研究院有限公司 一种面向大规模用户的个性化教学资源推荐方法
CN111931043A (zh) * 2020-07-23 2020-11-13 重庆邮电大学 一种科技资源的推荐方法及***
CN111931043B (zh) * 2020-07-23 2023-09-29 重庆邮电大学 一种科技资源的推荐方法及***
CN112732867A (zh) * 2020-12-29 2021-04-30 广州视源电子科技股份有限公司 文件的处理方法及装置
CN112732867B (zh) * 2020-12-29 2024-03-15 广州视源电子科技股份有限公司 文件的处理方法及装置
CN112650948A (zh) * 2020-12-30 2021-04-13 华中师范大学 教育信息化评估的信息网构建方法、***及应用
CN112650948B (zh) * 2020-12-30 2022-04-29 华中师范大学 教育信息化评估的信息网构建方法、***及应用
CN112749342A (zh) * 2021-01-20 2021-05-04 北京工业大学 一种针对网络教育教学资源的个性化推荐方法
CN116401567A (zh) * 2023-06-02 2023-07-07 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置
CN116401567B (zh) * 2023-06-02 2023-09-08 支付宝(杭州)信息技术有限公司 一种聚类模型训练、用户聚类、信息推送方法及装置
CN117575745A (zh) * 2024-01-17 2024-02-20 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法
CN117575745B (zh) * 2024-01-17 2024-04-30 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法

Also Published As

Publication number Publication date
WO2021109464A1 (zh) 2021-06-10
CN110929161B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110929161B (zh) 一种面向大规模用户的个性化教学资源推荐方法
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘***及方法
Chen et al. General functional matrix factorization using gradient boosting
US9720998B2 (en) Massive clustering of discrete distributions
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
Zhu et al. Research on big data mining based on improved parallel collaborative filtering algorithm
CN114564573A (zh) 基于异构图神经网络的学术合作关系预测方法
Tu et al. Multi-label crowd consensus via joint matrix factorization
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
Yu et al. Deep metric learning with dynamic margin hard sampling loss for face verification
CN108154380A (zh) 基于大规模评分数据对用户进行商品在线实时推荐的方法
Xu et al. Towards annotating media contents through social diffusion analysis
Wan et al. A dual learning-based recommendation approach
Salehi et al. Attribute-based recommender system for learning resource by learner preference tree
Yu et al. The personalized recommendation algorithms in educational application
An Data mining analysis method of consumer behaviour characteristics based on social media big data
CN109885758A (zh) 一种基于二部图的新型随机游走的推荐方法
Li et al. Research on the evaluation of learning behavior on MOOCs based on cluster analysis
Fu et al. The Design of Personalized Education Resource Recommendation System under Big Data
CN113705217A (zh) 一种面向电力领域知识学习的文献推荐方法及装置
Zhen et al. Improved Hybrid Collaborative Fitering Algorithm Based on Spark Platform
CN114298118A (zh) 一种基于深度学习的数据处理方法、相关设备及存储介质
Yang et al. Design of collaborative filtering recommendation algorithm combining time weight and reward and punishment factors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant