CN118170993A - 一种基于对比学习与场因子分解的教育资源推荐方法 - Google Patents

一种基于对比学习与场因子分解的教育资源推荐方法 Download PDF

Info

Publication number
CN118170993A
CN118170993A CN202410594928.0A CN202410594928A CN118170993A CN 118170993 A CN118170993 A CN 118170993A CN 202410594928 A CN202410594928 A CN 202410594928A CN 118170993 A CN118170993 A CN 118170993A
Authority
CN
China
Prior art keywords
field
loss
order
user
project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410594928.0A
Other languages
English (en)
Other versions
CN118170993B (zh
Inventor
周菊香
孔宪艳
李子杰
王俊
张姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Normal University
Original Assignee
Yunnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Normal University filed Critical Yunnan Normal University
Priority to CN202410594928.0A priority Critical patent/CN118170993B/zh
Publication of CN118170993A publication Critical patent/CN118170993A/zh
Application granted granted Critical
Publication of CN118170993B publication Critical patent/CN118170993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于对比学习与场因子分解的教育资源推荐方法,属于深度学习、基于上下文的推荐***、对比学习等相关领域。本发明将资源和用户的特征分为项目场特征和用户场特征分别进行嵌入,并将两种特征输入神经网络获得高阶场特征,然后按组别对用户和资源进行二阶特征交叉,利用多层神经网络进行高阶特征交叉融合。再对二阶特征交叉结果与高阶特征交叉结果使用sigmoid函数计算点击率,对点击率排序完成资源推荐,该点击率与真实标签通过交叉熵损失函数计算损失,通过对比学习损失优化同一特征在三个场下的不同表征。最后收敛推荐任务中的交叉熵损失和交叉阶段构建的对比损失,以此优化推荐效果。

Description

一种基于对比学习与场因子分解的教育资源推荐方法
技术领域
本发明涉及一种基于对比学习与场因子分解的教育资源推荐方法,属于深度学习、基于上下文的推荐***以及对比学习相关技术领域。
背景技术
推荐***旨在依据用户与项目的特征为用户匹配点击率最高的项目。当前,推荐***按其依赖的技术可分为多类,包括基于上下文的推荐、基于序列的推荐、基于知识图谱的推荐、基于图神经网络的推荐。多种推荐的方法适应了不同应用场景下的需要。其中,基于上下文的推荐算法的主流方法是对用户和项目的特征进行交叉,计算不同特征间组合对点击率的贡献。当前,DeepFM、Wide&Deep、xDeepFM等都分为了低阶、高阶特征的交叉,该范式取得了较好的效果。
对比学习的概念源自于图像处理、自然语言处理领域,在无监督学习、半监督学习场景下取得了较好的效果。对比学习的核心方法是,将文本、图像、图结构等进行数据增强,从而得到同一数据在不同数据增强策略下的两种表现显示。在图像领域,若将一张狗的图像分别进行小范围的高斯模糊操作、灰度化操作,则会得到两张数据增强的图片,在操作后两张图片仍然可以被识别出图片中的对象为狗。因此,在数据增强后不影响数据的本质,此前,一些模型使用增强的数据进行训练,该方法能够使得模型鲁棒性更强。对比学习的方法则认为,经过增强后的数据如果不改变数据的本质,则在对数据进行向量化表征后,在空间中仍应有相近的空间距离。因此,将增强数据间的空间距离作为一种损失,通过优化该目标获得更好的效果。
在公开号为CN115270004B的发明专利中,描述了一种基于场因子分解的教育资源推荐方法,该方法构建项目场特征和用户场特征,然后按组别对用户和教育资源进行二阶特征交叉,再利用交叉压缩网络和深度神经网络学习高阶特征,最终对二阶特征交叉结果与高阶特征交叉结果使用线性层和sigmoid函数计算点击率。但此方法仍然存在如下问题:1、项目场特征和用户场特征间同种特征间没有建立联系,其交叉效果可能受此影响。2、该方法采用CIN作为高阶特征融合的方式,尽管带来了性能的提升,但也带来了较大的计算开销。
发明内容
本发明针对场因子分解推荐方法中存在的问题,提出了一种基于对比学习和场因子分解的资源推荐方法,在基于场因子分解的教育资源推荐方法的基础上,本方法使用多层神经网络对高阶场特征进行高阶特征交叉融合,同时配合对比学习损失优化同一特征在三个场下的不同表征,收敛交叉熵损失和交叉阶段构建的对比损失,从而优化推荐效果。
本发明的具体技术方案是:
一种基于对比学习与场因子分解的教育资源推荐方法,包括特征表征阶段、特征交叉阶段、预测阶段、训练阶段;
在特征表征阶段,将资源和用户的特征分为项目场特征和用户场特征分别进行嵌入得到两个场下的表征,并将两种特征输入神经网络获得高阶场特征;在特征交叉阶段,基于项目场和用户场按组别对用户和资源进行二阶特征交叉,再利用深度神经网络对高阶场特征进行高阶特征融合;在预测阶段,对二阶特征交叉结果与高阶特征融合结果使用sigmoid函数计算点击率,通过对点击率的排序完成资源推荐任务,该点击率与真实标签通过交叉熵损失函数计算损失,同时,通过对比学习损失优化同一特征在三个场下的不同表征;在训练阶段,同时收敛推荐任务中的交叉熵损失和交叉阶段构建的对比损失,以此优化推荐效果。
所述资源推荐方法的具体步骤如下:
以所有用户对学习资源的全部访问记录为数据总样本,设该样本集中有N个样本,每个样本包含了单个用户对某个资源的单次访问行为的 发生;
Step1、对用户特征和项目特征进行编码;
Step2、用户场、项目场特征嵌入;
Step3、基于用户场、项目场进行二阶特征交叉;
Step4、基于高阶场使用DNN实现高阶特征融合;
取用户场特征组、项目场特征组,在嵌入维度上进行拼接后输入神经网络进行降维,得到高阶 场特征代表嵌入维度,代表特征种数。然后将高阶场 特征输入k层神经网络,计算高阶特征融合结果
式中:表示高阶场融合结果,表示当前层数,为第层网络权重,为第k层 网络偏置,其中首层输入为
上式表示多层神经网络中,第k-1层的中间结果,与其下一神经网络层权重相乘并与偏置相加得到第k层结果,层数可按实际应用情况设定。
Step5、通过sigmoid函数计算点击率:
其中,为sigmoid函数,将结果转化至中,表示二阶特征交叉结果,表 示高阶特征融合结果。
Step6、计算推荐任务的二分类交叉熵损失,基于用户场、项目场、高阶场计算对比学习损失,对比损失的目的是减小同一特征在不同场下的空间距离,利用损失之和训练参数;
Step6.1、计算推荐任务损失:
使用二分类交叉熵损失函数为损失,训练参数,损失函数为:
(10)
式中,为样本总量,为样本真实值,为预测值。
Step6.2、对用户场、项目场、高阶场进行两两组合,分别计算用户场-项目场对比损失、用户场-高阶场对比损失、项目场-高阶场对比损失,该对比损失的目的是拉近同一特征在不同场下的距离:
用户场-项目场对比损失,为:
用户场-高阶场对比损失,为:
项目场-高阶场对比损失,为:
式中,τ为温度系数,分别为特征i在用户场、项目场和高阶场下的表 达,分别为负样本k在用户场、项目场和高阶场的表达。
Step6.3、计算总损失
=+++
Step6.4、依据总损失计算该模型中可训练参数的梯度完成反向传播过程,使用 Adam优化器进行参数优化。
Step7、按上述 Step1-Step5 求取每个用户对每个资源的点击率,对点击率按降序进行排序,选取点击率前几名作为推荐资源,由此完成推荐过程;
本发明的有益效果是:
本发明提供一种基于对比学习与场因子分解的教育资源推荐方法,能有效解决当前资源推荐方法准确率低、特征挖掘能力差的问题,可应用在各类不同规模的推荐***和教育资源推荐数据集上。本发明方法具体考虑了用户特征、项目特征和高阶场特征在特征交叉时不同情况下的差异,所提出的基于对比学习和场因子分解的资源推荐方法可以很好地建模特征交叉时的需求,该方法在推荐过程中利用DNN对高阶特征进行特征融合,利用对比学习损失优化同一特征在三个场下的不同表征,可有效提高推荐***的准确率。
附图说明
图1为本发明提出的教育资源推荐方法流程图。
具体实施方式
实施例1、一种基于对比学习和场因子分解的资源推荐方法,本实施例以单条教育资源推荐实际情况为例,通过二阶特征交叉和高阶特征学习计算点击率并对点击率进行排序从而实现推荐。具体过程包括:Step1、对用户特征和项目特征进行编码:Step2、用户场、项目场特征嵌入;Step3、基于用户场、项目场进行二阶特征交叉;Step4、基于高阶场使用DNN 实现高阶特征融合;Step5、通过sigmoid函数计算点击率;Step6、计算二分类交叉熵损失和对比学习损失,训练参数;Step7、按上述Step1-Step5求取每个学习者对每个学习资源的点击率,对点击率按降序进行排序,选取点击率前几名作为推荐资源,由此完成推荐过程。
所述方法的具体步骤如下:
Step1、对用户特征和项目特征进行编码:
其中,每条访问记录包括了用户特征和项目特征(即学习资源特征,后统称项目特 征)共计个,则,在表1所示的单条数据中,共计6项特征,即用户ID (User_ID)、年级(Grade)、性别(Sex)、资源ID(Item_ID)、类别(Class)、年份(Year)。
其余样本与该条样本类似,该条样本表明了用户ID为5的学习者点击了资源ID为988的资源。则针对样本集中的每一条访问记录执行Step1.1-Step1.3,具体步骤为:
Step1.1、对所有访问记录中的用户、项目特征进行分类,分为类别型特征和数值型特征,并统计特征种类数共计n个,在该示例中,上述6项特征均为类别型特征,若有年龄等信息可归为数值型特征;
Step1.2、对类别型特征进行one-hot编码,多类别型特征进行multi-hot编码,数值型特征离散化后进行one-hot编码,以上述案例中Grade为6(年级为六年级)的情况为例,该one-hot编码结果为[0,0,0,0,0,1],其余字段按同样方式处理;
Step1.3、对单条访问记录进行编码,则编码后的样本集为
Step1.4、为每条记录生成一条负样本,对于该例而言,其产生的负样本的方法是更换资源,然后令Label为0,即添加了一些不存在的访问情况,这些情况作为负样本;
Step2、用户场、项目场特征嵌入:
Step2.1、设定用户场,项目场
Step2.2、基于用户场、项目场初始化特征向量:
每个特征根据用户场、项目场分别生成一个向量,特征在用户场下的向量为,在项目场下的向量为;从而将转化为二组向量,用户场对应一组特征向 量,项目场对应一组特征向量代表嵌入维度,代表特征种数;
Step3、基于用户场、项目场进行二阶特征交叉;
Step3.1、计算用户场内特征交叉结果:
用户场内所有二阶特征组合的预测结果表示为:
(1)
式中:表示两个维向量的点积,表示用户特征种类数;该实例中,用 户场内的二阶特征交叉指的是用户 ID(User_ID)、年级(Grade)、性别(Sex)中特征的两两 组合。
Step3.2、计算项目场内特征交叉结果:
项目场内所有二阶特征组合的预测结果表示为:
(2)
上式对项目特征进行二阶交叉,从项目场特征组EI中选取第t+1至n个特征向量,两两组合后进行内积计算。在该实例中,项目场内的二阶特征交叉指的是资源 ID
(Item_ID)、类别(Class)、年份(Year)中特征的两两组合。
Step3.3、计算场间交叉结果:
用户场与项目场间特征组合的预测结果表示为:
(3)
在该实例中,场间的二阶特征交叉指的是,在项目特征、用户特征中分别选一个特征进行组合,遍历所有组合形式。
Step3.4、计算二阶特征交叉结果:
(4)
其中,为用户场内所有二阶特征组合的预测结果,为项目场内所有二阶特 征组合的预测结果,为用户场与项目场间特征组合的预测结果;
Step4、基于高阶场使用DNN实现高阶特征融合;
Step4.1、取用户场特征组、项目场特征组,在嵌入维度上进行拼接后输入神经网络进行降维得到高阶 场特征代表嵌入维度,代表特征种数。然后将高阶场 特征输入k层神经网络,计算高阶特征融合结果
(5)
式中:表示高阶场融合结果,表示当前层数,为第层网络权重,为第k层 网络偏置,其中首层输入为
Step5、通过sigmoid函数计算点击率:
(6)
其中,为sigmoid函数,将结果转化至中,表示二阶特征交叉结果,表 示高阶特征融合结果。
Step6、计算推荐任务的二分类交叉熵损失,基于用户场、项目场、高阶场计算对比学习损失,对比损失的目的是减小同一特征在不同场下的空间距离,利用损失之和训练参数;
Step6.1、计算推荐任务损失:
使用二分类交叉熵损失函数为损失,训练参数,损失函数为:
(7)
式中,为样本总量,为样本真实值,为预测值。
Step6.2、对用户场、项目场、高阶场进行两两组合,分别计算用户场-项目场对比损失、用户场-高阶场对比损失、项目场-高阶场对比损失,该对比损失的目的是拉近同一特征在不同场下的距离:
用户场-项目场对比损失,为:
用户场-高阶场对比损失,为:
项目场-高阶场对比损失,为:
式中,τ为温度系数,分别为特征i在用户场、项目场和高阶场下的表 达,分别为负样本k在用户场、项目场和高阶场的表达。
Step6.3、计算总损失
=+++
Step6.4、依据总损失计算该模型中可训练参数的梯度完成反向传播过程,使用 Adam优化器进行参数优化。
Step7、按上述 Step1-Step5 求取每个用户对每个资源的点击率,对点击率按降序进 行排序,选取点击率前三名作为推荐资源,由此完成推荐过程。
实际应用中,一般取时即可得到较精准的推荐结果,也可通过调整来确定 值。
为了验证本发明的效果,发明选取了推荐领域常用的MovieLens系列数据集进行验证,该系列包含三个不同规模的公开数据集,即MovieLens-1M、MovieLens-10M、MovieLens-20M数据集,三个数据集取自不同时间,彼此独立。通过使用分类问题中常用的评价指标AUC(Area Under the ROC curve)和LogLoss(cross entropy)对模型进行性能评估。实验基于python3.8版本,PyTorch版本使用v1.10.1,cuda版本为v11.1,使用adam优化器进行优化。学习率取值5E-4,批处理大小取2048。数据集按8:1:1随机划分为训练集、验证集、测试集,选择验证集中表现最优的epoch在测试集上进行测试。
表1 ML-1M数据集中本发明与主流模型在不同Embeding维度设定下的表现
表1、表2、表3数据分别反应了3个数据集中各个模型性能,在ML-1M数据集中,嵌入维度为64时,本发明的模型效果比WideDeep低了0.02%,原因是数据集相对较小,嵌入维度也较低,模型难以捕捉到更丰富的特征,对比损失的优势也表现的不是特别明显。当嵌入维度增加时,本发明模型的优势也逐渐呈现出来,AUC指标比对比模型平均高出约0.69%。在数据集ML-10M中,本发明模型在嵌入维度为128维时相比于其他对比模型在AUC和LogLoss指标取得了较好的结果,在其他两个维度上稍逊色于其中的对比模型。在规模最大的数据集ML-20M上,本发明模型在AUC和LogLoss指标上均优于其他对比模型,随着嵌入维度的增加,模型的性能也逐渐提升,呈现出了模型的最优效果。在嵌入维度为256维时,本发明模型的AUC指标达到了0.8405,LogLoss达到0.4753,AUC指标在三个嵌入维度下比对比模型平均高出0.37%,LogLoss平均降低了0.56%,取得了上述对比模型中最优的效果。从整体上看,本发明模型在嵌入维度不变时,数据集越大,模型的性能越好,有效验证了本发明模型在处理大规模数据上的优越性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于对比学习与场因子分解的教育资源推荐方法,其特征在于,包括特征表征阶段、特征交叉阶段、预测阶段、训练阶段;
在特征表征阶段,将资源和用户的特征分为项目场特征和用户场特征分别进行嵌入得到两个场下的表征,并将两种特征输入神经网络获得高阶场特征;在特征交叉阶段,基于项目场和用户场按组别对用户和资源进行二阶特征交叉,再利用深度神经网络对高阶场特征进行高阶特征融合;在预测阶段,对二阶特征交叉结果与高阶特征融合结果使用sigmoid函数计算点击率,通过对点击率的排序完成资源推荐任务,该点击率与真实标签通过交叉熵损失函数计算损失,同时,通过对比学习损失优化同一特征在三个场下的不同表征;在训练阶段,同时收敛推荐任务中的交叉熵损失和交叉阶段构建的对比损失,以此优化推荐效果。
2.根据权利要求1所述的基于对比学习与场因子分解的教育资源推荐方法,其特征在于,所述利用深度神经网络进行高阶特征融合,具体步骤如下:
取用户场特征组、项目场特征组,在嵌入维度上进行拼接后输入神经网络进行降维得到高阶场特征/> ,/>代表嵌入维度,/>代表特征种数;然后将高阶场特征输入k层神经网络,计算高阶特征融合结果/>
式中:表示高阶场融合结果,/>表示当前层数,/>为第/>层网络权重,/>为第k层网络偏置,其中首层输入为/>
3.根据权利要求1所述的基于对比学习与场因子分解的教育资源推荐方法,其特征在于,所述点击率计算为:
其中,为sigmoid函数,将结果转化至/>中,/>表示二阶特征交叉结果,/>表示高阶特征融合结果。
4.根据权利要求1所述的基于对比学习与场因子分解的教育资源推荐方法,其特征在于,所述训练过程包括:计算推荐任务的二分类交叉熵损失,基于用户场、项目场、高阶场计算对比学习损失,利用损失训练参数;具体步骤如下:
(1)计算推荐任务损失:
使用二分类交叉熵损失函数为损失,训练参数,损失函数为:
式中,为样本总量,/>为样本真实值,/>为预测值;
(2)对用户场、项目场、高阶场进行两两组合,分别计算用户场-项目场对比损失、用户场-高阶场对比损失、项目场-高阶场对比损失:
用户场-项目场对比损失,为:
用户场-高阶场对比损失,为:
项目场-高阶场对比损失,为:
式中,τ为温度系数,分别为特征i在用户场、项目场和高阶场下的表达,分别为负样本k在用户场、项目场和高阶场的表达;
(3)计算总损失
=/>+/>+/>+/>
(4)依据总损失计算该模型中可训练参数的梯度完成反向传播过程,使用Adam优化器进行参数优化。
CN202410594928.0A 2024-05-14 2024-05-14 一种基于对比学习与场因子分解的教育资源推荐方法 Active CN118170993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410594928.0A CN118170993B (zh) 2024-05-14 2024-05-14 一种基于对比学习与场因子分解的教育资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410594928.0A CN118170993B (zh) 2024-05-14 2024-05-14 一种基于对比学习与场因子分解的教育资源推荐方法

Publications (2)

Publication Number Publication Date
CN118170993A true CN118170993A (zh) 2024-06-11
CN118170993B CN118170993B (zh) 2024-07-12

Family

ID=91347205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410594928.0A Active CN118170993B (zh) 2024-05-14 2024-05-14 一种基于对比学习与场因子分解的教育资源推荐方法

Country Status (1)

Country Link
CN (1) CN118170993B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210224879A1 (en) * 2020-01-22 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device and storage medium for item recommendation
CN113569129A (zh) * 2021-02-02 2021-10-29 腾讯科技(深圳)有限公司 点击率预测模型处理方法、内容推荐方法、装置及设备
CN116069921A (zh) * 2023-02-28 2023-05-05 上海大学 融合激活扩散理论和艾宾浩斯遗忘理论的新闻推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210224879A1 (en) * 2020-01-22 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device and storage medium for item recommendation
CN113569129A (zh) * 2021-02-02 2021-10-29 腾讯科技(深圳)有限公司 点击率预测模型处理方法、内容推荐方法、装置及设备
CN116069921A (zh) * 2023-02-28 2023-05-05 上海大学 融合激活扩散理论和艾宾浩斯遗忘理论的新闻推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUANHUAN YUAN ET AL.: "Improving hypergraph convolution network collaborative filtering with feature crossing and contrastive learning", 《APPLIED INTELLIGENCE》, vol. 52, 11 January 2022 (2022-01-11), pages 10220 - 10233, XP037885198, DOI: 10.1007/s10489-021-03144-1 *
罗朗;王利;周志平;赵卫东;: "基于DeepFM模型的科技资源推荐应用研究", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30), pages 31 - 33 *

Also Published As

Publication number Publication date
CN118170993B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及***
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及***
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN104881685B (zh) 基于捷径深度神经网络的视频分类方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN115270004B (zh) 一种基于场因子分解的教育资源推荐方法
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及***
CN113255844B (zh) 基于图卷积神经网络交互的推荐方法及***
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN113837308A (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
CN105678340B (zh) 一种基于增强型栈式自动编码器的自动图像标注方法
CN112668305B (zh) 一种基于注意力机制的论文引用量预测方法与***
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及***
CN117635238A (zh) 一种商品推荐方法、装置、设备及存储介质
CN117522479A (zh) 互联网广告精准投放方法及***
CN112418987A (zh) 交通运输单位信用评级方法、***、电子设备及存储介质
CN118170993B (zh) 一种基于对比学习与场因子分解的教育资源推荐方法
CN113887806B (zh) 长尾级联流行度预测模型、训练方法及预测方法
CN115760270A (zh) 一种基于知识图谱的新颖性增强推荐方法
CN117194966A (zh) 对象分类模型的训练方法和相关装置
CN115689639A (zh) 一种基于深度学习的商业广告点击率预测方法
CN110796195B (zh) 一种包含在线小样本激励的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant