CN118013137B

CN118013137B - 一种基于隐式反馈的协同过滤算法的优化策略

Info

Publication number: CN118013137B
Application number: CN202410417606.9A
Authority: CN
Inventors: 吕晟; 王佳斌; 颜鹏贵; 邓凡; 林熙隆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-06-18
Anticipated expiration: 2044-04-09
Also published as: CN118013137A

Abstract

本发明公开了一种基于隐式反馈的协同过滤算法的优化策略，涉及协同过滤算法推荐领域，包括：基于用户的隐式反馈数据计算用户对交互商品的偏好值及商品热度；根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，预测该用户对部分未交互商品的偏好值，并将这部分未交互商品标注为该用户的交互商品；计算用户对所有商品有兴趣或无兴趣的置信度；采用改进ALS优化算法对用户和商品进行建模，获得用户‑商品模型；基于用户‑商品模型实现针对给定用户的商品推荐。本发明用于对隐式反馈数据进行一个高质量的分析，并提高基于隐式反馈数据的模型训练质量，同时有效缓解数据稀疏性带来的消极影响。

Description

一种基于隐式反馈的协同过滤算法的优化策略

技术领域

本发明涉及协同过滤算法推荐，尤其涉及一种基于隐式反馈的协同过滤算法的优化策略。

背景技术

随着互联网的迅猛发展，电子商务已经成为现代商业中不可或缺的一部分。在电子商务领域，推荐***在提高用户满意度、促进销售和增强平台竞争力方面扮演着关键角色。然而，传统推荐***仍然面临着用户-商品交互矩阵高维且稀疏以及隐式反馈数据难以处理的问题。

针对隐式反馈数据的处理方面，现有的协同过滤算法（例如基于深度学习的神经协同过滤算法）往往是根据用户是否交互而划分正负例，而不会对潜在的假正例和假负例进行识别。这种做法在训练无噪声数据时的确可以取得很好的效果。但是，在实际环境中，用户的交互数据是存在大量的噪声的，例如，用户交互过的商品有可能只是误点、帮购或者是购买之后反馈不好；用户未交互过的商品也有可能只是没看到等等。这些潜在的假正例和假负例都无法被我们直接识别，其需要进一步的分析。

针对用户-商品交互矩阵数据稀疏性问题，现有的协同过滤算法（例如矩阵分解算法）可以通过将用户-商品交互矩阵转化为两个低秩矩阵的乘积来缓解数据稀疏性。然而，在模型训练过程中（例如ALS优化算法），由于矩阵中存在大量的空值，即使是矩阵分解算法也难以将其转化为两个准确的低维矩阵，因此需要对矩阵进行一个初步的优化。同时，ALS优化算法往往将空值默认为0值，且置信度均设置相同，表示用户对每一个未交互商品不感兴趣的可能性是相同的。而这显然是不合理的，因此关于ALS优化算法中用户对未交互商品不感兴趣的置信度还需要得到进一步的分析。

发明内容

本发明的目的在于解决现有技术中的问题。

本发明解决其技术问题所采用的技术方案是：提供一种基于隐式反馈的协同过滤算法的优化策略，包括以下步骤：

基于用户的隐式反馈数据计算用户对交互商品的偏好值及商品热度，所述隐式反馈数据包括用户、商品、交互行为和交互时间；

根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，预测该用户对部分未交互商品的偏好值，并将这部分未交互商品标注为该用户的交互商品，其它未交互商品仍作为该用户的未交互商品；

计算用户对所有商品有兴趣或无兴趣的置信度，对于交互商品，基于用户对交互商品的偏好值计算置信度；对于用户的未交互商品，基于商品热度计算置信度；

采用改进ALS优化算法对用户和商品进行建模，获得用户-商品模型；所述改进ALS优化算法指对于用户对未交互商品的置信度采用根据商品热度计算的置信度，以及在训练过程中设置阈值判定损失过大的数据为假负例，降低假负例在训练中的权重；

基于用户-商品模型实现针对给定用户的商品推荐。

优选的，用户对交互商品的偏好值的计算过程包括以下步骤：

计算每一条隐式反馈数据所反映出来的用户对交互商品的局部偏好值，表示为：

；

其中，表示该条隐式反馈数据中的用户/>对商品/>的局部偏好值，/>表示用户对商品的交互行为的量化值；/>表示该条隐式反馈数据的时间权重，/>表示时间衰减系数，/>表示当前时间戳值，/>表示隐式反馈数据发生的时间戳值；

对于用户进行同一交互商品的局部偏好值聚合，得到用户对交互商品的偏好值，表示为：

；

其中，表示用于u对商品i的偏好值。

优选的，对于表示用户对商品的交互行为的量化值，取值规则为：对于浏览行为，/>；对于收藏行为，/>；对于加入购物车行为，/>；对于购买行为，/>。

优选的，对于计算出的用户对交互商品的偏好值，还通过设定偏好值阈值并结合隐式反馈数据来过滤假正例，所述假正例指用户对其产生过交互但实际并不感兴趣的商品；

所述偏好值阈值设定为：

；

其中，表示用户/>的偏好值阈值，/>表示用户/>对其所交互商品的偏好值的平均值，/>表示用户/>对其所交互商品的偏好值的标准差，/>表示范围系数；

所述隐式反馈数据还包括交互时长和交互频次；

过滤假正例的规则为：当用户对商品的交互行为浏览行为，且交互时长<10s、交互频次=1、偏好值<偏好值阈值时，则认为此条交互数据为假正例，其中交互时长指用户此条浏览行为的时间戳与下一条最近时间段的交互行为的时间戳的差值绝对值；当用户对商品的交互行为为购买行为，且用户对此商品不存在其他交互行为，则将用户对此商品的偏好值进行削弱，具体计算公式如下：

；

其中，表示用户/>购买的商品数量，/>表示用户/>不经过其他交互行为直接购买的商品数量。

优选的，商品热度表示为：

；

其中，表示商品的热度值，表示对商品存在交互行为的用户集合，表示所有用户的集合，表示用于u对商品i的偏好值。

优选的，对于计算出的用户对交互商品的偏好值，还通过计算商品热度来更新用户对商品的偏好值，具体为：

；

其中，表示商品/>的热度值，/>表示热度惩罚系数，/>表示用于u对商品i的偏好值。

优选的，所述根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，包括以下步骤：

基于用户对交互商品的偏好值以及商品集合计算用户间的相似度，表示为：

；

其中，表示用户/>和用户/>间的相似度，/>和/>分别表示用户/>和用户/>所交互的商品集合，/>表示用户/>和用户/>均产生过交互的商品集合的模，表示用户/>和用户/>均交互过的商品集合的模，/>和/>分别表示用户/>和用户/>对商品/>的偏好值，/>和/>分别表示用户/>和用户/>对所交互商品的偏好值的平均值；

对每一位用户，选择相似度最高的用户作为其最近邻用户；

基于最近邻用户计算每一位用户对部分未交互商品的偏好值，所述部分未交互商品指用户未交互过但该用户最近邻交互过的商品，表示为：

；

其中，表示用户/>对商品/>有兴趣或无兴趣的置信度，/>均为超参数，/>表示商品/>的商品热度，/>表示所有商品热度的平均值，/>和分别表示用户/>和用户/>对商品/>的偏好值，/>表示用户/>和用户/>间的相似度，/>和/>分别表示用户/>和用户/>的交互商品集合。

优选的，所述计算用户对所有商品有兴趣或无兴趣的置信度，包括以下步骤：

将用户对未交互商品的偏好值定义为0；

通过用户对商品的偏好值计算用户对商品的置信度，具体计算公式如下：

；

其中，表示用户/>对商品/>有兴趣或无兴趣的置信度，/>表示置信度系数，/>表示用户/>对商品/>的偏好值；/>表示超参数，/>表示超参数，/>表示商品/>的商品热度，/>表示所有商品热度的平均值。

优选的，所述采用改进ALS优化算法对用户和商品进行建模，包括以下步骤：

S1，随机初始化用户特征向量矩阵P和商品特征向量矩阵Q，并定义损失函数表示为：

；

其中，表示基于用户特征向量矩阵P和商品特征向量矩阵Q的损失，表示所有用户的集合，表示所有商品的集合，表示用户对商品的置信度；表示用户对商品是否有兴趣，取值为1表示有兴趣，取值为0表示无兴趣；和分别表示用户和商品的隐含特征向量，表示正则化系数；T表示向量转置；

S2，固定用户特征向量矩阵P，更新商品特征向量矩阵Q，更新公式如下：

；

表示基于用户/>的特征向量和商品/>的特征向量产生的损失，表示用户/>对商品/>是否偏好的标识，/>和/>分别表示用户/>和商品/>的隐含特征向量；/>表示损失阈值，/>表示初始损失阈值，/>表示最大损失阈值，/>表示步长，/>表示迭代次数；表示调节负例模型训练的权重；

S3，固定商品特征向量矩阵Q，更新用户特征向量矩阵P，具体更新公式如下：

；

S4，重复S2和S3，直到损失函数收敛或达到最大迭代次数，获得用户-商品模型；在每一轮迭代中根据当前用户特征向量和当前商品特征向量计算用户对其未交互商品得分值并计算损失，若损失大于阈值，则视这条数据为假负例，并降低这条数据作为负例训练时所占的权重。

优选的，所述基于用户-商品模型实现针对给定用户的商品推荐，具体为：

计算用户对商品类别的偏好值，并选取偏好值最大的种商品类别作为用户最感兴趣的/>种商品类别，用户对商品类别的偏好值表示为：

；

其中，表示用户/>对商品类别/>的偏好值，/>表示用户/>所交互的商品集合，/>表示属于类别/>的商品集合，/>表示用户/>对商品/>的偏好值；

对每一个用户最感兴趣的种商品类别中的所有商品，计算用户对商品的得分，表示为：

；

其中，表示用户u对商品i的得分；

选取得分最高的前件商品形成推荐列表。

本发明具体具有如下有益效果：

（1）通过隐式反馈数据处理，一是根据用户对交互商品的多种信息判断用户对此交互商品的偏好值以及根据偏好值计算用户对此交互商品感兴趣的置信度，从而过滤掉正例中潜在的假正例，降低了训练数据中的噪声对模型训练的消极影响；二是根据商品热度计算用户对每一个未交互商品没兴趣的置信度，而不是简单地认为置信度相同，相当于给用户-商品交互矩阵中的空缺值分配了置信度（否则空缺值默认置信度均为1），在一定程度上缓解了矩阵的稀疏性；

（2）通过构建最近邻用户模型，计算用户对某些未交互商品的偏好值，并视为用户对这些商品产生了交互，从而扩大每一个用户的交互商品数量，缓解了数据稀疏性，提高了用户-商品交互矩阵的稠密度，为后面的优化的ALS算法提供了优质输入；

（3）采用改进的ALS优化算法，在每一轮迭代中根据当前的用户和商品的特征向量计算用户对其未交互商品得分值并计算损失，若损失大于阈值，则视（用户，商品）这条数据为假负例，并降低这条数据作为负例训练时所占的权重，有效削弱了隐式反馈中假负例对模型训练的消极影响，使建模更加准确。

以下结合附图及实施例对本发明作进一步详细说明，但本发明不局限于实施例。

附图说明

图1为本发明实施例的方法步骤图；

图2为本发明实施例采用改进ALS优化算法对用户和商品进行建模的流程示意图。

具体实施方式

参见图1所示，为本发明实施例的方法步骤图，包括如下步骤：

S101，基于用户的隐式反馈数据计算用户对交互商品的偏好值及商品热度，所述隐式反馈数据包括用户、商品、交互行为和交互时间；

S102，根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，预测该用户对部分未交互商品的偏好值，并将这部分未交互商品标注为该用户的交互商品，其它未交互商品仍作为该用户的未交互商品；

S103，计算用户对所有商品有兴趣或无兴趣的置信度，对于交互商品，基于用户对交互商品的偏好值计算置信度；对于用户的未交互商品，根据商品热度计算置信度；

S104，采用改进ALS优化算法对用户和商品进行建模，获得用户-商品模型；

S105，基于用户-商品模型实现针对给定用户的商品推荐。

具体的，用户对交互商品的偏好值的计算过程包括以下步骤：

；

其中，表示该条隐式反馈数据中的用户/>对商品/>的局部偏好值，表示用户对商品的交互行为的量化值，对于浏览行为，/>，对于收藏行为，/>，对于加入购物车行为，/>，对于购买行为，/>；/>表示该条隐式反馈数据的时间权重，/>表示时间衰减系数，/>表示当前时间戳值，/>表示隐式反馈数据发生的时间戳值；

；

其中，表示用于u对商品i的偏好值。

具体的，对于计算出的用户对交互商品的偏好值，还通过设定偏好值阈值并结合隐式反馈数据来过滤假正例，所述隐式反馈数据还包括交互时长和交互频次，所述假正例指用户对其产生过交互但实际并不感兴趣的商品；

所述偏好值阈值设定为：

；

具体的，商品热度表示为：

；

具体的，对于计算出的用户对交互商品的偏好值，还通过计算商品热度来更新用户对商品的偏好值，具体为：

；

其中，表示商品/>的热度值，/>表示热度惩罚系数，取值范围一般为10-50，表示用于u对商品i的偏好值。

具体的，所述根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，包括以下步骤：

；

其中，表示用户和用户间的相似度，和分别表示用户和用户所交互的商品集合，表示用户和用户均产生过交互的商品集合的模，表示用户和用户均交互过的商品集合的模，和分别表示用户和用户对商品的偏好值，和分别表示用户和用户对所交互商品的偏好值的平均值；

对每一位用户，选择相似度最高的用户作为其最近邻用户；

；

其中，表示用户对商品有兴趣或无兴趣的置信度，表示超参数（取值一般为1-4），表示超参数（取值一般为1-4），表示商品的商品热度，表示所有商品热度的平均值，和分别表示用户和用户对商品的偏好值，表示用户和用户间的相似度，和分别表示用户和用户的交互商品集合。

具体的，所述基于最近邻模型计算用户对所有商品的置信度，包括以下步骤：

基于最近邻用户计算每一位用户对部分未交互商品的偏好值，将用户对未交互商品的偏好值定义为0；

；

其中，表示用户/>对商品/>有兴趣或无兴趣的置信度，/>表示置信度系数（取值一般为1-40），/>表示用户/>对商品/>的偏好值；/>表示超参数（取值一般为1-4），/>表示超参数（取值一般为1-4），/>表示商品/>的商品热度，/>表示所有商品热度的平均值。

具体的，参见图2所示，为采用改进ALS优化算法对用户和商品进行建模的流程图，包括以下步骤：

；

其中，表示基于用户特征向量矩阵P和商品特征向量矩阵Q的损失，表示所有用户的集合，/>表示所有商品的集合，/>表示用户/>对商品/>的置信度；表示用户/>对商品/>是否有兴趣，取值为1表示有兴趣，取值为0表示无兴趣；/>和/>分别表示用户/>和商品/>的隐含特征向量，/>表示正则化系数；T表示向量转置；

；

表示基于用户/>的特征向量和商品/>的特征向量产生的损失，表示用户/>对商品/>是否偏好的标识，/>和/>分别表示用户/>和商品/>的隐含特征向量；/>表示损失阈值，/>表示初始损失阈值，表示最大损失阈值，/>表示步长，/>表示迭代次数；/>表示调节负例模型训练的权重；

；

S4，重复S2和S3，直到损失函数收敛或达到最大迭代次数，获得用户-商品模型；

在每一轮迭代中根据当前用户特征向量和当前商品特征向量计算用户对其未交互商品得分值并计算损失，若损失大于阈值，则视这条数据为假负例，并降低这条数据作为负例训练时所占的权重。

具体的，基于用户-商品模型实现针对给定用户的商品推荐，包括以下步骤：

；

其中，表示用户u对商品i的得分；

选取得分最高的前件商品形成推荐列表。

可见，本发明提出的这一种基于隐式反馈的协同过滤算法的优化策略的主要用于对隐式反馈数据进行一个高质量的分析，并提高基于隐式反馈数据的模型训练质量，同时有效缓解数据稀疏性带来的消极影响。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于隐式反馈的协同过滤算法的优化策略，其特征在于，包括以下步骤：

基于用户-商品模型实现针对给定用户的商品推荐；

所述根据用户对交互商品的偏好值以及商品集合对每一个用户建立最近邻模型，包括以下步骤：

；

其中，表示用户/>和用户/>间的相似度，/>和/>分别表示用户/>和用户所交互的商品集合，/>表示用户/>和用户/>均产生过交互的商品集合的模，表示用户/>和用户/>均交互过的商品集合的模，/>和/>分别表示用户/>和用户/>对商品/>的偏好值，/>和/>分别表示用户/>和用户/>对所交互商品的偏好值的平均值；

对每一位用户，选择相似度最高的用户作为其最近邻用户；

；

其中，表示用户/>对商品/>有兴趣或无兴趣的置信度，/>均为超参数，表示商品/>的商品热度，/>表示所有商品热度的平均值，/>和分别表示用户/>和用户/>对商品/>的偏好值，/>表示用户/>和用户/>间的相似度，/>和/>分别表示用户/>和用户/>的交互商品集合；

所述计算用户对所有商品有兴趣或无兴趣的置信度，包括以下步骤：

将用户对未交互商品的偏好值定义为0；

；

其中，表示用户/>对商品/>有兴趣或无兴趣的置信度，/>表示置信度系数，表示用户/>对商品/>的偏好值；/>表示超参数，/>表示超参数，/>表示商品/>的商品热度，/>表示所有商品热度的平均值；

所述采用改进ALS优化算法对用户和商品进行建模，包括以下步骤：

；

其中，表示基于用户特征向量矩阵P和商品特征向量矩阵Q的损失，/>表示所有用户的集合，/>表示所有商品的集合，/>表示用户/>对商品/>的置信度；/>表示用户/>对商品/>是否有兴趣，取值为1表示有兴趣，取值为0表示无兴趣；/>和/>分别表示用户/>和商品/>的隐含特征向量，/>表示正则化系数；T表示向量转置；

；

表示基于用户/>的特征向量和商品/>的特征向量产生的损失，/>表示用户/>对商品/>是否偏好的标识，/>和/>分别表示用户/>和商品/>的隐含特征向量；表示损失阈值，/>表示初始损失阈值，表示最大损失阈值，/>表示步长，/>表示迭代次数；/>表示调节负例模型训练的权重；

；

2.根据权利要求1所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，用户对交互商品的偏好值的计算过程包括以下步骤：

；

其中，表示用于u对商品i的偏好值。

3.根据权利要求2所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，对于表示用户对商品的交互行为的量化值，取值规则为：对于浏览行为，/>；对于收藏行为，/>；对于加入购物车行为，/>；对于购买行为，/>。

4.根据权利要求2所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，对于计算出的用户对交互商品的偏好值，还通过设定偏好值阈值并结合隐式反馈数据来过滤假正例，所述假正例指用户对其产生过交互但实际并不感兴趣的商品；

所述偏好值阈值设定为：

；

所述隐式反馈数据还包括交互时长和交互频次；

；

5.根据权利要求1所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，商品热度表示为：

；

其中，表示商品/>的热度值，/>表示对商品/>存在交互行为的用户集合，/>表示所有用户的集合，/>表示用于u对商品i的偏好值。

6.根据权利要求1所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，对于计算出的用户对交互商品的偏好值，还通过计算商品热度来更新用户对商品的偏好值，具体为：

；

7.根据权利要求1所述的基于隐式反馈的协同过滤算法的优化策略，其特征在于，所述基于用户-商品模型实现针对给定用户的商品推荐，具体为：

；

其中，表示用户/>对商品/>的得分；

选取得分最高的前件商品形成推荐列表。