CN115809374B

CN115809374B - 纠正推荐主流偏差的方法、、设备及存储介质

Info

Publication number: CN115809374B
Application number: CN202310104256.6A
Authority: CN
Inventors: 张海仙; 张宽易; 谢敏; 张懿; 谌祖港; 黄粱可汗; 李欣洋; 尚文一; 尹腾; 杨雨奇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-04-18
Anticipated expiration: 2043-02-13
Also published as: CN115809374A

Abstract

本发明公开了一种纠正推荐***主流偏差的方法、***、设备及存储介质，属于数据推荐领域中的推荐***的主流偏差纠正，其目的在于解决现有技术中存在的因推荐***没有充分考虑到主流偏差所带来的整体推荐准确率下降、推荐公平性较低的技术问题。本申请先进行用户主流分数计算加权，然后再根据加权后的用户交互数据作为模型训练的训练资料，通过这种做法，模型在重构的时候就能考虑用户的主流程度，而不会出现过分推荐流行物品的现象，从而能有效减轻主流偏差对于推荐***的影响，提升推荐***在更广大用户群体上的效果以及实现更高的公平性，提高了推荐***的整体推荐准确率，推荐***的推荐公平性更高。

Description

纠正推荐***主流偏差的方法、***、设备及存储介质

技术领域

本发明人属于数据推荐技术领域，涉及推荐***的主流偏差纠正领域，尤其涉及一种纠正推荐***主流偏差的方法、***、设备及存储介质。

背景技术

随着互联网和信息***规模的扩大，其产生的信息量也呈现***增长的态势，用户从海量信息中检索出自己想要的内容的难度也大大提高。目前，各种各样的网站都会在后台使用推荐***，推荐***根据用户的访问特点，计算出最适合推荐给该用户的候选产品，然后把这些产品展现给用户，供其选择。推荐***作为一种能有效解决信息过载的技术，能够根据不同用户的个性化需求，从海量的内容中过滤出用户最感兴趣的部分，因此其在电子商务、影音娱乐、广告精准投放等领域被广泛应用。协同过滤方法是推荐***的中一种常见的方法，根据目标的不同可以分为基于用户的协同过滤与基于物品的协同过滤。基于用户的协同过滤以用户为中心，其思想是为目标用户推荐其类似用户喜欢的物品；基于物品的协同过滤以物品为中心，其思想是将目标物品的类似物品推荐给喜欢当前物品的用户。然而，由于用户从众效应、平台展示机制、物品质量差异等因素的影响，容易出现很多用户的交互都集中在一小部分物品上的现象。传统的协同过滤方法在训练过程极易学习到这种偏差，从而倾向于推荐那一小部分流行的物品，而大部分物品很难得到被推荐的机会，这使得推荐结果并不能反应用户真正的偏好。这就造成了喜欢追求热点的主流用户收到的推荐效果往往特别好，而其余更广大的用户群体收到的推荐效果则不尽人意，不同用户因为其主流程度的不同导致其收到的推荐效果相差巨大，这就是推荐***中的主流偏差现象。

现有的纠正偏差的方案大多是从物品角度入手，即通过纠正推荐***中物品的流行度偏差来间接降低主流偏差。申请号为CN202110218946.5的发明专利申请就公开了一种纠正推荐***流行度偏差的因果推理方法，其包括：获取当前推荐***中用户与物品的匹配得分；根据物品的受欢迎程度预测物品得分、以及根据用户的偏好预测用户得分；聚合用户与物品的匹配得分、物品得分以及用户得分，预测出用户与物品匹配分数，再去除流行度偏差造成的影响，得到用户与物品的最终匹配分数。该方法是一种模型无关的反事实推理框架，可以适用于各类推荐***，通过消除流行度偏差，提升推荐***的推荐性能，可以为用户提供更加优质，准确的个性化推荐内容。该方法与其他的基于物品的协同过滤方法相同，其主要针对推荐只集中在一小部分流行物品的现象进行改进，通过采用逆倾向性分数加权等方式来降低训练过程中流行物品对模型整体推荐决策的影响，同时赋予那些长尾物品更高的权重，增加长尾物品被推荐的概率。

近年来也有从用户的角度来去除主流偏差的方法，如调整训练过程中不同用户的权重、针对不同喜好的用户群体单独训练模型等，以此来加强模型对特定用户群体偏好的捕捉能力。申请号为CN201911056270.3的发明专利申请就公开了一种提高推荐***多样性的推荐列表重排名方法，其首先采用原有的推荐方法获得推荐列表，然后计算用户的熵值，利用该熵值获得推荐列表的排名阈值，排名阈值结合本方法的重排名核心公式，获得新的推荐列表。该方法与其他的基于用户的协同过滤相同，能够考虑到用户对于推荐列表多样性的不同需求，因此其推荐的物品更加贴合人们的真实感受，也考虑了不同用户对于同一物品的评分偏差，并且在准确性与多样性的平衡上，适当地提高多样性，但对于准确性的影响很小。

纠正推荐***主流偏差的方法确实可以扩大推荐***的推荐范围，使其不在局限于一部分流行物品，而是能照顾到一些长尾物品，这也在一定程度上解决了物品推荐中的公平性问题。但是，这并不意味着这些长尾物品能够被推荐给合适的用户，如果将这些长尾物品推荐给喜欢追求热点的主流用户反而会降低推荐***的准确率。因此，单纯通过纠正流行度偏差的方法并不一定对纠正主流偏差起到正向作用。而目前直接纠正主流偏差的方法也存在一定问题，在训练中降低主流用户的权重很容易导致这部分用户的效果受损，进而使得推荐***的整体准确率下降；针对不同的用户群体单独训练不同的模型的方法也存在问题，用户群体的划分、多个模型训练，整合时的消耗都使得这种方法在实际生产环境中很难实现。此外，现有的纠正主流偏差的方法并没有考虑主流变化这一特性，在现在属于主流的一批用户在过去未必是主流用户，而过去不是主流的一批用户由于追求热点在未来也可能成为主流用户。

发明内容

本发明的目的在于：为了解决现有技术中存在的因推荐***没有充分考虑到主流偏差所带来的整体推荐准确率下降、推荐公平性较低的技术问题，本发明提供一种纠正推荐***主流偏差的方法、***、设备及存储介质。

本发明为了实现上述目的具体采用以下技术方案：

一种纠正推荐***主流偏差的方法，包括如下步骤：

步骤S1，数据收集与处理

获取推荐***中的用户信息、物品信息以及用户物品交互信息，并分别构建用户共现向量、物品共现向量；

步骤S2，主流分数计算

根据物品共现向量计算出物品总交互次数；根据用户共现向量计算出用户总交互次数；根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数；根据用户的动态主流程度分数，计算所有用户的动态主流程度分数的平均值，得到全局动态主流程度分数，并将全部物品类别的全局动态主流程度分数组成全局动态主流程度向量；

步骤S3，动态主流程度特征模型构建

基于三层感知机MLP模型构建动态主流程度特征模型，动态主流程度特征模型的前两层使用ReLU函数作为激活函数，动态主流程度特征模型的最后一层使用softmax激活函数；以用户信息向量和步骤S2输出的全局动态主流程度向量进行拼接后作为动态主流程度特征模型的输入，动态主流程度特征模型输出动态主流特征隐向量；

步骤S4，协同过滤模块构建

构建包括编码器和解码器的协同过滤模块；

编码器采用三层感知机MLP模型进行构建；用户交互数据输入编码器，编码器计算用户交互数据的每个维度，并分别生成个均值与个方差，构成用户的均值向量和方差向量，其中这两个向量均为t维，构成用户的均值向量和方差向量，其中这两个向量均为t维，再通过随机采样来生成h维度的用户交互隐向量；

解码器采用四层感知机MLP模型进行构建，解码器的前三层激活函数为tanh函数，解码器的最后一层激活函数为softmax函数；步骤S3输出的动态主流特征隐向量和编码器输出的用户交互隐向量作为解码器的输入，解码器输出重构用户交互数据以及重构动态主流特征向量，重构动态主流特征向量用于完成解码器的重构；

步骤S5，推荐结果生成

根据步骤S4训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出用户交互隐向量；再将用户交互隐向量与步骤S3输出的动态主流特征隐向量输入解码器，解码器输出重构用户交互数据。

进一步的，步骤S1中，根据用户物品交互信息构建出任意用户与所有物品的用户共现向量，根据用户物品交互信息构建出任意物品与所有物品的物品共现向量；

其中，表示用户总数，表示物品总数，表示物品，表示第个物品，表示用户与物品的交互情况，表示物品与用户的交互情况。

进一步的，步骤S2中，根据物品与物品共现向量，计算出物品总交互次数；

根据用户与用户共现向量，计算出用户总交互次数，；

根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数；在交互次数不敏感的情况下，对于类别为的物品，用户的动态主流程度分数根据公式（1）进行计算；在交互次数敏感的情况下，对于类别为的物品，用户的动态主流程度分数根据公式（2）进行计算；

（1）

（2）

根据用户的动态主流程度分数，计算所有用户的动态主流程度分数的平均值，得到全局动态主流程度分数，计算公式为：

再将全部物品类别的全局动态主流程度分数组成一个维度为的全局动态主流程度向量，表示为：

其中，、均表示时间，表示超参数（用于控制对数曲线），表示物品属于类别，表示用户总数，表示全体用户集合，表示物品类别的总数。

更进一步的，还进行共现向量加权处理，加权处理描述为：将用户对属于类别为的物品的交互情况乘以用户在类别为上的动态主流程度分数；

对于用户共现向量中出现的每一项都进行加权，完成后再对整个用户共现向量使用softmax函数进行归一化，得到用于输入协同过滤模块的用户交互数据：

其中，任一的用户交互数据的取值范围为[0,1]。

进一步的，步骤S3中，用户信息向量表示为：

其中，表示用户的数值化年龄信息，表示用户的二值化性别信息；

动态主流程度特征模型的输入表示为：

；

其中，表示向量拼接操作。

进一步的，步骤S4中，协同过滤模块的损失函数分为重构目标损失、分布近似损失以及动态主流特征向量近似损失三个部分，损失函数的计算公式为：

重构目标损失的计算公式为：

分布近似损失的计算公式为：

动态主流特征向量近似损失的计算公式为：

其中，表示用户交互隐向量，表示用户交互数据，表示每个用户数据样本的后验分布，表示变分分布，变分分布与后验分布近似，表示对的期望，为超参数，是用户交互隐向量的维度，KL表示KL散度，表示先验分布，表示方差向量，表示均值向量的平方，为超参数，表示原始动态主流特征向量，表示重构动态主流特征向量。

一种纠正推荐***主流偏差的***，包括：

数据收集与处理模块，用于获取推荐***中的用户信息、物品信息以及用户物品交互信息，并分别构建用户共现向量、物品共现向量；

主流分数计算模块，用于根据物品共现向量计算出物品总交互次数；根据用户共现向量计算出用户总交互次数；根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数；根据用户的动态主流程度分数，计算所有用户的动态主流程度分数的平均值，得到全局动态主流程度分数，并将全部物品类别的全局动态主流程度分数组成全局动态主流程度向量；

动态主流程度特征模型构建模块，用于基于三层感知机MLP模型构建动态主流程度特征模型，动态主流程度特征模型的前两层使用ReLU函数作为激活函数，动态主流程度特征模型的最后一层使用softmax激活函数；以用户信息向量和主流分数计算模块输出的全局动态主流程度向量进行拼接后作为动态主流程度特征模型的输入，动态主流程度特征模型输出动态主流特征隐向量；

协同过滤模块构建模块，用于构建包括编码器和解码器的协同过滤模块；

编码器采用三层感知机MLP模型进行构建；用户交互数据输入编码器，编码器计算用户交互数据的每个维度，并分别生成个均值与个方差，构成用户的均值向量和方差向量，其中这两个向量均为t维，再通过随机采样来生成h维度的用户交互隐向量；

解码器采用四层感知机MLP模型进行构建，解码器的前三层激活函数为tanh函数，解码器的最后一层激活函数为softmax函数；动态主流程度特征模型构建模块输出的动态主流特征隐向量和编码器输出的用户交互隐向量作为解码器的输入，解码器输出重构用户交互数据以及重构动态主流特征向量，重构动态主流特征向量用于完成解码器的重构；

推荐结果生成模块，用于根据协同过滤模块构建模块训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出用户交互隐向量；再将用户交互隐向量与动态主流程度特征模型构建模块输出的动态主流特征隐向量输入解码器，解码器输出重构用户交互数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

本发明的有益效果如下：

1、本发明中，在进行动态纠正主流偏差的过程中，先进行用户主流分数计算加权，然后再根据加权后的用户交互数据作为模型训练的训练资料，通过这种做法，模型在重构的时候就能考虑用户的主流程度，而不会出现过分推荐流行物品的现象，从而能有效减轻主流偏差对于推荐***的影响，提升推荐***在更广大用户群体上的效果以及实现更高的公平性，提高了推荐***的整体推荐准确率，推荐***的推荐公平性更高。

2、本发明中，构建了基于非对称变分自编码器的协同过滤模块，通过非对称的结构设计以及动态主流特征向量的引入，加强了模型捕捉与利用动态主流特征的能力。

3、本发明中，充分考虑了交互次数敏感与交互次数不敏感两种场景，提出了动态计算用户主流程度分数的方法，并通过加权归一化的过程使其能够作为变分自编码器的输入数据，充分考虑了主流偏差的影响，提高了推荐***的整体推荐准确率，推荐***的推荐公平性更高。

附图说明

图1是本发明的流程示意图；

图2是本发明的详细流程示意图；

图3是本发明协同过滤模块的结构示意图。

具体实施方式

实施例1

本实施例提供一种纠正推荐***主流偏差的方法，其流程示意图如图1所示，其包括数据收集与处理、主流分数计算、动态主流程度特征模型构建、协同过滤模块构建以及推荐结果生成几个步骤。该方法的详细流程示意图如图2所示，具体为：

步骤S1，数据收集与处理

获取推荐***中的用户信息、物品信息以及用户物品交互信息，并分别构建用户共现向量、物品共现向量。

根据用户物品交互信息构建出任意用户与所有物品的用户共现向量，表示用户与物品的交互情况。在交互次数不敏感的场景下（只关注是否有过交互，而不关注交互的次数，如电影推荐、图书推荐等），若产生了显式交互则，否则；在交互次数敏感情况下（关注是否有过交互，还关注交互的次数，如音乐推荐、短视频推荐等），若产生了显式交互则，其中表示用户与物品的交互次数；否则。

根据用户物品交互信息构建出任意物品与所有物品的物品共现向量，表示物品与用户的交互情况。在交互次数敏感的场景下（只关注是否有过交互，而不关注交互的次数，如电影推荐、图书推荐等），若产生了显式交互则，否则。在交互次数敏感情况下（关注是否有过交互，还关注交互的次数，如音乐推荐、短视频推荐等），若产生了显式交互则，其中表示物品与用户的交互次数；否则。

其中，表示用户总数，表示物品总数，表示物品，表示第个物品，表示用户。

数据清洗主要是根据阈值过滤掉部分用户和物品（如过滤掉交互次数小于一定阈值的物品），其目的是为了清除异常数据以保证推荐过程的正常进行。

步骤S2，主流分数计算

该步骤主要是进行用户和全局主流程度的量化，便于步骤S3中生成动态主流程度特征向量。由于主流程度的概念同时涉及到个体用户与全体用户，因此这里可以分别计算个体用户和全局的主流程度分数。

根据物品与物品共现向量，可以计算出物品的总交互次数。由于主流程度是一个动态变化的概念，因此这里可以根据时间对物品交互次数进行过滤，如只考虑发生时间段内的交互，则只考虑发布日期在之前的物品，其物品总交互次数为，其中任意物品交互次数只考虑在该时间段内的数据。

根据用户与用户共现向量，可以计算出用户的总交互次数。由于主流程度是一个动态变化的概念，因此这里可以根据时间对用户交互次数进行过滤，如只考虑发生时间段内的交互，则用户总交互次数为：，其中任意只考虑在该时间段内的交互数据，发布日期在之后的物品交互数据均设为0。

根据协同过滤的思想，用户的主流程度取决于其交互物品是否被其它用户也交互过。同时考虑到用户对不同类别的物品喜好程度不一致，因此在用户主流程度分数的计算过程中还应该考虑到物品类别因素的影响。根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数。在交互次数不敏感的情况下，对于类别为的物品，用户的动态主流程度分数根据公式（1）进行计算；在交互次数敏感的情况下，对于类别为的物品，用户的动态主流程度分数根据公式（2）进行计算；

（1）

（2）

其中，将时间段内，用户有过交互的所有物品与所有用户的交互次数相加。由于现实世界物品的交互记录存在幂律分布的现象（即小部分物品占据了大部分交互，而大部分物品则没有什么交互），因此使用对数函数对每个物品与其它用户的总交互次数进行抑制，底数为超参数。在交互次数不敏感的情况下，用户的动态主流分数以对每一项交互记录赋予相同的权重。在交互次数敏感的情况下，用户的动态主流分数以对每一项交互记录赋予不同的权重，表示用户与物品的交互次数，这表示用户交互次数越多的物品占用户主流程度分数评估中的权重就越大。

根据用户的动态主流程度分数，对于类别为的物品，全局动态主流程度分数为所有用户的动态主流程度分数的平均值，所以，全局动态主流程度分数的计算公式为：

接下来根据得到的用户的主流程度分数对用户的共现向量进行加权，也即将用户的主流信息引入其共现向量中。加权处理描述为：将用户对属于类别为的物品的交互情况乘以用户在类别为上的动态主流程度分数；

其中，任一的用户交互数据的取值范围为[0,1]。

此处得到的用户交互数据也是作为后面协同过滤模块的编码器的输入。

步骤S3，动态主流程度特征模型构建

根据步骤 (2) 可计算得到，在时间段任意用户关于任意类别物品集合的主流程度分数。对于任意用户，计算其关于所有类别物品集合的主流程度分数，这些主流程度分数可以构成一个维的向量，记作，该向量可以表征用户在所有物品类别上的主流程度，在某物品类别上的主流程度分数越大代表用户在该类别越倾向于偏好流行物品，越小则代表用户在该类别越倾向于小众物品。

为了使得步骤S4中的协同过滤模型能够充分利用用户信息和全局信息，需要得到基于用户信息和全局信息的动态主流特征表达。因此这里构建动态主流程度特征模型。基于三层感知机MLP模型来构建动态主流程度特征模型，用于提取用户信息和全局信息中的关键特征，并且将原始输入降为更低维度的隐向量。其中，动态主流程度特征模型的前两层使用ReLU函数作为激活函数，动态主流程度特征模型的最后一层使用softmax激活函数。以用户信息向量和步骤S2输出的全局动态主流程度向量进行拼接后作为动态主流程度特征模型的输入。

该用户信息向量表示为：

该动态主流程度特征模型的输入表示为：

；

其中，表示向量拼接操作

输入经过动态主流程度特征模型的三层感知机降维后输出动态主流特征隐向量。

步骤S4，协同过滤模块构建

采用非对称变分自编码器（VAE）作为协同过滤模型的主体结构，其结构如图3所示。采用非对称的变分自编码器进行协同过滤，其目的是在编码器和解码器中间的隐层加入额外的动态主流程度信息，使得解码器在解码的时候能够直接利用用户的个人信息以及全局的主流程度。

该协同过滤模块包括编码器和解码器；

编码器采用三层感知机MLP模型进行构建。用户交互数据输入编码器，编码器计算用户交互数据的每个维度，并分别生成个均值与个方差，构成用户的均值向量和方差向量，其中这两个向量均为t维，再通过随机采样来生成h维度的用户交互隐向量，。由于随机采样的方法导致网络无法进行反向传播，因此这里采用重参数化方法来完成采样过程。

解码器采用四层感知机MLP模型进行构建，解码器的前三层激活函数为tanh函数，解码器的最后一层激活函数为softmax函数，用于产生概率分布。步骤S3输出的动态主流特征隐向量和编码器输出的用户交互隐向量作为解码器的输入，解码器输出重构用户交互数据以及重构动态主流特征向量，重构动态主流特征向量用于完成解码器的重构。

变分自动编码器推理过程如下，假设用户对应的用户交互隐向量服从的正态分布。根据推荐***交互数据特性，假设输入编码器的用户交互数据服从概率为的多项式分布，其似然函数如下：

其中，表示由用户交互隐向量决定的与第个物品交互的概率

为了使得网络能够通过反向传播学习参数，必须求得关于每个用户数据样本的后验分布，而这个后验分布不易求得，因此这里采用变分推断的方式使用变分分布来近似。假设满足高斯分布，其中为方差向量的对角协方差阵。那么此时网络的优化目标就是优化参数生成均值向量和方差向量使得变分分布与后验分布尽可能相似。

其中重参数化方法操作如下，假设噪声服从正态分布，用户交互隐向量可以由方差向量、均值向量和噪声线性组合得到，从而使得网络可以进行学习。重参数化公式如下：

其中，为标准差；

与标准的变分自编码器网络不同的是，这里使用了非对称的结构，在得到用户交互隐向量之后，将步骤S3 中产生的输入拼接在上再送入解码器中。解码器的生成部分可以分为重构用户交互数据以及重构动态主流特征向量。

综上，基于非对称变分自编码器的协同过滤模型的损失函数分为重构目标损失、分布近似损失以及动态主流特征向量近似损失三个部分，损失函数的计算公式为：

重构目标损失的目的是使得解码器输出的重构的用户交互数据与输入编码器的用户交互数据尽可能相同，计算公式为：

分布近似损失的目的是使得变分分布尽可能近似后验分布，用于度量两个分布的近似程度，其计算公式为：

为了将原始动态主流特征向量与重构动态主流特征向量的余弦相似度作为目标函数，其负数作为损失项，其目的是使得重构动态主流特征向量在方向上与原始动态主流特征向量尽可能相近，通过动态主流特征向量近似损失，能够使得解码器尽可能利用动态主流特征完成重构的过程。动态主流特征向量近似损失的计算公式为：

其中，表示用户交互隐向量，表示用户交互数据，表示每个用户数据样本的后验分布，表示变分分布，变分分布与后验分布近似，表示对的期望，为超参数，用于控制分布相似程度对整体目标函数的惩罚力度，是用户交互隐向量的维度，KL表示KL散度，表示先验分布，表示方差向量，表示均值向量的平方，为超参数，表示原始动态主流特征向量，表示重构动态主流特征向量。

步骤S5，推荐结果生成

根据步骤S4训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出均值向量和方差向量，再由公式计算得到用户交互隐向量；再将用户交互隐向量与步骤S3输出的动态主流特征隐向量输入解码器，解码器输出重构后的用户交互数据，其维度为n维，与所有物品的数量相同，每一个维度的值都在[0,1]之间。

针对得到的重构后的用户交互数据，首先，剔除不符合时间要求的物品，若只考虑及之前的时间段，则任何发布时间在之后的物品序号所在的维度的值都置为0。其次，剔除已经在历史数据中出现过的物品，将当前观测到的交互情况值非0的维度序号记下，将重构后的用户交互数据的这些维度也置为0。最后，对重构后的用户交互数据从大到小进行排序，其中top-N大的维度序号即为待预测用户的前N项物品推荐列表。

实施例2

本实施例提供一种纠正推荐***主流偏差的***，其包括数据收集与处理模块、主流分数计算模块、动态主流程度特征模型构建模块、协同过滤模块构建模块以及推荐结果生成模块，每个模块的具体内容为：

数据收集与处理模块，用于获取推荐***中的用户信息、物品信息以及用户物品交互信息，并分别构建用户共现向量、物品共现向量。

主流分数计算模块，主要是进行用户和全局主流程度的量化，便于动态主流程度特征模型构建模块中生成动态主流程度特征向量。由于主流程度的概念同时涉及到个体用户与全体用户，因此这里可以分别计算个体用户和全局的主流程度分数。

（1）

（2）

其中，任一的用户交互数据的取值范围为[0,1]。

动态主流程度特征模型构建模块，用于构建动态主流程度特征模型。

根据主流分数计算模块可计算得到，在时间段任意用户关于任意类别物品集合的主流程度分数。对于任意用户，计算其关于所有类别物品集合的主流程度分数，这些主流程度分数可以构成一个维的向量，记作，该向量可以表征用户在所有物品类别上的主流程度，在某物品类别上的主流程度分数越大代表用户在该类别越倾向于偏好流行物品，越小则代表用户在该类别越倾向于小众物品。

为了使得协同过滤模块构建模块的协同过滤模型能够充分利用用户信息和全局信息，需要得到基于用户信息和全局信息的动态主流特征表达。因此这里构建动态主流程度特征模型。基于三层感知机MLP模型来构建动态主流程度特征模型，用于提取用户信息和全局信息中的关键特征，并且将原始输入降为更低维度的隐向量。其中，动态主流程度特征模型的前两层使用ReLU函数作为激活函数，动态主流程度特征模型的最后一层使用softmax激活函数。以用户信息向量和主流分数计算模块输出的全局动态主流程度向量进行拼接后作为动态主流程度特征模型的输入。

该用户信息向量表示为：

该动态主流程度特征模型的输入表示为：

；

其中，表示向量拼接操作

协同过滤模块构建模块，用于构建协同过滤模块，其采用非对称变分自编码器（VAE）作为协同过滤模型的主体结构，其结构如图3所示。采用非对称的变分自编码器进行协同过滤，其目的是在编码器和解码器中间的隐层加入额外的动态主流程度信息，使得解码器在解码的时候能够直接利用用户的个人信息以及全局的主流程度。

该协同过滤模块包括编码器和解码器；

解码器采用四层感知机MLP模型进行构建，解码器的前三层激活函数为tanh函数，解码器的最后一层激活函数为softmax函数，用于产生概率分布。动态主流程度特征模型构建模块输出的动态主流特征隐向量和编码器输出的用户交互隐向量作为解码器的输入，解码器输出重构用户交互数据以及重构动态主流特征向量，重构动态主流特征向量用于完成解码器的重构。

其中，表示由用户交互隐向量决定的与第个物品交互的概率；

其中，为标准差；

与标准的变分自编码器网络不同的是，这里使用了非对称的结构，在得到用户交互隐向量之后，将动态主流程度特征模型构建模块中产生的输入拼接在上再送入解码器中。解码器的生成部分可以分为重构用户交互数据以及重构动态主流特征向量。

推荐结果生成模块，用于根据协同过滤模块构建模块训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出均值向量和方差向量，再由公式计算得到用户交互隐向量；再将用户交互隐向量与动态主流程度特征模型构建模块输出的动态主流特征隐向量输入解码器，解码器输出重构后的用户交互数据，其维度为n维，与所有物品的数量相同，每一个维度的值都在[0,1]之间。

实施例3

本实施例提供一种计算机设备，其包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述纠正推荐***主流偏差的方法的步骤。

其中，所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器常用于存储安装于所述计算机设备的操作***和各类应用软件，例如所述纠正推荐***主流偏差的方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述纠正推荐***主流偏差的方法的程序代码。

实施例4

本实施例提供一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述纠正推荐***主流偏差的方法的步骤。

其中，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的纠正推荐***主流偏差的方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器或者网络设备等)执行本申请实施例所述纠正推荐***主流偏差的方法。

Claims

1.一种纠正推荐***主流偏差的方法，其特征在于，包括如下步骤：

步骤S1，数据收集与处理

步骤S2，主流分数计算

在[t1,t2]时间段内，根据物品共现向量计算出物品总交互次数；根据用户共现向量计算出用户总交互次数；根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数；根据用户的动态主流程度分数，计算所有用户的动态主流程度分数的平均值，得到全局动态主流程度分数，并将全部物品类别的全局动态主流程度分数组成全局动态主流程度向量；

还进行共现向量加权处理，加权处理描述为：将用户对属于类别为的物品的交互情况乘以用户在类别为上的动态主流程度分数；

其中，任一的用户交互数据的取值范围为[0,1]；

步骤S3，动态主流程度特征模型构建

步骤S4，协同过滤模块构建

构建包括编码器和解码器的协同过滤模块；

步骤S5，推荐结果生成

根据步骤S4训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出用户交互隐向量；再将用户交互隐向量与步骤S3输出的动态主流特征隐向量输入解码器，解码器输出重构用户交互数据；

步骤S1中，根据用户物品交互信息构建出任意用户与所有物品的用户共现向量，根据用户物品交互信息构建出任意物品与所有物品的物品共现向量；

2.如权利要求1所述的一种纠正推荐***主流偏差的方法，其特征在于：步骤S2中，根据物品与物品共现向量，计算出物品总交互次数；

根据用户与用户共现向量，计算出用户总交互次数，；

（1）

（2）

其中，、均表示时间，表示超参数，表示物品属于类别，表示用户总数，表示全体用户集合，表示物品类别的总数。

3.如权利要求1所述的一种纠正推荐***主流偏差的方法，其特征在于：步骤S3中，用户信息向量表示为：

动态主流程度特征模型的输入表示为：

；

其中，表示向量拼接操作。

4.如权利要求1所述的一种纠正推荐***主流偏差的方法，其特征在于：步骤S4中，协同过滤模块的损失函数分为重构目标损失、分布近似损失以及动态主流特征向量近似损失三个部分，损失函数的计算公式为：

重构目标损失的计算公式为：

分布近似损失的计算公式为：

动态主流特征向量近似损失的计算公式为：

5.一种纠正推荐***主流偏差的***，其特征在于，包括：

主流分数计算模块，用于在[t1,t2]时间段内，根据物品共现向量计算出物品总交互次数；根据用户共现向量计算出用户总交互次数；根据物品总交互次数、用户总交互次数、物品类别，计算用户的动态主流程度分数；根据用户的动态主流程度分数，计算所有用户的动态主流程度分数的平均值，得到全局动态主流程度分数，并将全部物品类别的全局动态主流程度分数组成全局动态主流程度向量；

其中，任一的用户交互数据的取值范围为[0,1]；

推荐结果生成模块，用于根据协同过滤模块构建模块训练完成得到的协同过滤模块，输入待预测用户当前观测到的用户交互数据，编码器输出用户交互隐向量；再将用户交互隐向量与动态主流程度特征模型构建模块输出的动态主流特征隐向量输入解码器，解码器输出重构用户交互数据；

数据收集与处理模块中，根据用户物品交互信息构建出任意用户与所有物品的用户共现向量，根据用户物品交互信息构建出任意物品与所有物品的物品共现向量；

6.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其特征在于：存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。