WO2020073534A1

WO2020073534A1 - 基于重聚类的推送方法、装置、计算机设备及存储介质

Info

Publication number: WO2020073534A1
Application number: PCT/CN2018/125334
Authority: WO
Inventors: 吴壮伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-10-12
Filing date: 2018-12-29
Publication date: 2020-04-16
Also published as: CN109166017A; CN109166017B

Abstract

一种基于重聚类的推送方法、装置、计算机设备（500）及存储介质。该方法通过对用户-评分矩阵中各行向量进行DBSCAN聚类，得到按用户分类的聚类群，及与每一聚类群一一对应的子用户-评分矩阵，获取了在子用户-评分矩阵中选定的行向量作为目标用户，根据目标用户所在的子用户-评分矩阵中获取目标用户的相似用户群评分矩阵，及与相似用户群评分矩阵对应的商品推荐行向量，根据商品推荐行向量得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。

Description

基于重聚类的推送方法、装置、计算机设备及存储介质

本申请要求于2018年10月12日提交中国专利局、申请号为201811191703.1、申请名称为“基于重聚类的推送方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息推送技术领域，尤其涉及一种基于重聚类的推送方法、装置、计算机设备及存储介质。

背景技术

目前，在基于互联网的在线商城上进行网络购物已越来越频繁，这些在线商城对用户进行商品推荐时，通常使用的是基于协同过滤的推荐算法(协同过滤算法，原理是用户喜欢那些具有相似兴趣的用户喜欢过的商品，比如你的朋友喜欢电影哈利波特I，那么就会推荐给你，这是最简单的基于用户的协同过滤算法)。

基于协同过滤的推荐算法常用到用户-评分矩阵，用户-评分矩阵表示用户对项目(项目可以理解为具体的商品)的评分，用户-评分矩阵的横轴为项目，纵轴为用户，当中的值是用户i对项目j的评分。随着商品的数据量越来越大，维护全量的用户-评分矩阵的评分***的成本会越来越高。

发明内容

本申请实施例提供了一种基于重聚类的推送方法、装置、计算机设备及存储介质，旨在解决现有技术中在线商城的全量用户-评分矩阵对应的评分***随着商品数量的增多，越来越臃肿，导致对全量用户-评分矩阵维护困难的问题。

第一方面，本申请实施例提供了一种基于重聚类的推送方法，其包括：

通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；以及

由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。

第二方面，本申请实施例提供了一种基于重聚类的推送装置，其包括：

用户聚类单元，用于通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

聚类判断单元，用于根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

相似用户评分矩阵获取单元，用于在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

商品推荐行向量获取单元，用于根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；

信息推送单元，用于由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于重聚类的推送方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于重聚类的推送方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于重聚类的推送方法的流程示意图；

图2为本申请实施例提供的基于重聚类的推送方法的子流程示意图；

图3为本申请实施例提供的基于重聚类的推送方法的另一子流程示意图；

图4为本申请实施例提供的基于重聚类的推送装置的示意性框图；

图5为本申请实施例提供的基于重聚类的推送装置的子单元示意性框图；

图6为本申请实施例提供的基于重聚类的推送装置的另一子单元示意性框图；

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本申请实施例提供的基于重聚类的推送方法的流程示意图，该基于重聚类的推送方法应用于管理服务器中，该方法通过安装于管理服务器中的应用软件进行执行，管理服务器即是用于进行基于重聚类的推送的企业终端。

如图1所示，该方法包括步骤S110～S150。

S110、通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵。

在本实施例中，用户-评分矩阵表示用户对商品(项目可以理解为具体的商品)的评分，用户-评分矩阵的横轴为项目，纵轴为用户，当中的值是用户i对项目j的评分。例如用户-评分矩阵S为4×5的矩阵，如：

其中，用户-评分矩阵S中第一行的行向量表示用户1分别针对商品1-商品5的评分，第二行的行向量表示用户2分别针对商品1-商品5的评分，第三行的行向量表示用户3分别针对商品1-商品5的评分，第四行的行向量表示用户4分别针对商品1-商品5的评分。

通过DBSCAN聚类模型对用户-评分矩阵中各行向量进行聚类，实现了根据用户对各商品的评分，将相似的用户划分为同一聚类群中，在同一聚类群中各用户对各商品的评分是近似的(也就是对各商品的评分的分差较小)。通过将全量的用户-评分矩阵进行DBSCAN聚类划分为多个子用户-评分矩阵后，只需分别对各子用户-评分矩阵进行维护即可，提高了维护的效率。

在一实施例中，如图2所示，步骤S110包括：

S111、将用户-评分矩阵中任意一个行向量作为初始聚类中心；

S112、根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

S113、将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。

在本实施例中，为了更清楚的理解DBSCAN聚类的详细过程，下面对DBSCAN聚类中所涉及的特征词进行介绍。

eps，表示扫描半径；

minPts，表示最小包含点数；

ξ邻域，表示以给定对象为中心，在给定对象的扫描半径范围内的区域；

核心对象，表示若在给定对象的ξ邻域中所包括的对象个数大于或等于最小包含点数，则称该给定对象为核心对象；

直接密度可达，表示对于样本集合D，如果样本点q在p的ξ邻域内，且p为核心对象，那么对象q从对象p直接密度可达；

密度可达，表示对于样本集合D，给定一串样本点p ₁、p ₂、……、p _n，若p ₁＝q、且p _n＝p，假如对象p _i从p _i-1直接密度可达，那么对象q从对象p密度可达；

密度相连，表示存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相连。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。

DBSCAN需要二个参数：扫描半径(eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点。

如果附近点的数量≥minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展。如果附近点的数量＜minPts，则该点暂时被标记作为噪声点。如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

S120、根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群。

在本实施例中，在多个聚类群中的其中一个聚类群对应的子用户-评分矩阵中，选中一个行向量作为目标向量后，同时会获取该行向量所属的聚类群，这样即可快速判断目标用户的相似用户。

S130、在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵。

在本实施例中，为了判断目标用户所属的聚类群中与目标用户相似的用户，可以获取聚类群中各评分行向量与目标用户的行向量之间的欧式距离，将各欧式距离按降序排序后，获取获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵。如将第一排名阈值设置为11，则获取各欧式距离中排名1-10名的欧式距离对应的评分行向量，以这10个行向量组成相似用户群评分矩阵。获取了目标用户的相似用户之后，即可通过少量被选中的行向量进行计算，无需调用全量的用户-评分矩阵，降低了运行过程中的计算量。

在一实施例中，步骤S130中包括：

获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，按照评分行向量在对应的子用户-评分矩阵中行序号的先后顺序进行排列，得到相似用户群评分矩阵。

在本实施例中，按照各评分行向量在对应的子用户-评分矩阵中各行出现的先后顺序，来依序获取各相似用户的评分行向量，上述方式能精确获取各相似用户对应的评分行向量组成的相似用户群评分矩阵，便于后续计算用户对各商品的综合评分值。

S140、根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量。

在本实施例中，获取了目标用户的相似用户对各商品的评分后，即可针对每一商品计算相似用户对其综合评分值。在综合考虑目标用户与相似用户中各用户之间的欧氏距离，以及相似用户对各商品的评分值，即可运算得到商品推荐行向量，以商品推荐行向量作为商品推荐的依据。

在一实施例中，如图3所示，步骤S140包括：

S141、根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

S142、根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。

在本实施例中，例如由用户-评分矩阵S进行DBSCAN聚类后，得到第一聚类群和第二聚类群，其中第一聚类群包括用户1和用户2的评分行向量，第二聚类群包括用户3和用户4的评分行向量。此时第一聚类群对应的子用户-评分矩阵由用户1和用户2的评分行向量组成，第二聚类群对应的子用户-评分矩阵由用户3和用户4的评分行向量组成。

若选定了用户1作为目标用户，则用户1的评分行向量对应的聚类群为第一聚类群，在第一聚类群中除了包括用户1的评分向量，还包括用户2的评分行向量。此时，相似用户群评分矩阵为[0 4 1 3 2]，相似用户群评分矩阵[0 4 1 3 2]与目标用户的评分行向量[1 3 1 5 2]之间的欧式距离为

将相似用户群欧式距离行向量

与标用户的行向量[1 3 1 5 2]相乘得到

即得到了相似用户群对各商品的综合评分值组成的商品推荐行向量。

当根据与目标用户所属的聚类群中各用户对应的评分行向量和与目标用户的评分行向量的欧氏距离，计算得到商品推荐行向量，在商品推荐行向量中对各商品的评分排位靠前的商品即可作为商品推荐列表的组成元素之一，这样通过商品推荐行向量得到的推荐商品由于充分考虑了近似用户的喜好，故能准确的反映目标用户的喜好。

S150、由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。

在本实施例中，在计算所得到的商品推荐行向量中，即可获知目标用户所属的聚类群中各用户对各商品的综合评分，以该综合评分中评分排名位于第二排名阈值之前(如设置第二排名阈值为4)的评分所对应商品即可作为商品推荐列表的推荐项。

例如，目标用户(用户1)的相似用户(用户2)对应的商品推荐行向量中评分位于前3名的商品分别是商品2、商品4和商品5，此时将上述3件商品作为商品列表推送至目标用户。

通过上述基于欧氏距离的计算，能将相似用户的商品喜好作为对目标用户推荐商品时所考虑的主要因素，能更合理的进行商品推荐。

在一实施例中，步骤S110之前还包括：

获取历史商品信息集合，通过词频-逆文本频率指数模型对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，得到与每一历史商品信息对应的商品关键词集合；

通过Word2Vec模型获取每一商品关键词集合中各商品关键词对应的词向量；

获取每一商品关键词集合中各商品关键词所对应词向量的平均值，以得到与每一商品关键词集合对应的统计向量；

通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，得到至少一个商品聚类簇；

若用户-评分矩阵中包括空白值，根据所述空白值对应的商品名称，以获取与商品名称相应的统计向量；

获取与商品名称相应的统计向量所归属的商品聚类簇；

根据与商品名称相应的统计向量所归属的商品聚类簇，获取与所述空白值对应的商品名称相应的相似商品名称，以作为相似商品结果；

根据所述空白值对应的行向量，获取与所述相似商品结果中每一商品名称对应的评分；

根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，以将空白值更新为对应的商品加权评分。

在本实施例中，管理服务器中所提供的面向用户的UI界面中，用户可以选择多种商品中的一种或多种并进行购买。在管理服务器中是存储有历史商品信息集合，历史商品信息集合中每一历史商品信息包括由商品名称和商品属性，其中商品的属性包括商品的价格、标签、品牌和功能等。

当通过TF-IDF模型(即term frequency-inverse document frequency，表示词频-逆文本频率指数模型)对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，可以将每一历史商品信息简化表述为对应的商品关键词集合。

词频-逆文本频率指数模型是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

例如，有一斯伯丁品牌XX型号YY元的篮球，其还有产地、尺寸等丰富的商品信息，但是经过TF-IDF模型进行关键词抽取后，最后得到的商品关键词集合为“篮球+斯伯丁+XX型号”。这样，将每一历史商品信息均简化为对应的商品关键词集合，能便于转化为词向量。

再将历史商品信息集合转化为与每一历史商品信息对应的商品关键词集合后，可通过Word2Vec模型(Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型)将商品关键词集合转化为与每一历史商品信息一一对应的词向量。

例如在语料库中，篮球、斯伯丁、XX型号各对应一个向量，向量中只有一个值为1，其余都为0，将上述信息对应的向量输入Word2Vec模型即可转化为低维度的连续值，也就是稠密向量，并且其中意思相近的词将被映射到向量空间中相近的位置。

在获取了商品关键词集合中各各商品关键词的词向量，再取各商品关键词的词向量平均值作为该商品的统计向量即可。此时即将历史商品信息集合中每一历史商品信息均转化为对应的统计向量，之后将通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，可得到至少一个商品聚类簇。

由于确定了所述空白值在初始用户-评分矩阵中所归属的行向量后，即可知道是哪一用户针对哪一商品的商品评分是空白值，此时先获取所述空白值对应的商品名称即可知道该商品名称所对应的统计向量。然后判断该统计向量所归属的商品聚类簇，即可获取该商品聚类簇中其他商品的相似商品名称，以作为所述空白值对应的商品名称的相似商品结果。由于所述空白值在初始用户-评分矩阵中所归属的行向量中，可获知该用户针对相似商品结果中各相似商品名称的评分。最后根据该用户针对各相似商品名称的评分进行加权平均，得到所述空白值对应的商品加权评分。

在一实施例中，所述根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，包括：

将所述相似商品结果中每一商品名称对应的统计向量作为统计向量组，将所述空白值对应商品名称相应的统计向量作为待预测商品评分向量，获取所述统计向量组中每一统计向量与待预测商品评分向量之间的距离，以得到向量距离集合；

将所述相似商品结果中每一商品名称对应评分乘以向量距离集合中对应的向量距离并求和，得到商品加权总评分；

将商品加权总评分除以向量距离集合中各向量距离之和，得到所述空白值对应的商品加权评分。

在本实施例中，若将所述统计向量组中每一统计向量与待预测商品评分向量之间的距离记为d _ck，将所述空白值所在行向量对应的用户对所述相似商品结果中每一商品名称对应评分记为S _ic，通过如下公式计算得到所述空白值对应的商品加权评分：

其中，Score _k表示所述空白值对应商品k的商品加权评分，m为所述相似商品结果中相似商品c的总个数。

例如，用户1针对商品2的评分为空白值，而得到商品2对应的相似商品结果为商品4和商品5，且用户1针对商品4和商品5的评分分别为3和4，商品4对应的统计向量与商品2对应的统计向量之间的距离为0.5，商品5对应的统计向量与商品2对应的统计向量之间的距离为1，则：

Score ₂＝(0.5*3+1*4)/(0.5+1)＝11/3；

此时，将上述计算得到的Score2作为所述空白值对应的商品加权评分。

通过对新用户所缺少的商品评分，通过基于内容的预测方法，能有效的补全用户-评分矩阵，避免了推荐过程中冷启动的问题。

该方法实现了将用户-评分矩阵划分为多个子矩阵分别进行维护，降低维护成本，而且能根据子矩阵横精准对目标用户进行商品信息推送。

本申请实施例还提供一种基于重聚类的推送装置，该基于重聚类的推送装置用于执行前述基于重聚类的推送方法的任一实施例。具体地，请参阅图4，图4是本申请实施例提供的基于重聚类的推送装置的示意性框图。该基于重聚类的推送装置100可以配置于管理服务器中。

如图4所示，基于重聚类的推送装置100包括用户聚类单元110、聚类判断单元120、相似用户评分矩阵获取单元130、商品推荐行向量获取单元140、和信息推送单元150。

用户聚类单元110，用于通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵。

在一实施例中，如图5所示，用户聚类单元110包括：

初始中心获取单元111，用于将用户-评分矩阵中任意一个行向量作为初始聚类中心；

初始聚类群获取单元112，用于根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

聚类群调整单元113，用于将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。

聚类判断单元120，用于根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群。

相似用户评分矩阵获取单元130，用于在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵。

商品推荐行向量获取单元140，用于根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量。

在一实施例中，如图6所示，商品推荐行向量获取单元140包括：

欧式距离行向量获取单元141，用于根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

综合评分值计算单元142，用于根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。

信息推送单元150，用于由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。

在一实施例中，基于重聚类的推送装置100，还包括：

历史关键词集合获取单元，用于获取历史商品信息集合，通过词频-逆文本频率指数模型对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，得到与每一历史商品信息对应的商品关键词集合；

词向量转化单元，用于通过Word2Vec模型获取每一商品关键词集合中各商品关键词对应的词向量；

统计向量获取单元，用于获取每一商品关键词集合中各商品关键词所对应词向量的平均值，以得到与每一商品关键词集合对应的统计向量；

商品聚类单元，用于通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，得到至少一个商品聚类簇；

待预测向量获取单元，用于若用户-评分矩阵中包括空白值，根据所述空白值对应的商品名称，以获取与商品名称相应的统计向量；

商品聚类簇归属判断单元，用于获取与商品名称相应的统计向量所归属的商品聚类簇；

相似商品结果获取单元，用于根据与商品名称相应的统计向量所归属的商品聚类簇，获取与所述空白值对应的商品名称相应的相似商品名称，以作为相似商品结果；

相似商品评分获取单元，用于根据所述空白值对应的行向量，获取与所述相似商品结果中每一商品名称对应的评分；

商品加权评分获取单元，用于根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，以将空白值更新为对应的商品加权评分。

在一实施例中，商品加权评分获取单元，包括：

向量距离集合获取单元，用于将所述相似商品结果中每一商品名称对应的统计向量作为统计向量组，将所述空白值对应商品名称相应的统计向量作为待预测商品评分向量，获取所述统计向量组中每一统计向量与待预测商品评分向量之间的距离，以得到向量距离集合；

商品加权总评分获取单元，用于将所述相似商品结果中每一商品名称对应评分乘以向量距离集合中对应的向量距离并求和，得到商品加权总评分；

平均分获取单元，用于将商品加权总评分除以向量距离集合中各向量距离之和，得到所述空白值对应的商品加权评分。

上述基于重聚类的推送装置可以实现为计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。请参阅图7，图7是本申请实施例提供的计算机设备的示意性框图。

参阅图7，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于重聚类的推送方法。该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于重聚类的推送方法。该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例的基于重聚类的推送方法。

本领域技术人员可以理解，图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例的基于重聚类的推送方法。

所述存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于重聚类的推送方法，包括：

通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；以及

由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。
根据权利要求1所述的基于重聚类的推送方法，其中，所述通过DBSCAN聚类对用户-评分矩阵进行聚类，得到至少一个聚类群，包括：

将用户-评分矩阵中任意一个行向量作为初始聚类中心；

根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。
根据权利要求1所述的基于重聚类的推送方法，其中，所述根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量，包括：

根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。
根据权利要求1所述的基于重聚类的推送方法，其中，所述获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵，包括：

获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，按照评分行向量在对应的子用户-评分矩阵中行序号的先后顺序进行排列，得到相似用户群评分矩阵。
根据权利要求1所述的基于重聚类的推送方法，其中，所述通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵之前，还包括：

获取历史商品信息集合，通过词频-逆文本频率指数模型对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，得到与每一历史商品信息对应的商品关键词集合；

通过Word2Vec模型获取每一商品关键词集合中各商品关键词对应的词向量；

获取每一商品关键词集合中各商品关键词所对应词向量的平均值，以得到与每一商品关键词集合对应的统计向量；

通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，得到至少一个商品聚类簇；

若用户-评分矩阵中包括空白值，根据所述空白值对应的商品名称，以获取与商品名称相应的统计向量；

获取与商品名称相应的统计向量所归属的商品聚类簇；

根据与商品名称相应的统计向量所归属的商品聚类簇，获取与所述空白值对应的商品名称相应的相似商品名称，以作为相似商品结果；

根据所述空白值对应的行向量，获取与所述相似商品结果中每一商品名称对应的评分；

根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，以将空白值更新为对应的商品加权评分。
根据权利要求5所述的基于重聚类的推送方法，其中，所述根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，包括：

将所述相似商品结果中每一商品名称对应的统计向量作为统计向量组，将所述空白值对应商品名称相应的统计向量作为待预测商品评分向量，获取所述统计向量组中每一统计向量与待预测商品评分向量之间的距离，以得到向量距离集合；

将所述相似商品结果中每一商品名称对应评分乘以向量距离集合中对应的向量距离并求和，得到商品加权总评分；

将商品加权总评分除以向量距离集合中各向量距离之和，得到所述空白值对应的商品加权评分。
一种基于重聚类的推送装置，包括：

用户聚类单元，用于通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

聚类判断单元，用于根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

相似用户评分矩阵获取单元，用于在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

商品推荐行向量获取单元，用于根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；

信息推送单元，用于由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。
根据权利要求7所述的基于重聚类的推送装置，其中，所述用户聚类单元，包括：

初始中心获取单元，用于将用户-评分矩阵中任意一个行向量作为初始聚类中心；

初始聚类群获取单元，用于根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

聚类群调整单元，用于将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。
根据权利要求7所述的基于重聚类的推送装置，其中，所述商品推荐行向量获取单元，包括：

欧式距离行向量获取单元，用于根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

综合评分值计算单元，用于根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。
根据权利要求7所述的基于重聚类的推送装置，还包括：

历史关键词集合获取单元，用于获取历史商品信息集合，通过词频-逆文本频率指数模型对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，得到与每一历史商品信息对应的商品关键词集合；

词向量转化单元，用于通过Word2Vec模型获取每一商品关键词集合中各商品关键词对应的词向量；

统计向量获取单元，用于获取每一商品关键词集合中各商品关键词所对应词向量的平均值，以得到与每一商品关键词集合对应的统计向量；

商品聚类单元，用于通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，得到至少一个商品聚类簇；

待预测向量获取单元，用于若用户-评分矩阵中包括空白值，根据所述空白值对应的商品名称，以获取与商品名称相应的统计向量；

商品聚类簇归属判断单元，用于获取与商品名称相应的统计向量所归属的商品聚类簇；

相似商品结果获取单元，用于根据与商品名称相应的统计向量所归属的商品聚类簇，获取与所述空白值对应的商品名称相应的相似商品名称，以作为相似商品结果；

相似商品评分获取单元，用于根据所述空白值对应的行向量，获取与所述相似商品结果中每一商品名称对应的评分；

商品加权评分获取单元，用于根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，以将空白值更新为对应的商品加权评分。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；以及

由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。
根据权利要求11所述的计算机设备，其中，所述通过DBSCAN聚类对用户-评分矩阵进行聚类，得到至少一个聚类群，包括：

将用户-评分矩阵中任意一个行向量作为初始聚类中心；

根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。
根据权利要求11所述的计算机设备，其中，所述根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量，包括：

根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。
根据权利要求11所述的计算机设备，其中，所述获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵，包括：

获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，按照评分行向量在对应的子用户-评分矩阵中行序号的先后顺序进行排列，得到相似用户群评分矩阵。
根据权利要求11所述的计算机设备，其中，所述通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵之前，还包括：

获取历史商品信息集合，通过词频-逆文本频率指数模型对所述历史商品信息集合中每一历史商品信息均进行关键词信息抽取，得到与每一历史商品信息对应的商品关键词集合；

通过Word2Vec模型获取每一商品关键词集合中各商品关键词对应的词向量；

获取每一商品关键词集合中各商品关键词所对应词向量的平均值，以得到与每一商品关键词集合对应的统计向量；

通过DBSCAN聚类模型对商品关键词集合对应的统计向量进行聚类，得到至少一个商品聚类簇；

若用户-评分矩阵中包括空白值，根据所述空白值对应的商品名称，以获取与商品名称相应的统计向量；

获取与商品名称相应的统计向量所归属的商品聚类簇；

根据与商品名称相应的统计向量所归属的商品聚类簇，获取与所述空白值对应的商品名称相应的相似商品名称，以作为相似商品结果；

根据所述空白值对应的行向量，获取与所述相似商品结果中每一商品名称对应的评分；

根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，以将空白值更新为对应的商品加权评分。
根据权利要求15所述的计算机设备，其中，所述根据与所述相似商品结果中每一商品名称对应的评分进行加权平均，得到所述空白值对应的商品加权评分，包括：

将所述相似商品结果中每一商品名称对应的统计向量作为统计向量组，将所述空白值对应商品名称相应的统计向量作为待预测商品评分向量，获取所述统计向量组中每一统计向量与待预测商品评分向量之间的距离，以得到向量距离集合；

将所述相似商品结果中每一商品名称对应评分乘以向量距离集合中对应的向量距离并求和，得到商品加权总评分；

将商品加权总评分除以向量距离集合中各向量距离之和，得到所述空白值对应的商品加权评分。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

通过DBSCAN聚类对所获取的用户-评分矩阵进行聚类，得到至少一个聚类群，及与每一聚类群一一对应的子用户-评分矩阵；

根据在子用户-评分矩阵中所选中的行向量对应的目标用户，获取目标用户的行向量对应的聚类群；

在目标用户对应的聚类群中，计算获取各评分行向量与目标用户的行向量之间的欧式距离，获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵；

根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量；以及

由商品推荐行向量中评分排名位于预设的第二排名阈值之前的综合评分值所对应商品以得到商品推荐列表，将所述商品推荐列表推送至目标用户对应的接收端。
根据权利要求17所述的存储介质，其中，所述通过DBSCAN聚类对用户-评分矩阵进行聚类，得到至少一个聚类群，包括：

将用户-评分矩阵中任意一个行向量作为初始聚类中心；

根据预设的最小包含点数，获取与初始聚类中心之间的间距在预设的扫描半径之内的行向量，以作为初始聚类群；

将初始聚类群中每一行向量作为聚类中心，获取用户-评分矩阵中与聚类中心直接密度可达、密度可达或密度相连的行向量，以作为调整后的聚类群。
根据权利要求17所述的存储介质，其中，所述根据相似用户群评分矩阵中各评分行向量，获取相似用户群对各商品的综合评分值，以组成商品推荐行向量，包括：

根据相似用户群评分矩阵中各评分行向量分别与目标用户的行向量之间的欧式距离，以组成相似用户群欧式距离行向量；

根据相似用户群欧式距离行向量与相似用户群评分矩阵相乘得到相似用户群对各商品的综合评分值，以组成商品推荐行向量。
根据权利要求17所述的存储介质，其中，所述获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，以组成相似用户群评分矩阵，包括：

获取各欧式距离中排名位于预设的第一排名阈值之前的欧式距离对应的评分行向量，按照评分行向量在对应的子用户-评分矩阵中行序号的先后顺序进行排列，得到相似用户群评分矩阵。