CN112348123A

CN112348123A - 一种用户聚类的方法、装置及电子设备

Info

Publication number: CN112348123A
Application number: CN202011420582.0A
Authority: CN
Inventors: 陈程; 王贺; 石奕
Original assignee: Wuhan Zhuoer Digital Media Technology Co ltd
Current assignee: Wuhan Zhuoer Digital Media Technology Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-09

Abstract

本发明提供了一种用户聚类的方法、装置及电子设备，其中，该方法包括：获取与目标用户相关的目标标签向量，并根据目标标签向量生成目标用户的用户向量；根据第一阈值对多个目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量；确定噪声向量与每个用户簇之间的相对距离，在噪声向量对应的最小相对距离小于第二阈值时，将噪声向量添加至最小相对距离对应的用户簇中。通过本发明实施例提供的用户聚类的方法、装置及电子设备，不需要特意为用户添加标签，可以减少处理量；即使在社会化标注存在较多噪声点的情况下，也能够减少噪声点的数量，降低噪声点的影响，并将部分甚至全部的噪声点归簇以方便后续聚类分析，能够提高聚类效果。

Description

一种用户聚类的方法、装置及电子设备

技术领域

本发明涉及聚类处理技术领域，具体而言，涉及一种用户聚类的方法、装置、电子设备及计算机可读存储介质。

背景技术

社会化标注是指用户为资源添加标签的行为，又可称为协同标注、大众分类等，是目前常用的信息组织方式之一。社会化标注允许用户自由地为资源添加标签，用户可以使用自然语言，按照自己的偏好来对资源进行标注，这种标注方式使得标签具有社会性，能够反映用户的特征，因此标签也称为社会化标签。

而由于社会化标注是利用社会上的网民进行标注的，这就导致标注的标签质量不高，容易存在很多错误数据点；且社会化标签使用量的分布规律符合“幂函数”的特征，在社会化标签的数据空间中，每个类别的标注数量会有很大差异，数据点的分布可能存在非常不规则的现象，导致存在大量的“孤立点”。

目前进行用户聚类时，往往采用k-means算法、层次聚类算法、图形聚类法等划分法和层次法，目前的用户聚类方法只能发现球状的聚类，且对噪声数据特别敏感，基于社会化标签进行聚类时的效果较差。

发明内容

为解决现有用户聚类对噪声敏感的技术问题，本发明实施例提供一种用户聚类的方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种用户聚类的方法，包括：

获取与目标用户相关的目标标签向量，并根据所述目标标签向量生成所述目标用户的用户向量，所述目标标签向量为基于社会化标注生成的标签向量；

设置第一阈值，根据所述第一阈值对多个所述目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量，所述噪声向量为不属于任何用户簇的用户向量；

设置大于所述第一阈值的第二阈值，确定每个所述用户簇的关键向量Ci，i=1,2,3,…,n，n为所述用户簇的数量；

分别计算所述噪声向量Nj与所述用户簇的关键向量Ci之间的相对距离

，并确定所述噪声向量Nj对应的最小相对距离

；其中，j=1,2,3,…,m，m为所述噪声向量的数量；

在所述最小相对距离

小于第二阈值t₂时，将所述噪声向量Nj添加至所述最小相对距离

对应的用户簇中。

第二方面，本发明实施例还提供了一种用户聚类的装置，包括：

向量生成模块，用于获取与目标用户相关的目标标签向量，并根据所述目标标签向量生成所述目标用户的用户向量，所述目标标签向量为基于社会化标注生成的标签向量；

聚类模块，用于设置第一阈值，根据所述第一阈值对多个所述目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量，所述噪声向量为不属于任何用户簇的用户向量；

去噪模块，用于设置大于所述第一阈值的第二阈值，确定每个所述用户簇的关键向量Ci，i=1,2,3,…,n，n为所述用户簇的数量；

，并确定所述噪声向量Nj对应的最小相对距离

；其中，j=1,2,3,…,m，m为所述噪声向量的数量；

在所述最小相对距离

对应的用户簇中。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的用户聚类的方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的用户聚类的方法中的步骤。

本发明实施例提供的用户聚类的方法、装置、电子设备及计算机可读存储介质，基于社会化标注生成的标签向量具有海量的特点，根据该标签向量生成用户向量，不需要特意为用户添加标签，可以减少处理量；通过设置两个阈值分别进行聚类处理和二次补偿处理，即使在社会化标注存在较多噪声点的情况下，也能够适当地减少噪声点的数量，可以降低噪声点的影响，并将部分甚至全部的噪声点归簇以方便后续聚类分析，能够提高聚类效果。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种用户聚类的方法的流程图；

图2示出了本发明实施例所提供的一种用户聚类的装置的结构示意图；

图3示出了本发明实施例所提供的一种用于执行用户聚类的方法的电子设备的结构示意图。

具体实施方式

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件（包括固件、驻留软件、微代码等）、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的***、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM）、闪存（Flash Memory）、光纤、光盘只读存储器（CD-ROM）、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行***、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频（Radio Frequency，RF）或者以上任意合适的组合。

可以以汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网（LAN）或广域网（WAN），可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种用户聚类的方法的流程图。如图1所示，该方法包括：

步骤101：获取与目标用户相关的目标标签向量，并根据目标标签向量生成目标用户的用户向量，目标标签向量为基于社会化标注生成的标签向量。

本发明实施例中，目标用户为需要进行聚类分析的用户，其数量为多个，对于每个目标用户，均可以按照上述步骤101的方式来确定相应的用户向量。具体地，目标用户和/或其他网友等可以以社会化标注的方式为资源等标注相应的标签，目标用户浏览或关注该资源，则可将资源的标签作为与目标用户相关的标签；例如，某电影的标签为“动漫”、“喜剧”，用户A多次观看该电影，则“动漫”、“喜剧”是与该用户A相关的标签。

在确定与目标用户相关的标签之后，即可将该标签转换为向量形式，即标签向量，本实施例中将目标用户的标签向量成为目标标签向量；由于目标用户一般对应多个标签，则目标标签向量的数量也为多个，基于多个目标标签向量可以综合生成一个向量，即用户向量。其中，可以将多个目标标签向量的平均值作为用户向量，或者将多个目标标签向量拼接形成用户向量。由于用户本身不具有标签，传统确定用户向量的过程需要主动为每个待聚类的目标用户添加标签，工作量较大；本实施例中基于社会化标注形成的标签，该标签是已经存在的，通过已经存在的标签与目标用户之间的关联关系可以方便快速地确定目标用户的标签，不需要特意为用户添加标签，从而可以减少处理量。

可选地，本实施例中通过用户关注的资源来确定与用户相关的标签。具体地，上述步骤101中“根据目标标签向量生成目标用户的用户向量”具体包括：

步骤A1：确定每个目标标签向量所属的资源类别，根据每个资源类别内的目标标签向量生成相应的目标资源向量。

步骤A2：根据目标资源向量生成目标用户的用户向量。

本发明实施例中，社会化标注方式难以直接对用户标注标签，本实施例中将资源作为中间媒介，基于标签向量来确定用户向量。具体地，可以从网络上提取与目标用户相关的用户信息，该用户信息可以表示该目标用户在网络上的行为涉及哪些资源（如电影、音乐、网址、购物等），例如目标用户观看了某个电影a；同时，网民基于社会化标注的方式可以对网络上的资源进行标注，从而为资源标注相应的标签，此时用户信息中所涉及的资源所被标注的标签即为与目标用户相关的标签，且每个标签属于相应的资源类别；相应的，目标标签向量也属于相应的资源类别。本实施例中，以资源类别为单位对目标标签向量进行分类，每一资源类别内的目标标签向量可以生成相应资源的向量，即目标资源向量；之后基于一个或多个目标资源向量即可生成该目标用户的用户向量。其中，由目标标签向量生成目标资源向量的过程、以及由目标资源向量生成用户向量的过程，均可采用平均或拼接的方式，本实施例对此不做限定。

步骤102：设置第一阈值，根据第一阈值对多个目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量，噪声向量为不属于任何用户簇的用户向量。

本发明实施例中，对多个目标用户的用户向量进行聚类处理，即可形成相应的用户簇，用户簇内包含多个用户向量，而没有被归入任何用户簇的用户向量称为噪声向量。本实施例中预先设置一个阈值，即第一阈值，将该第一阈值作为约束条件进行聚类处理。具体地，用户簇内的用户向量至少与相同用户簇内其他的p个用户向量之间的距离小于该第一阈值，p一般取值为1；即，若某个用户向量可以归为一个用户簇，则该用户向量必须与该用户簇内至少p个用户向量之间的距离小于该第一阈值，否则该用户向量不能被归为该用户簇。其中，两个用户向量之间的距离具有广义的含义，该距离可以为欧氏距离，也可以为两个用户向量之间的相似度，如余弦相似度等。

可选地，上述步骤102“根据第一阈值对多个目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量”具体可通过双层循环的方式实现聚类处理，该聚类处理的过程具体包括：

步骤B1：将处于未处理状态的一个用户向量作为待处理用户向量，并执行用户向量处理过程；用户向量的初始状态均为未处理状态。

本发明实施例中，需要进行聚类处理的用户向量有多个，则在聚类处理之前，所有的用户向量均为未处理状态，即初始状态为未处理状态。当需要进行聚类处理时，选取其中的一个位于未处理状态的用户向量当做下一步需要执行聚类处理的用户向量，即待处理用户向量。为方便说明，假设需要聚类处理的用户向量包括用户向量a、b、c、d、e、f，则可以从中选取一个用户向量作为待处理用户向量，如将用户向量a作为待处理用户向量，之后即可执行用户向量处理过程；本实施例中，该用户向量处理过程为可循环执行的过程，其为一层循环操作。具体地，该“用户向量处理过程”包括：

步骤B11：确定待处理用户向量与其他的未入簇用户向量之间的距离，未入簇用户向量为未被归为用户簇的用户向量。

本发明实施例中，用户向量对应有多种状态：未处理状态、待定状态和处理状态。用户向量的初始状态为未处理状态，其没有入簇；用户向量经过“用户向量处理过程”后还没有入簇，则为待定状态；若用户向量经过“用户向量处理过程”后入簇，则其为处理状态。故本实施例中，处于未处理状态或待定状态的用户向量均是未入簇用户向量。仍然以上述将用户向量a作为待处理用户向量为例，在第一轮的用户向量处理过程中，其他的用户向量b、c、d、e、f均为未处理状态，均是未入簇用户向量，此时需要计算用户向量a分别与用户向量b、c、d、e、f之间的距离。

步骤B12：若待处理用户向量与k个未入簇用户向量之间的距离小于第一阈值，且k小于预设数值，则将待处理用户向量更新为待定状态，并结束当前的用户向量处理过程。

本发明实施例中，在确定待处理用户向量与每个未入簇用户向量之间的距离之后，若存在数量较少（即小于预设数值）的未入簇用户向量与该待处理用户向量之间的距离小于第一阈值，则说明该待处理用户向量只与少量的其他用户向量之间的距离较近，说明该待处理用户向量周围的用户向量数量较少，用户向量的密度较小，不适合生成用户簇。其中，若k为0，也可以直接将该待处理用户向量作为噪声向量，其状态也更新为处理状态。继续以上述的例子进行说明，假设预设数值为3，若用户向量a只与用户向量c之间的距离小于第一阈值，则k=1，此时用户向量a不能生成用户簇，而是将该用户向量a从未处理状态更新为待定状态，并结束当前轮的用户向量处理过程。相反地，若用户向量a与用户向量b、c、f之间的距离小于第一阈值，则k=3，即k不小于预设阈值3，此时执行步骤B13。

此外，本领域技术人员可以理解，k并不是预先设置的一个值，其只是用于描述客观事实，k值的大小会根据实际情况而发生变化；例如，若待处理用户向量与10个未入簇用户向量之间的距离小于第一阈值，则k=10，但其含义并不是需要预先设置k=10，以限定待处理用户向量需要与10个未入簇用户向量之间的距离小于第一阈值。

步骤B13：若待处理用户向量与k个未入簇用户向量之间的距离小于第一阈值，且k不小于预设数值，则建立包含待处理用户向量和k个未入簇用户向量的当前用户簇，将待处理用户向量更新为处理状态；将当前用户簇中处于未处理状态或待定状态的用户向量作为指定用户向量，重复执行添加用户向量的过程，直至当前用户簇中的用户向量均为处理状态。

本发明实施例中，若待处理用户向量与较多的未入簇用户向量之间的距离较近，即k不小于预设阈值，此时待处理用户向量周围的用户向量数量较多，用户向量的密度足够大，此时可以生成用户簇，即当前用户簇，且该待处理用户向量、以及与该待处理用户向量之间的距离小于第一阈值的k个未入簇用户向量均归为该当前用户簇，同时把待处理用户向量从未处理状态更新为处理状态。继续以上述的例子进行说明，若预设数值为3，用户向量a与用户向量b、c、f之间的距离小于第一阈值，则待处理用户向量（即用户向量a）和k个未入簇用户向量（即用户向量b、c、f）形成当前用户簇，且用户向量a更新为处理状态，而用户向量b、c、d、e、f仍然为未处理状态。

之后，当前用户簇中存在多个用户向量，且执行过步骤B12而更新为待定状态的用户向量，其未被归入任何用户簇中，故其也可能被加入到当前用户簇中，故当前用户簇中的用户向量可能是处理状态，也可能是未处理状态或待定状态。本实施例中把其中不是处理状态（即是未处理状态或待定状态）的用户向量作为指定用户向量，来执行第二层的循环处理过程，即执行添加用户向量的过程。本实施例中，上述“添加用户向量的过程”包括：

步骤B131：将与指定用户向量之间的距离小于第一阈值的其他用户向量添加至当前用户簇，并将指定用户向量更新为处理状态。

本发明实施例中，当前用户簇内的每个不是处理状态的用户向量均可以作为指定用户向量来执行上述步骤B131，以确定该指定用户向量附近是否有可以加入到同一当前用户簇的其他用户向量，若有，则将附近的其他用户向量加入到当前用户簇即可，即将与指定用户向量之间的距离小于第一阈值的其他用户向量添加至当前用户簇，之后该指定用户向向量即可更新为处理状态，且“添加用户向量的过程”结束，之后再将当前用户簇内另一个不是处理状态的用户向量作为指定用户向量，重复执行上述步骤B131，直至当前用户簇中的所有用户向量均为处理状态。若当前用户簇中的所有用户向量均为处理状态，说明其中的所有用户向量均执行过用户向量处理过程或添加用户向量的过程，且没有新的用户向量加入该当前用户簇（若有新的用户向量加入，则新的用户向量不是处理状态，新的用户向量需要执行添加用户向量的过程），当前用户簇定型，当前轮的“用户向量处理过程”结束。继续以上述的例子进行说明，在生成包含用户向量a、b、c、f的当前用户簇之后，用户向量b、c、f均可以作为指定用户向量来执行步骤B131；之后假设只有用户向量d与用户向量c之间的距离小于第一阈值，其余用户向量与用户向量b或f之间的距离均大于第一阈值，则此时只是将用户向量d作为新的用户向量添加至当前用户簇，之后再对用户向量d执行步骤B131，若用户向量d附近没有其他新的用户向量，则当前轮的用户向量处理过程结束，此时的当前用户簇包括用户向量a、b、c、d、f，且每个用户向量均为处理状态。

步骤B2：在用户向量处理过程结束之后，将处于未处理状态的另一个用户向量作为新的待处理用户向量，重复执行用户向量处理过程，直至所有的用户向量均被处理，之后将未被归为用户簇的用户向量作为噪声向量。

本发明实施例中，在一轮用户向量处理过程结束之后，部分用户向量更新为处理状态或待定状态，之后再把处于未处理状态的用户向量作为待处理用户向量，重复执行用户向量处理过程，即重复执行步骤B1，若所有的用户向量均被处理，即所有的用户向量为处理状态或待定状态，此时处于待定状态的用户向量均是未被归为用户簇的用户向量，该类用户向量即为噪声向量。

步骤103：设置大于第一阈值的第二阈值，确定噪声向量与每个用户簇之间的相对距离，在噪声向量对应的最小相对距离小于第二阈值时，将噪声向量添加至最小相对距离对应的用户簇中。

本发明实施例中，在步骤102进行初步聚类处理之后，通过额外设置的第二阈值对噪声向量进行二次的补偿处理；本实施例中，每个噪声向量对应一个噪声点，通过对噪声向量进行二次处理，可以把部分甚至全部噪声向量添加到最合适的用户簇中，不仅可以对部分噪声点进行聚类分析，还可以适当地减少噪声点的数量，能够降低噪声点的影响。本实施例中，通过噪声向量与每个用户簇之间的相对距离来确定该噪声向量可以归为哪个用户簇。具体地，噪声向量与每个用户簇之间均具有一个相对距离，若其中最小的相对距离（即最小相对距离）小于该第二阈值，说明该噪声向量与最小相对距离对应的用户簇之间的相关性高于其他用户簇，且该相关性本身也足够高，此时可以把该噪声向量添加至最小相对距离对应的用户簇中，实现对噪声向量的入簇。

本实施例中，噪声向量与用户簇之间的相对距离本质上也是一种距离，与用户向量之间的距离类似，该相对距离也具有广义的含义，其可以为欧氏距离、相似度等；本实施例中，为保证前后一致性，用户向量之间的距离、噪声向量与用户簇之间的相对距离，二者具有相同的形式；即二者可以都是欧氏距离，或者都是余弦相似度，但不能一个是欧氏距离、另一个为余弦相似度。由于噪声向量与其他用户向量之间的距离大于第一阈值，其与用户簇本身之间的相对距离也一定大于该第一阈值，故只有设置的第二阈值大于第一阈值时，才有可能使得噪声向量与用户簇之间的相对距离小于该第二阈值。

在上述实施例的基础上，上述步骤103“确定噪声向量与每个用户簇之间的相对距离，在噪声向量对应的最小相对距离小于第二阈值时，将噪声向量添加至最小相对距离对应的用户簇中”包括：

步骤C1：确定每个用户簇的关键向量Ci，i=1,2,3,…,n，n为用户簇的数量。

本发明实施例中，对用户向量聚类处理后，生成n个用户簇和m个噪声向量，第i个用户簇的关键向量为Ci，第j个噪声向量为Nj。其中，关键向量为基于用户簇所生成的向量。可选地，可以将第i个用户簇内所有用户向量的平均值作为第i个用户簇的关键向量Ci。或者，确定第i个用户簇内每个用户向量的相邻数量，将最大的相邻数量所对应的用户向量作为第i个用户簇的关键向量Ci；其中，相邻数量为在用户簇内、与用户向量之间的距离小于第一阈值的其他用户向量的数量。即，对于第i个用户簇，其内的某个用户向量A与该用户簇内k个其他的用户向量之间的距离小于第一阈值，则该用户向量A的相邻数量为k；基于同样的方式可以确定第i个用户簇内每个用户向量的相邻数量，若其中的一个用户向量B的相邻数量最大，则该用户向量B与最多的其他用户向量相邻（之间的距离小于第一阈值），说明该用户向量B附近的用户向量密度比较大，故此时可以将用户向量B作为当前用户簇的关键向量。

步骤C2：分别计算噪声向量Nj与用户簇的关键向量Ci之间的相对距离

，并确定噪声向量Nj对应的最小相对距离

；其中，j=1,2,3,…,m，m为噪声向量的数量。

步骤C3：在最小相对距离

小于第二阈值t₂时，将噪声向量Nj添加至最小相对距离

对应的用户簇中。

本实施例中，在确定每个用户簇的关键向量Ci之后，即可计算每个噪声向量Nj与每个用户簇的关键向量Ci之间的距离

，即

，其中

用于表示两个向量之间的距离。对于确定的某个噪声向量，即j确定的情况下，可以确定噪声向量Nj对应的最小相对距离

，即

表示

、

、…、

中的最小值。同时，若该最小相对距离

小于第二阈值t₂，说明该噪声向量Nj与最小相对距离

对应的用户簇之间的距离足够小（小于第二阈值t₂），此时可以将噪声向量Nj添加至最小相对距离

对应的用户簇中，实现对噪声向量Nj的入簇。

本发明实施例提供的一种用户聚类的方法，基于社会化标注生成的标签向量具有海量的特点，根据该标签向量生成用户向量，不需要特意为用户添加标签，可以减少处理量；通过设置两个阈值分别进行聚类处理和二次补偿处理，即使在社会化标注存在较多噪声点的情况下，也能够适当地减少噪声点的数量，可以降低噪声点的影响，并将部分甚至全部的噪声点归簇以方便后续聚类分析，能够提高聚类效果。

在上述实施例的基础上，该方法还包括：

步骤D1：根据标签向量对标签进行聚类处理，确定相应的标签簇。

步骤D2：将第一标签集与第二标签集的交集所对应的标签作为目标用户新的标签；第一标签集为目标用户的标签所属的标签簇所包含的所有标签，第二标签集为目标用户所属的用户簇内的所有用户向量对应的标签。

本发明实施例中，在对用户向量聚类的同时，还对标签向量进行聚类，从而可以确定相应的标签簇，之后基于标签簇对目标用户的标签进行扩展，在保证用户个性化的同时，还能为用户推荐相似的标签。具体地，标签簇内包含的是相似的标签，若目标用户的标签属于某个标签簇，则该标签簇内的其他标签也可能适用于该目标用户，即第一标签集中的标签可能适用于目标用户。同时，本实施例中的用户向量为基于标签向量确定的，故对用户向量进行聚类，本质上是把具有相同或相似标签的用户进行聚类，因此，同一用户簇内所有用户向量对应的标签，可能适用于该用户簇内的任意一个用户，即第二标签集中的标签也可能适用目标用户。为了避免随意扩展，本实施例中将第一标签集与第二标签集的交集所对应的标签添加至目标用户的标签，能够更准确有效地对目标用户的标签进行扩展。

本发明实施例提供的一种用户聚类的方法，基于社会化标注生成的标签向量具有海量的特点，根据该标签向量生成用户向量，不需要特意为用户添加标签，可以减少处理量；通过设置两个阈值分别进行聚类处理和二次补偿处理，即使在社会化标注存在较多噪声点的情况下，也能够适当地减少噪声点的数量，可以降低噪声点的影响，并将部分甚至全部的噪声点归簇以方便后续聚类分析，能够提高聚类效果。聚类处理过程中，将用户向量分为未处理状态、待定状态和处理状态，通过双层循环处理可以遍历所有的用户向量，且形成的用户簇并不一定是球状的，用户簇更符合实际情况，聚类过程更加准确。在对用户向量聚类的同时，还对标签向量进行聚类，从而可以确定相应的标签簇，之后基于标签簇对目标用户的标签进行扩展，在保证用户个性化的同时，还能为用户推荐相似的标签。

上文详细描述了本发明实施例提供的用户聚类的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的用户聚类的装置。

图2示出了本发明实施例所提供的一种用户聚类的装置的结构示意图。如图2所示，该用户聚类的装置包括：

向量生成模块21，用于获取与目标用户相关的目标标签向量，并根据所述目标标签向量生成所述目标用户的用户向量，所述目标标签向量为基于社会化标注生成的标签向量；

聚类模块22，用于设置第一阈值，根据所述第一阈值对多个所述目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量，所述噪声向量为不属于任何用户簇的用户向量；

去噪模块23，用于设置大于所述第一阈值的第二阈值，确定每个所述用户簇的关键向量Ci，i=1,2,3,…,n，n为所述用户簇的数量；

，并确定所述噪声向量Nj对应的最小相对距离

；其中，j=1,2,3,…,m，m为所述噪声向量的数量；

在所述最小相对距离

对应的用户簇中。

在上述实施例的基础上，所述去噪模块23确定每个所述用户簇的关键向量Ci，包括：

将第i个所述用户簇内所有所述用户向量的平均值作为第i个所述用户簇的关键向量Ci；

或者，确定第i个所述用户簇内每个所述用户向量的相邻数量，将最大的所述相邻数量所对应的用户向量作为第i个所述用户簇的关键向量Ci；其中，所述相邻数量为在所述用户簇内、与所述用户向量之间的距离小于所述第一阈值的其他用户向量的数量。

在上述实施例的基础上，所述聚类模块22根据所述第一阈值对多个所述目标用户的用户向量进行聚类处理，确定相应的用户簇和噪声向量，包括：

将处于未处理状态的一个所述用户向量作为待处理用户向量，并执行用户向量处理过程；所述用户向量的初始状态均为未处理状态；

在所述用户向量处理过程结束之后，将处于未处理状态的另一个所述用户向量作为新的待处理用户向量，重复执行所述用户向量处理过程，直至所有的所述用户向量均被处理，之后将未被归为用户簇的用户向量作为噪声向量；

其中，所述用户向量处理过程包括：

确定所述待处理用户向量与其他的未入簇用户向量之间的距离，所述未入簇用户向量为未被归为用户簇的用户向量；

若所述待处理用户向量与k个所述未入簇用户向量之间的距离小于所述第一阈值，且k小于预设数值，则将所述待处理用户向量更新为待定状态，并结束当前的所述用户向量处理过程；

若所述待处理用户向量与k个所述未入簇用户向量之间的距离小于所述第一阈值，且k不小于预设数值，则建立包含所述待处理用户向量和k个所述未入簇用户向量的当前用户簇，将所述待处理用户向量更新为处理状态；将所述当前用户簇中处于未处理状态或待定状态的用户向量作为指定用户向量，重复执行添加用户向量的过程，直至所述当前用户簇中的用户向量均为处理状态；

其中，所述添加用户向量的过程包括：

将与所述指定用户向量之间的距离小于所述第一阈值的其他用户向量添加至所述当前用户簇，并将所述指定用户向量更新为处理状态。

在上述实施例的基础上，所述向量生成模块21根据所述目标标签向量生成所述目标用户的用户向量，包括：

确定每个所述目标标签向量所属的资源类别，根据每个资源类别内的所述目标标签向量生成相应的目标资源向量；

根据所述目标资源向量生成所述目标用户的用户向量。

在上述实施例的基础上，该装置还包括：标签扩展模块；所述标签扩展模块用于：

根据标签向量对标签进行聚类处理，确定相应的标签簇；

将第一标签集与第二标签集的交集所对应的标签作为所述目标用户新的标签；所述第一标签集为所述目标用户的标签所属的标签簇所包含的所有标签，所述第二标签集为所述目标用户所属的用户簇内的所有所述用户向量对应的标签。

本发明实施例提供的一种用户聚类的装置，基于社会化标注生成的标签向量具有海量的特点，根据该标签向量生成用户向量，不需要特意为用户添加标签，可以减少处理量；通过设置两个阈值分别进行聚类处理和二次补偿处理，即使在社会化标注存在较多噪声点的情况下，也能够适当地减少噪声点的数量，可以降低噪声点的影响，并将部分甚至全部的噪声点归簇以方便后续聚类分析，能够提高聚类效果。聚类处理过程中，将用户向量分为未处理状态、待定状态和处理状态，通过双层循环处理可以遍历所有的用户向量，且形成的用户簇并不一定是球状的，用户簇更符合实际情况，聚类过程更加准确。在对用户向量聚类的同时，还对标签向量进行聚类，从而可以确定相应的标签簇，之后基于标签簇对目标用户的标签进行扩展，在保证用户个性化的同时，还能为用户推荐相似的标签。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述用户聚类的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图3所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述用户聚类的方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构（用总线1110来代表），总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、***总线、加速图形端口（Accelerate Graphical Port，AGP）、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构（Industry Standard Architecture，ISA）总线、微通道体系结构（Micro Channel Architecture，MCA）总线、扩展ISA（Enhanced ISA，EISA）总线、视频电子标准协会（Video Electronics Standards Association，VESA）、***部件互连（Peripheral Component Interconnect，PCI）总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列（Programmable Logic Array，PLA）、微控制单元（Microcontroller Unit，MCU）或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器（Random Access Memory，RAM）、闪存（FlashMemory）、只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如***设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机***的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络（ad hoc network）、内联网（intranet）、外联网（extranet）、虚拟专用网（VPN）、局域网（LAN）、无线局域网（WLAN）、广域网（WAN）、无线广域网（WWAN）、城域网（MAN）、互联网（Internet）、公共交换电话网（PSTN）、普通老式电话业务网（POTS）、蜂窝电话网、无线网络、无线保真（Wi-Fi）网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信（GSM）***、码分多址（CDMA）***、全球微波互联接入（WiMAX）***、通用分组无线业务（GPRS）***、宽带码分多址（WCDMA）***、长期演进（LTE）***、LTE频分双工（FDD）***、LTE时分双工（TDD）***、先进长期演进（LTE-A）***、通用移动通信（UMTS）***、增强移动宽带（Enhance Mobile Broadband，eMBB）***、海量机器类通信（massive Machine Type of Communication，mMTC）***、超可靠低时延通信（UltraReliable Low Latency Communications，uRLLC）***等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存（Flash Memory）。

易失性存储器包括：随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data RateSDRAM，DDRSDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（Synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（DirectRambus RAM，DRRAM）。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作***1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作***1151包含各种***程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器（Media Player）、浏览器（Browser），用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机***可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述用户聚类的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、非易失性随机存取存储器（NVRAM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置（例如在其上记录有指令的凹槽中的穿孔卡或凸起结构）或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波（例如穿过光纤电缆的光脉冲）或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（包括：个人计算机、服务器、数据中心或其他网络设备）执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。