CN102867016A

CN102867016A - 一种基于标签的社交网络用户兴趣挖掘方法与装置

Info

Publication number: CN102867016A
Application number: CN2012102495828A
Authority: CN
Inventors: 薛晔伟; 马振江; 伍星
Original assignee: BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING KAIXINREN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-07-18
Filing date: 2012-07-18
Publication date: 2013-01-09

Abstract

本发明涉及一种基于标签的社交网络用户兴趣挖掘方法与装置，包括：收集用户在社交网络上的所有数据；其中，所述数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据；获取所述用户生成的文字性数据包含的所有标签和每个标签所对应地权重分；将所述用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列；将所述标签兴趣列向量化；将标签兴趣向量抽象化得到低级类目兴趣向量和高级类目兴趣向量；根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

Description

一种基于标签的社交网络用户兴趣挖掘方法与装置

技术领域

本发明涉及互联网信息挖掘领域，特别涉及一种基于标签的社交网络用户兴趣挖掘方法与装置。

背景技术

现有的用户兴趣获取和应用的方法主要分为如下几个不同的体系：

1、关联体系：这个体系的方法利用用户和实体之间产生的直接关联，采用协同过滤等从众方法，将用户可能感兴趣、但尚未发生关联的实体和该用户关联起来。

优点：简单明了，对从众性的用户和实体往往能够取得不错的判断结果；

缺点：不能对小众用户的兴趣进行判断；不能直接定义用户的兴趣，只能针对具体实体判断用户的喜好程度。

2、实体标签体系：这个体系采用的技术手段是在实体出现的位置提供输入，引导用户对实体进行简短描述，将这些简短描述语收集并作为该实体的标签。

优点：代价小，仅仅需要提供功能，标签由用户生成；

缺点：标签无法规范，利用难度大；用户大都不愿填写；对于单个实体，收集的标签数量少，描述也不完整；无法直接对用户兴趣进行描述。

3、分类体系：这个体系设定一些用户兴趣的类目，在用户注册或首次使用产品的时候，要求用户从中选择几个感兴趣的类目，以此作为用户兴趣的判定；

优点：用户抵触小，能够直接定义用户兴趣；

缺点：必须事先对实体同样做分类映射，如果实体数量较多，会面临映射代价大和精度低的问题；灵活性不够，不能正确反映用户兴趣的变化；类目数量受到限制，不能对用户兴趣进行稍细致的描述。

发明内容

本发明的目的是针对上述问题，提出一种以标签为基础的用户兴趣挖掘方法及装置，在解决现有技术缺陷的基础上能够最大限度的挖掘社交网络中用户的兴趣。

为实现上述目的，本发明提供了一种基于标签的社交网络用户兴趣挖掘方法，包括：

收集用户在社交网络上的数据；

根据数据生成标签兴趣列；所述标签兴趣列为所述数据中所有标签及标签对应地权重的集合；

根据标签兴趣列进行用户兴趣信息推荐，实现了社交网络用户兴趣挖掘。

可选的，本发明一实施例中，所述根据标签兴趣列进行用户兴趣信息推荐包括：

所述标签兴趣列向量化得到标签兴趣向量；对标签兴趣向量进行抽象，获取抽象结果；根据抽象结果进行用户兴趣信息推荐。

可选的，本发明一实施例中，所述对标签兴趣向量进行抽象包括：

按照标签的属性为抽象类目、抽象类目是各种类目的集合这种类目和标签的属性映射关系将标签兴趣向量分为低级别抽象类目和高级别抽象类目，将标签兴趣向量中的标签赋给相应的类目中，合并相应抽象类目中的标签和相应权重，得到低级类目兴趣向量和高级类目兴趣向量；根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

可选的，本发明一实施例中，所述数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。

可选的，本发明一实施例中，所述根据数据生成标签兴趣列包括：

获取所述社交网络上用户生成的文字性数据包含的所有标签和每个标签所对应地权重；将所述社交网络上用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列。

可选的，本发明一实施例中，该方法还包括：对收集到的用户在社交网络上的所有数据进行清洗。

可选的，本发明一实施例中，所述清洗包括：过滤广告内容、对长篇文字仅取前500个字作为分析对象以及采用标签主动匹配内容的方法过滤不良信息。

可选的，本发明一实施例中，所述社交网络上用户生成的文字性数据分为标题和内容；采取字符串匹配算法获取所述社交网络上用户生成的文字性数据中包含的所有标签，根据每个标签的出现次数作为该内容在该标签上的权重。

可选的，本发明一实施例中，所述标题和内容均包含同一标签中，该标签的权重为其在标题所得权重与在内容所得权重之和。

可选的，本发明一实施例中，所述社交网络上用户生成的文字性数据表示为{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}；其中，T_i代表某个标签，TF_i代表标签T_i在内容中的权重。

可选的，本发明一实施例中，所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{C₁,C₂,C₃,…}；其中，U代表某个用户，C_i代表与用户U有关联关系的内容。

可选的，本发明一实施例中，所述标签兴趣列表示为U->{<T_i,∑TF_i>,<T_j,∑TF_j>,…,<T_k,∑TF_k>}。

可选的，本发明一实施例中，所述社交网络上用户与文字性内容的关联关系数据中还包括时间权重WT_i；WT_i表示用户U在内容C_i上关联关系确立的时间得分，则所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k＞};所述标签兴趣列表示为U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k>}；其中，W表示为词频和时间因素的权重。

可选的，本发明一实施例中，所述标签兴趣向量表示为V->{S₁,S₂,…,S_i,...,S_n}，向量V表示用户的兴趣，S_i代表该向量在标签T_i维度上的坐标，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0，n代表总标签数。

可选的，本发明一实施例中，所述标签T_i在用户U中出现次数为DF_i，如果用户U拥有标签T_i，则S_i的取值为W_i/DF_i；否则，S_i的取值为0。

为实现上述目的，本发明还提供了一种基于标签的社交网络用户兴趣挖掘装置，包括：

数据收集单元，用于收集用户在社交网络上的数据；

标签兴趣列生成单元，用于根据数据生成标签兴趣列；所述标签兴趣列为所述数据中所有标签及标签对应地权重的集合；

兴趣挖掘单元，用于根据标签兴趣列进行用户兴趣信息推荐，实现了社交网络用户兴趣挖掘。

可选的，本发明一实施例中，所述标签兴趣列生成单元包括：

标签兴趣向量生成模块，用于所述标签兴趣列向量化得到标签兴趣向量；

标签兴趣向量抽象模块，用于对标签兴趣向量进行抽象，获取抽象结果；

兴趣推荐模块，用于根据抽象结果进行用户兴趣信息推荐。

可选的，本发明一实施例中，所述标签兴趣向量抽象模块按照标签的属性为抽象类目、抽象类目是各种类目的集合这种类目和标签的属性映射关系将标签兴趣向量分为低级别抽象类目和高级别抽象类目，将标签兴趣向量中的标签赋给相应的类目中，合并相应抽象类目中的标签和相应权重，得到低级类目兴趣向量和高级类目兴趣向量；所述兴趣推荐模块根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

可选的，本发明一实施例中，所述数据收集单元收集的数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。

可选的，本发明一实施例中，所述标签兴趣列生成单元获取所述社交网络上用户生成的文字性数据包含的所有标签和每个标签所对应地权重；将所述社交网络上用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列。

可选的，本发明一实施例中，该***还包括用于对收集到的用户在社交网络上的所有数据进行清洗的数据清洗单元。

可选的，本发明一实施例中，所述数据清洗单元进行清洗的内容包括：过滤广告内容、对长篇文字仅取前500个字作为分析对象以及采用标签主动匹配内容的方法过滤不良信息。

可选的，本发明一实施例中，所述数据收集单元收集的社交网络上用户生成的文字性数据分为标题和内容；采取字符串匹配算法获取所述社交网络上用户生成的文字性数据中包含的所有标签，根据每个标签的出现次数作为该内容在该标签上的权重。

可选的，本发明一实施例中，所述数据收集单元收集的社交网络上用户生成的文字性数据表示为{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}；其中，T_i代表某个标签，TF_i代表标签T_i在内容中的权重。

可选的，本发明一实施例中，所述数据收集单元收集的社交网络上用户与文字性内容的关联关系数据表示为：U->{C₁,C₂,C₃,…}；其中，U代表某个用户，C_i代表与用户U有关联关系的内容。

可选的，本发明一实施例中，所述标签兴趣列生成单元获取的标签兴趣列表示为U->{<T_i,∑TF_i>,<T_j,∑TF_j>,…,<T_k,∑TF_k>}。

可选的，本发明一实施例中，所述数据收集单元收集的社交网络上用户与文字性内容的关联关系数据中还包括时间权重WT_i；WT_i表示用户U在内容C_i上关联关系确立的时间得分，则所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k>};所述标签兴趣列表示为U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k>}；其中，W表示为词频和时间因素的权重。

可选的，本发明一实施例中，所述标签兴趣向量生成模块获取的标签兴趣向量表示为V->{S₁,S₂,…,S_i,...,S_n}，向量V表示用户的兴趣，S_i代表该向量在标签T_i维度上的坐标，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0，n代表总标签数。

上述技术方案具有如下有益效果：

本技术方案建立了以“标签兴趣列”为基础的文本内容分析和用户兴趣挖掘，能够最大限度的挖掘社交网络中用户的兴趣。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之一；

图2是本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之二；

图3是本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之三；

图4是本发明提出的一种基于标签的社交网络用户兴趣挖掘装置框图之一；

图5是本发明提出的一种基于标签的社交网络用户兴趣挖掘装置框图之二；

图6是本发明提出的一种基于标签的社交网络用户兴趣挖掘装置中标签兴趣列生成单元框图；

图7是本发明提出的一种基于标签的社交网络用户兴趣挖掘装置应用案例框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有兴趣挖掘的缺点，提出了一种基于标签的社交网络用户兴趣挖掘方法，如图1所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之一。包括：

收集用户在社交网络上的数据、根据数据生成标签兴趣列及根据标签兴趣列进行用户兴趣信息推荐的基于标签的社交网络用户兴趣挖掘方法。具体的工作如图1所示，为图1是。包括：

步骤101：收集用户在社交网络上的数据；

步骤102：根据数据生成标签兴趣列；所述标签兴趣列为所述数据中所有标签及标签对应地权重的集合；

步骤103：根据标签兴趣列进行用户兴趣信息推荐，实现了社交网络用户兴趣挖掘。

在图1的基础上，细化了如何根据标签兴趣列进行用户兴趣信息推荐。如图2所示，图2是本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之二，包括：

步骤201：收集用户在社交网络上的所有数据；其中，所述数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。

在步骤201中，收集用户在社交网络上的数据，依赖这些数据完成用户兴趣的挖掘。这些数据又分为两种：社交网络上用户生成的文字性内容和社交网络上用户与文字性内容的关联关系。前者是社交网络的内容主体，后者是社交网络信息流转的路径。举例来说，用户A在社交网络上发布了一篇访问权限公开的文章C，用户B浏览并转发了这篇文章，那么，会收集内容P和关系A->C和B->C。

在步骤201中收集数据时无需用户直接参与，不会产生收集数据的困难。采用统一的方法完成了用户兴趣的挖掘和表述，达到方便后续各项产品对用户兴趣的应用，

步骤202：获取所述社交网络上用户生成的文字性数据包含的所有标签和每个标签所对应地权重分；将所述社交网络上用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列。

对于所有的文字性内容，将其分为两种：标题（或其他简短描述）和内容，而且二者的重要性完全不同。制定一个简单规则来区分这种重要性，每个在标题中出现的标签会比在内容中出现的标签多得5倍的权重分数。

针对每段文字内容，用一个快速的字符串匹配算法获取其中包含的所有标签，然后根据每个标签的出现次数作为该内容在该标签上的权重分。如果一个标签同时在标题和内容中都包含，那么该标签的权重就是其在标题所得权重和在内容所得权重之和。这样，一段内容就能够由一系列的标签和标签权重来代表。例如，以T_i代表某个标签，以TF_i代表该标签在内容中的权重，那么，内容就可以用{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}来表示。

对于所有关系型数据，将其转换为用户-关系链的形式。例如，用U代表某个用户，C_i代表某个内容，且关系数据中包含U->C₁、U->C₂、U->C₃等内容，则用户U的关系链表示为U->{C₁,C₂,C₃,…}。进一步合并用户U在所有内容上的标签，就能得到用户U的兴趣标签列，U->{<T_i,∑TF_i>,<T_j,∑TF_j>,…,<T_k,∑TF_k>}。

用户在社交网络上可能有各种各样的内容关联，例如，照片、日记、讨论等等，参照上述两步，就都可以用统一的方法处理并且合并入用户的兴趣列。而且，可以针对专门类别的内容，单独建立用户兴趣数据，以适应专门类别的应用需要。

另外，考虑到用户兴趣并不是一成不变的，我们同样引入了时间的概念。例如，以WT_i代表用户U在内容C_i上的时间权重（即关联关系确立的时间得分），时间越久该值越小。上面的用户U的关系链就要表示为U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k>}。进一步合并用户U在所有内容上的标签，就能得到用户U的兴趣标签列，U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k>}。其中，W_i是混合了词频和时间因素的权重。这样能够最大限度的挖掘社交网络中的用户的兴趣，而且这种兴趣是直接的、细化的、可变的。

步骤202收集标签的工作完成之后，后期仅仅需要少量维护。还有，由于未使用分词等文本切分方法，可以有效避免由于切分误差引入的错误，以及由此引发的额外工作量。

步骤203：将所述标签兴趣列向量化。

为了便于后续处理和表述，我们将用户的兴趣表示为一个标签空间中的向量V，例如，以V代表用户U的兴趣向量，S_i代表该向量在标签T_i维度上的坐标，则可以将上述用户兴趣标签列转化为兴趣向量，V->{S₁,S₂,…,S_i,...,S_n}，其中，n代表总标签数，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0。由此，所有用户的兴趣可以用统一的兴趣向量进行描述和计算。

另外，考虑到标签本身的重要程度并不相同，我们用DF_i代表标签T_i在所有用户中出现次数（每个用户只记一次）。DF值越大，说明标签的重要性越小，区分力越弱。由此，可以得到，上述兴趣向量中，标签T_i对应的坐标S_i的取值，在用户U拥有标签T_i时，变为W_i/DF_i。

步骤204：将标签兴趣向量抽象化；即：标签的属性为抽象类目，抽象类目是各种类目的集合，按照类目和标签的属性映射关系，将标签兴趣向量分为低级别抽象类目和高级别抽象类目，将标签兴趣向量中的标签赋给相应的类目中，合并相应抽象类目中的标签和相应权重，得到低级类目兴趣向量和高级类目兴趣向量；根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

用向量形式表现的用户兴趣拥有细致、精确、可变等优点，但是过于细致的表述形式在某些应用场合不能适应，尤其是无法让人直观的了解一个用户的大体兴趣偏好。因此，我们在1中描述标签的定义时，提到了标签属性这个概念。标签属性代表了标签所属的抽象类目，是比标签更加抽象的一个概念，我们提供了两个级别的抽象，低级别的抽象共135个类目，更高一级的抽象为16个大类目。以CL_k代表某个低级别抽象类目，以CH_j代表某个高级别的抽象类目。对于所有拥有属性的标签T_i，则有T_i->CL_k，T_i->CH_j的关系存在。

按照类目和标签的属性映射关系，将兴趣向量V中所有标签的坐标进行对应转化，转化的方法为，如果某个标签T_i拥有类目CL_k或CH_j，则将该标签的坐标S_i赋给相应的类目，如果该标签拥有不只一个类目属性，那么将其坐标依次赋给所有类目。以低级别类目为例，可以得到一个新的关系列，VcL->{<CL_i,S_i>,<CL_j,S_i>,<CL_j,S_j>,…,<CL_k,S_k>}，注意，每个标签可以同时属于几个不同的类目，每个类目下面也拥有大量不同的标签。合并同一类目下的权重，则可以将标签空间下的兴趣向量转化为低级类目空间下的兴趣向量。同理，也可以生成高级类目下的兴趣向量。

至此，我们得到高级类目、低级类目、标签等三个精细度级别的用户兴趣向量，可以根据应用场景的具体需要进行选择使用。

步骤204通过类目和标签的关联，很好的完成了用户兴趣的抽象，便于广泛的应用。并且挖掘兴趣的过程和结果对用户透明，能够发现用户自身尚无意识到的兴趣点，不依赖从众数据，能够发现小众用户的兴趣。另外，该技术方案通过控制数据源，灵活的挖掘出各种垂直领域的用户兴趣，便于专门的应用。

方法中所用的标签是采用人工和技术相结合的方法，从中文和英文（同样的方法也可用于其他语种）中收集各种的实体名词。收集的过程主要考虑如下因素：独特性、代表性、时新性。技术收集的方法保证了大量收集的需要，人工审核的方法确保了标签的正确性。

对于新的实体名词，可以定期或随时加入标签库，保证对于新型事件的识别。标签在标签库中会被赋予两个等级的属性，例如，“围棋”这个标签就会有“非球类运动”和“体育运动”这样一组两级属性，分别代表一个较低层次的兴趣类目和一个较高层次的兴趣类目。而且，一个标签可以拥有数个属性，分别对应不同的兴趣类目。标签的属性由人工给出，保证了精度，而且并不是所有标签都能有比较明确的所属类目，所以，不是所有标签都需要有属性，这样降低了人工工作量。

在图2基础上，为了保证数据的准确性，进一步增加了数据清洗。如图3所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘方法流程图之三。

步骤201’：对采集到的数据进行清洗。

对采集到的数据进行清洗，过滤了广告内容。另外，对于长篇文字内容，也仅仅取其前500个字作为分析对象。由于我们采用标签主动匹配内容的方式，所以等于自动完成了不良信息的过滤。

本申请还提出了一种基于标签的社交网络用户兴趣挖掘装置。如图4所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘装置框图之一。包括：

数据收集单元41，用于收集用户在社交网络上的数据；

标签兴趣列生成单元42，用于根据数据生成标签兴趣列；所述标签兴趣列为所述数据中所有标签及标签对应地权重的集合；

兴趣挖掘单元43，用于根据标签兴趣列进行用户兴趣信息推荐，实现了社交网络用户兴趣挖掘。

本发明一实施例中，该***还包括用于对收集到的用户在社交网络上的所有数据进行清洗的数据清洗单元41’。如图5所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘装置框图之二。数据清洗单元41’进行清洗的方法包括：过滤广告内容、对长篇文字仅取前500个字作为分析对象以及采用标签主动匹配内容的方法过滤不良信息。

如图6所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘装置中兴趣挖掘单元43框图，可知兴趣挖掘单元43包括：

标签兴趣向量生成模块431，用于标签兴趣列向量化得到标签兴趣向量；

标签兴趣向量抽象模块432，用于对标签兴趣向量进行抽象，获取抽象结果；

兴趣推荐模块433，用于根据抽象结果进行用户兴趣信息推荐。

标签兴趣向量抽象模块432按照标签的属性为抽象类目、抽象类目是各种类目的集合这种类目和标签的属性映射关系将标签兴趣向量分为低级别抽象类目和高级别抽象类目，将标签兴趣向量中的标签赋给相应的类目中，合并相应抽象类目中的标签和相应权重，得到低级类目兴趣向量和高级类目兴趣向量；兴趣推荐模块433根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

本发明一实施例中，数据收集单元收集的数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。标签兴趣列生成单元获取所述社交网络上用户生成的文字性数据包含的所有标签和每个标签所对应地权重；将社交网络上用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列。

本发明一实施例中，所述数据收集单元收集的社交网络上用户生成的文字性数据分为标题和内容；采取字符串匹配算法获取所述社交网络上用户生成的文字性数据中包含的所有标签，根据每个标签的出现次数作为该内容在该标签上的权重。

本发明一实施例中，所述标题和内容均包含同一标签中，该标签的权重为其在标题所得权重与在内容所得权重之和。

本发明一实施例中，所述数据收集单元收集的社交网络上用户生成的文字性数据表示为{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}；其中，T_i代表某个标签，TF_i代表标签T_i在内容中的权重。数据收集单元收集的社交网络上用户与文字性内容的关联关系数据表示为：U->{C₁,C₂,C₃,…}；其中，U代表某个用户，C_i代表与用户U有关联关系的内容。标签兴趣列生成单元获取的标签兴趣列表示为U->{<T_i,∑TF_i>,<T_j,∑T F_j>,…,<T_k,∑TF_k>}。

本发明一实施例中，所述数据收集单元收集的社交网络上用户与文字性内容的关联关系数据中还包括时间权重WT_i；WT_i表示用户U在内容C_i上关联关系确立的时间得分，则所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k>};所述标签兴趣列表示为U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k＞}；其中，W表示为词频和时间因素的权重。

本发明一实施例中，所述标签兴趣向量生成模块获取的标签兴趣向量表示为V->{S₁,S₂,…,S_i,...,S_n}，向量V表示用户的兴趣，S_i代表该向量在标签T_i维度上的坐标，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0，n代表总标签数。

本发明一实施例中，所述标签T_i在用户U中出现次数为DF_i，如果用户U拥有标签T_i，则S_i的取值为W_i/DF_i；否则，S_i的取值为0。

如图7所示，为本发明提出的一种基于标签的社交网络用户兴趣挖掘装置应用案例框图。该***可以应用于开心网社区平台。该***能够自动地从用户参与过的信息流、添加过的组件、名人机构等各种包含文字的内容中挖掘用户的兴趣，并生成低级类目兴趣向量和高级类目兴趣向量，***按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

当前的互联网应用中，最重要的资源就是用户。对于用户数据的分析，也一直是研究的热点，而用户兴趣，则是重中之重。准确获取用户兴趣数据，对许多互联网服务有直接的帮助，例如：用户兴趣可以直接服务于精准广告投放，提升广告转化率；用户兴趣可以应用于一切推荐***和产品，提高点击率；用户兴趣可以应用于个性化搜索和其他服务，提高用户满意度；能够涵盖全部的用户兴趣挖掘方法和应用场景。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，包括：

收集用户在社交网络上的数据；

根据标签兴趣列进行用户兴趣信息推荐，以实现社交网络用户兴趣挖掘。

2.根据权利要求1所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述根据标签兴趣列进行用户兴趣信息推荐包括：

3.根据权利要求2所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述对标签兴趣向量进行抽象包括：

4.根据权利要求1所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。

5.根据权利要求4所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述根据数据生成标签兴趣列包括：

6.根据权利要求1～5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，该方法还包括：对收集到的用户在社交网络上的所有数据进行清洗。

7.根据权利要求6所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述清洗包括：过滤广告内容、对长篇文字仅取前500个字作为分析对象以及采用标签主动匹配内容的方法过滤不良信息。

8.根据权利要求4~5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述社交网络上用户生成的文字性数据分为标题和内容；采取字符串匹配算法获取所述社交网络上用户生成的文字性数据中包含的所有标签，根据每个标签的出现次数作为该内容在该标签上的权重。

9.根据权利要求8所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述标题和内容均包含同一标签中，该标签的权重为其在标题所得权重与在内容所得权重之和。

10.根据权利要求4~5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述社交网络上用户生成的文字性数据表示为{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}；其中，T_i代表某个标签，TF_i代表标签T_i在内容中的权重。

11.根据权利要求4~5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{C₁,C₂,C₃,…}；其中，U代表某个用户，C_i代表与用户U有关联关系的内容。

12.根据权利要求1~5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述标签兴趣列表示为U->{<T_i,∑TF_i>,<T_j,∑TF_j>,…,<T_k,∑TF_k>}。

13.根据权利要求4~5任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述社交网络上用户与文字性内容的关联关系数据中还包括时间权重WT_i；WT_i表示用户U在内容C_i上关联关系确立的时间得分，则所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k>};所述标签兴趣列表示为U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k＞}；其中，W表示为词频和时间因素的权重。

14.根据权利要求2所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述标签兴趣向量表示为V->{S₁,S₂,...,S_i,...,S_n}，向量V表示用户的兴趣，S_i代表该向量在标签T_i维度上的坐标，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0，n代表总标签数。

15.根据权利要求14所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述标签T_i在用户U中出现次数为DF_i，如果用户U拥有标签T_i，则S_i的取值为W_i/DF_i；否则，S_i的取值为0。

16.一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，包括：

数据收集单元，用于收集用户在社交网络上的数据；

兴趣挖掘单元，用于根据标签兴趣列进行用户兴趣信息推荐，以实现社交网络用户兴趣挖掘。

17.根据权利要求16所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述兴趣挖掘单元包括：

兴趣推荐模块，用于根据抽象结果进行用户兴趣信息推荐。

18.根据权利要求17所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标签兴趣向量抽象模块按照标签的属性为抽象类目、抽象类目是各种类目的集合这种类目和标签的属性映射关系将标签兴趣向量分为低级别抽象类目和高级别抽象类目，将标签兴趣向量中的标签赋给相应的类目中，合并相应抽象类目中的标签和相应权重，得到低级类目兴趣向量和高级类目兴趣向量；所述兴趣推荐模块根据应用场景的具体需要，按照低级类目兴趣向量、高级类目兴趣向量和标签为社交网络用户提供相应的兴趣信息，实现社交网络用户兴趣挖掘。

19.根据权利要求16所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述数据收集单元收集的数据包括：社交网络上用户生成的文字性数据和社交网络上用户与文字性内容的关联关系数据。

20.根据权利要求19所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标签兴趣列生成单元获取所述社交网络上用户生成的文字性数据包含的所有标签和每个标签所对应地权重；将所述社交网络上用户与文字性内容的关联关系数据转换为用户-关系链形式；合并用户在所有内容上的标签得到用户的标签兴趣列。

21.根据权利要求16~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，该***还包括用于对收集到的用户在社交网络上的所有数据进行清洗的数据清洗单元。

22.根据权利要求21所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述数据清洗单元进行清洗的内容包括：过滤广告内容、对长篇文字仅取前500个字作为分析对象以及采用标签主动匹配内容的方法过滤不良信息。

23.根据权利要求19~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述数据收集单元收集的社交网络上用户生成的文字性数据分为标题和内容；采取字符串匹配算法获取所述社交网络上用户生成的文字性数据中包含的所有标签，根据每个标签的出现次数作为该内容在该标签上的权重。

24.根据权利要求23所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标题和内容均包含同一标签中，该标签的权重为其在标题所得权重与在内容所得权重之和。

25.根据权利要求19~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述数据收集单元收集的社交网络上用户生成的文字性数据表示为{<T_i,TF_i>,<T_j,TF_j>,…,<T_k,TF_k>}；其中，T_i代表某个标签，TF_i代表标签T_i在内容中的权重。

26.根据权利要求19~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘方法，其特征在于，所述数据收集单元收集的社交网络上用户与文字性内容的关联关系数据表示为：U->{C₁,C₂,C₃,…}；其中，U代表某个用户，C_i代表与用户U有关联关系的内容。

27.根据权利要求16~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标签兴趣列生成单元获取的标签兴趣列表示为U->{<T_i,∑TF_i>,<T_j,∑TF_j>,…,<T_k,∑TF_k>}。

28.根据权利要求19~20任一权利要求所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述数据收集单元收集的社交网络上用户与文字性内容的关联关系数据中还包括时间权重WT_i；WT_i表示用户U在内容C_i上关联关系确立的时间得分，则所述社交网络上用户与文字性内容的关联关系数据的用户-关系链表示为：U->{<C_i,WT_i>,<C_j,WT_j>,…,<C_k,WT_k>};所述标签兴趣列表示为U->{<T_i,W_i>,<T_j,W_j>,…,<T_k,W_k>}；其中，W表示为词频和时间因素的权重。

29.根据权利要求17所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标签兴趣向量生成模块获取的标签兴趣向量表示为V->{S₁,S₂,…,S_i,...,S_n}，向量V表示用户的兴趣，S_i代表该向量在标签T_i维度上的坐标，如果用户U拥有标签T_i，则S_i的取值为W_i，否则，S_i的取值为0，n代表总标签数。

30.根据权利要求29所述的一种基于标签的社交网络用户兴趣挖掘装置，其特征在于，所述标签T_i在用户U中出现次数为DF_i，如果用户U拥有标签T_i，则S_i的取值为W_i/DF_i；否则，S_i的取值为0。