CN109992723B

CN109992723B - 一种基于社交网络的用户兴趣标签构建方法及相关设备

Info

Publication number: CN109992723B
Application number: CN201910136403.1A
Authority: CN
Inventors: 黄博; 毕野; 吴振宇; 王建明
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2023-06-20
Anticipated expiration: 2039-02-25
Also published as: CN109992723A

Abstract

本发明涉及大数据分析领域用户兴趣画像技术，具体涉及一种基于社交网络的用户兴趣标签构建方法及相关设备，所述方法包括：获取VIP用户的认证信息，调用结巴分词***，生成兴趣标签；获取粉丝用户和VIP用户的互动数据，计算兴趣标签对粉丝用户的兴趣权重；依据兴趣权重，计算粉丝用户的兴趣得分；遍历粉丝用户关注的所有VIP用户，生成粉丝用户的兴趣得分矩阵；依据兴趣得分矩阵，更新粉丝用户的兴趣标签。上述方法采用科学的计算过程分析粉丝用户的兴趣标签，结果更为精确，量化数据衡量的过程，比传统兴趣标签构建更具有参考价值。

Description

一种基于社交网络的用户兴趣标签构建方法及相关设备

技术领域

本发明涉及大数据分析领域，特别涉及一种基于社交网络的用户兴趣标签构建方法及相关设备。

背景技术

随着大数据时代的到来，信息数量不断增大，为了满足用户的喜好，越来越多的互联网企业通过建立兴趣标签的方法协助完成用户兴趣内容的推荐，通过获取用户的兴趣标签定位用户的使用习惯和兴趣范围，用以定制用户的个性化需求内容，同时也可以实现企业商业推广的需要，既可以满足客户需求，也能给企业带来收益。

目前社交网络中兴趣标签的设定采用的还是传统兴趣标签的设定模式，通常是从已有的标签中获取，在用户注册时通过***推荐和用户选择标记标签，获取的精确度欠佳且无法实现动态更新，同时，现有的标签都是在随机或热门的情况下，推荐给用户的兴趣标签，不能精确获取用户的兴趣类别，往往这种模式下建立的标签不能作为依据满足用户兴趣内容的推荐。

发明内容

基于此，有必要针对无法精确识别用户兴趣标签，不能及时满足内容推荐需求等问题，提供一种基于社交网络的用户兴趣标签构建方法及相关设备。

一种基于社交网络的用户兴趣标签构建方法，包括：

获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签；

获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重；

依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分；

遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵；

依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签。

在一种可能的设计中，所述获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签，包括：

通过预设的爬虫功能脚本，爬取VIP用户的认证信息；

将所述认证信息汇总到同一文本文件中，通过正则表达式读取所述文本文件中的标点符号，以标点符号将所述文本文件切分成多个独立句子；

调用结巴分词***，依据预设的结巴分词参数将所述独立句子进行全模式分词获取多个词语，通过隐马尔可夫模型识别多个所述词语中的关键词，将所述关键词生成兴趣标签。

在一种可能的设计中，所述获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重，包括：

通过爬虫功能脚本爬取第i个所述粉丝用户与第j个所述VIP用户的互动数据，提取所述粉丝用户对所述VIP用户单向互动的数据并定义为单向互动指数，依据所述互动数据计算第i个所述粉丝用户对第j个所述VIP用户的兴趣权重W_ij，其中，i表示所述粉丝用户编号，j表示所述VIP用户编号，当所述粉丝用户对所述VIP用户为单向关注时，所述兴趣权重W_ij采用的计算公式为：

其中，S_q是单项互动值，为预设时间内第i个所述粉丝用户对第j个所述VIP用户的所述互动数据中单项互动指数求和得到，S_q'是单项总互动值，为预设时间内第i个所述粉丝用户对所有VIP用户的所述互动数据中单项互动指数求和得到。

在一种可能的设计中，所述获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重，还包括：

当第i个所述粉丝用户与第j个所述VIP相互关注时，调整所述兴趣权重W_ij得到调整的兴趣权重W_ij'，调整的兴趣权重W_ij'采用的计算公式为：

W_ij'＝W_ij×log(1+R_ji)

其中，S_p是单项互动值，为预设时间内第j个所述VIP用户对第i个所述粉丝用户的所述互动数据中单项互动指数求和得到，S_p'是单项总互动值，为第j个所述VIP用户对自身关注的所有VIP用户的所述互动数据中单项互动指数求和得到。

在一种可能的设计中，所述依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分，包括：

当所述粉丝用户对所述VIP用户为单向关注时，兴趣得分计算公式为：

Sum＝W_ij×λ×m

当所述粉丝用户与所述VIP用户为互相关注时，兴趣得分计算公式为：

Sum＝W_ij'×λ×m

其中，W_ij为计算的兴趣权重，W_ij'为调整的兴趣权重，λ为权重系数，m为粉丝用户与VIP用户相互互动的次数，Sum为粉丝用户最后的兴趣得分。

在一种可能的设计中，所述遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵，包括：

便历所述粉丝用户关注的所有VIP用户，获取所述粉丝用户关注的所有VIP用户的兴趣得分；

依据所述兴趣得分，生成所述粉丝用户的兴趣得分矩阵S _ik，其中i表示粉丝用户，k表示兴趣标签。

将所述兴趣得分矩阵中任一兴趣得分与预设的兴趣得分阈值比较，当所述兴趣得分高于所述兴趣得分阈值时，将所述兴趣得分对应的兴趣标签更新至所述粉丝用户的个人信息中。

基于相同的技术构思，本发明还提供了一种基于社交网络的用户兴趣标签构建的装置，所述一种基于社交网络的用户兴趣标签构建的装置包括：

标签生成模块，设置为获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签；

权重计算模块，设置为获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重；

得分计算模块，设置为依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分；

矩阵生成模块，设置为遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵；

标签更新模块，设置为依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述一种基于社交网络的用户兴趣标签构建方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述一种基于社交网络的用户兴趣标签构建方法的步骤。

上述一种基于社交网络的用户兴趣标签构建方法及相关设备，通过获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签；获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重；依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分；遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵；依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签。本发明基于社交网络，通过VIP用户的认证信息获取兴趣标签，再通过粉丝用户与关注的VIP用户的互动数据，计算所述兴趣标签的兴趣权重，利用具体的计算方法准确衡量粉丝用户的兴趣标签，尽可能准确地获取市场庞大的普通用户的兴趣、习惯，完成对普通用户的内容推荐。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明一个实施例中一种基于社交网络的用户兴趣标签构建方法的流程图；

图2为本发明一个实施例中步骤S1标签生成的流程图；

图3为本发明一个实施例中步骤S4矩阵生成的流程图；

图4为本发明一种基于社交网络的用户兴趣标签构建装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本发明实施例一种基于社交网络的用户兴趣标签构建方法的流程图，如图1所示，一种基于社交网络的用户兴趣标签构建方法，包括以下步骤：

步骤S1，标签生成：获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签。

图2为本发明一个实施例中步骤S1标签生成的流程图，如图2所示，在一个实施例中，步骤S1可包括如下具体步骤：

步骤S101，爬取认证信息：通过预设的爬虫功能脚本，爬取VIP用户的认证信息；将所述认证信息汇总到同一文本文件中，通过正则表达式读取所述文本文件中的标点符号，以标点符号将所述文本文件切分成多个独立句子。

本步骤将爬取到的VIP用户的认证信息汇总到同一文本文件中，便于将所述认证信息进行批量处理，利用正则表达式的过滤逻辑对所述认证信息进行预处理，通过预设的规则字符串读取所述文本文件中的标点符号，将所述标点符号去除，同时将标点符号的位置作为切分文本文件获取多个独立句子的依据，便于后续隐马尔可夫模型识别独立句子中的词语。

本步骤通过安装爬虫功能程序预设一爬虫功能脚本，在社交网络中爬取VIP用户的认证信息，VIP用户的选定依据用户的粉丝数量，当粉丝数量达到10万以上时将所述用户定义为VIP用户，爬虫功能脚本是网络爬虫技术中具体使用的计算机运行脚本，这种脚本按照一定的规则，自动抓取社交网络信息中的认证信息，并对抓取的信息进行分析、过滤，得到满足预设使用条件的数据库，本步骤的爬虫功能脚本具体可选用蠕虫采集、蚂蚁爬虫、八爪鱼大数据等。

步骤S102，生成兴趣标签：调用结巴分词***，依据预设的结巴分词参数将所述独立句子进行全模式分词获取多个词语，通过隐马尔可夫模型识别多个所述词语中的关键词，将所述关键词生成兴趣标签。

本步骤通过结巴分词***，完成关键词的识别，结巴分词是支持网络爬虫的一个开源库，是市面上较常用且高效便捷的分词开源工具，通过对词库的识别，筛选出关键词，具体步骤如下：

(1)基于结巴分词参数对独立句子进行词图扫描，生成独立句子中汉字所有可能成词情况所构成的有向无环图DAG，所述结巴分词参数包括预设的单词查找树结构；

(2)通过动态规划在有向无环图DAG中找出最大概率路径,最大概率路径指在有向无环图DAG中经过所有点的最少路径；

(3)将最大概率路径输入隐马尔可夫模型，识别关键词。

隐马尔可夫模型的识别原理是通过将最大概率路径输入隐马尔可夫模型，利用预设的隐马尔可夫参数依次迭代计算最大概率路径中每个节点的最大概率值，即每个节点的最佳状态，节点即为最大概率路径中的汉字，然后再从最后一个节点回溯查找路径，若无法回溯到起始的节点，则最大概率路径对应的词语不是关键词，若回溯到起始的节点，则将最大概率路径对应的词语记为关键词。

本实施例采用爬虫功能脚本爬取VIP用户的认证信息，信息提取的准确率较高，利用结巴分词***和隐马尔可夫模型全面完成关键词的筛选识别，避免了兴趣标签的遗漏和缺失。

步骤S2，权重计算：获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重。

在一个实施例中，步骤S2包括如下计算过程：

在本实施例中，直接提取互动数据中的数据获取到单向互动指数，单向互动指数是指粉丝用户对VIP用户单向互动的数据，含有多种单向互动指数，具体包括点赞单向互动指数、评论单向互动指数、阅读单向互动指数、转发单向互动指数，点赞单向互动指数指粉丝点赞VIP用户的动态的次数，评论单向互动指数指粉丝用户评论VIP用户的动态的次数，阅读单向互动指数指粉丝点击查看VIP用户的动态的次数，转发单向互动指数指粉丝用户转发VIP用户的动态的次数。其中，q为从1到n，n优选为4，假如粉丝用户A在统计时间内对所有VIP用户的点赞数为10，其中2次是对VIP用户B的点赞数，则点赞单向互动指数为2，粉丝用户A对VIP用户B点赞单项互动值为1/5，同样，假如经过计算后分别得出评论单项互动值为2/3，阅读单项互动值为1/3，转发单项互动值为3/5，则最终兴趣权重如下：

在一个实施例中，步骤S2还包括：

W_ij'＝W_ij×log(1+R_ji)

在本实施例中，R_ji是第j个所述VIP用户对第i个所述粉丝用户的兴趣权重，其中p为从1到n，n优选为4，假如经过计算后分别得出点赞单项互动值为1/4，评论单项互动值为1/4，阅读单项互动值为1/2，转发单项互动值为1/8，则R_ji计算如下：

本步骤将权重的计算分为两种情况，当粉丝用户单向关注VIP用户时，直接可以通过计算得到兴趣权重，作为计算兴趣得分的依据，当粉丝用户与VIP用户互相关注时，需要通过W_ij'＝W_ij×log(1+R_ji)调整获取调整的兴趣权重，作为最终计算兴趣得分的依据。

本实施例利用权重计算，提升了获取兴趣标签的准确度，同时，将权重计算分成两种情况，避免了VIP用户与粉丝用户互相关注时对数据的干扰，进一步完善了兴趣权重的计算结果。

步骤S3，得分计算：依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分。

在一个实施例中，步骤S3包括如下计算过程：

Sum＝W_ij×λ×m

Sum＝W_ij'×λ×m

本实施例中，λ为一常数，依据“阅读<点赞<转发<评论”设置大小。

在本实施例中，如步骤S2中案例，假如粉丝用户A与VIP用户B为单向关注，λ为1/6，互动次数m为10，则

本实施例通过计算得分，将兴趣权重显性化，将数据转化成可直观看到的分值，可更加清晰的分析用户的兴趣标签，提升了兴趣标签识别的水平，便于用户兴趣标签的管理。

步骤S4，矩阵生成：遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵。

图3为本发明一个实施例中步骤S4矩阵生成的流程图，如图3所示，在一个实施例中，步骤S3可包括如下具体步骤：

步骤S401，遍历所有得分：便历所述粉丝用户关注的所有VIP用户，获取所述粉丝用户关注的所有VIP用户的兴趣得分。

本步骤将粉丝用户关注的所有VIP用户的兴趣标签进行识别并计算兴趣权重和兴趣得分，完成粉丝用户对应的所有兴趣得分的统计。

步骤S402，生成兴趣矩阵：依据所述兴趣得分，生成所述粉丝用户的兴趣得分矩阵S_ik，其中i表示粉丝用户，k表示兴趣标签。

利用最终获取的所有兴趣得分，生成兴趣得分矩阵，将兴趣得分、兴趣得分对应的VIP用户的兴趣标签规范化显示。

本实施例通过规范化处理，将粉丝用户对其所关注的VIP用户的关注得到的兴趣得分及兴趣得分对应的VIP用户的兴趣标签通过矩阵的形式展示出来，便于对用户的兴趣、习惯进行分析，有利于了解用户的使用习惯和兴趣内容。

步骤S5，标签更新：依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签。

在一个实施例中，步骤S5包括：

将所述兴趣得分矩阵中任一兴趣得分与预设的兴趣得分阈值比较，当所述兴趣得分高于所述兴趣得分阈值时，将所述兴趣得分对应的VIP用户的兴趣标签更新至所述粉丝用户的个人信息中。

本步骤通过设置兴趣得分阈值对兴趣得分进行筛选，避免了兴趣得分的数据量过于庞大，筛选的过程是一个将矩阵中的得分结果简化的过程。

本实施例通过简化得分，避免了资源的浪费，进一步精确用户的习惯、兴趣的计算结果，便于提高兴趣标签的识别率。

本发明基于社交网络，通过分析粉丝用户关注的VIP用户，来识别粉丝用户，即普通用户的关注内容，更具有导向性，且整个识别的过程没有局限在对兴趣标签的初步筛选上，采用了更为准确的计算方式，通过科学的计算方法来分析普通用户对每个兴趣标签的兴趣得分，结果更为精确，采用了数据衡量的方式，将兴趣标签通过量化筛选，比传统兴趣标签构建更具有参考价值。

在一个实施例中，提出了一种基于社交网络的用户兴趣标签构建的装置，如图4所示，其包括：

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行计算机可读指令时实现上述各实施例里一种基于社交网络的用户兴趣标签构建方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例里一种基于社交网络的用户兴趣标签构建方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(ReA/D-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于社交网络的用户兴趣标签构建方法，其特征在于，包括：

依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签；

所述获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重，包括：

其中，S_q是单项互动值，为预设时间内第i个所述粉丝用户对第j个所述VIP用户的所述互动数据中单项互动指数求和得到，S_q'是单项总互动值，为预设时间内第i个所述粉丝用户对所有VIP用户的所述互动数据中单项互动指数求和得到，n是互动的种类数量；

所述获取粉丝用户和所述VIP用户的互动数据，计算所述兴趣标签对粉丝用户的兴趣权重，还包括：

W_ij'＝W_ij×log(1+R_ji)

其中，S_p是单项互动值，为预设时间内第j个所述VIP用户对第i个所述粉丝用户的所述互动数据中单项互动指数求和得到，S_p'是单项总互动值，为第j个所述VIP用户对自身关注的所有VIP用户的所述互动数据中单项互动指数求和得到；

所述依据所述粉丝用户的兴趣权重，计算所述粉丝用户的兴趣得分，包括：

Sum＝W_ij×λ×m

Sum＝W_ij'×λ×m

2.如权利要求1所述的一种基于社交网络的用户兴趣标签构建方法，其特征在于，所述获取VIP用户的认证信息，将所述认证信息生成多个独立句子，调用结巴分词***识别多个所述独立句子，生成兴趣标签，包括：

通过预设的爬虫功能脚本，爬取VIP用户的认证信息；

3.如权利要求1所述的一种基于社交网络的用户兴趣标签构建方法，其特征在于，所述遍历所述粉丝用户关注的所有VIP用户，生成所述粉丝用户的兴趣得分矩阵，包括：

4.如权利要求1所述的一种基于社交网络的用户兴趣标签构建方法，其特征在于，所述依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签，包括：

5.一种基于社交网络的用户兴趣标签构建装置，其特征在于，包括：

标签更新模块，设置为依据所述粉丝用户的兴趣得分矩阵，更新所述粉丝用户的兴趣标签；

所述权重计算模块，具体设置为通过爬虫功能脚本爬取第i个所述粉丝用户与第j个所述VIP用户的互动数据，提取所述粉丝用户对所述VIP用户单向互动的数据并定义为单向互动指数，依据所述互动数据计算第i个所述粉丝用户对第j个所述VIP用户的兴趣权重W_ij，其中，i表示所述粉丝用户编号，j表示所述VIP用户编号，当所述粉丝用户对所述VIP用户为单向关注时，所述兴趣权重W_ij采用的计算公式为：

所述权重计算模块，具体还设置为当第i个所述粉丝用户与第j个所述VIP相互关注时，调整所述兴趣权重W_ij得到调整的兴趣权重W_ij'，调整的兴趣权重W_ij'采用的计算公式为：

W_ij'＝W_ij×log(1+R_ji)

所述得分计算模块，具体设置为当所述粉丝用户对所述VIP用户为单向关注时，兴趣得分计算公式为：

Sum＝W_ij×λ×m

Sum＝W_ij'×λ×m

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述一种基于社交网络的用户兴趣标签构建方法的步骤。

7.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述一种基于社交网络的用户兴趣标签构建方法的步骤。