CN105589935A

CN105589935A - 社交群组识别方法

Info

Publication number: CN105589935A
Application number: CN201510920148.1A
Authority: CN
Inventors: 董政; 吴文杰; 陈露; 李学生
Original assignee: Chengdu Mo Yun Science And Technology Ltd
Current assignee: Chengdu Mo Yun Science And Technology Ltd
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-05-18

Abstract

本发明提供了一种社交群组识别方法，该方法包括：统计用户节点间的会话内容和关系，基于上述统计结果来识别特定社交群组。本发明提出了一种社交群组识别方法，有效提高互联网社交组群的识别准确率和时效性。

Description

社交群组识别方法

技术领域

本发明涉及大数据，特别涉及一种社交群组识别方法。

背景技术

随着移动互联网的发展，将生活中的社交关系迁移到了互联网上，带来了信息交换方式的变革，而且改变了传统的人际沟通方式，对社会生活的各个领域具有深远的意义。用户之间可以广泛地沟通、互动，通过撰写、中转、收藏等手段对文本数据进行操作。在社交网络中，总存在部分节点连接比较紧密，而这些节点同其他节点之间的联系则相对稀疏，由此可将这部分连接紧密的节点归为同一个群组。群组作为一种重要的社交关系属性，无形中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群组关系进行充分识别识别，则无法识别群组兴趣，推荐感兴趣内容，更无法及时发现危害信息，维护良好的网络环境。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种社交群组识别方法，包括：

统计用户节点间的会话内容和关系，基于上述统计结果来识别特定社交群组。

优选地，所述统计用户节点间的会话内容和关系，进一步包括：

利用数据结构对会话过程进行描述；将参与会话的用户以关系连接在一起，构建成基于单个事件的群组；最后在社交关系拓扑中采用节点衡量指标识别强关系群组中的节点，最后以树形的层级结构将该事件存储至文件；其中所述强关系群组具体定义为，如果已知群组α满足：对于群组α内的每个用户节点i，均满足i与群组α内节点构成的节点数量大于该节点与群组α外节点构成的节点数量，则群组α被称为强关系群组；

获取每个会话拓扑中包含的指向上级节点的备注信息，找到某个特定节点的父节点，获取每条会话所维护的中转列表，记录所有中转该信息的用户以及评论，由此发现该信息节点的子节点集；在会话树的基础上，通过用户之间的关系，将参与会话的节点构建成关系网络；在获取社交关系时，获取共同关注列表，利用每个节点L完成对参与事件会话用户u的关注，如果u_i关注了u_j，则节点L与ui具有共同关注，即u_j节点；通过这种方式得到u_i是否关注了群组内的其他节点；

提取候选用户的语义信息，在此基础上将语义信息与会话标题匹配的用户筛选出来作为相同语义用户，再对相同语义用户进行社交关系分析，对于符合分析结果的用户筛选出来作为新的候选用户；候选用户又分为文本相关用户和关系相关用户；在每一次的迭代过程中关系相关用户通过语义分析产生文本相关用户，再计算文本相关用户的会话标题关联度阈值，从而得到目标群组；

初始候选用户集合利用搜索引擎获取，具体步骤如下：获得群组特征词，在搜索引擎中进行检索，对检索的结果进行抓取，获得发表文本内容的用户的链接信息，通过分析上述用户的链接信息，对每个用户的社交内容进行抓取，作为初始化候选用户；

对用户的会话文本进行分析，通过计算用户会话标题关联度来比较每个用户与特定会话标题之间的相关程度，若存在第i次模型迭代后的关系用户集合，为了得到第i+1次的文本相关用户集合，对关系用户集合中的每一个元素即每一个文本相关用户，给定语义关键词，计算每个文本相关用户的会话标题关联度；用户i的会话标题关联度等于该用户出现关键词的次数除以用户的文本总数；在得到了文本相关用户集合之后，计算文本相关用户的不重复的会话标题关联度值的个数，进而得到群组节点的阈值；

若计算第i次迭代后的文本相关用户有M个，其中非重复的用户有MU个；则群组节点的前N个用户表达为：

对M个文本相关用户按照会话标题关联度值降序排列，排序后的前N个用户是有效的，即这前N个用户是群组中的一员；得到N个用户之后就可以将他们作为群组节点加入群组节点集合。

本发明相比现有技术，具有以下优点：

本发明提出了一种社交群组识别方法，有效提高互联网社交组群的识别准确率和时效性。

附图说明

图1是根据本发明实施例的社交群组识别方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种社交群组识别方法。图1是根据本发明实施例的社交群组识别方法流程图。

为了完成对社交网络的群组分析，首先建立数据采集***对社交网站服务器上的数据进行采集，其中数据类型包括：用户信息如用户ID、用户名、文本数据如会话ID、会话文本，以及关系数据如关注列表与关注者列表。该***包含以下模块：用户信息获取、文本数据获取、社交关系生成、去冗余、多线程、数据存储、优先级选择、令牌批量获取。数据采集***中的主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作；数据获取线程借助API开放接口进行数据采集，采集过程包括接口请求、json数据解析、指针更新，最终返回给主控线程总数据列表。在去冗余计算的选择上，本发明采用二进制向量和一系列随机映射函数。为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加了去冗余函数，种子列表，抓取用户列表、社交列表均以其唯一标识ID进行，而关系的格式则将两个用户的ID组合到一起，并区分两者的先后顺序，前者为被关注，后者为前者的关注者。***在多个模块添加了相应操作：提取种子ID时，多线程对数据库的操作添加互斥锁；为每个线程分配抓取任务，如线程1只负责文本的获取；线程2获取用户个人信息；为每个线程令牌资源库进行区分式排列组合。并为每个线程单独设置一个断点文件，记录抓取的位置。数据库模块将数据库连接、关闭、查询、增加、删除操作进行统一管理，抓取对象的ID首先由人工方式输入至文件，每次开始抓取任务之前都加载一遍优先级文件。在分任务处理中在抓取对象上，为每个线程制定一套特定的抓取任务，从用户信息获取、文本获取、关系获取中选取的一个或多个处理目标。从速度的控制上***共提出了两种调节方式，一是控制线程的数量，二是调整API请求后获取的数据量。

用户个人属性可以反映出用户的特性，而这种特性恰好提供了识别群组所需的强特征。本发明首先通过人工方式对待识别的群组进行描述，并按照这些群组特性抽象出一组关键词列表，即群组特征词。其次，利用用户信息过滤模块对检测到的用户进行识别，发现属于该群组的用户节点。在过滤过程中采用字符串正则匹配将用户个人属性与群组特征词进行匹配，如果在用户个人属性或用户名称等文本数据中包含这些特征词，则将该用户划分至待识别的群组。

用户行为过滤模块处理由社交网络中用户的主观意愿而产生的文本数据，利用以下过程计算用户与群组之间的相似度。

首先建立一个基于群组特征词的N维向量空间U，具体如下表示：

U＝[T_l,T₂，T₃，...，T_N]

其中T代表在群组中某个特征词出现的频率向量，N表示特征词的下标。

其次，利用文本分割对用户A的全部文本P_A进行处理。

P_A＝[key₁，key₂，...，key_N]

sim(A，U)＝(P_A·U)/||(P_A||||U||)

这里的key值为用户会话文本中每个特征词出现的频率向量，比较用户文本数据与群组之间的行为特征是否相近，如若相似度sim(A，U)超过预定的阈值，则将该用户节点A划分至群组U内。当该节点加入群组后，群组特征词会随着群组内用户集合所产生的文本数据动态变化，识别当前群组内的潜在特征词。

在社交关系过滤模块中，本发明应用了社交网络中的关系属性识别未知节点是否属于群组。如果已知群组α满足以下要求，则群组α被称为强关系群组：对于群组α内的每个用户节点i，均满足i与群组α内节点构成的节点数量大于该节点与群组α外节点构成的节点数量。

采用以下方法进行强关系群组识别，首先对会话过程进行还原，以数据结构加以描述；其次将参与会话的用户以真实的关系连接在一起，构建成基于单个事件的群组；最后在社交关系拓扑中采用相应的节点衡量指标识别强关系群组中的节点。

本发明对于社交网络中信息的会话规律进行了分析，并通过中转关系还原真实的事件发展过程，最后以树形的层级结构将该事件存储至文件。

每个会话拓扑中都会包含一个指向上级节点的备注信息，据此可找到某个特定节点的父节点。每条会话也都会维护一个中转列表，记录所有中转该信息的用户以及评论，据此可以发现该信息节点的子节点集。在会话树的基础上，通过用户之间的真实关系，将参与会话的节点构建成关系网络。获取真实的社交关系。采用API与网页解析相结合共同关注方法，建立社交关系的拓扑，利用每个节点L完成对参与事件会话用户u的关注，由此可知如果u_i关注了u_j，则节点L与u_i具有共同关注，即u_j节点。通过这种方式得到u_i是否关注了群组内的其他节点。

在利用语义、关系、用户数据进行群组识别的过程中，首先提取候选用户的语义信息，在此基础上将语义信息与会话标题匹配的用户筛选出来作为相同语义用户，再对相同语义用户进行社交关系分析，对于关系分析排名前面的用户筛选出来作为新的候选用户。候选用户又分为文本相关用户和关系相关用户。在每一次的迭代过程中关系相关用户通过语义分析产生文本相关用户，再计算文本相关用户的会话标题关联度阈值，从而得到目标群组。

候选用户集合使用符号us表示，利用搜索引擎获取初始候选用户集合，具体步骤如下：获得群组特征词，在搜索引擎中进行检索，对检索的结果进行抓取，获得发表文本内容的用户的链接信息，通过分析上述用户的链接信息，对每个用户的社交内容进行抓取，作为初始化候选用户。

第i次迭代过程中产生的候选用户集合用us_i表示，其候选用户用u_ij表示，us_i与u_ij之间的关系可表示为：

us_i＝(u_i1，…u_ij)j＜N_i

N_i表示第i次迭代过程中产生的候选用户的个数。

候选用户根据不同的生成过程和特定属性通常分为文本相关用户、关系相关用户和群组节点。

对相关候选用户进行语义分析是模型迭代的第一步。候选用户是上一次迭代的关系相关用户。对用户的会话文本进行分析，通过计算用户会话标题关联度来比较每个用户与特定会话标题之间的相关程度。若存在第i次模型迭代后的关系用户集合，为了得到第i+1次的文本相关用户集合，对关系用户集合中的每一个元素即每一个文本相关用户，给定语义关键词，计算每个文本相关用户的会话标题关联度。用户i的会话标题关联度等于该用户出现关键词的次数除以用户的文本总数，一个用户i的会话标题关联度值越高，说明用户i与该会话标题之间的关联度越高。通过计算用户会话标题关联度，分辨出哪些用户与该会话标题关联紧密。

在得到了文本相关用户集合之后，确定哪些文本相关用户是有效的，得到群组节点。通过计算文本相关用户的不重复的会话标题关联度值的个数，进而得到群组节点的TopN阈值。

若计算第i次迭代后的文本相关用户有M个，其中非重复的用户有MU个。则，群组节点的前N个用户表达为：

对M个文本相关用户按照会话标题关联度值降序排列，排序后的前N个用户是有效的，即这前N个用户是群组中的一员。得到N个用户之后就可以将他们作为群组节点加入群组节点集合。

当得到群组节点之后，通过增加样本，扩大搜索范围。通过社交关系分析从群组节点的关系网中识别深层的候选用户。社交关系分析包括步骤：

得到群组节点中关注者和被关注者集合构成的有向网络图。计算网络中每个用户的共同关注度，即用户i的关注者集合中每两个关注者形成互相关注的次数。共同关注度大于预定义阈值的用户，即为所需要的关系用户。

在得到关系用户之后，即可对模型继续迭代，通过数据抓取程序继续抓取关系用户的社交行为，从而对其进行语义分析。

综上所述，本发明提出了一种社交群组识别方法，有效提高互联网社交组群的识别准确率和时效性。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算***来实现，它们可以集中在单个的计算***上，或者分布在多个计算***所组成的网络上，可选地，它们可以用计算***可执行的程序代码来实现，从而，可以将它们存储在存储***中由计算***来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种社交群组识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述统计用户节点间的会话内容和关系，进一步包括：

获取每个会话拓扑中包含的指向上级节点的备注信息，找到某个特定节点的父节点，获取每条会话所维护的中转列表，记录所有中转该信息的用户以及评论，由此发现该信息节点的子节点集；在会话树的基础上，通过用户之间的关系，将参与会话的节点构建成关系网络；在获取社交关系时，获取共同关注列表，利用每个节点L完成对参与事件会话用户u的关注，如果u_i关注了u_j，则节点L与u_i具有共同关注，即u_j节点；通过这种方式得到u_i是否关注了群组内的其他节点；