CN111368552A

CN111368552A - 一种面向特定领域的网络用户群组划分方法及装置

Info

Publication number: CN111368552A
Application number: CN202010120988.0A
Authority: CN
Inventors: 尹航; 刘尚奇; 王国威; 刘超; 李逸群; 闵燚; 李猛
Original assignee: BEIJING MUNICIPAL PUBLIC SECURITY BUREAU; Institute of Automation of Chinese Academy of Science
Current assignee: BEIJING MUNICIPAL PUBLIC SECURITY BUREAU; Institute of Automation of Chinese Academy of Science
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-07-03
Anticipated expiration: 2040-02-26
Also published as: CN111368552B

Abstract

本申请涉及一种面向特定领域的网络用户群组划分方法及装置，其中，该方法包括：从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；根据帐号集合所对应的目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号对应的帐号序列，其中，帐号序列包括以每个帐号为起始帐号的多个帐号；根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二特征向量；根据第二特征向量将帐号集合中所包括的帐号划分为多个网络用户群组。本申请解决了对网络用户群组进行划分时准确率较低的技术问题。

Description

一种面向特定领域的网络用户群组划分方法及装置

技术领域

本申请涉及计算机领域，尤其涉及一种面向特定领域的网络用户群组划分方法及装置。

背景技术

随着互联网的发展，面向特定领域的网络用户群组发现旨在从多来源海量网络文本及关联网络数据中发现潜在相关面向特定领域的网络用户群组，在商业智能、网络信息监管领域具有重要应用价值。现有方法主要包括三大类：基于深度学习的方法，基于矩阵分解的方法以及基于概率模型的方法。但是，现有方法发现的群体针对性不强，准确性较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种面向特定领域的网络用户群组划分方法及装置。

根据本申请实施例的一个方面，提供了一种面向特定领域的网络用户群组的划分方法，包括：

从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；

根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列，其中，所述帐号序列包括以所述每个帐号为起始帐号的多个帐号；

根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量；

根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。

可选地，从采集到的所述网络文本数据中提取所述一个或者多个领域对应的语义线索信息包括：

从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语句；

获取所述一个或者多个领域的初始线索矩阵，其中，所述初始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵；

根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重；

将所述每个词的词向量的加权和确定为所述网络文本语句对应的嵌入语句；

通过所述初始线索矩阵对所述嵌入语句进行重构，得到重构语句；

使用所述网络文本语句对所述初始线索矩阵进行训练，直至所述嵌入语句与所述重构语句之间的相似度高于目标相似度，得到目标线索矩阵，其中，所述目标线索矩阵为所述一个或者多个领域的目标线索的特征向量的矩阵。

可选地，根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重包括：

将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线索的特征向量进行双线性变换计算，得到所述每个词属于所述每个初始线索的概率；

将所述每个词属于所述每个初始线索的概率中的最大值确定为所述每个词对应的初始权重；

对所述初始权重进行归一化处理得到所述每个词对应的权重。

可选地，通过以下公式确定所述每个词对应的初始权重d_i：

其中，P₁，P₂，……，P_k为所述每个初始线索的特征向量，

为所述每个词对应的词向量，W_s为进行双线性变换时引入的相似性矩阵；

通过以下公式确定所述每个词对应的权重w_i：

可选地，根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列包括：

从所述目标线索矩阵中获取所述目标领域的线索矩阵；

从所述帐号集合对应的关系网络图中获取所述帐号集合中帐号之间的关联关系，其中，所述关系网络图以所述帐号集合中的帐号为节点，以所述帐号集合中的帐号之间的关联关系为边；

获取目标序列长度，其中，所述目标序列长度用于指示所述帐号序列中的帐号数量；

以所述每个帐号为起始的当前节点，按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点，直至选取出所述帐号数量的节点，得到所述帐号序列，其中，所述节点采样概率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定的。

可选地，以所述每个帐号为起始的当前节点，按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点，直至选取出所述帐号数量的节点，得到所述帐号序列包括：

通过以下公式确定基于线索的节点采样概率：

δ_a(w)＝1 if w∈set_a else 0

其中，帐号u为所述当前节点

帐号x为所述下一个当前节点

H_a为所述目标领域的线索矩阵，set_a为所述目标领域的线索矩阵对应的线索词集合，M为帐号x的文本数据的词集合；

通过以下公式确定基于关联关系的节点采样概率：

其中，θ_ux为帐号u与帐号x之间未规范化的转移概率，Z为规范化常数，E为所述关系网络图的边集合；

将所述基于线索的节点采样概率与所述基于关联关系的节点采样概率的加权和确定为所述节点采样概率，其中，所述基于线索的节点采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重之和为1；

按照所述节点采样概率以所述每个帐号为起始的当前节点v_i，在所述关系网络图中游走，生成所述目标序列长度l的节点序列

其中，

表示起始节点v_i，

表示从节点

的邻接节点中随机选中的节点；

将所述节点序列确定为所述帐号序列。

根据本申请实施例的另一方面，还提供了一种面向特定领域的网络用户群组的划分装置，包括：

提取模块，用于从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；

确定模块，用于根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列，其中，所述帐号序列包括以所述每个帐号为起始帐号的多个帐号；

生成模块，用于根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量；

划分模块，用于根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。

可选地，所述提取模块包括：

采集单元，用于从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语句；

第一获取单元，用于获取所述一个或者多个领域的初始线索矩阵，其中，所述初始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵；

第一确定单元，用于根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重；

第二确定单元，用于将所述每个词的词向量的加权和确定为所述网络文本语句对应的嵌入语句；

重构单元，用于通过所述初始线索矩阵对所述嵌入语句进行重构，得到重构语句；

训练单元，用于使用所述网络文本语句对所述初始线索矩阵进行训练，直至所述嵌入语句与所述重构语句之间的相似度高于目标相似度，得到目标线索矩阵，其中，所述目标线索矩阵为所述一个或者多个领域的目标线索的特征向量的矩阵。

可选地，第一确定单元用于：

通过以下公式确定所述每个词对应的初始权重d_i：

通过以下公式确定所述每个词对应的权重w_i：

可选地，所述确定模块包括：

第二获取单元，用于从所述目标线索矩阵中获取所述目标领域的线索矩阵；

第三获取单元，用于从所述帐号集合对应的关系网络图中获取所述帐号集合中帐号之间的关联关系，其中，所述关系网络图以所述帐号集合中的帐号为节点，以所述帐号集合中的帐号之间的关联关系为边；

第四获取单元，用于获取目标序列长度，其中，所述目标序列长度用于指示所述帐号序列中的帐号数量；

选取单元，用于以所述每个帐号为起始的当前节点，按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点，直至选取出所述帐号数量的节点，得到所述帐号序列，其中，所述节点采样概率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定的。

可选地，所述选取单元用于：

通过以下公式确定基于线索的节点采样概率：

δ_a(w)＝1 if w∈set_a else 0

其中，帐号u为所述当前节点

帐号x为所述下一个当前节点

通过以下公式确定基于关联关系的节点采样概率：

其中，

表示起始节点v_i，

表示从节点

的邻接节点中随机选中的节点；

将所述节点序列确定为所述帐号序列。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本申请实施例中，采用从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；根据帐号集合所对应的目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号对应的帐号序列，其中，帐号序列包括以每个帐号为起始帐号的多个帐号；根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二特征向量；根据第二特征向量将帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组的方式，有机集成线索的语义内容和帐号的关联关系，提升面向领域的网络用户群组发现的准确性及针对性，从而实现了提高对网络用户群组进行划分时准确率的技术效果，进而解决了对网络用户群组进行划分时准确率较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的面向特定领域的网络用户群组的划分方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的面向特定领域的网络用户群组的划分方法的流程图；

图3是根据本申请可选实施例的一种可选的面向特定领域的网络用户群组的划分方法的流程图；

图4是根据本申请实施例的一种可选的面向特定领域的网络用户群组的划分装置的示意图；

图5是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种面向特定领域的网络用户群组的划分的方法实施例。

可选地，在本实施例中，上述面向特定领域的网络用户群组的划分方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器103 提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的面向特定领域的网络用户群组的划分方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的面向特定领域的网络用户群组的划分方法也可以是由安装在其上的客户端来执行。

图2是根据本申请实施例的一种可选的面向特定领域的网络用户群组的划分方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；

步骤S204，根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列，其中，所述帐号序列包括以所述每个帐号为起始帐号的多个帐号；

步骤S206，根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量；

步骤S208，根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。

通过上述步骤S202至步骤S208，采用从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；根据帐号集合所对应的目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号对应的帐号序列，其中，帐号序列包括以每个帐号为起始帐号的多个帐号；根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二特征向量；根据第二特征向量将帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组的方式，有机集成线索的语义内容和帐号的关联关系，提升面向领域的网络用户群组发现的准确性及针对性，从而实现了提高对网络用户群组进行划分时准确率的技术效果，进而解决了对网络用户群组进行划分时准确率较低的技术问题。

在步骤S206提供的技术方案中，在得到帐号序列后，采用 skip-gram模型，就可以获得每个帐号对应的第二特征向量。

在步骤S208提供的技术方案中，基于生成的每个帐号对应的第二特征向量，可以采用聚类算法将帐号节点划分到不同的群体。

可选地，在本实施例中，领域可以但不限于按照主题划分为体育、娱乐、文化、财经、科技等等，按照技术划分为：医学、互联网、机械、电路、计算机等等。一个或者多个领域可以预先进行设定。目标领域是需要进行网路用户群组划分的领域，目标领域的数量可以是一个或者多个。

可选地，在本实施例中，网络文本数据可以但不限于是帐号的网络操作所形成的文本数据，比如：博客中发布的文章、即时通信应用中发送的信息、网页中发表的评论等等。

可选地，在本实施例中，帐号之间的关联关系可以但不限于包括：帐号之间的关注的关系、好友关系、评论点赞的关系、从属关系等等。

作为一种可选的实施例，从采集到的所述网络文本数据中提取所述一个或者多个领域对应的语义线索信息包括：

S1，从所述帐号集合中的帐号发送的网络信息中采集所述网络文本语句；

S2，获取所述一个或者多个领域的初始线索矩阵，其中，所述初始线索矩阵为所述一个或者多个领域的初始线索的特征向量的矩阵；

S3，根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重；

S4，将所述每个词的词向量的加权和确定为所述网络文本语句对应的嵌入语句；

S5，通过所述初始线索矩阵对所述嵌入语句进行重构，得到重构语句；

S6，使用所述网络文本语句对所述初始线索矩阵进行训练，直至所述嵌入语句与所述重构语句之间的相似度高于目标相似度，得到目标线索矩阵，其中，所述目标线索矩阵为所述一个或者多个领域的目标线索的特征向量的矩阵。

可选地，在本实施例中，网络文本具有随意性、隐蔽性特点，通常包含特定用词和交流习惯，且不同领域间差别较大；讨论量少的目标线索的主题常被讨论量多的其他主题信息覆盖，识别难度大。通过领域知识驱动的线索语义分析过程，在领域先验知识(相当于上述初始线索矩阵)的驱动下可进行句子自编码，学习得到各领域的深度语义表示，进而通过计算词语与各线索的语义相似性，最终确定特定领域下各个线索的关键词。

可选地，在本实施例中，可以但不限于通过以下方式进行句子嵌入和重构，用于得到线索的深度语义表示矩阵H∈R^k*n(即上述目标线索矩阵)，k为线索数，n为向量的维度。首先，通过确定每个词对应的权重，可构建基于领域知识的句子表示c_s。句子表示c_s为其包含的所有词的词向量的加权求和，构造过程如下所示：

接下来对句子进行重构，首先计算句子的线索分布q_s∈R^k，q_s代表了句子属于各个线索的概率大小，计算方式如下式所示：

q_s＝softmax(A*c_s)+b

其中，A∈R^k*nb∈R^k为待学习的参数。

进一步，重构的句子嵌入d_s，即将线索矩阵H中的线索嵌入按照如下公式做线性加权：

d_s＝q_s*H

训练目标是降低重构句子嵌入时的损失，即让重构的句子嵌入d_s和用注意力机制构造的句子嵌入c_s尽量相似。采用contrastive max-margin objective function作为损失函数。对每个输入句子，从训练集中随机抽取e个句子作为负样本，用这些句子的词向量的算术平均代表每个负样本m_i。损失函数L定义如下：

其中，Y代表训练语料集合(即上述网络文本语句)。

作为一种可选的实施例，根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重包括：

S1，将所述每个词对应的词向量与所述初始线索矩阵中的每个初始线索的特征向量进行双线性变换计算，得到所述每个词属于所述每个初始线索的概率；

S2，将所述每个词属于所述每个初始线索的概率中的最大值确定为所述每个词对应的初始权重；

S3，对所述初始权重进行归一化处理得到所述每个词对应的权重。

可选地，在本实施例中，首先确定各个领域每个线索的若干种子词，建立领域背景知识的矩阵P(即初始线索矩阵)，P中的每行元素P_j为第j个线索的所有种子词的词向量表示的平均值。句子中的每个单词的注意力权重(即上述每个词对应的权重)计算过程如下，对句子中的第i个单词s_i，通过其词向量表示v_si和每一个线索背景知识表示 P_j进行双线性变换计算，从而得到其属于每一个线索的概率，最后取最大值d_i作为该词的初始权重。得到每一个单词的初始权重之后，通过 softmax函数进行归一化操作就得到了每一个词最终的权重w_i。

可选地，可以但不限于通过以下公式确定所述每个词对应的初始权重d_i：

可以但不限于通过以下公式确定所述每个词对应的权重w_i：

可选地，在本实施例中，W_s是进行双线性变换时引入的相似性矩阵，会在优化过程中作为参数进行学习。

作为一种可选的实施例，根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列包括：

S1，从所述目标线索矩阵中获取所述目标领域的线索矩阵；

S2，从所述帐号集合对应的关系网络图中获取所述帐号集合中帐号之间的关联关系，其中，所述关系网络图以所述帐号集合中的帐号为节点，以所述帐号集合中的帐号之间的关联关系为边；

S3，获取目标序列长度，其中，所述目标序列长度用于指示所述帐号序列中的帐号数量；

S4，以所述每个帐号为起始的当前节点，按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点，直至选取出所述帐号数量的节点，得到所述帐号序列，其中，所述节点采样概率是根据所述邻接节点所对应的特征向量与所述目标领域的线索矩阵之间的相似度以及所述当前节点与所述邻接节点之间的关联关系确定的。

可选地，在本实施例中，对于一个关联网络图G，其边集合为E，将游走序列的起点节点v_i以及最大游走长度l作为输入，生成的节点序列为

其中，

表示起始节点v_i，

表示从节点

的邻接节点集中随机选中的节点，其产生的概率为：

其中，content为关联网络图中帐号节点发帖内容中挖掘出的线索语义信息，P_content为基于线索的节点采样概率，P_struct为基于关联关系的节点采样概率，β为基于线索的节点采样概率和基于关联关系的节点采样概率的权衡因子。

可选地，在本实施例中，可以但不限于通过以下方式得到帐号序列包括：

S1，通过以下公式确定基于线索的节点采样概率：

δ_a(w)＝1 if w∈set_a else 0

其中，帐号u为所述当前节点

帐号x为所述下一个当前节点

S2，通过以下公式确定基于关联关系的节点采样概率：

S3，将所述基于线索的节点采样概率与所述基于关联关系的节点采样概率的加权和确定为所述节点采样概率，其中，所述基于线索的节点采样概率对应的权重与所述基于关联关系的节点采样概率对应的权重之和为1；

S4，按照所述节点采样概率以所述每个帐号为起始的当前节点v_i，在所述关系网络图中游走，生成所述目标序列长度l的节点序列

其中，

表示起始节点v_i，

表示从节点

的邻接节点中随机选中的节点；

S5，将所述节点序列确定为所述帐号序列。

可选地，在本实施例中，挖掘出的线索分布矩阵，对于特定领域a，会得到其深度语义向量表示H_a以及对应的线索词集合set_a。计算从当前帐号u到下一个帐号x的基于线索的节点采样概率时，对于帐号x发帖的每一个词s_i，计算其词向量

跟线索向量之间的余弦相似度，并且如果该词在目前线索词集合中，给予更高的权重，最后进行归一化得到基于线索的节点采样概率。

可选地，在本实施例中，在确定基于关联关系的节点采样概率的过程中，二阶随机游走过程包括两个系数，p、q，考虑一个随机游走过程，已经检索完一条边(t,u)，游走的起点变为当前节点u。设定θ_ux为θ_ux＝τ_pq(t,x)*w_ux，其中，w_ux为边(u,x)的静态权重，且

其中，d_tx为从节点t到节点x之间的最短路径距离，d_tx∈{0,1,2}；参数p、q分别控制每一步游走过程中停留、离开当前节点u的直接邻居节点的速度。

本申请还提供了一种可选实施例，该可选实施例提出了基于领域知识的语义线索驱动的受限随机游走面向特定领域的网络用户群组的划分方法，图3是根据本申请可选实施例的一种可选的网络用户群组的划分方法的流程图，如图3所示，该流程包括以下步骤：

步骤S302，采集网络文本数据并对其进行预处理，比如：帐号的发帖、评论、文章等文本，将其统一转换为特定的格式。

步骤S304，利用网络文本数据进行领域知识驱动的线索语义分析。通过线索词注意力权重计算以及句子嵌入和重构等过程训练初始线索矩阵以及其他参数，得到目标线索矩阵。

步骤S306，基于领域知识的线索语义以及基于关联关系驱的受限随机游走过程，得到节点序列。基于发现的领域相关的线索，为了识别领域相关的网络用户群组，在网络关联图上进行线索受限随机游走，游走过程中同时以领域知识的线索语义以及帐号之间的关联关系来依据确定节点采样概率，选取出节点序列。在随机游走过程中，会考虑到帐号发帖内容与领域的线索之间的语义相关性，以及帐号之间的关联关系。

步骤S308，根据得到的节点序列进行网络用户群组的划分。得到节点序列后，进行帐号向量表示的学习，从而将网络关联图映射到低维向量空间中，在该空间中，联系越紧密的帐号之间的距离越近。通过聚类算法发现网络用户群组。

通过上述过程，可以实现面向特定领域的网络用户群组的发现，可充分考虑领域特性，自动挖掘出领域相关的线索，并以线索为驱动，捕获领域相关的网络用户群组，可广泛适用于商业、网络安全等场景。通过领域知识驱动的句子自编码过程，学习各领域的深度语义表示，实现各个领域的线索发现，解决了讨论量少的线索难以被准确识别的技术挑战。通过线索受限随机游走过程,有机集成线索的语义内容和帐号的关联关系，提升面向领域的网络用户群组发现的准确性及针对性。具有有机融合领域特性、发现群体更准确、针对性更强等优点。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述网络用户群组的划分方法的网络用户群组的划分装置。图4是根据本申请实施例的一种可选的网络用户群组的划分装置的示意图，如图4所示，该装置可以包括：

提取模块42，用于从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；

确定模块44，用于根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列，其中，所述帐号序列包括以所述每个帐号为起始帐号的多个帐号；

生成模块46，用于根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量；

划分模块48，用于根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个网络用户群组。

需要说明的是，该实施例中的提取模块42可以用于执行本申请实施例中的步骤S202，该实施例中的确定模块44可以用于执行本申请实施例中的步骤S204，该实施例中的生成模块46可以用于执行本申请实施例中的步骤S206，该实施例中的划分模块48可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，有机集成线索的语义内容和帐号的关联关系，提升面向领域的网络用户群组发现的准确性及针对性，从而实现了提高对网络用户群组进行划分时准确率的技术效果，进而解决了对网络用户群组进行划分时准确率较低的技术问题。

作为一种可选的实施例，所述提取模块包括：

作为一种可选的实施例，第一确定单元用于：

通过以下公式确定所述每个词对应的初始权重d_i：

通过以下公式确定所述每个词对应的权重w_i：

作为一种可选的实施例，所述确定模块包括：

作为一种可选的实施例，所述选取单元用于：

通过以下公式确定基于线索的节点采样概率：

δ_a(w)＝1 if w∈set_a else 0

其中，帐号u为所述当前节点

帐号x为所述下一个当前节点

通过以下公式确定基于关联关系的节点采样概率：

其中，

表示起始节点v_i，

表示从节点

的邻接节点中随机选中的节点；

将所述节点序列确定为所述帐号序列。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述网络用户群组的划分方法的服务器或终端。

图5是根据本申请实施例的一种终端的结构框图，如图5所示，该终端可以包括：一个或多个(图中仅示出一个)处理器501、存储器 503、以及传输装置505，如图5所示，该终端还可以包括输入输出设备507。

其中，存储器503可用于存储软件程序以及模块，如本申请实施例中的网络用户群组的划分方法和装置对应的程序指令/模块，处理器501通过运行存储在存储器503内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的网络用户群组的划分方法。存储器503可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器503可进一步包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置505用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置505包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置505为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器503用于存储应用程序。

处理器501可以通过传输装置505调用存储器503存储的应用程序，以执行下述步骤：

S1，从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；

S2，根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列，其中，所述帐号序列包括以所述每个帐号为起始帐号的多个帐号；

S3，根据所述帐号序列中帐号的第一特征向量生成所述每个帐号对应的第二特征向量；

S4，根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个网络用户群组。

采用本申请实施例，提供了一种面向特定领域的网络用户群组的划分的方案。采用从采集到的网络文本数据中提取一个或者多个领域对应的语义线索信息；根据帐号集合所对应的目标领域的目标语义线索信息以及帐号集合中帐号之间的关联关系确定帐号集合中每个帐号对应的帐号序列，其中，帐号序列包括以每个帐号为起始帐号的多个帐号；根据帐号序列中帐号的第一特征向量生成每个帐号对应的第二特征向量；根据第二特征向量将帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组的方式，有机集成线索的语义内容和帐号的关联关系，提升面向领域的网络用户群组发现的准确性及针对性，从而实现了提高对网络用户群组进行划分时准确率的技术效果，进而解决了对网络用户群组进行划分时准确率较低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行面向特定领域的网络用户群组的划分方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S4，根据所述第二特征向量将所述帐号集合中所包括的帐号划分为多个面向特定领域的网络用户群组。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种面向特定领域的网络用户群组的划分方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，从采集到的所述网络文本数据中提取所述一个或者多个领域对应的语义线索信息包括：

3.根据权利要求2所述的方法，其特征在于，根据所述初始线索矩阵以及所述网络文本语句中每个词对应的词向量确定所述每个词对应的权重包括：

4.根据权利要求3所述的方法，其特征在于，

通过以下公式确定所述每个词对应的初始权重d_i：

通过以下公式确定所述每个词对应的权重w_i：

5.根据权利要求2所述的方法，其特征在于，根据帐号集合所对应的目标领域的目标语义线索信息以及所述帐号集合中帐号之间的关联关系确定所述帐号集合中每个帐号对应的帐号序列包括：

从所述目标线索矩阵中获取所述目标领域的线索矩阵；

6.根据权利要求5所述的方法，其特征在于，以所述每个帐号为起始的当前节点，按照节点采样概率从所述当前节点的邻接节点中选取下一个当前节点，直至选取出所述帐号数量的节点，得到所述帐号序列包括：

通过以下公式确定基于线索的节点采样概率：

其中，帐号u为所述当前节点

帐号x为所述下一个当前节点

通过以下公式确定基于关联关系的节点采样概率：

其中，

表示起始节点v_i，

表示从节点

的邻接节点中随机选中的节点；

将所述节点序列确定为所述帐号序列。

7.一种面向特定领域的网络用户群组的划分装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述提取模块包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。