CN112819056A

CN112819056A - 群控账号挖掘方法、装置、设备及存储介质

Info

Publication number: CN112819056A
Application number: CN202110098987.5A
Authority: CN
Inventors: 曹轲; 钟清华
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-18
Also published as: WO2022156720A1

Abstract

本申请实施例公开了一种群控账号挖掘方法、装置、设备及存储介质，涉及网络直播技术领域，其包括：获取用户群在设定时间段内的第一观看数据，所述用户群中每个用户对应一个第一观看数据，每个所述第一观看数据包含相应用户在所述设定时间段内观看的主播身份数据；根据所述第一观看数据在所述用户群中查找出相似观看用户；根据所述相似观看用户在所述用户群中挖掘出相似观看用户群，并根据所述相似观看用户群确定属于群控账号的目标用户群。采用上述方法可以解决现有技术中群控账号挖掘过程安全性低、易被破解的技术问题。

Description

群控账号挖掘方法、装置、设备及存储介质

技术领域

本申请实施例涉及网络直播技术领域，尤其涉及一种群控账号挖掘方法、装置、设备及存储介质。

背景技术

“人气”是直播行业的一个特定术语，其能够综合反映出主播的受欢迎程度和直播内容质量。人气可通过观众数、观看长度、开播长度、关注数、互动情况、弹幕数、礼物打赏等维度进行计算。其中，观众数是衡量人气的重要维度，推荐主播时各主播的排序可通过观众数决定。并且，很多直播平台通过观众数进行主播的工资结算。

一般而言，通过群控软件批量操作大量僵尸账号(即群控账号)可提升主播房间的人气。现有技术中，为了防止群控账号的出现，采用如下方法检测群控账号：1、设备环境聚集检测法，其通过对用户注册时使用的手机号和观看主播时使用的IP地址来确定是否存在群控账号，其中，群控账号中各手机号共用IP地址的情况较为突出；2、房间特征异常检测法，利用群控账号增加人气时，主播房间内礼物打赏、观众数、弹幕数等数据特征分布存在异常，比如正常情况下主播房间的观众数达到阈值时其礼物打赏会在一个分布区间里，而群控账号下主播房间的观众数达到阈值时其礼物打赏明显小于正常分布区间，此时，通过异常检测方式可以找到特征分布异常的主播。虽然，上述方法可检测出群控账号，但是，安全性较低，易被破解。比如使用动态IP池的方式避免手机号共用相同的IP地址，再如使用分布式云群控账号访问、切换送礼物账号等方式可以避免特征分布异常。

综合，如何安全、准确的挖掘出直播中的群控账号，成为了亟需解决的技术问题。

发明内容

本申请实施例提供了一种群控账号挖掘方法、装置、设备及存储介质，以解决现有技术中群控账号挖掘过程安全性低、易被破解的技术问题。

第一方面，本申请实施例提供了一种群控账号挖掘方法，包括：

获取用户群在设定时间段内的第一观看数据，所述用户群中每个用户对应一个第一观看数据，每个所述第一观看数据包含相应用户在所述设定时间段内观看的主播身份数据；

根据所述第一观看数据在所述用户群中查找出相似观看用户；

根据所述相似观看用户在所述用户群中挖掘出相似观看用户群，并根据所述相似观看用户群确定属于群控账号的目标用户群。

第二方面，本申请实施例还提供了一种群控账号挖掘装置，包括：

数据获取模块，用于获取用户群在设定时间段内的第一观看数据，所述用户群中每个用户对应一个第一观看数据，每个所述第一观看数据包含相应用户在所述设定时间段内观看的主播身份数据；

用户查找模块，用于根据所述第一观看数据在所述用户群中查找出相似观看用户；

群控确定模块，用于根据所述相似观看用户在所述用户群中挖掘出相似观看用户群，并根据所述相似观看用户群确定属于群控账号的目标用户群。

第三方面，本申请实施例还提供了一种群控账号挖掘设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的群控账号挖掘方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的群控账号挖掘方法。

上述群控账号挖掘方法、装置、设备及存储介质，通过获取用户群在设定时间段内的第一观看数据，并根据第一观看数据在用户群中查找出相似观看用户，进而根据相似观看用户挖掘出相似观看用户群，并根据相似观看用户群确定群控账号的技术手段，解决了现有技术中群控账号挖掘过程安全性低、易被破解的技术问题。即使群控账号使用动态IP池或者使用分布式云群控账号访问等方式，也可以结合各用户的观看主播情况有效筛选出相似观看用户，进而准确挖掘出用户群中的群控账号，提升了群控作弊成本，阻止了刷房行为，保证主播人气的真实性。

附图说明

图1为本申请实施例提供的一种群控账号挖掘方法的流程图；

图2为本申请实施例提供的哈希桶示意图；

图3为本申请实施例的另一种群控账号挖掘方法的流程图；

图4为本申请实施例提供的一种神经网络示意图；

图5为本申请实施例提供的一种群控账号挖掘装置的结构示意图；

图6为本申请实施例提供的一种群控账号挖掘设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

群控账号是指使用多台真实设备(如多部手机)或模拟多台真实设备，并在设备中安装脚本软件(群控软件)来控制设备中的应用软件(如直播应用软件)，通过修改设备的软硬件信息来达到模拟人工使用应用软件的效果。群控账号具体通过自动化手段最大化模拟真实用户的操作请求。在直播领域中，通过群控账号可以为直播间达到吸粉、引流、刷广告等作弊目标。其中，通过群控账号模拟正常账号进入主播房间而给主播增加人气的方式称为刷房。

为了避免群控账号对正常直播的影响，本申请实施例提供一种群控账号挖掘方法，以安全、准确的挖掘出群控账号。具体的，群控账号挖掘方法可以由群控账号挖掘设备执行，该群控账号挖掘设备可以通过软件和/或硬件的方式实现，该群控账号挖掘设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，群控账号挖掘设备可以是计算机、平板电脑等具有数据运算、分析能力的智能设备。

图1为本申请实施例提供的一种群控账号挖掘方法的流程图，参考图1，该群控账号挖掘方法具体包括：

步骤110、获取用户群在设定时间段内的第一观看数据，用户群中每个用户对应一个第一观看数据，每个第一观看数据包含相应用户在设定时间段内观看的主播身份数据。

实施例中，用户群是指利用直播应用软件观看直播的用户集合。观看数据是指用户观看直播过程中体现观看情况的数据。实施例中，观看数据至少包括用户观看的主播身份数据。其中，主播身份数据用于表明主播身份，不同主播具有不同的主播身份数据，其中，主播是指在直播应用平台注册过可进行直播的用户。可理解，观看数据还可包括每个主播的观看时长等内容。一个实施例中，用户群中的每个用户也存在对应的用户身份数据，不同用户具有不同的用户身份数据。当用户进入某一主播房间后，群控账号挖掘设备记录用户身份数据、主播身份数据以及观看时长等内容，并生成一条观看数据。当用户进入另一直播间后，群控账号挖掘设备再次记录用户身份数据、主播身份数据以及观看时间等内容，并生成另一条观看数据。进一步的，第一观看数据是指设定时间段内相应用户的观看数据的集合，其包括设定时间段内用户观看的主播身份数据。每个用户对应一个第一观看数据。其中，设定时间段可根据实际情况设定，如设定时间段为24小时、12小时或48小时等。

可选的，为了便于后续的计算，实施例中对主播身份数据进行编码，并以向量的形式表示主播身份数据。其中，编码规则实施例不做限定，例如，采用独热(One-Hot)编码将各主播身份数据向量化表示。之后，由各主播身份数据对应的向量组成第一观看数据。

步骤120、根据第一观看数据在用户群中查找出相似观看用户。

群控账号具有批量的特征，其可以同时进出某个或某些主播的房间。此时，同一批群控账号中每个用户观看的主播集合相同或分批次相同，且各用户观看同一直播的时长也接近一致。而正常用户(非群控账号的用户)间观看时长差异较大，符合正态分布，并且，正常用户在观看时具有偏好性(即存在固定一个或多个喜爱观看的主播)和随机性(即随机选择观看的主播)。因此，任意两个正常用户具有相同的第一观看数据的概率较小，而群控账号间具有相同的第一观看数据的概率较大。因此，实施例中，通过第一观看数据在用户群中查找出相似观看用户。其中，相似观看用户是指两个用户所观看的各主播相同或高度相似。可理解，每个用户可组成不同的相似观看用户，例如，用户A和用户B组成相似观看用户，用户A和用户C也组成相似观看用户。

一个实施例中，通过计算各第一观看数据间的相似度选择相似观看用户。其中，相似度的计算方式实施例不做限定，例如，采用余弦相似度、欧式距离等方式。具体的，将相似度高的用户确定为相似观看用户。举例而言，采用余弦相似度计算相似度时，设定一阈值，该阈值表示相似观看用户间最大预先余弦距离，可理解余弦距离越小，相似度越高，此时，计算两个第一观看数据的余弦距离后，若该余弦距离小于该阈值，则将对应的两个用户确定为相似观看用户。按照上述方式对全部第一观看数据均两两计算相似度后，可以得到全部相似观看用户。

步骤130、根据相似观看用户在用户群中挖掘出相似观看用户群，并根据相似观看用户群确定属于群控账号的目标用户群。

相似观看用户群是指群内用户的第一观看数据间的相似度高，即群内各用户观看的主播相同或高度相似。相似观看用户群可通过相似观看用户确定。一个实施例中，绘制节点图，节点图中的每个节点代表一个用户，相似观看用户的两个节点间通过一条边连接。可理解，对于群控账号而言，由于其批量进行相同的操作，因此，其在节点图中会形成一个密集的社群，该社群包含的用户数量较多，而正常用户在节点图中较为分散或社群包含的用户数量较小。因此，通过节点图可找到用户连接密集的社群(如将具有连接关系的节点组成一个社群)，并将找到的社群作为相似观看用户群。

进一步的，根据相似观看用户群确定目标用户群，其中，目标用户群是指群控账号对应的用户群。一个实施例中，直接将找到的相似观看用户群确定为目标用户群，或者是，将用户数量高于数量阈值(该值可结合实际情况设定)的相似观看用户群确定为目标用户群。另一实施例中，结合相似观看用户群中各用户的网络地址(如IP地址)、所使用的设备信息和/或各主播的观看时长确定目标用户群。其中，设备信息用于区分用户使用的设备。网络地址和设备信息可以在用户使用直播应用软件时获取。例如，统计相似观看用户群中各用户对同一主播的观看时长，若同一主播的观看时长相同或相似(如观看时长差异小于设定的时长范围)，则将相似观看用户群确定为目标用户群。再如，对于群控账号而言，其会共用网络地址和/或设备信息，即目标用户群内存在不同的用户具有相同的网络地址和/或设备信息。因此，可结合相似观看用户群中各用户之间是否共用网络地址和/或设备信息来确定相似观看用户群是否为目标用户群。

上述，通过获取用户群在设定时间段内的第一观看数据，并根据第一观看数据在用户群中查找出相似观看用户，进而根据相似观看用户挖掘出相似观看用户群，并根据相似观看用户群确定群控账号的技术手段，解决了现有技术中群控账号挖掘过程安全性低、易被破解的技术问题。即使群控账号使用动态IP池或者使用分布式云群控账号访问等方式，也可以结合各用户的观看主播情况有效筛选出相似观看用户，进而准确挖掘出用户群中的群控账号，提升了群控作弊成本，阻止了刷房行为，保证主播人气的真实性。

在上述实施例的基础上，采用计算相似度的方式确定相似观看用户，此时，步骤120包括步骤121-步骤122：

步骤121、根据第一观看数据计算用户群中各用户间的观看相似度。

观看相似度用于体现第一观看数据之间的相似程度。观看相似度可以采用余弦相似度、欧式距离等方式进行计算。此时，每两个用户间对应一个观看相似度。当用户数量较大时(如用户数量大于10⁶)，需要很大的计算量计算观看相似度。因此，实施例中先对各用户粗略的分桶，将可能相似的用户以较大的概率分到一个桶中，之后，计算各桶内用户间的观看相似度，以达到减小计算量的目的。此时，步骤121包括步骤1211-步骤1212：

步骤1211、利用局部敏感哈希对各第一观看数据进行分桶。

采用局部敏感哈希(Locality Sensitive Hashing，LSH)对第一观看数据进行分桶，以将可能相似的第一观看数据分到一个桶中，此时，每个桶内的第一观看数据所对应的用户可认为是备选相似观看用户。

一个实施例中，利用LSH进行分桶时，步骤1211包括步骤12111-步骤12113：

步骤12111、分别对各第一观看数据进行最小哈希计算，以得到对应的签名向量。

其中，最小哈希(minhash)是LSH计算过程中常用的技术手段，其用来计算得到签名向量(或矩阵)，实施例中，利用最小哈希计算第一观看数据以得到签名向量(或矩阵)。此时，每个第一观看数据对应一个签名向量，且签名向量占用的空间小于第一观看数据占用的空间。

步骤12112、将每个签名向量分成多个行条，并利用哈希函数将每个行条分别映射到对应的哈希桶中，哈希函数为至少一个。

将各签名向量分成多段，每段内容作为一个行条(band)，其中，行条数量(即段数)可以根据实际情况设定，各签名向量的行条数量相等。之后，利用哈希函数将每个行条映射到对应的哈希桶中，其中，采用的哈希函数可以根据实际情况选择，且可以使用一个或多个哈希函数。当使用多个哈希函数时，每个哈希函数都可以对行条进行一次映射。

步骤12113、将映射到同一哈希桶内的行条所对应的第一观看数据归入同一桶中。

可理解，如果两个签名向量中的一个或多个行条相同，则两个签名向量具有较高的相似度，且相同的行条数越多，两个签名向量的相似度越高。其中，行条相同是指行条被映射到同一哈希桶中。据此，实施例中获取同一哈希桶内映射的行条，之后，查找各行条对应的第一观看数据，并将查找到的各第一观看数据作为同一桶中的数据。此时，同一桶中的第一观看数据对应的用户可认为是备选相似观看用户。

举例而言，图2为本申请实施例提供的哈希桶示意图。图2中包含三个哈希桶，分别记为band1、band2和band3，需说明，图2中只示出了映射到band1中的部分行条(图2中表示为10002、32122、01311)。此时，band1中的各行条对应的第一观看数据作为同一桶中的数据，band2中的各行条对应的第一观看数据作为同一桶中的数据，band3中的各行条对应的第一观看数据作为同一桶中的数据，进而完成对第一观看数据的分桶操作。

步骤1212、计算每个桶内各第一观看数据之间的观看相似度。

以桶为单位，计算每个桶内各第一观看数据之间的观看相似度，而桶间的第一观看数据无需计算观看相似度。其中，观看相似度的计算方式实施例不作限定。

步骤122、根据观看相似度在用户群中查找出相似观看用户。

一个实施例中，通过比较阈值的方式查找相似观看用户。例如，采用欧式距离计算观看相似度时，两个第一观看数据间距离越小，观看相似度越高。因此，可结合实际情况设置一距离阈值，当距离小于该距离阈值时，确定两个用户为相似观看用户。

上述，通过计算观看相似度的方式可准确查找出相似观看用户，且通过局部敏感哈希算法，可避免用户数量较大时观看相似度的计算量较大的问题，降低寻找相似观看用户的计算复杂度。

图3为本申请实施例的另一种群控账号挖掘方法的流程图。该群控账号挖掘方法是在上述实施例的基础上进行具体化。本实施例中，每个主播身份数据对应一个词汇表向量，词汇表向量的长度等于当前总主播数。其中，词汇表向量是对主播身份数据进行One-Hot编码后得到的向量，每个主播身份数据对应一个词汇表向量。进一步的，词汇表向量的维度可通过词汇表向量的长度表示，且词汇表向量的长度等于当前总主播数，其中，当前总主播数可以是直播应用软件中当前注册过主播的总数量，或者是，用户群中各用户观看的主播的总数量。举例而言，当前总主播数为4，那么，每个主播身份数据均由4维的词汇表向量表示，且4个词汇表向量分别表示为：[1 0 0 0]、[0 1 0 0]、[0 0 1 0]、[0 0 0 1]。

具体的，参考图3，该群控账号挖掘方法具体包括：

步骤210、获取用户群在设定时间段内的第一观看数据，用户群中每个用户对应一个第一观看数据，每个第一观看数据包含相应用户在设定时间段内观看的主播身份数据。

实施例中，第一观看数据通过词汇表向量表示，例如，第一观看数据包含的主播身份数据的词汇表向量分别为[1 0 0 0]、[0 1 0 0]、[0 0 1 0]，那么，该第一观看数据是由前述词汇表向量组成的3×4矩阵。

步骤220、将各第一观看数据对应的词汇表向量作为训练数据，以训练得到各词汇表向量对应的嵌入词向量，嵌入词向量的长度小于词汇表向量的长度。

每个主播身份数据对应一个词汇表向量，词汇表向量的长度等于当前总主播数。示例性的，当直播应用软件中注册的主播数量很庞大(如注册几十万或几百万的主播)时，其对应的词汇表向量的长度会很高，相应的，第一观看数据的维度也会很大，这样并不利于后续对第一观看数据的计算。因此，实施例中，根据各第一观看数据对词汇表向量进行降维处理，并将降维后得到的向量记为嵌入词向量，每个词汇表向量对应一个嵌入词向量，不同词汇表向量可能对应相同的嵌入词向量。嵌入词向量的长度(即维度)可以根据实际情况设置，如设置长度为50。进一步的，嵌入词向量的长度小于词汇表向量的长度。一个实施例中，采用Word2Vec得到嵌入词向量。其中，Word2Vec是一种自然语言处理(Natural LanguageProcessing，NPL)工具，其用来产生词向量的相关模型。该模型使用浅而双层的神经网络，且该神经网络训练完成后，Word2Vec模型可用来映射每个词到一个向量，该向量可用来表示词对词之间的关系，且该向量位于神经网络的隐藏层。实施例中，将表示词汇表向量间关系的向量记为嵌入词向量，即通过Word2Vec可以将单词(即词汇表向量)转换成嵌入词向量，这样，就可通过嵌入词向量定量的度量各词汇表向量之间的关系。

进一步的，图4为本申请实施例提供的一种神经网络示意图，该神经网络为Word2Vec使用的神经网络，该神经网络为Skip-gram模型，在NPL里，Skip-gram模型是指输入一个词语后，预测其上下文词语作为输出。参考图4，输入层(Input layer)输入一V维的词汇表向量(即[x₁ x₂ … x_v])，输出层(Output layer)输出另一V维的词汇表向量(即[y₁y₂…y_v])，神经网络训练完成后，从输入层(Input layer)到隐含层(Hidden layer)的权重，便是词汇表向量对应的嵌入词向量，其可表示输入层的词汇表向量与输出层的词汇表向量间的关系。图4所示的矩阵W_V×N＝{w_ik}中第i行的转置作为词汇表向量(有效编码在第k个位置)的嵌入词向量。嵌入词向量为N维，且N＜＜V。可理解，当一个输入词对应输出多个词时，存在多个矩阵W’_V×N＝{w’_ik}，且每个矩阵对应输出一组[y₁ y₂ … y_v]。

一个实施例中，神经网络的训练过程为：在句子中选取输入词，定义skip_window参数和num_skips参数。其中，skip_window参数表示训练神经网络时从句子中当前输入词一侧(左侧或右侧)选择的词数量，通过该参数可以确定神经网络输出词所在的词窗口，num_skips参数表示输出不同的词时不同词的数量，输出的词从词窗口中选择。例如，句子为“there is an apple on the table”，skip_window和num_skips均为2，训练神经网络时，输入词为apple，相应的词窗口是[is an apple on the]，关联上下文后神经网络得到apple和an以及apple和on两组对应关系，此时，an和on为输出的不同词，(apple，an)和(apple，on)可作为该句的两组训练数据。即输入apple后输出an或on。设置完成后，从训练数据中选择输入词对应的词汇表向量输入神经网络，并根据输出词得到各输入词的概率分布，该分布代表各输入词得到相同输出词的概率。例如，通过“中国首都是北京”和“英国首都是伦敦”设置训练数据训练神经网络时，若输入词为中国或英国，则关联上下文后输出词均包含“首都是”这类的词汇，所以，“中国”和“英国”这类相关词的概率应高于其他词，“中国”和“英国”对应的嵌入词向量相同或相似。根据上述概率分布利用梯度下降和反向传播的方式更新图4中的矩阵W_V×N和W’_V×N，以实现训练。在训练完成后，通过矩阵W_V×N得到各输入词的嵌入词向量。

将上述训练方式对应在第一观看数据时，具体为：将各第一观看数据模拟成一语句，其中各主播身份数据的词汇表向量作为语句中的一个词，之后，选择输入词和输出词，以训练神经网络，进而在训练完成后，通过矩阵W_V×N得到各输入词的嵌入词向量。可理解，输出词相同的输入词具有相同或相似的嵌入词向量。例如，某些第一观看数据包含的主播身份数据分别为主播A和主播B，另外一些第一观看数据包含的主播身份数据分别为主播C和主播B，那么，输入词为主播A或主播C对应的词汇表向量时，输出词为主播B对应的词汇表向量的概率较大，因此，主播A和主播C对应的嵌入词向量相近或相同。需说明，利用Word2Vec得到嵌入词向量的过程可以认为是进行Embedding的过程。

步骤230、根据第一观看数据对应的嵌入词向量得到相应的第二观看数据。

示例性的，得到各词汇表向量对应的嵌入词向量后，对各嵌入词向量进行处理，以得到第二观看数据，实施例中，第二观看数据是指通过嵌入词向量得到的向量，第二观看数据的维度小于第一观看数据的维度。具体的，根据各主播身份数据的嵌入词向量得到第二观看数据时，可以采用取平均值、最大值或最小值等方式。以平均值为例，将各嵌入词向量中相同位置的数值进行平均计算以得到平均值，并取各位置的平均值组成的向量作为第二观看数据。例如，第一观看数据包含主播身份数据分别为主播A、主播B和主播C，将三个对应的嵌入词向量进行平均计算后得到的第二观看数据为[0.4234、0.762、0.4234]，其中，第一个0.4234是对三个嵌入词向量中第一个数值取平均的结果，依次类推。

步骤240、根据第二观看数据在用户群中查找出相似观看用户。

其中，该步骤与根据第一观看数据在用户群中查找出相似观看用户的处理方式一样，如利用局部敏感哈希的方式进行分桶并在分桶后查找相似观看用户，实施例对此不作赘述。

步骤250、将用户群中的每个用户作为一个用户节点，并将相似观看用户对应的用户节点通过边连接，以得到节点关系图。

节点关系图是指将节点间的关系通过连接的边表示后得到的节点图。本步骤中，节点关系图是指根据用户群以及其中的相似观看用户构建的节点图。每个用户在节点关系图中对应显示为一个节点，实施例中，将表示用户的节点记为用户节点。相似观看用户的用户节点间绘制连接的边。可理解，节点关系图中各用户节点的分布位置可以根据实际情况选择，实施例对此不作限定。可选的，相似观看用户的相似度越高时，其对应的边的权重大。

步骤260、利用标签传播算法处理所述节点关系图，以确定相似观看用户群。

标签传播算法(Label Propagation Algorithm，LPA)是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息，可以实现局部社区划分。实施例中，在LPA初始阶段，为节点关系图中每个用户节点分配一标签，每次迭代时，各用户节点都会根据与自己相连的用户节点所属的标签更改自己的标签，直到迭代结束，以根据标签得到相似观看用户群。其中，更改标签的规则是将相连的用户节点中出现最多的标签作为自己的标签。按照上述方式确定相似观看用户群时，本步骤具体包括步骤261-步骤266：

步骤261、为节点关系图中的每个用户节点分配相应的标签。

其中，标签生成规则实施例不作限定。当前为每个用户节点分配的标签可以认为是初始的标签，各用户节点对应的初始标签不同。实施例中，设定节点关系图中包含M个用户节点，此时，用户节点1对应标签1，用户节点i对应标签i，1≤i≤M，依次类推。

步骤262、在节点关系图中查找一用户节点，并根据用户节点的边连接关系查找出用户节点的全部邻居用户节点。

示例性的，各用户节点的处理过程相同，因此，以一个用户节点为例进行描述，具体的，在节点关系图中查找一用户节点，其中，查找规则实施例不作限定，如按照各用户节点的排列顺序依次查找。查找该用户节点后，查找该用户节点的邻居用户节点，其中，邻居用户节点是指与该用户节点通过边连接的用户节点，或者是，与该用户节点连接的边的权重大于设定的阈值。一般而言，邻居用户节点和用户节点属于相似观看用户。可理解，每个用户节点可以对应一或多个邻居用户节点，也可以不存在邻居用户节点。若不存在邻居用户节点，则重新选择另一用户节点，重复本步骤。若存在邻居用户节点，则执行后续步骤。

步骤263、统计全部邻居节用户点的标签，并将出现次数最多的标签更新为用户节点的标签。

获取每个邻居用户节点的标签，并在各标签中确定出现次数最多的标签。其中，若出现次数最多的标签为多个(如各节点的标签为初始标签，每个标签都出现一次)，则在出现次数最多的多个标签中随机选择一个标签。之后，将当前的用户节点的标签更新为出现次数最多的标签。

可理解，相同标签的节点属于同一社群。更新完成后，可以确定当前节点所属的社群。

步骤264、在节点关系图中查找另一用户节点，并返回执行根据用户节点的边连接关系查找出用户节点的全部邻居用户节点的操作，直到遍历节点关系图中的全部用户节点。

标签更换后，便可以在节点关系图中查找另一用户节点，并返回执行步骤262中查找邻居用户节点的操作。之后，当节点关系图中全部用户节点均被遍历完成后，确定本轮遍历结束。即遍历M个用户节点(即for i＝1:M)后确定本轮遍历结束。

步骤265、判断当前是否满足遍历结束条件。若不满足遍历结束条件，则返回执行步骤262。若满足遍历结束条件，则执行步骤266。

其中，遍历结束条件是停止遍历的限制条件，其内容可以根据实际情况设定。实施例中，遍历结束条件为达到遍历次数阈值或节点关系图中各用户节点的标签未发生改变。一个实施例中，遍历次数阈值可以根据实际情况设定，每轮遍历结束后，记录的遍历次数加1，之后，判断遍历次数是否达到遍历次数阈值，若是，则确定满足遍历结束条件，否则，确定不满足遍历结束条件并开始新一轮的遍历。另一个实施例中，本轮遍历完成后，确定各用户节点的标签是否发生变化，若至少一个用户节点的标签发生了变化，则确定不满足遍历结束条件并开始新一轮的遍历，若每个用户节点的标签均未变化，则确定满足遍历结束条件。又一实施例中，本轮遍历完成后，确定各用户节点的标签是否发生变化，若至少一个用户节点的标签发生了变化，则判断遍历次数是否达到遍历次数阈值，若达到遍历次数阈值，则确定满足遍历结束条件，否则，确定不满足遍历结束条件并开始新一轮的遍历，若每个用户节点的标签均未变化，则确定满足遍历结束条件。

步骤266、将具有相同标签的用户节点所对应的用户归入同一相似观看用户群。

在节点关系图中查找具有相同标签的用户节点，并进行分类，以得到相似观看用户群。每个相似观看用户群中用户节点的标签相同，该标签可以作为相似观看用户群的ID。例如，用户A、用户B、用户C、用户D作为图中的用户节点，LPA算法结束后，各用户节点分别记为[1,A],[1,B],[2,C],[1,D]，第一字段为相似观看用户群的ID，此时，用户A、用户B、用户D属于同一相似观看用户群。

步骤270、根据相似观看用户群确定属于群控账号的目标用户群。

实施例中，该步骤包括下述至少一种方案：

方案一、若相似观看用户群的用户数量大于或等于数量阈值，则将相似观看用户群确定为属于群控账号的目标用户群。

示例性的，数量阈值是指群控账号包含的最小用户数量，其值可以根据实际情况设定，如数量阈值为50。若相似观看用户群包含的用户数量大于或等于数量阈值，则将其确认为目标用户群。按照上述对每个相似观看用户群处理后，便可以挖掘到目标用户群。

方案二、若相似观看用户群中多个用户具有相同的设备信息和/或网络地址信息，则将相似观看用户群确定为属于群控账号的目标用户群。

示例性的，设备信息是指用户观看直播时使用的设备的相关信息，其可以是设备标识等，不同设备的设备信息不同。网络地址信息是指用户观看直播时使用的网络地址，其可以为IP地址。实施例中，以同时获取设备信息和网络地址信息进行描述，实际应用中，可以只获取一类信息进行处理，且处理方式相同。一般而言，非群控账号间设备信息和网络地址信息被重复使用的概率较小，群控账号间设备信息和网络地址信息被重复使用的概率较大，如通过一台设备登陆不同的账号进行刷房。一个实施例中，如果相似观看用户群中多个用户间存在相同的设备信息和/或网络地址信息，则确定其存在重复使用的情况，进而将相似观看用户群确定为目标用户群。可选的，可设置第一相同用户数量阈值，其群控账号中表示具有相同设备信息和/或网络地址信息的最小用户数量。若具有相同设备信息和/或网络地址信息的用户数量达到第一相同用户数量阈值，则确定其存在重复使用的情况，即出现网络地址和/或设备聚集的情况。因此，将相似观看用户群确定为目标用户群。

一个实施例中，相似观看用户群还可能为大主播用户群。其中，大主播具有极高的观众数和关注数，大主播的划分依据实施例不作限定。大主播用户群是指其包含的用户会固定观看几个大主播。可理解，大主播用户群的特性是其用户间设备信息和网络地址信息重复使用概率低。此时，若相似观看用户群中各用户间具有不同的设备信息和网络地址信息，则将相似观看用户群确定为大主播用户群。或者是，若相似观看用户群中各用户间存在相同的设备信息或网络地址信息，且相同的用户数量较少(如低于第二相同用户数量阈值)，则将相似观看用户群确定为大主播用户群，其中，第二相同用户数量阈值低于第一相同用户数量阈值。

需说明，也可以结合用户数量和重复使用情况得到目标用户群和大主播用户群。例如，将用户数量大于或等于数量阈值时，将其确定为疑似目标用户群，若疑似目标用户群存在重复使用情况，则确定为目标用户群，若不存在重复使用情况，则确定为大主播用户群。

上述，通过训练嵌入词向量的方式，可以避免主播数量过高不利于后续计算的问题，降低了后续计算时使用的观看数据的维度。并且，通过构建节点关系图和LPA算法可准确查找出相似观看用户群，进而结合用户数量、设备信息和/或网络地址信息聚集情况在相似观看用户群中识别出群控账号，保证了群控账号识别的准确性，且通过无监督的方式，减少了对标签的依赖。

在上述实施例的基础上，还可在节点关系图中添加设备信息和/网络地址信息，之后，直接利用LPA在节点关系图挖掘群控设备。此时，执行步骤250时还包括：获取用户群中各用户的设备信息和/或网络地址信息；将设备信息和/或网络地址信息作为信息节点，加入节点关系图，并将用户节点和相应的信息节点通过边连接。

一个实施例中，在节点关系图中，添加表示设备信息的节点和/或表示网络地址信息的节点，每个设备信息对应一个节点，每个网络地址信息对应一个节点，实施例中，将表示设备信息和网络地址信息的节点统称为信息节点，并以同时添加两类信息节点为例进行描述。进一步的，若某个用户使用某个设备信息，则将该用户的用户节点和该设备信息的信息节点通过边连接，按照同样方式，建立用户节点和表示网络地址信息的信息节点间的连接关系。此时，节点关系图还包含各用户使用设备和网络地址的情况。可理解，后续利用LPA处理节点关系图时，确定用户节点的邻居用户节点时，不仅考虑相连的用户节点，还包括相连的信息节点。例如，将信息节点对应的边设置较高的权重，同时降低用户节点间边的权重，在查找邻居用户节点时，将共用设备信息或网络地址信息的相似观看用户所对应的用户节点作为查找到的邻居用户节点。这样挖掘出的相似观看用户群排除了大主播用户群的情况。因此，执行步骤270时可直接通过相似观看用户群的用户数量确定其是否为目标用户群，无需考虑重复使用情况。

上述，通过在节点关系图中添加设备信息和/或网络地址信息，可以提高利用LPA算法挖掘出的相似观看用户群为群控账号的概率，避免挖掘出大主播用户群的情况，降低了后续操作过程的计算复杂度。

图5为本申请实施例提供的一种群控账号挖掘装置的结构示意图，参考图5，该群控账号挖掘整装置包括：数据获取模块301、用户查找模块302和群控确定模块303。

其中，数据获取模块301，用于获取用户群在设定时间段内的第一观看数据，用户群中每个用户对应一个第一观看数据，每个第一观看数据包含相应用户在设定时间段内观看的主播身份数据；用户查找模块302，用于根据第一观看数据在用户群中查找出相似观看用户；群控确定模块303，用于根据相似观看用户在用户群中挖掘出相似观看用户群，并根据相似观看用户群确定属于群控账号的目标用户群。

在上述实施例的基础上，所述装置还包括：训练模块，用于根据第一观看数据在用户群中查找出相似观看用户之前，将各第一观看数据对应的词汇表向量作为训练数据，以训练得到各词汇表向量对应的嵌入词向量，每个主播身份数据对应一个词汇表向量，词汇表向量的长度等于当前总主播数，嵌入词向量的长度小于词汇表向量的长度；观看数据确定模块，用于根据第一观看数据对应的嵌入词向量得到相应的第二观看数据。相应的，用户查找模块302具体用于根据第二观看数据在用户群中查找出相似观看用户。

在上述实施例的基础上，用户查找模块302包括：相似度计算子模块，用于根据第一观看数据计算用户群中各用户间的观看相似度；相似确定子模块，用于根据观看相似度在用户群中查找出相似观看用户。

在上述实施例的基础上，相似度计算子模块包括：分桶单元，用于利用局部敏感哈希对各第一观看数据进行分桶；桶内计算单元，用于计算每个桶内各第一观看数据之间的观看相似度。

在上述实施例的基础上，分桶单元包括：签名计算子单元，用于分别对各第一观看数据进行最小哈希计算，以得到对应的签名向量；映射子单元，用于将每个签名向量分成多个行条，并利用哈希函数将每个行条分别映射到对应的哈希桶中，哈希函数为至少一个；划桶子单元，用于将映射到同一哈希桶内的行条所对应的第一观看数据归入同一桶中。

在上述实施例的基础上，群控确定模块303包括：关系图构建子模块，用于将用户群中的每个用户作为一个用户节点，并将相似观看用户对应的用户节点通过边连接，以得到节点关系图；标签传播子模块，用于利用标签传播算法处理节点关系图，以确定相似观看用户群；第一确定子模块，用于根据相似观看用户群确定属于群控账号的目标用户群。

在上述实施例的基础上，标签传播子模块包括：标签分配单元，用于为节点关系图中的每个用户节点分配相应的标签；邻居查找单元，用于在节点关系图中查找一用户节点，并根据用户节点的边连接关系查找出用户节点的全部邻居用户节点；标签更新单元，用于统计全部邻居用户节点的标签，并将出现次数最多的标签更新为用户节点的标签；第一遍历单元，用于在节点关系图中查找另一用户节点，并返回执行根据用户节点的边连接关系查找出用户节点的全部邻居用户节点的操作，直到遍历节点关系图中的全部用户节点；结束判断单元，用于判断当前是否满足遍历结束条件，遍历结束条件为达到遍历次数阈值或节点关系图中各用户节点的标签未发生改变；第二遍历单元，用于若不满足遍历结束条件，则返回执行在节点关系图中查找一用户节点的操作，直到满足遍历结束条件；节点划分单元，用于将具有相同标签的节点所对应的用户归入同一相似观看用户群。

在上述实施例的基础上，关系图构建子模块还用于：获取用户群中各用户的设备信息和/或网络地址信息；将设备信息和/或网络地址信息作为信息节点，加入节点关系图，并将用户节点和相应的信息节点通过边连接。

在上述实施例的基础上，群控确定模块303包括：第一掘子模块，用于根据相似观看用户在用户群中挖掘出相似观看用户群；第二确定子模块，用于若相似观看用户群的用户数量大于或等于数量阈值，则将相似观看用户群确定为属于群控账号的目标用户群。

在上述实施例的基础上，群控确定模块303包括：第二掘子模块，用于根据相似观看用户在用户群中挖掘出相似观看用户群；第三确定子模块，用于若相似观看用户群中多个用户具有相同的设备信息和/或网络地址信息，则将相似观看用户群确定为属于群控账号的目标用户群。

上述提供的群控账号挖掘装置可用于执行上述任意实施例提供的群控账号挖掘方法，具备相应的功能和有益效果。

值得注意的是，上述群控账号挖掘装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图6为本申请实施例提供的一种群控账号挖掘设备的结构示意图。如图6所示，该群控账号挖掘设备包括存储器41、输入装置42、输出装置43以及一个或多个处理器40；所述存储器41，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器40执行，使得所述一个或多个处理器40实现如上述实施例提供的群控账号挖掘方法。其中，群控账号挖掘设备中处理器40、存储器41、输入装置42以及输出装置43可以通过总线或其他方式连接，图6中以通过总线连接为例。

上述群控账号挖掘设备包含群控账号挖掘装置，可以用于执行任意群控账号挖掘方法，具备相应的功能和有益效果。

此外，本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例所提供的群控账号挖掘方法中的相关操作，且具备相应的功能和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种群控账号挖掘方法，其特征在于，包括：

2.根据权利要求1所述的群控账号挖掘方法，其特征在于，所述根据所述第一观看数据在所述用户群中查找出相似观看用户之前，包括：

将各所述第一观看数据对应的词汇表向量作为训练数据，以训练得到各所述词汇表向量对应的嵌入词向量，每个所述主播身份数据对应一个词汇表向量，所述词汇表向量的长度等于当前总主播数，所述嵌入词向量的长度小于所述词汇表向量的长度；

根据所述第一观看数据对应的嵌入词向量得到相应的第二观看数据；

所述根据所述第一观看数据在所述用户群中查找出相似观看用户包括：

根据所述第二观看数据在所述用户群中查找出相似观看用户。

3.根据权利要求1所述的群控账号挖掘方法，其特征在于，所述根据所述第一观看数据在所述用户群中查找出相似观看用户包括：

根据所述第一观看数据计算所述用户群中各用户间的观看相似度；

根据所述观看相似度在所述用户群中查找出相似观看用户。

4.根据权利要求3所述的群控账号挖掘方法，其特征在于，所述根据所述第一观看数据计算所述用户群中各用户间的观看相似度包括：

利用局部敏感哈希对各所述第一观看数据进行分桶；

计算每个桶内各所述第一观看数据之间的观看相似度。

5.根据权利要求4所述的群控账号挖掘方法，其特征在于，所述利用局部敏感哈希对各所述第一观看数据进行分桶包括：

分别对各所述第一观看数据进行最小哈希计算，以得到对应的签名向量；

将每个所述签名向量分成多个行条，并利用哈希函数将每个所述行条分别映射到对应的哈希桶中，所述哈希函数为至少一个；

将映射到同一哈希桶内的行条所对应的第一观看数据归入同一桶中。

6.根据权利要求1所述的群控账号挖掘方法，其特征在于，所述根据所述相似观看用户在所述用户群中挖掘出相似观看用户群包括：

将所述用户群中的每个用户作为一个用户节点，并将所述相似观看用户对应的用户节点通过边连接，以得到节点关系图；

利用标签传播算法处理所述节点关系图，以确定相似观看用户群。

7.根据权利要求6所述的群控账号挖掘方法，其特征在于，所述利用标签传播算法处理所述节点关系图，以确定相似观看用户群包括：

为所述节点关系图中的每个用户节点分配相应的标签；

在所述节点关系图中查找一用户节点，并根据所述用户节点的边连接关系查找出所述用户节点的全部邻居用户节点；

统计全部所述邻居用户节点的标签，并将出现次数最多的标签更新为所述用户节点的标签；

在所述节点关系图中查找另一用户节点，并返回执行根据所述用户节点的边连接关系查找出所述用户节点的全部邻居用户节点的操作，直到遍历所述节点关系图中的全部用户节点；

判断当前是否满足遍历结束条件，所述遍历结束条件为达到遍历次数阈值或所述节点关系图中各用户节点的标签未发生改变；

若不满足遍历结束条件，则返回执行在所述节点关系图中查找一用户节点的操作，直到满足遍历结束条件；

将具有相同标签的用户节点所对应的用户归入同一相似观看用户群。

8.根据权利要求6所述的群控账号挖掘方法，其特征在于，所述将所述用户群中的每个用户作为一个用户节点，并将所述相似观看用户对应的用户节点通过边连接，以得到节点关系图时，还包括：

获取所述用户群中各用户的设备信息和/或网络地址信息；

将所述设备信息和/或所述网络地址信息作为信息节点，加入所述节点关系图，并将所述用户节点和相应的信息节点通过边连接。

9.根据权利要求1、6或8所述的群控账号挖掘方法，其特征在于，所述根据所述相似观看用户群确定属于群控账号的目标用户群包括：

若所述相似观看用户群的用户数量大于或等于数量阈值，则将所述相似观看用户群确定为属于群控账号的目标用户群。

10.根据权利要求1或6所述的群控账号挖掘方法，其特征在于，所述根据所述相似观看用户群确定属于群控账号的目标用户群包括：

若所述相似观看用户群中多个用户具有相同的设备信息和/或网络地址信息，则将相似观看用户群确定为属于群控账号的目标用户群。

11.一种群控账号挖掘装置，其特征在于，包括：

12.一种群控账号挖掘设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的群控账号挖掘方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的群控账号挖掘方法。