CN117574362B

CN117574362B - 一种达人账号数据异常分辨方法及***

Info

Publication number: CN117574362B
Application number: CN202410050688.8A
Authority: CN
Inventors: 林敏�; 徐俊峰
Original assignee: Guangdong Moli Digital Technology Group Co ltd
Current assignee: Guangdong Moli Digital Technology Group Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-30
Anticipated expiration: 2044-01-15
Also published as: CN117574362A

Abstract

本发明属于大数据处理领域，提供了一种达人帐号数据异常分辩方法及***，通过计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出达人帐号。可以更快速地识别出异常的账号信息，保障网络安全。

Description

一种达人账号数据异常分辨方法及***

技术领域

本发明属于通信网络、大数据处理领域，具体涉及一种达人账号数据异常分辨方法及***。

背景技术

在数据处理和社交媒体分析领域，辨别达人账号是一个关键问题。现有技术主要依赖于机器学***台的账号特性可能不同，现有的算法可能难以泛化到新的或未经充分研究的平台。随着技术的发展，虚假账号可能采取更复杂的策略来模仿真实账号，现有技术可能难以应对这种快速演变的对抗性行为。例如在公开号为CN109120506A的专利文献中所述的一种社交网络中闲置账号的检测处理方法及***，虽然能够有效安全的消除舍弃闲置的账号，但是不足以预防异常账号的影响力扩大。尤其是对于基于深度学***台上。尽管现有技术在达人账号数据异常辨别方面取得了一定的进展，但异常的达人账号节点的泛滥出现依然频发，要以较小的算力成本和较小规模的数据成本，来在一段时间之内分析账号数据的变化趋势，从而筛选出异常的达人账号，还是个不小的技术难题。

发明内容

本发明的目的在于提出一种达人账号数据异常分辨方法、***及设备，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为了实现上述目的，根据本发明的一方面，提供一种达人账号数据异常分辨方法，所述方法包括以下步骤：

采集社交平台上用户账号的数据，用户账号的数据包括行为内容数据和被浏览时长的数据，行为内容数据中包含多个不同的类别；

计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；

在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；

根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出异常的达人账号。进一步地，内容数据的类别包括发布时间、频率、活动时段的记录的数据，或者包括点赞、评论、转发的数量和频率的数据，或者包括发布的文字内容和/或图片和视频的数据，还包括网络特征数据。

进一步地，其中，网络特征数据包括与该账号互动最频繁的其他账号的记录的数据，或者包括账号间的潜在关系网络的特征数据。

进一步地，各用户账号被浏览时长的数据为用户账号被别的用户账号浏览的时长的总和。

进一步地，计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性，具体为：行为内容数据中不同的类别的数据与被浏览时长的数据进行相关性分析，得到行为内容数据中不同的类别的数据分别与被浏览时长的数据的相关系数；对行为内容数据中不同的类别相互之间进行相关性分析，得到行为内容数据中每个类别的数据与各类别的数据的相关系数。

其中，一段时间所指代范围不作限制，可包括，但不限于一天、一周至一个月不等。

另外，所述相关性应被理解为表示不同类型的数据记录之间数值时间变化，但在一种可优选的实施方式中，所述相关性的数值被归一化。

进一步地，根据社交平台上用户账号的数据，计算首次相互序列和再次相互序列的方法，具体为：

在首次计算中，将行为内容数据中各类别与被浏览时长的数据的相关性的数值组成首次类别增长向量，将行为内容数据中不同的类别相互之间的相关性的数值组成首次类别相互矩阵；

在再次计算中，将行为内容数据中各类别与被浏览时长的数据的相关性的数值组成再次类别增长向量，将行为内容数据中不同的类别相互之间的相关性的数值组成再次类别相互矩阵；

将所述首次类别相互矩阵中中各位置的元素的数值与再次类别相互矩阵的逆矩阵进行交互得到第一校验相互矩阵；

将所述再次类别相互矩阵中各位置的元素的数值与首次类别相互矩阵的逆矩阵进行交互得到第二校验相互矩阵；

将首次类别增长向量结合第一校验相互矩阵得到首次相互序列，将再次类别增长向量结合第二校验相互矩阵得到再次相互序列；

使用所述首次相互序列与所述再次相互序列，从社交平台上用户账号中筛选出异常的达人账号。

其中，将所述首次类别相互矩阵中中各位置的元素的数值与再次类别相互矩阵的逆矩阵进行交互、将所述再次类别相互矩阵中各位置的元素的数值与首次类别相互矩阵的逆矩阵进行交互的方式还可能是进行以对方矩阵的特征数值对自身矩阵的数值进行加减的处理等，将首次类别增长向量结合第一校验相互矩阵、将再次类别增长向量结合第二校验相互矩阵的处理也有可能是进行加减的处理等。

进一步地，在所述首次类别相互矩阵中，将首次类别相互矩阵中各位置的元素的数值替换成该数值相对于再次类别相互矩阵的逆矩阵之迹的比例值，替换后得到的即为第一校验相互矩阵；

在所述再次类别相互矩阵中，将再次类别相互矩阵中各位置的元素的数值替换成该数值相对于首次类别相互矩阵的逆矩阵之迹的比例值，替换后得到即为第二校验相互矩阵。

进一步地，将首次类别增长向量叉乘第一校验相互矩阵所得数组作为首次相互序列，将再次类别增长向量叉乘第二校验相互矩阵所得数组作为再次相互序列。

进一步地，根据首次相互序列和再次相互序列，从社交平台上用户账号中筛选出异常的达人账号，具体为：

在首次计算和再次计算的同时，从社交平台上的用户账号中采样出一部分的用户账号作为采样的用户账号，并根据采样的用户账号的数据也计算其对应的首次相互序列和再次相互序列记为采样首次相互序列和采样再次相互序列，计算采样首次相互序列与所述再次相互序列之间的分布距离为第一分布距离，计算采样再次相互序列与所述首次相互序列之间的分布距离为第二分布距离，结合第一分布距离与第二分布距离进行数值判断，判断所述采样的用户账号中是否存在异常的账号。

异常的达人账号为根据刷单、购买粉丝、购买营销号传播转发而造成的与社交平台上主流的正常的被浏览时长增长趋势不一致的异常的用户账号节点，或者是利用网路黑客技术对社交平台的网络***进行入侵、更改等而造成的异常的达人账号节点。

本发明还提供了一种达人账号数据异常分辨***，所述一种达人账号数据异常分辨***包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种达人账号数据异常分辨方法中的步骤，所述一种达人账号数据异常分辨***可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中，可运行的***可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下***的单元中：

采集单元，用于采集社交平台上用户账号的数据，用户账号的数据包括行为内容数据和被浏览时长的数据，行为内容数据中包含多个不同的类别；

计算单元，用于计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；

交互单元，用于在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；

检测单元，用于根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出异常的达人账号。

对应地，本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品：

一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述一种达人账号数据异常分辨方法以及其中各项步骤的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述一种达人账号数据异常分辨方法以及其中各项步骤的方法。

一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现所述一种达人账号数据异常分辨方法以及其中各项步骤的方法。

本发明的有益效果为：本发明提供了一种达人账号数据异常分辨方法及***，通过计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出达人账号。可以更快速地识别出异常的账号信息，保障网络安全。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种达人账号数据异常分辨方法的流程图；

图2所示为一种达人账号数据异常分辨***的***结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种达人账号数据异常分辨方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种达人账号数据异常分辨方法、***及设备。

本发明提出一种达人账号数据异常分辨方法，所述方法具体包括以下步骤：

根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出达人账号。

在其一些实施例中，可以使用上述的不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性、以及行为内容数据中不同的类别相互之间的相关性通过自动编码器进行向量化嵌入后作为相关性特征向量，输入到循环神经网络中，使用该循环神经网络作为分类模型，从社交平台上用户账号对异常的达人账号进行分类，其中，不同的类别相互之间的相关性可以用嵌入向量间的相似度来表达；而在其一些实施例中，可以使用基于梯度提升的决策树模型，对上述的不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性、以及行为内容数据中不同的类别相互之间的相关性的数据进行分类，分类出具有异常数据特征的作为异常的达人账号；还有一些实施例中，上述的不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性、以及行为内容数据中不同的类别相互之间的相关性通过自动编码器进行向量化嵌入后作为相关性特征向量，使用得到的相关性特征向量，通过聚类算法，来在一段时间之内分析账号数据的变化趋势，筛选出具有异常数据特征的作为异常的达人账号。其中，采集社交平台上用户账号的数据，需要先收集数据存储于分布式或非分布式的数据库中，再提取出来用于上述模型算法中。

进一步地，内容数据的类别包括发布时间、频率、活动时段的记录的数据，或者包括点赞、评论、转发的数量和频率的数据，或者包括发布的文字内容和/或图片和视频的数据，还包括网络特征数据。

在一些实施方式中，社交平台在开发过程中以局域网的形式存在，社交平台上各用户账号以局域网的各节点的形式存在，各节点上运行自动生成用户账号的数据的代码程序和/或运行访问其他节点并留下记录的代码程序。所述达人账号也可表示其中的生产数据和/或访问别的节点的频率或增幅等高于平均水平的节点。而在一些实施方式中，能够表示节点数据交互的网络结构，不论其是否运行并产生记录数据，皆应落入本发明所述社交平台及其用户账号的保护范围中。又在一些实施例子中，本发明所述方法所指代的社交平台还可为互联网上的各种社交网站及其客户端的应用程序等。

在一些实施例中，可以使用行为内容数据中不同的类别的数据的数值变化记录，与其对应的被浏览时长的数据进行相关性分析。可以在首次计算相关性之前，采集行为内容数据中不同的类别的数据的数值变化记录，并采集内容数据中不同的类别的数据的各数值对应的被浏览时长的数据，进行首次计算相关性；然后，在首次计算相关性与再次计算相关性之间的时间段内重新采集社交平台上用户账号的数据，采集行为内容数据中不同的类别的数据的数值变化记录，并采集内容数据中不同的类别的数据的各数值对应的被浏览时长的数据，再次进行计算相关性。同样地，计算行为内容数据中不同的类别相互之间的相关性，分析行为内容数据中不同的类别相互之间的增长关系的线性相关程度，例如，计算发布的文字内容和/或图片和视频的数据的具体数值变化与发布时间、频率、活动时段的记录的数据的具体数值变化之间的相关性。

在一些实施例中，可以使用SPSS为工具，根据社交平台上用户账号的数据进行相关性的计算；在一些实施例中，可以使用包括但不限于图神经网络的神经网络算法，例如embedding-based的GNN结构等，根据社交平台上用户账号的数据，通过使用网络特征数据，进行相关性的计算。在其中一些实施例中，可以使用相关系数的数值表示相关性。能够根据社交平台上用户账号的数据进行计算并输出能够表示不同类别的数据之间的相关联程度的数值皆应落入本发明所述方法的保护范围中。

而在一些实施例中，一段时间所指代范围不作限制，可包括，但不限于一天、一周至一个月不等。

另外，在一些实施方式中，所述相关性应被理解为表示不同类型的数据记录之间数值时间变化，但在一种可优选的实施方式中，所述相关性的数值被归一化为-1至1之间。

在一些实施例中，行为内容数据中各类别的数量可为10个，其中各类别的序号为1至10，在首次计算相关性时，可以将行为内容数据中各类别的数据与被浏览时长的数据的相关性的数值组成的数组作为首次类别增长向量，将行为内容数据中不同的类别相互之间的相关性的数值组成首次类别相互矩阵，行为内容数据中每个类别与全部各类别皆分别计算相互之间的相关性的数值，其中，在本实施例中，行为内容数据中一个类别与行为内容数据中10个类别进行相关性的计算对应有10个维度的数值，可优选地，行为内容数据中每一个类别与其自身的相关性也需要计算并纳入考量，这样做法并不是浪费计算成本，而是使得行为内容数据中每个类别与全部各类别皆分别计算相互之间的相关性的数值的维度与行为内容数据中各类别与被浏览时长的数据的相关性的数值组成的维度数量保持一致，只是由于行为内容数据中每一个类别与其自身的相关性可以与将行为内容数据中各类别的数据与被浏览时长的数据的相关性的数值组成的数组中相同类别自身的数学特征进行结合，更有利于对计算机网络***中社交平台上各用户账号的数据进行异常检测。同样地，在再次计算中，将行为内容数据中各类别与被浏览时长的数据的相关性的数值组成再次类别增长向量，将行为内容数据中不同的类别相互之间的相关性的数值组成再次类别相互矩阵。

使用所述首次相互序列与所述再次相互序列，从社交平台上用户账号中筛选出达人账号。

将首次类别相互矩阵中各位置的元素的数值替换成该数值相对于再次类别相互矩阵的逆矩阵之迹的比例值，以及将再次类别相互矩阵中各位置的元素的数值替换成该数值相对于首次类别相互矩阵的逆矩阵之迹的比例值，是为了更好地将两个时刻的社交网络上各种类别的增长进行跨越张量计算的相互连接。由于有着相同维度的方阵而且对称的，则有其乘积的迹在循环置换下不会改变，并有在所有的置换下均不会改变，又由于逆矩阵有个很大的作用就是还原变换，可以将首次类别相互矩阵与再次类别相互矩阵在数学特征上相互连接，使用相对于首次类别相互矩阵、再次类别相互矩阵的逆矩阵之迹的比例值，可以更好地在两个时刻的社交网络上各种类别的增长的数据特征之间进行投射。将首次类别增长向量叉乘第一校验相互矩阵所得数组作为首次相互序列，将再次类别增长向量叉乘第二校验相互矩阵所得数组作为再次相互序列，可以使得原本各类别的指标数据对于各用户账号在所述一段时间前后之间的影响因素能够在张量计算中得以对齐。而在现有技术中，要实现这一对齐往往通过深度神经网络结构的大规模参数在大型数据集上的反向传播来拟合，这需要的数据成本和计算成本都太大了，而且图神经网络的拟合一直是个高难度的操作，这样对小规模的生产线来说是不可实现的。小规模的生产线在***出现了故障，需要急速进行异常的达人账号筛选来维护网络安全时，也很难操作。但本发明所述方法更好地将两个时刻的社交网络上各种类别的增长进行跨越张量计算的相互连接，节约了计算成本，更易于快速实现，维护了***安全。这样，程序员在出现bug的时候，根据首次相互序列和再次相互序列，使用numpy工具进行计算，连pytorch这种小型的深度框架都不是必要的，便可以实现从社交平台上用户账号中筛选出达人账号的计算过程了。但值得注意的是，本发明并未限制或否认除上述框架或工具的实现方式，其他的分布式计算设备运行本发明所述方法接应落入本发明所述保护范围中。

在一些实施方式中，矩阵之迹应当被理解为能够表示该矩阵所有特征值的数学特征的一个数值，在其中一种可优选的实施方式中，矩阵的迹可为该矩阵对角线上元素之和。还在一些实施例中，两个数之间的相对的比例值可以是这两个数值分别进行指数化处理、均值化处理后的比例值，值得注意的是，在进行求取比例之前的处理过程不应当成为对本发明所述方法的保护范围的限制。

在首次相互序列和再次相互序列的实际计算过程中，根据上述的一种实施方式，由于首次类别增长向量和再次类别增长向量都是1×10的数组，而第一校验相互矩阵和第二校验相互矩阵都是10×10的矩阵，叉乘以后所得的首次相互序列和再次相互序列也皆为维度为10的向量。综上可知，在一些实施例中，首次类别增长向量和再次类别增长向量的维度数量与第一校验相互矩阵和第二校验相互矩阵的行/列的数量保持一致，或者，在一些实施例中，首次类别增长向量和再次类别增长向量的维度数量与首次相互序列和再次相互序列的的维度数量保持一致。

进一步地，根据首次相互序列和再次相互序列，从社交平台上用户账号中筛选出达人账号，具体为：

在一些实施例中，可以使用社交平台上大多数的用户账号的数据计算得到所述首次相互序列和所述再次相互序列，同时，对社交平台上的用户账号进行根据粉丝增长数、被浏览时长等排序从中采样出一部分的用户账号作为采样的用户账号，对所述采样的用户账号进行真实性分辨，若基于现有技术中的方法，可能会使用KL散度的方法对计算采样首次相互序列与所述再次相互序列之间的分布距离为第一分布距离、计算采样再次相互序列与所述首次相互序列之间的分布距离为第二分布距离，可能还会结合第一分布距离与第二分布距离与预设的阈值进行比对判断，符合一定阈值条件的可能会判定所述采样的用户账号中存在有的用户账号为异常的达人账号；

但在本发明所述方法提供的一些实施例子中，还可计算第一分布距离与第二分布距离之积是否超过了JS散度的取值分布之中位数，将采样首次相互序列与所述再次相互序列之间进行比较、并将采样再次相互序列与所述首次相互序列之间进行比较，这是由于可以更好地对应于上述的将首次类别相互矩阵中各位置的元素的数值替换成该数值相对于再次类别相互矩阵的逆矩阵之迹的比例值，以及将再次类别相互矩阵中各位置的元素的数值替换成该数值相对于首次类别相互矩阵的逆矩阵之迹的比例值，这样更好地将两个时刻的社交网络上各种类别的增长进行跨越张量计算的相互连接，在灵敏度测试中发现，将采样首次相互序列与所述再次相互序列之间进行比较、并将采样再次相互序列与所述首次相互序列之间进行比较的数据特征灵敏性高于将采样首次相互序列与所述首次相互序列之间进行比较、并将采样再次相互序列与所述再次相互序列之间进行比较，这种交叉对照的计算可以更好地分辨出异常的达人账号节点；

其中，在一种可优选的实施例中，使用JS散度(Jensen–Shannon divergence)来表示序列之间的分布距离，由于JS散度的数值分布具有对称性，且其取值是0到1之间，这样的好处是，不同于KL散度的不对称性，KL散度在计算过程中经常会遇到数值增幅过大，不好衡量，而使用JS散度，既可以衡量采样首次相互序列和采样再次相互序列在所属一段时间前后与所述首次相互序列与所述再次相互序列的偏离程度，JS散度的取值分布之中位数反映了采样首次相互序列和采样再次相互序列在所属一段时间前后与所述首次相互序列与所述再次相互序列的偏离程度的正常距离，本身已经是根据粉丝增长数、被浏览时长等排序从中采样出一部分的用户账号如果还超过了偏离程度的正常距离则是有极大的概率为异常的达人账号节点。

在实施过程中，使用了社交平台上用户账号的数据生成了一个数据集，曾根据该数据集对照试验梯度提升决策树模型与本发明所述方法进行比较：梯度提升决策树模型对数据进行处理包括训练和预测的运行时长需要32分钟，本发明所述方法的运行时长需要12分钟；在F-1 score的测试上，所述梯度提升决策树模型的分数为0.82，本发明所述方法的分数为0.84。

所述一种达人账号数据异常分辨***运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种达人账号数据异常分辨方法中的步骤,可运行的***可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种达人账号数据异常分辨***，如图2所示，该实施例的一种达人账号数据异常分辨***包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种达人账号数据异常分辨方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下***的单元中：

检测单元，用于根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出达人账号。

其中，为了更好地统一计量不同单位的物理量之间的数值的线性关系与概率联系，可以对不同的物理量间进行无量纲化处理。

其中，优选地，本发明中所有未定义的变量，若未有明确定义，均可为人工设置的阈值。

所述一种达人账号数据异常分辨***可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种达人账号数据异常分辨***包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种达人账号数据异常分辨方法、***及设备的示例，并不构成对一种达人账号数据异常分辨方法、***及设备的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种达人账号数据异常分辨***还可以包括输入输出设备、网络接入设备、总线等。

本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品：

其中，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种达人账号数据异常分辨***的控制中心，利用各种接口和线路连接整个一种达人账号数据异常分辨***的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种达人账号数据异常分辨方法、***及设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

本发明提供了一种达人账号数据异常分辨方法及***，通过计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出达人账号。可以更快速地识别出异常的账号信息，保障网络安全。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种达人账号数据异常分辨方法，其特征在于，所述方法包括：采集社交平台上用户账号的数据，用户账号的数据包括行为内容数据和被浏览时长的数据，行为内容数据中包含多个不同的类别；计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性；在一段时间后，再次计算行为内容数据中不同的类别与被浏览时长的数据的相关性，并计算行为内容数据中不同的类别相互之间的相关性；根据不同时间的行为内容数据中不同的类别与被浏览时长的数据的相关性，以及行为内容数据中不同的类别相互之间的相关性，从社交平台上用户账号中筛选出异常的达人账号;

其中，在首次计算中，将行为内容数据中各类别与被浏览时长的数据的相关性的数值组成首次类别增长向量，将行为内容数据中不同的类别相互之间的相关性的数值组成首次类别相互矩阵；

将所述首次类别相互矩阵中各位置的元素的数值与再次类别相互矩阵的逆矩阵进行交互得到第一校验相互矩阵；

使用所述首次相互序列与所述再次相互序列，从社交平台上用户账号中筛选出达人账号；

其中，在首次计算和再次计算的同时，从社交平台上的用户账号中采样出一部分的用户账号作为采样的用户账号，并根据采样的用户账号的数据也计算其对应的首次相互序列和再次相互序列记为采样首次相互序列和采样再次相互序列，计算采样首次相互序列与所述再次相互序列之间的分布距离为第一分布距离，计算采样再次相互序列与所述首次相互序列之间的分布距离为第二分布距离，结合第一分布距离与第二分布距离进行数值判断，判断所述采样的用户账号中是否存在异常的账号。

2.根据权利要求1所述的一种达人账号数据异常分辨方法，其特征在于，内容数据的类别包括发布时间、频率、活动时段的记录的数据，或者包括点赞、评论、转发的数量和频率的数据，或者包括发布的文字内容和/或图片和视频的数据，还包括网络特征数据。

3.根据权利要求1或2所述的一种达人账号数据异常分辨方法，其特征在于，网络特征数据包括与该账号互动最频繁的其他账号的记录的数据，或者包括账号间的潜在关系网络的特征数据。

4.根据权利要求1所述的一种达人账号数据异常分辨方法，其特征在于，各用户账号被浏览时长的数据为用户账号被别的用户账号浏览的时长的总和。

5.根据权利要求1所述的一种达人账号数据异常分辨方法，其特征在于，计算行为内容数据中不同的类别与被浏览时长的数据的相关性，计算行为内容数据中不同的类别相互之间的相关性，具体为：行为内容数据中不同的类别的数据与被浏览时长的数据进行相关性分析，得到行为内容数据中不同的类别的数据分别与被浏览时长的数据的相关系数；对行为内容数据中不同的类别相互之间进行相关性分析，得到行为内容数据中每个类别的数据与各类别的数据的相关系数。

6.根据权利要求1所述的一种达人账号数据异常分辨方法，其特征在于，在所述首次类别相互矩阵中，将首次类别相互矩阵中各位置的元素的数值替换成该数值相对于再次类别相互矩阵的逆矩阵之迹的比例值，替换后得到的即为第一校验相互矩阵；

7.根据权利要求1所述的一种达人账号数据异常分辨方法，其特征在于，将首次类别增长向量叉乘第一校验相互矩阵所得数组作为首次相互序列，将再次类别增长向量叉乘第二校验相互矩阵所得数组作为再次相互序列。

8.一种达人账号数据异常分辨***，其特征在于，所述一种达人账号数据异常分辨***运行于桌上型计算机、笔记本电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至2中及4至7中的任一项所述的一种达人账号数据异常分辨方法中的步骤。