CN111680252B

CN111680252B - 外链识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111680252B
Application number: CN202010511107.8A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-07-25
Anticipated expiration: 2040-06-05
Also published as: CN111680252A

Abstract

本申请实施例公开了外链识别方法、装置、设备及计算机可读存储介质，其中方法包括：根据第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；其中，邻接图中发布点与自身发布的外链之间通过边连接，邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重；基于邻接图、第一权重和第二权重生成内容发布点对应外链特征；将外链特征输入训练好的外链作弊识别模型，得到识别结果。

Description

外链识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及外链识别技术领域，尤其涉及一种外链识别方法、装置、设备及计算机可读存储介质。

背景技术

随着移动互联网时代的飞速发展，用户将大量的时间迁移到移动端上，从PC时代的门户网站到移动时代各种自媒体的兴起，用户获取内容的渠道和方式也越来越多，比如博客、微博、贴吧以及基于各种即时通讯工具的公众号***。

公众号是指开发者或商家在公众平台上申请的应用账号，该帐号与其即时通讯账号互通，通过公众号，商家可在公众平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。公众号平台作为目前基于订阅的个人自媒体平台目前在业界具有广泛的影响力，每天有成百上千万的用户会通过微信搜索入口查找想要的公众号文章。正是由于有如此巨大的流量，类似于网页时代的作弊，一些有利益驱动的公众号主往往会通过标题堆砌包含热门事情的文本或者在文章中夹杂一些与文本主题不符的作弊词来获得非法点击流量的作弊行为。

为了防止公众号***对其公众号文章热点堆砌及文本反作弊方面的打击，一些公众号主在试图通过在“阅读原文”的页面中加入一些作弊型外链，以诱导用户在“阅读全文”时，通过这些外链跳到外网作弊型网站页面，进而进行一些可能侵犯用户身心健康，钱财的涉黄涉爆，包括赌博，诱导购物等行为。

如何对公众号中存在的这种链接作弊形态进行管理，如何有效地识别出外链是否作弊，是技术人员研究的热点问题。

发明内容

本申请实施例提供一种外链识别方法、相关装置、设备及计算机可读存储介质，可有效地识别出外链是否作弊。

第一方面，本申请实施例提供了一种外链识别方法，该方法包括：

根据第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；其中，所述邻接图中发布点与自身发布的外链之间通过边连接，所述邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；

根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重；

将所述邻接图、所述第一权重和所述第二权重输入训练好的外链作弊识别模型，得到识别结果；所述识别结果表征所述内容发布点是否发布了作弊的外链。

通过实施本申请实施例，生成发布点与外链之间的邻接图，利用该邻接图中发布点与自身发布的外链之间边的第一权重、第一外链与第二外链之间边的第二权重，以及邻接图的图结构，生成发布点对应的外链特征，将所述外链特征输入训练好的外链作弊识别模型，得到识别结果。可以提高外链识别的准确性。而且在达到本申请外链识别的准确性的同时，通过本申请生成的发布点与外链之间的邻接图的图结构和相关特征，来进行外链作弊识别模型训练以及识别，相对于现有技术而言电子设备的运算效率更高，占用的计算机运算资源更少，因此可以提高计算机性能。

在其中一个可能的实现方式中，所述发布点与自身发布的外链之间边的第一权重为所述发布点中含有所述外链的发布单元的数量。

在其中一个可能的实现方式中，

所述根据含有外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重，包括：

根据发布点集合中各发布点分别含有所述第一外链和所述第二外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重；所述发布点集合包括发布了含有所述第一外链和所述第二外链的内容数据的发布点的集合。

在其中一个可能的实现方式中，

通过如下公式计算所述第一外链与第二外链之间边的第二权重：

其中，Url_i为第一外链；Url_j为第二外链；ComUin(i,j)为所述发布点集合；DocCnt_u,i为发布点u发布的含有Url_j的发布单元的数量；DocCnt_u,j为发布点u发布的含有Url_j的发布单元的数量；DocCnt_.,i为发布点集合中每个发布点对应的发布含有Url_i的发布单元的数量；DocCnt_.,j为发布点集合中每个发布点对应的发布含有Url_j的发布单元的数量；N为发布点集合中发布点数量

在其中一个可能的实现方式中，所述外链作弊识别模型包括基于网络嵌入算法训练而成的模型。

在其中一个可能的实现方式中，

所述网络嵌入算法包括深度游走DeepWalk算法；

所述将所述邻接图、所述第一权重和所述第二权重输入训练好的外链作弊识别模型，包括：

基于所述邻接图、所述第一权重和所述第二权重，生成随机游走序列；

将邻接图中的节点作为词，利用word2vec算法学习所述随机游走序列中节点的特征向量，输出特征向量矩阵。该Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。

在其中一个可能的实现方式中，

所述根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重，包括：

根据含有外链的发布单元的数量以及以下至少一项因子：内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率；

计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重。

第二方面，本申请实施例提供了一种外链识别装置，该装置包括：

邻接图生成单元，用于根据第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；其中，所述邻接图中发布点与自身发布的外链之间通过边连接，所述邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；

计算单元，用于根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重；

特征生成单元，用于基于所述邻接图、所述第一权重和所述第二权重生成所述内容发布点对应外链特征；

识别单元，用于将所述外链特征输入训练好的外链作弊识别模型，得到识别结果；所述识别结果表征所述内容发布点是否发布了作弊的外链。

在其中一个可能的实现方式中，上述计算单元具体用于：根据发布点集合中各发布点分别含有所述第一外链和所述第二外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重；所述发布点集合包括发布了含有所述第一外链和所述第二外链的内容数据的发布点的集合。

在其中一个可能的实现方式中，通过如下公式计算所述第一外链与第二外链之间边的第二权重：

其中，Url_i为第一外链；Url_j为第二外链；ComUin(i,j)为所述发布点集合；DocCnt_u,i为发布点u发布的含有Url_j的发布单元的数量；DocCnt_u,j为发布点u发布的含有Url_j的发布单元的数量；DocCnt_.,i为发布点集合中每个发布点对应的发布含有Url_i的发布单元的数量；DocCnt_.,j为发布点集合中每个发布点对应的发布含有Url_j的发布单元的数量；N为发布点集合中发布点数量。

在其中一个可能的实现方式中，特征生成单元具体用于：基于所述邻接图、所述第一权重和所述第二权重，通过网络嵌入算法生成所述内容发布点对应外链特征。

在其中一个可能的实现方式中，所述网络嵌入算法包括深度游走DeepWalk算法；

所述特征生成单元可以具体用于：

将邻接图中的节点作为词，利用word2vec算法学习所述随机游走序列中节点的特征向量，输出特征向量矩阵。

在其中一个可能的实现方式中，计算单元具体用于：根据含有外链的发布单元的数量以及以下至少一项因子：内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率；

第三方面，本申请实施例提供了一种外链识别设备，包括处理器，所述处理器被配置用于调用存储的程序指令，执行上述第一方面及各个可能的实现方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面及各个可能的实现方式中的方法。

第五方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面及各个可能的实现方式中的方法。

应当理解的是，本申请的第二至第五方面与本申请的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种外链识别***架构的原理示意图；

图2是本申请实施例提供的外链识别方法的流程示意图；

图3是本申请实施例提供的邻接图的结构示意图；

图4是本申请实施例提供的原始图的结构示意图；

图5是本申请实施例提供的深度游走的原理示意图；

图6是本申请实施例提供的随机游走的原理示意图；

图7是本申请实施例提供的外链识别装置的结构示意图；

图8是本申请实施例提供的一种外链识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了更好的理解本申请实施例提供的外链识别方法，先说明本申请涉及的一些概念。

本申请实施例中的内容发布点(即发布点)具体可以包括普通网站、或公众号、或网络日志(如博客)等等。发布单元是指发布点上的元素，例如网站划分有内容分开区域、如网站按照内容类型划分了多块区域，如时事新闻区域、体育区域、娱乐区域等等，每个内容分块区域都可以发布文章，那么发布的文章都可以是发布单元。又如公众号中发布的文章是发布单元。

具体而言，本申请实施例的外链识别方法可以应用在如下所示的场景A和场景B中，但本申请实施例的外链识别方法不限于这两种应用场景。下面分别对场景A和场景B进行简单的介绍。

场景A：

用户打开网站的文章。例如进入网站的新闻资讯内容板块，进入新闻资讯浏览页面后，用户可基于当前页面，在今日值得看里面浏览新闻文章。那么针对该网站上含有外链的文章，可通过本申请实施例的外链识别方法进行识别，以识别该网站是否发布了作弊的外链。

场景B：

用户打开公众号的文章。例如用户进入公众号a，在公众号a的页面中，点击浏览发布的文章。那么针对该公众号a上含有外链的文章，可通过本申请实施例的外链识别方法进行识别，以识别该公众号a是否发布了作弊的外链。

由于本申请实施例涉及神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：其中，/>是输入向量，/>是输出向量，b是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量/>经过如此简单的操作得到输出向量/>由于DNN层数多，则系数W和偏移向量b的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为/>需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(CNN，convolutional neuron network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(RNN,recurrent neural networks)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数，如W，是共享的；而如上举例上述的传统神经网络却不是这样。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法Back propagation Through Time(BPTT)。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始样本生成器中参数的大小，使得初始样本生成器的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始样本生成器中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的目标样本生成器的参数，例如权重矩阵。

(7)生成式对抗网络

生成式对抗网络(generative adversarial networks,GAN)是一种深度学习模型。该模型中至少包括两个模块：一个模块是生成模型(generative model，本申请实施例中也称生成网络)，另一个模块是判别模型(discriminative model，本申请实施例中也称为判别网络)，通过这两个模块互相博弈学习，从而产生更好的输出。生成模型和判别模型都可以是神经网络，具体可以是深度神经网络，或者卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G(generator)和D(discriminator)，其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z))＝0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

下面介绍本申请实施例提供的***架构。

参见附图1，本申请实施例提供了一种外链识别***架构的原理示意图，如图中外链识别的***架构可以包括模型训练过程，以及外链识别过程。其中：

在模型训练过程中：

通过输入样本数据，对外链作弊识别模型进行训练。该样本数据包括包含某些作弊外链的公众号文章的负样本标注数据，以及不包含作弊外链的公众号文章的正样本标注数据。经过对输入的样本数据提取出外链特征，进而训练构建出基于外链特征分析的外链作弊识别模型。

其中对输入的样本数据提取外链特征，可以基于由内容发布点发布的含有外链的样本内容数据生成的发布点与外链之间的样本邻接图，以及第一样本权重和第二样本权重，生成样本公众号对应的外链特征。

其中，该样本邻接图中第一外链与第二外链之间通过边连接，该第一外链与该第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；根据含有外链的发布单元的数量，计算该发布点与自身发布的外链之间边的第一样本权重，以及计算该第一外链与第二外链之间边的第二样本权重。

在外链识别过程中：

通过第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；根据该邻接图，以及第一权重和第二权重生成内容发布点对应外链特征，向训练好的外链作弊识别模型中输入该外链特征，以输出识别结果。该识别结果即表征该内容发布点是否发布了作弊的外链。

其中，该邻接图中第一外链与第二外链之间通过边连接，该第一外链与该第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；根据含有外链的发布单元的数量，计算该发布点与自身发布的外链之间边的第一权重，以及计算该第一外链与第二外链之间边的第二权重。

下面结合图2示出的本申请实施例提供的外链识别方法的流程示意图，来说明本申请如何完成外链识别，执行该外链识别方法的主体可以为服务器等电子设备，具体可以执行如下步骤：

步骤S200：根据第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；

其中，本申请实施例中的内容发布点包括但不限于网站、或公众号、或网络日志(如博客)等等，其发布的内容数据可以包括文章。第一时间段可以为预设的一个时间段，比如3个月、或6个月等等，或者也可以根据收集到内容数据的量来自适应调整该时间段，本申请不作限制。

如图3示出的本申请实施例提供的邻接图的结构示意图，邻接图包括至少一个发布点，及其自身发布的外链。其中，发布点与自身发布的外链之间通过边连接。若外链中存在第一外链和第二外链，该第一外链和第二外链之间也可以通过边连接。该第一外链和第二外链是指在同一发布点的不同发布单元中被分别发布的两个不同的外链。邻接图中可以包括多个第一外链和多个第二外链。

举例来说，本申请实施例中的发布单元可以包括网站发布的文章，例如网站按照内容类型划分了多块区域，如时事新闻区域、体育区域、娱乐区域等等，每个内容分块区域都会发布文章；那么不同发布单元发布的外链即可以为相同或不同内容分块区域发布的不同文章中的外链。本申请实施例中的发布单元也可以包括公众号的文章；那么不同发布单元发布的外链即可以为不同文章中的外链。

以发布点为公众号为例，在其中一个可能的实现方式中，本申请实施例在生成邻接图时，可以先根据收集公众号平台近半年沉淀的海量公众号-文章-链接数据，构成如下原始图结构，如图4示出的本申请实施例提供的原始图的结构示意图，包括至少一个发布点，及其自身发布的文章，以及文章中包含的外链。然后可以去除上述三层网络结构中的文章层，即构建出本申请的公众号-外链的邻接图。

在其中一个可能的实现方式中，在去除上述三层网络结构中的文章层之前或之后，还可以包括过滤处理，包括过滤掉其中的低频链接，即过滤掉发布频率低于或等于预设阈值的链接。例如，在去除上述三层网络结构中的文章层之前进行过滤处理，那么即对该原始图进行过滤处理，过滤掉其中的低频链接。若在去除上述三层网络结构中的文章层之后进行过滤处理，即对公众号-外链的邻接图进行过滤处理，过滤掉其中的低频链接。

步骤S202：根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重；

在其中一个可能的实现方式中，该发布点与自身发布的外链之间边的第一权重为该发布点中含有该外链的发布单元的数量。

在其中一个可能的实现方式中，所述根据含有外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重，可以包括：

根据发布点集合中各发布点分别含有该第一外链和该第二外链的发布单元的数量，计算该第一外链与第二外链之间边的第二权重；该发布点集合包括发布了含有该第一外链和该第二外链的内容数据的发布点的集合。

在其中一个可能的实现方式中，步骤S202还可以通过根据含有外链的发布单元的数量以及以下至少一项因子：内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率；来计算该发布点与自身发布的外链之间边的第一权重，以及计算该第一外链与第二外链之间边的第二权重。

步骤S204：基于所述邻接图、所述第一权重和所述第二权重生成所述内容发布点对应外链特征；

其中，本申请实施例基于该邻接图、该第一权重和该第二权重，可以通过网络嵌入算法生成内容发布点对应外链特征、还可以通过基于图卷积网络(Graph ConvolutionalNetwork，GCN)生成内容发布点对应外链特征。

在其中一个可能的实现方式中，该网络嵌入算法包括深度游走DeepWalk算法。上述基于该邻接图、该第一权重和该第二权重，通过网络嵌入算法生成内容发布点对应外链特征，可以包括：

基于该邻接图、该第一权重和该第二权重，生成随机游走序列；将邻接图中的节点作为词，利用word2vec算法学习所述随机游走序列中节点的特征向量，输出特征向量矩阵。

在其中一个可能的实现方式中，步骤S200中的内容数据可以是多个不同的内容发布点发布的内容数据，也可以是一个内容发布点发布的内容数据。若是多个不同的内容发布点发布的内容数据，那么步骤S204则可以生成多个内容发布点各自对应的外链特征。若是一个内容发布点发布的内容数据，那么步骤S204则该一个内容发布点对应的外链特征。

步骤S206：将所述外链特征输入训练好的外链作弊识别模型，得到识别结果；所述识别结果表征所述内容发布点是否发布了作弊的外链。该识别结果表征该内容发布点是否发布了作弊的外链。

一些有利益驱动的公众号，往往会通过标题堆砌包含热门事情的文本或者在文章中夹杂一些与文本主题不符的作弊词来获得非法点击流量的作弊行为，因此针对上述作弊行为，可以通过收集作弊词典，包括通过关键词提取技术或者主题模型Topic Model等技术获取文章主题，进而结合作弊词典命中情况，文本长度，文本中图片占比及计算用户查询串和当前文章关键词列表的相似度等图文特征来应用一些有监督机器学习作弊分类模型(比如收集是否作弊的正负样本构建基于树模型做二分类)来决定该公众号文章是否为作弊文章及其应排序的位置。然而针对公众号中存在的这种链接作弊形态，现在技术没有有效地解决办法。

本申请实施例针对微信公众号中存在的这种链接作弊形态提出的外链识别方法，通过生成发布点与外链之间的邻接图，以识别作弊外链特征，将将这些外链特征作为一类作弊因子输入到外链作弊识别模型(例如有监督作弊分类模型)来达到对此类作弊形态的识别，可有效地识别出外链是否作弊，实现了对公众号中存在的这种链接作弊形态进行有效管理。

在其中一个可能的实现方式中，本申请实施例可以通过如下公式计算所述第一外链与第二外链之间边的第二权重：

例如，发布点集合中发布点数量为3，以公众号为例，即有3个公众号P1、P2和P3，例如公众号P1中发布含有Url_i的文章的数量为10，公众号P2中发布含有Url_i的文章的数量为20，公众号P2中发布含有Url_i的文章的数量为30，那么即为10²+20²+30²。又如公众号P4中发布含有Url_j的文章的数量为14，公众号P5中发布含有Url_j的文章的数量为18，公众号P6中发布含有Url_j的文章的数量为35，那么/>即为15²+18²+35²。

下面以基于网络嵌入算法生成内容发布点对应外链特征为例，进行说明：

本申请实施例的网络嵌入算法可以深度游走DeepWalk算法、或节点转向量node2vec算法，等等。下面以DeepWalk算法为例进行说明，以社交网络为例，网络嵌入就是将网络中的点用一个低维的向量表示，并且这些向量要能反映原先网络的某些特性，比如如果在原网络中两个点的结构类似，那么这两个点表示成的向量也应该类似。本申请实施例可以将生成的发布点与外链之间的邻接图中的每个节点看作一个词，然后先根据图结构(邻接图的结构)生成随机游走(random walk)序列，再利用单词转向量Word2Vec算法去学习序列中节点的特征向量。

如图5示出的本申请实施例提供的深度游走的原理示意图，输入的是本申请实施例的邻接图的结构，把邻接图看作网络，邻接图中的节点V包括发布点和外链，邻接图中的边E包括发布点与外链之间的边，以及外链与外链之间的边。经过随机游走学习后，输出节点的特征向量。

在其中一个可能的实现方式中，如图6示出的本申请实施例提供的随机游走的原理示意图，random walk是在网络上不断重复地随机选择游走路径，最终形成一条贯穿网络的路径。从某个特定的端点开始，游走的每一步都从与当前节点相连的边中随机选择一条，沿着选定的边移动到下一个顶点，不断重复这个过程。如图6所示虚线箭头即为一条随机游走，以v_i为根节点(即顶点)生成的一条随机游走路径(虚线箭头)为其中路径上经过的节点可以分别标记为/>截断随机游走实际上就是长度固定w的随机游走。

在其中一个可能的实现方式中，本申请实施例采用的深度游走算法中的DeepWalk(G，w，d，γ，t)。其中，G代表邻接图，w代表窗口大小，d代表维度，γ代表每个顶点随机游走的次数，t代表随机游走的步长。

输入G(V，E)，其中，V代表邻接图的节点，E代表邻接图中的边。

输出是|V|×d的矩阵每一个顶点都有一个d维的连续向量。

深度游走算法可以包括如下流程：

初始化每个顶点的向量空间；

建立Huffman树(根据随机游走顶点出现的次数构建)

从0至γ进入循环；相当于对每个节点做γ次随机游走；

将V打乱顺序得到相当于打乱网络中的节点；

遍历中每一个顶点，进入循环；

得到从v_i节点开始的步长为t的随机游走序列；即

通过本申请的SkipGram模型进行参数更新；

退出里层循环；

退出外层循环。

在其中一个可能的实现方式中，本申请实施例的word2vec算法中涉及的SkipGram(Φ，w)，Φ代表当前的顶点向量，/>代表随机游走生成的序列，w代表窗口大小。

具体可以包括如下流程：

遍历序列中的每一个节点v_i，进入循环；

遍历v_i顶点前后w的每一个顶点，进入循环；

更新参数；例如J(Φ)＝-logPr(u_k|Φ(v_j))，

退出里层循环；

退出外层循环。

最终我们可以用一组外链向量来表征公众号，那么在训练时即可基于对包含某些作弊外链的公众号文章的正负样本标注数据，即可训练并构建出一个基于该外链特征向量的外链作弊识别模型。在识别过程中，将要识别的外链向量输入该外链作弊识别模型，即可有效地识别出外链是否作弊，实现了对公众号中存在的这种链接作弊形态进行有效管理。

在其中一个可能的实现方式中，本申请实施例构建的外链作弊识别模型还可以是结合外链特征向量与图文作弊特征的识别模型。即本申请外链作弊识别模型可以是结合了文本作弊特征与链接作弊特征是否作弊的二分类模型。从而进一步提高外链识别的准确性。

在其中一个可能的实现方式中，上述步骤S202可以具体包括：

根据含有外链的发布单元的数量以及以下至少一项因子：内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率；来计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重

具体地，本申请实施例在计算第一权重和/或第二权重的过程中，除了考虑含有外链的发布单元的数量外，还可以考虑内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率。也就是说，将内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率中的至少一项因子，作为一个参数或一个维度值、权重值等，加入到算法中。可以增加外链识别的全面性，进而再进一步提高外链识别的准确性。

内容发布点的权威度值可以是根据用户对该内容发布点的评价信息确认出的权威度值，或者根据服务器侧对该内容发布点的管理评价信息确认出的权威度值。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了一种外链识别装置，如图7示出的本申请实施例提供的外链识别装置的结构示意图，外链识别装置70可以包括：邻接图生成单元700、计算单元702、特征生成单元704和识别单元706，其中

邻接图生成单元700用于根据第一时间段内在内容发布点发布的含有外链的内容数据，生成发布点与外链之间的邻接图；其中，所述邻接图中发布点与自身发布的外链之间通过边连接，所述邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一发布点的不同发布单元中被分别发布的两个不同的外链；

计算单元702用于根据含有外链的发布单元的数量，计算所述发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重；

特征生成单元704用于基于所述邻接图、所述第一权重和所述第二权重生成所述内容发布点对应外链特征；

识别单元706用于将所述外链特征输入训练好的外链作弊识别模型，得到识别结果；所述识别结果表征所述内容发布点是否发布了作弊的外链。

在其中一个可能的实现方式中，上述计算单元702具体可以用于：根据发布点集合中各发布点分别含有所述第一外链和所述第二外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重；所述发布点集合包括发布了含有所述第一外链和所述第二外链的内容数据的发布点的集合。

在其中一个可能的实现方式中，特征生成单元704具体可以用于：基于所述邻接图、所述第一权重和所述第二权重，通过网络嵌入算法生成所述内容发布点对应外链特征。

特征生成单元704具体可以用于：

在其中一个可能的实现方式中，计算单元702具体可以用于：根据含有外链的发布单元的数量以及以下至少一项因子：内容发布点的权威度值；内容数据的发布时间；或内容发布点发布内容的频率；

本申请实施例中的外链识别装置70各单元用于对应执行上述各方法实施例中图1至图6实施例中的外链识别方法中执行设备执行的步骤，这里不再赘述。

图8是本申请实施例提供的一种外链识别设备的结构示意图。图8所示的外链识别设备800(该设备具体可以是一种计算机设备)包括存储器801、处理器802、通信接口803以及总线804。其中，存储器801、处理器802、通信接口803通过总线804实现彼此之间的通信连接。

存储器801可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器801可以存储程序，当存储器801中存储的程序被处理器802执行时，处理器802和通信接口803用于执行本申请实施例的外链识别方法的各个步骤。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以执行本申请方法实施例的外链识别方法。

处理器802还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的样本生成器的训练方法的各个步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成本申请方法实施例的外链识别方法。

在其中一种可能的实施方式中，外链识别设备800可以不包括存储器801，处理器802通过通信接口803可以获取云端存储的程序，以执行申请方法实施例的外链识别方法的步骤。

通信接口803使用例如但不限于收发器一类的收发装置，来实现装置800与其他设备或通信网络之间的通信。例如，可以通过通信接口803获取训练数据。

总线804可包括在装置800各个部件(例如，存储器801、处理器802、通信接口803)之间传送信息的通路。

上述各个功能器件的具体实现可以参见上述各个方法实施例中相关描述，本申请实施例不再赘述。

在具体实现中，外链识别设备可以为终端或者服务器，具体地，其表现形式可以包括移动手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动互联网设备(Mobile Internet Device，MID)等各种用户可以使用的设备，本发明实施例不作具体限定。

应理解，本申请实施例提供的方法可以适用的应用场景只是作为一种示例，实际应用中并不限于此。

还应理解，本申请中涉及的第一、第二、第三以及各种数字编号仅仅为描述方便进行的区分，并不用来限制本申请的范围。

应理解，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，在本申请的各个实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块和单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是物理上分开的，也可以不是物理上分开的，作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

此外，在本申请各个实施例中所涉及的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，本申请对此不作限定。

本发明实施例还提供了一种计算机存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个实施例所述方法中的一个或多个步骤。上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中，基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机产品存储在计算机可读存储介质中。

上述计算机可读存储介质可以是前述实施例所述的设备的内部存储单元，例如硬盘或内存。上述计算机可读存储介质也可以是上述设备的外部存储设备，例如配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述计算机可读存储介质还可以既包括上述设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可通过计算机程序来指令相关的硬件来完成，该计算机的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种外链识别方法，其特征在于，包括：

根据第一时间段内在内容发布点发布的含有外链的内容数据，生成所述内容发布点与外链之间的邻接图；其中，所述邻接图中所述内容发布点与自身发布的外链之间通过边连接，所述邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一内容发布点的不同发布单元中被分别发布的两个不同的外链，所述发布单元为在所述内容发布点上发布的内容；

根据含有外链的发布单元的数量，计算所述内容发布点与自身发布的外链之间边的第一权重；以及根据发布点集合中各内容发布点分别含有所述第一外链和所述第二外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重；所述内容发布点集合包括发布了含有所述第一外链和所述第二外链的内容数据的内容发布点的集合；

基于所述邻接图、所述第一权重和所述第二权重，通过网络嵌入算法生成所述内容发布点对应外链特征；

将所述外链特征输入训练好的外链作弊识别模型，得到识别结果；所述识别结果表征所述内容发布点是否发布了作弊的外链。

2.根据权利要求1所述的方法，其特征在于，所述内容发布点与自身发布的外链之间边的第一权重为所述内容发布点中含有所述外链的发布单元的数量。

3.根据权利要求1所述的方法，其特征在于，通过如下公式计算所述第一外链与第二外链之间边的第二权重：

其中，Url_i为第一外链；Url_j为第二外链；ComUin(i,j)为所述内容发布点集合；DocCnt_u,i为发布点u发布的含有Url_j的发布单元的数量；DocCnt_u,j为内容发布点u发布的含有Url_j的发布单元的数量；DocCnt_.,i为发布点集合中每个内容发布点对应的发布含有Url_i的发布单元的数量；DocCnt_.,j为发布点集合中每个内容发布点对应的发布含有Url_j的发布单元的数量；N为发布点集合中内容发布点数量。

4.根据权利要求1所述的方法，其特征在于，所述网络嵌入算法包括深度游走DeepWalk算法；

所述基于所述邻接图、所述第一权重和所述第二权重，通过网络嵌入算法生成所述内容发布点对应外链特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据含有外链的发布单元的数量，计算所述内容发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重，包括：

计算所述内容发布点与自身发布的外链之间边的第一权重，以及计算所述第一外链与第二外链之间边的第二权重。

6.一种外链识别装置，其特征在于，包括：

邻接图生成单元，用于根据第一时间段内在内容发布点发布的含有外链的内容数据，生成所述内容发布点与外链之间的邻接图；其中，所述邻接图中所述内容发布点与自身发布的外链之间通过边连接，所述邻接图中第一外链与第二外链之间通过边连接，所述第一外链与所述第二外链为在同一内容发布点的不同发布单元中被分别发布的两个不同的外链，所述发布单元为在所述内容发布点上发布的内容；

计算单元，用于根据含有外链的发布单元的数量，计算所述内容发布点与自身发布的外链之间边的第一权重；以及根据发布点集合中各内容发布点分别含有所述第一外链和所述第二外链的发布单元的数量，计算所述第一外链与第二外链之间边的第二权重；所述内容发布点集合包括发布了含有所述第一外链和所述第二外链的内容数据的内容发布点的集合；

特征生成单元，用于基于所述邻接图、所述第一权重和所述第二权重，通过网络嵌入算法生成所述内容发布点对应外链特征；

7.一种外链识别设备，其特征在于，包括处理器，所述处理器被配置用于调用存储的程序指令，执行如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。