CN116680633A

CN116680633A - 基于多任务学习的异常用户检测方法、***及存储介质

Info

Publication number: CN116680633A
Application number: CN202310502512.7A
Authority: CN
Inventors: 易舒婷; 张剑凯; 周韵; 黄琬庭; 宋雨灿; 黄可欣; 张一弛; 唐鸿锐; 李岳洋; 曹琳玲; 张学虹; 邓旭聪; 陈浪; 张芳; 吴寿勇; 杜德道; 付饶; 何军; 杨伶俐
Original assignee: State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-09-01
Anticipated expiration: 2043-05-06
Also published as: CN116680633B

Abstract

本发明公开了一种基于多任务学习的异常用户检测方法、***及存储介质，本发明结合图卷积神经网络实现异常用户检测任务；采用知识图谱嵌入技术学习用户间的交互关系信息，同时分别对发出图和接收图分别进行嵌入表示。本发明从在线社交网络中用户之间的多种交互行为入手，考虑交互关系语义信息与用户标签之间的内在关联，实现交互关系学习任务与异常用户检测任务之间的信息共享补充，旨在通过任务间的内在关联来提升检测方法性能。实验结果显示，本发明能有效实现对异常用户的检测，并且检测性能显著提高；本发明显著优于解耦嵌入过程和检测过程的方式。本发明适用性高，仅基于用户之间的交互行为就已达到了很好的检测效果，具有较好的实用性。

Description

基于多任务学习的异常用户检测方法、***及存储介质

技术领域

本发明属于异常用户识别的技术领域，具体涉及一种基于多任务学习的异常用户检测方法、***及存储介质。

背景技术

近年来，随着科技的进步，在线社交网络(online social network,OSN)满足了人们多方面的需求，现如今，社交网站已经成为人们相互联系、分享信息、感情、照片、帖子、状态等的一个广阔平台，与人们的工作、生活深度融合。国内知名在线社交网络平台——新浪微博的2021年财务报表显示，2021年9月的月活跃用户数达到了5.73亿。然而，随着在线社交网络的***式发展，也吸引着许多非法用户将其看作是牟取利益的工具，Twitter、Facebook，新浪微博、网易等在线社交应用中的许多用户经常受到各种异常用户带来的困扰。社交网络异常用户层出不穷：实施恶意行为、传播恶意信息的恶意用户，不参与正常的在线社交活动，以追随、热捧其他用户、话题为主要目的僵尸用户，发布垃圾信息、不良信息的垃圾用户，以及批量注册生成的虚假账户等。这些异常用户使得社交平台的正常运行发展受到了扰乱，对公众的利益也带来了许多潜在的威胁，对网络环境与社会皆造成了不良的影响。由于这些原因，识别异常用户是社交网络研究领域的一个重要课题，对打击网络诈骗、净化网络环境、维护社会稳定等具有重要作用。

异常用户通常会通过伪装来逃避检测，但无法轻易操纵用户间的交互，因此社交关系特征具有很高的鲁棒性。然而大部分基于社交关系的现有工作存在以下一些缺陷：

1)只考虑了单一的关系，但在线社交网络中存在着多种社交关系，例如转发、评论、关注等。

2)将用户之间的关系视为对称关系。在实际场景中，异常用户为了获取利益，常常会向正常用户发出大量交互行为，显然发出关系和被动接收关系蕴含着不同的语义信息。

3)忽略了关系信息学习和异常用户检测之间的内在联系。

针对这些不足之处，本申请考察用户之间多种非对称关系，同时将异常用户检测和用户嵌入表示视为两个分离但是具有内在关联的任务，捕捉这种内在联系，同时通过特征交互操作实现任务之间的信息共享相互补充，利用嵌入任务来协助检测任务，进一步提高检测方法性能。

发明内容

本发明的目的在于提供一种基于多任务学习的异常用户检测方法、***及存储介质，旨在解决上述的问题。

本发明主要通过以下技术方案实现：

一种基于多任务学习的异常用户检测方法，包括以下步骤：

步骤S100：通过抽象用户交互行为得到无属性多关系有向图结构，并从图中提取社交图的拓扑特征，获得邻接矩阵；从用户的交互行为抽象得到发出图和接收图；

步骤S200：构建网络模型，所述网络模型包括发出图嵌入任务网络层、接收图嵌入任务网络层、分类任务网络层以及交互模块，分类任务网络层为图卷积神经网络层；将发出图G_s、接收图G_a、邻接矩阵分别对应输入发出图嵌入任务网络层、接收图嵌入任务网络层、分类任务网络层，分别获得输出的特征向量S、P、U；

步骤S300：在交互模块中，将步骤S200中不同任务输出的特征向量S、P、U进行交互共享：

其中：α_i,j为第i个任务共享第j个任务信息的程度，

α_i,i为第i个任务保留自身信息的程度，

通过将α_i,j设置为0来决定使特定层具有特定的任务，以及将α_i,i赋更高的值来提高不同任务中的向量之间共享的程度；

步骤S400：分别计算发出图嵌入任务损失L₁、接收图嵌入任务损失L₂、分类任务损失L₃，网络模型的损失函数为发出图嵌入任务损失L₁、接收图嵌入任务损失L₂、分类任务损失L₃之和；

步骤S500：对于异常检测任务，所述分类任务网络层经过k层图卷积算子以及交互模块后输出特征U_k，采用全连接层进行线性变换后再输入到softmax分类器，将输出向量转换为概率分布，表示用户分别属于异常用户与正常用户的概率；通过拟合用户的预测类别与实际标签进行优化训练，最终得到训练后的网络模型，用于检测用户是否异常。

为了更好地实现本发明，进一步地，所述步骤S200中，发出图嵌入任务网络层、接收图嵌入任务网络层分别用于实现对发出图和接收图进行嵌入表示；发出图嵌入任务网络层、接收图嵌入任务网络层分别采用多层感知机作为表示学习的基础网络结构，且每一层的输入为上一层经过交互模块的输出，每层网络映射方式如下：

其中：为发出图嵌入任务网络层的第i-1层经过交互模块的输出；

为接收图嵌入任务网络层的第i-1层经过交互模块的输出；

M()为全连接层。

为了更好地实现本发明，进一步地，所述全连接层的公式如下：

M(x)＝σ(wx+b)

其中，w表示权重，

b表示偏置，

σ()为非线性激活函数。

为了更好地实现本发明，进一步地，发出图嵌入任务损失L₁的计算公式如下：

其中，h、t为发出图G_s中的节点，l为发出图G_s中节点间的关系；

S_k为发出图经过k层感知机映射以及共享模块后输出的发出图中的节点表示；

r_s为发出图中的关系向量表示；

T表示进行矩阵转置；

接收图嵌入任务损失L₂的计算公式如下：

其中，h、t为接收图G_a中的节点，l为接收图G_a中节点间的关系；

P_k为接收图经过k层感知机映射以及共享模块后输出的接收图中的节点表示；

r_p为接收图中的关系向量表示。

为了更好地实现本发明，进一步地，所述步骤S200中，图卷积神经网络层的每层的输出计算如下：

其中：f()为激活函数，

A为节点的邻接矩阵，

I为单位矩阵，

为正则化后的邻接矩阵，

为第m层权重参数矩阵，

d_m为第m层输出向量的维度，d_m+1为第m+1层输出向量的维度，

为第m层经过共享模块输出的特征表示，

其中矩阵定义为：

为了更好地实现本发明，进一步地，步骤S500中，所述概率分布的计算公式如下：

其中：a为权重，

b为偏置，

U_k为经过k层图卷积算子以及交互模块后输出的特征。

为了更好地实现本发明，进一步地，采用交叉熵作为损失函数计算分类任务损失L₃，计算公式如下：

其中：y为用户标签。

为了更好地实现本发明，进一步地，所述步骤S400中，采用动态损失权重，通过动态调整梯度大小来自动平衡网络模型的训练，所述网络模型的损失函数为：

L(t)＝w₁(t)×L₁(t)+w₂(t)×L₂(t)+w₃(t)×L₃(t)

其中：t表示第t次训练，

w₁(t)表示第t次训练时发出图嵌入任务损失的权重，

w₂(t)表示第t次训练时接收图嵌入任务损失的权重，

w₃(t)表示第t次训练时分类任务损失的权重，

L₁(t)表示第t次训练时的发出图嵌入任务损失，

L₂(t)表示第t次训练时的接收图嵌入任务损失，

L₃(t)表示第t次训练时的分类任务损失。

本发明主要通过以下技术方案实现：

一种基于多任务学***衡模块，所述交互共享模块分别与知识图嵌入模块、异常用户检测模块连接；

所述数据处理模块用于抽象用户交互行为并处理得到邻接矩阵、发出图和接收图；

所述知识图嵌入模块用于基于知识图嵌入对发出图和接收图进行嵌入表示，得到特征向量S、特征向量P，以实现将交互关系信息向量化隐含在节点的嵌入表示中；所述知识图嵌入模块采用多层感知机作为表示学习的基础网络结构，且每一层的输入为上一层经过交互共享模块的输出；

所述异常用户检测模块用于基于图卷积神经网络将邻接矩阵中邻居节点的特征信息聚集起来，对节点的局部结构信息进行融合，学习节点的特征信息以及结构信息；所述异常用户检测模块用于经过k层图卷积算子以及交互模块后输出特征U_k，采用全连接层进行线性变换后再输入到softmax分类器，将输出向量转换为概率分布，以表示用户分别属于异常用户与正常用户的概率；

所述交互共享模块用于将邻接矩阵、发出图和接收图对应的特征向量U、S、P进行交互以及控制不同任务之间信息交互的程度；

所述损失平衡模块用于根据GradNorm方法计算损失函数，采用动态损失权重，通过动态调整梯度大小来自动平衡网络模型的训练。

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述的方法。

本发明的有益效果：

本发明从在线社交网络中用户之间的多种交互行为入手，考虑交互关系语义信息与用户标签之间的内在关联，结合多任务学习框架，实现交互关系学习任务与异常用户检测任务之间的信息共享补充，旨在通过任务间的内在关联来提升检测方法性能。实验结果显示，本发明能有效实现对异常用户的检测，并且检测性能显著提高；本发明显著优于解耦嵌入过程和检测过程的方式。此外，本发明适用性高，仅基于用户之间的交互行为就已达到了很好的检测效果，具有较好的实用性。

附图说明

图1为本发明的原理框图。

具体实施方式

实施例1：

一种基于多任务学习的异常用户检测方法，如图1所示，包括以下步骤：

其中：α_i,j为第i个任务共享第j个任务信息的程度，

α_i,i为第i个任务保留自身信息的程度，

优选地，所述步骤S200中，发出图嵌入任务网络层、接收图嵌入任务网络层分别用于实现对发出图和接收图进行嵌入表示；发出图嵌入任务网络层、接收图嵌入任务网络层分别采用多层感知机作为表示学习的基础网络结构，且每一层的输入为上一层经过交互模块的输出，每层网络映射方式如下：

为接收图嵌入任务网络层的第i-1层经过交互模块的输出；

M()为全连接层。

优选地，所述全连接层的公式如下：

M(x)＝σ(wx+b)

其中，w表示权重，

b表示偏置，

σ()为非线性激活函数。

优选地，所述步骤S200中，图卷积神经网络层的每层的输出计算如下：

其中：f()为激活函数，

A为节点的邻接矩阵，

I为单位矩阵，

为正则化后的邻接矩阵，

为第m层权重参数矩阵，

d_m为第m层输出向量的维度，d_m+1为第m+1层输出向量的维度，

为第m层经过共享模块输出的特征表示，

其中矩阵定义为：

优选地，步骤S500中，所述概率分布的计算公式如下：

其中：a为权重，

b为偏置。

U_k为经过k层图卷积算子以及交互模块后输出的特征。

实施例2：

一种基于多任务学***衡模块，所述交互共享模块分别与知识图嵌入模块、异常用户检测模块连接。

如图1所示，所述数据处理模块用于抽象用户交互行为并处理得到邻接矩阵、发出图和接收图；

所述知识图嵌入模块用于基于知识图嵌入对发出图和接收图进行嵌入表示，得到特征向量S、特征向量P，以实现将交互关系信息向量化隐含在节点的嵌入表示中；所述知识图嵌入模块采用多层感知机作为表示学习的基础网络结构，且每一层的输入为上一层经过交互共享模块的输出；通过拟合发出图和接收图中的三元组进行优化训练，学习节点间存在的多种关系，采用DisMult嵌入方法中的得分函数作为嵌入任务的损失函数。

所述损失平衡模块用于根据GradNorm方法计算损失函数，采用动态损失权重，通过动态调整梯度大小来自动平衡网络模型的训练。网络模型的损失函数为发出图嵌入任务损失L₁、接收图嵌入任务损失L₂、分类任务损失L₃之和。

如图1所示，在网络模型中，本发明通过抽象用户交互行为得到无属性多关系有向图结构，从图中提取社交图的拓扑特征作为用户节点的初始特征向量；结合图卷积神经网络实现异常用户检测任务；采用知识图谱嵌入技术学习用户间的交互关系信息，同时分别对发出图和接收图分别进行嵌入表示。对用户在嵌入任务中的表征和检测任务中的表征交互进行建模，并自动控制不同任务之间信息交互的程度，学习到共享特征表示和独立特征表示的最佳组合。

实施例3：

一种基于多任务学习的异常用户检测方法，如图1所示，在网络模型中，通过抽象用户交互行为得到无属性多关系有向图结构，从图中提取社交图的拓扑特征作为用户节点的初始特征向量；结合图卷积神经网络实现异常用户检测任务；采用知识图谱嵌入技术学习用户间的交互关系信息，同时分别对发出图和接收图分别进行嵌入表示。对用户在嵌入任务中的表征和检测任务中的表征交互进行建模，并自动控制不同任务之间信息交互的程度，学习到共享特征表示和独立特征表示的最佳组合。

优选地，在交互模块中，获得发出图嵌入任务网络层的输出S，接收图嵌入任务网络层的输出P，分类任务中网络层输出U。对不同任务输出的特征向量进行交互共享操作：

其中，α_i,j表示第i个任务共享第j个任务信息的程度，

α_i,i表示第i个任务保留自身信息的程度。

网络可以通过将α_i,j设置为0，来决定使某些层具有特定的任务，以及将α_i,i赋更高的值来提高不同任务中的向量之间共享的程度。

优选地，由前文分析，发出行为和接收行为蕴含着不同的含义，因此，基于发出图和接收图进行嵌入表示。通过知识图嵌入技术可以实现将交互关系信息向量化隐含在节点的表示M(x)＝σ(wx+b)中。

知识图谱由一系列三元组(h,l,t)组成，表示实体，l∈L表示实体间的关系。从用户的交互行为抽象得到发出图G_s和接收图G_a。

发出图G_s＝(V,E)

其中，V表示社交网络中的存在的节点，例如用户节点、UGC节点；

E表示节点间存在的交互关系形成的有向边，例如转发、关注等。

映射E→L。对发送图中关系的方向取反，得到接收图，同样地进行映射。

然后，采用多层感知机作为表示学习的基础网络结构，每层网络映射方式如下：

其中，M(x)＝σ(wx+b)为一个全连接层，

w表示权重，

b表示偏置，

σ()为非线性激活函数。

每一层的输入为上一层经过交互模块的输出。

对于嵌入任务，通过拟合知识图中的三元组进行优化训练，学习节点间的关系。

优选地，采用DisMult嵌入方法中的得分函数作为嵌入任务的损失函数：

任务1，发出图嵌入任务。经过k层感知机映射和共享模块后输出发出图中的节点表示S_k，对发出图中的损失计算如下：

任务2，接收图嵌入任务。经过k层感知机映射和共享模块后输出接收图中的节点表示P_k，对接收图中的损失计算如下：

其中r_s与r_p分别发出图和接收图中的关系向量表示。

优选地，对异常用户的检测，其本质是一个二分类问题，将用户分类为正常用户与异常用户。采用的社交图其中V表示图中用户节点的集合，/>表示节点之间交互形成的无向连边的集合。每一个用户都有对应的二元标签y∈{0，1}，1表示异常用户，0表示正常用户。

图卷积神经网络能够将邻居节点的特征信息聚集起来，对节点的局部结构信息进行融合，学习节点的特征信息以及结构信息。因此，采用图卷积神经网络作为检测模块的基础网络结构。将k定义为聚集信息的邻居的深度，如果k＝1，则只考虑聚集一阶邻居的信息。对于k＝2，则还包含二阶邻居的信息，以此类推。每层的输出计算如下:

其中f为激活函数，

A为节点的邻接矩阵，

为第m层权重参数矩阵，d_m为第m层输出向量的维度，

为第m层经过共享模块输出的特征表示，

为正则化后的邻接矩阵，

其中矩阵定义为：

经过k层图卷积算子和交互共享后输出特征表示U_k，采用全连接层进行线性变换后再输入到softmax分类器，将输出向量转换为概率分布，表示用户分别属于异常用户与正常用户的概率。

其中b∈R^2×1。

对于异常检测任务，通过拟合用户的预测类别与实际标签进行优化训练。

任务3，异常用户检测任务。采用交叉熵作为损失函数，刻画预测类别与实际标签之间的距离。如下式所示：

优选地，如图1所示，网络模型最终的损失由各个任务的损失共同组成，对于多个任务的损失设计，最简单的方式是直接将这三个任务损失直接相加，得到整体模型的损失。但是不同任务之间的损失量级不一样，直接相加的方式有可能会导致多任务的学习被某个任务所主导。当模型倾向于去拟合某个任务时，其他任务的效果往往可能受到负面影响。

文献提出的GradNorm方法采用动态损失权重，通过动态调整梯度大小来自动平衡深度学习多任务模型中的训练。本文根据GradNorm方法来设计损失函数，将本文模型的损失函数定义为：

L(t)＝w₁(t)×L₁(t)+w₂(t)×L₂(t)+w₃(t)×L₃(t)

其中t表示第t次训练，w_i(t)表示第t次训练时第i个任务损失权重，L_i(t)表示第t次训练时第i个任务的损失。

通过GradNorm方法动态调整损失权重，目的是使不同任务的损失量级和训练速度平衡。因此，首先需要多个任务共同相关的参数作为参照来衡量不同任务的损失量级和训练速度，本文则选择最后一层共享单位的参数作为参照对象，记为W。

任务的损失量级度量方式如下：

单个任务的损失函数对参数W进行求导后的L2正则化，表示第i个任务在第t次训练时的损失量级。此外

第t次训练时所有任务的梯度范数平均值，通过这个值可以确定任务的相对梯度大小。当某个任务的损失量级过大，就会大于/>同理过小时，/>就会小于因此对损失量级的平衡目标为：

任务的训练速度度量方式如下：

将初次训练时的损失作为参照对象，表示第i个任务在第t次训练时的训练速度，值越低则代表速度越快。此外，

通过第t次训练时所有任务的训练速度平均值，表示任务i的相对训练率。当r_i(t)的值越高时，表示任务i的相对训练速度越慢，则任务i应获得更高的梯度幅度，用于促进任务i训练的更快，从而平衡各个任务之间的训练速度。因次，综合任务训练速度与损失量级，对每个任务的梯度规范方式如下：

其中θ是一个超参数，表示调整任务训练率回归正常的强度。

基于优化目标，GradNorm方法提出了一个Grad Loss，通过梯度动态调整优化损失权重。Grad Loss定义为各个任务实际的梯度范数与理想的梯度范数的差的绝对值和：

在每轮训练过程中，通过模型损失优化多个任务神经网络中的参数，通过GradLoss更新损失权重值，使得不同的任务之间的损失量级接近，并且不同的任务以相近的速度来进行学习。

测试实验：

1.实验数据集

为了验证本发明的适用性和有效性，采用了两个包含多种社交关系的公开数据集进行检测试验。

Twitter-Tas数据集由Li等人提供，该数据集从推特上爬取获得，其中包含了用户节点和推文节点，以及用户与用户之间的关注关系，推文与推文之间的转发和回复关系，用户和推文之间的发布和提及关系。对数据集进行样本过滤后，统计信息如表1所示。

表1Twitter-Tas数据集分布

第二个数据集来自Tagged.com，由Fakhraei等人提供。该数据集为不平衡数据集，包含了5607447个用户经过隐式处理后的基本身份信息和用户之间在10天内7种关系的交互记录，统计信息如表2所示。

表2Tagged数据集分布

2.实验设置及评价指标

考虑到物理设备的限制，实验首先对数据集的规模进行缩减。从twitter数据集中随机挑选种子用户，然后根据用户之间的交互关系进行扩充，最终选取2000个用户及他们发布的有效推文,其中有效推文指该推文与数据子集中的其他用户或者其他用户发布的推文存在交互行为。同样地从tagged数据集中随机挑选种子用户，然后根据用户之间的交互关系进行扩充，最终选取80000个用户。

实验超参数的设置，嵌入维数d₀＝100、卷积层数k＝2，权重参数w＝0.75。为了综合评价实验结果，选用Recall值、F1值、AUC值作为评价指标。实验运行多次，最后取多次实验结果的均值作为最终的实验结果。

3.实验设计

实验的目的：

①验证本文方法与其他方法相比在检测性能上的提升；

②验证结合多任务框架的有效性。

对于实验目的①，与同样基于图的检测方法进行对比，CARE-CNN和DCI是近期提出，在基于图的异常检测上表现十分优秀的模型。CARE-CNN方法提出了一种标签感知的相似性度量方法和一种基于强化学习的相似性感知的邻居选择器，用于增强基于图神经网络的欺诈检测器对欺诈者的特征伪装和关系伪装的抵御能力。DCI方法则是提出了一种新的图自监督学习异常检测方案，称为Deep Cluster Infomax(DCI)，用于节点表示学习，通过将整个图聚类为多个部分来捕获更集中的特征空间中的内在图属性。

对于实验目的②，分析嵌入任务的有效性，因此验证多任务框架的有效性，需要从是否结合知识图嵌入和是否结合多任务框架两个方面进行实验分析。对比模型与检测模块保持一致，采用图卷积神经网络分类用户节点。按照控制变量法的思想，设计两种实验方式：

a)为了验证多任务框架的有效性，在对比实验中，与本发明相比，采用”单任务学习”方式，对嵌入任务和异常用户检测任务依次训练，将嵌入任务学习到特征表示输入异常用户检测模型中，拼接拓扑特征和嵌入特征作为对比模型的输入；

b)为了验证加入知识图嵌入的有效性，在对比实验中，与a)相比，不采用知识图嵌入，直接提取社交图的拓扑特征作为对比模型的输入。

为了综合评价实验结果，选用Recall值、F1值、AUC值作为评价指标。实验运行多次，最后取多次实验结果的均值作为最终的实验结果。

4.检测方法有效性验证

现将基线方法与本方法在两个公开真实的多关系社交网络数据集上进行实验对比。对于不平衡的数据集，均采用同样的欠采样方法NearMiss进行抽样训练。实验结果如下表3所示。

表3twitter数据集实验结果对比

分析表3，发现CARE-CNN方法与DCI方法在Twitter数据集上皆表现良好，对于不平衡的Tagged数据集，虽然DCI方法在Recall指标上表现不错，但是综合指标F1值和AUC值较低，说明模型整体的综合表现一般。这是因为CARE-CNN方法工作的重点是挑选出可靠性高的邻居节点，模型基于节点的特征表示衡量节点之间的相似性，然后过滤掉相似性低的邻居节点。DCI的工作重点是对节点的表示学习，通过引入聚类步骤，最大限度地利用了簇嵌入与簇内节点之间的细粒度互信息，使得图神经网络可以利用聚类产生的高阶结构信息。

与本发明相比，CARE-CNN方法虽然考虑了对邻居节点进行过滤，DCI方法虽然考虑了局部结构模式的与标签语义的不一致性，但是两者都忽略了对多关系语义信息的学习，也未考虑方向的非对称性，因此对用户交互行为信息学习不够充分，因此最终的表现整体上不如本发明。

GCN方法在采用多关系图的拓扑特征作为输入就已达到了不错的检测性能，在Twitter数据集和Tagged数据集皆表现良好。并且实验结果显示，解耦嵌入任务和异常检测任务依次训练，将嵌入任务学习到的特征表示与拓扑特征拼接后作为GCN方法的输入的方式，与仅采用拓扑特征作为输入的方式相比较，并不会提高模型性能，此时得到的拼接向量是冗余的。显然，以“单任务学习”方式结合知识图嵌入技术，即增大了模型在时间和空间上的开销，也未提高检测精度。然而，本发明与GCN方法两种实验方式相比，在twitter数据集与tagged数据集上检测性能皆显著提高。由此可见，采用多任务框架结合知识图嵌入任务与检测任务同时训练交互共享，优于解耦嵌入任务和异常任务依次训练的方式，能充分学习到一些潜在信息，从而有效提高模型性能。

综合以上表现，本发明基于用户间的多关系信息能有效检测社交网络中的异常用户，并且能更好地学***衡数据集上仍然表现良好。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于多任务学习的异常用户检测方法，其特征在于，包括以下步骤：

其中：α_i,j为第i个任务共享第j个任务信息的程度，

α_i,i为第i个任务保留自身信息的程度，

2.根据权利要求1所述的一种基于多任务学习的异常用户检测方法，其特征在于，所述步骤S200中，发出图嵌入任务网络层、接收图嵌入任务网络层分别用于实现对发出图和接收图进行嵌入表示；发出图嵌入任务网络层、接收图嵌入任务网络层分别采用多层感知机作为表示学习的基础网络结构，且每一层的输入为上一层经过交互模块的输出，每层网络映射方式如下：

为接收图嵌入任务网络层的第i-1层经过交互模块的输出；

M()为全连接层。

3.根据权利要求2所述的一种基于多任务学习的异常用户检测方法，其特征在于，所述全连接层的公式如下：

M(x)＝σ(wx+b)

其中，w表示权重，

b表示偏差，

σ()为非线性激活函数。

4.根据权利要求2所述的一种基于多任务学习的异常用户检测方法，其特征在于，发出图嵌入任务损失L₁的计算公式如下：

r_s为发出图中的关系向量表示；

T表示进行矩阵转置；

接收图嵌入任务损失L₂的计算公式如下：

r_p为接收图中的关系向量表示。

5.根据权利要求1-4任一项所述的一种基于多任务学习的异常用户检测方法，其特征在于，所述步骤S200中，图卷积神经网络层的每层的输出计算如下：

其中：f()为激活函数，

A为节点的邻接矩阵，

I为单位矩阵，

为正则化后的邻接矩阵，

为第m层权重参数矩阵，

d_m为第m层输出向量的维度，d_m+1为第m+1层输出向量的维度，

为第m层经过共享模块输出的特征表示，

其中矩阵定义为：

6.根据权利要求5所述的一种基于多任务学习的异常用户检测方法，其特征在于，步骤S500中，所述概率分布的计算公式如下：

其中：a为权重，

b为偏置，

U_k为经过k层图卷积算子以及交互模块后输出的特征。

7.根据权利要求6所述的一种基于多任务学习的异常用户检测方法，其特征在于，采用交叉熵作为损失函数计算分类任务损失L₃，计算公式如下：

其中：y为用户标签。

8.根据权利要求1所述的一种基于多任务学***衡网络模型的训练，所述网络模型的损失函数为：

L(t)＝w₁(t)×L₁(t)+w₂(t)×L₂(t)+w₃(t)×L₃(t)

其中：t表示第t次训练，

w₁(t)表示第t次训练时发出图嵌入任务损失的权重，

w₂(t)表示第t次训练时接收图嵌入任务损失的权重，

w₃(t)表示第t次训练时分类任务损失的权重，

L₁(t)表示第t次训练时的发出图嵌入任务损失，

L₂(t)表示第t次训练时的接收图嵌入任务损失，

L₃(t)表示第t次训练时的分类任务损失。

9.一种基于多任务学***衡模块，所述交互共享模块分别与知识图嵌入模块、异常用户检测模块连接；

10.一种计算机可读存储介质，存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1-8任一项所述的方法。