CN114090902A

CN114090902A - 一种基于异质网络的社交网络影响力预测方法、装置

Info

Publication number: CN114090902A
Application number: CN202111384580.5A
Authority: CN
Inventors: 高立群; 周斌; 李爱平; 贾焰; 江荣; 涂宏魁; 王晔; 喻承; 汪海洋; 庄洪武; 席闻; 宋鑫; 刘宇嘉; 曾康; 王宸铭
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-25
Anticipated expiration: 2041-11-22
Also published as: CN114090902B

Abstract

本发明提供了一种基于异质网络的社交网络影响力预测方法、装置，可以预测关注的社交网络事件对用户产生影响的概率，包括采集与关注的社交网络事件相关的事件数据与用户数据；由采集的数据构造异质网络图，获取节点关系和节点属性，建立包含异质语义特征融合模块、异质结构特征融合模块、异质多属性特征学习模块、异质网络影响力预测模块的影响力预测模型，构建样本，通过训练集和训练标签集合训练影响力预测模型，直至模型收敛得到训练好的影响力预测模型；将需要预测的用户和关注的社交网络事件数据进行处理得到异质网络图和邻居异质子图，输入训练好的输入影响力预测模型，获得输出的关注的社交网络事件对用户产生影响的预测概率。

Description

一种基于异质网络的社交网络影响力预测方法、装置

技术领域

本发明涉及数据挖掘、社交网络舆情分析技术领域，具体涉及一种基于异质网络的社交网络影响力预测方法、装置。

背景技术

社交网络成为人们身边不可或缺的一部分。当用户查看社交网络信息时便产生了社交影响。这意味着社交网络中的网络用户和网络事件(例如：新闻，热搜，发表论文，购物等)，不断地通过社交媒体影响着网络用户，诱导用户产生社交行为(包括转发，评论，参与,购买等),同时网络事件会产生不同的话题,以吸引更多受众参与。例如,目前网络直播购物普遍流行,用户会选择自己喜欢的主播购买必要的商品，可以说网络主播作为用户和商品作为事件，都对目标用户的行为产生了实质影响。

建模事件和用户之间的影响力关系,以预测个体是否会参与某一个事件的行为，是用户层面社交网络影响力的一个关键问题，该问题从个体微观的角度解释和理解信息传播的现象,并且应用与多个领域,包括但网络营销、推荐***、谣言检测、网络事件监控、舆情事件分析、信息传播等。

由于深度学习技术的不断进步，目前大量的社交影响力研究的工作引入了深度学习的方法，但主要通过同质的用户关系网络进行研究，例如用户之间的关注关系、交互关系等，很少考虑到网络中事件主体与用户共同造成的影响(例如购买主播推荐的商品)，这导致了在捕捉真实影响了用户行为的诱因方面的能力受限。如果能够在用户-事件共存的异质社交网络中建模影响力关系，预测用户在未来时刻的针对某一网络事件的行为，对于社交网络用户影响力分析具有重要的意义。

发明内容

本发明旨在提供一种基于异质网络的社交网络影响力预测方法、装置，解决目前存在的问题。

其技术方案是这样的：一种基于异质网络的社交网络影响力预测方法，其特征在于，包括以下步骤：

在社交网络媒体中，采集与关注的社交网络事件相关的事件数据与用户数据；

由采集的数据构造异质网络图，获取节点关系和节点属性，获取的节点关系包含用户与用户的关系、用户与事件的关系、事件与事件的关系，获取的节点属性包括节点的语义属性、网络拓扑属性和节点状态属性；

建立影响力预测模型，所述影响力预测模型包括：异质语义特征融合模块、异质结构特征融合模块、异质多属性特征学习模块、异质网络影响力预测模块，将所述异质网络图的语义属性和邻居异质子图输入异质语义特征融合模块，获得输出的节点的语义特征向量；将所述异质网络图的网络拓扑属性和节点状态属性以及邻居异质子图输入异质结构特征融合模块，获得输出的节点的结构特征向量；将获得的节点的语义特征向量和结构特征向量输入异质多属性特征学习模块，获得输出的节点的隐层特征向量；将获得节点的隐层特征向量输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率；

依据异质网络图和邻居异质子图构建样本，判断样本是否符合训练条件，对于符合训练条件的样本，根据样本中用户是否参与关注事件添加正、负样本的标签，构建训练集和训练标签集合，通过训练集和训练标签集合训练影响力预测模型，直至模型收敛得到训练好的影响力预测模型；

将需要预测的用户和关注的社交网络事件数据进行处理得到异质网络图和邻居异质子图，输入训练好的输入影响力预测模型，获得输出的关注的社交网络事件对用户产生影响的预测概率，将预测概率与设定值进行比较，若大于设定值，则表示关注的社交网络事件对用户产生影响力，用户参与该社交网络事件，否则反之。

进一步的，所述的采集与关注的社交网络事件相关的事件数据与用户数据，包括关联事件历史博文，用户历史博文，用户与事件之间的关系数据以及相关的时间信息。

进一步的，所述的通过采集的数据构造异质网络图，具体包括：构造异质网络图G，异质网络图G包含事件节点E和用户节点U，表示为：

G＝(V,R；O_V,R_E,A_V)

其中，V表示图G中的节点，R表示图G中的关系，O_V表示异质网络图的节点，包括用户节点U和事件节点E，R_E包括用户与事件的关系R_ue，事件与事件的关系R_ee和用户与用户的关系R_uu，R_E＝R_ue∪R_ee∪R_uu，A_V表示节点的属性特征，包括语义属性

网络拓扑属性

以及节点状态属性

∪表示取并集；

语义属性

包括

和

在用户历史博文中的用户兴趣主题列表中,使用去停用词后的词频统计方法进行抽取N个用户兴趣关键词，构成

在事件的历史博文中的关键词列表中，使用TF-IDF的方法取出N个事件主题关键词，构成

通过Deepwalk方法计算每个节点的拓扑表示，得到网络拓扑属性

邻居异质子图的构建包括以下步骤：

以全局异质网络图G中的每个用户u为起点，利用重启游走算法RWR方法对固定数量为N_R邻居节点进行采样；

对于得到的固定数量为N_R邻居节点，使用随机游走概率和u-e-u元路径和u-u元路径进行采样，u-e-u元路径表示用户发布/参与事件，然后由其他用户转发/参与的路径，u-u元路径表示用户通过其他用户之间互相关注的路径，对固定长度为N，N＜N_R的邻居节点进行采样，使用采样得到的邻居节点构造邻居异质子图G_u；

针对当前用户u_ego，构建r阶邻居异质子图

其中d(v，v_u)是节点v到节点u的距离，将d(v，v_u)＜＝r的节点作为邻居节点，当r固定后，定义G_u为用户u的邻居异质子图；

对于节点状态属性

针对关注事件e_target和当前用户用u_ego，判定邻居异质子图中是否存在当前用户u_ego的邻居用户，在历史上参与过关注事件e_target，如果存在，则认为该邻居用户节点是活跃的，设置该用户的节点状态属性

否则设置

判定u_ego的邻居事件节点是否与关注事件e_target产生过关联，如果存在，则认为该邻居事件节点是活跃的，设置该事件的节点状态属

否则设置

进一步的，所述影响力预测模型的异质语义特征融合模块包括word2vec词嵌入层、Bi-LSTM神经网络层、GCN图神经网络层，将所述异质网络图的语义属性和邻居异质子图，输入异质语义特征融合模块，获得节点的语义特征向量；

所述影响力预测模型的异质结构特征融合模块包括network embedding网络嵌入层、向量拼接层、GCN图神经网络层，将所述异质网络图的网络拓扑属性和节点状态属性以及邻居异质子图，输入异质结构特征融合模块，获得节点的结构特征向量；

所述影响力预测模型的异质多属性特征学习模块包括向量拼接层、GAT图注意网络层，将获得的节点的语义特征向量和结构特征向量输入异质多属性特征学习模块，获得节点的隐层特征向量；

所述影响力预测模型的异质网络影响力预测模块包括顺序设置的全连接层和逻辑分类层，将获得节点的隐层特征向量输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率。

进一步的，在影响力预测模型的异质语义特征融合模块中，将表示语义属性

的特征词输入word2vec词嵌入层，通过word2vec词嵌入的方法，获得输出的为长度为d_word2vec的特征向量x_i；

将特征向量x_i输入Bi-LSTM神经网络层，通过Bi-LSTM神经网络，获得输出的聚合特征向量H_S(v)，表示为：

其中，v表示邻居异质子图G_u中的一个节点，I表示语义属性

的特征词的数量，x_i表示节点v的第i个关键词语义特征，H_S(v)满足H_S(v)∈R^d×1，d表示语义特征嵌入维数，

表示前向LSTM网络，

表示后向LSTM网络，θ表示神经网络参数，算子||表示拼接操作；

将聚合特征向量H_S(v)和局部异构子图G_u输入GCN图神经网络层，通过GCN图神经网络，获得输出的节点的语义特征向量H′_S(v)，表示为：

H′_S(v)＝GCN(H_S(v))＝g(A(G_u)H_S(v)W^T+b)

其中，

A是G_u的邻接矩阵，D＝diag(A)，W满足W∈R^d×d，b满足b∈R^d，W和b是模型的训练参数，T表示矩阵转置，g是非线性激活函数。

进一步的，在影响力预测模型的异质结构特征融合模块中，将网络拓扑属性

和节点状态属性

输入network embedding网络嵌入层，通过网络嵌入的方法，得到网络拓扑属性

和节点状态属性

的向量表示；

将网络拓扑属性

和节点状态属性

的向量表示输入到向量拼接层中，得到拼接特征向量H_T(v)，表示为：

将拼接特征向量H_T(v)和局部异构子图G_u输入GCN图神经网络层，通过GCN图神经网络，获得输出的节点的结构特征向量H′_T(v)，表示为：

H′_T(v)＝GCN(H_T(v))＝g(A(G_u)H_T(v)W^T+b)

其中，A(G_u)＝D^-1/2AD^-1/2，A是G_u的邻接矩阵，D＝diag(A)，W∈R^d×d，W满足W∈R^d×d，b满足b∈R^d，W和b是模型的训练参数，T表示矩阵转置。

进一步的，在异质多属性特征学习模块中，将节点的语义特征向量H′_S(v)和节点的结构特征向量H′_T(v)输入到向量拼接层中，得到拼接特征向量H_f(v)，表示为：H_f(v)＝H′_T(v)||H′_S(v)；

将拼接特征向量H_f(v)输入GAT图注意网络层中，通过GAT图注意网络，获得输出的节点的隐层特征向量H′_f(v)，表示为：

σ是非线性激活函数，W、W^k是训练模型参数，k表示GAT的头数，α_iv表示节点i对节点v的重要性，a^T表示注意力参数的转置，且a^T∈R^2d，LeakyReLU是一种激活函数，算子||表示拼接操作，Exp为以自然常数e为底的指数函数，

表示多头的注意力系数。

进一步的，所述异质网络影响力预测模块包括顺序设置的全连接层和逻辑分类层，将隐层特征向量H′_f(v)输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率H′_r(u_ego)，表示为：

H′_r(u_ego)＝softmax(WH′_f(u_ego)+b)

其中，H′_r(u_ego)表示关注的社交网络事件对用户u_ego产生影响的预测概率，WH′_f(u_ego)+b表示全连接层，W，b是预测模型的可训练参数，softmax表示逻辑分类算法。

进一步的，所述的依据异质网络图和邻居异质子图构建样本，判断样本是否符合训练条件，对于符合训练条件的样本，根据是否样本中用户是否受关注事件影响添加正、负样本的标签，构建训练集和训练标签集合，包括：

针对不同事件和不同用户，从异质网络图和邻居异质子图抽取信息，构建五元组样本5-tuple＝{u_ego，e_target，[time]，G_u，A_G}，其中，U_ego是当前用户，e_target是目标事件，[time]是时间列表，记录异质网络图中每条边建立的时间，G_u是当前用户的邻居异质子图，A_G是邻居异质子图的节点的属性，包括语义属性

网络拓扑属性

以及节点状态属性

遍历所有五元组样本，判定是否符合训练条件，在五元组样本中，对于关注事件e_target，如果用户u_ego的邻居异质子图中有大于等于n个节点的节点状态属性

为1，则认为该五元组样本符合训练条件；

对于符合训练条件的五元组样本，如果用户u_ego与关注事件e_target在邻居异质子图中存在边，且用户u_ego的time_eu大于其他节点状态属性

为1的节点的time值，表示用户u_ego受到了邻居事件或者邻居用户的影响，参与了关注事件e_target，则将该5元组样本的标签设置为正样本，设置标签label＝1；反之，如果用户u_ego与关注事件e_target邻居异质子图中不存在边，表示用户u_ego未受到邻居节点的影响，未参与关注事件e_target，则将该5元组样本的标签设置为负样本，设置标签label＝0；

取出所有符合训练条件的5元组样本，定义为训练集集合train_set＝{5-tuple}和训练标签集合label_set＝{label}。

进一步的，所述的通过训练集和训练标签集合训练影响力预测模型，直至模型收敛得到训练好的影响力预测模型，具体包括：

将影响力预测模型输出的预测概率与真实的标签进行比较，使用梯度下降法优化对数似然损失函数，表示为如下：

其中，loss为损失函数，N表示训练样本总数，H′_r(u_ego)[0]表示预测概率H′_r(u_ego)中的正例概率，H′_r(u_ego)[1]表示预测概率H′_r(u_ego)中的负例概率；y_i为实际的结果，使用反向传播算法训练影响力预测的模型参数，通过训练集对影响力预测模型进行训练迭代，直至模型收敛，得到训练好的影响力预测模型。

一种计算机装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如上述的基于异质网络的社交网络影响力预测方法。

一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如上述的基于异质网络的社交网络影响力预测方法。

本发明建立了一种基于异质神经网络的影响力预测模型，具体来说，首先根据事件节点和用户节点的关系构造了社交网络影响图，然后为每个用户采样了邻居异质子图，同时引入了社交影响力生成过程的三种特征，分别是节点语义属性、节点拓扑结构属性、节点状态属性，这三种特征潜在成为影响用户行为的关键特征，针对异质网络的用户行为预测提供了更可靠的准确性，最后通过创新的影响力预测模型，预测了关注的社交网络事件对用户产生影响的概率。针对不同的社会事件，可以根据数据训练出基于关注事件的异质影响力预测模型，更好的解决用户行为预测问题。可以用于监测参与人数较为集中的事件，例如社会热点问题，司法事件，经济事件等的个体行为的预测与监管。

附图说明

图1为本发明的一个实施例中的异质社交网络中的用户影响力预测方法的步骤示意图；

图2为本发明的一个实施例中的异质社交网络中的用户影响力预测方法步骤的流程示意图；

图3为一个实施例中计算机装置的内部结构图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

见图1，2，本发明的一种基于异质网络的社交网络影响力预测方法，至少包括以下步骤：

步骤1：在社交网络媒体中，采集与关注的社交网络事件相关的事件数据与用户数据；

步骤2：由采集的数据构造异质网络图，获取节点关系和节点属性，获取的节点关系包含用户与用户的关系、用户与事件的关系、事件与事件的关系，获取的节点属性包括节点的语义属性、网络拓扑属性和节点状态属性；

步骤3：建立影响力预测模型，所述影响力预测模型包括：异质语义特征融合模块、异质结构特征融合模块、异质多属性特征学习模块、异质网络影响力预测模块，将所述异质网络图的语义属性和邻居异质子图输入异质语义特征融合模块，获得输出的节点的语义特征向量；将所述异质网络图的网络拓扑属性和节点状态属性以及邻居异质子图输入异质结构特征融合模块，获得输出的节点的结构特征向量；将获得的节点的语义特征向量和结构特征向量输入异质多属性特征学习模块，获得输出的节点的隐层特征向量；将获得节点的隐层特征向量输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率；

步骤4：依据异质网络图和邻居异质子图构建样本，判断样本是否符合训练条件，对于符合训练条件的样本，根据样本中用户是否参与关注事件添加正、负样本的标签，构建训练集和训练标签集合，通过训练集和训练标签集合训练影响力预测模型，直至模型收敛得到训练好的影响力预测模型；

步骤5：将需要预测的用户和关注的社交网络事件数据进行处理得到异质网络图和邻居异质子图，输入训练好的输入影响力预测模型，获得输出的关注的社交网络事件对用户产生影响的预测概率，将预测概率与设定值进行比较，若大于设定值，则表示关注的社交网络事件对用户产生影响力，用户参与该社交网络事件，否则反之。

具体在本发明的一个实施例中，包括以下步骤：

步骤1：在社交网络媒体中，采集与关注的社交网络事件相关的事件数据与用户数据，包括关联事件历史博文，用户历史博文，用户与事件之间的关系数据以及相关的时间信息，尽可能完备的采集关注事件在社交网络媒体上的关系数据，通过<事件-用户-事件>和<事件-事件>两条元路径以广度优先的方式采集用户和事件的关系。

步骤2：通过采集的数据构造异质网络图，异质网络图包含事件节点和用户节点，获取的异质网络图的节点关系包含用户与其他用户的关系、用户与事件的关系、事件与其他事件的关系，从构造的异质网络图中抽取节点的语义属性、网络拓扑属性，对于每个用户节点，采样得到用户的邻居异质子图，根据邻居异质子图得到邻居用户节点的节点状态属性，具体包括：

步骤201：构造异质网络图G，异质网络图G包含事件节点E和用户节点U，表示为：

G＝(V，R；O_V，R_E，A_V)

网络拓扑属性

以及节点状态属性

∪表示取并集；

步骤202：抽取语义属性

语义属性

包括

和

在用户历史博文中的用户兴趣主题列表中，使用去停用词后的词频统计方法进行抽取N个用户兴趣关键词，构成

步骤203：抽取网络拓扑属性

在本实施例中，

的维度定义为128维。

步骤204：构建邻居异质子图：为满足深度学习算法对输入张量一致性的要求，需要对每个用户子图进行定义和采集。具体包括：

步骤A：以全局异质网络图G中的每个用户u为起点，利用重启游走算法RWR方法对固定数量为N_R邻居节点进行采样，在本实施例中，N_R设置为200，即采样200个邻居节点；

步骤B：对于得到的固定数量为N_R邻居节点，使用随机游走概率和u-e-u元路径和u-u元路径进行采样，u-e-u元路径表示用户发布/参与事件，然后由其他用户转发/参与的路径，u-u元路径表示用户通过其他用户之间互相关注的路径，对固定长度为N，N＜N_R的邻居节点进行采样，然后就可以使用采样得到的邻居节点构造邻居异质子图G_u，在本实施例中，N设置为100，即通过元路径的方法下采样至100个邻居；

步骤C：针对当前用户u_ego，构建r阶邻居异质子图

其中d(v，v_u)是节点v到节点u的距离，将d(v，v_u)＜＝r的节点作为邻居节点，当r固定后，定义G_u为用户u的邻居异质子图，在本实施例中，r＝2，即选用2阶邻居子图。

步骤205：抽取节点状态属性

否则设置

否则设置

步骤3：建立影响力预测模型，响力预测模型包括：异质语义特征融合模块、异质结构特征融合模块、异质多属性特征学习模块、异质网络影响力预测模块。

异质语义特征融合模块：包括word2vec词嵌入层、Bi-LSTM神经网络层、GCN图神经网络层，将异质网络图的语义属性和邻居异质子图，输入异质语义特征融合模块，获得节点的语义特征向量；

异质语义特征融合模块使用了双向LSTM神经网络(Bi-LSTM)来学习用户和事件语义之间的深层关联，实现语义特征的聚合功能，在异质语义特征融合模块中，将表示语义属性

的特征词输入word2vec词嵌入层，通过word2vec词嵌入的方法，获得输出的为长度为d_word2vec的特征向量x_i，在本实施例中，d_word2vec＝128；

其中，v表示邻居异质子图G_u中的一个节点，I表示语义属性

表示前向LSTM网络，

表示后向LSTM网络，θ表示神经网络参数，算子||表示拼接操作，Bi-LSTM网络能够学习节点语义基于时序上潜在的演化过程，并捕获更深层次的节点语义特征之间的关联，从而具有较强的特征表示能力。

H′_S(v)＝GCN(H_S(v))＝g(A(G_u)H_S(v)W^T+b)

其中，

A是G_u的邻接矩阵，D＝diag(A)，W满足W∈R^d×d，b满足b∈R^d，W和b是模型的训练参数，T表示矩阵转置，g是非线性激活函数，使用GCN图神经网络对H_S(v)的语义节点进行聚合，获得不同节点之间的影响关系，由于子图节点的数量是固定的，因此可以有效地计算A(G_u)。

异质结构特征融合模块：首先利用网络嵌入方法对异质网络节点进行向量表示，然后通过图卷积神经网络对异质节点的状态和结构特征进行学习，获得表示节点结构状态特征表示，其包括network embedding网络嵌入层、向量拼接层、GCN图神经网络层，将异质网络图的网络拓扑属性和节点状态属性以及邻居异质子图，输入异质结构特征融合模块，获得节点的结构特征向量；

具体的，在影响力预测模型的异质结构特征融合模块中，将网络拓扑属性

和节点状态属性

和节点状态属性

的向量表示；

将网络拓扑属性

和节点状态属性

为了聚合每个节点的异构邻居的拓扑属性特征向量，使用一层GCN模型进行特征聚合，具体而言，将拼接特征向量H_T(v)和局部异构子图G_u输入GCN图神经网络层，通过GCN图神经网络，获得输出的节点隐藏的结构特征向量H′_T(v)，表示为：

H′_T(v)＝GCN(H_T(v))＝g(A(G_u)H_T(v)W^T+b)

其中，A(G_u)＝D^-1/2AD^-1/2，A是G_u的邻接矩阵，D＝diag(A)，W∈R^d×d，W满足W∈R^d×d，b满足b∈R^d，W和b是模型的训练参数，T表示矩阵转置。在本实施例中，d＝128。

异质多属性特征学习模块：包括向量拼接层、GAT图注意网络层，

具体的，在异质多属性特征学习模块中，将节点的语义特征向量H′_S(v)和节点的结构特征向量H′_T(v)输入到向量拼接层中，得到拼接特征向量H_f(v)，表示为：H_f(v)＝H′_T(v)||H′_S(v)；

表示多头的注意力系数，在本实施例中，W∈R^d×d，d＝128，k＝8，表示注意力系数有8个头部。

异质多属性特征学习模块使用了之前的模块获得异构子图G_u中每个节点的语义特征向量H′_T(v)和结构特征向量H′_S(v)后，利用图注意网络GAT聚合这两种特征，获得融合后的影响力关系。这样做的优点是，由于不同节点对结果的影响贡献不同，因此多头GAT学习异构节点的不同属性之间的影响。

异质网络影响力预测模块包括顺序设置的全连接层和逻辑分类层，将隐层特征向量H′_f(v)输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率H′_r(u_ego)，表示为：

H′_r(u_ego)＝softmax(WH′_f(u_ego)+b)

其中，其中，H′_r(u_ego)表示关注的社交网络事件对用户u_ego产生影响的预测概率，WH′_f(u_ego)+b表示全连接层，W，b是预测模型的可训练参数，softmax表示逻辑分类算法。

步骤4：依据异质网络图和邻居异质子图构建样本，判断样本是否符合训练条件，对于符合训练条件的样本，根据是否样本中用户是否受关注事件影响添加正、负样本的标签，构建训练集和训练标签集合，具体包括：

步骤401：构建样本：针对不同事件和不同用户，从异质网络图和邻居异质子图抽取信息，构建五元组样本5-tuple＝{u_ego，e_target，[time]，G_u，A_G}，其中，u_ego是当前用户，e_target是目标事件，[time]是时间列表，记录异质网络图中每条边建立的时间，G_u是当前用户的邻居异质子图，A_G是邻居异质子图的节点的属性，包括语义属性

网络拓扑属性

以及节点状态属性

步骤402：设置样本标签：遍历所有五元组样本，判定是否符合训练条件，在五元组样本中，对于关注事件e_target，如果用户u_ego的邻居异质子图中有大于等于n个节点的节点状态属性

为1，则认为该五元组样本符合训练条件；

为1的节点的time值，表示用户u_ego受到了邻居事件或者邻居用户的影响，参与了关注事件e_target，则将该5元组样本的标签设置为正样本，设置标签label＝1；反之，如果用户u_ego与关注事件e_target邻居异质子图中不存在边，表示用户u_ego为受到邻居节点的影响，未参与关注事件e_target，则将该5元组样本的标签设置为负样本，设置标签label＝0；

步骤403：构建训练集和训练标签集合：取出所有符合训练条件的5元组样本，定义为训练集集合train_set＝{5-tuple}和训练标签集合label_set＝{label}。

步骤404：模型训练：将影响力预测模型输出的预测概率与真实的标签进行比较，使用梯度下降法优化对数似然损失函数，表示为如下：

步骤5：将需要预测的用户和关注的社交网络事件数据进行处理得到异质网络图和邻居异质子图，组成样本五元组以后，输入训练好的输入影响力预测模型，获得输出的关注的社交网络事件对用户产生影响的预测概率，

在本实施例中，设置输出的预测概率大于设定的模型阈值,则判定为正样例,即该用户可能受到邻居的影响，会参与目标事件；反之，若结果小于模型阈值,这该用户可能不会对目标事件产生社交行为。

随着深度学习技术的不断进步，诸多社交网络分析的工作通过部署创新的深度学习模型来解决问题。目前，大量的社交网络影响力分析建立在同质网络中，分析用户之间的相互影响，预测用户未来的行为。然而这些方法忽视了现实中事件本身对用户的影响，比如用户通过网络直播购物，除了喜欢主播的因素外，商品也是影响用户行为的关键要素。基于此，本实施例建立了一种基于异质神经网络的影响力预测模型。具体来说，首先根据事件节点和用户节点的关系构造了社交网络影响图，然后为每个用户采样了邻居异质子图，同时引入了社交影响力生成过程的三种特征，分别是节点语义属性、节点拓扑结构属性、节点状态属性，这三种特征潜在成为影响用户行为的关键特征，最后通过创新的影响力预测模型预测用户在异质网络中的行为的概率。

这样的架构具有两个优势：

(1)更准确的模型预测能力。本发明结合了网络事件这一重要影响力因素，扩展了同构社交影响力网络的深度学习方法，并通过分析异质网络动态传播模式，通过构造事件节点和用户节点共存的异质网络,并设计了一种符合传播时序过程的局部采样方法,建立了事件和用户之间的影响力关系,应用到创新的端到端的异构图神经网络模型中,更精准的预测了用户未来的社交行为。经公开数据集上的实验，与最新的同质网络方法DeepInf相比，有35.7％的准确性提升。

(2)更精准的用户兴趣语义建模。事件的语义特征是影响用户的关键性特征，在实施例中，使用了事件的主题词特征与用户的兴趣词特征，作为异质节点的语义特征。通过真实数据的消融试验，验证了完全不加语义特征与本实施例的融合三种特征的结果存在+13.5％至+15.7％的性能差异。验证了本实施例语义特征融合后获得更强的特征表示能力。

本实施例相当于现有技术具有以下优点：

1.本发明针对社交网络信息传播过程中，微观用户层面的影响力进行建模，预测用户未来可能存在的社交行为。本发明扩展了同构社交影响力网络的深度学习方法，并通过分析异质网络动态传播模式，捕获用户通过社交网络影响而产生社交行为的特征。

2.本发明针对异质社交网络,设计了一种符合传播时序过程的异质子图采样方法,并建立了事件和用户之间的影响力关系,应用了一个端到端的异构图神经网络模型中,通过该深度学习模型，可以学习到异质节点对目标节点的影响力关系，同时获得更强的特征表示能力，更精准的预测了用户未来的社交行为。

3.本发明利用了融合了异质社交网络数据中的拓扑结构特征，节点语义特征，节点状态特征等多种影响力预测中的显著特征，针对异质网络的用户行为预测提供了更可靠的准确性。针对不同的社会事件，可以根据数据训练出基于关注事件的异质影响力预测模型，更好的解决用户行为预测问题。可以用于监测参与人数较为集中的事件，例如社会热点问题，司法事件，经济事件等的个体行为的预测与监管。

本实施例利用了信息传播中语义、结构、用户自身的特征，针对语义更聚集的社会事件有更可靠的预测准确性，所以针对不同的社会问题，可以通过训练获得针对性不同的深度学习模型参数，更好的解决语义范畴内的问题，例如社会问题，司法问题，民生问题等。

本实施例提供的方法可以用于在线舆情事件分析，数据挖掘领域，尤其可以用于监测语义较为集中的事件的预测与监管，例如社会问题，司法问题，民生问题等，也可用于企业的网络信息监管，预测企业关注的信息是否会被大量个体用户转发传播。

在本发明的实施例中，还提供了一种计算机装置，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述的基于异质网络的社交网络影响力预测方法。

该计算机装置可以是终端，其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于异质网络的社交网络影响力预测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如上述的基于异质网络的社交网络影响力预测方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的基于异质网络的社交网络影响力预测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于异质网络的社交网络影响力预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述的采集与关注的社交网络事件相关的事件数据与用户数据，包括关联事件历史博文，用户历史博文，用户与事件之间的关系数据以及相关的时间信息。

3.根据权利要求1所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：从构造的异质网络图中抽取节点的语义属性、网络拓扑属性，对于每个用户节点，采样得到用户的邻居异质子图，根据邻居异质子图得到邻居用户节点的节点状态属性。

4.根据权利要求3所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述的通过采集的数据构造异质网络图，具体包括：构造异质网络图G，异质网络图G包含事件节点E和用户节点U，表示为：

G＝(V,R；O_V,R_E,A_V)

网络拓扑属性

以及节点状态属性

∪表示取并集；

语义属性

包括

和

邻居异质子图的构建包括以下步骤：

对于得到的固定数量为N_R邻居节点，使用随机游走概率和u-e-u元路径和u-u元路径进行采样，u-e-u元路径表示用户发布/参与事件，然后由其他用户转发/参与的路径，u-u元路径表示用户通过其他用户之间互相关注的路径，对固定长度为N，N<N_R的邻居节点进行采样，使用采样得到的邻居节点构造邻居异质子图G_u；

针对当前用户u_ego，构建r阶邻居异质子图

其中d(v,v_u)是节点v到节点u的距离，将d(v,v_u)<＝r的节点作为邻居节点，当r固定后，定义G_u为用户u的邻居异质子图；

对于节点状态属性

否则设置

否则设置

5.根据权利要求1所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述影响力预测模型的异质语义特征融合模块包括word2vec词嵌入层、Bi-LSTM神经网络层、GCN图神经网络层，将所述异质网络图的语义属性和邻居异质子图，输入异质语义特征融合模块，获得节点的语义特征向量；

6.根据权利要求1所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：在影响力预测模型的异质语义特征融合模块中，将表示语义属性

其中，v表示邻居异质子图G_u中的一个节点，I表示语义属性

表示前向LSTM网络，

H′_S(v)＝GCN(H_S(v))＝g(A(G_u)H_S(v)W^T+b)

其中，

7.根据权利要求6所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：在影响力预测模型的异质结构特征融合模块中，将网络拓扑属性

和节点状态属性

和节点状态属性

的向量表示；

将网络拓扑属性

和节点状态属性

H′_T(v)＝GCN(H_T(v))＝g(A(G_u)H_T(v)W^T+b)

其中,A(G_u)＝D^-1/2AD^-1/2，A是G_u的邻接矩阵，D＝diag(A)，W∈R^d×d，W满足W∈R^d×d，b满足b∈R^d，W和b是模型的训练参数，T表示矩阵转置。

8.根据权利要求7所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：在异质多属性特征学习模块中，将节点的语义特征向量H′_S(v)和节点的结构特征向量H′_T(v)输入到向量拼接层中，得到拼接特征向量H_f(v)，表示为：H_f(v)＝H′_T(v)||H′_S(v)；

表示多头的注意力系数。

9.根据权利要求8所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述异质网络影响力预测模块包括顺序设置的全连接层和逻辑分类层，将隐层特征向量H′_f(v)输入异质网络影响力预测模块，获得输出的关注的社交网络事件对用户产生影响的预测概率H′_r(u_ego)，表示为：

H′_r(u_ego)＝softmax(WH′_f(u_ego)+b)

其中，H′_r(u_ego)表示关注的社交网络事件对用户u_ego产生影响的预测概率，WH′_f(u_ego)+b表示全连接层，W,b是预测模型的可训练参数，softmax表示逻辑分类算法。

10.根据权利要求9所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述的依据异质网络图和邻居异质子图构建样本，判断样本是否符合训练条件，对于符合训练条件的样本，根据是否样本中用户是否受关注事件影响添加正、负样本的标签，构建训练集和训练标签集合，包括：

针对不同事件和不同用户，从异质网络图和邻居异质子图抽取信息，构建五元组样本5-tuple＝{u_ego,e_target,[time],G_u,A_G},其中，u_ego是当前用户，e_target是目标事件，[time]是时间列表，记录异质网络图中每条边建立的时间，G_u是当前用户的邻居异质子图，A_G是邻居异质子图的节点的属性，包括语义属性

网络拓扑属性

以及节点状态属性

为1，则认为该五元组样本符合训练条件；

11.根据权利要求10所述的一种基于异质网络的社交网络影响力预测方法，其特征在于：所述的通过训练集和训练标签集合训练影响力预测模型，直至模型收敛得到训练好的影响力预测模型，具体包括：

其中，loss为损失函数，N表示训练样本总数，H′_r(u_ego)[0]表示预测概率H′_r(u_ego)中的正例概率，H′_r(u_ego)[1]表示预测概率H′_r(u_ego)中的负例概率；y_i为实际的结果，使用反向传播算法训练影响力预测的模型参数，通过训练集对影响力预测模型进行训练迭代,直至模型收敛，得到训练好的影响力预测模型。

12.一种计算机装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时，实现如权利要求1-11任意项所述的基于异质网络的社交网络影响力预测方法。

13.一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如权利要求1-11任意项所述的基于异质网络的社交网络影响力预测方法。