CN111967645B

CN111967645B - 一种社交网络信息传播范围预测方法及***

Info

Publication number: CN111967645B
Application number: CN202010682101.7A
Authority: CN
Inventors: 赵虹; 李�浩; 李悦江
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-04-29
Anticipated expiration: 2040-07-15
Also published as: CN111967645A

Abstract

本发明实施例提供一种社交网络信息传播范围预测方法及***，该方法包括：社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。本发明实施例提供的社交网络信息传播范围预测方法及***，通过多智能体强化学习引入了未来的回报对用户的影响，更加贴近实际，同时使用深度神经网络表示用户的策略，通过调整神经网络的参数提高了泛化性。

Description

一种社交网络信息传播范围预测方法及***

技术领域

本发明涉及社交网络信息处理技术领域，尤其涉及一种社交网络信息传播范围预测方法及***。

背景技术

随着通信技术的发展和手机、电脑等终端的普及，社交网络的规模日益庞大。社交网络已经成为了信息传播的重要渠道，社交网络中的信息传播机制也逐渐成为研究热点。商业广告和政策宣传都需要尽可能扩大传播范围，而有害信息则需要尽可能缩小其传播范围。因此研究信息在社交网络中的传播机制、预测信息传播范围具有非常重要的现实意义。已经有研究从统计角度证明，社交网络中的用户会受到其它用户(特别是好友)的影响，从而决定是否选择转发一条消息。这表明信息传播过程中用户之间存在交互，每个用户会根据其他用户对信息的态度选择是否转发信息。

现有技术中，一些学者尝试用图演化博弈理论对社交网络上用户之间的交互进行建模，以此刻画信息在社交网络中的传播过程并预测信息传播范围。基于图演化博弈论的信息传播模型由以下基本要素组成：社交网络的拓扑结构、用户动作、适应度、更新规则和演化平衡状态。

但是，基于图演化博弈论的信息传播模型忽略了未来的回报。在实际社交网络中，用户选择是否转发某一个信息时会考虑未来的情况。基于图演化博弈论的信息传播模型根据更新规则使用适应度来选择动作，而适应度仅与当前的回报有关，与未来的回报无关。因此基于图演化博弈论的信息传播模型中用户只考虑现在而忽略了未来。并且基于图演化博弈论的信息传播模型的泛化能力较差。基于图演化博弈论的信息传播模型使用更新规则描述用户与邻居的交互。更新规则本质上是用户对邻居的动作以适应度为权重进行模仿和复制，同时为了便于分析，更新规则往往具有简明的数学表达式。这为图演化博弈理论带来了坚实的数学基础，同时也限制了图演化博弈理论的泛化性和表示复杂用户交互的能力。因此，现在亟需一种社交网络信息传播范围预测方法及***来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种社交网络信息传播范围预测方法及***。

第一方面，本发明实施例提供了一种社交网络信息传播范围预测方法，包括：

社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；

基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

进一步地，所述社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型，包括：

基于社交网络中用户与周围邻居的交互作为目标问题，构建双层的全连接神经网络，其中，输入是邻居中选择动作f的比例，输出是选择动作f的概率和选择动作n的概率。

进一步地，所述方法还包括：

对所述决策网络模型进行训练，得到训练好的决策网络模型。

进一步地，所述对所述决策网络模型进行训练，得到训练好的决策网络模型，包括：

对社交网络初始化，并获取观测值、动作对序列和回报序列；

基于策略梯度法更新中心节点的决策网络参数，并对非中心节点的决策网络参数进行软更新，在循环执行预设次数之后，得到训练好的网络模型参数。

进一步地，所述基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围，包括：

进行多次仿真传播，在每次仿真过程中，根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例随机生成无向图；

对仿真中同一时刻的采取目标动作的用户占据总用户的比例求均值；

将所述均值判定为对应时刻社交网络中的信息传播范围。

进一步地，所述方法还包括：

与基于图演化博弈的信息传播模型进行对比验证，检测预测性能。

第二方面，本发明实施例提供了一种社交网络信息传播范围预测***，包括：

模型构建模块，用于社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；

预测模块，用于基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种社交网络信息传播范围预测方法及***，通过多智能体强化学习引入了未来的回报对用户的影响，更加贴近实际，同时使用深度神经网络表示用户的策略，通过调整神经网络的参数提高了泛化性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的社交网络信息传播范围预测方法的流程示意图；

图2为本发明实施例提供的使用深度神经网络描述用户交互过程示意图；

图3为本发明实施例提供的强化学习基本概念图；

图4为本发明实施例提供的强化学习基本概念在信息传播中的定义示意图；

图5为本发明实施例提供的智能体的决策网络；

图6为本发明实施例提供的平均回报示意图；

图7为本发明实施例提供的基于图演化博弈的信息传播模型的平均回报示意图；

图8为本发明实施例提供的社交网络信息传播范围预测***的结构示意图；

图9为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下列术语为本领域的专业术语，在此进行解释说明。

强化学习(reinforcement learning)：它是在智能体与环境的交互过程中不断试错并改进智能体策略以使智能体获得的累计回报期望最大化的机器学习方法。

多智能体强化学习(multi-agent reinforcement learning)：它是强化学习在多智能体***中的拓展。

适应度(fitness)：图演化博弈理论中，适应度是基准适应度和个体同时与每个邻居进行博弈获得的回报之和的线性组合。

DB规则(Death-Birth update rule)：DB规则是图演化博弈的更新规则之一。该规则的具体实现是随机选择一个节点作为中心节点，该节点会模仿并复制其邻居节点之一的策略，这一行为的概率正比于被模仿节点的适应度。

BD规则(Birth-Death update rule)：BD规则是图演化博弈的更新规则之一。该规则的具体实现是以正比于节点适应度的概率选择一个节点作为中心节点，然后从中心节点的邻居中随机选择模仿节点，模仿节点会模仿并复制中心节点的策略。

IM规则(Imitation update rule)：IM规则是图演化博弈的更新规则之一。该规则的具体实现是随机选择一个节点作为中心节点，该节点会模仿并复制自身和邻居节点之一的策略，这一行为的概率正比于被模仿节点的适应度。

图1为本发明实施例提供的社交网络信息传播范围预测方法的流程示意图，如图1所示，本发明实施例提供了一种社交网络信息传播范围预测方法，包括：

步骤101，社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；

步骤102，基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

在本发明实施例中，无向图被用来对社交网络的拓扑结构进行建模，其中的节点表示社交网络的用户，边表示用户间存在好友关系，节点的邻居表示社交网络中该用户的好友。对于每一条信息，用户有两种可以选择的动作，分别是转发该信息f和不转发该信息n。用户的适应度是个体的基准适应度以及此个体和相邻个体交互、博弈后获得回报的线性组合，数学表达式为：

π＝(1-α)*B+α*U；

其中，B表示基准适应度，所有用户的基准适应度B被定义为一个相同的常数，一般被归一化到1。a表示选择系数，是一个远小于1的常数，U表示个体同时与每个邻居进行博弈获得的回报之和。基于图演化博弈论的信息传播模型中，用户与邻居的交互是一个矩阵博弈：当中心用户和邻居用户都转发消息时，他们共同的回报是u_ff；当中心用户和邻居用户中有一个转发消息，另一个不转发消息时，他们共同的回报是u_fn；当中心用户和邻居用户都不转发消息时，他们共同的回报是u_nn。因此博弈的回报矩阵如下所示：

其中，u_ff,u_fn,u_nn的数值大小直接对应于信息的流行程度，以及用户对信息的关注度，当u_ff>u_fn>u_nn时，对应于流行度较高的信息，因为转发行为能够带来更大的回报；反之，当u_nn>u_fn>u_ff时，不转发信息能够带来更高的回报，这种信息对应于无意义的广告。

在这样的回报定义下，个体同时与每个邻居进行博弈获得的回报之和U为：

其中，k_f表示邻居中转发信息的个数，k表示邻居的总数，u_ff、u_fn、u_nn表示描述回报的参数。

在社交网络的信息传播过程中，用户会受到邻居的影响而改变自己的动作。更新规则描述了这种影响。常用的更新规则有三种，分别是DB、BD和IM规则。在现实社交网络中，不同用户的兴趣存在较大差异，比如某个明星的粉丝会倾向于转发该明星的相关消息，而其他人则不会。为了表现用户兴趣的差异，在基于图演化博弈论的信息传播模型中，节点可以被划分为不同的类型，每个类型的用户所采用的回报矩阵U(即u_ff、u_fn、u_nn)不同。无向图中存在多种节点，每个节点不知道其他节点的种类的情况下，邻居的适应度对节点不再有参考价值，因此更新规则会估计邻居的适应度为自身在采用相同动作下的适应度。假设某一节点邻居中转发信息的个数为k_f，邻居总数为k，则更新规则认为所有采用动作f的该节点的邻居的适应度是u_ff*k_f+u_fn*(k-k_f)，认为所有采用动作n的该节点的邻居的适应度是u_fn*k_f+u_nn*(k-k_f)。

进一步地，如果在特定的更新规则下，用户选择每种动作的比例保持恒定且发生微小波动后能回到该恒定比例，则称该恒定比例为演化平衡状态。演化平衡状态能够用于衡量信息最终的传播范围。

具体地，在步骤101中，本发明实施例将社交网络中用户与周围邻居的交互建模为一个决策过程。在这个决策过程中，用户根据周围邻居对消息的态度来决定是否转发该消息；然后，通过强化学习引入了未来回报对当前决策的影响，更加贴近于现实生活中用户的行为和决策过程。

在步骤102中，强化学习是在智能体与环境的交互过程中不断试错并改进智能体策略的机器学习方法。该强化学习针对马尔科夫决策过程，具体地，马尔科夫决策过程由五元组<S,A,P,r,γ>表示，S表示环境所有可能的状态的集合，A表示智能体所有可能的动作的集合，P表示状态转移概率；

表示在环境状态s下，智能体采用动作a后环境的下一个状态为s′的概率；r表示回报函数；r(s,a)表示在环境状态s下，智能体采用动作a后智能体获得的回报；γ表示衰减系数，累计回报定义为

智能体的策略π是智能体选择动作的规则；π(s,a)表示在环境状态s下，智能体采用动作a的概率。强化学习的目的是获得使累计回报期望最大的策略，即：

其中，r_t表示t时刻的智能体获得的回报。

目前，强化学习已经被广泛用于各类控制、决策和博弈问题。与表示能力强大的深度神经网络相结合，强化学习能够解决雅达利游戏、围棋和高自由度机器人控制等难以建模的复杂问题，甚至能取得超越人类的效果。强化学习针对的是单智能体***，而多智能体强化学习是强化学习在多智能体***中的拓展。多智能体强化学习不仅和强化学习一样可以用于控制、博弈和电子游戏等环境中的学习策略，还可以用来研究智能体之间的交互和博弈。

与图演化博弈理论相比，多智能体强化学习同样可以用于分析多个智能体或者个体间的互相影响，但不同的是，图演化博弈理论中仅仅考虑当前的回报，而多智能体强化学习同时考虑了当前和未来的回报。同时，图演化博弈理论基于特定的更新规则，更新规则只能描述一种用户间的交互方式，其表示能力有限。而多智能体强化学习利用了深度神经网络表示智能体的策略，能够有效地表示复杂的甚至非线性的用户间交互方式。

本发明实施例提供的社交网络信息传播范围预测方法，通过多智能体强化学习引入了未来的回报对用户的影响，更加贴近实际，同时使用深度神经网络表示用户的策略，通过调整神经网络的参数提高了泛化性。

在上述实施例的基础上，所述社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型，包括：

在本发明实施例中，使用无向图表示社交网络，其中的节点表示社交网络的用户，边表示用户间的好友关系，节点的邻居表示社交网络中该用户的好友。本发明实施例定义智能体为社交网络的用户，定义每个智能体对应的环境为除了该智能体外的剩余所有用户，定义智能体有两种动作，分别为转发信息f或不转发信息n。在选择某一个动作后，智能体会得到的回报r定义为：

其中，k_f表示邻居中转发信息的个数，k表示邻居的总数，u_ff、u_fn、u_nn表示描述回报的参数。与基于图演化博弈论的信息传播模型类似，在本发明实施例中，节点可以被划分为不同的类型，每个类型的用户所采用的回报矩阵U(即u_ff、u_fn、u_nn)不同，而且每个节点不知道其他节点的种类。

进一步地，本发明实施例设计了一个双层的全连接神经网络，该神经网络的输入是邻居中选择动作f的比例，输出是选择动作f的概率和选择动作n的概率。因此，该神经网络的作用是表示用户选择动作的决策方式，称其为决策网络。将该全连接神经网络记作π_θ，将其参数记作θ，考虑到智能体的同质性，本发明实施例假设同一种类的智能体采用同一种决策方式，即使用同一个决策网络。图2为本发明实施例提供的使用深度神经网络描述用户交互过程示意图，基于该深度神经网络来描述用户的交互过程可参考图2所示；图3为本发明实施例提供的强化学习基本概念图，用户与环境之间的交互过程可参考图3所示；图4为本发明实施例提供的强化学习基本概念在信息传播中的定义示意图，图5为本发明实施例提供的智能体的决策网络，如图4和图5所示，在实际社交网络中，所有用户并非同时选择自己的动作，因此，本发明实施例定义了惯性因子d。在每个时刻，每个智能体都有d概率保持上一时刻的动作，有(1-d)概率观测邻居中采用动作f的用户的比例，根据决策网络的输出选择自己的动作。π_θ(o,a)表示智能体在决策网络参数为θ，观测到邻居中动作f的比例为o时，选择动作a的概率。决策网络的输入只包含邻居中采用动作f的用户的比例，而不包含邻居的类型，因此邻居节点的类型不会对决策网络的输出有影响。

在上述实施例的基础上，所述方法还包括：

在上述实施例的基础上，所述对所述决策网络模型进行训练，得到训练好的决策网络模型，包括：

在本发明实施例中，在预测信息传播范围之前，需要先获取用户的决策网络参数。假设用户会尽可能使累计回报最大，为了获得累计回报期望最大的决策网络参数，本发明实施例使用策略梯度法更新决策网络参数。具体地，策略梯度法记录观测值-动作对序列

和回报序列

其中，o_t、a_t和r_t分别为t时刻节点的观测值、选择的动作和回报；然后，估计累计回报的期望关于决策网络参数的梯度，利用梯度上升法更新决策网络参数。使用策略梯度法更新决策网络参数θ的过程可由下式表示：

其中，ε表示学习率。

本发明实施例采用双决策网络的训练方法，可提高训练过程的稳定性。在训练过程中，只更新中心节点的决策网络，在中心节点的决策网络参数更新一定次数后，非中心节点的决策网络参数才进行软更新。在中心节点决策网络参数的更新过程中，非中心节点的决策网络参数保持不变，因此对于中心节点来说，环境是稳定的。

进一步地，决策网络模型训练过程的具体步骤如下：

首先，对社交网络进行初始化处理。具体为，根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例，随机生成无向图，并随机选择一个节点作为中心节点，无向图中的每个节点会按照初始动作概率分布随机选择自己的初始动作。

然后，获得观测值-动作对序列和回报序列。具体为，在每个时刻，每个智能体都有d概率保持上一时刻的动作，有(1-d)概率观测邻居中采用动作f的用户的比例o，并有

概率选择传播消息动作f，有

概率选择不传播消息动作n；其中，i表示节点的类型，j用于区分该节点是否是中心节点，j为0表示该节点不是中心节点，j为1表示该节点是中心节点，

表示节点的决策网络参数。进一步地，记录T个时刻内中心节点的状态、动作和回报，得到长度为T的观测值-动作对序列和回报序列。

接着，使用策略梯度法更新中心节点的决策网络参数

其中i*表示中心节点的类型。

最后，将上述三个步骤重复执行10次后，将非中心节点的决策网络参数

更新为：

其中，β表示软更新系数，0<β<1。

在本发明实施例中，重复执行上述步骤，直至执行策略梯度法e次后训练过程终止，

即为训练所得到的第i种节点的决策网络参数θ_i。

在上述实施例的基础上，所述基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围，包括：

将所述均值判定为对应时刻社交网络中的信息传播范围。

在本发明实施例中，在信息传播范围预测阶段，需要与决策网络训练阶段保持一致的超参数有：1、用于定义回报的u_ff、u_fn、u_nn；2、每个用户的邻居数、用户类型数和每种类型用户的比例；3、用户决策的惯性因子d、衰减系数γ、序列长度T以及用户初始动作概率分布。并且，在信息传播范围预测阶段中，社交网络用户数一般大于等于决策网络训练阶段的社交网络用户数。

进一步地，类似于基于图演化博弈论的信息传播模型，为了预测社交网络中的信息传播范围，本发明实施例需要进行多次仿真，并对仿真中同一时刻的采取动作f的用户占据总用户的比例求均值，设置该均值是对应时刻社交网络中的信息传播范围。在每次仿真中，首先根据社交网络中的用户数、每个用户的邻居数、用户类型数和每种类型用户的比例，随机生成无向图，其中每个节点会按照初始动作的概率分布，随机选择自己的初始动作。然后，在每个时刻，每个智能体都有d概率保持上一时刻的动作，有(1-d)概率观测邻居中采用动作f的用户的比例o，并有

概率选择传播消息动作f，有

概率选择不传播消息动作n，其中i表示节点的类型，θ_i是决策网络训练过程得到的、第i种节点的决策网络参数。记录T个时刻内每个时刻采取动作f的用户占据总用户的比例。

在上述实施例的基础上，所述方法还包括：

在本发明实施例中，为了比较本发明实施例和基于图演化博弈的信息传播模型，设计了参数如下的对比试验。社交网络中共有两种用户，其(u_ff,u_fn,u_nn)分别为(0.4,0.8,0.6)和(0.6,0.8,0.4)，用户总数为500，每个用户的邻居数都为20，用户初始选择动作f和动作n的概率分布是0.1和0.9。

进一步地，基于图演化博弈的信息传播模型的参数中，选择系数α为0.15，基准适应度B为1，选择DB规则作为更新规则；基于多智能体强化学习的信息传播模型的参数中，训练时用户总数为100，软更新系数β为0.1，学习率ε为0.001，衰减系数γ为0.9，用户保持上一时刻动作的概率d为0.5，中心节点策略共更新10000次，序列长度T为50。

在本发明实施例中，为了比较本发明实施例与基于图演化博弈论的信息传播模型预测的不同，在不同的第二种用户占总用户的比例下，分别使用本发明实施例和基于图演化博弈论的信息传播模型，对信息传播范围进行预测，二者的预测结果和预测结果方差如表1所示：

表1

由表1可看出，本发明实施例的预测结果方差小于基于图演化博弈论的信息传播模型，同时，二者的预测结果存在不同。在该参数设计下，对于第一种用户，当邻居中选择f的比例小于1/3时，f的回报更高，当邻居中选择f的比例大于1/3时，n的回报更高。因此，如果用户完全理性地追求最高回报，那么第一种用户会尽可能使全部用户中f的比例保持在1/3；同理，第二种用户会尽可能使全部用户中f的比例保持在2/3。从表1可以看出，当第二种用户比例较低(低于1/3)时，本发明实施例的预测结果接近于1/3；当第二种用户比例较高(高于2/3)时，本发明实施例的预测结果接近于2/3；当第二种用户比例介于二者之间时，本发明实施例的预测结果接近于第二种用户的比例。因此，本发明实施例的预测结果与用户完全理性的结果比较接近，而基于图演化博弈的信息传播模型则与用户完全理性的结果有一定差别。

进一步地，为了比较本发明实施例和基于图演化博弈论的信息传播模型中用户每个时刻的平均回报，保持其他参数不变，将第二种用户占总用户的比例设置为0.25。在该参数下，图6为本发明实施例提供的平均回报示意图，图7为本发明实施例提供的基于图演化博弈的信息传播模型的平均回报示意图，可参考图6和图7所示，在本发明实施例中，全体用户、第一类用户和第二类用户的平均回报均高于基于图演化博弈的信息传播模型(可参考图6所示)。在基于图演化博弈论的信息传播模型中，节点忽略类型之间的差异，把每个邻居都作为模仿对象的候选，这导致了不同类型的用户之间的动作会有正相关的干扰，在当前参数下，两种用户的u_ff、u_fn、u_nn相差较大，因此不同邻居类型的影响会使得回报降低；而在本发明实施例中，节点并非直接模仿邻居，而是通过学***均回报比基于图演化博弈论的信息传播模型更高。

图8为本发明实施例提供的社交网络信息传播范围预测***的结构示意图，如图8所示，本发明实施例提供了一种社交网络信息传播范围预测***，包括模型构建模块801和预测模块802，其中，模型构建模块801用于社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；预测模块802用于基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

本发明实施例提供的社交网络信息传播范围预测***，通过多智能体强化学习引入了未来的回报对用户的影响，更加贴近实际，同时使用深度神经网络表示用户的策略，通过调整神经网络的参数提高了泛化性。

本发明实施例提供的***是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图9为本发明实施例提供的电子设备结构示意图，参照图9，该电子设备可以包括：处理器(processor)901、通信接口(Communications Interface)902、存储器(memory)903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。处理器901可以调用存储器903中的逻辑指令，以执行如下方法：社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

此外，上述的存储器903中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的社交网络信息传播范围预测方法，例如包括：社交网络中用户与周围邻居的交互作为目标问题，构建决策网络模型；基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种社交网络信息传播范围预测方法，其特征在于，包括：

社交网络中用户与周围邻居的交互后获得回报最大作为目标问题，构建决策网络模型；

基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围；

所述基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围，包括：

将所述均值判定为对应时刻社交网络中的信息传播范围；

其中，所述训练好的决策网络模型的多智能体强化学习为马尔科夫决策过程，所述马尔科夫决策过程由五元组<S，A，P，r，γ>表示，S表示环境所有可能的状态集合，A表示智能体所有可能的动作集合，P表示状态转移概率；

表示在环境状态s下，智能体采用动作a后环境的下一个状态为s’的概率；r表示回报函数；r(s，a)表示在环境状态s下，智能体采用动作a后，智能体获得的回报；γ表示衰减系数，累计回报定义为

智能体的策略π是智能体选择动作的规则；π(s，a)表示在环境状态s下，智能体采用动作a的概率；强化学习的目的是获得使累计回报期望最大的策略，公式为：

其中，r_t表示t时刻的智能体获得的回报。

2.根据权利要求1所述的社交网络信息传播范围预测方法，其特征在于，所述社交网络中用户与周围邻居的交互后获得回报最大作为目标问题，构建决策网络模型，包括：

基于社交网络中用户与周围邻居的交互后获得回报最大作为目标问题，构建双层的全连接神经网络，其中，输入是邻居中所有用户选择动作f的比例，输出是邻居中每个用户选择动作f的概率和选择动作n的概率，所述动作f表示用户转发信息的动作，所述动作n表示用户不转发信息的动作。

3.根据权利要求1所述的社交网络信息传播范围预测方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的社交网络信息传播范围预测方法，其特征在于，所述对所述决策网络模型进行训练，得到训练好的决策网络模型，包括：

5.根据权利要求1所述的社交网络信息传播范围预测方法，其特征在于，所述方法还包括：

6.一种社交网络信息传播范围预测***，其特征在于，包括：

模型构建模块，用于社交网络中用户与周围邻居的交互后获得回报最大作为目标问题，构建决策网络模型；

预测模块，用于基于多智能体强化学习训练好的决策网络模型，预测社交网络中的信息传播范围；

所述预测模块具体用于：

将所述均值判定为对应时刻社交网络中的信息传播范围；

表示在环境状态s下，智能体采用动作a后环境的下一个状态为s′的概率；r表示回报函数；r(s，a)表示在环境状态s下，智能体采用动作a后，智能体获得的回报；γ表示衰减系数，累计回报定义为

其中，r_t表示t时刻的智能体获得的回报。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述社交网络信息传播范围预测方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述社交网络信息传播范围预测方法的步骤。