CN116308854A - 一种基于概率扩散的信息级联流行度预测方法及*** - Google Patents
一种基于概率扩散的信息级联流行度预测方法及*** Download PDFInfo
- Publication number
- CN116308854A CN116308854A CN202211577433.4A CN202211577433A CN116308854A CN 116308854 A CN116308854 A CN 116308854A CN 202211577433 A CN202211577433 A CN 202211577433A CN 116308854 A CN116308854 A CN 116308854A
- Authority
- CN
- China
- Prior art keywords
- cascade
- implicit
- state
- ode
- implicit state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000009792 diffusion process Methods 0.000 title claims abstract description 83
- 230000001537 neural effect Effects 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 63
- 238000010586 diagram Methods 0.000 claims description 15
- 238000012952 Resampling Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000002910 structure generation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于信息传播技术领域,公开了一种基于概率扩散的信息级联流行度预测方法及***,基于神经常微分方程和扩散概率模型,来建模级联事件时间不规则性以及信息传播的不确定性,进行级联的流行度预测。首先,将信息级联数据构建为级联社交图,级联图以及级联序列,用于下游结构和序列模型的特征学习;然后,基于常微分方程和时间感知的门控机制得到级联隐式特征;在此基础上,从时空隐变量角度,结合条件扩散概率模型和隐式常微分方程,得到级联不确定的隐式特征;最后,利用级联隐式特征和级联不确定的隐式特征进行流行度预测。本发明可用于信息级联的连续时间状态建模和传播不确定性建模,能够更好地进行信息级联流行度预测。
Description
技术领域
本发明属于信息传播技术领域,涉及信息级联流行度预测,尤其涉及深度学习(Deep Learning)中的信息扩散(Information Diffusion)和流行度预测(PopularityPrediction),是一种基于神经常微分方程(Neural Ordinary Differential Equations,NODEs)和扩散概率模型(Diffusion Probabilistic Model,DPM)的方法。
背景技术
随着社交媒体的广泛使用,例如Twitter,新浪微博等,其已成为用户产生和传播信息并指导用户日常决策的主要信息来源之一。用户的转发或者分享行为促进了信息在社交平台上的快速传播,促使信息级联的产生,例如:用户的最初信息发布(例如,新闻,博文)以及其他用户分享转发形成了一条信息级联。信息级联流行度预测是通过观察信息早期阶段的传播演化过程(例如:转发用户和时间),预测某一条级联(推文、微博等)经过特定的一段时间后转发用户的规模。信息级联流行度的准确预测,有助于信息的快速、有效传播,可带来重大的经济和社会影响,这也得到了学术界和工业界的极大关注。在信息的传播过程中,通常存在两个重要的现象:级联事件的时间不规则性(例如:用户可以在任何时刻转发或者分享新闻、推文等)以及信息传播的内在不确定性。现有的信息级联流行度的准确预测方法主要分为三类:(1)概率生成模型:该方法通过使用时间点过程,例如泊松过程、霍克斯过程等,利用新出现的级联事件的强度函数来建模信息传播过程;(2)基于特征的模型,该方法通过探索设计级联结构、时间、用户属性和信息内容等特征进行级联流行度预测;(3)深度学习模型主要使用简单的事件序列模型,例如,循环神经网络(Recurrent NeuralNetwork,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU),对级联事件进行建模。但是,现有的方法忽略了真实的信息扩散过程中存在级联事件的时间不规则性和信息传播的不确定性,从而导致难以实现对信息级联流行度的准确预测,预测效果不理想。
发明内容
本发明的目的是针对现有技术存在的上述技术问题,设计一套新颖的基于神经常微分方程和扩散概率模型的信息级联流行度预测方法及***,仅利用级联的社交图和级联图的结构信息以及级联的扩散信息,模拟在信息传播过程中的级联事件时间不规则性以及信息传播的不确定性,提高级联流行度预测的准确率。
本发明的思路是构造一个基于神经常微分方程和扩散概率模型的框架来建模级联事件时间不规则性以及信息传播的不确定性,进行级联的流行度预测。首先,将搜集到的级联数据构建为级联社交图,级联图以及级联序列,用于下游结构和序列模型的特征学习;然后,设计一个新颖的时间感知神经常微分模块(Temporal Ordinary DifferentialEquations,T-ODE)建模级联事件的时间不规则性,通过将RNN中的离散特征状态推广到由ODE定义的连续时间动态。同时,通过门控机制考虑级联事件之间的输入信息和时间间隔信息来更新级联的隐式状态,使学习到的级联特征能够更好地符合真实的信息传播过程。在此基础上,从时空隐变量角度,设计一个结合条件扩散概率模型和隐式常微分方程(LatentOrdinary Differential Equations)的级联不确定性建模模块(DPM-ODE),该模块同时考虑了级联演化(级联图的时间依赖性)的不确定性和用户空间关联(级联图的空间结构)的不确定性。在该模块中,条件扩散概率模型以连续时间级联特征为条件去近似用户结构特征的后验分布分数,从而重建级联的图结构特征来模拟用户空间关联的不确定性。条件概率扩散模型经过明确的级联结构生成训练,可以观察到的结构特征之间的有用的关联性。在此基础上,隐式常微分方程根据初始的级联状态的确定性演化定义了随时间推移的生成过程,同时获取了传播不确定性的级联特征。通过两个模块的设计,结合级联的连续时间动态和传播不确定的表示,输入进一个全连接层进行流行度预测。本发明实现了更新颖的流行度建模方式,提高了级联流行度预测的准确率。
基于上述发明思路,本发明提供了一种基于概率扩散的信息级联流行度预测方法,其包括以下步骤:
S1将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
S2依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
S3基于扩散概率模型,以步骤S2得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
S4依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
然后采用稀疏矩阵分解(SparseMatrixFactorization)学习级联全局社交图的结构属性,获得全局结构特征Eg(参见C.Donnat,M.Zitnik,D.Hallac,and J.Leskovec,“Learning structural node embeddings via diffusion wavelets,”in SIGKDD,2018,pp.1320–132);采用图小波模型(Graph Wavelets)建模级联图/>获得节点相似性特征Ec(参见J.Zhang,Y.Dong,Y.Wang,J.Tang,and M.Ding,“ProNE:fast and scalable networkrepresentation learning,”in IJCAI,Macao,China,Aug.10–16,2019,pp.4278–4284);最后对Eg和Ec进行拼接操作,获得用户的结构表示E。
由于人类反应行为具有随机性,信息的转发可能会出现在任何时刻,从而导致信息级联中存在不规则时间序列。本发明通过步骤S2,将RNN中的级联状态推广到由ODE定义的连续时间动态,同时通过门控机制考虑级联事件之间输入信息和时间间隔信息。
首先,依据前一时刻的隐式状态和用户结构嵌入表示,利用LSTM单元获取当前时刻的隐式状态,来避免使用ODE求解器会出现梯度消失或***现象。
其中,θl表示LSTM单元中可学习的模型参数。
然后,我们将hi-1输入到基于欧拉算法的第一ODE求解器中获得ODE隐式状态zi:
zi=ODESolver(fω,hi-1,h′i,(ti-1,ti))
通过上述操作,使用一个基于欧拉算法的第一ODE求解器来评估连续观察之间的级联隐藏状态,构建了在不规则的时间间隔ti-1和ti之间连续时间的级联动态。
为了构建真实的时刻ti的级联特征,我们将当前时刻隐式状态h′i和ODE隐式状态zi作为输入,来学习级联的真实特征;这里是利用GRU单元来更新级联的隐式状态,即对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态h″i。上述过程表示为:
h″i=GRUCell(θg,h′i,zi)
最后,设计了一个时间感知的门控机制(T-Gate)来整合前两个步骤的隐式表示来生成连续时间的级联状态。
神经常微分方程将神经网络中的参数更新视为求解常微分方程的过程,从数值方法的角度来看,神经网络的离散层可以看作是微分方程的欧拉离散化:
其中,h(t)=ht。神经网络由fω(·)参数化,构建级联隐式状态的连续动态。NODE的参数更新过程可以看作是用数值方法求解ODE。
给定隐式状态h′i和h″i,使用时间感知的门控机制来更新级联隐式状态hi:
hi=vi⊙h″i+(1-vi)⊙h′i,
步骤S3中,信息传播不确定性不仅存在于级联的演化过程中(级联图的时间依赖),还存在于用户之间的空间关联上(级联图的空间结构)。本发明整合了扩散概率模型和隐式神经常微分方程从时空隐变量的角度对信息扩散不确定性进行建模。本发明基于设计的条件扩散概率模型,通过以连续时间级联特征为条件来近似用户结构特征的后验分布分数,重建级联的信息级联结构特征。条件概率扩散模型用于结构生成,并且可以观察到结构特征之间的有用相关性。在此基础上隐式常微分方程根据初始的级联状态的确定性演化定义了随时间推移的生成过程,同时获取了传播不确定性的级联特征。基于上述分析,本发明步骤S3包括以下分步骤:
S32基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;通过扩散概率模型的逆过程,获取模型分布;通过对模型分布采样,获得用户结构嵌入Eta;
利用扩散概率模型以生成概率的方式捕获结构嵌入的不确定性。条件扩散概率模型以步骤S2中学习到的级联隐式特征Zco=Z为条件生成目标级联的结构嵌入扩散概率模型的概率生成的目标是用模型分布/>来估计真实的条件数据分布/>
本步骤中,基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;每个时间步r∈{0,1,2,…,R}的正向过程定义为一个高斯变化:
式中,=r为固定常数来控制向数据添加高斯噪声的过程;表示高斯分布,表示均值,βrI表示方差;使用条件扩散概率模型的逆过程模拟条件分布定义一个条件去噪函数∈θ:(Eta|Zco)→Eta,它将Zco作为输入:
上述公式可以通过随机梯度下降来简化和有效训练:
采样过程可以定义为:
然后,基于变分自编码器(VariationalAutoencoders,VAEs)框架,利用ODE的外推性质来模拟具有不确定性的级联演化动态。假设是真实的后验分布,我们基于VAE框架用模型分布/>去近似真实后验分布/>其中,φ是神经网络的参数,通过使用线性变换从/>中推导均值/>和方差/>结合重参数化技巧,重采样得到重构的初始级联状态/>其中,ζ从正太分布中进行采样。
S34使用第二ODE求解器在概率空间对重构的初始级联状态进行演化得到级联不确定的隐式特征Z′ T:
其中,fξ(·)是计算导数的ODE函数,tn表示级联序列的最后观察时刻。通过这种方式,我们产生了一个连续的进化轨迹,其中每个点表示遵循后验分布的隐式变量p(Z′t|Z′0,…,Z′t-1)。最后,我们通过最大化证据下界(ELBO)来优化模型参数:
步骤S4中,依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,利用多层感知机获取级联流行度。
首先,我们将步骤S2得到的级联隐式特征Z和步骤S3得到的级联不确定的隐式特征Z′ T进行拼接操作,然后将它们输入进多层感知机(Multi-Layer Perceptrons,MLPs)进行级联的流行度预测:
其中,Concat(·)表示拼接操作。在训练过程中,我们以均方对数误差(MSLE)为目标,结合MSLE和ELBO来训练模型。最终的损失函数定义为:
本发明进一步提供了一种基于概率扩散的信息级联流行度预测***,包括:
结构嵌入表示获取模块,用于将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
时间感知的神经常微分模块T-ODE:用于依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
级联不确定性建模模块DPM-ODE:基于扩散概率模型,以时间感知的神经常微分模块T-ODE得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
级联流行度预测模型,用于依据级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
上述时间感知的神经常微分模块T-ODE包括:
LSTM单元,依据前一时刻的隐式状态和用户结构嵌入表示,获取当前时刻的隐式状态;
第一ODE求解器,依据前一时刻隐式状态和当前时刻隐式状态,获得ODE隐式状态;
GRU单元,对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;
更新单元,基于时间感知的门控机制更新级联隐式状态;
全连接层,对全局结构特征和节点相似性特征拼接结果进行全连接处理,得到用户的结构嵌入表示。
上述级联不确定性建模模块DPM-ODE包括:
基于不确定性的用户结构嵌入生成单元,基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;并通过扩散概率模型的逆过程,获取模型分布;再通过对模型分布采样,获得用户结构嵌入Eta;
第二ODE求解器,用于在概率空间对重构的初始级联状态进行演化得到级联不确定的隐式特征Z′ T:
其中,fξ(·)是计算导数的ODE函数。
上述基于概率扩散的信息级联流行度预测***,以多层感知机作为级联流行度预测模型。
与现有的技术相比,本发明具有以下有益效果:
1、本发明基于神经常微分方程和扩散概率模型,可用于信息级联的连续时间状态建模和传播不确定性建模,能够更好地进行信息级联流行度预测。
2、本发明对于理解社交网络中的信息演化过程、解释级联的流行原因极其重要;例如,通过本发明预测某条微博在未来一段时间的转发量,可用于营销设计,谣言预测等下游任务。
3、本发明提出了时间感知的神经常微分方程模块(T-ODE),它考虑信息传播过程中的时间因素的影响,用于建模级联事件时间不规则性,捕捉时间感知的连续时间动态。
4、本发明提出了结合条件扩散概率模型和隐式神经常微分方程的级联不确定建模模块(DPM-ODE);条件扩散概率模型通过以连续时间级联特征为条件来重建级联的信息级联结构特征,并在此基础上隐式常微分方程根据初始的级联状态的确定性演化定义了随时间推移的生成过程,同时获取了传播不确定性的级联特征。
附图说明
图1是信息级联的示意图,描述信息级联扩散过程以及流行度预测任务。
图2是本发明基于概率扩散的信息级联你流行度预测流程示意图。
图3是噪声预测模型示意图。
术语解释
信息级联(Information Cascade):附图1以一个示例说明了该过程:一个根节点发布一条信息内容后,根节点的关注者将浏览的信息内容进行分享或者转发。信息内容通过用户的转发行为在社交网络上传播并促使信息级联的产生。信息级联流行度预测任务是一个经典的任务,预测某一条级联(推文、微博等),在一段观测时间段后潜在受影响用户的规模。其理论基础可以参考文献【J.Cheng,L.Adamic,P.A.Dow,J.M.Kleinberg,andJ.Leskovec.Can cascades be predicted In Proc.of WWW,2014.】
神经常微分方程(Neural Ordinary Differential Equations,NODEs):常微分方程通过使用神经网络参数化隐藏状态的导数,而不是传统模型(如ResNet和RNN)中使用的隐藏层的离散序列,并且具有在数值精度和计算之间进行平衡,同时显着地节省内存成本。其理论基础可以参考文献【R.T.Chen,Y.Rubanova,J.Bettencourt,andD.Duvenaud.Neural ordinary differential equations.In NeurIPS,2018,pp.6572–6583.】
扩散概率模型(Diffusion Probabilistic Model,DPM):扩散概率模型可以通过马尔可夫链对复杂数据进行灵活建模,扩散概率模型使用前向扩散过程通过添加噪声逐渐将数据分布转换为易于处理的分布。然后定义反向扩散过程以生成方式生成数据。其理论基础可以参考文献【J.Sohl-Dickstein,E.Weiss,N.Maheswaranathan,andS.Ganguli.Deep unsupervised learning using nonequilibriumthermodynamics.InICML,2015.】
本发明使用的log函数是以10为底。
具体实施方式
结合附图对本发明做进一步描述。
实施例1
如附图2所示,本实施例提供的基于概率扩散的信息级联流行度预测方法,其包括以下步骤:
S1将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
S2依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
S3基于扩散概率模型,以步骤S2得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
S4依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
下面对上述步骤S1-S4进行详细解释。
上述步骤S1,将级联数据构建为社交图级联图/>以及级联序列。所述社交图/>主要由所有级联序列的用户组成。所述级联图/>主要由任一条级联序列的用户组成。然后采用稀疏矩阵分解(SparseMatrixFactorization)学习级联全局社交图/>的结构属性,获得全局结构特征Eg(参见C.Donnat,M.Zitnik,D.Hallac,and J.Leskovec,“Learningstructural node embeddings via diffusion wavelets,”in SIGKDD,2018,pp.1320–132);采用图小波模型(Graph Wavelets)建模级联图/>获得节点相似性特征Ec(参见J.Zhang,Y.Dong,Y.Wang,J.Tang,and M.Ding,“ProNE:fast and scalable networkrepresentation learning,”in IJCAI,Macao,China,Aug.10–16,2019,pp.4278–4284);最后对Eg和Ec进行拼接操作,获得用户的结构表示E。
上述步骤S2,依据前一时刻的隐式状态和用户结构嵌入表示,利用LSTM单元获取当前时刻的隐式状态。给定在时刻ti-1的级联隐式状态对(ci-1,hi-1)和用户u的结构嵌入首先将它们输入到LSTM单元中生成新的隐式状态(ci,h′i):
其中,θl表示LSTM单元中可学习的模型参数。
然后,我们将hi-1输入到基于欧拉算法的第一ODE求解器中获得ODE隐式状态zi:
zi=ODESolver(fω,hi-1,h′i,(ti-1,ti))
利用GRU单元来更新级联的隐式状态,即对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态h″i。上述过程表示为:
h″i=GRUCell(θg,h′i,zi)
给定隐式状态h′i和h″i,使用时间感知的门控机制来更新级联隐式状态hi:
hi=νi⊙h″i+(1-νi)⊙h′i,
上述步骤S3,包括以下分步骤:
S32基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;通过扩散概率模型的逆过程,获取模型分布;通过对模型分布采样,获得用户结构嵌入Eta;
基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;每个时间步r∈{0,1,2,…,R}的正向过程定义为一个高斯变化:
上述公式可以通过随机梯度下降来简化和有效训练:
其中,噪声∈θ是噪声预测模型预测输出。噪声预测模型如图3所示,其包括输入层,注意力层和输出层。输入层由并列第一卷积层、时间步长编码器、第一多层感知机(MLP)和第二卷积层组成;第一卷积层和第二卷积层均为1×1卷积层;第一卷积的输入为用户结构表示/>即/>时间步长编码器输入为时间步长r,时间步长编码器用于基于时间步长r从学习参数矩阵Wr中索引相应的行作为输出;第一多层感知机的输入为步骤S2得到的级联隐式特征Z;第一卷积层、时间步长编码器和第一多层感知机的输出在维度上拼接结果作为第二卷积层的输入;注意力层采用常规结构(参见Vaswani,Ashish,et al."Attention is all you need."In NIPS,2017),以第二卷积层输出与/>之和作为注意力层的输入,注意力层输出作为输出层的输入;以第二多层感知机作为输出层,第二多层感知机的输出即∈θ。
采样过程可以定义为:
然后,基于变分自编码器(VariationalAutoencoders,VAEs)框架,利用ODE的外推性质来模拟具有不确定性的级联演化动态。假设是真实的后验分布,我们基于VAE框架用模型分布/>去近似真实后验分布/>其中,φ是神经网络的参数,通过使用线性变换从/>中推导均值/>和方差/>结合重参数化技巧,重采样得到重构的初始级联状态/>其中,ζ从正太分布中进行采样。
S34使用第二ODE求解器在概率空间中对重构的初始级联状态Z′0进行演化,得到级联不确定的隐式特征Z′T:
其中,fξ(·)是计算导数的ODE函数,tn表示级联序列的最后观察时刻。通过这种方式,我们产生了一个连续的进化轨迹,其中每个点表示遵循后验分布的隐式变量p(Z′t|Z′0,…,Z′t-1)。最后,我们通过最大化证据下界(ELBO)来优化模型参数:
上述步骤S4,将步骤S2得到的级联隐式特征Z和步骤S3得到的级联不确定的隐式特征Z′ T进行拼接操作,然后将它们输入进多层感知机(Multi-Layer Perceptrons,MLPs)进行级联的流行度预测:
其中,Concat(·)表示拼接操作。
在训练过程中,我们以均方对数误差(MSLE)为目标,结合MSLE和ELBO来训练模型。最终的损失函数定义为:
实施例2
本实施例提供了一种基于概率扩散的信息级联流行度预测***,其包括:
结构嵌入表示获取模块,用于将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
时间感知的神经常微分模块T-ODE:用于依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
级联不确定性建模模块DPM-ODE:基于扩散概率模型,以时间感知的神经常微分模块T-ODE得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
级联流行度预测模型,用于依据级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
上述时间感知的神经常微分模块T-ODE包括:
LSTM单元,依据前一时刻的隐式状态和用户结构嵌入表示,获取当前时刻的隐式状态;
第一ODE求解器,依据前一时刻隐式状态和当前时刻隐式状态,获得ODE隐式状态;
GRU单元,对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;
更新单元,基于时间感知的门控机制更新级联隐式状态;
全连接层,对全局结构特征和节点相似性特征拼接结果进行全连接处理,得到用户的结构嵌入表示。
上述级联不确定性建模模块DPM-ODE包括:
基于不确定性的用户结构嵌入生成单元,基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;并通过扩散概率模型的逆过程,获取模型分布;再通过对模型分布采样,获得用户结构嵌入Eta;
第二ODE求解器,用于在概率空间对重构的初始级联状态进行演化得到级联不确定的隐式特征Z′ T:
其中,fξ(·)是计算导数的ODE函数。
上述级联流行度预测模型为多层感知机。
上述基于概率扩散的信息级联流行度预测***的训练过程为:利用训练用数据按照前面给出的步骤S1-S4对基于概率扩散的信息级联流行度预测***进行训练,并依据损失函数获取损失值,再通过随机梯度下降(SGD)对***网络参数进行优化;重复上述过程至损失值趋于稳定。
基于概率扩散的信息级联流行度预测***训练完成后,将已知信息级联输入***,按照前面给出的步骤S1-S4,即可得到信息级联流行度的预测结果。
应用例
采用实施例提供的基于概率扩散的信息级联流行度预测***(CasDO)在三个不同真实数据集(Twitter、Weibo、和APS,第一个数据集来源参考文献【L.Weng,F.Menczer,andY.-Y.Ahn.Virality prediction and communitystructure in socialnetworks.Scientific Reports,vol.3,no.1,pp.1–6,2013.】,第二个数据集来源参考文献【Q.Cao,H.Shen,K.Cen,W.Ouyang,and X.Cheng.DeepHawkes:Bridging the gap betweenprediction and understanding of information cascades.In CIKM,2017.】,第三个数据集来源参考【https://journals.aps.org/datasets】)上的预测效果。其中三个数据集中,训练集与测试集中样本数据比为7:1.5:1.5。
同时将本发明提供的基于概率扩散的信息级联流行度预测***(CasDO)与5个不同的基线模型(Feature-Deep、DeepHawkes、CasCN、LatentODE、CasFlow)进行对比,使用MSLE作为我们的评价指标(值越小,预测效果越好),预测结果见表1所示。
表1:在应用例数据集上进行流行度预测的效果
对表格中其余方法的介绍如下:
·Feature-Deep:从信息级联数据中提取结构特征、时间特征,并将它们输入两层的多层感知机进行预测。【X.Xu,F.Zhou,K.Zhang,S.Liu,and G.Trajcevski.CasFlow:Exploring hierarchical structures and propagation uncertainty for cascadeprediction.In TKDE,pp.1–14,2021.】
·DeepHawkes:它将深度神经网络融入进点过程的进行流行度预测,它考虑了霍克斯过程的三个主要方面,即用户的影响、自激机制和时间衰减。【Q.Cao,H.Shen,K.Cen,W.Ouyang,and X.Cheng.DeepHawkes:Bridging the gap between prediction andunderstanding of information cascades.In CIKM,2017.】
·CasCN:它结合递归神经网络和图卷积网络,利用时间和结构信息进行级联预测。它是通过对子级联图进行采样并使用LSTM来捕获演化过程。【X.Chen,F.Zhou,K.Zhang,G.Trajcevski,T.Zhong,and F.Zhang.Information diffusion prediction viarecurrent cascades convolution.In ICDE,2019.】
·LatentODE:它将离散RNN推广到由ODE定义的连续时间隐藏动态。它将潜在表示视为RNN中的时间序列变量,能够处理观察之间的任意时间间隔。【Y.Rubanova,R.T.Chen,and D.Duvenaud.Latent odes for irregularly sampled time series.In NeurIPS,2019.】
·CasFlow:它学习信息级联中的局部和全局结构,并利用变分自编码器和正则化流来增强学习到的级联表示。【X.Xu,F.Zhou,K.Zhang,S.Liu,and G.Trajcevski.CasFlow:Exploring hierarchical structures and propagation uncertainty for cascadeprediction.In TKDE,pp.1–14,2021.】
从表1的实验结果可以看出,本发明提供的基于概率扩散的信息级联流行度预测***(CasDO),相比于其他基线模型,可以大幅度提高流行度预测的准确率。
由此可知,本发明提出的基于概率扩散的信息级联流行度预测***,不仅能建模在信息传播过程中的级联事件时间不规则性以及信息传播的不确定性,还能提高流行度预测的准确率。在三个真实数据集上的实验证明了本发明相对于最先进的基线模型的优越性能。所提方案在性能上的改进表明,将神经常微分方程的优点与扩散概率模型结合起来,可以有效地模拟信息级联扩散过程,对信息级联流行度做出较为准确的预测。
综上所述,本发明将神经常微分方程和扩散概率模型联系起来,设计了时间感知的神经常微分方程建模级联事件的时间不规则性,通过将信息级联的离散级联状态推广到连续时间动态,更好地模拟真实世界中的信息传播过程。然后,融合扩散概率模型和隐式常微分方程来建模与信息级联相关的不确定性。扩散概率模型通过重建级联的图结构特征来学习用户空间关联的不确定性,并在此基础上利用隐式常微分方程根据初始的级联状态确定性演化定义了随时间推移的生成过程,获取了传播不确定性的级联特征。最终,利用级联的连续时间特征和传播不确定性特征达到了预测信息级联流行度的目的。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种基于概率扩散的信息级联流行度预测方法,其特征在于,包括以下步骤:
S1将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
S2依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
S3基于扩散概率模型,以步骤S2得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
S4依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
3.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,上述步骤S2中,依据前一时刻的隐式状态和用户结构嵌入表示,利用LSTM单元获取当前时刻的隐式状态。
6.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,步骤S4中,依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,利用多层感知机获取级联流行度。
7.一种基于概率扩散的信息级联流行度预测***,其特征在于,包括:
结构嵌入表示获取模块,用于将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
时间感知的神经常微分模块T-ODE:用于依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
级联不确定性建模模块DPM-ODE:基于扩散概率模型,以时间感知的神经常微分模块T-ODE得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
级联流行度预测模型,用于依据级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
8.根据权利要求7所述的基于概率扩散的信息级联流行度预测***,其特征在于,所述时间感知的神经常微分模块T-ODE包括:
LSTM单元,依据前一时刻的隐式状态和用户结构嵌入表示,获取当前时刻的隐式状态;
第一ODE求解器,依据前一时刻隐式状态和当前时刻隐式状态,获得ODE隐式状态;
GRU单元,对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;
更新单元,基于时间感知的门控机制更新级联隐式状态;
全连接层,对全局结构特征和节点相似性特征拼接结果进行全连接处理,得到用户的结构嵌入表示。
9.根据权利要求7所述的基于概率扩散的信息级联流行度预测***,其特征在于,所述级联不确定性建模模块DPM-ODE包括:
基于不确定性的用户结构嵌入生成单元,基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;并通过扩散概率模型的逆过程,获取模型分布;再通过对模型分布采样,获得用户结构嵌入Eta;
第二ODE求解器,用于在概率空间对重构的初始级联状态进行演化得到级联不确定的隐式特征Z′T:
其中,fξ(·)是计算导数的ODE函数。
10.根据权利要求7所述的基于概率扩散的信息级联流行度预测***,其特征在于,以多层感知机作为级联流行度预测模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022110528920 | 2022-08-30 | ||
CN202211052892 | 2022-08-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116308854A true CN116308854A (zh) | 2023-06-23 |
Family
ID=86836527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211577433.4A Pending CN116308854A (zh) | 2022-08-30 | 2022-12-09 | 一种基于概率扩散的信息级联流行度预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308854A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076931A (zh) * | 2023-10-12 | 2023-11-17 | 北京科技大学 | 一种基于条件扩散模型的时间序列数据预测方法和*** |
CN117610717A (zh) * | 2023-11-13 | 2024-02-27 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
-
2022
- 2022-12-09 CN CN202211577433.4A patent/CN116308854A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076931A (zh) * | 2023-10-12 | 2023-11-17 | 北京科技大学 | 一种基于条件扩散模型的时间序列数据预测方法和*** |
CN117076931B (zh) * | 2023-10-12 | 2024-01-12 | 北京科技大学 | 一种基于条件扩散模型的时间序列数据预测方法和*** |
CN117610717A (zh) * | 2023-11-13 | 2024-02-27 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929164B (zh) | 一种基于用户动态偏好与注意力机制的兴趣点推荐方法 | |
CN110928993A (zh) | 基于深度循环神经网络的用户位置预测方法及*** | |
CN116308854A (zh) | 一种基于概率扩散的信息级联流行度预测方法及*** | |
CN111241421B (zh) | 基于社交上下文信息的用户转发行为预测方法 | |
CN113536144B (zh) | 一种社交网络信息的传播规模预测方法、装置 | |
CN114595396B (zh) | 一种基于联邦学习的序列推荐方法和*** | |
Konomi et al. | Bayesian treed multivariate gaussian process with adaptive design: Application to a carbon capture unit | |
Bedi et al. | CitEnergy: A BERT based model to analyse Citizens’ Energy-Tweets | |
Mohammad Nezhad et al. | An artificial neural network meta-model for constrained simulation optimization | |
CN114928548A (zh) | 一种社交网络信息传播规模预测方法及装置 | |
CN115221396A (zh) | 基于人工智能的信息推荐方法、装置及电子设备 | |
CN115051929B (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
Xiao et al. | User behavior prediction of social hotspots based on multimessage interaction and neural network | |
CN115660147A (zh) | 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及*** | |
Li et al. | [Retracted] Emotion Analysis Model of Microblog Comment Text Based on CNN‐BiLSTM | |
Yu et al. | Missing air pollution data recovery based on long-short term context encoder | |
Ling et al. | Nestpp: Modeling thread dynamics in online discussion forums | |
CN116993185A (zh) | 时间序列预测方法、装置、设备及存储介质 | |
CN115953215B (zh) | 一种基于时间和图结构的搜索式推荐方法 | |
Chen et al. | A forecasting system of micro-blog public opinion based on artificial neural network | |
Zahoor et al. | Evolutionary computation technique for solving Riccati differential equation of arbitrary order | |
Roy et al. | Air quality index forecasting using hybrid neural network model with LSTM on AQI sequences | |
CN114118530A (zh) | 一种基于多户电力消耗预测模型的预测方法及装置 | |
CN114357160A (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
Liu et al. | Prediction model for non-topological event propagation in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |