CN111079084A - 一种基于长短时记忆网络的信息转发概率预测方法及*** - Google Patents

一种基于长短时记忆网络的信息转发概率预测方法及*** Download PDF

Info

Publication number
CN111079084A
CN111079084A CN201911229629.2A CN201911229629A CN111079084A CN 111079084 A CN111079084 A CN 111079084A CN 201911229629 A CN201911229629 A CN 201911229629A CN 111079084 A CN111079084 A CN 111079084A
Authority
CN
China
Prior art keywords
information
model
long
memory network
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911229629.2A
Other languages
English (en)
Other versions
CN111079084B (zh
Inventor
赵虹
叶沁媛
李悦江
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911229629.2A priority Critical patent/CN111079084B/zh
Publication of CN111079084A publication Critical patent/CN111079084A/zh
Application granted granted Critical
Publication of CN111079084B publication Critical patent/CN111079084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法及***,该方法包括:根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测方法及***,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。

Description

一种基于长短时记忆网络的信息转发概率预测方法及***
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于长短时记忆网络的信息转发概率预测方法及***。
背景技术
社交网络在中国迅速发展,成为人们生活中不可缺少的部分。根据2018年第四季度公开的数据,某社交网络的月活跃用户达4.46亿,日活跃用户超过2亿。层出不穷的社交网络平台已经逐渐成为了新闻和信息传播的主要媒介。其中,新的在线社交网络中的信息传播机制逐渐成为研究热点。自然灾害预警、公共信息、广告营销都是以一种新的形式于在线社交网络平台中迅速传播。因此研究信息在社交网络中的传播,预测用户转发一条信息的概率具有非常重要的意义。
Myers等人率先基于IP(全称Infection Probability)模型,考虑多信息之间相互影响,对用户转发一条信息的概率进行了建模,提出了IMM(全称Information MixingModel)模型,但是IMM模型忽略了信息的文本内容,在IMM模型当中并未引入文本内容的分析,每一个信息的类别表示也是通过学习的办法得到的,从而导致IMM模型的预测精度较低。
发明内容
为了解决上述问题,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法及***。
第一方面,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法,包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
优选地,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
优选地,所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率,具体包括:
Figure BDA0002303171590000024
Figure BDA0002303171590000021
其中,P(X|Y1,…,YK)表示所述目标信息的转发概率,q表示所述输出向量,w为权重向量。
优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量,具体包括:
Figure BDA0002303171590000022
其中,q表示所述输出向量,
Figure BDA0002303171590000023
表示所述浏览信息序列中每一信息对应的句向量。
优选地,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
优选地,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
第二方面,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测***,包括:
序列模块,用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块,用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面提供的一种基于长短时记忆网络的信息转发概率预测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面提供的一种基于长短时记忆网络的信息转发概率预测方法的步骤。
本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测方法及***,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法的流程图;
图2为本发明实施例中每个模型的F1和AUC两个指标比较示意图;
图3为本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测***的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在社交网络当中,海量的信息往往不是简单独立地在社交网络中传播。相关的信息之间相互影响和耦合,存在着增强或抑制的作用,从而形成多信息共存的复杂传播过程。因此,研究多信息的传播过程,对于如何更加迅速、准确地传播有益的信息,而有效地限制有害的谣言、不良信息等问题都具有重要的意义。
现有技术中常见的IMM模型考虑多信息之间相互影响,对用户转发一条信息的概率进行了建模。
在介绍IMM模型之前,先介绍最基础的IP模型:
最为简单的预测用户转发信息的概率是IP模型。该模型假定所有用户是同质的,即对于一个同一个信息u,所有用户转发它的概率均为Pu。IP模型采用所有看到信息u用户中,转发此信息的用户比例来近似转发概率Pu,即:
Figure BDA0002303171590000051
式中,Nu为浏览到信息u的用户总数量;
Figure BDA0002303171590000052
是转发信息u的用户总数量。
IMM模型预测信息转发概率方法的具体步骤如下:
步骤一、用户浏览信息序列及转发信息概率建模。
IMM模型中假定共有N条信息在社交网络中共同传播,其中每一条信息被标记为ui,i=1,…,N。对于每一条信息ui,根据IP模型,都有其独立传播情况下固有的转发概率
Figure BDA0002303171590000053
令随机变量X代表用户当前浏览到的目标信息,{Yk},k=1,…,K是在浏览X之前用户浏览过的第k条信息。实际用户转发此信息的概率会受到之前浏览过的K条信息的影响,变为P(X|Y1,…,YK)。基于浏览过的信息Yk对转发信息X的影响是相互独立的假设,此概率可以被拆分为
Figure BDA0002303171590000054
式中P(X)是信息X的固有转发概率,当X=ui时有
Figure BDA0002303171590000055
P(X|Yk)是在信息Yk影响之下转发信息X的概率。在IMM模型中,条件概率P(X|Yk)可以表示成如下形式:
Figure BDA0002303171590000056
式中,叠加项
Figure BDA0002303171590000057
被称为信息交互项,它代表了在浏览到信息X之前第k条浏览的是信息Yk对于转发信息X概率的影响。当
Figure BDA0002303171590000061
时有P(X|Yk)>P(X),即信息Yk使得转发信息X的概率提高,从而促进了后者的传播;反之,当
Figure BDA0002303171590000062
时有P(X|Yk)<P(X),即浏览信息Yk会降低转发X的概率,因此信息Yk抑制了信息X的传播。
为了确定间隔信息数量为k时,任意信息uj对于任意信息ui的影响
Figure BDA0002303171590000063
定义维度为N×N的信息影响矩阵
Figure BDA0002303171590000064
其第i行,第j列元素即为
Figure BDA0002303171590000065
此k×N2个参数即为模型需要确定的参数。
步骤二、信息的类别表示与问题简化。
假设数据集中一共有N条信息,考虑到数据集中的信息数量往往非常多,因此需要确定信息影响矩阵的参数数量K×N2过于庞大。为解决此问题,可以采用信息的类别表示的方法。对于任意信息ui,可以采用一个T维潜在类别向量Mi来表述(T<<N)。该向量的每一个维度代表了一个信息的潜在类别,而在第t维度上的值Mi,t则代表了该信息在第t个潜在类别ct中所占的比例,因此有
Figure BDA0002303171590000066
Figure BDA0002303171590000067
定义类别影响矩阵
Figure BDA0002303171590000068
其第r行、第s列的元素
Figure BDA0002303171590000069
表示当第s类别信息出现在第r类信息之前k个时,对后者转发概率的影响大小。据此,可以得到间隔k条的信息uj对于信息ui影响
Figure BDA00023031715900000610
的类别表示为
Figure BDA00023031715900000611
在这种情况下,每个信息的T维类别表示(N×T个参数)和类别影响矩阵(K×T2个参数)需要确定。这样需要确定的参数总数维N×T+K×T2个参数需要确定。当T<<N时,需要确定的参数数量被大幅度减小。
步骤三、参数的学习。
在实际数据集中,通过遍历全部的长度为K的信息浏览序列,可以统计出在浏览信息ui之前浏览的是信息uj的总次数,这其中有
Figure BDA00023031715900000612
次信息ui被用户转发,而剩余的
Figure BDA00023031715900000613
次信息ui并未被转发。因此可以得到对数似然函数为:
Figure BDA0002303171590000071
采用随机梯度下降的方式使得-L取得最小化的Mi,i=1,…,N和
Figure BDA0002303171590000072
即为最终解。根据以上公式便可以利用训练数据集训练得到所有参数。经过测试集的验证,IMM模型在在预测用户转发信息概率任务中取得了良好的效果,AUC指标相较于IP模型提升了4倍。
但是,IMM模型忽略了信息的文本内容。在实际社交网络中,海量的信息是由文本所构成或者包含了文本信息的。正是因为这些文本信息的相互作用,才使用户对于后浏览的信息转发概率发生了变化。在IMM模型当中并未引入文本内容的分析。
针对该问题,图1为本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法的流程图,如图1所示,该方法包括:
S1,根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
S2,根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
首先获取用户当前正在浏览的目标信息和前一段时间内(也就是预设历史时间段内)浏览的每一条历史信息,该目标信息和每一条历史信息组成了浏览信息序列,然后将浏览信息序列输入到训练后的预测模型中,就可以预测出该目标信息的转发概率。
通过预测出的目标信息的转发概率,通过进一步处理,可以判断用户是否会对该目标信息进行转发,也可以判断用户是否对该目标信息感兴趣,或者计算转发流量等。
具体地,训练后的预测模型是由浏览信息序列样本数据和预设的浏览序列标签对预测模型进行训练后得到。
本发明实施例中预测模型包括文本模型,文本模型用于获取输入预测模型中的信息转中的文本信息。本发明实施例中,该文本模型采用BERT模型,BERT模型对用户浏览的目标信息进行量化,通过BERT模型可以将每一条信息中的文本信息转化为句向量,以此更好地提升预测模型的准确性和预测模型自身的可拓展性。
需要说明的是,BERT模型借助大规模语料,通过对语言模型等基础任务的训练,实现了对任意输入信息的量化,即句向量表示。
其中,BERT模型引入了选词填空和上下句关系判断的任务,训练得到的BERT模型能够更好地捕捉输入语句的全局含义和逻辑关系,从而给出输入语料更优的向量表示。
本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。
在上述实施例的基础上,优选地,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
具体地,该预测模型还包括信息长短时记忆网络模型,信息长短时记忆网络模型位于文本模型之后,并且信息长短时记忆网络模型是由长短时记忆网络模块和预测模块组成。
下面通过预测目标信息的转发概率的过程,对信息长短时记忆网络模型进行具体描述:
首先对浏览信息序列和转发行为进行建模,本发明实施例中所采用的建模方法与前面IMM模型的对浏览信息序列建模过程相同,用户按照时间顺序浏览信息,建立浏览信息序列。
假设用户当前正在浏览的目标信息为X,其之前浏览过的K条历史信息,按照浏览顺序由前至后依次为Yk,…,Y1,这K条历史信息会对用户是否会转发目标信息X产生影响。定义该用户在前K条历史信息影响下转发目标信息X的概率为P(X|Y1,…,YK)。
假设每一条信息均包含文本内容并且是已知的,并且所有用户在接触到相同的浏览信息序列{YK,…,Y1,X}后,转发目标信息X的概率均为P(X|Y1,…,YK),本发明实施例旨在对任意的文本信息序列{YK,…,Y1,X},给出概率P(X|Y1,…,YK)的预测。
将建立好的浏览信息序列模型输入到预测模型中,预测模型中的BERT模型根据浏览信息序列中每条信息的文本信息,生成每条信息对应的句向量。
具体地,BERT模型将每条信息的文本内容映射到一个dB维的句向量。根据本法实施例中的BERT模型,dB=768。即对于第i条信息ui,其对应的句向量为:
Figure BDA0002303171590000091
且,
Figure BDA0002303171590000092
将每条信息对应的句向量都输入到长短时记忆网络模块中,长短时记忆网络模块为双层LSTM模型。
双层LSTM模型共有K+1个单元,每个单元的输入对应于当前序列{Yk,…,Y1,X}的句向量{vYk,…,vY1,vX}。每一个LSTM单元的输出是维度为dq=200维的向量。
循环神经网络是神经网络结构中的一个分支,专为输入为序列结构的任务所设计,在各类拟合、预测和分类任务中取得了良好的效果。其中长短时记忆网络(Long Short-Term Memory,简称LSTM)的设计考虑了人类记忆和遗忘的过程,将记忆的变化建模为状态向量随输入的变化,LSTM网络在机器翻译、情感分析、金融数据预测、视频行为检测等任务中均有广泛应用。
将浏览信息序列中每条信息对应的句向量输入到长短时记忆网络模块中,可以得到对应的输出向量,然后预测模块对输出向量进行逻辑斯蒂回归处理,就可以得到目标信息的转发概率。
具体地,本发明实施例中,进行逻辑斯蒂回归处理的具体公式如下:
Figure BDA0002303171590000101
Figure BDA0002303171590000102
其中,P(X|Y1,…,YK)表示所述目标信息的转发概率,q表示所述输出向量,w为权重向量。
现有技术中,IMM模型基于浏览过的K条信息对当前正在浏览信息的影响是独立的。然而,在实际社交网络中,用户所浏览过的多条信息往往是共同影响该用户是否转发当前所浏览信息的。例如用户浏览过的信息Y2是新闻事件的介绍;Y1是一篇相关的评论文章,但与用户观点不符,从而不会转发Y1;而用户当前浏览的X是另一篇评论文章,且与用户的观点一致,最终转发该信息。在这一情况下,用户最终转发X是Y2和Y1共同作用的结果。这种情况在IMM模型中不能被精确地表示。
而本发明实施例中,通过引入LSTM模型来增强浏览过信息之间的相互作用及影响,从而解决上述缺陷。
在上述实施例的基础上,优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
具体地,将浏览信息序列中每条信息对应的句向量输入到长短时记忆网络模块后,得到输出向量,为了防止过拟合,本发明实施例中长短时记忆模块还通过Dropout技术对输出向量进行处理,将处理后的结果重新作为输出向量。
具体计算公式如下:
Figure BDA0002303171590000111
其中,q表示所述输出向量,
Figure BDA0002303171590000112
表示所述浏览信息序列中每一信息对应的句向量。
Dropout技术对输出向量进行处理,可以防止输出向量发生过拟合,
Figure BDA0002303171590000113
表示将浏览信息序列中每一信息对应的句向量输入LSTM模型中后得到的输出向量。
对预测模型进行训练的方法如下:
首先,将一段时间内的全部信息按照用户以及其好友关系,整理成为用户的个人信息流。每一个用户的个人信息流中包含了在一段时间内该用户自己发布、转发和浏览的信息,该用户转发和浏览的信息可以是该用户的好友发布和转发的信息,这些信息完全按照时间顺序进行排列,代表了用户浏览这些信息的顺序。
其次,通过个人信息流来生成训练样本。
按照前述IMM模型对于浏览信息序列的建模,可以把每一个用户的个人信息流划分为长度为K的若干段,从而得到每个用户的多个浏览信息序列。需要注意的是每个社交网站平台中,用户浏览信息的顺序可能不同。
本发明实施例中以微博平台为例,最新发布的微博会被用户首先浏览,所以发布越晚的信息在序列中的位置反而应该更靠前。对于每一个浏览信息序列,如果最终用户转发了浏览信息序列中最后浏览的信息,则此浏览信息序列的标签为y=1;反之,若用户最终并未转发该浏览信息序列最后浏览的信息,则此序列的标签为y=0。
在实际操作时,由于实际数据集中负样本(y=0)的序列远多于正样本(y=1),为了避免模型的有偏性,按照正负样本比例为1:5的比例来随机丢弃负样本序列。
最后是将训练数据集按照一定比例划分为训练集、验证集和测试集来进行学习任务以及指标评价。在本发明实施例中,按照全部训练样本的80%,10%,10%的比例来随机生成三个集合。
通过训练集中的样本数据对预测模型进行训练,就可以得到训练后的预测模型,具体地,本发明实施例中,对预测模型的训练包括两种训练方法:
第一、Fixed embedding,具体如下:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
该方法在训练过程中不会对BERT模型的参数进行调整,当浏览信息序列样本数据输入到BERT模型后,BERT模型中将浏览信息序列样本数据中的每个信息转化为句向量,然后根据每个句向量对信息长短时记忆网络模型进行训练,得到训练后的信息长短时记忆网络模型。BERT模型和训练后的增强模型就是训练后的预测模型。
第二、Non-fixed embedding,具体包括:
根据所述浏览信息序列样本数据和所述预设浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
通过浏览信息序列样本数据对BERT模型和信息长短时记忆网络模型同时进行训练,同时对两个模型的参数进行调整,以寻找两个模型最佳参数,训练后的BERT模型和训练后的信息长短时记忆网络模型就是训练后的预测模型。
在训练中有以下超参数需要确定:(1)初始学习率,取值集合为{1,0.3,0.1,0.03,0.01,0.003,0,001};(2)Dropout概率,取值集合为{0.5,0.4,0.3,0.2,0.1};(3)模型内部参数。对于信息长短时记忆网络模型,这部分的参数指句向量低维表示的维度dh,其取值范围是{8,16,32,64,128,256}。
可以通过不同的组合进行枚举,得到超参数的最优配置。
为了综合考察预测模型的表现,对测试集的预测准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1 score)以及AUC进行记录。同时为了避免程序的随机性产生的影响,每一个衡量的模型均独立地随机训练5次,并记录每一个指标的均值(mean)、标准差(std)、最大值(max)以及最小值(min)。
表1
Figure BDA0002303171590000131
为体现技术优势,本发明选取了IP模型和IMM模型作为基准模型,连同本发明所提出的预测模型,在相同的训练集上进行训练,并以上述各项指标来衡量各方法的性能,表1为本发明实施例中预测模型、IP模型和IMM模型的性能测试表,测试结果如表1所示。
图2为本发明实施例中每个模型的F1和AUC两个指标比较示意图,如图2所示,结合表1和图2,预测模型1表示按照第一种训练方法对预测模型进行训练,预测模型2表示按照第二种训练方法对预测模型进行训练,可以观察到如下结论:
预测模型相比IMM模型,在四个评测指标上均有大幅提升。预测模型的F1分数的均值达到了64.75%。从稳定性而言,可以观察到预测模型5项指标的标准差均低于其它模型相应指标的标准差,这说明了预测模型每一次实验的差距并不大,从而具有更好地稳定性。仅从衡量指标的角度考虑,该预测模型全面优于IP模型和IMM模型。
两种训练方法对预测模型的精度影响较大。是否固定固定BERT模型部分的参数不变对预测模型的参数对于各项指标的均值和标准差影响均不大,这进一步说明了预测模型的鲁棒性。
综上,在预测社交网络用户转发信息概率建模这一任务中,本发明使用预训练语言模型(BERT模型)对用户浏览的文本进行量化,即将每一条信息的文本内容映射成一个维度为dB=768维的句向量。在此基础之上拓展了IMM模型,提出信息长短时记忆网络模型,直接利用每一条信息的句向量对用户转发信息概率进行预测。
原始IMM模型中,每条信息被当作独立的个体;在引入BERT模型之后,语义相似的文本拥有了相似的向量表示。它们在训练过程中紧密联系,不再孤立,这样有效地提高了训练效率。除此之外,原始IMM模型中,无法应对未被训练过的信息(因为其无法获取新信息所对应的句向量);但利用BERT模型,任何信息都能够被转化为句向量,进而作为后续信息长短时记忆网络模型的输入。本发明创新性地引入BERT模型,一定程度上克服了前文中提到现有模型的缺点。
图3为本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测***的结构示意图,如图3所示,该***包括:序列模块301和转发模块302,其中:
序列模块301用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块302用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
具体地,序列模块301将根据用户当前浏览的目标信息和前一段时间浏览的若干条历史信息,得到浏览信息序列,转发模块302将浏览信息序列输入到训练后的预测模型中,可以得到用户转发该目标信息的概率。由于预测模型中包括一个文本模型,该文本模型可以获取信息中的文本信息,从而使得预测模型在预测转发概率时,考虑到了该信息中的文本信息,进而提高了预测的精度。
本***实施例的具体执行过程与上述方法实施例的具体执行过程相同,详情请参考上述方法实施例,本***实施例在此不再赘述。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行包括如下的方法:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于长短时记忆网络的信息转发概率预测方法,其特征在于,包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
2.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
3.根据权利要求2所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
4.根据权利要求2所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率,具体包括:
Figure FDA0002303171580000011
Figure FDA0002303171580000012
其中,P(X|Y1,…,YK)表示所述目标信息的转发概率,q表示所述输出向量,w为权重向量。
5.根据权利要求3所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量,具体包括:
Figure FDA0002303171580000021
其中,q表示所述输出向量,
Figure FDA0002303171580000022
表示所述浏览信息序列中每一信息对应的句向量。
6.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
7.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
8.一种基于长短时记忆网络的信息转发概率预测***,其特征在于,包括:
序列模块,用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块,用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于长短时记忆网络的信息转发概率预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于长短时记忆网络的信息转发概率预测方法的步骤。
CN201911229629.2A 2019-12-04 2019-12-04 一种基于长短时记忆网络的信息转发概率预测方法及*** Active CN111079084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911229629.2A CN111079084B (zh) 2019-12-04 2019-12-04 一种基于长短时记忆网络的信息转发概率预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911229629.2A CN111079084B (zh) 2019-12-04 2019-12-04 一种基于长短时记忆网络的信息转发概率预测方法及***

Publications (2)

Publication Number Publication Date
CN111079084A true CN111079084A (zh) 2020-04-28
CN111079084B CN111079084B (zh) 2021-09-10

Family

ID=70312863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911229629.2A Active CN111079084B (zh) 2019-12-04 2019-12-04 一种基于长短时记忆网络的信息转发概率预测方法及***

Country Status (1)

Country Link
CN (1) CN111079084B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069046A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 数据泄露提醒方法、装置、设备及计算机可读存储介质
CN112561171A (zh) * 2020-12-17 2021-03-26 杭州鲁尔物联科技有限公司 一种滑坡的预测方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294800A (zh) * 2013-05-27 2013-09-11 华为技术有限公司 一种信息推送方法及装置
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及***
CN106681989A (zh) * 2015-11-09 2017-05-17 郑州大学 一种预测微博转发概率的方法
CN107392392A (zh) * 2017-08-17 2017-11-24 中国科学技术大学苏州研究院 基于深度学习的微博转发预测方法
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN108229731A (zh) * 2017-12-20 2018-06-29 重庆邮电大学 一种热点话题下多消息互影响的用户行为预测***及方法
US20180276535A1 (en) * 2017-03-27 2018-09-27 Microsoft Technology Licensing, Llc Input-output example encoding
CN108717587A (zh) * 2018-05-25 2018-10-30 杭州知智能科技有限公司 一种基于多面排序网络解决推文预测转发任务的方法
CN109063927A (zh) * 2018-08-28 2018-12-21 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法
CN110321422A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 在线训练模型的方法、推送方法、装置以及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294800A (zh) * 2013-05-27 2013-09-11 华为技术有限公司 一种信息推送方法及装置
CN106681989A (zh) * 2015-11-09 2017-05-17 郑州大学 一种预测微博转发概率的方法
CN105975504A (zh) * 2016-04-28 2016-09-28 中国科学院计算技术研究所 一种基于循环神经网络的社交网络消息爆发检测方法及***
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
US20180276535A1 (en) * 2017-03-27 2018-09-27 Microsoft Technology Licensing, Llc Input-output example encoding
CN107392392A (zh) * 2017-08-17 2017-11-24 中国科学技术大学苏州研究院 基于深度学习的微博转发预测方法
CN108229731A (zh) * 2017-12-20 2018-06-29 重庆邮电大学 一种热点话题下多消息互影响的用户行为预测***及方法
CN110321422A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 在线训练模型的方法、推送方法、装置以及设备
CN108717587A (zh) * 2018-05-25 2018-10-30 杭州知智能科技有限公司 一种基于多面排序网络解决推文预测转发任务的方法
CN109063927A (zh) * 2018-08-28 2018-12-21 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭亚等: "基于主题模型的微博转发行为预测", 《中文信息学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069046A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 数据泄露提醒方法、装置、设备及计算机可读存储介质
WO2021151360A1 (zh) * 2020-08-28 2021-08-05 平安科技(深圳)有限公司 数据泄露提醒方法、装置、设备及计算机可读存储介质
CN112069046B (zh) * 2020-08-28 2022-03-29 平安科技(深圳)有限公司 数据泄露提醒方法、装置、设备及计算机可读存储介质
CN112561171A (zh) * 2020-12-17 2021-03-26 杭州鲁尔物联科技有限公司 一种滑坡的预测方法、装置、设备及存储介质
CN112561171B (zh) * 2020-12-17 2023-12-05 杭州鲁尔物联科技有限公司 一种滑坡的预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111079084B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110892395B (zh) 提供增强的通信会话服务的虚拟助手
CN110869969B (zh) 用于在通信会话内生成个性化响应的虚拟助手
US10891322B2 (en) Automatic conversation creator for news
US10949753B2 (en) Causal modeling and attribution
CN110991742A (zh) 一种社交网络信息转发概率预测方法及***
Edo-Osagie et al. Twitter mining using semi-supervised classification for relevance filtering in syndromic surveillance
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN111079084B (zh) 一种基于长短时记忆网络的信息转发概率预测方法及***
CN115577316A (zh) 一种基于多模态数据融合的用户人格预测方法与应用
CN110909230A (zh) 一种网络热点分析方法及***
CN110781428A (zh) 评论展示方法、装置、计算机设备及存储介质
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置
Akila et al. Opinion mining on food services using topic modeling and machine learning algorithms
Al Marouf et al. Looking behind the mask: A framework for detecting character assassination via troll comments on social media using psycholinguistic tools
Archana et al. Explicit sarcasm handling in emotion level computation of tweets-A big data approach
KR102341959B1 (ko) 문장 데이터의 감성 분석을 처리하는 시스템 및 방법
Sharma et al. Sentiment analysis on social networking: A literature review
Gupta et al. Real-time sentiment analysis of tweets: A case study of Punjab elections
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Thanarattananakin et al. Spam detection using word embedding-based LSTM
Arifianto et al. Developing an LSTM-based Classification Model of IndiHome Customer Feedbacks
Purba et al. A study on the methods to identify and classify cyberbullying in social media
Vaddadi et al. Exploration of COVID 19 Tweets Data for the Prediction of Negative Ontologies through Deep Learning Techniques
Timm et al. Dynamic analysis of communication processes using twitter data
CN111897910A (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant