CN111935259B - 目标帐号集合的确定方法和装置、存储介质及电子设备 - Google Patents

目标帐号集合的确定方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111935259B
CN111935259B CN202010753280.9A CN202010753280A CN111935259B CN 111935259 B CN111935259 B CN 111935259B CN 202010753280 A CN202010753280 A CN 202010753280A CN 111935259 B CN111935259 B CN 111935259B
Authority
CN
China
Prior art keywords
group
vectors
feature data
target
accounts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010753280.9A
Other languages
English (en)
Other versions
CN111935259A (zh
Inventor
杨海力
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010753280.9A priority Critical patent/CN111935259B/zh
Publication of CN111935259A publication Critical patent/CN111935259A/zh
Application granted granted Critical
Publication of CN111935259B publication Critical patent/CN111935259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标帐号集合的确定方法和装置、存储介质及电子设备。其中,该方法包括:采用根据帐号的画像特征数据和行为特征数据确定第一组种子帐号的第一组表征向量以及一组候选帐号的第二组表征向量,再根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离,进而在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号。本发明解决了相关技术中存在的难以真正快速、有效的确定传播影响力较大的帐号集合的技术问题。

Description

目标帐号集合的确定方法和装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种目标帐号集合的确定方法和装置、存储介质及电子设备。
背景技术
目前的相关技术中,确定传播影响力较大的种子帐号集合多是通过对全量帐号集合利用图采样技术,通过贪心算法获得种子帐号,但目前确定种子帐号的技术方案只适用于小数据量以及少量种子帐号集合,无法适应大规模帐号集合。
此外,目前的相关技术中,需要假设种子集合中所有的帐号在初始时刻都是激活状态,应用条件较为苛刻,难以真正快速、有效的确定传播影响力较大的目标帐号的集合。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种目标帐号集合的确定方法和装置、存储介质及电子设备,以至少解决相关技术中存在的难以真正快速、有效的确定传播影响力较大的帐号集合的技术问题。
根据本发明实施例的一个方面,提供了一种目标帐号集合的确定方法,包括:
获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,所述第一组表征向量中的表征向量与所述第一组种子帐号中的种子帐号一一对应,所述第二组表征向量中的表征向量与所述一组候选帐号中的候选帐号一一对应,所述第一组表征向量中的表征向量是根据所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离;根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号。
可选地,所述获取第一组种子帐号的第一组表征向量,包括:获取与所述第一组种子帐号对应的第一组特征数据,其中,所述第一组特征数据包括所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据;将所述第一组特征数据输入目标神经网络模型,得到所述第一组表征向量。
可选地,所述将所述第一组样本特征数据输入目标神经网络模型,得到所述第一组表征向量,包括:将所述第一组画像特征数据和所述第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,所述第一组向量中包括第一类向量、第二类向量和第三类向量,所述第一类向量用于表示所述第一组种子帐号的第一类特征数据,所述第一类特征数据为使用一个标识表示的特征数据,所述第二类向量用于表示所述第一组种子帐号的第二类特征数据,所述第二类特征数据为使用多个标识结合表示的特征数据,所述第三类向量用于表示所述第一组种子帐号的第三类特征数据,所述第三类特征数据为预先配置的特征数据;对所述第一类向量和所述第三类向量进行全连接转化,生成第二组向量;对所述第二类向量基于所述多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行所述全连接转化,生成第三组向量,所述第一目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第二目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;根据所述第二组向量和所述第三组向量,确定所述第一组表征向量。
可选地,所述根据所述第二组向量和所述第三组向量,确定所述第一组表征向量,包括:将所述第二组向量和所述第三组向量拼接为第一目标向量组;对所述第一目标向量组进行第三目标处理,得到第二目标向量组,其中,所述第三目标处理用于基于注意力机制对所述第一目标向量组进行处理;将所述第二目标向量组输入预设的多层感知机,得到第三组目标向量,所述目标神经网络模型包括所述多层感知机;将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;将所述第三组目标向量和所述第一交叉特征信息拼接为所述第一组表征向量。
可选地,所述获取一组候选帐号的第二组表征向量,包括:获取与所述一组候选帐号对应的第二组特征数据,其中,所述第二组特征数据包括所述一组候选帐号的第二组画像特征数据和第二组行为特征数据;将所述第二组特征数据输入目标神经网络模型,得到所述第二组表征向量。
可选地,所述将所述第二组样本特征数据输入目标神经网络模型,得到所述第二组表征向量,包括:将所述第二组画像特征数据和所述第二组行为特征数据中的每个特征数据随机初始化,生成第四组向量,其中,所述第四组向量中包括第四类向量、第五类向量和第六类向量,所述第四类向量用于表示所述一组候选帐号的第四类特征数据,所述第四类特征数据为使用一个标识表示的特征数据,所述第五类向量用于表示所述一组候选帐号的第五类特征数据,所述第五类特征数据为使用多个标识结合表示的特征数据,所述第六类向量用于表示所述一组候选帐号的第六类特征数据,所述第六类特征数据为预先配置的特征数据;对所述第四类向量和所述第六类向量进行全连接转化,生成第五组向量;对所述第五类向量基于所述多个标识所对应的特征数据分别进行第四目标处理和第五目标处理,再进行所述全连接转化,生成第六组向量,所述第四目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第五目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;根据所述第五组向量和所述第六组向量,确定所述第二组表征向量。
可选地,所述根据所述第五组向量和所述第六组向量,确定所述第二组表征向量,包括:将所述第五组向量和所述第六组向量拼接为第四目标向量组;对所述第四目标向量组进行第六目标处理,得到第五目标向量组,其中,所述第六目标处理用于基于注意力机制对所述第四目标向量组进行处理;将所述第五目标向量组输入预设的多层感知机,得到第六组目标向量,所述目标神经网络模型包括所述多层感知机;将第五目标向量组输入预设的特征交叉模型,得到第二交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;将所述第六组目标向量和所述第二交叉特征信息拼接为所述第二组表征向量。
可选地,所述根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离,包括:获取所述第二组表征向量中的每个表征向量与所述第一组表征向量中的每个表征向量之间的余弦距离,得到与每个所述候选帐号对应的一组余弦距离,其中,所述第二组表征向量中的第二表征向量与所述第一组表征向量中的第一表征向量之间的余弦距离,用于表示第二候选帐号与第一种子帐号之间的距离,所述第二候选帐号为所述一组候选帐号中与所述第二表征向量对应的候选帐号,所述第一种子帐号为所述第一组种子帐号中与所述第一表征向量对应的种子帐号。
可选地,所述根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,包括:获取与每个所述候选帐号对应的一组余弦距离的平均值;将所述一组候选帐号中所述平均值大于预定阈值的候选帐号确定为所述第二组种子帐号;或者,将所述一组候选帐号中按照所述平均值排序之后的前N个候选帐号确定为所述第二组种子帐号,其中,N为自然数。
可选地,在将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号之后,所述方法还包括:向所述目标帐号集合中的帐号发送目标媒体资源。
可选地,在所述获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量之前,所述方法还包括:
获取与目标网络中一组节点相关联的第一数据,其中,所述第一数据用于指示所述一组节点中各节点激活所述一组节点中的其他节点的频次和路径;
基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,其中,所述目标集合为所述第一组种子帐号在目标网络中对应的节点所组成的集合,所述第一数据中各节点激活所述其他节点的能力基于所述频次和路径确定。
可选地,基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,包括:
基于所述第一数据生成第一有向图,其中,所述第一有向图记录有所述目标网络中一组节点中的各节点,以及所述各节点在激活所述一组节点中的其他节点时的第一组激活路径以及与所述第一组激活路径中每条激活路径所对应的激活概率;
对所述第一有向图进行n次采样,生成n个第二有向图,其中,所述第二有向图记录有所述一组节点中的第一组节点以及所述第一组节点在激活所述第一组节点中的其他节点时的一组激活路径;
基于所述n个第二有向图,计算与第一节点对应的n个第一集合,其中,所述第一集合包括所述第一组节点中所有能够通过所述激活路径到达所述第一节点的节点和所述第一节点,所述第一组节点包括所述第一节点;
将所述n个第一集合合并为第二集合;
重复执行以下操作,直到所述第二集合为空集;
在所述第二集合中得到出现频次最高的第二节点,所述第一组节点包括所述第二节点;
从所述第二集合中获取包含所述第二节点的所有所述第一集合,生成第三集合,所述第三集合由所述n个第一集合中的部分集合组成;
在所述第三集合中得到出现频次最高的第二组节点,其中,所述第二组节点为按照出现频次排序后得到的排序最高的一组节点,所述第二组节点的节点数量由***预设;
将所述第二组节点添加到目标集合中,并从所述第二集合中删除所述第三集合。
根据本发明实施例的另一方面,还提供了一种目标帐号集合的确定装置,包括:
获取模块,用于获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,所述第一组表征向量中的表征向量与所述第一组种子帐号中的种子帐号一一对应,所述第二组表征向量中的表征向量与所述一组候选帐号中的候选帐号一一对应,所述第一组表征向量中的表征向量是根据所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
第一确定模块,用于根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离;
第二确定模块,用于根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号。
可选地,所述获取模块,包括:第一获取单元,用于获取与所述第一组种子帐号对应的第一组特征数据,其中,所述第一组特征数据包括所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据;第一处理单元,用于将所述第一组特征数据输入目标神经网络模型,得到所述第一组表征向量。
可选地,所述第一处理单元用于通过如下方式将所述第一组样本特征数据输入目标神经网络模型,得到所述第一组表征向量:将所述第一组画像特征数据和所述第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,所述第一组向量中包括第一类向量、第二类向量和第三类向量,所述第一类向量用于表示所述第一组种子帐号的第一类特征数据,所述第一类特征数据为使用一个标识表示的特征数据,所述第二类向量用于表示所述第一组种子帐号的第二类特征数据,所述第二类特征数据为使用多个标识结合表示的特征数据,所述第三类向量用于表示所述第一组种子帐号的第三类特征数据,所述第三类特征数据为预先配置的特征数据;对所述第一类向量和所述第三类向量进行全连接转化,生成第二组向量;对所述第二类向量基于所述多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行所述全连接转化,生成第三组向量,所述第一目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第二目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;根据所述第二组向量和所述第三组向量,确定所述第一组表征向量。
可选地,所述第一处理单元用于通过如下方式根据所述第二组向量和所述第三组向量,确定所述第一组表征向量:将所述第二组向量和所述第三组向量拼接为第一目标向量组;对所述第一目标向量组进行第三目标处理,得到第二目标向量组,其中,所述第三目标处理用于基于注意力机制对所述第一目标向量组进行处理;将所述第二目标向量组输入预设的多层感知机,得到第三组目标向量,所述目标神经网络模型包括所述多层感知机;将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;将所述第三组目标向量和所述第一交叉特征信息拼接为所述第一组表征向量。
可选地,所述获取模块,包括:第二获取单元,用于获取与所述一组候选帐号对应的第二组特征数据,其中,所述第二组特征数据包括所述一组候选帐号的第二组画像特征数据和第二组行为特征数据;第二处理单元,用于将所述第二组特征数据输入目标神经网络模型,得到所述第二组表征向量。
可选地,所述第二处理单元用于通过如下方式将所述第二组样本特征数据输入目标神经网络模型,得到所述第二组表征向量:将所述第二组画像特征数据和所述第二组行为特征数据中的每个特征数据随机初始化,生成第四组向量,其中,所述第四组向量中包括第四类向量、第五类向量和第六类向量,所述第四类向量用于表示所述一组候选帐号的第四类特征数据,所述第四类特征数据为使用一个标识表示的特征数据,所述第五类向量用于表示所述一组候选帐号的第五类特征数据,所述第五类特征数据为使用多个标识结合表示的特征数据,所述第六类向量用于表示所述一组候选帐号的第六类特征数据,所述第六类特征数据为预先配置的特征数据;对所述第四类向量和所述第六类向量进行全连接转化,生成第五组向量;对所述第五类向量基于所述多个标识所对应的特征数据分别进行第四目标处理和第五目标处理,再进行所述全连接转化,生成第六组向量,所述第四目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第五目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;根据所述第五组向量和所述第六组向量,确定所述第二组表征向量。
可选地,所述第二处理单元用于通过如下方式根据所述第五组向量和所述第六组向量,确定所述第二组表征向量:将所述第五组向量和所述第六组向量拼接为第四目标向量组;对所述第四目标向量组进行第六目标处理,得到第五目标向量组,其中,所述第六目标处理用于基于注意力机制对所述第四目标向量组进行处理;将所述第五目标向量组输入预设的多层感知机,得到第六组目标向量,所述目标神经网络模型包括所述多层感知机;将第五目标向量组输入预设的特征交叉模型,得到第二交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;将所述第六组目标向量和所述第二交叉特征信息拼接为所述第二组表征向量。
可选地,所述第一确定模块,包括:第三处理单元,用于获取所述第二组表征向量中的每个表征向量与所述第一组表征向量中的每个表征向量之间的余弦距离,得到与每个所述候选帐号对应的一组余弦距离,其中,所述第二组表征向量中的第二表征向量与所述第一组表征向量中的第一表征向量之间的余弦距离,用于表示第二候选帐号与第一种子帐号之间的距离,所述第二候选帐号为所述一组候选帐号中与所述第二表征向量对应的候选帐号,所述第一种子帐号为所述第一组种子帐号中与所述第一表征向量对应的种子帐号。
可选地,所述第二确定模块,包括:第三获取单元,用于获取与每个所述候选帐号对应的一组余弦距离的平均值;第一确定单元,用于将所述一组候选帐号中所述平均值大于预定阈值的候选帐号确定为所述第二组种子帐号;或者,第二确定单元,用于将所述一组候选帐号中按照所述平均值排序之后的前N个候选帐号确定为所述第二组种子帐号,其中,N为自然数。
可选地,在将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号之后,所述装置还用于:向所述目标帐号集合中的帐号发送目标媒体资源。
可选地,所述装置还用于:
在所述获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量之前,获取与目标网络中一组节点相关联的第一数据,其中,所述第一数据用于指示所述一组节点中各节点激活所述一组节点中的其他节点的频次和路径;
基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,其中,所述目标集合为所述第一组种子帐号在目标网络中对应的节点所组成的集合,所述第一数据中各节点激活所述其他节点的能力基于所述频次和路径确定。
可选地,所述装置还用于通过如下方式基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合:
基于所述第一数据生成第一有向图,其中,所述第一有向图记录有所述目标网络中一组节点中的各节点,以及所述各节点在激活所述一组节点中的其他节点时的第一组激活路径以及与所述第一组激活路径中每条激活路径所对应的激活概率;
对所述第一有向图进行n次采样,生成n个第二有向图,其中,所述第二有向图记录有所述一组节点中的第一组节点以及所述第一组节点在激活所述第一组节点中的其他节点时的一组激活路径;
基于所述n个第二有向图,计算与第一节点对应的n个第一集合,其中,所述第一集合包括所述第一组节点中所有能够通过所述激活路径到达所述第一节点的节点和所述第一节点,所述第一组节点包括所述第一节点;
将所述n个第一集合合并为第二集合;
重复执行以下操作,直到所述第二集合为空集;
在所述第二集合中得到出现频次最高的第二节点,所述第一组节点包括所述第二节点;
从所述第二集合中获取包含所述第二节点的所有所述第一集合,生成第三集合,所述第三集合由所述n个第一集合中的部分集合组成;
在所述第三集合中得到出现频次最高的第二组节点,其中,所述第二组节点为按照出现频次排序后得到的排序最高的一组节点,所述第二组节点的节点数量由***预设;
将所述第二组节点添加到目标集合中,并从所述第二集合中删除所述第三集合。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述目标帐号集合的确定方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的目标帐号集合的确定方法。
在本发明实施例中,采用根据帐号的画像特征数据和行为特征数据确定第一组种子帐号的第一组表征向量以及一组候选帐号的第二组表征向量,再根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离,进而在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号的方式,通过在目标帐号集合中添加由候选集合中确定出的第二组种子帐号,达到了扩展种子帐号集合的目的,从而实现了快速、有效的确定传播影响力较大的帐号集合,具有较高的扩展性的技术效果,进而解决了相关技术中存在的难以真正快速、有效的确定传播影响力较大的帐号集合的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的目标帐号集合的确定方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的目标帐号集合的确定方法的流程示意图;
图3是根据本发明实施例的一种可选的目标帐号集合的确定方法的示意图;
图4是根据本发明实施例的另一种可选的目标帐号集合的确定方法的流程示意图;
图5是根据本发明实施例的又一种可选的目标帐号集合的确定方法的流程示意图;
图6是根据本发明实施例的另一种可选的目标帐号集合的确定方法的示意图;
图7是根据本发明实施例的又一种可选的目标帐号集合的确定方法的流程示意图;
图8是根据本发明实施例的一种可选的目标帐号集合的确定装置的结构示意图;
图9是根据本发明实施例的另一种可选的目标帐号集合的确定装置的结构示意图;
图10是根据本发明实施例的另一种可选的目标帐号集合的确定装置的结构示意图;
图11是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
Im:Influence maximization(影响力最大化)。
Knn:K-nearest neighbors(k最近邻算法)。
V:附图中的节点集合。
E:附图中的边集合。
RR集:reverse reachable(逆可达集)。
下面结合实施例对本发明进行说明:
根据本发明实施例的一个方面,提供了一种目标帐号集合的确定方法,可选地,在本实施例中,上述目标帐号集合的确定方法可以应用于如图1 所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为用户终端或用户终端上安装的客户端提供服务,目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,用户终端103可以是配置有目标客户端的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(MobileInternet Devices,移动互联网设备)、PAD、台式电脑、智能电视等,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器,应用程序107通过用户终端103进行显示,可通过终端上配置的用于确定目标帐号集合的应用程序107的入口,使用上述目标帐号集合的确定服务,或者,上述应用程序107为通过上述目标帐号集合中的帐号进行登录使用的应用程序,上述仅是一种示例,本实施例中对此不作任何限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习式教学习等技术。
可选地,作为一种可选的实施方式,如图2所示,上述目标帐号集合的确定方法包括:
S202,获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,第一组表征向量中的表征向量与第一组种子帐号中的种子帐号一一对应,第二组表征向量中的表征向量与一组候选帐号中的候选帐号一一对应,第一组表征向量中的表征向量是根据第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
S204,根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离;
S206,根据一组候选帐号与第一组种子帐号之间的距离,在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号。
可选地,在本实施例中,上述第一组种子帐号可以包括但不限于预先配置的种子帐号集合中的帐号,上述第一组种子帐号的传播影响力在所有帐号中是传播影响力较大的帐号,换言之,上述第一组种子帐号激活其他帐号的概率较大。
可选地,在本实施例中,上述表征向量的维度可以根据实际需要进行调整,例如,可以将上述特征向量设置为128维的表征向量,进而,在保证运算量较低的情况下,还能够有效地表征上述第一组种子帐号的特征数据,或者,上述一组候选帐号的特征数据。
可选地,在本实施例中,上述画像特征数据可以包括但不限于使用帐号的用户的性别、年龄、所属地区等画像特征,上述行为特征数据可以包括但不限于帐号进行视频播放的次数、分享视频文章、小程序、链接的次数等行为特征。
可选地,在本实施例中,上述目标帐号集合的确定方法可以但不限于应用在如下应用场景中:
例如,在即时通信应用中对部分业务或者媒体信息进行推广的过程中,需要在目标网络中使用即时通信应用的用户群体中选定n个用户,通过包括但不限于“看一看”的红点推送,“看一看”***视频,再对***的视频进行触控操作,进而,实现播放视频或者打开与视频预先配置的对应的应用程序的方式,来实现业务或者媒体信息的推广或者应用程序的用户导流,图3是根据本发明实施例的一种可选的目标帐号集合的确定方法的示意图,如图3所示,该流程包括如下步骤:
S302,为选定的n个用户(对应于前述的种子帐号集合)的应用程序在预设的显示界面302的预设交互对象304处进行“红点306”推送;
S304,在应用程序中获取到与预设交互对象关联的交互操作后,打开与预设交互对象的发布页面308,其中,上述发布页面308用于展示对应的需要推广或分享的业务或媒体信息310或其他应用程序;
S306,通过对发布页面上的交互对象312进行交互操作,打开或播放对应的需要推广或分享的业务或媒体信息或其他应用程序,在上述业务或媒体信息312属于其他应用程序时,即完成了针对其他应用程序314的用户导流,为其他应用程序带来最初期的一批种子用户(对应于前述的种子帐号集合),然后,通过种子用户在即时通信应用中的传播分享,实现推广或分享的业务或媒体信息,进而,能够有效地实现其他应用程序的导流,扩大用户或者帐号规模,加速用户的传播速度。
需要说明的是,在当前业务场景中,上述在目标网络中使用即时通信应用的用户群体中选定n个用户可以通过包括但不限于上述目标帐号集合的确定方法来实现,上述为其他应用程序带来最初期的一批种子用户也可以通过包括但不限于上述目标帐号集合的确定方法来实现,上述即时通信应用仅是一种示例,也可以包括但不限于其他能够进行推广或分享对应的业务或媒体信息或为其他应用程序导流的应用程序。
可选地,在本实施例中,上述目标帐号集合的确定方法可以但不限于应用于上述即时通信应用的业务场景中,还可以包括但不限于媒体信息分享应用、浏览器应用、教育应用、医疗应用、游戏应用、交通应用等需要扩充种子帐号的数量级的应用中。
可选地,在本实施例中,上述第一组表征向量用于表示第一组种子帐号中每个帐号的特征信息,可以但不限于第一组种子帐号中每个帐号激活其他帐号的能力信息或者概率,上述第二组表征向量用于表示一组候选帐号中每个帐号的特征信息,可以但不限于一组候选帐号中每个帐号激活其他帐号的能力信息或者概率。
上述仅是一种示例,本实施例不做任何具体的限定。
可选地,在本实施例中,上述确定一组候选帐号与第一组种子帐号之间的距离可以包括但不限于上述第一组表征向量与第二组表征向量的余弦距离,或者通过余弦相似度表示上述一组候选帐号与第一组种子帐号之间的距离。
通过本实施例,采用根据帐号的画像特征数据和行为特征数据确定第一组种子帐号的第一组表征向量以及一组候选帐号的第二组表征向量,再根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离,进而在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号的方式,通过在目标帐号集合中添加由候选集合中确定出的第二组种子帐号,达到了扩展种子帐号集合的目的,从而实现了快速、有效的确定传播影响力较大的帐号集合,具有较高的扩展性的技术效果,进而解决了相关技术中存在的难以真正快速、有效的确定传播影响力较大的帐号集合的技术问题。
在一个可选的实施例中,获取第一组种子帐号的第一组表征向量,包括:获取与第一组种子帐号对应的第一组特征数据,其中,第一组特征数据包括第一组种子帐号的第一组画像特征数据和第一组行为特征数据;将第一组特征数据输入目标神经网络模型,得到第一组表征向量。
可选地,在本实施例中,上述第一组特征数据可以包括但不限于用户的性别、年龄、所属地区等画像特征以及用户的视频播放、分享次数等行为特征。上述目标神经网络模型是对待训练的神经网络模型进行训练后得到的神经网络模型,训练样本可以包括但不限于预先标注完成的样本帐号或者未标注的样本帐号,对于预先标注完成的帐号可以基于有监督的方式来进行训练,对于未标注的样本帐号可以但不限于基于无监督的方式进行训练。
例如,上述神经网络模型的类别可以包括但不限于Independent Cascade (IC)、Linear Threshold(LT)、Triggering(TR)等模型,或者peoplerank等方法所建立的模型,还可以包括但不限于DNN深度神经网络模型、RNN 循环神经网络、DRN残差神经网络等模型。
上述仅是一种示例,本实施例不做任何具体的限定。
在一个可选的实施例中,将第一组样本特征数据输入目标神经网络模型,得到第一组表征向量,包括:将第一组画像特征数据和第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,第一组向量中包括第一类向量、第二类向量和第三类向量,第一类向量用于表示第一组种子帐号的第一类特征数据,第一类特征数据为使用一个标识表示的特征数据,第二类向量用于表示第一组种子帐号的第二类特征数据,第二类特征数据为使用多个标识结合表示的特征数据,第三类向量用于表示第一组种子帐号的第三类特征数据,第三类特征数据为预先配置的特征数据;对第一类向量和第三类向量进行全连接转化,生成第二组向量;对第二类向量基于多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行全连接转化,生成第三组向量,其中,第一目标处理用于为多个标识所对应的特征数据添加权重系数,第二目标处理用于为多个标识所对应的特征数据进行求和,并计算平均值;根据第二组向量和第三组向量,确定第一组表征向量。
可选地,图4是根据本发明实施例的另一种可选的目标帐号集合的确定方法的流程示意图,如图4所示,该流程步骤如下:
S402,将第一组画像特征数据和第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,第一组向量中包括第一类向量、第二类向量和第三类向量,第一类向量用于表示第一组种子帐号的第一类特征数据,第一类特征数据为使用一个标识表示的特征数据,第二类向量用于表示第一组种子帐号的第二类特征数据,第二类特征数据为使用多个标识结合表示的特征数据,第三类向量用于表示第一组种子帐号的第三类特征数据,第三类特征数据为预先配置的特征数据;
S404,对第一类向量和第三类向量进行全连接转化,生成第二组向量;
S406,对第二类向量基于多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行全连接转化,生成第三组向量,其中,第一目标处理用于为多个标识所对应的特征数据添加权重系数,第二目标处理用于为多个标识所对应的特征数据进行求和,并计算平均值;
S408,根据第二组向量和第三组向量,确定第一组表征向量。
可选地,在本实施例中,上述随机初始化可以包括但不限于对上述每个特征数据所对应的权重系数进行随机初始化,以生成上述第一组向量。
可选地,在本实施例中,上述第一类特征数据可以包括但不限于id 类特征数据,例如,年龄、性别、所属地区等,以年龄为例,在进行标识上述特征数据时,可以直接采用数值的方式进行标识上述第一类特征数据,例如,第一组种子帐号中的一个帐号对应的年龄特征数据为22,则直接使用数值22在对应于年龄特征的位置标识特征数据。
可选地,在本实施例中,上述第二类特征数据可以包括但不限于id_list类特征数据,例如,用户喜好的领域、用户分享点击的次数、用户激活其他用户的次数等,以用户喜好的领域为例,在进行标识上述特征数据时,可以采用多个数值共同进行标识上述第二类特征数据,例如,用户喜好的领域标识为A,在A领域中最喜欢的人物的数字id是20,则可以但不限于表示为A_20。
可选地,在本实施例中,上述第三类特征数据可以包括但不限于通过其他模型学习到的特征数据。
可选地,在本实施例中,上述第一目标处理可以包括但不限于基于注意力机制的attention预处理,上述第二目标处理可以包括但不限于进行加和,并求平均值,以确定上述第三组向量。
上述仅是一种示例,本实施例不做任何具体的限定。
通过本实施例,能够将用于表征帐号传播影响力的特征数据进行多维度、更细化的收集,使得生成的向量组更加能够表征帐号的传播影响力,达到提高输出结果鲁棒性、收敛性的技术效果。
在一个可选的实施例中,根据第二组向量和第三组向量,确定第一组表征向量,包括:将第二组向量和第三组向量拼接为第一目标向量组;对第一目标向量组进行第三目标处理,得到第二目标向量组,其中,第三目标处理用于基于注意力机制对第一目标向量组进行处理;将第二目标向量组输入预设的多层感知机,得到第三组目标向量,目标神经网络模型包括多层感知机;将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,目标神经网络模型包括特征交叉模型,特征交叉模型用于获取交叉特征信息;将第三组目标向量和第一交叉特征信息拼接为第一组表征向量。
可选地,在本实施例中,如图5所示,该流程步骤如下:
S502,将第二组向量和第三组向量拼接为第一目标向量组;对第一目标向量组进行第三目标处理,得到第二目标向量组,其中,第三目标处理用于基于注意力机制对第一目标向量组进行处理;
S504,将第二目标向量组输入预设的多层感知机,得到第三组目标向量,目标神经网络模型包括多层感知机;
S506,将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,目标神经网络模型包括特征交叉模型,特征交叉模型用于获取交叉特征信息;
S508,将第三组目标向量和第一交叉特征信息拼接为第一组表征向量。
可选地,在本实施例中,上述拼接可以包括但不限于直接或间接将上述第二组向量和上述第三组向量进行拼接。
可选地,在本实施例中,上述第三目标处理可以包括但不限于基于注意力机制的self-attention的方式进行处理。
例如,基于第一目标向量组通过如下公式确定注意力机制的系数ai
u = tanh (W1H)
Figure GDA0003118104480000212
其中,H∈Rn*m,表示n行m列的矩阵,n表示n种上述第二类特征数据,m表示每个向量的维度,W1∈Rk*n,表示一个k行n列的矩阵,为上述目标神经网络模型中的系数矩阵,tanh用于表示激活函数,可以包括但不限于
Figure GDA0003118104480000213
u表示注意力单元,可以表示为k行m列的矩阵,W2表示长度为k的行向量,为上述目标神经网络模型中的学习到的向量,i和j分别对应上述注意力单元的第i列和第j列。
可选地,在本实施例中,多层感知机可以包括但不限于MLP模型,上述特征交叉模型可以包括但不限于DCN模型。
上述仅是一种示例,本实施例不做任何具体的限定。
通过本实施例,可以根据上述操作对目标神经网络模型进行有效的迭代优化,进而达到使得目标神经网络模型输出结果更有效地表示帐号的传播影响力的技术效果。
在一个可选的实施例中,获取一组候选帐号的第二组表征向量,包括:获取与一组候选帐号对应的第二组特征数据,其中,第二组特征数据包括一组候选帐号的第二组画像特征数据和第二组行为特征数据;将第二组特征数据输入目标神经网络模型,得到第二组表征向量。
可选地,在本实施例中,上述第二组特征数据可以包括但不限于用户的性别、年龄、所属地区等画像特征以及用户的视频播放、分享次数等行为特征。上述目标神经网络模型是对待训练的神经网络模型进行训练后得到的神经网络模型,训练样本可以包括但不限于预先标注完成的样本帐号或者未标注的样本帐号,对于预先标注完成的帐号可以基于有监督的方式来进行训练,对于未标注的样本帐号可以但不限于基于无监督的方式进行训练。
在一个可选的实施例中,将第二组样本特征数据输入目标神经网络模型,得到第二组表征向量,包括:将第二组画像特征数据和第二组行为特征数据中的每个特征数据随机初始化,生成第四组向量,其中,第四组向量中包括第四类向量、第五类向量和第六类向量,第四类向量用于表示一组候选帐号的第四类特征数据,第四类特征数据为使用一个标识表示的特征数据,第五类向量用于表示一组候选帐号的第五类特征数据,第五类特征数据为使用多个标识结合表示的特征数据,第六类向量用于表示一组候选帐号的第六类特征数据,第六类特征数据为预先配置的特征数据;对第四类向量和第六类向量进行全连接转化,生成第五组向量;对第五类向量基于多个标识所对应的特征数据分别进行第四目标处理和第五目标处理,再进行全连接转化,生成第六组向量,第四目标处理用于为多个标识所对应的特征数据添加权重系数,第五目标处理用于为多个标识所对应的特征数据进行求和,并计算平均值;根据第五组向量和第六组向量,确定第二组表征向量。
可选地,在本实施例中,上述随机初始化可以包括但不限于对上述每个特征数据所对应的权重系数进行随机初始化,以生成上述第四组向量。
可选地,在本实施例中,上述第四类特征数据可以包括但不限于id 类特征数据,例如,年龄、性别、所属地区等,以年龄为例,在进行标识上述特征数据时,可以直接采用数值的方式进行标识上述第四类特征数据,例如,一组候选帐号中的一个帐号对应的年龄特征数据为22,则直接使用数值22在对应于年龄特征的位置标识特征数据。
可选地,在本实施例中,上述第五类特征数据可以包括但不限于id_list类特征数据,例如,用户喜好的领域、用户分享点击的次数、用户激活其他用户的次数等,以用户喜好的领域为例,在进行标识上述特征数据时,可以采用多个数值共同进行标识上述第五类特征数据,例如,用户喜好的领域标识为A,在A领域中最喜欢的人物的数字id是20,则可以但不限于表示为A_20。
可选地,在本实施例中,上述第六类特征数据可以包括但不限于通过其他模型学习到的特征数据。
可选地,在本实施例中,上述第四目标处理可以包括但不限于基于注意力机制的attention预处理,上述第五目标处理可以包括但不限于进行加和,并求平均值,以确定上述第六组向量。
上述仅是一种示例,本实施例不做任何具体的限定。
通过本实施例,能够将用于表征帐号传播影响力的特征数据进行多维度、更细化的收集,使得生成的向量组更加能够表征帐号的传播影响力,达到提高输出结果鲁棒性、收敛性的技术效果。
在一个可选的实施例中,根据第五组向量和第六组向量,确定第二组表征向量,包括:将第五组向量和第六组向量拼接为第四目标向量组;对第四目标向量组进行第六目标处理,得到第五目标向量组,其中,第六目标处理用于基于注意力机制对第四目标向量组进行处理;将第五目标向量组输入预设的多层感知机,得到第六组目标向量,目标神经网络模型包括多层感知机;将第五目标向量组输入预设的特征交叉模型,得到第二交叉特征信息,其中,目标神经网络模型包括特征交叉模型,特征交叉模型用于获取交叉特征信息;将第六组目标向量和第二交叉特征信息拼接为第二组表征向量。
可选地,在本实施例中,上述拼接可以包括但不限于直接或间接将上述第二组向量和上述第三组向量进行拼接。
可选地,在本实施例中,上述第三目标处理可以包括但不限于基于注意力机制的self-attention的方式进行处理。
例如,基于第一目标向量组通过如下公式确定注意力机制的系数ai
u = tanh (W1H)
Figure GDA0003118104480000242
其中,H∈Rn*m,表示n行m列的矩阵,n表示n种上述第二类特征数据,m表示每个向量的维度,W1∈Rk*n,表示一个k行n列的矩阵,为上述目标神经网络模型中的系数矩阵,tanh用于表示激活函数,可以包括但不限于
Figure GDA0003118104480000243
u表示注意力单元,可以表示为k行m列的矩阵,W2表示长度为k的行向量,为上述目标神经网络模型中的学习到的向量,i和j分别对应上述注意力单元的第i列和第j列。
可选地,在本实施例中,多层感知机可以包括但不限于MLP模型,上述特征交叉模型可以包括但不限于DCN模型。
上述仅是一种示例,本实施例不做任何具体的限定。
通过本实施例,可以根据上述操作对目标神经网络模型进行有效的迭代优化,进而达到使得目标神经网络模型输出结果更有效地表示帐号的传播影响力的技术效果。
在一个可选的实施例中,根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离,包括:获取第二组表征向量中的每个表征向量与第一组表征向量中的每个表征向量之间的余弦距离,得到与每个候选帐号对应的一组余弦距离,其中,第二组表征向量中的第二表征向量与第一组表征向量中的第一表征向量之间的余弦距离,用于表示第二候选帐号与第一种子帐号之间的距离,第二候选帐号为一组候选帐号中与第二表征向量对应的候选帐号,第一种子帐号为第一组种子帐号中与第一表征向量对应的种子帐号。
可选地,在本实施例中,获取第二组表征向量中的每个表征向量与第一组表征向量中的每个表征向量之间的余弦距离,得到与每个候选帐号对应的一组余弦距离可以包括但不限于固定上述第二组表征向量,并分别与上述第一组表征向量中的每个表征向量计算之间的余弦距离,换言之,为一组候选帐号中的每个候选帐号均确定出一组余弦距离,上述余弦距离的确定方式可以使用包括但不限于Knn算法来实现。
在一个可选的实施例中,根据一组候选帐号与第一组种子帐号之间的距离,在一组候选帐号中确定第二组种子帐号,包括:获取与每个候选帐号对应的一组余弦距离的平均值;将一组候选帐号中平均值大于预定阈值的候选帐号确定为第二组种子帐号;或者,将一组候选帐号中按照平均值排序之后的前N个候选帐号确定为第二组种子帐号,其中,N为自然数。
可选地,在本实施例中,上述平均值用于表示上述候选帐号的传播影响力与种子帐号的传播影响力的差距,基于不同的实际需求可以采用不同的方式确定上述第二组种子帐号。
例如,可以根据种子帐号集合需要扩展的规模来确定上述预定阈值或者N,在上述规模较大时,将上述预定阈值或N配置的越大,以实现根据不同的实际需求扩展种子帐号集合。
在一个可选的实施例中,在将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号之后,方法还包括:向目标帐号集合中的帐号发送目标媒体资源。
可选地,上述目标媒体资源可以包括但不限于H5页面/链接,静态/ 动态广告、视频、文章、公众号、小程序等,上述仅是一种示例,本实施例对于具体通过帐号发送的媒体资源的类型不做任何具体的限定。
在一个可选的实施例中,在所述获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量之前,所述方法还包括:获取与目标网络中一组节点相关联的第一数据,其中,所述第一数据用于指示所述一组节点中各节点激活所述一组节点中的其他节点的频次和路径;基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,其中,所述目标集合为所述第一组种子帐号在目标网络中对应的节点所组成的集合,所述第一数据中各节点激活所述其他节点的能力基于所述频次和路径确定。
可选地,在本实施例中,上述目标网络可以包括但不限于上述种子帐号所在的客户端组成的网络,上述一组节点可以包括但不限于上述目标网络的多个帐号或者多个帐号对应的客户端,上述第一数据可以包括但不限于能够确定上述一组节点中各节点激活所述一组节点中的其他节点的频次和路径的数据,例如,节点的多度分享点击数据,通过获取分享点击频次,进而得到上述各节点激活其他节点的能力信息。
通过本实施例,能够有效的扩大第一组种子帐号中的帐号数量,进而,达到在通过上述第一组种子帐号进行传播的过程中,传播效率更高,传播速度更快的技术效果。
在一个可选的实施例中,基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,包括:
基于所述第一数据生成第一有向图,其中,所述第一有向图记录有所述目标网络中一组节点中的各节点,以及所述各节点在激活所述一组节点中的其他节点时的第一组激活路径以及与所述第一组激活路径中每条激活路径所对应的激活概率;
对所述第一有向图进行n次采样,生成n个第二有向图,其中,所述第二有向图记录有所述一组节点中的第一组节点以及所述第一组节点在激活所述第一组节点中的其他节点时的一组激活路径;
基于所述n个第二有向图,计算与第一节点对应的n个第一集合,其中,所述第一集合包括所述第一组节点中所有能够通过所述激活路径到达所述第一节点的节点和所述第一节点,所述第一组节点包括所述第一节点;
将所述n个第一集合合并为第二集合;
重复执行以下操作,直到所述第二集合为空集;
在所述第二集合中得到出现频次最高的第二节点,所述第一组节点包括所述第二节点;
从所述第二集合中获取包含所述第二节点的所有所述第一集合,生成第三集合,所述第三集合由所述n个第一集合中的部分集合组成;
在所述第三集合中得到出现频次最高的第二组节点,其中,所述第二组节点为按照出现频次排序后得到的排序最高的一组节点,所述第二组节点的节点数量由***预设;
将所述第二组节点添加到目标集合中,并从所述第二集合中删除所述第三集合。
可选地,在本实施例中,图6是根据本发明实施例的另一种可选的目标帐号集合的确定方法的示意图,如图6所示,该流程包括如下步骤:
S1,如图6所示,获取用户的多度分享点击数据,上述多度分享点击数据可以从原始用户分享点击开始统计预设时间段内的多度分享点击数据,根据多度分享点击数据获取分享点击的频次和路径,生成第一有向图 602,其中,上述第一有向图中包括节点604、激活概率606;
S2,对第一有向图进行采样,根据一定的随机分布选择是否保留每一条边,最终得到n个第二有向图608,其中,可以包括但不限于按照激活概率606进行采样,每次为一个有向边生成一个模拟随机数(相当于一个模拟随机激活概率),并与激活概率相比较,在上述模拟随机数大于上述模拟随机概率的情况下,保留该路径,在上述模拟随机数不大于上述模拟随机概率的情况下,从第一有向图602中删除该路径以及该激活概率;
S3,针对每个第二有向图随机选择其中的节点,计算与该节点对应的 RR集(对应于前述第一集合),以第二有向图610为例,对于节点D为例,其RR集即为包含A、B、C、D、E五个节点的集合。
S4,重复上述S2、S3步骤θ次后,(上述θ次可以通过预设算法进行估计,可以根据网络中的节点数量以及第一集合的数量进行估计,以得到近似最优的解)将所有RR集合并为第二集合R;
S5,针对第二集合R,统计出现频次最高的节点v0,取出包含v0的所有的RR集,针对这些RR集(对应于前述第三集合),再取出里面出现频次topK的节点(对应于前述第二组节点,K可根据业务情况预先配置),置于种子集合S(对应于前述的目标集合)中,然后从集合R里删除这些 RR集,继续按照同样的方法在剩下的RR集里找到出现频次最高的节点,重复上述过程,直到集合R为空,或者达到停止条件,此时得到了种子集合S。
通过本实施例,能够有效的扩大第一组种子帐号中的帐号数量,进而,达到在通过上述第一组种子帐号进行传播的过程中,传播效率更高,传播速度更快的技术效果。
下面结合具体的实施例,对本发明进行进一步说明:
图7是根据本发明实施例的另一种可选的目标帐号集合的确定方法的示意图,利用如图7所示的DNN模型,以传播影响力大小为学习目标(可以包括但不限于提前预定义好高低影响力,划分正负样本),来得到每个用户(对应于前述的帐号)的表征向量。
该流程包括如下步骤:
S702,输入原始的性别、年龄、地区等画像特征以及用户的视频播放、分享次数等行为特征,并将每个特征随机初始化为一个128维的向量;
S704,对于id类特征(对应于上述第二类特征数据),直接全连接转化为一个新的向量(对应于上述第一类向量),对于id_list类特征,有一部分内部做一次attention得到一个新的向量(对应于上述第二类向量),另一部分使用average pooling(加权平均)得到一个新的向量,之后再过全连接层转化为一个新的向量,而对vector类特征,则是直接全连接转为一个新的向量(对应于上述第三类向量);
S706,将上一层全连接得到的所有的128维向量拼成一个向量组,如图7中矩阵部分702所示,经过一层self-attention之后,得到一个128维的向量704;
S708,针对上述128维向量,分别执行两种操作,其中,第一种操作为直接经过一层MLP(对应于前述的多层感知机)得到一个128维向量,第二种为经过一个DCN模块(对应于前述的特征交叉模块),得到交叉特征信息,再将两部分的结果进行拼接,经过两层MLP最终输出结果,得到最后的输出,然后和目标节点进行交叉熵计算得到损失函数,即可对整体模型架构进行迭代优化,使用倒数第二层的MLP输出结果128维的向量706,作为每个用户的表征向量。
S710,利用knn来对非种子集合中的用户(对应于上述一组候选帐号) 计算同种子集合中的用户(对应于上述第一组种子帐号)cos距离最小的 3000个用户,取平均距离来表示此用户跟种子集合的距离,按从小到大排列,根据需要扩展到种子帐号的数量级。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述目标帐号集合的确定方法的目标帐号集合的确定装置。如图8所示,该装置包括:
获取模块802,用于获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,第一组表征向量中的表征向量与第一组种子帐号中的种子帐号一一对应,第二组表征向量中的表征向量与一组候选帐号中的候选帐号一一对应,第一组表征向量中的表征向量是根据第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
第一确定模块804,用于根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离;
第二确定模块806,用于根据一组候选帐号与第一组种子帐号之间的距离,在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号。
在一个可选的实施例中,获取模块802,如图9所示,包括:第一获取单元902,用于获取与第一组种子帐号对应的第一组特征数据,其中,第一组特征数据包括第一组种子帐号的第一组画像特征数据和第一组行为特征数据;
第一处理单元904,用于将第一组特征数据输入目标神经网络模型,得到第一组表征向量。
在一个可选的实施例中,第一处理单元904用于通过如下方式将第一组样本特征数据输入目标神经网络模型,得到第一组表征向量:将第一组画像特征数据和第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,第一组向量中包括第一类向量、第二类向量和第三类向量,第一类向量用于表示第一组种子帐号的第一类特征数据,第一类特征数据为使用一个标识表示的特征数据,第二类向量用于表示第一组种子帐号的第二类特征数据,第二类特征数据为使用多个标识结合表示的特征数据,第三类向量用于表示第一组种子帐号的第三类特征数据,第三类特征数据为预先配置的特征数据;对第一类向量和第三类向量进行全连接转化,生成第二组向量;对第二类向量基于多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行全连接转化,生成第三组向量,其中,第一目标处理用于为多个标识所对应的特征数据添加权重系数,第二目标处理用于为多个标识所对应的特征数据进行求和,并计算平均值;根据第二组向量和第三组向量,确定第一组表征向量。
在一个可选的实施例中,第一处理单元904用于通过如下方式根据第二组向量和第三组向量,确定第一组表征向量:将第二组向量和第三组向量拼接为第一目标向量组;对第一目标向量组进行第三目标处理,得到第二目标向量组,其中,第三目标处理用于基于注意力机制对第一目标向量组进行处理;将第二目标向量组输入预设的多层感知机,得到第三组目标向量,目标神经网络模型包括多层感知机;将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,目标神经网络模型包括特征交叉模型,特征交叉模型用于获取交叉特征信息;将第三组目标向量和第一交叉特征信息拼接为第一组表征向量。
在一个可选的实施例中,获取模块802,如图10所示,包括:第二获取单元1002,用于获取与一组候选帐号对应的第二组特征数据,其中,第二组特征数据包括一组候选帐号的第二组画像特征数据和第二组行为特征数据;第二处理单元1004,用于将第二组特征数据输入目标神经网络模型,得到第二组表征向量。
在一个可选的实施例中,第二处理单元1004用于通过如下方式将第二组样本特征数据输入目标神经网络模型,得到第二组表征向量:将第二组画像特征数据和第二组行为特征数据中的每个特征数据随机初始化,生成第四组向量,其中,第四组向量中包括第四类向量、第五类向量和第六类向量,第四类向量用于表示一组候选帐号的第四类特征数据,第四类特征数据为使用一个标识表示的特征数据,第五类向量用于表示一组候选帐号的第五类特征数据,第五类特征数据为使用多个标识结合表示的特征数据,第六类向量用于表示一组候选帐号的第六类特征数据,第六类特征数据为预先配置的特征数据;对第四类向量和第六类向量进行全连接转化,生成第五组向量;对第五类向量基于多个标识所对应的特征数据分别进行第四目标处理和第五目标处理,再进行全连接转化,生成第六组向量,第四目标处理用于为多个标识所对应的特征数据添加权重系数,第五目标处理用于为多个标识所对应的特征数据进行求和,并计算平均值;根据第五组向量和第六组向量,确定第二组表征向量。
在一个可选的实施例中,第二处理单元1004用于通过如下方式根据第五组向量和第六组向量,确定第二组表征向量:将第五组向量和第六组向量拼接为第四目标向量组;对第四目标向量组进行第六目标处理,得到第五目标向量组,其中,第六目标处理用于基于注意力机制对第四目标向量组进行处理;将第五目标向量组输入预设的多层感知机,得到第六组目标向量,目标神经网络模型包括多层感知机;将第五目标向量组输入预设的特征交叉模型,得到第二交叉特征信息,其中,目标神经网络模型包括特征交叉模型,特征交叉模型用于获取交叉特征信息;将第六组目标向量和第二交叉特征信息拼接为第二组表征向量。
在一个可选的实施例中,第一确定模块804,包括:第三处理单元,用于获取第二组表征向量中的每个表征向量与第一组表征向量中的每个表征向量之间的余弦距离,得到与每个候选帐号对应的一组余弦距离,其中,第二组表征向量中的第二表征向量与第一组表征向量中的第一表征向量之间的余弦距离,用于表示第二候选帐号与第一种子帐号之间的距离,第二候选帐号为一组候选帐号中与第二表征向量对应的候选帐号,第一种子帐号为第一组种子帐号中与第一表征向量对应的种子帐号。
在一个可选的实施例中,第二确定模块808,包括:第三获取单元,用于获取与每个候选帐号对应的一组余弦距离的平均值;第一确定单元,用于将一组候选帐号中平均值大于预定阈值的候选帐号确定为第二组种子帐号;或者,第二确定单元,用于将一组候选帐号中按照平均值排序之后的前N个候选帐号确定为第二组种子帐号,其中,N为自然数。
在一个可选的实施例中,在将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号之后,装置还用于:向目标帐号集合中的帐号发送目标媒体资源。
在一个可选的实施例中,所述装置还用于:
在所述获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量之前,获取与目标网络中一组节点相关联的第一数据,其中,所述第一数据用于指示所述一组节点中各节点激活所述一组节点中的其他节点的频次和路径;
基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,其中,所述目标集合为所述第一组种子帐号在目标网络中对应的节点所组成的集合,所述第一数据中各节点激活所述其他节点的能力基于所述频次和路径确定。
在一个可选的实施例中,所述装置还用于通过如下方式基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合:
基于所述第一数据生成第一有向图,其中,所述第一有向图记录有所述目标网络中一组节点中的各节点,以及所述各节点在激活所述一组节点中的其他节点时的第一组激活路径以及与所述第一组激活路径中每条激活路径所对应的激活概率;
对所述第一有向图进行n次采样,生成n个第二有向图,其中,所述第二有向图记录有所述一组节点中的第一组节点以及所述第一组节点在激活所述第一组节点中的其他节点时的一组激活路径;
基于所述n个第二有向图,计算与第一节点对应的n个第一集合,其中,所述第一集合包括所述第一组节点中所有能够通过所述激活路径到达所述第一节点的节点和所述第一节点,所述第一组节点包括所述第一节点;
将所述n个第一集合合并为第二集合;
重复执行以下操作,直到所述第二集合为空集;
在所述第二集合中得到出现频次最高的第二节点,所述第一组节点包括所述第二节点;
从所述第二集合中获取包含所述第二节点的所有所述第一集合,生成第三集合,所述第三集合由所述n个第一集合中的部分集合组成;
在所述第三集合中得到出现频次最高的第二组节点,其中,所述第二组节点为按照出现频次排序后得到的排序最高的一组节点,所述第二组节点的节点数量由***预设;
将所述第二组节点添加到目标集合中,并从所述第二集合中删除所述第三集合。
根据本发明实施例的又一个方面,还提供了一种用于实施上述目标帐号集合的确定方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图11所示,该电子设备包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,第一组表征向量中的表征向量与第一组种子帐号中的种子帐号一一对应,第二组表征向量中的表征向量与一组候选帐号中的候选帐号一一对应,第一组表征向量中的表征向量是根据第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
S2,根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离;
S3,根据一组候选帐号与第一组种子帐号之间的距离,在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、 PAD等终端设备。图11其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本发明实施例中的目标帐号集合的确定方法和装置对应的程序指令/模块,处理器1104 通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标帐号集合的确定方法。存储器1102 可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于存储上述第一组种子帐号与一组候选帐号等信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述目标帐号集合的确定装置中的获取模块602、第一确定模块604以及第二确定模块 606。此外,还可以包括但不限于上述目标帐号集合的确定装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在其他实施例中,上述终端设备或者服务器可以是一个分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。
根据本发明实施例的又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述目标帐号集合的确定过程中的各种可选实现方式中提供的方法。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,第一组表征向量中的表征向量与第一组种子帐号中的种子帐号一一对应,第二组表征向量中的表征向量与一组候选帐号中的候选帐号一一对应,第一组表征向量中的表征向量是根据第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
S2,根据第一组表征向量与第二组表征向量,确定一组候选帐号与第一组种子帐号之间的距离;
S3,根据一组候选帐号与第一组种子帐号之间的距离,在一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括第一组种子帐号和第二组种子帐号。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种目标帐号集合的确定方法,其特征在于,包括:
获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,所述第一组表征向量中的表征向量与所述第一组种子帐号中的种子帐号一一对应,所述第二组表征向量中的表征向量与所述一组候选帐号中的候选帐号一一对应,所述第一组表征向量中的表征向量是根据所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离;
根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号;
所述获取第一组种子帐号的第一组表征向量,包括:
获取与所述第一组种子帐号对应的第一组特征数据,其中,所述第一组特征数据包括所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据;
将所述第一组特征数据输入目标神经网络模型,得到所述第一组表征向量;
其中,所述将所述第一组样本特征数据输入目标神经网络模型,得到所述第一组表征向量,包括:将所述第一组画像特征数据和所述第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,所述第一组向量中包括第一类向量、第二类向量和第三类向量,所述第一类向量用于表示所述第一组种子帐号的第一类特征数据,所述第一类特征数据为使用一个标识表示的特征数据,所述第二类向量用于表示所述第一组种子帐号的第二类特征数据,所述第二类特征数据为使用多个标识结合表示的特征数据,所述第三类向量用于表示所述第一组种子帐号的第三类特征数据,所述第三类特征数据为预先配置的特征数据;
对所述第一类向量和所述第三类向量进行全连接转化,生成第二组向量;
对所述第二类向量基于所述多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行所述全连接转化,生成第三组向量,所述第一目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第二目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;
根据所述第二组向量和所述第三组向量,确定所述第一组表征向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二组向量和所述第三组向量,确定所述第一组表征向量,包括:
将所述第二组向量和所述第三组向量拼接为第一目标向量组;
对所述第一目标向量组进行第三目标处理,得到第二目标向量组,其中,所述第三目标处理用于基于注意力机制对所述第一目标向量组进行处理;
将所述第二目标向量组输入预设的多层感知机,得到第三组目标向量,所述目标神经网络模型包括所述多层感知机;
将第二目标向量组输入预设的特征交叉模型,得到第一交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;
将所述第三组目标向量和所述第一交叉特征信息拼接为所述第一组表征向量。
3.根据权利要求1所述的方法,其特征在于,所述获取一组候选帐号的第二组表征向量,包括:
获取与所述一组候选帐号对应的第二组特征数据,其中,所述第二组特征数据包括所述一组候选帐号的第二组画像特征数据和第二组行为特征数据;
将所述第二组特征数据输入目标神经网络模型,得到所述第二组表征向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述第二组样本特征数据输入目标神经网络模型,得到所述第二组表征向量,包括:
将所述第二组画像特征数据和所述第二组行为特征数据中的每个特征数据随机初始化,生成第四组向量,其中,所述第四组向量中包括第四类向量、第五类向量和第六类向量,所述第四类向量用于表示所述一组候选帐号的第四类特征数据,所述第四类特征数据为使用一个标识表示的特征数据,所述第五类向量用于表示所述一组候选帐号的第五类特征数据,所述第五类特征数据为使用多个标识结合表示的特征数据,所述第六类向量用于表示所述一组候选帐号的第六类特征数据,所述第六类特征数据为预先配置的特征数据;
对所述第四类向量和所述第六类向量进行全连接转化,生成第五组向量;
对所述第五类向量基于所述多个标识所对应的特征数据分别进行第四目标处理和第五目标处理,再进行所述全连接转化,生成第六组向量,所述第四目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第五目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;
根据所述第五组向量和所述第六组向量,确定所述第二组表征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第五组向量和所述第六组向量,确定所述第二组表征向量,包括:
将所述第五组向量和所述第六组向量拼接为第四目标向量组;
对所述第四目标向量组进行第六目标处理,得到第五目标向量组,其中,所述第六目标处理用于基于注意力机制对所述第四目标向量组进行处理;
将所述第五目标向量组输入预设的多层感知机,得到第六组目标向量,所述目标神经网络模型包括所述多层感知机;
将第五目标向量组输入预设的特征交叉模型,得到第二交叉特征信息,其中,所述目标神经网络模型包括特征交叉模型,所述特征交叉模型用于获取所述交叉特征信息;
将所述第六组目标向量和所述第二交叉特征信息拼接为所述第二组表征向量。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离,包括:
获取所述第二组表征向量中的每个表征向量与所述第一组表征向量中的每个表征向量之间的余弦距离,得到与每个所述候选帐号对应的一组余弦距离,其中,所述第二组表征向量中的第二表征向量与所述第一组表征向量中的第一表征向量之间的余弦距离,用于表示第二候选帐号与第一种子帐号之间的距离,所述第二候选帐号为所述一组候选帐号中与所述第二表征向量对应的候选帐号,所述第一种子帐号为所述第一组种子帐号中与所述第一表征向量对应的种子帐号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,包括:
获取与每个所述候选帐号对应的一组余弦距离的平均值;
将所述一组候选帐号中所述平均值大于预定阈值的候选帐号确定为所述第二组种子帐号;或者,将所述一组候选帐号中按照所述平均值排序之后的前N个候选帐号确定为所述第二组种子帐号,其中,N为自然数。
8.根据权利要求1至4中任一项所述的方法,其特征在于,在将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号之后,所述方法还包括:
向所述目标帐号集合中的帐号发送目标媒体资源。
9.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量之前,所述方法还包括:
获取与目标网络中一组节点相关联的第一数据,其中,所述第一数据用于指示所述一组节点中各节点激活所述一组节点中的其他节点的频次和路径;
基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,其中,所述目标集合为所述第一组种子帐号在目标网络中对应的节点所组成的集合,所述第一数据中各节点激活所述其他节点的能力基于所述频次和路径确定。
10.根据权利要求9所述的方法,其特征在于,基于所述第一数据中各节点激活所述其他节点的能力,生成目标集合,包括:
基于所述第一数据生成第一有向图,其中,所述第一有向图记录有所述目标网络中一组节点中的各节点,以及所述各节点在激活所述一组节点中的其他节点时的第一组激活路径以及与所述第一组激活路径中每条激活路径所对应的激活概率;
对所述第一有向图进行n次采样,生成n个第二有向图,其中,所述第二有向图记录有所述一组节点中的第一组节点以及所述第一组节点中各节点在激活所述第一组节点中的其他节点时的一组激活路径,所述第一组节点为按照激活概率对所述第一有向图采样得到的节点;
基于所述n个第二有向图,计算与第一节点对应的n个第一集合,其中,所述第一集合包括所述第一组节点中所有能够通过所述激活路径到达所述第一节点的节点和所述第一节点,所述第一组节点包括随机选择的所述第一节点;
将所述n个第一集合合并为第二集合;
重复执行以下操作,直到所述第二集合为空集;
在所述第二集合中得到出现频次最高的第二节点,所述第一组节点包括所述第二节点;
从所述第二集合中获取包含所述第二节点的所有所述第一集合,生成第三集合,所述第三集合由所述n个第一集合中的部分集合组成;
在所述第三集合中得到出现频次最高的第二组节点,其中,所述第二组节点为按照出现频次排序后得到的排序最高的一组节点,所述第二组节点的节点数量由***预设;
将所述第二组节点添加到目标集合中,并从所述第二集合中删除所述第三集合。
11.一种目标帐号集合的确定装置,其特征在于,包括:
获取模块,用于获取第一组种子帐号的第一组表征向量,以及一组候选帐号的第二组表征向量,其中,所述第一组表征向量中的表征向量与所述第一组种子帐号中的种子帐号一一对应,所述第二组表征向量中的表征向量与所述一组候选帐号中的候选帐号一一对应,所述第一组表征向量中的表征向量是根据所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据确定得到的向量,所述第二组表征向量中的表征向量是根据所述一组候选帐号的第二组画像特征数据和第二组行为特征数据确定得到的向量;
第一确定模块,用于根据所述第一组表征向量与所述第二组表征向量,确定所述一组候选帐号与所述第一组种子帐号之间的距离;
第二确定模块,用于根据所述一组候选帐号与所述第一组种子帐号之间的距离,在所述一组候选帐号中确定第二组种子帐号,并将目标帐号集合确定为包括所述第一组种子帐号和所述第二组种子帐号;
所述获取第一组种子帐号的第一组表征向量,包括:
获取与所述第一组种子帐号对应的第一组特征数据,其中,所述第一组特征数据包括所述第一组种子帐号的第一组画像特征数据和第一组行为特征数据;
将所述第一组特征数据输入目标神经网络模型,得到所述第一组表征向量;
其中,所述将所述第一组样本特征数据输入目标神经网络模型,得到所述第一组表征向量,包括:将所述第一组画像特征数据和所述第一组行为特征数据中的每个特征数据随机初始化,生成第一组向量,其中,所述第一组向量中包括第一类向量、第二类向量和第三类向量,所述第一类向量用于表示所述第一组种子帐号的第一类特征数据,所述第一类特征数据为使用一个标识表示的特征数据,所述第二类向量用于表示所述第一组种子帐号的第二类特征数据,所述第二类特征数据为使用多个标识结合表示的特征数据,所述第三类向量用于表示所述第一组种子帐号的第三类特征数据,所述第三类特征数据为预先配置的特征数据;
对所述第一类向量和所述第三类向量进行全连接转化,生成第二组向量;
对所述第二类向量基于所述多个标识所对应的特征数据分别进行第一目标处理和第二目标处理,再进行所述全连接转化,生成第三组向量,所述第一目标处理用于为所述多个标识所对应的特征数据添加权重系数,所述第二目标处理用于为所述多个标识所对应的特征数据进行求和,并计算平均值;
根据所述第二组向量和所述第三组向量,确定所述第一组表征向量。
12.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至10任一项中所述的方法。
13.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
CN202010753280.9A 2020-07-30 2020-07-30 目标帐号集合的确定方法和装置、存储介质及电子设备 Active CN111935259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753280.9A CN111935259B (zh) 2020-07-30 2020-07-30 目标帐号集合的确定方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753280.9A CN111935259B (zh) 2020-07-30 2020-07-30 目标帐号集合的确定方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111935259A CN111935259A (zh) 2020-11-13
CN111935259B true CN111935259B (zh) 2021-11-23

Family

ID=73314348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753280.9A Active CN111935259B (zh) 2020-07-30 2020-07-30 目标帐号集合的确定方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111935259B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672816B (zh) * 2021-10-21 2022-02-08 腾讯科技(深圳)有限公司 帐号特征信息的生成方法、装置和存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920479A (zh) * 2018-04-16 2018-11-30 国家计算机网络与信息安全管理中心 针对两微一端跨信源账号推荐方法
CN110008999A (zh) * 2019-03-07 2019-07-12 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110941769A (zh) * 2019-11-19 2020-03-31 腾讯科技(深圳)有限公司 目标帐号的确定方法和装置、电子装置
CN111092804A (zh) * 2019-12-05 2020-05-01 腾讯科技(深圳)有限公司 信息推荐方法、信息推荐装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9288123B1 (en) * 2012-08-31 2016-03-15 Sprinklr, Inc. Method and system for temporal correlation of social signals
US10776885B2 (en) * 2016-02-12 2020-09-15 Fujitsu Limited Mutually reinforcing ranking of social media accounts and contents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920479A (zh) * 2018-04-16 2018-11-30 国家计算机网络与信息安全管理中心 针对两微一端跨信源账号推荐方法
CN110008999A (zh) * 2019-03-07 2019-07-12 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110941769A (zh) * 2019-11-19 2020-03-31 腾讯科技(深圳)有限公司 目标帐号的确定方法和装置、电子装置
CN111092804A (zh) * 2019-12-05 2020-05-01 腾讯科技(深圳)有限公司 信息推荐方法、信息推荐装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111935259A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN111914156A (zh) 自适应标签感知的图卷积网络跨模态检索方法、***
CN112861967A (zh) 基于异构图神经网络的社交网络异常用户检测方法及设备
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN111382283A (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN110399564B (zh) 帐号分类方法和装置、存储介质及电子装置
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN115631008B (zh) 商品推荐方法、装置、设备及介质
CN112765481B (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN110727705B (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
Liu et al. Unsupervised image classification by ideological affiliation from user-content interaction patterns
CN112052386A (zh) 信息推荐方法、装置和存储介质
WO2022262561A1 (zh) 多媒体资源的处理方法、装置、设备及存储介质
Tella A Movie Recommendation System Based on Game Theoretic Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant