CN113742580B - 目标类型数据的召回方法、装置、电子设备及存储介质 - Google Patents
目标类型数据的召回方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113742580B CN113742580B CN202110963284.4A CN202110963284A CN113742580B CN 113742580 B CN113742580 B CN 113742580B CN 202110963284 A CN202110963284 A CN 202110963284A CN 113742580 B CN113742580 B CN 113742580B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- node
- graph network
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 214
- 238000012545 processing Methods 0.000 claims abstract description 116
- 230000006399 behavior Effects 0.000 claims abstract description 108
- 238000012216 screening Methods 0.000 claims description 173
- 238000012549 training Methods 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 24
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 167
- 238000010586 diagram Methods 0.000 description 23
- 238000005295 random walk Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013138 pruning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000005653 Brownian motion process Effects 0.000 description 2
- 101150104012 TOP2 gene Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005537 brownian motion Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及数据处理技术领域,尤其涉及一种目标类型数据的召回方法、装置、电子设备及存储介质,用以解决目标类型数据的历史操作行为较少时,无法有效的召回用户感兴趣的数据的问题,获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据,再根据预先建立的数据与数据向量之间的对应关系,获得对应的数据向量,再基于向量之间的相似度,确定待召回数据,并推荐给所述目标对象,这样,能够在不依赖目标对象的兴趣标签的情况下,通过构建不同类型的数据相互之间的影响关系,实现对历史操作行为较少的目标类型数据的召回,能够挖掘目标对象对于目标类型数据的兴趣,进而有效的召回目标对象感兴趣的目标类型数据。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种目标类型数据的召回方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,利用互联网平台向用户提供资源数据的方式已经广泛应用到用户的生活中。相关技术下,在进行一种类型的数据的召回时,可以在对用户的兴趣标签进行优先级划分后,根据用户的兴趣标签召回相应的数据,并将召回的数据推荐给用户,或者,可以采用特征交叉的处理方式,组合用户和数据的相关特征,以预估用户的偏好兴趣,进而确定召回的数据。
但是,对于现有的数据召回来说,在进行数据的召回时,一方面依赖于对用户的兴趣标签的准确划分,这使得需要对大量用户的历史操作行为作为支撑,另一方面,在进行特征交叉处理时,需要执行大量的处理操作,极容易造成维度灾难,而且,组合得到的特征可能不具有参考意义,进而造成大量的特征冗余。这样,在用户对于某类数据的历史操作行为较少时,无法在不浪费处理资源的情况下,有效的召回用户感兴趣的数据。
发明内容
本公开实施例提供一种目标类型数据的召回方法、装置、电子设备及存储介质,用以解决现有技术中存在对于目标类型数据的历史操作行为较少时,无法有效的召回用户感兴趣的数据的问题。
本公开实施例提供的具体技术方案如下:
第一方面,提出一种目标类型数据的召回方法,包括:
获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据;
根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的;
分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
可选的,所述获取目标对象关联的各种类型的兴趣数据集合,包括:
分别获取目标对象对于各类数据的第一历史操作信息;
根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
可选的,分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足预设个数的待召回数据,包括:
对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度;
将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度;
根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
可选的,所述向量生成模型的训练过程包括:
基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边;
采用所述目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型,其中,在一轮迭代训练过程中,执行以下操作:
采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,其中,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量。
可选的,所述针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边,包括:
针对所述数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对所述各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边;
根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系;
基于所述连接关系,在相应的各个数据节点之间建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
可选的,所述根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,包括:
采用预设的第一有向边筛选条件,对所述第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络;
采用预设的第二有向边筛选条件,对所述第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络;
所述基于所述连接关系,在相应的各个数据节点之间分别建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边,包括:
在基于所述连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三网络中的有向连接边和对象节点之后,生成第四图网络,并基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,以及采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,并基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
可选的,所述第一有向边筛选条件包括以下至少一项或组合:
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
可选的,所述第二有向边筛选条件包括至少一项或组合:
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边;
针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边;
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
可选的,将两个数据节点连接的相同的对象节点的总数,作为由所述两个数据节点连接得到的无向连接边的权重时,所述无向边筛选条件包括:
对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边。
可选的,所述按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,包括:
根据所述目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵;
基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
可选的,所述分别根据在各个窗口中预测的数据节点的相对位置计算损失值,包括:
根据各个窗口中预测的数据节点,分别执行以下操作:
确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置;
根据SkipGram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
第二方面,提出一种目标类型数据的召回装置,包括:
获取单元,用于获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据;
生成单元,用于根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的;
确定单元,用于分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
可选的,所述获取目标对象关联的各种类型的兴趣数据集合时,所述获取单元用于:
分别获取目标对象对于各类数据的第一历史操作信息;
根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
可选的,分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足预设个数的待召回数据时,所述确定单元用于:
对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度;
将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度;
根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
可选的,所述装置还包括训练单元,所述训练单元在所述向量生成模型的训练过程中用于:
基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边;
采用所述目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型,其中,在一轮迭代训练过程中,执行以下操作:
采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,其中,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量。
可选的,所述针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边时,所述训练单元用于:
针对所述数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对所述各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边;
根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系;
基于所述连接关系,在相应的各个数据节点之间建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
可选的,所述根据预设的有向边筛选条件对建立的各个有向连接边进行筛选时,所述训练单元用于:
采用预设的第一有向边筛选条件,对所述第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络;
采用预设的第二有向边筛选条件,对所述第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络;
所述基于所述连接关系,在相应的各个数据节点之间分别建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边,包括:
在基于所述连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三网络中的有向连接边和对象节点之后,生成第四图网络,并基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,以及采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,并基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
可选的,所述第一有向边筛选条件包括以下至少一项或组合:
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
可选的,所述第二有向边筛选条件包括至少一项或组合:
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边;
针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边;
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
可选的,将两个数据节点连接的相同的对象节点的总数,作为由所述两个数据节点连接得到的无向连接边的权重时,所述无向边筛选条件包括:
对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边。
可选的,所述按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列时,所述训练单元用于:
根据所述目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵;
基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
可选的,所述分别根据在各个窗口中预测的数据节点的相对位置计算损失值时,所述训练单元用于:
根据各个窗口中预测的数据节点,分别执行以下操作:
确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置;
根据SkipGram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
第三方面,提出一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述第一方面中任一所述方法的步骤。
第四方面,提出一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面中任一所述方法的步骤。
本发明有益效果如下:
本公开实施例中,获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据,再根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的,然后分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
这样,处理设备在进行目标类型数据的召回时,能够在不依赖目标对象的兴趣标签的情况下,通过构建不同类型的数据相互之间的影响关系,实现对历史操作行为较少的目标类型数据的召回,与此同时,在对目标对象进行目标类型数据的召回时,不再局限于目标对象本身对于目标类型数据的历史操作行为,而是基于目标对象关联的各类型的兴趣数据集合,预测目标对象在目标类型数据中感兴趣的数据,能够在对于目标类型数据的历史操作行为较少的情况下,根据在不同类型的数据之间建立的对应关系,挖掘目标对象对于目标类型数据的兴趣,进而有效的召回目标对象感兴趣的目标类型数据。
附图说明
图1为本公开实施例中对向量生成模型进行训练的流程示意图;
图2为本公开实施例中生成的图网络示意图;
图3a为本公开实施例中剪枝生成图网络的流程示意图;
图3b为本公开实施例中第一图网络示意图;
图3c为本公开实施例中对第一图网络中的各个有向边进行筛选的流程示意图;
图3d为本公开实施例中生成的第二图网络示意图;
图3e为本公开实施例中基于有向连接边建立的无向连接边示意图;
图4a为本公开实施例中目标类型数据的召回流程示意图;
图4b为本公开实施例中线上召回过程示意图;
图5为本公开实施例目标类型数据的召回装置的逻辑结构示意图;
图6为本公开实施例中目标类型数据的召回装置的实体结构示意图。
具体实施方式
为了使本公开的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本公开,并不用于限定本公开。
本领域技术人员知道,本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
为了方便理解,下面对本公开实施例中涉及的名词进行解释:
图网络,也称图神经网络(Graph Neural Network,GNN),对应一类基于深度学习的处理图域信息的方法,能够理解的是,GNN是一种基于图结构的广义神经网络,在对应图网络中的节点生成对应的嵌入向量时,一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的生成嵌入向量的模型可以通过端到端的方式训练,其中,图是一种数据结构,由节点和边组成,本公开实施例中,构建的图网络为具有异构性,其中,异构性是异构图的一个内在属性,即异构图中包括各种类型的节点和边。例如,不同类型的节点可能具有不同的特征,其特征可能落在不同的特征空间中。一个异构图,可以表示为G=(V,E),由一个对象集合(节点集合)V和连接集合(边集合)E组成。异构图还与节点类型映射函数ψ:V→A和连接类型映射函数φ:E→B相关联。A和B表示预定义对象类型和连接类型的集合,其中,|A|+|B|>2。
随机游走:又称随机游动或随机漫步,是一种数学统计模型,它是由一连串的轨迹所组成,其中每一次都是随机的。它能用来表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程记录。因此,它是记录随机活动的基本统计模型。其概念接近于布朗运动,是布朗运动的理想数学状态。
Deepwalk:深度游走(DeepWalk)算法通过截断式随机游走(truncated randomwalk)来学习图网络中节点的特征表示(Social Representations)。
SkipGram:连续跳跃模型(Continuous Skip-gram Model,Skip-Gram)是根据中心词预测上下文m个词的算法,m表征用户定义的预测窗口大小。
GraphSAGE:图采样和聚合模型(Graph SAmple and aggreGatE,GraphSAGE),是一种能够利用节点的属性信息高效产生未知节点的嵌入向量(embedding)的一种归纳式(inductive)学习的框架。其核心思想是通过学习一个对邻居节点进行聚合表示的函数来产生目标节点的embedding向量。
MetaPath:元路径(Meta Path)是一条包含关系(relation)序列的路径,而这些relation定义在不同类型节点(object)之间。在MetaPath算法包括的信息网络中,包括有向图G=(V,E)、对象(object)类型映射函数,以及边类型映射函数。每一个object,都有一个特定的object类型;每一条边,都有一个特定的relation。
词向量:也称词嵌入,是将一类将词的语义映射到向量空间中去的自然语言处理技术。即,将一个词用特定的向量来表示,使得向量之间的距离(例如,任意两个向量之间的L2范式距离或更常用的余弦距离),能够一定程度上表征词之间的语义关系,其中,由词对应的向量所形成的几何空间被称为一个嵌入空间。
召回:召回是推荐***中的一个重要环节,实现的是根据用户和物品部分特征,从海量的物品库里,快速获取一小部分用户潜在感兴趣的物品,然后将获取的物品交给排序环节。本公开实施例中,考虑到通常在召回阶段,需要处理的数据量非常大,因此对于处理速度要求很高,这也就意味着召回过程中使用的策略、模型和特征都需要尽量简单。
服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***设备、个人导航设备、个人数字助理、音频/视频数据播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
相关技术下,在针对性的召回目标对象感兴趣的数据时,一些实现方式中,通常依据目标对象的兴趣标签,召回目标对象可能感兴趣的内容,换言之,根据目标对象对于一类数据的历史操作行为,判定目标对象在所述一类数据中的兴趣领域,进而针对性召回所述一类数据中在所述兴趣领域内的数据。这使得在所述一类数据中确定召回给目标对象的数据时,召回的数据的有效性依赖于对目标对象的兴趣标签的准确划分,因此需要大量的目标对象对于所述一类数据的历史操作行为,才能够实现有效召回,在目标对象对于某类数据的历史操作行为较少时,则无法有效召回目标对象感兴趣的数据。
相关技术下的另一些实现方式中,可以采用特征交叉的处理方式,组合目标对象和数据的相关特征,以预估目标对象的偏好情况,进而确定召回的数据,然而,组合得到的特征可能不具有参考意义,因而会造成大量的特征冗余。这样,在目标对象对于某类数据的历史操作行为较少时,无法在不浪费处理资源的情况下,有效的召回目标对象感兴趣的数据。
应用场景总览
本公开所提出的目标类型数据的召回方法,对于对象较少操作的数据类型,可以有效地进行数据召回,能够召回的数据可以是文本数据,如,小说、论文、新闻等内容,召回的数据也可以是音频数据,如,音乐等内容,召回的内容还可以是视频数据等内容,召回的数据可以是主播的直播数据,如,召回目标对象感兴趣的主播。
本公开可能的应用场景中,可以应用于目标类型数据的召回过程中,具体场景如下:当在一个应用中,意图在已有的业务的基础上,开发新业务时,假设所述新业务产生的数据为目标类型数据,则在新业务投入使用时,必然存在对于目标类型数据的历史操作行为较少的情况,因而在针对目标对象召回符合兴趣需要的目标类型数据时,单靠目标对象对于目标类型数据的历史操作行为,必然无法实现有效召回。
例如,在一个音乐和视频播放应用中,开发直播业务时,则对于记录的对象对于主播的历史操作数据,必然远少于对象对于音乐数据和视频数据的历史操作数据,因而,当针对目标对象确定召回的目标类型数据时,则无法仅基于目标对象对于目标类型数据的历史操作数据,召回目标类型数据。
针对性地,本公开所提出的技术方案中,处理设备获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据,再根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的,然后分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
这样,处理设备在进行目标类型数据的召回时,能够在不依赖目标对象的兴趣标签的情况下,通过构建不同类型的数据相互之间的影响关系,实现对历史操作行为较少的目标类型数据的召回,与此同时,在对目标对象进行目标类型数据的召回时,不再局限于目标对象本身对于目标类型数据的历史操作行为,而是基于目标对象关联的各类型的兴趣数据集合,预测目标对象在目标类型数据中感兴趣的数据,能够在对于目标类型数据的历史操作行为较少的情况下,根据在不同类型的数据之间建立的对应关系,挖掘目标对象对于目标类型数据的兴趣,进而有效的召回目标对象感兴趣的目标类型数据。
示例性方法
需要说明的是,本公开实施例中,进行向量生成模型训练的第一处理设备,与进行目标类型数据的召回的第二处理设备可以为同一个处理设备,或者,可以是能够交互的不同的处理设备,所述第一处理设备和所述第二处理设备可以是服务器或者具有处理能力的终端设备,本公开不对所述第一处理设备和所述第二处理设备的类型进行具体限定。在本公开一些可能的实现方式中,可以由第一处理设备基于构建的目标图网络,在一个训练周期内进行指定轮次的训练,得到目标图网络中数据节点对应的数据向量,进而将数据对应数据向量提供给第二处理设备,以实现目标类型数据的召回。以下的说明中,仅以一个处理设备既实现模型的训练,又实现数据的召回为例,对本公开所提出的目标类型数据的召回方法进行说明。
下面结合附图,对本公开所提出的目标类型数据的召回过程进行说明:
参阅附图1所示,其为本公开实施例中对向量生成模型进行训练的流程示意图,下面结合附图1,对向量生成模型的训练过程进行说明。
需要说明的是,本公开实施例中,为了保证向量生成模型生成的数据向量的有效性和准确性,可以以预设时长为周期,周期性地获取在设定历史时长内各个用户对于全局范围内的各类数据的第二历史操作信息,其中,预设时长可以根据实际的处理需要进行灵活配置,如,配置为1天,所述设定历史时长可以根据实际的处理需要进行灵活配置,如,配置为10天。
本公开实施例中,考虑到向量生成模型是基于输入的“图”进行随机游走和节点向量生成,故向量生成模型本质上可以理解为一个图网络模型。处理设备采用无监督学习的方式,对向量生成模型进行训练,在一个训练周期内,通过配置所述向量生成模型训练的轮数,确定向量生成模型训练结束的触发条件。
步骤101:处理设备基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边。
具体的,处理设备在向量生成模型的每一个训练周期之前,需要基于最新获得的设定历史时长内,各个对象对于各类数据的第二历史操作信息,确定对应的数据集合,建立目标图网络,并基于建立的目标网络对向量生成模型进行训练。
需要说明的是,所述处理设备在确定所述数据集合时,针对各个对象,分别执行以下操作:确定一个对象对于各类数据的第二历史操作信息,并根据所述第二历史操作信息,从各类数据中确定存在有所述一个对象的操作行为的各个数据。
进一步地,所述处理设备基于所述各个对象各自确定的各个数据,生成数据集合,其中,所述数据集合包括各个对象在所述设定历史时长内操作的各类型的数据,对于各类数据来说,对象能够触发的操作不同。
例如,对于音频数据,第二历史操作信息中能够记录的内容包括:对象播放音频数据时的持续时长、对象播放音频数据时对应的历史时间、对象对于音频数据发起的收藏操作(记为collect)及对应的历史时间、对象对于音频数据发起的评论操作(记为comment)及对应的历史时间、对象对于音频数据发起的搜索操作(记为Search)及对应的历史时间,以及对象对于音频数据发起的分享操作(记为share)即对应的历史时间。
又例如,对于视频数据,第二历史操作信息中能够记录的内容包括:对象观看视频数据的持续时长、对象播放视频数据时对应的历史时间、对象对于视频数据发起的收藏操作及对应的历史时间、对象对于视频数据发起的评论操作及对应的历史时间、对象对于视频数据发起的搜索操作及对应的历史时间、对象对于视频数据发起的分享操作及对应的历史时间,以及对象对于视频数据发起的点赞操作(记为zan)及对应的历史时间。
又例如,对于主播数据,第二历史操作信息中能够记录的内容包括:对象观看主播时的持续时长,以及对象观看主播时对应的历史时间。
下面对本公开涉及到的构建目标图网络的方式进行说明:
方式一、针对数据集合中的各个数据,在目标图网络中配置对应的数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成目标图网络的连接边。
在方式一的实现过程中,处理设备首先针对数据集合中的各个数据,分别生成对应的数据节点,并分别在同一对象操作的各个数据对应的数据节点之间,建立连接关系,并以连接边的形式连接存在连接关系的数据节点,其中,两个数据节点之间的连接边的权重,与能够生成所述连接边的对象的总数正相关。
例如,假设存在2个对象,分别为对象1-对象2,目标类型数据为主播数据,根据对象对应的第二历史操作信息,确定对象1操作的数据如下:视频数据1-{观看持续时长15s、观看时间(2021年3月26日18:43:57)、存在点赞操作};视频数据2-{观看持续时长1min、观看时间(2021年3月22日18:43:57)、存在搜索操作};音频数据1-{播放持续时长3min20s、播放时间(2021年3月24日15:09:26)、存在分享操作};音频数据2-{播放持续时长1min30s、播放时间(2021年3月22日12:30:57)、存在收藏操作};音频数据3-{播放持续时间10s、播放时间(2021年3月22日15:28:26)}、{播放持续时间3min、播放时间(2021年3月28日18:18:26)、存在评论操作};主播1-{观看持续时长5min、播放时间(2021年3月21日13:14:20)}。
假设确定对象2操作的数据如下:视频数据1-{观看持续时长2min、观看时间(2021年3月25日18:43:57)、存在分享操作};视频数据3-{观看持续时长59s、观看时间(2021年3月25日11:43:27)、存在搜索操作};音频数据3-{播放持续时长3min20s、播放时间(2021年3月24日15:09:26)、存在收藏操作};主播2-{观看持续时长20min、播放时间(2021年3月21日18:27:27)}。
那么,参阅图2所示,其为本公开实施例中生成的图网络示意图,在图2所示意的图网络中,细线部分为基于对象1操作的各类数据生成的示意性连接边,粗线部分为基于对象2操作的各类数据生成的示意性连接边,基于上述确定边权重的方式可以确定的是,除音频数据3和视频数据1之间的连接边的权重为2以外,图2所示意的图网络中其他连接边的权重为1。
这样,生成的图网络中能够表征出数据集合中各个数据之间的关系,能够保证构建的图网络中数据的全面性,使得向量生成模型在训练完成后,能够更多的生成数据节点对应的数据向量,最大可能的保证线上召回操作中数据向量的可用性。
方式二、处理设备根据预设的有向边筛选条件和无向边筛选条件,对图网络进行剪枝,得到目标图网络。
处理设备在执行方式二时,具体可以执行以下操作,生成目标图网络:
参阅图3a所示,其为本公开实施例中剪枝生成图网络的流程示意图,下面结合附图3a,对目标图网络的生成过程进行说明:
步骤301:处理设备针对数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边。
具体的,处理设备可以基于数据集合和各个对象之间的关系,建立第一图网络,进而针对所述第一图网络进行剪枝和筛选,其中,所述第一图网络中包括与数据集合中各个数据分别对应的各个数据节点,并包括与所述各个对象各自对应的对象节点,以及包括由对象节点指向数据节点的有向连接边,所述有向连接边表征对应的对象存在对于数据的操作行为。
例如,继续上述方式一中的举例进行说明,则基于上述方式一中提及的对象1-对象2操作的数据,对应生成如图3b所示的第一图网络,图3b为本公开实施例中第一图网络示意图,第一图网络中包括对象对应的对象节点以及数据对应的数据节点,且一个对象或数据,在第一图网络中对应一个相应的节点,第一图网络中,对应对象对于数据的操作行为,建立对应的连接边。
步骤302:处理设备根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系。
具体的,处理设备建立第一图网络后,根据预设的有向边筛选条件,对建立的各个有向连接边进行筛选,并在筛选出的有向连接边中,在连接有相同对象节点的数据节点之间,建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系。
例如,接收一个对象节点连接了M个音频类型数据对应的数据节点,N个视频类型数据对应的节点,则对于所述一个对象节点连接的任意一个数据节点来说,能够与M+N-1个数据节点建立连接关系。
本公开实施例中,处理设备根据预设的有向边筛选条件对建立的各个有向连接边进行筛选时,具体可以通过执行以下操作,对所述第一图网络中的连接边进行处理,参阅图3c所示,其为本公开实施例中对第一图网络中的各个有向边进行筛选的流程示意图:
步骤3021:处理设备采用预设的第一有向边筛选条件,对第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络。
本公开实施例中,处理设备筛选出满足第一有向边筛选条件的有向连接边,作为第二图网络的有向连接边,处理设备配置的第一有向边筛选条件,包括以下至少一项或组合:
A1、针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边。
具体的,处理设备根据第一历史时段内,有向连接边对应的对象与数据之间的历史操作行为,确定所述数据为音频类型,并确定所述数据的单次播放时长满足第一时长阈值,且所述对象对于所述数据的操作属于预设的第一类预设操作中的一种,则可判定所述有向连接边满足第一有向边筛选条件。
需要说明的是,所述处理设备在判定是否满足第一有向边筛选条件时使用的,第一历史时段内的历史操作行为,与前述生成数据集合时对应的第二历史操作信息中包括的历史操作行为,可能对应相同的历史时间段,也可能根据实际的处理需要对应不同的历史时间段。单次播放时长对应的第一时长阈值的取值,根据实际的处理需要灵活设置,本公开不做具体限定。
本公开实施例中,对于音频类型数据,其对应的第一类预设操作中至少包括有:收藏操作、评论操作、搜索操作,以及分享操作。
例如,继续基于上述方式一中的示例进行说明,在建立的第一图网络中,连接有对象节点和音频类型数据节点的有向连接边包括:
对象1-音频数据3、对象1-音频数据2、对象1-音频数据1,以及对象2-音频数据3,假设设置的第一时长阈值为30s,第一历史时段为10天,当前时间为3月30日,则根据对象1的操作:音频数据1-{播放持续时长3min20s、播放时间(2021年3月24日15:09:26)、存在分享操作};音频数据2-{播放持续时长1min30s、播放时间(2021年3月22日12:30:57)、存在收藏操作};音频数据3-{播放持续时间10s、播放时间(2021年3月22日15:28:26)}、{播放持续时间3min、播放时间(2021年3月28日18:18:26)、存在评论操作},以及根据对象2操作的数据,音频数据3-{播放持续时长3min20s、播放时间(2021年3月24日15:09:26)、存在收藏操作}。
那么可确定,音频数据1满足第一有向边筛选条件;音频数据2满足第一有向边筛选条件;音频数据3关联的3月28日的记录满足第一有向边筛选条件;对于对象2-视频数据3这条有向连接边,同理满足第一有向边筛选条件。因此,对象1-音频数据1、对象1-音频数据2、对象1-音频数据3,以及对象2-音频数据3,这四条有向连接边能够被筛选出来参与生成第二图网络。
需要说明的是,本公开实施例中,在基于第一有向边筛选条件进行筛选时,可以记录对于连接不同类型数据节点的有向连接边的筛选结果,最终生成第二图网络,或者,可以在第一图网络的基础上,删减不满足第一有向边筛选条件的各个有向边,并基于最终删减后得到的各个有向连接边生成第二图网络,本公开在此不做过多限定。
A2、针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边。
具体的,处理设备根据第二历史时段内,有向连接边对应的对象与数据之间的历史操作行为,确定所述数据对应视频类型,并确定所述数据的单次播放时长达到第二时长阈值,且所述对象对于数据的操作属于预设的第二类预设操作中的一种,则可判定所述有向连接边满足第一有向边筛选条件。
需要说明的是,本公开实施例中,第二时长阈值的取值根据实际的处理需要进行灵活配置,本公开不做特殊限定,对于视频类型数据,其对应的第二类预设操作中至少包括有:收藏操作、评论操作、搜索操作、点赞操作,以及分享操作。
例如,继续基于上述方式一中的示例进行说明,则构建的第一图网络中,对于连接有视频类型数据对应的数据节点的有向连接边,包括有:对象1-视频数据1;对象1-视频数据2;对象2-视频数据1;对象2-视频数据3。假设设置的第二时长阈值为30s,第二历史时段为10天,当前时间为3月30日,那么根据对象操作的数据:
对象1:视频数据1-{观看持续时长15s、观看时间(2021年3月26日18:43:57)、存在点赞操作};视频数据2-{观看持续时长1min、观看时间(2021年3月22日18:43:57)、存在搜索操作};以及对象2:视频数据1-{观看持续时长2min、观看时间(2021年3月25日18:43:57)、存在分享操作};视频数据3-{观看持续时长59s、观看时间(2021年3月25日11:43:27)、存在搜索操作}。
分析可知,对象1-视频数据1之间的观看持续时长不满足第二时长阈值,故对象1-视频数据1对应的有向连接边不满足第一有向边筛选条件;对象1-视频数据2之间的有向连接边满足第一有向边筛选条件;同理,对象2-视频数据1,以及对象2-视频数据3分别对应的有向连接边满足第一有向边筛选条件。
A3、针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
具体的,处理设备根据第三历史时段内,有向连接边对应的对象与数据之间的历史操作行为,确定数据对应目标类型数据,且所述数据关联的播放时长满足第三时长阈值,则可判定所述有向连接边满足第一有向边筛选条件。
其中,第三时长阈值的取值可以根据实际的处理需要灵活设置,本公开不做过多限定。
例如,继续基于上述方式一中的举例进行说明,当目标类型数据为主播时,第一图网络中构建的有向连接边中包括:对象1-主播1;对象2-主播2。假设第三时长阈值为30s,第三历史时段为30天,当前日期为3月30日,那么根据对象操作的数据:
对象1:主播1-{观看持续时长5min、播放时间(2021年3月21日13:14:20)};对象2:主播2-{观看持续时长20min、播放时间(2021年3月21日18:27:27)}。
分析可知,对象1-主播1,以及对象2-主播2所各自对应的有向连接边均满足第一有向边筛选条件。
进一步地,基于A1-A3中示意的第一有向边筛选条件,处理设备可以对第一图网络进行整理,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络。
例如,参阅图3d,其为本公开实施例中生成的第二图网络示意图,基于第一有向边筛选条件,在图3b所示意的第一图网络的基础上,在删除对象1-视频数据1之间的有向连接边后,生成了第二图网络。
这样,借助于第一有向边筛选条件,针对不同类型数据,分别设置了不同的判断条件,相当于对数据节点与对象节点之间的连接关系进行了筛选,所述第一有向边筛选条件相当于约束了数据与节点之间的有效性,一定程度上保证了生成的第二图网络中节点之间的关联性。
步骤3022:处理设备采用预设的第二有向边筛选条件,对第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络。
本公开实施例中,处理设备筛选出满足第二有向边筛选条件的有向连接边,作为第三图网络的有向连接边,处理设备配置的第二有向边筛选条件,包括以下至少一项或组合:
B1、针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边。
具体的,处理设备在确定有效连接边对应的行为评分时,针对音频类型数据,可以采用以下公式,计算一个对象对于一个音频类型数据的行为评分:
score=sum(effective_play_num)+10*sum(collect_num)+20*sum(comment_num)+15*sum(share_num)+10*sum(search_num)
其中,score表示一个对象对于连接的一个音频类型数据的行为评分,sum(effective_play_num)是根据第一历史时段之内,所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的有效播放次数,有效播放表征单次播放时长达到设定值;sum(collect_num)为第一历史时段之内,根据所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对所述数据的收藏次数;sum(comment_num)为第一历史时段之内,根据所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对所述数据的评论次数;sum(share_num)为第一历史时段之内,根据所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对所述数据的分享次数;sum(search_num)为第一历史时段之内,根据所述一个对象对所述的数据历史操作行为得到的统计结果,具体表征所述一个对象对所述数据的分享次数,各个参数前面的系数取值根据实际处理需要配置。
进一步的,针对视频类型数据,可以采用以下公式,计算一个对象对于一个视频类型数据的行为评分:
score=sum(effective_play_num)+10*sum(collect_num)+20*sum(comment_num)+10*sum(zan_num)+10*sum(share_num)+10*sum(search_num)
其中,score表示一个对象对于连接的一个视频类型数据的行为评分sum(effective_play_num)为第二历史时段之内,根据所述一个对象对所述数据历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的有效播放次数,有效播放表征单次的播放持续时长达到设定值;sum(collect_num)为第二历史时段之内,根据所述一个对象对所述数据历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的收藏次数;sum(comment_num)为第二历史时段之内,根据所述一个对象对所述数据历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的评论次数;sum(share_num)为第二历史时段之内,根据所述一个对象对所述数据历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的分享次数;sum(search_num)为第二历史时段之内,根据所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的分享次数。sum(zan_num)为第二历史时段之内,根据所述一个对象对所述数据的历史操作行为得到的统计结果,具体表征所述一个对象对于所述数据的点赞次数,各个参数前面的系数取值根据实际处理需要配置。
另外,对于目标类型数据,则一个对象对于一个目标类型数据的行为评分的计算过程如下:
score=sum(effective_play_num)
其中,score表征所述一个对象对于所述一个目标类型数据的行为评分,sum(effective_play_num)表征在第三历史时段内,根据所述一个对象对所述数据的历史评价行为统计得到的,单次观看时长达到第三时长阈值的次数,第三时长阈值的取值可以与上述A2中的取值相同。
进一步地,所述处理设备在确定对象对于数据的行为评分后,在数据节点连接的各个对象节点中,确定对象与数据之间的行为评分,并按照行为评分递减的顺序形成行为评分排序结果,进而筛选出排序编号不超过第一设定值的有向连接边,其中,所述第一设定值根据实际的处理需要灵活设置,本公开不做过多限定。
这样,借助于B1所示意的第二有向边筛选条件,处理设备从数据节点的角度出发,在数据节点相连的全部对象节点中,保留与对数据最感兴趣第一设定值个对象之间的连接关系,使得在图网络中实现了有向连接边的缩减,能够辅助提高图网络中连接同一对象节点的数据节点之间的相关度,降低计算压力。
B2、针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边。
具体的,处理设备可以沿用上述B1中确定行为评分的方式,从对象节点的角度出发,根据与对象节点连接的有向连接边,确定对象操作的相同类型的各个数据,进而基于所述对象的历史操作行为所得到的行为评分,将所述相同类型的各个数据按照行为评分递减的顺序排序,保留所述对象操作最多的第二设定值个相同类型数据之间连接关系。
需要说明的是,本公开实施例中第二设定值的具体取值根据实际的处理需要而定,本公开不做具体限制。
B3、针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
具体的,考虑到本公开实施例的应用场景中,存在较少的对象对于目标类型数据的操作行为,因而,可以选择性的在第一图网络中的有向连接边中,直接筛选出连接有目标类型数据对应的数据节点的有向连接边。
这样,基于B1-B3所示意的第二有向边筛选条件,能够进一步对第二图网络中的有向连接边进行筛选,在第二图网络的基础上进一步进行了图网络的筛选,基于筛选出的有向连接边生成第三图网络,相当于对图网络进行了进一步的剪枝处理。
步骤303:处理设备基于建立的连接关系,在相应的各个数据节点之间建立无向连接边,并基于第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
本公开一些可能的实施例中,在生成第一图网络后,可以直接执行步骤303中涉及的操作,具体的,处理设备可以将所述第一图网络中,确定由连接有相同对象节点的数据节点组成数据节点集合,并针对所述数据节点集合中的各个数据节点,分别建立与所述数据节点集合中其他数据节点之间的无向连接边,以及基于所述无向连接边生成目标图网络。
本公开另一些可能的实施例中,处理设备在执行步骤303时,可以在执行步骤302中生成第三图网络的操作后,基于在连接相同对象节点的各个数据节点之间建立的连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三网络中的有向连接边和对象节点之后,生成第四图网络,以及基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,并采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,以及基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
例如,参阅图3e所示,其为本公开实施例中基于有向连接边建立的无向连接边示意图,基于图3e所示意的内容可知,处理设备在连接有相同对象节点的数据节点之间建立无向连接边,并删除图3e中虚线所示意的有线连接边和对象节点。
需要说明的是,本公开实施例中,在生成无向连接边后,可以按照预设的无向连接边筛选条件,对第四图网络中的无向连接边进行筛选,进而将筛选出的无向连接边作为目标图网络的连接边。其中,所述无向连接边筛选条件包括:对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边,其中,所述权重排序结果涉及到的无向连接边中包含的数据节点的类型,与所述两个数据节点对应的类型相同,所述无向连接边的权重是根据能够生成该无向连接边的对象节点的数目确定的。
例如,继续基于附图3e中示意的无向连接边进行说明,以音频数据3-视频数据1所连接的无向连接边为例,假设第三设定值为2,则,在确定所述无向连接边是否满足无向连接边筛选条件时,分别从音频数据3和视频数据1的角度,确定所述无向连接边,在所述音频数据3所连接的全部视频类型的无向连接边中的权重排序结果,以及确定视频数据1所连接的全部音频类型的无向连接边的权重排序结果,当确定所述无向连接边在所述音频数据3或视频数据1任意一方的权重排序结果中,对应的排序编号不超过2时,则认为所述无向连接边满足无向连接边筛选条件。
又例如,对应音频数据的数据节点之间的无向连接边,对于无向连接边的处理原则为:每一个音频数据筛选出其连接的权重为top2的无向连接边。
又例如,对应视频数据的数据节点之间的无向连接边,对于无向连接边的处理原则为:每一个视频数据筛选出其连接的权重为top2的无向连接边。
又例如,连接音频类型数据和视频类型数据的无向连接边,对于无向连接边的处理原则为:每一个音频数据只筛选出权重top2的与视频数据相连的边、每一个视频数据只筛选出权重top2的与音频数据相连的无向连接边。
进一步地,处理设备将筛选出的无向连接边作为目标图网络中的连接边,以及将筛选出的无向连接边上的数据节点,作为目标图网络中的数据节点,完成图网络的构建。
这样,借助于配置的筛选条件,以及对象对不同数据的操作行为,构建了包括不同类型数据的异构图网络,并以对象为桥梁,建立了不同类型数据之间的关系,能够在目标图网络中建立不同类型的数据之间的连接,同时,能够支持后续基于对象对于不同类型数据的兴趣情况,预测对象对于目标类型数据的兴趣情况。
步骤102:处理设备采用目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型。
具体的,处理设备在构建目标图网络后,采用目标图网络对搭建的向量生成模型进行指定轮数的训练,其中,所述向量生成模型的模型架构可以是基于deepwalk+skip-gram架构搭建的,也可以是基于GraphSAGE架构搭建的,还可以是基于MetaPath架构搭建的,以下的说明中将仅以deepwalk+skip-gram的架构为例,对向量生成模型的训练过程进行说明。
本公开实施例中,所述指定轮数根据实际的处理需要确定,且不同训练周期内使用的指定轮数可能不同,本公开不做具体限定。
在一轮的迭代训练过程中,处理设备执行以下操作:
首先,所述处理设备采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列。
本公开实施例中,所述处理设备根据目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵,进而基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
具体实施时,参阅表1所示,可以基于表1所示意的算法过程,采用待训练的向量生成模型在目标图网络中进行游走,生成设定数目的数据节点序列:
表1
所述处理设备采用待训练的向量生成模型中的deepwalk网络,对于目标图网络中的节点进行γ次随机游走,其中,γ的取值与目标图网络中数据节点的总数正相关,在游走的过程中可以通过并行的方式加速路径采样,另外,在采用多进程进行加速时,相比于开一个进程池让每次外层循环启动一个进程,本公开采用固定为每个进程分配指定数量的num_walks的方式,这样可以最大限度减少进程频繁创建与销毁的时间开销,其中,num_walks表征并行路径的数目。在算法实现过程中,所述处理设备通过deepwalk网络,通过随机混洗目标图网络中节点,以加快随机梯度下降的收敛速度。
所述处理设备通过所述deepwalk网络选取目标图网络中的数据节点后,以该数据节点为基础,进行长度为t个数据节点的随机游走,由于所述目标图网络中每一条连接边均有权重,因此可以选择性的,根据该数据节点所连边的权重确定节点间随机游走的概率。本公开实施例中,还可以采用加权随机游走方法,通过随机游走序列生成器从所述目标图网络中均匀随机采样一个节点作为序列的起点,然后生成器从上一个访问节点的邻居数据节点中均匀随机采样一个数据节点作为序列的下一个点。每一次随机游走的概率分别是由转移矩阵得来,其中,所述deepwalk网络中针对所述目标图网络中的节点生成初始化的向量矩阵。
其中,转移矩阵计算过程如下:
对于给定图G(V,E),其中V={v1…,vn}代表节点的集合,E={ei,j}代表图的边集合,ei,j代表数据节点vi与vj的边其权重为wi,j。
邻接矩阵S的计算过程为:
定义度矩阵是一个对角矩阵,且形式如下:
而转移矩阵A=D-1S,其中Ai,j定义了数据节点vi一步转移到vj的概率。
本公开实施例中,所述处理设备通过所述deepwalk网络,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量。
下面参阅表2所示,其为本公开实施例中SkipGram模型的算法过程:
表2
处理设备通过所述SkipGram网络,基于deepwalk网络传递的随机游走序列,以及数据节点的向量矩阵,以w大小的窗口在随机游走序列上进行移动,并通过预测窗口处各位置数据节点的概率与实际的数据节点位置的差异,计算损失值,并基于计算得到的损失值调整所述目标图网络中数据节点对应的向量矩阵。
具体的,在计算损失值时,所述处理设备根据各个窗口中预测的数据节点,分别执行以下操作:确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置,再根据SkipGram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
所述处理设备通过待训练的向量生成模型中的SkipGram网络,利用梯度的方法对相关参数进行更新,其中,SkipGram网络梯度更新目标函数,参考如下公式计算损失值:wc为目标图网络中随机游走到的一个数据节点,对应的优化目标为:
minimize J=-logP(wc-m,…wc-1,wc+1,…wc+m|wc)
该优化函数代表在一次随机游走过程中,每当给定一个数据节点wc,出现它的w窗口范围的定点的概率,其中,上述minimize J的两个公式所表达的含义相同,SkipGram网络在具体计算损失值时,是基于一个窗口范围内各个位置预估概率,以及对应位置的实际概率之间的取值差异,计算得到的,相关的实现公式是现有技术下的成熟技术,在此没有列出,仅作为示意性说明。
这样,借助于计算SkipGram网络的损失值,能够实现对目标图网络中节点对应的向量矩阵进行调整,学习不同类型的数据内部的关系,使得对应节点生成的数据向量,能够表征出不同类型的数据之间的关联性。
与此同时,处理设备在当前的一个训练周期,完成对于向量生成模型的训练后,对应目标图网络中节点,生成有对应的词向量嵌入(embedding),记为数据向量,这些数据向量能够表征对象操作的不同类型的数据之间的关联程度,同时,考虑到对象的喜好能够在操作的各类型数据上均有呈现,进而基于对目标图网络的学习,使得无监督训练得到的数据向量能够表征出不同类型数据之间的内在联系,为线上应用过程中基于不同类型的数据完成召回操作提供依据。
参阅图4a所示,其为本公开实施例中目标类型数据的召回流程示意图,下面结合附图4,对基于向量生成模型生成的数据向量,进行线上召回的过程进行说明:
步骤401:处理设备获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据。
本公开实施例中,处理设备响应于目标对象在指定页面中的刷新操作或者进入操作,触发针对所述目标对象的数据召回操作,并获取所述目标对象关联的各种类型的兴趣数据集合。
具体的,所述处理设备分别获取所述目标对象对于各类数据的第一历史操作信息,并根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
需要说明的是,为了表征出目标对象近期内的兴趣数据,以准确的预估所述目标对象可能感兴趣的目标类型数据,通常可以将第一历史操作信息都对应的历史时段设置为相对第二历史操作信息对应的历史时段较小,以准确的把握目标对象近期的兴趣所在,所述兴趣数据筛选条件按照数据类型的不同,具有不同的表示。
在确定各类数据中的兴趣数据时,可以延用步骤3022中计算不同类型数据的行为评分的方式,确定所述目标对象感兴趣的各种类型的数据,或者,可以针对对象对于各类数据的操作设置衡量标准,确定达到该衡量标准的则可认定为所述目标对象的兴趣数据,如,针对音频数据或视频数据,设置单次观看时长阈值,以及操作行为,又如,针对目标类型数据,设置观看时长阈值。
这样,处理设备能够针对性的获取目标对象在现阶段较为感兴趣的各类数据,为后续的召回和推荐过程提供了依据。
本公开实施例中,在确定目标对象关联的兴趣数据集合的同时,获得当前能够被召回的各个目标类型数据,其中,当目标类型数据为主播时,当前能够被召回的各个目标类型数据表征当前处于在线状态的各个主播。
这样,基于目标对象对应的兴趣数据集合,能够确定目标对象感兴趣的内容,基于确定的能够被召回的各个目标类型数据,相当于限定了目标类型数据的召回范围。
步骤402:处理设备根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的。
具体的,处理设备确定目标对象关联的兴趣数据集合,以及获取能够被召回的各个目标类型数据之后,所述处理设备根据向量生成模型在训练过程中建立的数据与数据向量之间的对应关系,分别获得各类兴趣数据集合中各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据包分别对应的目标数据向量。
特殊地,当未建立有目标类型数据或兴趣数据对应的向量形式时,则处理设备可以选择性地不基于目标类型数据进行召回,或者,不召回该目标类型数据,或者,处理设备可以选择性的针对该目标类型数据或兴趣数据,生成随机初始化向量,进而基于随机初始化生成的向量进行处理。
这样,借助于向量生成模型先前所建立的数据与向量之间的对应关系,能够将目标类型数据的召回问题,转化为数据向量之间相似度的比对问题,为目标类型数据的召回提供了召回依据。
步骤403:处理设备分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
本公开实施例中,处理设备对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度,再将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度,进而根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
具体地,处理设备针对所述各个目标数据向量,分别执行以下操作:计算一个目标数据向量与各个兴趣数据向量之间的相似度,将获得的各个相似度之和,作为所述一个目标数据向量所对应的目标类型数据与所述目标对象之间的相似度。其中,计算相似度的方式包括但不限于计算余弦相似度、计算向量内积、计算向量之间的欧氏距离等等,本公开不做具体限定。
需要说明的是,确定相似度之和时,可以采用线性加权融合的方式,计算相似度之和,或者,可以直接将相似度进行相加。
进一步地,所述处理设备根据各个目标类型数据各自与所述目标对象之间的相似度,确定获得的全部目标类型数据的排序结果,并筛选出排序最高的N个目标类型数据,作为所述目标对象的待召回数据,其中,N为设定的正整数。
例如,参阅图4b所示,其为本公开实施例中线上召回过程示意图,处理设备基于目标图网络中数据节点对应的数据向量,确定能够召回的主播对应的数据向量,以及确定目标对象感兴趣的音频1、音频2,以及视频1各自对应的数据向量,进而通过计算向量之间的相似度,最终确定召回主播1、主播2,以及主播3。
这样,由于生成数据向量的向量生成模型是采用无监督训练得到的,因而本公开提出的方案能够在不依靠对象的兴趣标签的情况下,有效地从大量有噪声的数据中获取相对可靠的数据,生成图网络,并构建由对象的操作行为所搭建的目标图网络,使得能够有效的挖掘出各类数据之间的相关性,进而在线上根据对象近期感兴趣的数据,将目标类型数据进行召回,这使得本方案一方面能够极大的扩充对象的行为,为召回存在较少对象操作行为的目标类型数据提供依据,另一方面,能够更深层次的挖掘出目标对象的潜在兴趣,将在不同类型数据上进行深度挖掘得到的结果,应用于对目标类型数据的兴趣挖掘。
基于同一发明构思,参阅图5所示,其为本公开实施例目标类型数据的召回装置的逻辑结构示意图,包括:获取单元501,生成单元502,确定单元503,以及训练单元504,其中,
获取单元501,用于获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据;
生成单元502,用于根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的;
确定单元503,用于分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。
可选的,所述获取目标对象关联的各种类型的兴趣数据集合时,所述获取单元501用于:
分别获取目标对象对于各类数据的第一历史操作信息;
根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
可选的,分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足预设个数的待召回数据时,所述确定单元503用于:
对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度;
将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度;
根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
可选的,所述装置还包括训练单元504,所述训练单元504在所述向量生成模型的训练过程中用于:
基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边;
采用所述目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型,其中,在一轮迭代训练过程中,执行以下操作:
采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,其中,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量。
可选的,所述针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边时,所述训练单元504用于:
针对所述数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对所述各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边;
根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系;
基于所述连接关系,在相应的各个数据节点之间建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
可选的,所述根据预设的有向边筛选条件对建立的各个有向连接边进行筛选时,所述训练单元504用于:
采用预设的第一有向边筛选条件,对所述第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络;
采用预设的第二有向边筛选条件,对所述第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络;
所述基于所述连接关系,在相应的各个数据节点之间分别建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边,包括:
在基于所述连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三网络中的有向连接边和对象节点之后,生成第四图网络,并基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,以及采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,并基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
可选的,所述第一有向边筛选条件包括以下至少一项或组合:
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
可选的,所述第二有向边筛选条件包括至少一项或组合:
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边;
针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边;
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
可选的,将两个数据节点连接的相同的对象节点的总数,作为由所述两个数据节点连接得到的无向连接边的权重时,所述无向边筛选条件包括:
对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边。
可选的,所述按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列时,所述训练单元504用于:
根据所述目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵;
基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
可选的,所述分别根据在各个窗口中预测的数据节点的相对位置计算损失值时,所述训练单元504用于:
根据各个窗口中预测的数据节点,分别执行以下操作:
确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置;
根据SkipGram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
参阅图6所示,其为本公开实施例中目标类型数据的召回装置的实体结构示意图。基于同一发明构思,可以包括存储器601和处理器602。
存储器601,用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。处理器602,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。本公开实施例中不限定上述存储器601和处理器602之间的具体连接介质。本公开实施例在图6中以存储器601和处理器602之间通过总线603连接,总线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器601可以是上述存储器的组合。
处理器602,用于调用存储器601中存储的计算机程序时执行如图4a中所示的实施例提供的目标类型数据的召回方法。
基于同一发明构思,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意方法实施例中目标类型数据的召回方法。
综上所述,本公开实施例中,获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据,再根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的,然后分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象。这样,处理设备在进行目标类型数据的召回时,能够在不依赖目标对象的兴趣标签的情况下,通过构建不同类型的数据相互之间的影响关系,实现对历史操作行为较少的目标类型数据的召回,与此同时,在对目标对象进行目标类型数据的召回时,不再局限于目标对象本身对于目标类型数据的历史操作行为,而是基于目标对象关联的各类型的兴趣数据集合,预测目标对象在目标类型数据中感兴趣的数据,能够在对于目标类型数据的历史操作行为较少的情况下,根据在不同类型的数据之间建立的对应关系,挖掘目标对象对于目标类型数据的兴趣,进而有效的召回目标对象感兴趣的目标类型数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (20)
1.一种目标类型数据的召回方法,其特征在于,包括:
获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据;
根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的;
分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象;
其中,所述向量生成模型的训练过程包括:
基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边;采用所述目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型,其中,在一轮迭代训练过程中,执行以下操作:采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,其中,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量;
所述按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,包括:根据所述目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵;基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
2.如权利要求1所述的方法,其特征在于,所述获取目标对象关联的各种类型的兴趣数据集合,包括:
分别获取目标对象对于各类数据的第一历史操作信息;
根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
3.如权利要求1所述的方法,其特征在于,分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足预设个数的待召回数据,包括:
对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度;
将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度;
根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
4.如权利要求1所述的方法,其特征在于,所述针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边,包括:
针对所述数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对所述各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边;
根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系;
基于所述连接关系,在相应的各个数据节点之间建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
5.如权利要求4所述的方法,其特征在于,所述根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,包括:
采用预设的第一有向边筛选条件,对所述第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络;
采用预设的第二有向边筛选条件,对所述第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络;
所述基于所述连接关系,在相应的各个数据节点之间分别建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边,包括:
在基于所述连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三图网络中的有向连接边和对象节点之后,生成第四图网络,并基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,以及采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,并基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
6.如权利要求5所述的方法,其特征在于,所述第一有向边筛选条件包括以下至少一项或组合:
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
7.如权利要求5所述的方法,其特征在于,所述第二有向边筛选条件包括至少一项或组合:
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边;
针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边;
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
8.如权利要求5所述的方法,其特征在于,将两个数据节点连接的相同的对象节点的总数,作为由所述两个数据节点连接得到的无向连接边的权重时,所述无向边筛选条件包括:
对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边。
9.如权利要求1所述的方法,其特征在于,所述分别根据在各个窗口中预测的数据节点的相对位置计算损失值,包括:
根据各个窗口中预测的数据节点,分别执行以下操作:
确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置;
根据skip-gram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
10.一种目标类型数据的召回装置,其特征在于,包括:
获取单元,用于获取目标对象关联的各种类型的兴趣数据集合,并获取能够被召回的各个目标类型数据;
生成单元,用于根据预先建立的数据与数据向量之间的对应关系,获得各类兴趣数据集合中的各个兴趣数据分别对应的兴趣数据向量,以及获取所述各个目标类型数据分别对应的目标数据向量,其中,所述对应关系是由向量生成模型生成的;
确定单元,用于分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足第一预设条件的待召回数据,并将各个待召回数据推荐给所述目标对象;
所述装置还包括训练单元,所述训练单元在所述向量生成模型的训练过程中用于:基于各个对象各自对于各类数据的第二历史操作信息,确定数据集合,并针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边;采用所述目标图网络对搭建的向量生成模型进行指定轮数的迭代训练,直至已训练轮数达到所述指定轮数为止,输出完成训练的向量生成模型,其中,在一轮迭代训练过程中,执行以下操作:采用向量生成模型,按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列,其中,每生成一个数据节点序列,执行以下操作:采用向量生成模型中的连续跳跃skip-gram网络,基于预设的窗口长度,在数据节点序列上移动,并分别根据在各个窗口中预测的数据节点的相对位置计算损失值,以及基于获得的损失值调整所述向量生成模型的参数,获得对应数据节点序列中的各个数据节点生成的各个数据向量;
其中,所述按照预设的序列长度,在所述目标图网络中游走生成设定数目的数据节点序列时,所述训练单元用于:根据所述目标图网络中各个连接边对应的权重,建立用于表征所述目标图网络中各个数据节点之间的连接关系的邻接矩阵,以及建立所述邻接矩阵对应的度矩阵;基于所述邻接矩阵和度矩阵,确定表征各个数据节点之间的游走概率的概率矩阵,并分别在所述目标图网络中的各个数据节点中随机选择设定数目的初始节点,以及每确定一个初始节点,分别执行以下操作:基于所述概率矩阵在所述各个数据节点中进行游走,得到预设的序列长度的一个数据节点序列。
11.如权利要求10所述的装置,其特征在于,所述获取目标对象关联的各种类型的兴趣数据集合时,所述获取单元用于:
分别获取目标对象对于各类数据的第一历史操作信息;
根据所述第一历史操作信息,从所述各类数据中筛选出满足兴趣数据筛选条件的数据,并基于筛选出的数据生成所述兴趣数据集合。
12.如权利要求10所述的装置,其特征在于,分别确定所述各个目标数据向量各自与各个兴趣数据向量之间的相似度,并基于获得的各个相似度,从各个目标类型数据中筛选出满足预设个数的待召回数据时,所述确定单元用于:
对于各个目标数据向量中的任一目标数据向量,计算该目标数据向量与各个兴趣数据向量之间的相似度;
将该目标数据向量与各个兴趣数据向量之间的相似度之和作为该目标数据向量所对应的目标类型数据与目标对象之间的相似度;
根据所有目标类型数据与目标对象之间的相似度对所有目标类型数据排序并筛选出预设个数的目标类型数据作为待召回数据。
13.如权利要求10所述的装置,其特征在于,所述针对所述数据集合中的各个数据分别生成目标图网络中的各个数据节点,以及根据建立的所述各个数据节点之间的连接关系,生成所述目标图网络中的连接边时,所述训练单元用于:
针对所述数据集合中的各个数据分别生成第一图网络中的各个数据节点,并针对所述各个对象分别生成第一图网络中的各个对象节点,以及基于各个第二历史操作信息中包括的对象对于数据的历史操作行为,在所述第一图网络中建立相应的对象节点与数据节点之间的有向连接边;
根据预设的有向边筛选条件对建立的各个有向连接边进行筛选,并基于筛选出的有向连接边,在连接相同对象节点的各个数据节点之间建立连接关系,其中,连接相同对象节点的任意两个数据节点之间存在建立的连接关系;
基于所述连接关系,在相应的各个数据节点之间建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边。
14.如权利要求13所述的装置,其特征在于,所述根据预设的有向边筛选条件对建立的各个有向连接边进行筛选时,所述训练单元用于:
采用预设的第一有向边筛选条件,对所述第一图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第二图网络;
采用预设的第二有向边筛选条件,对所述第二图网络中的有向连接边进行筛选,并基于筛选出的各个有向连接边和对应的节点,生成第三图网络;
所述基于所述连接关系,在相应的各个数据节点之间分别建立无向连接边,并基于所述第一图网络中的各个数据节点生成目标图网络中的各个数据节点,以及基于满足预设的无向边筛选条件的无向连接边,生成所述目标图网络中的连接边,包括:
在基于所述连接关系,建立所述第三图网络中相应的各个数据节点之间的无向连接边,并删除所述第三图网络中的有向连接边和对象节点之后,生成第四图网络,并基于所述第四图网络中的各个数据节点生成目标图网络中的各个数据节点,以及采用预设的无向连接边筛选条件,从第四图网络中筛选出各个无向连接边,并基于筛选出的各个无向连接边,生成所述目标图网络中的连接边。
15.如权利要求14所述的装置,其特征在于,所述第一有向边筛选条件包括以下至少一项或组合:
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应音频类型数据,且根据所述对象节点对应的对象,在指定的第一历史时段内的历史操作行为,确定该数据单次播放时长达到第一时长阈值,并存在第一类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应视频类型数据,且根据所述对象节点对应的对象,在指定的第二历史时段内的历史操作行为,确定该数据的单次播放时长达到第二时长阈值,并存在第二类预设操作中的至少一种预设操作,则筛选出所述有向连接边;
针对连接有数据节点和对象节点的有向连接边,若所述数据节点对应目标类型数据,且根据所述对象节点对应的对象,在指定的第三历史时段内的历史操作行为,确定该数据关联的播放时长达到第三时长阈值,则筛选出所述有向连接边。
16.如权利要求14所述的装置,其特征在于,所述第二有向边筛选条件包括至少一项或组合:
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应音频类型或视频类型数据,且所述有向连接边对应的行为评分,在与所述一个数据节点连接的各个有向连接边的行为评分排序结果中,对应的排序编号不超过第一设定值,则筛选出所述有向连接边;
针对与一个对象节点连接的有向连接边,若所述有向连接边对应的行为评分,在与所述一个对象节点连接的各个同类有向连接边的行为评分排序结果中,对应的排序编号不超过第二设定值,则筛选出所述有向连接边;
针对与一个数据节点连接的有向连接边,若所述一个数据节点对应目标类型数据,则筛选出所述有向连接边。
17.如权利要求14所述的装置,其特征在于,将两个数据节点连接的相同的对象节点的总数,作为由所述两个数据节点连接得到的无向连接边的权重时,所述无向边筛选条件包括:
对于连接有两个数据节点的无向连接边,在对应所述两个数据节点,分别确定各自连接的各个无向连接边的权重排序结果之后,若确定所述无向连接边的权重,在确定的任意一个权重排序结果中,对应的排序编号不超过第三设定值,则筛选出所述无向连接边。
18.如权利要求10所述的装置,其特征在于,所述分别根据在各个窗口中预测的数据节点的相对位置计算损失值时,所述训练单元用于:
根据各个窗口中预测的数据节点,分别执行以下操作:
确定一个窗口中包括的各个数据节点,并确定所述一个窗口中的中心数据节点,以及确定在所述一个窗口中,所述中心数据节点与其他数据节点之间的相对位置;
根据skip-gram网络的处理结果,确定针对各个相对位置预测得到的位置预估概率,以及基于各个位置预估概率以及对应位置的实际概率之间的取值差异,计算损失值。
19.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~9中任一所述方法的步骤。
20.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~9中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963284.4A CN113742580B (zh) | 2021-08-20 | 2021-08-20 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963284.4A CN113742580B (zh) | 2021-08-20 | 2021-08-20 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742580A CN113742580A (zh) | 2021-12-03 |
CN113742580B true CN113742580B (zh) | 2024-06-28 |
Family
ID=78732166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110963284.4A Active CN113742580B (zh) | 2021-08-20 | 2021-08-20 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742580B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443989B (zh) * | 2022-01-30 | 2023-02-03 | 北京百度网讯科技有限公司 | 排序方法、排序模型的训练方法、装置、电子设备及介质 |
CN116501976B (zh) * | 2023-06-25 | 2023-11-17 | 浙江天猫技术有限公司 | 数据推荐、模型训练、相似用户分析方法、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241311A (zh) * | 2020-01-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 媒体信息推荐方法、装置、电子设备及存储介质 |
CN112907334A (zh) * | 2021-03-24 | 2021-06-04 | 杭州网易再顾科技有限公司 | 一种对象推荐方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101923650B1 (ko) * | 2017-05-16 | 2018-11-29 | 동아대학교 산학협력단 | 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법 |
CN112424763B (zh) * | 2019-04-30 | 2023-09-12 | 抖音视界有限公司 | 对象推荐方法及装置、存储介质与终端设备 |
CN111222053A (zh) * | 2019-11-27 | 2020-06-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对象推荐方法、装置以及相关设备 |
CN111241241B (zh) * | 2020-01-08 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN111353106B (zh) * | 2020-02-26 | 2021-05-04 | 贝壳找房(北京)科技有限公司 | 推荐方法和装置、电子设备和存储介质 |
CN111444428B (zh) * | 2020-03-27 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
CN111666450B (zh) * | 2020-06-04 | 2024-04-26 | 北京奇艺世纪科技有限公司 | 视频召回方法、装置、电子设备及计算机可读存储介质 |
CN112085058A (zh) * | 2020-08-05 | 2020-12-15 | 北京三快在线科技有限公司 | 一种对象组合召回方法、装置、电子设备及存储介质 |
CN112069415B (zh) * | 2020-08-13 | 2023-11-24 | 中国海洋大学 | 一种基于异构属性网络表征学习的兴趣点推荐方法 |
CN112749946B (zh) * | 2021-01-12 | 2024-05-14 | 网易传媒科技(北京)有限公司 | 一种word2vec模型训练、数据召回方法及装置 |
-
2021
- 2021-08-20 CN CN202110963284.4A patent/CN113742580B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241311A (zh) * | 2020-01-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 媒体信息推荐方法、装置、电子设备及存储介质 |
CN112907334A (zh) * | 2021-03-24 | 2021-06-04 | 杭州网易再顾科技有限公司 | 一种对象推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113742580A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI702844B (zh) | 用戶特徵的生成方法、裝置、設備及儲存介質 | |
JP7183385B2 (ja) | ノード分類方法、モデル訓練方法並びに、その装置、機器及びコンピュータプログラム | |
CN110012356B (zh) | 视频推荐方法、装置和设备及计算机存储介质 | |
CN110781321B (zh) | 一种多媒体内容推荐方法及装置 | |
US20190364123A1 (en) | Resource push method and apparatus | |
US10459975B1 (en) | Method and system for creating an automatic video summary | |
CN109960761B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN111651671B (zh) | 用户对象推荐方法、装置、计算机设备和存储介质 | |
CN109086439A (zh) | 信息推荐方法及装置 | |
CN113742580B (zh) | 目标类型数据的召回方法、装置、电子设备及存储介质 | |
CN110413867B (zh) | 用于内容推荐的方法及*** | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112199600A (zh) | 目标对象识别方法和装置 | |
CN110765286A (zh) | 跨媒体检索方法、装置、计算机设备和存储介质 | |
CN107392311A (zh) | 序列切分的方法和装置 | |
CN113821657A (zh) | 基于人工智能的图像处理模型训练方法及图像处理方法 | |
CN111918104A (zh) | 一种视频数据的召回方法、装置、计算机设备和存储介质 | |
CN115964568A (zh) | 一种基于边缘缓存的个性化推荐方法 | |
CN112989179A (zh) | 模型训练、多媒体内容推荐方法和装置 | |
CN113742572A (zh) | 一种数据的推荐方法、装置、电子设备及存储介质 | |
CN112749946B (zh) | 一种word2vec模型训练、数据召回方法及装置 | |
CN114329231A (zh) | 对象特征处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |