CN110910209A - 一种数据处理方法、装置以及计算机可读存储介质 - Google Patents

一种数据处理方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN110910209A
CN110910209A CN201911101655.7A CN201911101655A CN110910209A CN 110910209 A CN110910209 A CN 110910209A CN 201911101655 A CN201911101655 A CN 201911101655A CN 110910209 A CN110910209 A CN 110910209A
Authority
CN
China
Prior art keywords
target
vector
behavior
business
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911101655.7A
Other languages
English (en)
Other versions
CN110910209B (zh
Inventor
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911101655.7A priority Critical patent/CN110910209B/zh
Publication of CN110910209A publication Critical patent/CN110910209A/zh
Application granted granted Critical
Publication of CN110910209B publication Critical patent/CN110910209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置以及计算机可读存储介质,该方法包括:获取包括多个业务对象的业务对象集合;获取目标用户针对多个业务对象的浏览状态,根据浏览状态和业务对象集合,确定目标用户的目标正样本集合和目标负样本集合;获取目标用户的用户行为集合;用户行为集合中包括目标用户针对多个业务对象的评价操作行为;根据评价操作行为的评价类型,在用户行为集合中获取目标用户的辅助正样本集合和辅助负样本集合;基于目标正样本集合、目标负样本集合、辅助正样本集合、辅助负样本集合和词向量模型,生成业务对象集合中的每个业务对象分别对应的对象属性向量。采用本申请,提高了所生成的业务对象的对象属性向量的准确性。

Description

一种数据处理方法、装置以及计算机可读存储介质
技术领域
本申请涉及数据处理的技术领域,尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
背景技术
随着计算机网络的不断发展,网上购物的购物方式也快速普及并流行起来。其中,购物对象的类型也是多种多样,例如针对服饰的购物、针对食品的购物以及针对虚拟货物的购物等。
其中,在用户进行网上购物的过程中,向用户推荐相关的购物对象(即商品,例如上述服饰、食品以及虚拟货币)的方式通常是将购物对象进行向量化。通过将购物对象进行向量化可以得到购物对象的向量化表示,可以用每个购物对象对应的向量化表示来表征每个购物对象的对象特征,因此,可以通过每个购物对象的向量化表示来向用户推荐适合的购物对象。
现有技术中,在对购物对象进行向量化时,是通过在模型中训练购物对象本身所具备的属性特征(例如购物对象本身的物品类型特征),进而得到购物对象的向量化表示。当通过此种方式得到的向量化表示向用户推荐购物对象时,并不能预估用户针对所推荐的购物对象感兴趣的程度,导致向用户推荐的购物对象并不准确。由此可知,通过此种方法所得到的购物对象的向量化表示并不准确。
申请内容
本申请提供了一种数据处理方法、装置以及计算机可读存储介质,丰富了针对业务对象的对象属性向量的获取方式,同时提高了所获取到的业务对象的对象属性向量的准确性。
本申请一方面提供了一种数据处理方法,包括:
获取业务对象集合,所述业务对象集合中包括多个业务对象;
获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。
其中,所述浏览状态包括已浏览状态和未浏览状态;所述根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合,包括:
根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;
根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合。
其中,所述根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合,包括:
获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象,一个正样本业务对象对应于至少一个浏览时间戳;
根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合,所述正样本序列中包括所述每个正样本业务对象分别对应的对象标识。
其中,所述根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合,包括:
将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;
根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象,所述负样本业务对象的对象数量等于所述目标数量和所述样本抽取倍数的乘积;
将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合。
其中,所述评价类型包括正面评价类型和负面评价类型;所述用户行为集合包括多个对象操作样本,一个对象操作样本包括一个业务对象的对象标识以及所述目标用户针对该业务对象的一个评价操作行为的行为标识;
所述根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合,包括:
将所述用户行为集合中,包含具有所述正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;
将所述用户行为集合中,包含具有所述负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合。
其中,所述目标正样本集合中的每个业务对象均具有对象标识;
所述基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量,包括:
在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量。
其中,所述目标负样本集合中的每个业务对象均具有对象标识;
所述基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量,包括:
基于高斯分布生成所述业务对象集合中的每个业务对象分别对应的初始向量,将每个初始向量分别与所对应的业务对象的对象标识相关联;
在所述目标负样本集合中获取第一待训练对象标识,在所述辅助正样本集合中获取第一待训练对象操作样本,在所述辅助负样本集合中获取第二待训练对象操作样本;
获取所述第一待训练对象操作样本中的行为标识所对应的第一行为权重值,获取所述第二待训练对象操作样本中的行为标识所对应的第二行为权重值;
将所述对象标识sj、所述邻居对象标识、所述第一待训练对象标识、所述第一待训练对象操作样本中的对象标识和所述第二待训练对象操作样本中的对象标识分别关联的初始向量,均确定为待训练初始向量;
基于所述待训练初始向量、所述第一行为权重值以及所述第二行为权重值,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量。
其中,还包括:
在所述业务对象集合中,获取所述目标用户对应的已浏览业务对象和评价业务对象,所述已浏览业务对象相关联的浏览用户包括所述目标用户,所述评价业务对象相关联的评价用户包括所述目标用户,所述评价用户是指对业务对象执行评价操作行为的用户;
根据所述已浏览业务对象和评价业务对象,确定所述目标用户对应的行为向量均值;
根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,所述根据所述已浏览业务对象和评价业务对象,确定所述目标用户对应的行为向量均值,包括:
获取所述已浏览业务对象对应的对象属性向量和已浏览权重值,获取所述评价业务对象对应的对象属性向量和评价操作权重数组;
将所述已浏览业务对象对应的对象属性向量确定为第一对象属性向量,将所述评价业务对象对应的对象属性向量确定为第二对象属性向量;
分别对每个第一对象属性向量与所述已浏览权重值进行乘积,得到所述每个第一对象属性向量分别对应的第一向量;
分别对每个第二对象属性向量与所述评价操作权重数组中所对应的权重值进行乘积,得到所述每个第二对象属性向量分别对应的第二向量;
对所述第一向量和所述第二向量进行求和,得到目标向量,对所述第一向量的向量数量和所述第二向量的向量数量进行求和,得到目标向量数量;
将所述目标向量与所述目标向量数量之间的比值,确定为所述目标用户对应的所述行为向量均值。
其中,所述根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户,包括:
分别获取所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离;
将与所述目标用户对应的行为向量均值之间具有最小的向量距离的对象属性向量所对应的业务对象,确定为所述目标用户对应的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,还包括:
将所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离,确定为交叉特征;
基于所述交叉特征训练推荐模型,所述推荐模型用于为所述目标用户推荐业务对象。
其中,还包括:
获取所述目标用户对应的行为向量均值,获取待匹配用户对应的行为向量均值;
若所述目标用户对应的行为向量均值与所述待匹配用户对应的行为向量均值之间的向量距离,小于第一向量距离阈值,则确定所述目标用户与所述待匹配用户之间具备用户相似性;
若所述目标用户与所述待匹配用户之间具备所述用户相似性,则根据所述待匹配用户针对业务对象的历史浏览记录向所述目标用户推荐业务对象。
其中,所述业务对象集合中的业务对象包括第三业务对象和第四业务对象;还包括:
获取所述第三业务对象对应的对象属性向量,获取所述第四业务对象对应的对象属性向量;
若所述第三业务对象对应的对象属性向量与所述第四业务对象对应的对象属性向量之间的向量距离,小于第二向量距离阈值,则确定所述第三业务对象与所述第四业务对象之间具备对象相似性;
若所述第一业务对象与所述第二业务对象之间具备所述对象相似性,且所述目标用户针对业务对象的历史浏览记录中包括所述第一业务对象,则向所述目标用户推荐所述第二业务对象。
本申请一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取业务对象集合,所述业务对象集合中包括多个业务对象;
第二获取模块,用于获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
第三获取模块,用于获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
第四获取模块,用于根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
生成模块,用于基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。
其中,所述浏览状态包括已浏览状态和未浏览状态;所述第二获取模块,包括:
第一生成单元,用于根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;
第二生成单元,用于根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合。
其中,所述第一生成单元,包括:
时间获取子单元,用于获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象,一个正样本业务对象对应于至少一个浏览时间戳;
第一添加子单元,用于根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合,所述正样本序列中包括所述每个正样本业务对象分别对应的对象标识。
其中,所述第二生成单元,包括:
倍数获取子单元,用于将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;
抽取子单元,用于根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象,所述负样本业务对象的对象数量等于所述目标数量和所述样本抽取倍数的乘积;
第二添加子单元,用于将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合。
其中,所述评价类型包括正面评价类型和负面评价类型;所述用户行为集合包括多个对象操作样本,一个对象操作样本包括一个业务对象的对象标识以及所述目标用户针对该业务对象的一个评价操作行为的行为标识;
所述第四获取模块,包括:
第一添加单元,用于将所述用户行为集合中,包含具有所述正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;
第二添加单元,用于将所述用户行为集合中,包含具有所述负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合。
其中,所述目标正样本集合中的每个业务对象均具有对象标识;
所述生成模块,包括:
第一标识获取单元,用于在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
第二标识获取单元,用于基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
更新单元,用于基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
向量确定单元,用于将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量。
其中,所述目标负样本集合中的每个业务对象均具有对象标识;
所述更新单元,包括:
向量生成子单元,用于基于高斯分布生成所述业务对象集合中的每个业务对象分别对应的初始向量,将每个初始向量分别与所对应的业务对象的对象标识相关联;
样本获取子单元,用于在所述目标负样本集合中获取第一待训练对象标识,在所述辅助正样本集合中获取第一待训练对象操作样本,在所述辅助负样本集合中获取第二待训练对象操作样本;
权重获取子单元,用于获取所述第一待训练对象操作样本中的行为标识所对应的第一行为权重值,获取所述第二待训练对象操作样本中的行为标识所对应的第二行为权重值;
向量确定子单元,用于将所述对象标识sj、所述邻居对象标识、所述第一待训练对象标识、所述第一待训练对象操作样本中的对象标识和所述第二待训练对象操作样本中的对象标识分别关联的初始向量,均确定为待训练初始向量;
更新子单元,用于基于所述待训练初始向量、所述第一行为权重值以及所述第二行为权重值,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量。
其中,所述数据处理装置,还包括:
对象获取模块,用于在所述业务对象集合中,获取目标用户对应的已浏览业务对象和评价业务对象,所述已浏览业务对象相关联的浏览用户包括所述目标用户,所述评价业务对象相关联的评价用户包括所述目标用户,所述评价用户是指对业务对象执行评价操作行为的用户;
第一确定模块,用于根据所述已浏览业务对象和评价业务对象,确定所述目标用户对应的行为向量均值;
第二确定模块,用于根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,所述第一确定模块,包括:
获取单元,用于获取所述已浏览业务对象对应的对象属性向量和已浏览权重值,获取所述评价业务对象对应的对象属性向量和评价操作权重数组;
第一确定单元,用于将所述已浏览业务对象对应的对象属性向量确定为第一对象属性向量,将所述评价业务对象对应的对象属性向量确定为第二对象属性向量;
第一乘积单元,用于分别对每个第一对象属性向量与所述已浏览权重值进行乘积,得到所述每个第一对象属性向量分别对应的第一向量;
第二乘积单元,用于分别对每个第二对象属性向量与所述评价操作权重数组中所对应的权重值进行乘积,得到所述每个第二对象属性向量分别对应的第二向量;
求和单元,用于对所述第一向量和所述第二向量进行求和,得到目标向量,对所述第一向量的向量数量和所述第二向量的向量数量进行求和,得到目标向量数量;
第二确定单元,用于将所述目标向量与所述目标向量数量之间的比值,确定为所述目标用户对应的行为向量均值。
其中,所述第二确定模块,包括:
距离获取单元,用于分别获取所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离;
第三确定单元,用于将与所述目标用户对应的行为向量均值之间具有最小的向量距离的对象属性向量所对应的业务对象,确定为所述目标用户对应的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,所述数据处理装置,还包括:
第三确定模块,用于将所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离,确定为交叉特征;
训练模块,用于基于所述交叉特征训练推荐模型,所述推荐模型用于为所述目标用户推荐业务对象。
其中,所述数据处理装置,还包括:
均值获取模块,用于获取所述目标用户对应的行为向量均值,获取待匹配用户对应的行为向量均值;
第一相似模块,用于若所述目标用户对应的行为向量均值与所述待匹配用户对应的行为向量均值之间的向量距离,小于第一向量距离阈值,则确定所述目标用户与所述待匹配用户之间具备用户相似性;
第一推荐模块,用于若所述目标用户与所述待匹配用户之间具备所述用户相似性,则根据所述待匹配用户针对业务对象的历史浏览记录向所述目标用户推荐业务对象。
其中,所述业务对象集合中的业务对象包括第三业务对象和第四业务对象;所述数据处理装置,还包括:
向量获取模块,用于获取所述第三业务对象对应的对象属性向量,获取所述第四业务对象对应的对象属性向量;
第二相似模块,用于若所述第三业务对象对应的对象属性向量与所述第四业务对象对应的对象属性向量之间的向量距离,小于第二向量距离阈值,则确定所述第三业务对象与所述第四业务对象之间具备对象相似性;
第二推荐模块,用于若所述第一业务对象与所述第二业务对象之间具备所述对象相似性,且所述目标用户针对业务对象的历史浏览记录中包括所述第一业务对象,则向所述目标用户推荐所述第二业务对象。
本申请一方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。
本申请首先获取业务对象集合;所述业务对象集合中包括多个业务对象;获取所述多个业务对象的浏览状态,根据所述浏览状态,在所述业务对象集合中获取目标正样本集合和目标负样本集合;获取所述业务对象集合对应的用户行为集合;所述用户行为集合中包括用户群针对所述多个业务对象的评价操作行为;根据所述评价操作行为的评价类型,在所述用户行为集合中获取辅助正样本集合和辅助负样本集合;基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。由此可见,本申请提出的方法可以通过用户群针对业务对象的评价操作,来生成业务对象的对象属性向量,丰富了针对业务对象的对象属性向量的生成方式。并且,在生成业务对象的对象属性向量的过程中,不仅考虑到了业务对象的浏览状态,而且考虑到了用户群针对业务对象不同类型的评价操作行为,提高了所生成的业务对象的对象属性向量的准确性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请提供的一种***架构示意图;
图1b是本申请提供的一种数据推荐的场景示意图;
图2是本申请提供的一种数据处理方法的流程示意图;
图3是本申请提供的另一种数据处理方法的流程示意图;
图4是本申请提供的一种获取样本集合的场景示意图;
图5是本申请提供的另一种获取样本集合的场景示意图;
图6是本申请提供的一种样本选取的场景示意图;
图7是本申请提供的一种获取行为向量均值的场景示意图;
图8是本申请提供的一种获取交叉特征的场景示意图;
图9是本申请提供的一种推荐业务对象的场景示意图;
图10是本申请提供的另一种推荐业务对象的场景示意图;
图11是本申请提供的一种数据处理装置的结构示意图;
图12是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1a,是本申请提供的一种***架构示意图。如图1a所示,所述***架构示意图包括服务器100和多个终端设备(具体包括终端设备200a、终端设备200b和终端设备200c)。终端设备200a、终端设备200b和终端设备200c可以通过网络与服务器100之间相互通信。其中,终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)。此处以终端设备200a与服务器之间的通信为例进行说明。
请一并参见图1b,是本申请提供的一种数据推荐的场景示意图。如图1b所示,业务对象集合101a中可以包括多个业务对象,具体的,该多个业务对象可以指两个或者两个以上的业务对象。此处以业务对象集合101a中包括10个业务对象(具体包括业务对象y1、业务对象y2、业务对象y3、业务对象y4、业务对象y5、业务对象y6、业务对象y7、业务对象y8、业务对象y9和业务对象y10)为例进行说明,业务对象集合101a中的业务对象的数量可以根据实际应用场景决定,对此不作限制。其中,上述y1、y2、y3、y4、y5、y6、y7、y8、y9和y10分别为所对应的业务对象的对象标识,该对象标识用于唯一表示对应的业务对象。在不同的应用场景中,业务对象可以指不同的物品。例如,在服饰购买场景中,业务对象集合101a可以是所有出售中的服饰构成的集合,则一个业务对象可以指出售中的任意一件服饰。再例如,在基金购买场景中,业务对象集合101a可以是所有的基金构成的集合,则一个业务对象可以指任意一只基金。
支持目标用户m通过所持有的终端200a,点击并浏览业务对象集合101a中的任意一个业务对象。终端200a可以将获取到的目标用户针对业务对象的点击行为告知服务器100,因此,服务器100可以知道业务对象集合101a中哪些业务对象被目标用户m点击过以及何时被点击过,哪些业务对象没有被目标用户m点击过。如图1b所示,服务器100可以获取到目标用户m对应的集合102a和集合103a。其中,集合102a中包括对象标识y1、对象标识y2、对象标识y3和对象标识y4,表征目标用户m点击过业务对象y1、业务对象y2、业务对象y3和业务对象y4,即集合102a是由目标用户m点击过的所有业务对象的对象标识所构成的集合。此外,集合102a中的对象标识具有排列顺序,该排列顺序是根据目标用户m点击业务对象的点击时间决定的。具体为:目标用户m点击业务对象y1的时间早于点击业务对象y2的时间,点击业务对象y2的时间早于点击业务对象y3的时间,点击业务对象y3的时间早于点击业务对象y4的时间。集合103a中包括对象标识y5、对象标识y6、对象标识y7、对象标识y8、对象标识y9和对象标识y10,集合103a是由目标用户没有点击过的所有业务对象的对象标识所构成的集合。事实上,在实际的应用场景中,目标用户m点击过的业务对象通常会远远少于未点击过的业务对象,因此,可以将目标用户m点击过的所有业务对象的对象标识添加至集合102a,而将目标用户未点击过的业务对象中的部分业务对象(可以随机采取)的对象标识添加至集合103a。可以按照集合103a中的对象标识的数量为集合102a中的对象标识的数量的5倍(可以设置其他适用的倍数),来获取集合103a。可以将上述集合102a中的对象标识所对应的业务对象作为正样本业务对象,因此可以将集合102a称之为目标正样本集合。同理,可以将上述集合103a中的对象标识所对应的业务对象作为负样本业务对象,因此可以将集合103a称之为目标负样本集合。
支持目标用户m通过所持有的终端200a对业务对象集合101a中的业务对象执行评价操作行为。其中,评价操作行为的评价类型可以包括正面评价类型和负面评价类型。正面评价类型的评价操作行为指可以表征目标用户m对业务对象具有好感的行为(例如目标用户m针对业务对象的收藏、转发的行为),负面评价类型的评价操作行为指可以表征目标用户m对业务对象不具有好感的行为(例如目标用户m针对业务对象的负反馈以及差评的行为)。终端200a可以将获取到的目标用户针对业务对象的评价操作行为告知服务器100,使得服务器100可以知道目标用户m对业务对象集合101a中的每个业务对象执行了哪些评价操作行为以及执行评价操作行为的时间。服务器100可以获取到集合104a和集合105a。集合104a中包括对象操作样本113a、对象操作样本114a和对象操作样本115a。其中,对象操作样本113a是当目标用户m对业务对象y3执行评价操作行为z1(z1为对应的评价操作行为的行为标识)后获取到的,因此,对象操作样本113a中包括业务对象y3的对象标识y3以及评价操作行为z1的行为标识z1,即对象操作样本113a中包括对象标识y3和行为标识z1之间的关联关系。对象操作样本114a是当目标用户m对业务对象y5执行评价操作行为z2(z2为对应的评价操作行为的行为标识)后获取到的,因此,对象操作样本114a中包括业务对象y5的对象标识y5以及评价操作行为z2的行为标识z2,即对象操作样本114a中包括对象标识y5和行为标识z2之间的关联关系。对象操作样本115a是当目标用户m对业务对象y6执行评价操作行为z3(z3为对应的评价操作行为的行为标识)后获取到的,因此,对象操作样本115a中包括业务对象y6的对象标识y6以及评价操作行为z3的行为标识z3,即对象操作样本115a中包括对象标识y6和行为标识z3之间的关联关系。其中,集合104a中的对象操作样本中的行为标识z1、行为标识z2和行为标识z3均是正面评价类型的评价操作行为所对应的行为标识,即集合104a中的对象操作样本是在目标用户m对业务对象执行正面评价类型的评价操作行为后所采集到的。例如,评价操作行为z1、评价操作行为z2和评价操作行为z3均可以是点赞行为、转发行为或者收藏行为中的任意一种行为。集合105a中包括对象操作样本116a和对象操作样本117a,对象操作样本116a是当目标用户m对业务对象y4执行评价操作行为z4(z4为对应的评价操作行为的行为标识)后获取到的,因此,对象操作样本116a中包括业务对象y4的对象标识y4以及评价操作行为z4的行为标识z4,即对象操作样本116a中包括对象标识y4和行为标识z4之间的关联关系。对象操作样本117a是当目标用户m对业务对象y9执行评价操作行为z5(z5为对应的评价操作行为的行为标识)后获取到的,因此,对象操作样本117a中包括业务对象y9的对象标识y9以及评价操作行为z5的行为标识z5,即对象操作样本117a中包括对象标识y9和行为标识z5之间的关联关系。其中,集合105a中的对象操作样本中的行为标识z4和行为标识z5均是负面评价类型的评价操作行为所对应的行为标识,即集合105a中的对象操作样本是在目标用户m对业务对象执行负面评价类型的评价操作行为后所采集到的。例如,评价操作行为z4和评价操作行为z5均可以是目标用户m对业务对象点击不感兴趣的行为或者执行差评的行为中的任意一种行为。此外,上述任意一个行为标识均对应于一个训练权重,即上述行为标识z1、行为标识z2、行为标识z3、行为标识z4和行为标识z5均分别对应于一个训练权重,该训练权重可以根据实际应用场景自行设置,训练权重的取值范围为0到1,训练权重越大,表明对应的评价操作行为对模型训练的影响越大。例如当评价操作行为为针对业务对象的点赞行为,则可以设置该评价操作行为的行为标识对应的训练权重为0.3,当评价操作行为为针对业务对象的收藏行为,则可以设置该评价操作行为的行为标识对应的训练权重为0.7。
服务器100可以通过上述获取到的集合102a、集合103a、集合104a和集合105a对词向量模型106a进行训练。首先,服务器100可以从集合102a中获取到一个对象标识,作为中心对象标识(可以是102a中的任意一个对象标识)。由于集合102a中的对象标识具有顺序,因此服务器100可以获取到针对该中心对象标识的周围对象标识(即在集合102a中处于中心对象标识附近的对象标识)。服务器100可以通过获取到的中心对象标识以及周围对象标识,进一步获取到针对中心对象标识的标识对。举个例子,若在集合102a中获取到对象标识y2作为中心对象标识,则该中心对象标识的周围对象标识可以是对象标识y1和对象标识y3,则获取到的针对中心对象标识y2的标识对为(y2,y1)和(y2,y3)。接着,服务器可以从集合103a中随机获取对象标识,作为待训练对象标识,获取到的对象标识可以是1个,即获取到的待训练对象标识可以是一个,并根据该待训练对象标识可以获取到针对中心对象标识的另一个训练对。举个例子,若在集合103a中获取到对象标识y5作为待训练对象标识,则可以获取到上述中心对象标识y2的一个标识对为(y2,y5)。服务器100还可以从集合104a中随机获取对象操作样本,作为训练对象,获取到的对象操作样本可以是1个,即获取到的训练对象可以是一个,并根据该训练对象可以获取到针对中心对象标识的另一个标识对。举个例子,若在集合104a中获取到对象操作样本113a作为训练对象,则可以获取到上述中心对象标识y2的一个标识对为(y2,y3)。此外,服务器还可以获取到对象操作样本113a中的行为标识z1对应的训练权重。服务器100还可以从集合105a中随机获取对象操作样本,作为训练对象,获取到的对象操作样本可以是1个,即获取到的训练对象可以是一个,并根据该训练对象可以获取到针对中心对象标识的另一个标识对。举个例子,若在集合105a中获取到对象操作样本116a作为训练对象,则可以获取到上述中心对象标识y2的一个标识对为(y2,y4),此外,还可以获取到对象操作样本116a中的行为标识z4对应的训练权重。
可以将上述根据集合102a所获取到的每个标识对均称之为中心标识对,当对一个中心对象标识对应的每个中心标识对均训练完成时,表明对该个中心对象标识训练完成,一个中心标识对对词向量模型106a进行一次训练。例如,选择上述中心对象标识y2对应的标识对(y2,y1)进行第一次训练,则服务器100可以通过上述获取到标识对(y2,y1)、标识对(y2,y5)、标识对(y2,y3)、标识对(y2,y4)、行为标识z1对应的训练权重和行为标识z4对应的训练权重,对词向量模型106a进行第一次训练。服务器100可以遍历集合102a中的每个对象标识,将集合102a中的每个对象标识均作为中心对象标识依次进行词向量模型106a的训练。每个中心对象标识的训练过程相同,后一个中心对象标识在前一个中心对象标识训练后的基础上继续进行训练。当对目标用户m对应的所有中心对象标识均训练完成时,表明对目标用户m的训练完成。当存在多个目标用户时,可以通过与上述目标用户m相同的训练方式来对每个目标用户进行训练,当对所有的目标用户训练完成时,表明对词向量模型106a训练完成。需要进行说明的是,上述所说的训练均是指在词向量模型106a中更新业务对象集合中的每个业务对象对应的向量(一开始为初始向量,被更新过之后为更新后的初始向量),具体为:服务器100会生成业务对象集合101a中的每个业务对象的初始向量,并将每个业务对象的初始向量输入到上述词向量模型106a中,每个初始向量均与对应的业务对象的对象标识相互关联,即可以通过业务对象的对象标识获取到所对应的初始向量,因此,可以通过上述获取到的标识对进行词向量模型106a的训练,训练过程中对业务对象集合中的每个业务对象对应的向量不断进行更新。
服务器100可以通过训练完成的词向量模型106a,输出业务对象集合101a中的每个业务对象分别对应的对象属性向量,该对象属性向量即是在词向量模型106a中更新完成的业务对象所对应的向量。此处,集合107a中包括上述业务对象集合101a中的每个业务对象分别对应的对象属性向量,具体为:向量c1为业务对象y1对应的对象属性向量,向量c2为业务对象y2对应的对象属性向量,向量c3为业务对象y3对应的对象属性向量,向量c4为业务对象y4对应的对象属性向量,向量c5为业务对象y5对应的对象属性向量,向量c6为业务对象y6对应的对象属性向量,向量c7为业务对象y7对应的对象属性向量,向量c8为业务对象y8对应的对象属性向量,向量c9为业务对象y9对应的对象属性向量,向量c10为业务对象y10对应的对象属性向量。
服务器100可以通过获取到的集合101a中的每个业务对象对应的对象属性向量,计算出目标用户m对应的行为向量均值c11。具体过程为:对目标用户m点击过的每个业务对象对应的对象属性向量以及执行过评价操作行为的每个业务对象对应的对象属性向量,进行求和(求和时,可以对每个对象属性向量进行加权求和,例如,点击对应于一个权重,每种评价操作行为分别对应于一个权重)。接着,服务器可以计算求和后所得到的向量与被求和的向量的总数量之间的比值,将该比值作为目标用户m对应的行为向量均值c11。可以计算上述集合107a中的每个对象属性向量与行为向量均值c11之间的向量距离,得到集合109a,集合109a中包括每个对象属性向量与行为向量均值c11之间的向量距离。具体为:距离j1为对象属性向量c1对应的向量距离,距离j2为对象属性向量c2对应的向量距离,距离j3为对象属性向量c3对应的向量距离,距离j4为对象属性向量c4对应的向量距离,距离j5为对象属性向量c5对应的向量距离,距离j6为对象属性向量c6对应的向量距离,距离j7为对象属性向量c7对应的向量距离,距离8为对象属性向量c8对应的向量距离,距离j9为对象属性向量c9对应的向量距离,距离j10为对象属性向量c10对应的向量距离。某个对象属性向量对应的向量距离越小,表明目标用户m对该对象属性向量对应的业务对象感兴趣的可能性越大。服务器100可以比较上述集合109a中的每个向量距离的数值之间的大小,将集合109a中数值最小的向量距离所对应的业务对象作为目标业务对象(此处以距离c9最小为例,即目标业务对象为业务对象y9),并将该目标业务对象发送给目标用户m对应的终端设备200a。终端设备200a可以在“为您推荐”的推荐页面,向目标用户m推荐该目标业务对象。此处以目标业务对象为“基金1”为例,终端设备200a可以在“为您推荐”的推荐页面,显示“基金1”的图标111a以及“基金1”的名称110a。当目标用户m点击图标111a或者名称110a时,终端200a可以跳转显示到“基金1”的购买页面,在“基金1”的购买页面包括“基金1”的图标、基金类型、发行体、组织形态以及购买按钮112a,从而达到向目标用户m推荐“基金1”进行购买的目的。
通过本申请,在获取业务对象对应的对象属性向量时,不仅考虑到了业务对象的曝光度(通过用户的点击行为决定),而且还考虑到了用户针对业务对象的多样化行为(即多样化的评价操作行为,例如点赞、转发、收藏以及负反馈等行为)以及每种行为对模型学习的影响程度(通过评价操作行为的行为标识对应的训练权重决定),不仅丰富了业务对象的对象属性向量的获取方式,而且使得所获取到的业务对象的对象属性向量更加准确。
请参见图2,是本申请提供的一种数据处理方法的流程示意图,如图2所示,所述方法可以包括:
步骤S101,获取业务对象集合;所述业务对象集合中包括多个业务对象;
具体的,服务器可以获取业务对象集合,该业务对象集合中包括多个业务对象,在不同的业务场景中,该多个业务对象可以指不同的物品,该物品可以是真实的物品(如服饰),也可以是虚拟的物品(如虚拟币)。例如,在服饰购买的场景中,该多个业务对象可以指多件服饰;在书籍阅读的场景中,该多个业务对象可以指多本书籍;在基金购买的场景中,该多个业务对象可以指多只基金;在虚拟皮肤(例如游戏中,虚拟人物的皮肤)的购买场景中,上述多个业务对象可以指多个虚拟皮肤。即上述业务对象可以是可供用户进行用户操作(包括浏览、点击、点赞、转发、收藏、点击不感兴趣、意见反馈和/或购买等用户操作)的任意物品。
步骤S102,获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
具体的,服务器可以获取目标用户针对业务对象集合中的每个业务对象的浏览状态,该浏览状态包括已浏览状态和未浏览状态。其中,目标用户通过终端设备点击过的业务对象的浏览状态为已浏览状态(点击过即表明浏览过),目标用户未通过终端设备点击过的业务对象的浏览状态为未浏览状态。终端设备可以响应目标用户在终端界面中对业务对象的点击操作,生成点击信息,该点击信息中还包括目标用户针对业务对象的点击时间。终端可以将该点击信息发送给服务器,使得服务器可以通过该点击信息知道业务对象集合中哪些业务对象的浏览状态为已浏览状态(以及每个浏览状态为已浏览状态的业务对象的浏览时间,该浏览时间即是目标用户针对业务对象的点击时间),哪些业务对象的浏览状态为未浏览状态。服务器可以将目标用户对应的为已浏览状态的业务对象作为正样本,将目标用户对应的为未浏览状态的业务对象作为负样本。进而服务器可以通过正样本,得到目标用户对应的目标正样本集合,通过负样本,得到目标用户对应的目标负样本集合。
步骤S103,获取所述目标用户对应的用户行为集合;所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
具体的,目标用户的终端设备可以响应目标用户针对业务对象的评价操作行为,生成评价信息。终端设备可以将该评价信息发送给服务器,服务器可以通过该评价信息知道业务对象集合中每个业务对象被目标用户执行了哪些评价操作行为,进而服务器可以获取到目标用户针对业务对象集合的用户行为集合。该用户行为集合中包括目标用户针对业务对象集合中的每个业务对象的评价操作行为,该评价操作行为可以是能在一定程度上表征目标用户针对业务对象的兴趣(包括正面的兴趣以及负面的兴趣)的行为。例如,评价操作行为可以是目标用户针对业务对象的转发、收藏、点赞、购买以及点击不感兴趣等行为,其中,目标用户针对业务对象的转发、收藏、点赞和购买的行为表征了目标用户针对业务对象正面的兴趣,目标用户针对业务对象的点击不感兴趣的行为表征了目标用户针对业务对象负面的兴趣。
步骤S104,根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
具体的,上述评价操作行为具备两种评价类型,一种是正面评价类型的评价操作行为,例如点赞、收藏、转发等能表征目标用户针对业务对象的正面的兴趣的行为,一种是负面评价类型的评价操作行为,例如点击不感兴趣等能表征目标用户针对业务对象的负面的兴趣的行为。服务器可以在用户行为集合中,获取业务对象对应的正面评价类型的评价操作行为,构成辅助正样本集合,获取业务对象对应的负面评价类型的评价操作行为,构成辅助负样本集合。
步骤S105,基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量;
具体的,服务器可以通过上述获取到的目标用户对应的目标正样本集合、目标负样本集合、辅助正样本集合以及辅助负样本集合训练词向量模型,进而通过训练完成的词向量模型,输出业务对象集合中的每个业务对象对应的对象属性向量。其中,对词向量模型进行训练的具体过程可以参见下述步骤S205-步骤S207。当存在多个目标用户时,可以分别获取每个目标用户对应的目标正样本集合、目标负样本集合、辅助正样本集合以及辅助负样本集合,进而可以通过每个目标用户分别对应的目标正样本集合、目标负样本集合、辅助正样本集合以及辅助负样本集合,依次训练词向量模型。获取每个目标用户对应的目标正样本集合、目标负样本集合、辅助正样本集合以及辅助负样本集合的过程也是相互独立的,即某个目标用户对应的目标正样本集合、目标负样本集合、辅助正样本集合以及辅助负样本集合只与该个目标用户自己相关,而与其他目标用户无关。词向量模型针对每个目标用户的训练过程相同且独立,后一个目标用户在前一个目标用户对词向量模型训练后的基础上继续进行训练,直到所有目标用户均已被训练完成,则表明词向量模型训练完成。词向量模型针对每个目标用户的训练顺序对模型训练结果不造成影响,即不限定针对多个目标用户之间的训练顺序。
通过上述过程,即完成了对业务对象集合中的每个业务对象的向量化,得到了每个业务对象的向量化表示(即对象属性向量)。每个业务对象对应的对象属性向量分别具备了每个业务对象的向量化特征,该向量化特征是通过目标用户针对业务对象的多样化的用户操作(包括点击行为和各种评价操作行为)所得到的。
本申请首先获取业务对象集合;所述业务对象集合中包括多个业务对象;获取所述多个业务对象的浏览状态,根据所述浏览状态,在所述业务对象集合中获取目标正样本集合和目标负样本集合;获取所述业务对象集合对应的用户行为集合;所述用户行为集合中包括用户群针对所述多个业务对象的评价操作行为;根据所述评价操作行为的评价类型,在所述用户行为集合中获取辅助正样本集合和辅助负样本集合;基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。由此可见,本申请提出的方法可以通过用户群针对业务对象的评价操作,来生成业务对象的对象属性向量,丰富了针对业务对象的对象属性向量的生成方式。并且,在生成业务对象的对象属性向量的过程中,不仅考虑到了业务对象的浏览状态,而且考虑到了用户群针对业务对象不同类型的评价操作行为,提高了所生成的业务对象的对象属性向量的准确性。
请参见图3,是本申请提供的另一种数据处理方法的流程示意图,如图3所示,所述方法可以包括:
步骤S201,获取业务对象集合;所述业务对象集合中包括多个业务对象;
具体的,步骤S201的具体实现方式可以参见图2对应的实施例中对步骤S101的描述,这里不再进行赘述。
步骤S202,获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态为已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;根据所述浏览状态为未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合;
具体的,业务对象集合中的每个业务对象均具有对象标识,该对象标识用于唯一表示每个业务对象,某个业务对象的对象标识可以是该个业务对象的名称或者为该个业务对象设置的符号串。服务器如何获取目标用户针对业务对象集合中的多个业务对象的浏览状态的方式可以参见上述步骤S102。
服务器可以为业务对象集合中的每个业务对象设置对象标识,每个业务对象的对象标识用于唯一表示对应的业务对象,一个业务对象对应于一个对象标识。服务器可以根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合:获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象;根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合:
服务器可以获取到每个浏览状态为已浏览状态的业务对象对应的浏览时间戳,1个业务对象可以对应于1个或者多个浏览时间戳,某个业务对象对应的浏览时间戳即是目标用户针对该业务对象的浏览时间对应的时间点(即目标用户点击该业务对象的点击时间的时间点)。服务器可以设定样本采集的时间段(即目标时间段),服务器可以将上述浏览时间戳在该目标时间段内的业务对象作为正样本业务对象。服务器可以根据该正样本业务对象对应的在目标时间段内的时间戳以及对象标识,生成正样本序列。例如,可以设置目标时间段为1个月,该个月是哪一个月可以实际应用场景自行决定。当某个业务对象对应于3个浏览时间戳,其中,有2个浏览时间戳在上述目标时间段内,有1个浏览时间戳不在上述目标时间段内,则将不在目标时间段内的那1个浏览时间戳舍弃,只取在目标时间段内的那2个浏览时间戳,用于生成正样本序列。举个例子,请参见图4,是本申请提供的一种获取样本集合的场景示意图。如图4所示,业务对象集合102e中包括业务对象A、业务对象B、业务对象C、业务对象D、业务对象E、业务对象F、业务对象G、业务对象H、业务对象I、业务对象J、业务对象K和业务对象L,其中,A,B,C,D,E,F,G,H,I,J,K,L均为对应的业务对象的对象标识。目标用户在目标时间段内依次点击(即浏览时间戳依次增大)了业务对象A、业务对象B、业务对象C、业务对象A、业务对象C、业务对象D、业务对象E,即业务对象A、业务对象B、业务对象C、业务对象D和业务对象E均为正样本业务对象,业务对象A和业务对象C在目标时间段内均分别对应有2个时间戳,业务对象B、业务对象D和业务对象E在目标时间段内均分别对应有1个时间戳。可以按照浏览时间戳依次增大(即点击时间从早到晚)的顺序,根据正样本业务对象的对象标识生成正样本序列,此处,得到的正样本序列即为序列100e,序列100e为A→B→C→A→C→D→E。可以将生成的正样本序列添加至目标正样本集合,得到目标正样本集合101e,即目标正样本集合中的对象标识具有顺序,该顺序即是目标用户针对对应的业务对象的点击顺序。
服务器可以根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合:将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象;将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合:
通常,在目标时间段内,浏览状态为未浏览状态的业务对象的数量会远远大于浏览状态为已浏览状态的业务对象的数量,因此,在采集负样本业务对象时,可以按照负样本业务对象的数量为正样本业务对象的数量(即目标数量)的倍数(即负样本抽取倍数,例如5倍),在目标时间段内浏览状态为未浏览状态的所有业务对象中随机抽取负样本业务对象。例如,当正样本业务对象的数量为20个,并且负样本抽取倍数为5倍,那么可以在目标时间段内浏览状态为未浏览状态的业务对象中随机抽取100个业务对象作为负样本业务对象。可以理解的是,在目标时间段内浏览状态为未浏览状态的业务对象的数量较少时,也可以将目标时间段内浏览状态为未浏览状态的所有业务对象均作为负样本业务对象。可选的,还可以在目标时间段内浏览状态为未浏览状态的业务对象中,随机抽取数量为目标正样本集合中的对象标识的数量的倍数(例如5倍)的业务对象,作为负样本业务对象。如图4所示,在目标时间段内,业务对象集合102e中浏览状态为已浏览状态的业务对象包括业务对象A、业务对象B、业务对象C、业务对象D和业务对象E,浏览状态为未浏览状态的业务对象包括业务对象F、业务对象G、业务对象H、业务对象I、业务对象J、业务对象K和业务对象L,可以将业务对象F、业务对象G、业务对象H、业务对象I、业务对象J、业务对象K和业务对象L均作为负样本业务对象,则根据负样本业务对象的对象标识得到的目标负样本集合103e中包括对象标识F、对象标识G、对象标识H、对象标识I、对象标识J、对象标识K和对象标识L。
步骤S203,获取所述目标用户对应的用户行为集合;所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
具体的,服务器获取目标用户针对业务对象的评价操作行为的方式可以参见上述步骤S103。服务器可以获取到目标用户对应的用户行为集合,该用户行为集合中包括目标用户针对业务对象集合中的每个业务对象的评价操作行为。具体为,服务器可以为每个评价操作行为设置行为标识,每个评价操作行为的行为标识用于唯一表示对应的评价操作行为,一种评价操作行为对应于一个行为标识。该上述用户行为集合中可以包括多个对象操作样本,一个对象操作样本中包括一个业务对象的对象标识以及目标用户针对该业务对象的一个评价操作行为的行为标识。例如,若目标用户对业务对象A执行了点赞,点赞为一种评价操作行为,点赞对应的行为标识可以是x1,则业务对象A和点赞x1之间所构成的对象操作样本中可以包括对象标识A和行为标识x1,表明了目标用户对业务对象A执行了评价操作行为x1。再例如,目标用户又对业务对象A执行了转发,转发为一种评价操作行为,转发对应的行为标识可以是x3,则对应的对象操作样本中可以包括对象标识A和行为标识x3。若目标用户对同一个业务对象执行了多次相同的评价操作行为,则每执行一次评价操作就对应有一个对象操作样本,即一个业务对象可以对应有多个对象操作样本,该多个对象操作样本是相同的,只是每个对象操作样本中的行为标识对应的评价操作行为被目标用户所执行的时间不同。可以理解的是,目标用户针对业务对象的每一次评价操作行为都对应有一个对象操作样本,每个对象操作样本中的对象标识和行为标识均可以相同,也可以不同,每个对象操作样本中的行为标识对应的评价操作行为被目标用户所执行的时间不同。其中,服务器所获取到的用户行为集合中的每个对象操作样本中,所包含的行为标识对应的评价操作行为均是在目标时间段内被目标用户执行的,即上述目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合中的样本均是在同一目标时间段内获取到的。
步骤S204,将所述用户行为集合中,包含具有正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;将所述用户行为集合中,包含具有负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合;
具体的,由上述步骤S104可以知道评价操作行为的评价类型包括正面评价类型和负面评价类型。因此,服务器可以将用户行为集合中,包含正面评价类型的评价操作行为的行为标识的对象操作样本,作为第一对象操作样本,例如,可以将包括点赞、转发和收藏等评价操作行为的行为标识的对象操作样本,作为第一对象操作样本。可以将所有第一对象操作样本添加至辅助正样本集合,即辅助正样本集合是由正面评价类型的评价操作行为所对应的的对象操作样本所构成的。同理,可以将用户行为集合中,包含负面评价类型的评价操作行为的行为标识的对象操作样本,作为第二对象操作样本,例如,可以将包括点击不喜欢和负反馈等评价操作行为的行为标识的对象操作样本,作为第二对象操作样本。可以将所有第二对象操作样本添加至辅助负样本集合,即辅助负样本集合是由负面评价类型的评价操作行为所对应的的对象操作样本所构成的。
请参见图5,是本申请提供的另一种获取样本集合的场景示意图。如图5所示,A、B、D、H和I均为业务对象的对象标识,x1、x2、x3、x4和x5均为评价操作行为的行为标识。其中,行为标识x1用于表示点赞的评价操作行为,行为标识x2用于表示负反馈的评价操作行为,行为标识x3用于表示转发的评价操作行为,行为标识x4用于表示收藏的评价操作行为,x5用于表示分享的评价操作行为。此处,行为1、行为2、行为3、行为4、行为5、行为6和行为7为目标用户在目标时间段内的行为,并且,行为1到行为7的行为执行时间逐渐变晚,即在行为1到行为7的7个行为中,目标用户最先执行行为1,最晚执行行为7。目标用户的行为1表示对业务对象A执行了点赞,行为2表示对业务对象B执行了点赞,行为3表示对业务对象D执行了负反馈(例如差评),行为4表示对业务对象A执行了点赞,行为5表示对业务对象A执行了转发,行为6表示对业务对象H执行了收藏,行为7表示对业务对象I执行了分享。其中,通过行为1可以得到对象操作样本100f,对象操作样本100f中包括对象标识A和行为标识x1;通过行为2可以得到对象操作样本101f,对象操作样本101f中包括对象标识B和行为标识x1;通过行为3可以得到对象操作样本102f,对象操作样本102f中包括对象标识D和行为标识x2;通过行为4可以得到对象操作样本103f,对象操作样本103f中包括对象标识A和行为标识x1;通过行为5可以得到对象操作样本104f,对象操作样本104f中包括对象标识A和行为标识x3;通过行为6可以得到对象操作样本105f,对象操作样本105f中包括对象标识H和行为标识x4;通过行为7可以得到对象操作样本106f,对象操作样本106f中包括对象标识I和行为标识x5。可以将上述对象操作样本100f、对象操作样本101f、对象操作样本102f、对象操作样本103f、对象操作样本104f、对象操作样本105f和对象操作样本106f所构成的集合称之为上述用户行为集合。其中,点赞、转发、收藏和分享的评级操作行为为正面评价类型的评价操作行为,负反馈的评价操作行为为负面评价类型的评价操作行为,因此,可以将用户行为集合中的对象操作样本100f、对象操作样本101f、对象操作样本103f、对象操作样本104f、对象操作样本105f和对象操作样本106f均作为第一对象操作样本,将对象操作样本102f作为第二对象操作样本。因此,可以得到由第一对象操作样本所构成的辅助正样本集合107f,得到由第二对象操作样本所构成的辅助负样本集合108f。
步骤S205,在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
具体的,服务器可以在目标用户对应的目标正样本集合中获取对象标识sj作为中心对象标识,其中,j为小于或等于N的正整数,即1≤j≤N,N为目标正样本集合中的对象标识的数量,对象标识sj可以是目标正样本集合中的任意一个对象标识。实际上,会对目标正样本集合中的所有对象标识进行遍历,依次将目标正样本集合中的每个对象标识选作为中心对象标识。此处以选出对象标识sj作为中心对象标识为例进行说明。
步骤S206,基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
具体的,服务器可以通过具有目标步长的遍历窗口,在目标正样本集合中获取对象标识sj对应的邻居对象标识。其中,由于目标正样本集合中的对象标识具有排列顺序,即目标正样本集合中的对象标识实际上是一个序列,因此,对象标识sj对应的邻居对象标识是指以对象标识sj为中心,该中心周围的对象标识,因此,对象标识sj也可以称之为中心对象标识。其中,目标步长决定了获取到的对象标识sj对应的邻居对象标识的数量。举个例子,当目标步长为1,则可以通过遍历窗口将目标正样本集合中,处于对象标识sj左边的1个对象标识以及处于对象标识sj右边的1个对象标识作为对象标识sj的邻居对象标识;当目标步长为2,则可以通过遍历窗口将目标正样本集合中,处于对象标识sj左边的2个对象标识以及处于对象标识sj右边的2个对象标识作为对象标识sj的邻居对象标识。通过上述遍历窗口,可以遍历得到目标正样本集合中的每个对象标识的邻居对象标识。
步骤S207,基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
具体的,服务器可以基于高斯分布随机生成业务对象集合中的每个业务对象分别对应的初始向量,并将每个初始向量分别与所对应的业务对象的对象标识相关联,即通过一个业务对象的对象标识可以获取到该个业务对象对应的初始向量。下述所说的对对象标识进行训练实际上是对对象标识对应的初始向量进行训练。
上述获取到的对象标识sj的邻居对象标识有多个,首先可以在获取到的多个邻居对象标识中选出一个进行训练,可以理解的是,服务器会对每一个邻居对象标识进行训练,多个邻居对象标识的训练顺序对训练结果没有影响,每个邻居对象标识的训练方式相同,后一个邻居对象标识在前一个邻居对象标识训练后的基础上继续进行训练。在选择了一个用于训练词向量模型的邻居对象标识之后,服务器需要在目标负样本集合中随机获取一个或者多个对象标识(选出的对象标识的数量根据实际应用场景决定,这里不作限制,例如选出5个),作为第一待训练对象标识。接着,服务器需要在辅助正样本集合中随机选取一个或者多个对象操作样本(选出的对象操作样本的数量根据实际应用场景决定,这里不作限制,例如选出5个),作为第一待训练对象操作样本,并在辅助负样本集合中随机选取一个或者多个对象操作样本(选出的对象操作样本的数量根据实际应用场景决定,这里不作限制,例如选出5个),作为第二待训练对象操作样本。服务器可以为每个评价操作行为设置不同的训练权重,训练权重越大,表明对应的评价操作行为对词向量模型的训练结果影响越大。服务器可以将每个评价操作行为的行为标识与对应的训练权重相关联,即可以通过行为标识获取到对应的训练权重。例如,为点赞的评价操作行为设置训练权重为0.3,为收藏的评价操作行为设置训练权重为0.5。服务器可以获取到每个第一待训练对象操作样本中的行为标识分别对应的第一行为权重值(即每个第一待训练对象操作样本中的行为标识分别对应的训练权重)。同样,服务器可以获取到每个第二待训练对象操作样本中的行为标识对应的第二行为权重值(每个第二待训练对象操作样本中的行为标识分别对应的训练权重)。服务器可以将上述对象标识sj、选出的邻居对象标识、第一待训练对象标识、每个第一待训练对象操作样本中的对象标识以及每个第二待训练对象操作样本中的对象标识分别关联的初始向量,均作为待训练初始向量。
上述选出的邻居对象标识、第一待训练对象标识、每个第一待训练对象操作样本中的对象标识以及每个第二待训练对象操作样本中的对象标识分别对应的待训练初始向量均可以与对象标识sj对应的待训练初始向量构成向量对,可以通过所有向量对、所有第一行为权重值和所有第二行为权重值训练词向量模型,即在词向量模型中更新业务对象集合中的每个业务业务对象对应的初始向量。请参见下述公式(1),是本申请提供的词向量模型的目标函数,可以将上述得到的所有向量对代入下述目标函数,以完成对所对应的的初始向量的更新。
公式(1):
Figure BDA0002270050310000271
其中,公式(1)中的vc表示中心对象标识(即上述选出的对象标识sj)对应的初始向量,Dp表示目标正样本集合,Dn表示目标负样本集合,Dmp表示辅助正样本集合,Dmn表示辅助负样本集合。其中,公式(1)中一共包括4项,每个求和符号∑分别对应于1项,即第1项为目标正样本集合对应的求和项,第2项为目标负样本集合对应的求和项,第3项为辅助正样本集合对应的求和项,第4项为辅助负样本集合对应的求和项。上述向量对,即是公式(1)中的vc和vl构成的向量对,一个向量对中包括两个向量。在公式(1)的第1项中代入的向量对是对象标识sj对应的初始向量vc与选出的邻居对象标识对应的初始向量vl所构成的向量对,即第1项中的vl为在目标正样本集合Dp中选出的邻居对象标识所对应的初始向量。在公式(1)的第2项中代入的向量对是对象标识sj对应的初始向量vc与第一待训练对象标识对应的初始向量vl所构成的向量对,即第2项中的vl为在目标负样本集合Dn中选出的第一待训练对象标识所对应的初始向量,当存在多个第一待训练对象标识时,每个第一待训练对象标识对应的初始向量均可以与对象标识sj对应的初始向量vc构成向量对,可以将每个第一待训练对象标识对应的向量对分别代入公式(1)中的第2项并进行叠加。在公式(1)的第3项中代入的向量对是对象标识sj对应的初始向量vc与第一待训练对象操作样本中的对象标识对应的初始向量vl所构成的向量对,即第3项中的vl为在辅助正样本集合Dmp中选出的第一待训练对象操作样本中的对象标识所对应的初始向量,当存在多个第一待训练对象操作样本时,每个第一待训练对象操作样本中的对象标识对应的初始向量均可以与对象标识sj对应的初始向量vc构成向量对。并且每个第一待训练对象操作样本中的行为标识分别对应于1个wmp,wmp为第一行为权重值,即与行为标识相关联的训练权重,可以将每个第一待训练对象操作样本对应的向量对和第一行为权重值分别代入公式(1)中的第3项并进行叠加。在公式(1)的第4项中代入的向量对是对象标识sj对应的初始向量vc与第二待训练对象操作样本中的对象标识对应的初始向量vl所构成的向量对,即第4项中的vl为在辅助负样本集合Dnp中选出的第二待训练对象操作样本中的对象标识所对应的初始向量,当存在多个第二待训练对象操作样本时,每个第二待训练对象操作样本中的对象标识对应的初始向量均可以与对象标识sj对应的初始向量vc构成向量对。并且每个第二待训练对象操作样本中的行为标识分别对应于1个wmn,wmn为第二行为权重值,即与行为标识相关联的训练权重,可以将每个第二待训练对象操作样本对应的向量对和第二行为权重值分别代入公式(1)中的第4项并进行叠加。
通过上述过程,即实现了对对象标识sj的第1个邻居对象标识的训练,可以通过与上述相同的过程,接着对对象标识sj的第二个邻居对象标识进行训练,直到对对象标识sj的所有邻居对象标识训练完成,则表明对上述1个对象标识sj训练完成。同理,通过与训练上述对象标识sj相同的方式,可以将目标正样本集合中的其他对象标识作为对象标识sj接着进行训练,直到目标正样本集合中的每个对象标识均作为过对象标识sj(即中心对象标识),则表明对上述1个目标用户的训练完成。若存在多个目标用户,则可以通过与训练上述目标用户相同的方式,对每个目标用户进行训练,每个目标用户之间的训练顺序对训练结果不造成影响,当对所有目标用户均训练完成时,则表明对词向量模型训练完成,即此时词向量模型已经完成了对业务对象集合中的每个业务对象对应的初始向量的更新。需要进行说明的是,在训练过程中,后一个邻居对象标识是在前一个邻居对象标识的训练结果的基础上进行训练的,后一个中心对象标识是在前一个中心对象标识的训练结果的基础上进行训练的,后一个目标用户是在前一个目标用户的训练结果的基础上进行训练的。上述训练均是指在词向量模型中更新业务对象集合中的业务对象所对应的向量(一开始为初始向量,在训练过程中初始向量被不断更新,即初始向量被更新过之后,后续的训练是在被更新后的初始向量的基础上继续进行更新的)。
请参见图6,是本申请提供的一种样本选取的场景示意图。如图6所示,假设集合100h为目标用户R对应的目标正样本集合,A、B、C和D均为对应的业务对象的对象标识,即集合100h中依次包括对象标识A、对象标识B、对象标识C和对象标识D。窗口101h为目标步长为1的遍历窗口,由于,在第1步中作为中心对象标识的对象标识A的左边没有对象标识(对象标识A为集合100h中的第1个对象标识)和第4步中作为中心对象标识的对象标识D的右边没有对象标识(对象标识A为集合100h中的最后1个对象标识),因此,在第1步中只有窗口101h的右边部分,第4步中只有窗口101h的左边部分。再次说明,中心对象标识即是上述在目标正样本集合中获取到的对象标识sj,目标正样本集合中的每个对象标识均会依次被选作为中心对象标识。可以依次将集合100h中的对象标识A、对象标识B、对象标识C和对象标识D作为中心对象标识,具体包括:第1步:以对象标识A为中心对象标识,则通过窗口101h获取到的中心对象标识的邻居对象标识为对象标识B,进而可得到标识对102h(A,B)。需要进行说明的是,由于可以通过对象标识获取到对应的向量(最开始为初始向量,训练过之后为更新后的向量),因此,此处获取到的标识对等价于上述的向量对,此处的标识对中的第1个对象标识为中心对象标识,标识对中的第2个对象标识为与中心对象标识凑对的对象标识。第2步:以对象标识B为中心对象标识,则通过窗口101h获取到的中心对象标识的邻居对象标识为对象标识A和对象标识C,进而可得到标识对103h(B,A)和标识对104h(B,C)。第3步,以对象标识C为中心对象标识,则通过窗口101h获取到的中心对象标识的邻居对象标识为对象标识B和对象标识D,进而可得到标识对105h(C,B)和标识对106h(C,D)。第4步,以对象标识D为中心对象标识,则通过窗口101h获取到的中心对象标识的邻居对象标识为对象标识C,进而可得到标识对107h(D,C)。接着,可以对上述得到的每个标识对进行训练,每个标识对训练的过程相同,后一个标识对在前一个标识对训练后的基础上继续进行训练。此处以对标识对102h(A,B)进行训练为例进行说明(即中心对象标识为对象标识A,选出的邻居对象标识为对象标识B):服务器可以在目标负样本集合108h(包括对象标识E、对象标识F、对象标识G和对象标识H)中获取随机第一待训练对象标识,此处获取到对象标识E作为第一待训练对象标识,则可以得到标识对115h(A,E)。如图6所示,辅助正样本集合118h中包括对象操作样本110h(包括对象标识C和行为标识P1)、对象操作样本111h(包括对象标识D和行为标识P2)和对象操作样本112h(包括对象标识G和行为标识P3)。服务器可以在辅助正样本集合118h中随机获取第一待训练对象操作样本,此处获取对象操作样本111h作为第一待训练对象操作样本,则可以得到标识对116h(A,D)(该标识对中的对象标识D为对象操作样本111h中的对象标识D),并获取到对象操作样本111h中的行为标识P2对应的第一行为权重值(即训练权重)。如图6所示,辅助负样本集合109h中包括对象操作样本113h(包括对象标识A和行为标识P4)和对象操作样本114h(包括对象标识B和行为标识P5)。服务器可以在辅助负样本集合109h中获取第二待训练对象操作样本,此处获取对象操作样本114h作为第二待训练对象操作样本,则可以得到标识对117h(A,B)(该标识对中的对象标识B为对象操作样本114h中的对象标识B),并获取到对象操作样本114h中的行为标识P5对应的第二行为权重值(即训练权重)。服务器可以通过词向量模型将获取到的标识对102h(A,B)、标识对115h(A,E)、标识对116h(A,D)、标识对117h(A,B)分别对应的向量(最初为初始向量,一旦被更新过则为更新后的初始向量),以及行为标识P2对应的训练权重和行为标识P5对应的训练权重,代入上述目标函数(即公式(1)),完成针对目标用户R的第1次训练。具体为:服务器可以通过词向量模型将上述获取到的标识对102h(A,B)对应的向量代入上述公式(1)中的第1项,将标识对115h(A,E)对应的向量代入上述公式(1)中的第2项,将标识对116h(A,D)对应的向量以及行为标识P2对应的训练权重代入上述公式(1)中的第3项,将标识对117h(A,B)对应的向量以及行为标识P5对应的训练权重代入上述公式(1)中的第4项。到此,即完成了针对标识对102h(A,B)的训练,可以通过与标识对102h(A,B)相同的训练方式,继续依次训练标识对103h(B,A)、标识对104h(B,C)、标识对105h(C,B)、标识对106h(C,D)和标识对107h(D,C)。当对标识对102h(A,B)、标识对103h(B,A)、标识对104h(B,C)、标识对105h(C,B)、标识对106h(C,D)和标识对107h(D,C)均训练完成时,表明对目标用户R训练完成。当存在多个目标用户时,可以通过与目标用户R相同的训练方式,依次叠加训练每个目标用户。再次说明,本申请中所提及的训练均是指在词向量模型中更新业务对象集合中的每个业务对象对应的向量(最初为初始向量,一旦被更新过则为更新后的初始向量)。
当存在多个目标用户时,上述词向量模型的目标函数可以为公式(2):
公式(2):
Figure BDA0002270050310000311
其中,Q表示目标用户的总数量,每个目标用户均对应存在目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合。某个目标用户的目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合只与该个目标用户相关,而与其他目标用户无关。可以通过每个目标用户分别对应的目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合,对词向量模型进行训练。每个目标用户的训练效果相互叠加,即后一个目标用户的训练是在前一个目标用户的训练结果之上进行训练的。y从1每次叠加1,依次取值到Q,表明对Q个目标用户训练完成。
可选的,一个目标用户还可以对应有多个目标正样本集合、多个目标负样本集合、多个辅助正样本集合以及多个辅助负样本集合。例如,可以设置多个目标时间段,1个目标时间段内可以获取到目标用户的1个目标正样本集合、1个目标负样本集合、1个辅助正样本集合和1个辅助负样本集合。可以通过与上述相同的过程,通过每个目标时间段内分别获取到的目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合依次对词向量模型进行训练,针对每个目标时间段对应的目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合的训练过程与上述过程相同,当对每个目标时间段内获取到的某个目标用户的目标正样本集合、目标负样本集合、辅助正样本集合和辅助负样本集合均训练完成时,表明对该个目标用户的训练完成。
步骤S208,将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量;
具体的,当对词向量模型训练完成后,可以将在词向量模型中更新完成的每个业务对象对应的初始向量,分别作为每个业务对象对应的对象属性向量,即业务对象集合中的每个业务对象均分别对应于1个对象属性向量。该对象属性向量,是通过目标用户针对业务对象的用户操作(包括点击浏览操作以及评价操作行为)而训练得到的。每个业务对象的对象属性向量即是通过训练词向量模型得到的每个业务对象最终的向量表示,即将每个业务对象进行向量化后的结果。其中,可以通过训练完成的词向量模型输出一个向量矩阵,该向量矩阵中包括多行向量,每一行向量代表一个业务对象的对象属性向量。服务器可以从词向量模型输出的向量矩阵中获取业务对象集合中的每个业务对象分别对应的对象属性向量。
其中,上述词向量模型可以是Word2vec模型。Word2vec模型可以将上述每个业务对象均分别映射到一个向量,所映射的向量为多维的向量,向量的每一维都代表了业务对象在对应维度上的特征,换种说法,Word2vec模型可以将业务对象的多种特征分布到多个维度去表示。由于上述目标正样本集合中为根据用户的点击顺序生成的对象标识的序列,因此,可以理解的是,在Word2vec模型的训练过程中,考虑到了目标用户连续点击多个业务对象的行为对需要生成的业务对象的对象属性向量的影响。具体为:上述中心对象标识与该中心对象标识的邻居对象标识是通过目标用户的连续点击业务对象的行为所获取到的,因此,Word2vec模型可以根据中心对象标识与该中心对象标识的邻居对象标识,来预测之后目标用户可能会点击的业务对象。此外,由于本申请中还增加了中心对象标识与辅助正样本集合中的对象标识所构成的标识对来训练Word2vec模型,增强了Word2vec模型在上述预测的行为中正向的预测(即正面加强了对目标用户可能会点击的业务对象的预测)。同时,本申请还增加了中心对象标识与辅助负样本集合中的对象标识所构成的标识对来训练Word2vec模型,增强了Word2vec模型在上述预测的行为中负向的预测(即负面加强了对目标用户可能不会点击的业务对象的预测)。因此,可以通过上述预测的行为,不断准确有效地更新所映射的每个业务对象的向量,最终得到每个业务对象对应的对象属性向量(每个业务对象对应的更新完成的向量)。
本申请提供了一种模型学习方法,即在得到业务对象集合中的每个业务对象分别对应的对象属性向量时,不仅考虑到目标用户针对业务对象的点击浏览等常规用户操作,而且还考虑到了用户针对业务对象的多样本化的评价操作行为(可以包括点赞、转发、评论、购买、收藏、负反馈等行为),而且为每种评价操作行为在模型训练时设置了不同的训练权重,即考虑到了每种评价操作行为对于模型训练的影响程度,使得最后训练(即通过模型学习)得到的每个业务对象的对象属性向量更加准确。
本申请首先获取业务对象集合;所述业务对象集合中包括多个业务对象;获取所述多个业务对象的浏览状态,根据所述浏览状态,在所述业务对象集合中获取目标正样本集合和目标负样本集合;获取所述业务对象集合对应的用户行为集合;所述用户行为集合中包括用户群针对所述多个业务对象的评价操作行为;根据所述评价操作行为的评价类型,在所述用户行为集合中获取辅助正样本集合和辅助负样本集合;基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。由此可见,本申请提出的方法可以通过用户群针对业务对象的评价操作,来生成业务对象的对象属性向量,丰富了针对业务对象的对象属性向量的生成方式。并且,在生成业务对象的对象属性向量的过程中,不仅考虑到了业务对象的浏览状态,而且考虑到了用户群针对业务对象不同类型的评价操作行为,提高了所生成的业务对象的对象属性向量的准确性。
更多的,以下过程是针对1个目标用户进行说明的。服务器可以在业务对象集合中,获取目标用户对应的已浏览业务对象和评价业务对象。其中,已浏览业务对象相关联的浏览用户包括该目标用户,即已浏览业务对象指目标用户在目标时间段内点击浏览过的业务对象,该业务对象对应的对象标识在目标用户对应的目标正样本集合中。评价业务对象相关联的评价用户包括该目标用户,即评价业务对象指在目标时间段内目标用户执行过评价操作行为的业务对象,该业务对象对应的对象标识在目标用户对应的辅助正样本集合或者辅助负样本集合中。服务器可以通过上述获取到的目标用户对应的已浏览业务对象和评价业务对象,计算出目标用户对应的行为向量均值,该行为向量均值是将目标用户进行向量化后的结果。具体为:服务器可以获取到每个已浏览业务对象分别对应的对象属性向量以及已浏览权重值(每个已浏览业务对象对应的已浏览权重值相同),还可以获取到每个评价业务对象分别对应的对象属性向量以及所有评价业务对象对应的评价操作权重数组,评价操作权重数组中包括每个评价业务对象分别对应的权重值,每个评价业务对象在评价操作权重数组中的权重值是由被执行的评价操作行为的类型所决定的,1个评价业务对象可以对应有多个权重值。以评价操作行为为转发和负反馈为例进行说明,例如,某个评价业务对象被目标用户转发1次,被目标用户负反馈1次,则该个评价业务对象对应于转发的1个权重值(由于是正面评价类型的评价操作行为,因此为正数,例如0.3),同时对应于负反馈(例如差评)的1个权重值(由于是负面评价类型的评价操作行为,因此为负数,例如-0.3)。可以将已浏览业务对象对应的对象属性向量称之为第一对象属性向量,将评价业务对象对应的对象属性向量称之为第二对象属性向量。服务器可以将每个第一对象属性向量与已浏览权重值相乘,得到每个第一对象属性向量对应的第一向量,服务器可以将每个第二对象属性向量与评价操作数组中对应的评价业务对象的权重值相乘,得到每个第二对象属性向量对应的第二向量。需要进行说明的是,当目标用户在目标时间段内对某个业务对象点击浏览了2次,则需要对该个业务对象的对象属性向量通过已浏览权重值叠加2次,即该个业务对象对应有2个第一向量。同理,当目标用户在目标时间段内对某个业务对象针对1种评价操作行为执行了2次(例如点赞2次),则需要对该个业务对象的对象属性向量通过对应的权重值叠加2次,即该个业务对象对应有2个第二向量。同理,当目标用户在目标时间段内对某个业务对象执行了1次第一种评价操作行为(例如点赞1次)并执行了1次第二种评价操作行为(例如收藏1次),则需要对该个业务对象的对象属性向量通过第一种评价操作行为对应的权重值叠加1次,通过第二种评价操作行为对应的权重值叠加1次。1个业务对象可以是即是已浏览业务对象,又是评价业务对象。即在目标时间段内,每点击浏览1次业务对象对应有1个第一向量,每执行1次评价操作行为对应有1个第二向量。服务器可以对所获取到的所有第一向量和所有第二向量进行求和,得到目标向量。并对目标向量求平均值,即得到目标用户对应的行为向量均值。其中,对目标向量求平均值指,将目标向量除以通过权重值叠加的所有向量(由于1个业务对象对应的对象属性向量可以被叠加多次,因此1个业务对象可以对应于多个被叠加的向量)的个数(即所有第一向量和所有第二向量的个数),所得到的值。
其中,可以通过下述公式(3)来表示得到目标用户对应的行为向量均值的过程:
Figure BDA0002270050310000351
其中,vuser表示目标用户的行为向量均值,n表示被叠加的向量的总个数,wi表示向量vi的权重值(可以是已浏览权重值,也可以是评价操作权重数组中的权重值),vi表示被叠加的第i个向量,vi可以是已浏览业务对象对应的对象属性向量,也可以是评价业务对象对应的对象属性向量。
请参见图7,是本申请提供的一种获取行为向量均值的场景示意图。如图7所示,评价操作行为包括点赞和转发,由于目标用户点击了业务对象100b和业务对象101b,因此,业务对象100b和业务对象101b为上述已浏览业务对象,由于目标用户对业务对象102b和业务对象103b执行了评价操作行为,因此,业务对象102b和业务对象103b为上述评价业务对象。业务对象100b对应的已浏览权重值为权重值1,业务对象101b对应的已浏览权重值也为权重值1,业务对象102b对应的权重值2和业务对象103b对应的权重值3构成上述评价操作权重数组。业务对象100b与权重值1之间的乘积为1个第一向量,业务对象101b与权重值1之间的乘积为另1个第一向量,业务对象102b与权重值2之间的乘积为1个第二向量,业务对象103b与权重值3之间的乘积为另1个第二向量。可以将业务对象100b对应的第一向量、业务对象101b对应的第一向量、业务对象102b对应的第二向量和业务对象103b对应的第二向量相加(即求和),得到目标向量,将目标向量除以4(因为叠加了4个向量,分别为业务对象100b对应的向量、业务对象101b对应的向量、业务对象102b对应的向量和业务对象103b对应的向量),得到目标用户对应的行为向量均值104b。
服务器可以计算业务对象集合中的每个业务对象对应的对象属性向量分别和目标用户对应的行为向量均值之间的向量距离(即余弦距离),某个业务对象的对象属性向量与目标用户对应的行为向量均值之间的向量距离越小,表明目标用户对该个业务对象感兴趣的程度越大,因此可以将与目标用户对应的行为向量均值之间具有最小的向量距离的对象属性向量所对应的的业务对象,作为目标用户对应的目标业务对象,可以将该目标业务对象推荐给目标用户。服务器可以将该目标业务对象的推荐栏发送给目标用户对应的终端,目标用户对应的终端可以在推荐页面中显示该推荐栏,以达到向目标用户推荐目标业务对象的目的。
更多的,服务器还可以将上述计算出的,业务对象集合中的每个业务对象对应的对象属性向量与目标用户对应的行为向量均值之间的向量距离,作为交叉特征,并将该交叉特征用于对推荐模型进行训练的特征,该推荐模型的训练特征除了该交叉特征,还可以有其他特征,该推荐模型用于向目标用户推荐业务对象。通过将上述交叉特征参与推荐模型的训练,可以使得训练得到的推荐模型能更准确地向目标用户推荐合适的业务对象。可选的,还可以选取最小的几个向量距离作为上述交叉特征,请参见图8,是本申请提供的一种获取交叉特征的场景示意图。如图8所示,业务对象集合中的业务对象对应的对象属性向量包括向量100d、向量101d、向量102d、向量103d和向量104d,向量105d为目标用户对应的行为向量均值。通过计算向量100d、向量101d、向量102d、向量103d、向量104d分别与向量105d之间的向量距离,发现向量101d、向量102d和向量103d与向量105d之间的向量距离最近。其中,向量101d与向量105d之间的向量距离为距离1,向量102d与向量105d之间的向量距离为距离2,向量103d与向量105d之间的向量距离为距离3,距离1大于距离2,距离2大于距离3.可以将距离1、距离2和距离3作为上述交叉特征,参与推荐模型的训练。可选的,当存在多个目标用户,可以将业务对象集合中的每个业务对象对应的对象属性向量分别与每个目标用户对应的行为向量均值之间的向量距离,作为交叉特征,参与推荐模型的训练,该推荐模型用于对所有目标用户推荐业务对象。
服务器可以通过与上述获取目标用户的行为向量均值相同的方式,获取待匹配用户对应的行为向量均值,待匹配用户可以理解为另一个目标用户。服务器可以计算目标用户对应的行为向量均值和待匹配用户对应的行为向量均值之间的向量距离,若该向量距离小于第一向量距离阈值(可以自行设置),则判定目标用户与待匹配用户之间具备用户相似性。若目标用户与待匹配用户之间具备用户相似性,则后续在向目标用户推荐业务对象时,可以向目标用户推荐待匹配用户喜欢(待匹配用户对业务对象的收藏或者点赞等行为都可以表征待匹配用户喜欢对应的业务对象)的业务对象,在向待匹配用户推荐业务对象时,可以向待匹配用户推荐目标用户喜欢的业务对象。或者,还可以根据待匹配用户针对业务对象的历史浏览记录向目标用户推荐业务对象,换句话说,可以向目标用户推荐待匹配用户浏览过的业务对象。请参见图9,是本申请提供的一种推荐业务对象的场景示意图。如图9所示,终端200a为目标用户105k对应的终端,在终端200a的推荐页面112k中有一个“推荐更多”的按钮100k。终端200a可以响应目标用户105k针对按钮100k的点击操作,生成推荐指令,终端200a可以将该推荐指令发送给服务器100。服务器100接收到该推荐指令后,可以获取到目标用户105k对应的行为向量均值。此处以有待匹配用户106k、待匹配用户107k和待匹配用户108k为例进行说明。服务器100可以获取到待匹配用户106k对应的行为向量均值,并计算得到目标用户105k对应的行为向量均值与待匹配用户106k对应的行为向量均值之间的向量距离1;服务器100可以获取到待匹配用户107k对应的行为向量均值,并计算得到目标用户105k对应的行为向量均值与待匹配用户107k对应的行为向量均值之间的向量距离2;服务器100还可以获取到待匹配用户108k对应的行为向量均值,并计算得到目标用户105k对应的行为向量均值与待匹配用户108k对应的行为向量均值之间的向量距离3。服务器100可以将上述计算出的向量距离1、向量距离2和向量距离3分别与第一向量距离阈值(可以预先自行设置)进行比较,当比较出只有向量距离1小于该第一向量距离阈值时,表明与目标用户105k具备用户相似性的只有待匹配用户106k。服务器100可以获取到被待匹配用户106k标记为喜欢的业务对象5。服务器100可以将业务对象5的封面和标题发送给终端200a,终端200a可以在推荐页面111k中显示接收到的业务对象5的封面109k和标题110k,达到向目标用户105k推荐业务对象5的目的。后续,终端200a可以响应目标用户针对封面109k或者标题110k的点击操作,跳转显示到业务对象5的详情页118k。此处以业务对象5为篮球为例,在详情页118k中显示有业务对象5的名称(即商品名称:篮球)、业务对象5的品牌(即商品品牌:无敌)以及业务对象5的价格(即商品价格:1000)。
上述业务对象集合中包括第一业务对象和第二业务对象,第一业务对象和第二业务对象均可以是业务对象集合中的任意一个业务对象,第一业务对象和第二业务对象不是同一个业务对象。服务器可以获取第一业务对象对应的对象属性向量和第二业务对象对应的对象属性向量之间的向量距离,当该向量距离小于第二向量距离阈值(可以自行设置)时,则判定第一业务对象和第二业务对象之间具备对象相似性。若第一业务对象和第二业务对象之间具备对象相似性,则在目标用户喜欢(目标用户对业务对象的收藏或者点赞等行为都可以表征目标用户喜欢对应的业务对象)第一业务对象时,可以向目标用户推荐第二业务对象。或者,在目标用户针对业务对象的历史浏览记录中包括第一业务对象(即目标用户浏览过第一业务对象)时,可以向目标用户推荐第二业务对象。请参见图10,是本申请提供的另一种推荐业务对象的场景示意图。如图10所示,终端200a为目标用户对应的终端,在终端200a的推荐页面115k中有一个“推荐更多”的按钮116k。终端200a可以响应目标用户针对按钮116k的点击操作,生成推荐指令,终端200a可以将该推荐指令发送给服务器100。服务器100接收到该推荐指令后,可以获取到目标用户标记为喜欢的业务对象1。业务对象集合中除了有业务对象1之外,还有业务对象2、业务对象3和业务对象4。服务器可以获取到业务对象1、业务对象2、业务对象3和业务对象4分别对应的对象属性向量。服务器100可以计算得到业务对象1对应的对象属性向量与业务对象2对应的对象属性向量之间的向量距离4,计算得到业务对象1对应的对象属性向量与业务对象3对应的对象属性向量之间的向量距离5,计算得到业务对象1对应的对象属性向量与业务对象4对应的对象属性向量之间的向量距离6。服务器100可以将上述向量距离4、向量距离5和向量距离6分别与第二向量距离阈值(可以预先自行设置)进行比较,当比较出只有向量距离4小于该第二向量距离阈值时,服务器100可以将业务对象2作为待推荐业务对象114k,服务器100可以将待推荐业务对象114k的封面和标题发送给终端200a。如图10所示,终端200a可以在推荐页面113k中显示获取获取到的待推荐业务对象114k的封面101k和标题102k(即业务对象2),达到向目标用户推荐待推荐业务对象114k的目的。后续,终端200a可以响应目标用户针对封面101k或者标题102k的点击操作,跳转显示到待推荐业务对象114k的详情页117k。此处以待推荐业务对象114k为足球为例,在详情页117k中显示有待推荐业务对象114k的名称(即商品名称:足球)、待推荐业务对象114k打折前的价格(即商品折前价格:999)以及待推荐业务对象114k打折后的价格(即商品折后价格:666)。
请参见图11,是本申请提供的一种数据处理装置的结构示意图。如图11所示,该数据处理装置1可以包括:第一获取模块101、第二获取模块102、第三获取模块103、第四获取模块104和生成模块105;
第一获取模块101,用于获取业务对象集合,所述业务对象集合中包括多个业务对象;
第二获取模块102,用于获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
第三获取模块103,用于获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
第四获取模块104,用于根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
生成模块105,用于基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。
其中,所述第一获取模块101、第二获取模块102、第三获取模块103、第四获取模块104和生成模块105的具体功能实现方式请参见图2对应的实施例中的步骤S101-步骤S105,这里不再进行赘述。
其中,所述浏览状态包括已浏览状态和未浏览状态;所述第二获取模块102,包括第一生成单元1021和第二生成单元1022;
第一生成单元1021,用于根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;
第二生成单元1022,用于根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合。
其中,所述第一生成单元1021和第二生成单元1022的具体功能实现方式请参见图3对应的实施例中的步骤S202,这里不再进行赘述。
其中,所述第一生成单元1021,包括时间获取子单元10211和第一添加子单元10212;
时间获取子单元10211,用于获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象,一个正样本业务对象对应于至少一个浏览时间戳;
第一添加子单元10212,用于根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合,所述正样本序列中包括所述每个正样本业务对象分别对应的对象标识。
其中,所述时间获取子单元10211和第一添加子单元10212的具体功能实现方式请参见图3对应的实施例中的步骤S202,这里不再进行赘述。
其中,所述第二生成单元1022,包括倍数获取子单元10221、抽取子单元10222和第二添加子单元10223;
倍数获取子单元10221,用于将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;
抽取子单元10222,用于根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象,所述负样本业务对象的对象数量等于所述目标数量和所述样本抽取倍数的乘积;
第二添加子单元10223,用于将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合。
其中,所述倍数获取子单元10221、抽取子单元10222和第二添加子单元10223的具体功能实现方式请参见图3对应的实施例中的步骤S202,这里不再进行赘述。
其中,所述评价类型包括正面评价类型和负面评价类型;所述用户行为集合包括多个对象操作样本,一个对象操作样本包括一个业务对象的对象标识以及所述目标用户针对该业务对象的一个评价操作行为的行为标识;
所述第四获取模块104,包括第一添加单元1041和第二添加单元1042;
第一添加单元1041,用于将所述用户行为集合中,包含具有所述正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;
第二添加单元1042,用于将所述用户行为集合中,包含具有所述负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合。
其中,所述第一添加单元1041和第二添加单元1042的具体功能实现方式请参见图3对应的实施例中的步骤S204,这里不再进行赘述。
其中,所述目标正样本集合中的每个业务对象均具有对象标识;
所述生成模块105,包括第一标识获取单元1051、第二标识获取单元1052、更新单元1053和向量确定单元1054;
第一标识获取单元1051,用于在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
第二标识获取单元1052,用于基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
更新单元1053,用于基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
向量确定单元1054,用于将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量。
其中,所述第一标识获取单元1051、第二标识获取单元1052、更新单元1053和向量确定单元1054的具体功能实现方式请参见图3对应的实施例中的步骤S205-步骤S208,这里不再进行赘述。
其中,所述目标负样本集合中的每个业务对象均具有对象标识;
所述更新单元1053,包括向量生成子单元10531、样本获取子单元10532、权重获取子单元10533、向量确定子单元10534和更新子单元10535;
向量生成子单元10531,用于基于高斯分布生成所述业务对象集合中的每个业务对象分别对应的初始向量,将每个初始向量分别与所对应的业务对象的对象标识相关联;
样本获取子单元10532,用于在所述目标负样本集合中获取第一待训练对象标识,在所述辅助正样本集合中获取第一待训练对象操作样本,在所述辅助负样本集合中获取第二待训练对象操作样本;
权重获取子单元10533,用于获取所述第一待训练对象操作样本中的行为标识所对应的第一行为权重值,获取所述第二待训练对象操作样本中的行为标识所对应的第二行为权重值;
向量确定子单元10534,用于将所述对象标识sj、所述邻居对象标识、所述第一待训练对象标识、所述第一待训练对象操作样本中的对象标识和所述第二待训练对象操作样本中的对象标识分别关联的初始向量,均确定为待训练初始向量;
更新子单元10535,用于基于所述待训练初始向量、所述第一行为权重值以及所述第二行为权重值,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量。
其中,所述向量生成子单元10531、样本获取子单元10532、权重获取子单元10533、向量确定子单元10534和更新子单元10535的具体功能实现方式请参见图3对应的实施例中的步骤S207,这里不再进行赘述。
其中,所述数据处理装置1,还包括对象获取模块106、第一确定模块107和第二确定模块108;
对象获取模块106,用于在所述业务对象集合中,获取目标用户对应的已浏览业务对象和评价业务对象,所述已浏览业务对象相关联的浏览用户包括所述目标用户,所述评价业务对象相关联的评价用户包括所述目标用户,所述评价用户是指对业务对象执行评价操作行为的用户;
第一确定模块107,用于根据所述已浏览业务对象和评价业务对象,确定所述目标用户对应的行为向量均值;
第二确定模块108,用于根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,所述对象获取模块106、第一确定模块107和第二确定模块108的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
其中,所述第一确定模块107,包括获取单元1071、第一确定单元1072、第一乘积单元1073、第二乘积单元1074、求和单元1075和第二确定单元1076;
获取单元1071,用于获取所述已浏览业务对象对应的对象属性向量和已浏览权重值,获取所述评价业务对象对应的对象属性向量和评价操作权重数组;
第一确定单元1072,用于将所述已浏览业务对象对应的对象属性向量确定为第一对象属性向量,将所述评价业务对象对应的对象属性向量确定为第二对象属性向量;
第一乘积单元1073,用于分别对每个第一对象属性向量与所述已浏览权重值进行乘积,得到所述每个第一对象属性向量分别对应的第一向量;
第二乘积单元1074,用于分别对每个第二对象属性向量与所述评价操作权重数组中所对应的权重值进行乘积,得到所述每个第二对象属性向量分别对应的第二向量;
求和单元1075,用于对所述第一向量和所述第二向量进行求和,得到目标向量,对所述第一向量的向量数量和所述第二向量的向量数量进行求和,得到目标向量数量;
第二确定单元1076,用于将所述目标向量与所述目标向量数量之间的比值,确定为所述目标用户对应的行为向量均值。
其中,所述获取单元1071、第一确定单元1072、第一乘积单元1073、第二乘积单元1074、求和单元1075和第二确定单元1076的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
其中,所述第二确定模块108,包括距离获取单元1081和第三确定单元1082;
距离获取单元1081,用于分别获取所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离;
第三确定单元1082,用于将与所述目标用户对应的行为向量均值之间具有最小的向量距离的对象属性向量所对应的业务对象,确定为所述目标用户对应的目标业务对象,将所述目标业务对象推荐给所述目标用户。
其中,所述距离获取单元1081和第三确定单元1082的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
其中,所述数据处理装置1,还包括第三确定模块109和训练模块110;
第三确定模块109,用于将所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离,确定为交叉特征;
训练模块110,用于基于所述交叉特征训练推荐模型,所述推荐模型用于为所述目标用户推荐业务对象。
其中,所述第三确定模块109和训练模块110的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
其中,所述数据处理装置1,还包括均值获取模块111、第一相似模块112和第一推荐模块113;
均值获取模块111,用于获取所述目标用户对应的行为向量均值,获取待匹配用户对应的行为向量均值;
第一相似模块112,用于若所述目标用户对应的行为向量均值与所述待匹配用户对应的行为向量均值之间的向量距离,小于第一向量距离阈值,则确定所述目标用户与所述待匹配用户之间具备用户相似性;
第一推荐模块113,用于若所述目标用户与所述待匹配用户之间具备所述用户相似性,则根据所述待匹配用户针对业务对象的历史浏览记录向所述目标用户推荐业务对象。
其中,所述均值获取模块111、第一相似模块112和第一推荐模块113的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
其中,所述业务对象集合中的业务对象包括第三业务对象和第四业务对象;所述数据处理装置1,还包括向量获取模块114、第二相似模块115和第二推荐模块116;
向量获取模块114,用于获取所述第三业务对象对应的对象属性向量,获取所述第四业务对象对应的对象属性向量;
第二相似模块115,用于若所述第三业务对象对应的对象属性向量与所述第四业务对象对应的对象属性向量之间的向量距离,小于第二向量距离阈值,则确定所述第三业务对象与所述第四业务对象之间具备对象相似性;
第二推荐模块116,用于若所述第一业务对象与所述第二业务对象之间具备所述对象相似性,且所述目标用户针对业务对象的历史浏览记录中包括所述第一业务对象,则向所述目标用户推荐所述第二业务对象。
其中,所述向量获取模块114、第二相似模块115和第二推荐模块116的具体功能实现方式请参见图3对应的实施例中的步骤S208,这里不再进行赘述。
本申请首先获取业务对象集合;所述业务对象集合中包括多个业务对象;获取所述多个业务对象的浏览状态,根据所述浏览状态,在所述业务对象集合中获取目标正样本集合和目标负样本集合;获取所述业务对象集合对应的用户行为集合;所述用户行为集合中包括用户群针对所述多个业务对象的评价操作行为;根据所述评价操作行为的评价类型,在所述用户行为集合中获取辅助正样本集合和辅助负样本集合;基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。由此可见,本申请提出的方法可以通过用户群针对业务对象的评价操作,来生成业务对象的对象属性向量,丰富了针对业务对象的对象属性向量的生成方式。并且,在生成业务对象的对象属性向量的过程中,不仅考虑到了业务对象的浏览状态,而且考虑到了用户群针对业务对象不同类型的评价操作行为,提高了所生成的业务对象的对象属性向量的准确性。
请参见图12,是本申请提供的一种计算机设备的结构示意图。如图12所示,所述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图2和图3中任一个所对应实施例中对所述数据处理方法的描述。应当理解,本申请中所描述的数据处理装置1000也可执行前文图11所对应实施例中对所述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2和图3中任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
获取业务对象集合,所述业务对象集合中包括多个业务对象;
获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。
2.根据权利要求1所述的方法,其特征在于,所述浏览状态包括已浏览状态和未浏览状态;所述根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合,包括:
根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合;
根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述浏览状态为所述已浏览状态的业务对象对应的对象标识,生成所述目标正样本集合,包括:
获取所述浏览状态为所述已浏览状态的每个业务对象分别对应的浏览时间戳,将所述浏览时间戳在目标时间段内的业务对象确定为正样本业务对象,一个正样本业务对象对应于至少一个浏览时间戳;
根据每个正样本业务对象分别对应的至少一个浏览时间戳以及对象标识,生成正样本序列,将所述正样本序列添加至所述目标正样本集合,所述正样本序列中包括所述每个正样本业务对象分别对应的对象标识。
4.根据权利要求2所述的方法,其特征在于,所述根据所述浏览状态为所述未浏览状态的业务对象对应的对象标识,生成所述目标负样本集合,包括:
将所述正样本序列中的业务对象的对象数量确定为目标数量,获取针对所述目标数量的负样本抽取倍数;
根据所述目标数量和所述负样本抽取倍数,在所述浏览状态为所述未浏览状态的业务对象中,抽取业务对象作为负样本业务对象,所述负样本业务对象的对象数量等于所述目标数量和所述样本抽取倍数的乘积;
将所述负样本业务对象对应的对象标识,添加至所述目标负样本集合。
5.根据权利要求1所述的方法,其特征在于,所述评价类型包括正面评价类型和负面评价类型;所述用户行为集合包括多个对象操作样本,一个对象操作样本包括一个业务对象的对象标识以及所述目标用户针对该业务对象的一个评价操作行为的行为标识;
所述根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合,包括:
将所述用户行为集合中,包含具有所述正面评价类型的评价操作行为的对象操作样本,确定为第一对象操作样本,将所述第一对象操作样本添加至所述辅助正样本集合;
将所述用户行为集合中,包含具有所述负面评价类型的评价操作行为的对象操作样本,确定为第二对象操作样本,将所述第二对象操作样本添加至所述辅助负样本集合。
6.根据权利要求5所述的方法,其特征在于,所述目标正样本集合中的每个业务对象均具有对象标识;
所述基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量,包括:
在所述目标正样本集合中获取对象标识sj,j为小于或等于N的正整数,N为所述目标正样本集合中的对象标识的数量;
基于具有目标步长的遍历窗口,在所述目标正样本集合中获取所述对象标识sj对应的邻居对象标识;
基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量;
将在所述词向量模型中更新后的初始向量,分别确定为所述业务对象集合中的每个业务对象对应的对象属性向量。
7.根据权利要求6所述的方法,其特征在于,所述目标负样本集合中的每个业务对象均具有对象标识;
所述基于所述对象标识sj、所述邻居对象标识、所述目标负样本集合、所述辅助正样本集合以及所述辅助负样本集合,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量,包括:
基于高斯分布生成所述业务对象集合中的每个业务对象分别对应的初始向量,将每个初始向量分别与所对应的业务对象的对象标识相关联;
在所述目标负样本集合中获取第一待训练对象标识,在所述辅助正样本集合中获取第一待训练对象操作样本,在所述辅助负样本集合中获取第二待训练对象操作样本;
获取所述第一待训练对象操作样本中的行为标识所对应的第一行为权重值,获取所述第二待训练对象操作样本中的行为标识所对应的第二行为权重值;
将所述对象标识sj、所述邻居对象标识、所述第一待训练对象标识、所述第一待训练对象操作样本中的对象标识和所述第二待训练对象操作样本中的对象标识分别关联的初始向量,均确定为待训练初始向量;
基于所述待训练初始向量、所述第一行为权重值以及所述第二行为权重值,在所述词向量模型中更新所述业务对象集合中的每个业务对象对应的初始向量。
8.根据权利要求1所述的方法,其特征在于,还包括:
在所述业务对象集合中,获取所述目标用户对应的已浏览业务对象和评价业务对象,所述已浏览业务对象相关联的浏览用户包括所述目标用户,所述评价业务对象相关联的评价用户包括所述目标用户,所述评价用户是指对业务对象执行评价操作行为的用户;
根据所述已浏览业务对象和所述评价业务对象,确定所述目标用户对应的行为向量均值;
根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户。
9.根据权利要求8所述的方法,其特征在于,所述根据所述已浏览业务对象和所述评价业务对象,确定所述目标用户对应的行为向量均值,包括:
获取所述已浏览业务对象对应的对象属性向量和已浏览权重值,获取所述评价业务对象对应的对象属性向量和评价操作权重数组;
将所述已浏览业务对象对应的对象属性向量确定为第一对象属性向量,将所述评价业务对象对应的对象属性向量确定为第二对象属性向量;
分别对每个第一对象属性向量与所述已浏览权重值进行乘积,得到所述每个第一对象属性向量分别对应的第一向量;
分别对每个第二对象属性向量与所述评价操作权重数组中所对应的权重值进行乘积,得到所述每个第二对象属性向量分别对应的第二向量;
对所述第一向量和所述第二向量进行求和,得到目标向量,对所述第一向量的向量数量和所述第二向量的向量数量进行求和,得到目标向量数量;
将所述目标向量与所述目标向量数量之间的比值,确定为所述目标用户对应的行为向量均值。
10.根据权利要求8所述的方法,其特征在于,所述根据所述目标用户对应的行为向量均值和所述业务对象集合中的每个业务对象分别对应的对象属性向量,确定针对所述目标用户的目标业务对象,将所述目标业务对象推荐给所述目标用户,包括:
分别获取所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离;
将与所述目标用户对应的行为向量均值之间具有最小的向量距离的对象属性向量所对应的业务对象,确定为所述目标用户对应的目标业务对象,将所述目标业务对象推荐给所述目标用户。
11.根据权利要求10所述的方法,其特征在于,还包括:
将所述业务对象集合中的每个业务对象对应的对象属性向量与所述目标用户对应的行为向量均值之间的向量距离,确定为交叉特征;
基于所述交叉特征训练推荐模型,所述推荐模型用于为所述目标用户推荐业务对象。
12.根据权利要求8所述的方法,其特征在于,还包括:
获取所述目标用户对应的行为向量均值,获取待匹配用户对应的行为向量均值;
若所述目标用户对应的行为向量均值与所述待匹配用户对应的行为向量均值之间的向量距离,小于第一向量距离阈值,则确定所述目标用户与所述待匹配用户之间具备用户相似性;
若所述目标用户与所述待匹配用户之间具备所述用户相似性,则根据所述待匹配用户针对业务对象的历史浏览记录向所述目标用户推荐业务对象。
13.根据权利要求1所述的方法,其特征在于,所述业务对象集合中的业务对象包括第一业务对象和第二业务对象;还包括:
获取所述第一业务对象对应的对象属性向量,获取所述第二业务对象对应的对象属性向量;
若所述第一业务对象对应的对象属性向量与所述第二业务对象对应的对象属性向量之间的向量距离,小于第二向量距离阈值,则确定所述第一业务对象与所述第二业务对象之间具备对象相似性;
若所述第一业务对象与所述第二业务对象之间具备所述对象相似性,且所述目标用户针对业务对象的历史浏览记录中包括所述第一业务对象,则向所述目标用户推荐所述第二业务对象。
14.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取业务对象集合,所述业务对象集合中包括多个业务对象;
第二获取模块,用于获取目标用户针对所述多个业务对象的浏览状态,根据所述浏览状态和所述业务对象集合,确定所述目标用户对应的目标正样本集合和目标负样本集合;
第三获取模块,用于获取所述目标用户对应的用户行为集合,所述用户行为集合中包括所述目标用户针对所述多个业务对象的评价操作行为;
第四获取模块,用于根据所述评价操作行为的评价类型,在所述用户行为集合中获取所述目标用户对应的辅助正样本集合和辅助负样本集合;
生成模块,用于基于所述目标正样本集合、所述目标负样本集合、所述辅助正样本集合、所述辅助负样本集合和词向量模型,生成所述业务对象集合中的每个业务对象分别对应的对象属性向量。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-13中任一项所述方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-13任一项所述的方法。
CN201911101655.7A 2019-11-12 2019-11-12 一种数据处理方法、装置以及计算机可读存储介质 Active CN110910209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101655.7A CN110910209B (zh) 2019-11-12 2019-11-12 一种数据处理方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101655.7A CN110910209B (zh) 2019-11-12 2019-11-12 一种数据处理方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110910209A true CN110910209A (zh) 2020-03-24
CN110910209B CN110910209B (zh) 2024-05-31

Family

ID=69817455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101655.7A Active CN110910209B (zh) 2019-11-12 2019-11-12 一种数据处理方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110910209B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563526A (zh) * 2020-03-27 2020-08-21 贝壳技术有限公司 嵌入向量评估方法、装置与电子设备
CN111784455A (zh) * 2020-06-30 2020-10-16 腾讯科技(深圳)有限公司 一种物品推荐方法及推荐设备
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234878A1 (en) * 1994-11-29 2009-09-17 Pinpoint, Incorporated System for customized electronic identification of desirable objects
US20140304106A1 (en) * 2013-03-15 2014-10-09 LogiPref, Inc. Systems and methods for determining attribute-based user preferences and applying them to make recommendations
US20160371589A1 (en) * 2015-06-17 2016-12-22 Yahoo! Inc. Systems and methods for online content recommendation
US20170132516A1 (en) * 2015-11-05 2017-05-11 Adobe Systems Incorporated Adaptive sampling scheme for imbalanced large scale data
CN108304441A (zh) * 2017-11-14 2018-07-20 腾讯科技(深圳)有限公司 网络资源推荐方法、装置、电子设备、服务器及存储介质
CN109408665A (zh) * 2018-12-29 2019-03-01 咪咕音乐有限公司 一种信息推荐方法及装置、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234878A1 (en) * 1994-11-29 2009-09-17 Pinpoint, Incorporated System for customized electronic identification of desirable objects
US20140304106A1 (en) * 2013-03-15 2014-10-09 LogiPref, Inc. Systems and methods for determining attribute-based user preferences and applying them to make recommendations
US20160371589A1 (en) * 2015-06-17 2016-12-22 Yahoo! Inc. Systems and methods for online content recommendation
US20170132516A1 (en) * 2015-11-05 2017-05-11 Adobe Systems Incorporated Adaptive sampling scheme for imbalanced large scale data
CN108304441A (zh) * 2017-11-14 2018-07-20 腾讯科技(深圳)有限公司 网络资源推荐方法、装置、电子设备、服务器及存储介质
CN109408665A (zh) * 2018-12-29 2019-03-01 咪咕音乐有限公司 一种信息推荐方法及装置、存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563526A (zh) * 2020-03-27 2020-08-21 贝壳技术有限公司 嵌入向量评估方法、装置与电子设备
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN112749331B (zh) * 2020-06-28 2023-09-19 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN111784455A (zh) * 2020-06-30 2020-10-16 腾讯科技(深圳)有限公司 一种物品推荐方法及推荐设备
CN111784455B (zh) * 2020-06-30 2023-11-07 腾讯科技(深圳)有限公司 一种物品推荐方法及推荐设备

Also Published As

Publication number Publication date
CN110910209B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN110910209B (zh) 一种数据处理方法、装置以及计算机可读存储介质
CN110909176B (zh) 数据推荐方法、装置、计算机设备以及存储介质
EP3862893A1 (en) Recommendation model training method, recommendation method, device, and computer-readable medium
CN103038769B (zh) 用于将内容导引到社交网络引擎用户的***和方法
CN108665333A (zh) 商品推荐方法、装置、电子设备和存储介质
CN111784455A (zh) 一种物品推荐方法及推荐设备
CN104699711B (zh) 一种推荐方法及服务器
CN106251174A (zh) 信息推荐方法及装置
CN113191838B (zh) 一种基于异质图神经网络的购物推荐方法及***
CN108040294A (zh) 自动推荐内容
CN108921624A (zh) 广告融合方法、装置、存储介质和终端设备
CN108230009A (zh) 一种用户偏好的预测方法及装置,电子设备
KR20200019997A (ko) 온라인 경험들에서의 이모지 이해
US20140351094A1 (en) Information processing device, category displaying method, program, and information storage medium
CN108764949A (zh) 一种信息推送方法及设备
WO2017116519A1 (en) System and method of product selection for promotional display
CN110287415A (zh) 一种内容推荐方法、装置和计算设备
Mao Understanding retail quality of sporting goods stores: a text mining approach
CN111861678A (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN117035948A (zh) 基于大数据的任务智能处理方法及***
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
CN114581140A (zh) 一种广告投放楼盘的推荐方法、装置及电子设备
CN110968670B (zh) 一种流行商品的属性获取方法、装置、设备及存储介质
CN113468394A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN117172887A (zh) 商品推荐模型训练方法及商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021444

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant