CN115186750A

CN115186750A - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN115186750A
Application number: CN202210819009.XA
Authority: CN
Inventors: 陈飞
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-14

Abstract

本申请公开了模型训练方法、装置、设备及存储介质，该方法包括：在训练样本集中确定正训练样本以及负训练样本；调用第一模型对第一特征信息以及第二特征信息进行处理，得到第一特征信息的第一表征向量以及第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到第三特征信息的第三表征向量以及第四特征信息的第四表征向量；基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对第一模型进行模型优化，得到第二模型，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度。通过本申请，能够提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及模型训练方法、模型训练装置、计算机设备及计算机可读存储介质。

背景技术

推荐模型被广泛应用于各类互联网在线服务，能够帮助用户更快发现喜欢的产品、音乐、书籍等，同时推荐性能的好坏也直接决定了用户体验。目前，在多媒体推荐(如音乐作品、影视作品等)场景中，存在较强的头部聚集现象，即热门作品被广泛流传，在训练推荐模型的过程中发现给用户推荐热门作品越多，用户消费的时间越长，从而更倾向于向用户推荐热门的头部作品。

但是这样训练出的推荐模型会导致中长尾(long tail)作品(即热度较低的作品)得到越来越少的曝光，既影响用户的体验，也影响整个推荐***生态的健康度。因此，如何实现推荐模型的训练以提高用户体验和推荐性能，是一个亟待解决的问题。

发明内容

本发明实施例提供了模型训练方法、装置、设备及存储介质，能够提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

一方面，本发明实施例提供了一种模型训练方法，该方法包括：

在训练样本集中确定正训练样本以及负训练样本，该正训练样本包括第一对象的第一特征信息以及该第一对象感兴趣的物品的第二特征信息，该负训练样本包括第二对象的第三特征信息以及该第二对象感兴趣的物品的第四特征信息；

调用第一模型对该第一特征信息以及该第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用该第一模型对该第三特征信息以及该第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；

基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，该第二模型用于向对象推荐其感兴趣的物品。

一方面，本申请实施例提供一种模型训练装置，该装置包括：

确定单元，用于在训练样本集中确定正训练样本以及负训练样本，该正训练样本包括第一对象的第一特征信息以及该第一对象感兴趣的物品的第二特征信息，该负训练样本包括第二对象的第三特征信息以及该第二对象感兴趣的物品的第四特征信息；

调用单元，用于调用第一模型对该第一特征信息以及该第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用该第一模型对该第三特征信息以及该第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；

处理单元，用于基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，该第二模型用于向对象推荐其感兴趣的物品。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的模型训练方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的模型训练方法。

一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的模型训练方法。

本申请实施例，首先在训练样本集中确定正训练样本以及负训练样本；然后调用第一模型对第一特征信息以及第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；最后基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型。该模型训练方法充分利用了训练样本集中的正训练样本以及负训练样本对模型进行训练，借鉴对比学习的思想，通过温度参数调节困难负训练样本的贡献度，加强模型对困难负训练样本的学习，从而提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种模型训练***的结构示意图；

图2是本申请实施例提供的一种模型训练方法的流程示意图；

图3是本申请实施例提供的一种双塔召回模型的结构示意图；

图4是本申请实施例提供的一种不同τ值下各训练样本的梯度贡献示意图；

图5是本申请实施例提供的另一种模型训练方法的流程示意图；

图6是本申请实施例提供的一种模型训练装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

在本申请实施例中，涉及人工智能(Artificial Intelligence，AI)技术；所谓的AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。具体的，AI技术涉及领域广泛，既有硬件层面的技术也有软件层面的技术；在硬件层面，AI技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术；在软件层面，AI技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着AI技术的研究和进步，AI技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，AI技术将在更多的领域得到应用，并发挥越来越重要的价值。

其中，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、自监督学习、对比学习等技术。其中，自监督学习属于无监督学习范式的一种，特点是不需要人工标注的类别标签信息，直接利用数据本身作为监督信息，来学习样本数据的特征表达，并用于下游任务。对比学习技术则是完成自监督学习的一种方法，具体是通过将数据分别与正样本和负样本在特征空间进行对比，来学习样本的特征表示，其核心是在特征空间拉近正样本之间的距离，拉远负样本之间的距离。

基于上述所提及的机器学习/深度学习等技术，本申请实施例提出了一种模型训练方法，以实现推荐模型的训练，提高用户体验和推荐性能，保证作品推荐的智能性和多样性。具体的，该模型训练方法的大致原理如下：首先，在训练样本集中确定正训练样本以及负训练样本，此处的正训练样本包括第一对象的第一特征信息以及第一对象感兴趣的物品的第二特征信息，负训练样本包括第二对象的第三特征信息以及第二对象感兴趣的物品的第四特征信息；然后调用第一模型对第一特征信息以及第二特征信息进行处理，得到第一特征信息的第一表征向量以及第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到第三特征信息的第三表征向量以及第四特征信息的第四表征向量；最后，基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对第一模型进行模型优化，得到第二模型，从而完成对模型的训练。

在具体实现中，上述所提及的模型训练方法可以由计算机设备执行的，该计算机设备可以是终端设备或服务器。其中，终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、飞行器等，但并不局限于此；服务器可以例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

或者，上述所提及的模型训练方法可以由终端设备和服务器共同执行。例如，参见图1所示：可以先由终端设备101在训练样本集中确定出正训练样本以及负训练样本，然后将正训练样本以及负训练样本发送给服务器102。相应的，服务器102接收该正训练样本以及负训练样本，调用第一模型对正训练样本以及负训练样本包含的特征信息进行处理，得到第一表征向量、第二表征向量、第三表征向量以及第四特征向量；基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对第一模型进行模型优化等步骤。

本申请实施例，针对推荐场景，能够充分利用训练样本集中的正训练样本以及负训练样本对模型进行训练，借鉴对比学习的思想，通过温度参数调节困难负训练样本的贡献度，加强模型对困难负训练样本的学习，从而提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

可以理解的是，本申请实施例描述的***架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述阐述，下面结合图2所示的流程图，对本申请实施例所提出的模型训练方法作进一步阐述。在本申请实施例中，主要以上述所提及的计算机设备执行该模型训练方法为例进行说明。请参见图2，该模型训练方法具体可以包括步骤S201～S203：

S201、在训练样本集中确定正训练样本以及负训练样本。

在本申请实施例中，该正训练样本包括第一对象的第一特征信息以及该第一对象感兴趣的物品的第二特征信息，该负训练样本包括第二对象的第三特征信息以及该第二对象感兴趣的物品的第四特征信息。

其中，该训练样本集中的任一训练样本均可包括对象的特征信息以及该对象感兴趣的物品的特征信息。此处所提及的对象可以是指用户或其他物体，对象的特征信息包括但不限于：行为特征、兴趣特征、社交特征等等。以对象是用户为例，用户的特征信息可包括用户属性特征信息和用户序列特征信息；其中，用户属性特征信息包括用户年龄、性别、城市等级、学历等，用户序列特征信息包括用户喜好歌曲、偏好歌手、语种等。

进一步的，针对每个对象而言，其感兴趣的物品可以是该对象喜爱的物品，也可以是该对象关注度高的物品，在此不做限定。此处所提及的物品可以是指音乐作品、影视作品等，该对象感兴趣的物品的特征信息包括但不限于：属性特征、流行度特征等等。以对象是用户、物品为音乐作品为例，该用户感兴趣的音乐作品的特征信息可包括音乐作品的属性特征信息和音乐作品的流行度特征信息；其中，音乐作品的属性特征信息包括专辑、歌手、发行年代、语种、作品标识等，音乐作品的流行度特征信息包括该音乐作品的播放量、完播次数、分享量等(即能够衡量该音乐作品的流行程度的归一化的参数)。

需要说明的是，当对象是用户时，本申请实施例所涉及到对象的特征信息、对象感兴趣的物品的特征信息等相关的数据，均是经过用户授权后所获取到的。并且，当本申请实施例运用到具体产品或技术中时，所涉及使用到的数据需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在具体实现中，计算机设备可以通过批次内负采样(in batch negativesampling)的方式，在训练样本集中确定出正训练样本以及负训练样本。也就是说，随机将同一个批次(batch)内其他对象感兴趣的物品的特征信息对应的训练样本作为当前对象(即正训练样本对应的对象)的负训练样本，使得热门物品更容易被采样为负训练样本，从而能够有效的打压热门物品，更多中长尾物品(即热度较低的作品)能够得到有效曝光，真正挖掘对象的潜在兴趣，提高整个推荐***生态的健康度，同时也避免了维护负样本队列的工程问题。

可选地，正训练样本以及负训练样本可以采用以下两种方式中的任意一种方式确定：

方式一：该正训练样本为训练样本集中的任意一个训练样本，该负训练样本为训练样本集中除该正训练样本以外的其他训练样本中的一个或多个。

在方式一中，计算机设备从训练样本集中选取一个训练样本作为正训练样本，再随机从训练样本集中除该正训练样本以外的其他训练样本中选取一个或多个训练样本作为负训练样本。

例如，训练样本集中包括训练样本A、训练样本B、训练样本C。在一个批次内，计算机设备可以从训练样本集中选取训练样本A作为正训练样本，可以将训练样本B作为负训练样本，或者将训练样本C作为负训练样本，或者将训练样本B和训练样本C都作为负训练样本。

方式二：该正训练样本为训练样本集中的任意一个训练样本，该负训练样本为训练样本集中包括的目标物品的特征信息的训练样本，该目标物品为该第一对象关注度小于或等于第一阈值的物品。

在方式二中，计算机设备从训练样本集中选取一个训练样本作为正训练样本，再随机从第一对象关注度小于或等于第一阈值的物品对应的训练样本中选取一个或多个训练样本作为负训练样本。其中，关注度可以根据播放时长、播放次数、点赞次数等参数来衡量，也可以根据其他方式，在此不做限定。

例如，训练样本集中包括训练样本A、训练样本B、训练样本C和训练样本D。在一个批次内，计算机设备可以从训练样本集中选取训练样本A作为正训练样本，训练样本A包括第一对象的特征信息以及该第一对象感兴趣的物品 1的特征信息。假设第一阈值为60，第一对象对物品2的关注度为30、第一对象对物品3的关注度为80、第一对象对物品4的关注度为50，那么物品2和物品4为目标物品。其中，包括物品2的特征信息的训练样本为训练样本B，包括物品4的特征信息的训练样本为训练样本D，因此计算机设备可以将训练样本B 作为负训练样本，或者将训练样本D作为负训练样本，或者将训练样本B和训练样本D都作为负训练样本。

需要说明的是，在训练样本集中确定正训练样本以及负训练样本的方式也可以采用其他方式，在此不做限定。

S202、调用第一模型对第一特征信息以及第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量。

在本申请实施例中，第一模型可以是指深度神经网络模型，例如深度语义匹配模型(Deep Structured Semantic Models，DSSM)、深度相关性匹配模型(Deep RelevanceMatching Model，DRMM)等，在此不做限定。另外，该第一模型也具有很强的可扩展性，可根据不同的场景对第一模型的结构进行设计。

以第一模型为DSSM模型为例，该DSSM模型也可称为双塔召回模型，可以通过构建对象塔和物品塔，把对象的特征信息和物品的特征信息表征成稠密的向量。如图3所示，图3是本申请实施例提供的一种双塔召回模型的结构示意图。计算机设备将正训练样本包括的第一对象的第一特征信息和该第一对象感兴趣的物品的第二特征信息输入到第一模型中，分别通过对象特征编码器(对象塔)和物品特征编码器(物品塔)进行编码、嵌入(Embedding)等操作，将高维稀疏特征映射得到低维稠密特征向量，使得第一特征信息和第二特征信息表征成同一空间的稠密向量；然后将得到的Embedding特征拼接在一起经过三层的深度神经网络(Deep Neural Networks，DNN)，维度分别是512、256和 128，得到128维输出向量后经过激活函数(如tanh)并归一化，从而输出该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量。同理，将负训练样本包括的第二对象的第三特征信息和该第二对象感兴趣的物品的第四特征信息输入到第一模型中，输出该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量。

需要说明的是，计算机设备可以设置某些特征信息共享Embedding，从而能够有效减少模型的参数量。例如，音乐作品的特征信息中的歌曲标识可以共享 Embedding。

S203、基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型。

在本申请实施例中，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，该第二模型用于向对象推荐其感兴趣的物品。其中，困难负训练样本是指预测时与真值标签误差较大的负训练样本，简单负训练样本是指预测时与真值标签误差较小的负训练样本。此处提及的贡献度是指梯度贡献，也就是该训练样本在训练中所产生的梯度。在模型训练中，当简单训练样本的数量达到一定程度后，深度学习模型的精度主要取决于困难训练样本。因此，可以通过温度参数调节困难负训练样本和简单负训练样本的梯度贡献的能力，使得困难负训练样本的贡献度大于简单负训练样本的贡献度，更有利于加强模型对困难负训练样本的学习，以提高模型的推荐性能。

在一种可能的实现方式中，计算机设备在基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型时，具体的实现方式可以是：基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，确定该第一模型的损失值；基于该损失值更新该第一模型的模型参数，得到第二模型。

具体的，该第一模型的损失值可以采用公式(1)计算得到，公式(1)即可认为是第一模型的损失函数，该损失函数用于使第一对象的第一表征向量与第一对象感兴趣的物品的第二表征向量的余弦距离尽可能小，使第一对象的第一表征向量与第二对象感兴趣的物品的第四表征向量的余弦距离尽可能大。公式(1)如下：

公式(1)中的f(u₁,i)采用公式(2)表示：

公式(1)中的f(u₂,j)采用公式(3)表示：

其中，

表示第一对象的第一特征信息的表征向量(即第一表征向量)，z_i表示第一对象感兴趣的物品的第二特征信息的表征向量(即第二表征向量)，

表示第二对象的第三特征信息的表征向量(即第三表征向量)，z_j表示第二对象感兴趣的物品的第四特征信息的表征向量(即第四表征向量)，i表示第一对象感兴趣的物品，j表示第二对象感兴趣的物品，p_n表示除第一对象感兴趣的物品以外的其他物品，τ表示温度参数，L_infoNCE表示第一模型的损失值。

在一种可能的实现方式中，该温度参数的值大于0，且小于1。例如，该温度参数的值可以为0.1。

如图4所示，x表示正训练样本和负训练样本的向量表征的相似度，g(x)表示训练样本的梯度贡献；x越小，表示训练样本越简单；x越大，表示训练样本越困难。针对图4中(a)，当τ＝1时，也就是没有温度参数的时候(相当于目前双塔召回模型的损失函数(Sampled Softmax))，困难负训练样本的梯度贡献和简单负训练样本的梯度贡献在很小的一个区间范围内，即(0，1.5)。也就是说，困难负训练样本和简单负训练样本对梯度的贡献是差不多的，模型基本无法区分出困难负训练样本和简单负训练样本，减弱了模型对困难负训练样本的学习。而针对图4中(b)，当τ＝0.1时，困难负训练样本的梯度贡献和简单负训练样本的梯度贡献相差很大，即(0，4000)。也就是说，简单负训练样本的梯度贡献与困难负训练样本的梯度贡献相比，基本可以忽略不计，可以认为该温度参数提供了对比学习的能力，使得向量空间能够被打散，困难负训练样本更容易区分出来，更有利于加强模型对困难负训练样本的学习。

综上所述，在本申请实施例中，首先在训练样本集中确定正训练样本以及负训练样本；然后调用第一模型对第一特征信息以及第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；最后基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型。该模型训练方法充分利用了训练样本集中的正训练样本以及负训练样本对模型进行训练，借鉴对比学习的思想，通过温度参数调节困难负训练样本的贡献度，加强模型对困难负训练样本的学习，从而提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

基于上述阐述，下面结合图5所示的流程图，对本申请实施例所提出的模型训练方法作进一步阐述。在本申请实施例中，主要以上述所提及的计算机设备执行该模型训练方法为例进行说明。请参见图5，该模型训练方法具体可以包括步骤S501～S507：

S501、在训练样本集中确定正训练样本以及负训练样本。

S502、调用第一模型对第一特征信息以及第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量。

S503、基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型。

其中，步骤S501～S503的具体实现方式可以参考上述步骤S201～S203的具体实现方式，在此不做赘述。

S504、获取第三对象的第五特征信息。

在本申请实施例中，该第三对象的第五特征信息为任意对象的特征信息。计算机设备获取该第三对象的第五特征信息的目的是为该第三对象推荐其感兴趣的物品。

S505、调用第二模型对第五特征信息进行处理，得到该第五特征信息的第五表征向量。

在本申请实施例中，该第五表征向量与检索库中的物品的表征向量处于同一维度空间。计算机设备训练得到第二模型后，可以在线上对该第二模型进行应用。

在一种可能的实现方式中，该方法还包括：获取样本物品的特征信息；调用该第二模型对该样本物品的特征信息进行处理，得到该样本物品的特征信息的样本表征向量；将该样本表征向量存储至检索库。此处的样本物品的特征信息可以是指训练样本集中包括的物品的特征信息，也可以是从其他数据库中的物品的特征信息，在此不做限定。利用训练得到的第二模型对所有样本物品的特征信息进行处理，得到所有样本物品的特征信息的样本表征向量，并将其保存在检索库中，以供查找与该第五表征向量相匹配的表征向量。

S506、从检索库中获取与该第五表征向量相匹配的第六表征向量，并将该第六表征向量添加到推荐候选集。

在本申请实施例中，计算机设备计算该第五表征向量与检索库中每个表征向量之间的匹配度，具体可以是计算该第五表征向量与检索库中每个表征向量之间的余弦距离：第五表征向量与检索库中的某个表征向量之间的余弦距离越小，则第五表征向量与检索库中的某个表征向量之间的匹配度就越高。

在一种可能的实现方式中，该第六表征向量为检索库中与该第五表征向量的匹配度在第一预设范围内的表征向量。

例如，假设检索库中包括样本表征向量a、样本表征向量b和样本表征向量 c，第五表征向量与样本表征向量a的匹配度为85，第五表征向量与样本表征向量b的匹配度为90，第五表征向量与样本表征向量c的匹配度为70，第一预设范围为(80,100)。那么检索库中与第五表征向量的匹配度在第一预设范围内的表征向量有样本表征向量a和样本表征向量b，即样本表征向量a和样本表征向量b为第六表征向量，并将样本表征向量a和样本表征向量b添加到推荐候选集。

S507、将从推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端。

在本申请实施例中，推荐候选集中保存的都是与该第五表征向量相匹配的第六表征向量，可以按照预设规则从推荐候选集中确定出的目标表征向量。其中，此处的预设规则可以是随机从推荐候选集中选取一个或多个第六表征向量作为目标表征向量；也可以是按照热度将推荐候选集中的所有第六表征向量划分为热门区和冷门区(即热度大于或等于第二阈值的第六表征向量划分为热门区，热度小于第二阈值的第六表征向量划分为热门区)，在热门区和/或冷门区分别选取一个或多个第六表征向量作为目标表征向量；还可以采用其他的规则，在此不做限定。

例如，推荐候选集中包括第六表征向量m、第六表征向量n、第六表征向量 q和第六表征向量p。第六表征向量m对应的物品的热度为30、第六表征向量n 对应的物品的热度为40、第六表征向量q对应的物品的热度为70、第六表征向量p对应的物品的热度为80。假设第二阈值为50，那么第六表征向量m和第六表征向量n在冷门区，第六表征向量q和第六表征向量p在热门区，在冷门区选取第六表征向量m作为目标表征向量，在热门区选取第六表征向量q作为目标表征向量。将第六表征向量m对应的物品以及第六表征向量q对应的物品推荐给该第三对象对应的客户端。

在一种可能的实现方式中，计算机设备在将从推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端时，具体的实现方式可以是：对推荐候选集中的第六表征向量进行排序处理，得到候选序列；将该候选序列中前N个第六表征向量确定为目标表征向量，并将该目标表征向量对应的物品推荐给该第三对象对应的客户端，该N为正整数。其中，排序的方式可以是按照热度从高到低排序或从低到高排序，也可以是按照发行时间从远到近排序或从近到远排序，在此不做限定。

例如，推荐候选集中包括第六表征向量m、第六表征向量n、第六表征向量 q和第六表征向量p。第六表征向量m对应的物品的热度为30、第六表征向量n 对应的物品的热度为40、第六表征向量q对应的物品的热度为70、第六表征向量p对应的物品的热度为80。按照热度从高到低排序，得到的候选序列为第六表征向量m、第六表征向量n、第六表征向量q和第六表征向量p。假设N为2，那么将第六表征向量m和第六表征向量n确定为目标表征向量，将第六表征向量m对应的物品以及第六表征向量n对应的物品推荐给该第三对象对应的客户端。

综上所述，在本申请实施例中，首先在训练样本集中确定正训练样本以及负训练样本；然后调用第一模型对第一特征信息以及第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用第一模型对第三特征信息以及第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；最后基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型，并利用训练得到的第二模型在线上进行应用。该模型训练方法充分利用了训练样本集中的正训练样本以及负训练样本对模型进行训练，借鉴对比学习的思想，通过温度参数调节困难负训练样本的贡献度，加强模型对困难负训练样本的学习，从而提高模型的推荐性能和用户体验，保证作品推荐的智能性和多样性。

基于上述的模型训练方法，本申请实施例提供了一种模型训练装置。请参见图6，是本申请实施例提供的一种模型训练装置的结构示意图，该模型训练装置600可以运行如下单元：

确定单元601，用于在训练样本集中确定正训练样本以及负训练样本，该正训练样本包括第一对象的第一特征信息以及该第一对象感兴趣的物品的第二特征信息，该负训练样本包括第二对象的第三特征信息以及该第二对象感兴趣的物品的第四特征信息；

调用单元602，用于调用第一模型对该第一特征信息以及该第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用该第一模型对该第三特征信息以及该第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；

处理单元603，用于基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，该第二模型用于向对象推荐其感兴趣的物品。

在一种实施方式中，处理单元603，在基于该第一表征向量、该第二表征向量、该第三表征向量、该第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型时，可具体用于：基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，确定该第一模型的损失值；基于该损失值更新该第一模型的模型参数，得到第二模型。

另一种实施方式中，该温度参数的值大于0，且小于1。

另一种实施方式中，该正训练样本为训练样本集中的任意一个训练样本，该负训练样本为训练样本集中除该正训练样本以外的其他训练样本中的一个或多个。

另一种实施方式中，该负训练样本为训练样本集中包括的目标物品的特征信息的训练样本，该目标物品为该第一对象关注度小于或等于第一阈值的物品。

另一种实施方式中，处理单元603，还用于：获取第三对象的第五特征信息；调用该第二模型对该第五特征信息进行处理，得到该第五特征信息的第五表征向量，该第五表征向量与检索库中的物品的表征向量处于同一维度空间；从该检索库中获取与该第五表征向量相匹配的第六表征向量，并将该第六表征向量添加到推荐候选集；将从该推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端。

另一种实施方式中，该第六表征向量为该检索库中与该第五表征向量的匹配度在第一预设范围内的表征向量。

另一种实施方式中，处理单元603，还用于：获取样本物品的特征信息；调用该第二模型对该样本物品的特征信息进行处理，得到该样本物品的特征信息的样本表征向量；将该样本表征向量存储至该检索库。

另一种实施方式中，处理单元603，在将从该推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端时，可具体用于：对该推荐候选集中的第六表征向量进行排序处理，得到候选序列；将该候选序列中前N 个第六表征向量确定为目标表征向量，并将该目标表征向量对应的物品推荐给该第三对象对应的客户端，该N为正整数。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的模型训练装置，以及来实现本申请实施例的模型训练方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图7，该计算机设备700至少包括处理器701、通信接口702 以及计算机存储介质703。其中，处理器701、通信接口702以及计算机存储介质703可通过总线或其他方式连接。计算机存储介质703可以存储在计算机设备700的存储器704中，所述计算机存储介质703用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质703 存储的程序指令。处理器701(或称中央处理器(Central Processing Unit，CPU)) 是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例所述的处理器701可以用于进行一系列的处理，具体包括：在训练样本集中确定正训练样本以及负训练样本，该正训练样本包括第一对象的第一特征信息以及该第一对象感兴趣的物品的第二特征信息，该负训练样本包括第二对象的第三特征信息以及该第二对象感兴趣的物品的第四特征信息；调用第一模型对该第一特征信息以及该第二特征信息进行处理，得到该第一特征信息的第一表征向量以及该第二特征信息的第二表征向量，以及调用该第一模型对该第三特征信息以及该第四特征信息进行处理，得到该第三特征信息的第三表征向量以及该第四特征信息的第四表征向量；基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型，该温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，该第二模型用于向对象推荐其感兴趣的物品，等等。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作***。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2或图5所示的模型训练方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器701加载并执行如下步骤：

在一种实施方式中，在基于该第一表征向量、该第二表征向量、该第三表征向量、该第四特征向量和温度参数，对该第一模型进行模型优化，得到第二模型时，该一条或多条指令可由处理器加载并执行：基于第一表征向量、第二表征向量、第三表征向量、第四特征向量和温度参数，确定该第一模型的损失值；基于该损失值更新该第一模型的模型参数，得到第二模型。

另一种实施方式中，该温度参数的值大于0，且小于1。

另一种实施方式中，该一条或多条指令可由处理器加载并还执行：获取第三对象的第五特征信息；调用该第二模型对该第五特征信息进行处理，得到该第五特征信息的第五表征向量，该第五表征向量与检索库中的物品的表征向量处于同一维度空间；从该检索库中获取与该第五表征向量相匹配的第六表征向量，并将该第六表征向量添加到推荐候选集；将从该推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端。

另一种实施方式中，该一条或多条指令可由处理器加载并还执行：获取样本物品的特征信息；调用该第二模型对该样本物品的特征信息进行处理，得到该样本物品的特征信息的样本表征向量；将该样本表征向量存储至该检索库。

另一种实施方式中，在将从该推荐候选集中确定出的目标表征向量对应的物品推荐给该第三对象对应的客户端时，该一条或多条指令可由处理器加载并还执行：对该推荐候选集中的第六表征向量进行排序处理，得到候选序列；将该候选序列中前N个第六表征向量确定为目标表征向量，并将该目标表征向量对应的物品推荐给该第三对象对应的客户端，该N为正整数。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2 或图5所示的模型训练方法实施例方面的各种可选方式中提供的方法。并且，应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

在训练样本集中确定正训练样本以及负训练样本，所述正训练样本包括第一对象的第一特征信息以及所述第一对象感兴趣的物品的第二特征信息，所述负训练样本包括第二对象的第三特征信息以及所述第二对象感兴趣的物品的第四特征信息；

调用第一模型对所述第一特征信息以及所述第二特征信息进行处理，得到所述第一特征信息的第一表征向量以及所述第二特征信息的第二表征向量，以及调用所述第一模型对所述第三特征信息以及所述第四特征信息进行处理，得到所述第三特征信息的第三表征向量以及所述第四特征信息的第四表征向量；

基于所述第一表征向量、所述第二表征向量、所述第三表征向量、所述第四特征向量和温度参数，对所述第一模型进行模型优化，得到第二模型，所述温度参数用于使困难负训练样本的贡献度大于简单负训练样本的贡献度，所述第二模型用于向对象推荐其感兴趣的物品。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一表征向量、所述第二表征向量、所述第三表征向量、所述第四特征向量和温度参数，对所述第一模型进行模型优化，得到第二模型，包括：

基于所述第一表征向量、所述第二表征向量、所述第三表征向量、所述第四特征向量和温度参数，确定所述第一模型的损失值；

基于所述损失值更新所述第一模型的模型参数，得到第二模型。

3.根据权利要求1所述的方法，其特征在于，所述温度参数的值大于0，且小于1。

4.根据权利要求1～3中任一项所述的方法，其特征在于，所述正训练样本为所述训练样本集中的任意一个训练样本，所述负训练样本为所述训练样本集中除所述正训练样本以外的其他训练样本中的一个或多个。

5.根据权利要求4所述的方法，其特征在于，所述负训练样本为所述训练样本集中包括的目标物品的特征信息的训练样本，所述目标物品为所述第一对象关注度小于或等于第一阈值的物品。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第三对象的第五特征信息；

调用所述第二模型对所述第五特征信息进行处理，得到所述第五特征信息的第五表征向量，所述第五表征向量与检索库中的物品的表征向量处于同一维度空间；

从所述检索库中获取与所述第五表征向量相匹配的第六表征向量，并将所述第六表征向量添加到推荐候选集；

将从所述推荐候选集中确定出的目标表征向量对应的物品推荐给所述第三对象对应的客户端。

7.根据权利要求6所述的方法，其特征在于，所述第六表征向量为所述检索库中与所述第五表征向量的匹配度在第一预设范围内的表征向量。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

获取样本物品的特征信息；

调用所述第二模型对所述样本物品的特征信息进行处理，得到所述样本物品的特征信息的样本表征向量；

将所述样本表征向量存储至所述检索库。

9.根据权利要求6或7所述的方法，其特征在于，所述将从所述推荐候选集中确定出的目标表征向量对应的物品推荐给所述第三对象对应的客户端，包括：

对所述推荐候选集中的第六表征向量进行排序处理，得到候选序列；

将所述候选序列中前N个第六表征向量确定为目标表征向量，并将所述目标表征向量对应的物品推荐给所述第三对象对应的客户端，所述N为正整数。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～9任一项所述的模型训练方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1～9任一项所述的模型训练方法。