CN113312512B

CN113312512B - 训练方法、推荐方法、装置、电子设备以及存储介质

Info

Publication number: CN113312512B
Application number: CN202110657995.9A
Authority: CN
Inventors: 刘心元
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-10-31
Anticipated expiration: 2041-06-10
Also published as: CN113312512A

Abstract

本公开公开了推荐模型的训练方法、直播资源推荐方法、装置、电子设备、存储介质以及程序产品，涉及人工智能领域，尤其涉及直播领域。推荐模型的训练方法具体实现方案为：获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长；以及利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

Description

训练方法、推荐方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及直播领域，具体涉及推荐模型的训练方法、直播资源推荐方法、装置、电子设备、存储介质以及程序产品。

背景技术

随着信息技术和网络技术的迅猛发展，信息膨胀与冗余给人们的社会活动和娱乐活动带来了信息选择的困惑。从浩瀚的资源中寻找需要的信息具有极大的挑战。在互联网的个性化信息服务应用中，可以针对不同的用户提供不同的个性化信息服务。基于用户的不同特点以及要求进行自动化的信息推荐。但是，在推荐过程中，其推荐结果符合用户个性化需求的满意度有待提高。

发明内容

本公开提供了一种推荐模型的训练方法、直播资源推荐方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种推荐模型的训练方法，包括：获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长；以及利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

根据本公开的另一方面，提供了一种直播资源推荐方法，包括：获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；将每个候选推荐直播资源的特征数据和目标行为对象的特征数据输入到推荐模型中，得到目标行为对象针对每个候选推荐直播资源的预测行为结果；以及基于目标行为对象针对每个候选推荐直播资源的预测行为结果，确定多个候选推荐直播资源的推荐顺序；其中，推荐模型是利用根据上述的推荐模型的训练方法训练的。

根据本公开的另一方面，提供了一种推荐模型的训练装置，包括：训练数据获取模块，用于获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长；以及训练模块，用于利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

根据本公开的另一方面，提供了一种直播资源推荐装置，包括：目标数据获取模块，用于获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；预测模块，用于将每个候选推荐直播资源的特征数据和目标行为对象的特征数据输入到推荐模型中，得到目标行为对象针对每个候选推荐直播资源的预测行为结果；以及排序模块，用于基于目标行为对象针对每个候选推荐直播资源的预测行为结果，确定多个候选推荐直播资源的推荐顺序；其中，推荐模型是利用根据上述的推荐模型的训练方法训练的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用推荐模型的训练方法、直播资源推荐方法及装置的示例性***架构；

图2示意性示出了根据本公开实施例的推荐模型的训练方法的流程图；

图3示意性示出了根据本公开实施例的直播资源推荐列表示意图；

图4示意性示出了根据本公开另一实施例的推荐模型的训练方法的流程图；

图5示意性示出了根据本公开实施例的直播资源推荐方法的流程图；

图6示意性示出了根据本公开实施例的推荐模型的训练装置的框图；

图7示意性示出了根据本公开实施例的直播资源推荐装置的框图；以及

图8示意性示出了根据本公开实施例的适于实现推荐模型的训练方法或者直播资源推荐方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在互联网的个性化信息服务应用中，可以针对不同的行为对象提供不同的个性化信息服务。例如，在线电子阅读应用中，可以针对不同的阅读对象提供不同的推荐列表，以便阅读对象快速找到心仪的阅读文件和书籍。还例如，在直播场景下，可以针对不同的观看对象提供不同的直播资源，以便观看对象快速找到感兴趣的直播资源，例如直播主播或者直播间。

现有个性化信息服务应用中，可以利用机器学习的方式来预测行为对象对推荐资源的兴趣度，根据该兴趣度来进行推荐。但是，在机器学习过程中，不同的学习模型、不同的特征数据以及不同的参考目标，均影响着其学习后的预测推荐效果。

本公开提供了推荐模型的训练方法、直播资源推荐方法、装置、电子设备、存储介质以及程序产品。

根据本公开的实施例，推荐模型的训练方法可以包括：获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长；以及利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

根据本公开的另一实施例，直播资源推荐方法可以包括：获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；将每个候选推荐直播资源的特征数据和目标行为对象的特征数据输入到推荐模型中，得到目标行为对象针对每个候选推荐直播资源的预测行为结果；以及基于目标行为对象针对每个候选推荐直播资源的预测行为结果，确定多个候选推荐直播资源的推荐顺序；其中，推荐模型是利用上述的推荐模型的训练方法训练的。

图1示意性示出了根据本公开实施例的可以应用推荐模型的训练方法、直播资源推荐方法及装置的示例性***架构。

需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，推荐模型的训练方法或者直播资源推荐方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的推荐模型的训练方法或者直播资源推荐方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的推荐模型的训练方法或者直播资源推荐方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的推荐模型的训练装置或者直播资源推荐装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的推荐模型的训练方法或者直播资源推荐方法一般也可以由服务器105执行。相应地，本公开实施例所提供的推荐模型的训练装置或者直播资源推荐装置一般可以设置于服务器105中。本公开实施例所提供的推荐模型的训练方法或者直播资源推荐方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的推荐模型的训练装置或者直播资源推荐装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，在用户在线观看网络直播时，终端设备101、102、103可以获取目标行为对象的特征数据以及候选推荐直播资源的特征数据，然后将获取的目标行为对象的特征数据以及候选推荐直播资源的特征数据发送给服务器105，由服务器105对目标行为对象的特征数据以及候选推荐直播资源的特征数据进行分析，确定多个候选推荐直播资源的推荐顺序。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对目标行为对象的特征数据以及候选推荐直播资源的特征数据进行分析，并确定多个候选推荐直播资源的推荐顺序。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的推荐模型的训练方法的流程图。

如图2所示，该方法包括操作S210～S220。

在操作S210，获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长。

在操作S220，利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

根据本公开的实施例，行为对象可以是行为发生体，例如用户。行为对象的类型不做限定。例如，该行为对象可以是在网页上进行搜索、浏览的对象，但是并不局限于此，也可以是在视频播放软件上观看视频、直播等的对象，还可以是在电子阅读软件进行阅读的对象。

根据本公开的实施例，行为对象的特征数据的类型不做限定。例如，行为对象的特征数据可以是行为对象的唯一标识数据，但是并不局限于此，也可以是行为对象的行为特征数据，还可以是行为对象的属性特征数据。

根据本公开的实施例，目标推荐直播资源的类型不做限定。例如，目标推荐直播资源可以是目标推荐直播间，也可以是目标推荐直播主播，还可以是目标推荐直播主题等。

根据本公开的实施例，目标推荐直播资源的特征数据的类型不做限定。例如，目标推荐直播资源的特征数据可以是目标推荐直播资源的唯一标识数据，但是并不局限于此，也可以是目标推荐直播资源的属性特征数据，还可以是目标推荐直播资源的内容特征数据。

根据本公开的实施例，标签的类型不做限定。例如，标签可以是分值形式的数据，但是并不局限于此，也可以是其他权重表现形式的数据。需要说明的是，在本公开的实施例中，标签可以用于表征行为对象针对目标推荐直播资源的观看时长。该行为可以是阅读电子书的行为，但是并不局限于此，也可以是观看视频的行为，还可以是与主播互动、连麦的行为。

根据本公开的实施例，推荐模型的类型不做限定。例如，推荐模型可以是排序模型，但是并不局限于此，还可以是神经网络模型。只要是能够基于训练数据以及与训练数据相对应的标签，进行训练后能够进行对候选推荐直播资源进行预测的模型均可。还需要说明的是，该推荐模型可以是初始构建的模型，也可以是经过训练线上运行的推荐模型。

根据本公开的实施例，利用本公开提供的推荐模型的训练方法，以行为对象针对目标推荐直播资源的观看时长作为标签进行训练。不仅参考行为对象针对目标推荐直播资源的选择行为，而且还考虑了行为对象针对目标推荐直播资源的观看时长。避免行为对象因误操作而发生的选择行为，以及避免行为对象短时间内即停止行为发生的行为。利用表征行为发生的观看时长的标签来训练推荐模型，充分体现了行为对象对目标推荐直播资源的兴趣程度。进而使经训练的推荐模型预测准确度提高。

下面具体实施例，并参考图3～图4对例如图2所示的方法做进一步说明。

根据本公开的实施例，可以通过如下操作获取训练数据以及与训练数据相对应的标签。

例如，从多个推荐直播资源中确定行为对象发生观看行为的目标推荐直播资源。基于目标推荐直播资源和行为对象，获取训练数据。获取行为对象针对目标推荐直播资源的观看时长。基于行为对象针对目标推荐直播资源的观看时长，确定与训练数据相对应的标签。

根据本公开的实施例，该推荐直播资源可以是直播频道场景下推荐列表中的直播资源。

根据本公开的实施例，该推荐直播资源可以在每次刷新过后随之全部更新或者部分更新。

根据本公开的实施例，该目标推荐直播资源可以是行为对象从多个推荐直播资源中选择的一个对象。该发生观看行为可以是点击并观看的行为。

图3示意性示出了根据本公开实施例的直播资源推荐列表示意图。

在直播应用场景下，直播应用程序首页可以展示输入框，行为对象例如用户，可以在输入框内输入搜索内容，并进行观看以及互动等发生观看行为。但是，为了更优质的为行为对象提供服务，优化服务体验，可以展示推荐列表供行为对象选择。如图3所示，在输入框下方展示具有多个推荐直播资源的推荐列表，例如推荐直播资源1、推荐直播资源2、推荐直播资源3、推荐直播资源4和推荐直播资源5。每个推荐直播资源可以展示标题、摘要以及浏览人数等等信息。行为对象可以根据个人兴趣从推荐列表展示的推荐直播资源中选择其中的一个或多个作为目标推荐直播资源，点击并进行观看等发生观看行为。

根据本公开的实施例，可以基于行为对象针对目标推荐直播资源发生的选择行为，例如点击行为，来确定与训练数据相对应的标签。但是并不局限于此，还可以是基于行为对象针对目标推荐直播资源的观看时长，确定与训练数据相对应的标签。

需要说明的是，如果仅考虑选择行为，将选择行为作为目标进行训练，则没有对正样本区分对待。该种情况下，可能存在行为对象误点击以及点击后快速退出的情况。而实际情况下，点击后观看1分钟与观看10分钟，其行为对象的感兴趣程度是不同的。

根据本公开的实施例，采用用于表征行为对象针对目标推荐直播资源的观看时长的标签作为目标来训练推荐模型，对兴趣程度进行区分，避免了误点击以及点击后发现没有兴趣快速退出等情况。经训练的推荐模型，其预测效果更好。

根据本公开的实施例，可以通过如下操作获取行为对象针对目标推荐直播资源的观看时长。

例如，获取预设时间段内的行为对象针对目标推荐直播资源间隔发生观看行为的多个初步观看时长；以及将多个初步观看时长中时长最大的初步观看时长作为观看时长。

根据本公开的实施例，预设时间段可以是例如某日全天，但是并不局限于此，还可以是某日的某个时间段。

根据本公开的实施例，预设时间段内的行为对象针对目标推荐直播资源发生观看行为仅一次，则统计该次的观看时长即可。

根据本公开的其他实施例，在行为对象针对目标推荐直播资源发生观看行为次数多于一次，即，多次间隔发生观看行为。例如表1中，在预设时间段内，例如14点到16点之间，发生观看行为的初步观看时长为多个，依次为2分钟、10分钟、5分钟和15分钟。

根据本公开的实施例，可以将时长最大的初步观看时长作为观看时长。即，将15分钟作为观看时长。

根据本公开的实施例，将时长最大的初步观看时长作为观看时长，更具有针对性。因为目标推荐直播资源例如直播，在长时间内可能更换了多个不同的直播内容、直播主题以及直播类型。因此，仅考虑时长最大的观看时长，将更有利于具有针对性的进行学习，充分考虑到资源类型、内容以及主题的喜好程度。

表1目标推荐直播资源间隔发生统计表

观看时间	14：10	14：20	15：10	15：20
					观看时长	2分钟	10分钟	5分钟	15分钟

但是并不局限于此，还可以将多个初步观看时长的累加之和作为观看时长。

如表1所示，可以将多个初步观看时长，例如2分钟、10分钟、5分钟和15分钟进行累加，将累加之和32分钟作为观看时长。

根据本公开的实施例，将多个初步观看时长的累加之和作为观看时长，更具有普适性。在对多个不同的目标推荐直播资源进行考虑时，其累加之和更能体现其对某一资源例如某一主播的喜好程度。

根据本公开的实施例，基于行为对象针对目标推荐直播资源的观看时长，确定与训练数据相对应的标签的具体操作如下。

例如，基于行为对象针对目标推荐直播资源的观看时长，从多个时长区间中确定与观看时长匹配的目标时长区间，其中，多个时长区间是将时长按照预设规则划分的多个区间；以及基于目标时长区间，确定与观看时长匹配的目标权重值，并将目标权重值作为训练数据相对应的标签，其中，目标权重值是指预先设置的与目标时长区间相对应的权重值。

根据本公开的实施例，该预设规则以及时长区间可以根据实际情况自行拟定。例如观看球赛等直播视频，其实际的观看时长比较长，观看时长基本为半个小时或者多个小时，则时长区间划分可以以半个小时为一个区间。还例如观看直播短视频，其实际的观看时长比较短，一般为2分钟到10分钟左右，则时长区间划分可以以10秒或者30秒为一个区间。

根据本公开的实施例，对权重值的设置并不做具体限定，可根据实际情况自行拟定。

例如，针对直播视频，对有展现(即，推荐)但没有点击的推荐直播资源设置权重值为0分；对于发生观看行为时长的目标推荐直播资源，按观看时长每增加120秒，权重值+1分；当权重值设置为4分的时候，加大时长区间间隔，观看时长增加300秒则+5分；当权重值设置为5分后，观看时长增加超过300秒及以上则权重值设置为6分。

根据本公开的实施例，利用时长区间以及权重值的方式来确定标签，不仅将观看时长离散化，将观看时长作为目标与标签相结合；而且将标签标准化且具体化，有利于进行统计与处理。

根据本公开的实施例，行为对象的特征数据包括行为对象的行为特征数据和行为对象的属性特征数据。

根据本公开的实施例，行为对象的行为特征数据的类型不做限定。例如，可以是点击行为、输入行为等的行为特征数据。也可以是点赞、送礼物、购物、观看时长等的行为特征数据。还可以是其他方式的交互行为的行为特征数据。

根据本公开的实施例，行为对象的属性特征数据的类型不做限定。例如，可以是年龄、性别、星座、属相等的属性特征数据。也可以是账号、名称等的属性特征数据。还可以是其他表征行为对象的标识的属性特征数据。

根据本公开的实施例，将行为对象的行为特征数据和行为对象的属性特征数据作为行为对象的行为特征数据，行为对象的特征考虑充分，使训练后的推荐模型更精准，贴近用户需求。

根据本公开的实施例，目标推荐直播资源的特征数据包括目标推荐直播资源的属性特征数据和目标推荐直播资源的内容特征数据。

根据本公开的实施例，目标推荐直播资源的属性特征数据的类型不做限定。例如，可以是目标推荐直播资源的用于标识的特征数据。也可以是目标推荐直播资源的展示方式的特征数据。还可以是目标推荐直播资源的展示时长、展示平台等的特征数据。

根据本公开的实施例，目标推荐直播资源的内容特征数据的类型不做限定。例如，可以是内容类型的特征数据。也可以是内容场景的特征数据。还可以是内容对象的特征数据。

根据本公开的实施例，将目标推荐直播资源的属性特征数据和目标推荐直播资源的内容特征数据作为目标推荐直播资源的属性特征数据，目标推荐直播资源的特征考虑充分，使训练后的推荐模型筛选推荐直播资源更为精确，提高推荐效果。

根据本公开的另一实施例，训练数据可以在包括行为对象的行为特征数据、行为对象的属性特征数据、目标推荐直播资源的属性特征数据和目标推荐直播资源的内容特征数据的基础上，还包括场景特征数据。

根据本公开的实施例，场景特征数据的类型不做限定。例如，可以是场景类型例如电子阅读场景、网页展示场景以及视频观看场景等特征数据。也可以是日期、时间等特征数据。还可以是天气、行为对象所处地理位置等特征数据。

根据本公开的实施例，考虑场景特征数据进行推荐模型的训练，更全面，将主要影响因素和次要影响因素充分考虑，使推荐模型的预测更精准且智能。

根据本公开的实施例，基于目标推荐直播资源和行为对象，获取训练数据可以包括如下操作。

例如，基于目标推荐直播资源和行为对象，获取行为对象的初始特征数据和目标推荐直播资源的初始特征数据；对行为对象的初始特征数据进行数据截取处理或者均值替换处理，得到行为对象的特征数据；对目标推荐直播资源的初始特征数据进行数据截取处理或者均值替换处理，得到目标推荐直播资源的特征数据。

根据本公开的实施例，行为对象的初始特征数据和目标推荐直播资源的初始特征数据，可以基于目标推荐直播资源和行为对象从日志中获取得到。

根据本公开的实施例，行为对象的初始特征数据或者目标推荐直播资源的初始特征数据，一般是没有经过预处理的数据，未经处理直接进行训练与应用，将降低训练速度，加大训练难度。

根据本公开的实施例，对预处理的类型不做限定。例如，可以是截取处理，也可以是均值替换处理，还可以是其他类型的例如清洗、格式统一等方式的处理。

根据本公开的实施例，截取处理可以是针对部分异常数据进行的截断处理。

根据本公开的实施例，均值替换处理可以是针对部分缺失数据进行的替换处理。可以利用均值替换该缺失数据。

根据本公开的实施例，对获取到的行为对象的初始特征数据和目标推荐直播资源的初始特征数据进行预处理，例如截取处理和/或均值替换处理，能够提高后续训练速度，提高特征提取速度。

根据本公开的实施例，利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型可以包括如下操作。

例如，利用训练数据以及与其相对应的标签训练推荐模型，其中，推荐模型可以采用决策树算法、逻辑回归算法、贝叶斯算法中的一种算法建立；以及在训练后的推荐模型的目标指标满足预设要求的情况下，将训练后的推荐模型作为经训练的推荐模型，其中，目标指标包括归一化折扣累计收益指标、接收者操作特征指标、平均准确率指标中的一种或多种。

根据本公开的实施例，推荐模型的类型不做限定。例如，推荐模型可以是采用决策树算法建立，但是并不局限于此，还可以是采用逻辑回归算法或者贝叶斯算法建立。

根据本公开的实施例，推荐模型可以采用决策树算法建立，更为具体的，推荐模型可以采用GBDT模型(即，Gradient Boosting Decision Tree，梯度提升决策树)采用该算法得到的推荐模型，更为适用于本公开实施例的训练数据以及与其相对应的标签。利用训练数据以及与其相对应的标签训练由决策树算法建立的推荐模型，训练速度快，得到的经训练的推荐模型预测效果好。

根据本公开的实施例，预设要求的类型不做限定。例如，可以是根据实际需要预设的阈值，但是并不局限于此，还可以是其他指标标准，只要是能够衡量推荐模型是否达到上线标准即可。

根据本公开的实施例，可以采用归一化折扣累计收益指标与平均准确率指标共同来衡量。采用归一化折扣累计收益指标与平均准确率指标共同来衡量，最终得到的经训练的推荐模型的预测效果好，提高预测准确度。

图4示意性示出了根据本公开另一实施例的推荐模型的训练方法的流程图。

如图4所示，推荐模型的训练方法可以包括操作S410、S421、S422以及S430。

在操作S410中，拼接日志。

根据本公开的实施例，日志可以包括推荐直播资源的展现日志、目标推荐直播资源的点击日志、以及目标推荐直播资源的时长日志。

根据本公开的实施例，处理日志数据，可以包括对多个日志数据进行拼接、日志数据预处理等。

例如，以展现日志为基础日志，并增加点击字段与时长字段，其中，该点击字段与时长字段对应的初始值均为0。通过相同的日志标识、行为对象标识或者资源标识等，从点击日志确定目标资源被行为对象点击，则将点击字段设置为1。通过相同的日志标识、行为对象标识或者资源标识等，从时长日志中确定记录的观看时长，在时长字段设置为时长日志中记录的观看时长。其中，在一定时间内，比如间隔1小时内，(用户id、直播资源id)相同，但点击字段与时长字段不同的日志，可以保留有点击且时长最大的作为其观看时长。

经过日志拼接处理后的拼接日志中记录了训练数据，即记录了点击信息、观看时长信息、行为对象的特征数据以及目标推荐直播资源的特征数据等。

在操作S421中，训练数据的提取与处理。

根据本公开的实施例，从拼接后的日志中抽取特征，为了便于数据管理与后续的迭代升级，可以将抽取的特征进行分类，例如，场景特征数据、目标推荐直播资源的特征数据(例如，直播间特征数据、主播特征数据)、行为对象的特征数据(例如，用户行为对象的属性特征数据、行为对象的行为特征数据)等。

对特征数据中的异常值、缺失值进行处理。对于异常值，可以进行截断处理，对于缺失值，可以使用均值替换。

在操作S422中，制作标签。

根据本公开的实施例，针对直播视频，对有展现但没有点击的推荐直播资源设置权重值为0分；对于发生观看行为时长的目标推荐直播资源，按观看时长每增加120秒，权重值+1分；当权重值设置为4分的时候，加大时长区间间隔，观看时长增加300秒则+5分；当权重值设置为5分后，观看时长增加超过300秒及以上则权重值设置为6分。

根据本公开的实施例，经过操作S421和操作S422，得到符合GBRank模型训练格式的数据。

在操作S430中，模型训练。

使用上述构建后的训练数据训练GBRank模型，评估模型的NDCG(即，NormalizedDiscounted cumulative gain，归一化折损累计增益)、AUC(AreaUnder Curve，ROC曲线下与坐标轴围成的面积)等指标。

根据本公开的实施例，待评估模型的指标达到标准后，确定为经训练的推荐模型。可以将该经训练的推荐模型配送到线上，将对直播推荐直播资源进行打分并排序，形成推荐列表返回给用户。

根据本公开的实施例，当用户在直播频道页进行刷新时，直播推荐***会重新推荐一批直播资源。

图5示意性示出了根据本公开实施例的直播资源推荐方法的流程图。

如图5所示，该方法包括操作S510～S530。

在操作S510，获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据。

在操作S520，将每个候选推荐直播资源的特征数据和目标行为对象的特征数据输入到推荐模型中，得到目标行为对象针对每个候选推荐直播资源的预测行为结果。

在操作S530，基于目标行为对象针对每个候选推荐直播资源的预测行为结果，确定多个候选推荐直播资源的推荐顺序；其中，推荐模型是利用根据上述的推荐模型的训练方法训练的。

根据本公开的实施例，该多个候选推荐直播资源的特征数据可以是从数据库中得到。

根据本公开的实施例，每个候选推荐直播资源的特征数据可以与用于训练的目标推荐直播资源的特征数据一致或者部分一致。

根据本公开的实施例，目标行为对象的特征数据可以与用于训练的行为对象的特征数据一致或者部分一致。

根据本公开的实施例，候选推荐直播资源的特征数据和目标行为对象的特征数据提供的越充分，越有利于推荐模型的预测。

根据本公开的实施例，目标行为对象针对每个候选推荐直播资源的预测行为结果可以为与用于训练的标签一致的数据，但是并不局限于此，还可以是其他类型表征结果的数据。

根据本公开的实施例，可以将多个候选推荐直播资源的推荐顺序形成完整的推荐列表，展示给目标行为对象，以便目标行为对象进行目标行为，例如点击选中等。但是并不局限于此，还可以是按照多个候选推荐直播资源的推荐顺序，由高到低，选取其中的一部分候选推荐直播资源形成推荐列表，并展示给目标行为对象，以便目标行为对象进行目标行为。

根据本公开的实施例，利用行为对象针对目标推荐直播资源的观看时长作为标签来训练得到的经训练的推荐模型，其推荐效果好，更贴近行为对象的喜好。

根据本公开的实施例，预测用户行为结果可以用于表征目标行为对象针对候选推荐直播资源发生观看行为的预测用户观看时长。

根据本公开的实施例，该预测用户行为结果与用于训练的标签一致，更易于推荐模型的应用与结果的确定，提高处理效率。

根据本公开的实施例，在实际使用过程中，将该推荐模型以及直播资源推荐方法应用到直播频道的资源推荐场景中，其预测推荐效果得到明显提高。经实际统计，行为对象针对该推荐模型推荐的推荐直播资源相对于未经本公开实施例的训练方法训练的推荐模型推荐的推荐直播资源，其点击量提升+7.99％，行为对象行为发生的观看时长提升3.79％。

图6示意性示出了根据本公开实施例的推荐模型的训练装置的框图。

如图6所示，一种推荐模型的训练装置600，包括训练数据获取模块610以及训练模块620。

训练数据获取模块610，用于获取训练数据以及与训练数据相对应的标签；其中，训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，标签用于表征行为对象针对目标推荐直播资源的观看时长；以及

训练模块620，用于利用训练数据以及与其相对应的标签训练推荐模型，得到经训练的推荐模型。

根据本公开的实施例，训练数据获取模块610包括第一确定子模块、第一获取子模块、第二获取子模块、以及第二确定子模块。

第一确定子模块，用于从多个推荐直播资源中确定行为对象发生观看行为的目标推荐直播资源；

第一获取子模块，用于基于目标推荐直播资源和行为对象，获取训练数据；

第二获取子模块，用于获取行为对象针对目标推荐直播资源的观看时长；

第二确定子模块，用于基于行为对象针对目标推荐直播资源的观看时长，确定与训练数据相对应的标签。

根据本公开的实施例，第二获取子模块包括第一时长获取单元。

第一时长获取单元，用于获取预设时间段内的行为对象针对目标推荐直播资源间隔发生观看行为的多个初步观看时长；将多个初步观看时长中时长最大的初步观看时长作为观看时长。

根据本公开的实施例，第二获取子模块包括第二时长获取单元。

第二时长获取单元，用于获取预设时间段内的行为对象针对目标推荐直播资源间隔发生观看行为的多个初步观看时长；将多个初步观看时长的累加之和作为观看时长。

根据本公开的实施例，第二确定子模块包括第一确定单元、以及第二确定单元。

第一确定单元，用于基于行为对象针对目标推荐直播资源的观看时长，从多个时长区间中确定与观看时长匹配的目标时长区间，其中，多个时长区间是将时长按照预设规则划分的多个区间；

第二确定单元，用于基于目标时长区间，确定与观看时长匹配的目标权重值，并将目标权重值作为训练数据相对应的标签，其中，目标权重值是指预先设置的与目标时长区间相对应的权重值。

根据本公开的实施例，第一获取子模块包括初始特征获取单元、第一处理单元、以及第二处理单元。

初始特征获取单元，用于基于目标推荐直播资源和行为对象，获取行为对象的初始特征数据和目标推荐直播资源的初始特征数据；

第一处理单元，用于对行为对象的初始特征数据进行数据截取处理或者均值替换处理，得到行为对象的特征数据；

第二处理单元，用于对目标推荐直播资源的初始特征数据进行数据截取处理或者均值替换处理，得到目标推荐直播资源的特征数据。

根据本公开的实施例，训练模块620包括训练单元、以及判断单元。

训练单元，用于利用训练数据以及与其相对应的标签训练推荐模型，其中，推荐模型采用决策树算法、逻辑回归算法、贝叶斯算法中的一种算法建立；

判断单元，用于在训练后的推荐模型的目标指标满足预设要求的情况下，将训练后的推荐模型作为经训练的推荐模型，其中，目标指标包括归一化折扣累计收益指标、接收者操作特征指标、平均准确率指标中的一种或多种。

根据本公开的实施例，用户的特征数据包括用户的行为特征数据和用户的属性特征数据；

目标推荐直播资源的特征数据包括目标推荐直播资源的属性特征数据和目标推荐直播资源的内容特征数据。

根据本公开的实施例，其中，训练数据还包括场景特征数据。

图7示意性示出了根据本公开实施例的直播资源推荐装置的框图。

如图7所示，一种直播资源推荐装置700，包括目标数据获取模块710、预测模块720、以及排序模块730。

目标数据获取模块710，用于获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；

预测模块720，用于将每个候选推荐直播资源的特征数据和目标行为对象的特征数据输入到推荐模型中，得到目标行为对象针对每个候选推荐直播资源的预测行为结果；以及

排序模块730，用于基于目标行为对象针对每个候选推荐直播资源的预测行为结果，确定多个候选推荐直播资源的推荐顺序；其中，推荐模型是利用根据上述的推荐模型的训练方法训练的。

根据本公开的实施例，预测用户行为结果用于表征目标用户针对候选推荐直播资源发生观看行为的预测用户观看时长。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如推荐模型的训练方法或者对象推荐方法。例如，在一些实施例中，推荐模型的训练方法或者对象推荐方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的推荐模型的训练方法或者对象推荐方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行推荐模型的训练方法或者对象推荐方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种推荐模型的训练方法，包括：

获取训练数据以及与所述训练数据相对应的标签；其中，所述训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，所述标签用于表征行为对象针对所述目标推荐直播资源的观看时长；以及

利用所述训练数据以及与其相对应的标签训练所述推荐模型，得到经训练的推荐模型；

其中，所述获取训练数据以及与所述训练数据相对应的标签包括：

从多个推荐直播资源中确定所述行为对象发生观看行为的目标推荐直播资源；

基于所述目标推荐直播资源和所述行为对象，获取所述训练数据；

获取所述行为对象针对所述目标推荐直播资源的观看时长；

基于所述行为对象针对所述目标推荐直播资源的观看时长，确定与所述训练数据相对应的标签；

其中，所述基于所述行为对象针对所述目标推荐直播资源的观看时长，确定与所述训练数据相对应的标签包括：

基于所述行为对象针对所述目标推荐直播资源的观看时长，从多个时长区间中确定与所述观看时长匹配的目标时长区间，其中，所述多个时长区间是将时长按照预设规则划分的多个区间；

基于所述目标时长区间，确定与所述观看时长匹配的目标权重值，并将所述目标权重值作为所述训练数据相对应的标签，其中，所述目标权重值是指预先设置的与所述目标时长区间相对应的权重值。

2.根据权利要求1所述的方法，其中，所述获取所述行为对象针对所述目标推荐直播资源的观看时长包括：

获取预设时间段内的所述行为对象针对所述目标推荐直播资源间隔发生观看行为的多个初步观看时长；

将所述多个初步观看时长中时长最大的初步观看时长作为所述观看时长。

3.根据权利要求1所述的方法，其中，所述获取所述行为对象针对所述目标推荐直播资源的观看时长包括：

将所述多个初步观看时长的累加之和作为所述观看时长。

4.根据权利要求1所述的方法，其中，所述基于所述目标推荐直播资源和所述行为对象，获取所述训练数据包括：

基于所述目标推荐直播资源和所述行为对象，获取所述行为对象的初始特征数据和所述目标推荐直播资源的初始特征数据；

对所述行为对象的初始特征数据进行数据截取处理或者均值替换处理，得到所述行为对象的特征数据；

对所述目标推荐直播资源的初始特征数据进行数据截取处理或者均值替换处理，得到所述目标推荐直播资源的特征数据。

5.根据权利要求1所述的方法，其中，所述利用所述训练数据以及与其相对应的标签训练所述推荐模型，得到经训练的推荐模型包括：

利用所述训练数据以及与其相对应的标签训练所述推荐模型，其中，所述推荐模型采用决策树算法、逻辑回归算法、贝叶斯算法中的一种算法建立；

在训练后的推荐模型的目标指标满足预设要求的情况下，将所述训练后的推荐模型作为所述经训练的推荐模型，其中，所述目标指标包括归一化折扣累计收益指标、接收者操作特征指标、平均准确率指标中的一种或多种。

6.根据权利要求1所述的方法，其中，

所述行为对象的特征数据包括行为对象的行为特征数据和行为对象的属性特征数据；

所述目标推荐直播资源的特征数据包括目标推荐直播资源的属性特征数据和所述目标推荐直播资源的内容特征数据。

7.根据权利要求1或6所述的方法，其中，所述训练数据还包括场景特征数据。

8.一种直播资源推荐方法，包括：

获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；

将每个所述候选推荐直播资源的特征数据和所述目标行为对象的特征数据输入到推荐模型中，得到所述目标行为对象针对每个所述候选推荐直播资源的预测行为结果；以及

基于所述目标行为对象针对每个所述候选推荐直播资源的预测行为结果，确定所述多个候选推荐直播资源的推荐顺序；

其中，所述推荐模型是利用根据权利要求1至7任一项所述的方法训练的。

9.根据权利要求8所述的方法，其中，所述预测行为结果用于表征所述目标行为对象针对所述候选推荐直播资源发生观看行为的预测观看时长。

10.一种推荐模型的训练装置，包括：

训练数据获取模块，用于获取训练数据以及与所述训练数据相对应的标签；其中，所述训练数据包括行为对象的特征数据和目标推荐直播资源的特征数据，所述标签用于表征行为对象针对所述目标推荐直播资源的观看时长；以及

训练模块，用于利用所述训练数据以及与其相对应的标签训练所述推荐模型，得到经训练的推荐模型；

其中，所述训练数据获取模块包括：

第一确定子模块，用于从多个推荐直播资源中确定所述行为对象发生观看行为的目标推荐直播资源；

第一获取子模块，用于基于所述目标推荐直播资源和所述行为对象，获取所述训练数据；

第二获取子模块，用于获取所述行为对象针对所述目标推荐直播资源的观看时长；

第二确定子模块，用于基于所述行为对象针对所述目标推荐直播资源的观看时长，确定与所述训练数据相对应的标签；

其中，所述第二确定子模块包括：

第一确定单元，用于基于所述行为对象针对所述目标推荐直播资源的观看时长，从多个时长区间中确定与所述观看时长匹配的目标时长区间，其中，所述多个时长区间是将时长按照预设规则划分的多个区间；

第二确定单元，用于基于所述目标时长区间，确定与所述观看时长匹配的目标权重值，并将所述目标权重值作为所述训练数据相对应的标签，其中，所述目标权重值是指预先设置的与所述目标时长区间相对应的权重值。

11.根据权利要求10所述的训练装置，其中，所述第二获取子模块包括：

第一时长获取单元，用于获取预设时间段内的所述行为对象针对所述目标推荐直播资源间隔发生观看行为的多个初步观看时长；将所述多个初步观看时长中时长最大的初步观看时长作为所述观看时长。

12.根据权利要求10所述的训练装置，其中，所述第二获取子模块包括：

第二时长获取单元，用于获取预设时间段内的所述行为对象针对所述目标推荐直播资源间隔发生观看行为的多个初步观看时长；将所述多个初步观看时长的累加之和作为所述观看时长。

13.根据权利要求10所述的训练装置，其中，所述第一获取子模块包括：

初始特征获取单元，用于基于所述目标推荐直播资源和所述行为对象，获取所述行为对象的初始特征数据和所述目标推荐直播资源的初始特征数据；

第一处理单元，用于对所述行为对象的初始特征数据进行数据截取处理或者均值替换处理，得到所述行为对象的特征数据；

第二处理单元，用于对所述目标推荐直播资源的初始特征数据进行数据截取处理或者均值替换处理，得到所述目标推荐直播资源的特征数据。

14.根据权利要求10所述的训练装置，其中，所述训练模块包括：

训练单元，用于利用所述训练数据以及与其相对应的标签训练所述推荐模型，其中，所述推荐模型采用决策树算法、逻辑回归算法、贝叶斯算法中的一种算法建立；

判断单元，用于在训练后的推荐模型的目标指标满足预设要求的情况下，将所述训练后的推荐模型作为所述经训练的推荐模型，其中，所述目标指标包括归一化折扣累计收益指标、接收者操作特征指标、平均准确率指标中的一种或多种。

15.一种直播资源推荐装置，包括：

目标数据获取模块，用于获取多个候选推荐直播资源的特征数据和目标行为对象的特征数据；

预测模块，用于将每个所述候选推荐直播资源的特征数据和所述目标行为对象的特征数据输入到推荐模型中，得到所述目标行为对象针对每个所述候选推荐直播资源的预测行为结果；以及

排序模块，用于基于所述目标行为对象针对每个所述候选推荐直播资源的预测行为结果，确定所述多个候选推荐直播资源的推荐顺序；

16. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-7中任一项所述的推荐模型的训练方法或者根据权利要求8-9中任一项所述的直播资源推荐方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的推荐模型的训练方法或者根据权利要求8-9中任一项所述的直播资源推荐方法。