CN114265979B

CN114265979B - 确定融合参数的方法、信息推荐方法和模型训练方法

Info

Publication number: CN114265979B
Application number: CN202111565468.1A
Authority: CN
Inventors: 王朝旭; 胡小雨; 刘慧捷; 郑宇航; 彭志洺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-11-18
Anticipated expiration: 2041-12-17
Also published as: CN114265979A; WO2023109059A1; JP2024503774A

Abstract

本公开提供了一种确定融合参数的方法、信息推荐方法和参数确定模型的训练方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及智能推荐领域和深度学习领域。确定融合参数的方法的具体实现方式为：将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对目标对象的第一对象特征；以及将第一对象特征输入参数确定模型中的多任务网络，获得多个评估指标针对目标对象的第一融合参数。其中，多个评估指标用于评估目标对象对推荐信息的偏好。

Description

确定融合参数的方法、信息推荐方法和模型训练方法

技术领域

本公开涉及人工智能技术领域，具体涉及智能推荐技术领域和深度学习技术领域。更具体地涉及一种确定融合参数的方法、信息推荐方法和参数确定模型的训练方法、装置、电子设备和存储介质。

背景技术

随着移动互联网的深入发展，推荐***取得了快速的发展。推荐***借助机器学习技术，通过对对象行为的挖掘，能够洞察对象的兴趣偏好，自动化地为对象生成个性化的内容推荐。

发明内容

基于此，本公开提供了一种便于学习大规模稀疏特征的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种确定融合参数的方法，包括：将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对目标对象的第一对象特征；以及将第一对象特征输入参数确定模型中的多任务网络，获得多个评估指标针对目标对象的第一融合参数，其中，多个评估指标用于评估目标对象对推荐信息的偏好。

根据本公开的另一个方面，提供了一种信息推荐方法，包括：对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据每个第一信息的多个评估指标的预估值及多个评估指标针对目标对象的第一融合参数，确定每个第一信息针对目标对象的第一评估值；以及根据第一评估值，确定多个第一待推荐信息中针对目标对象的第一目标信息及由第一目标信息组成的第一信息列表，其中，第一融合参数是采用本公开提供的确定融合参数的方法确定的。

根据本公开的另一个方面，提供了一种参数确定模型的训练方法，其中，参数确定模型包括特征提取网络和多任务网络，训练方法包括：将参考对象的推荐参考信息输入特征提取网络，提取针对参考对象的第二对象特征；将第二对象特征输入多任务网络，获得多个评估指标针对参考对象的第二融合参数；对于针对参考对象的多个第二待推荐信息中的每个第二信息，根据每个第二信息的多个评估指标的预估值及第二融合参数，确定每个第二信息针对参考对象的第二评估值；根据第二评估值，确定多个第二待推荐信息中针对参考对象的第二目标信息及由第二目标信息组成的第二信息列表；以及根据参考对象对第二信息列表的反馈信息，对多任务网络进行训练。

根据本公开的另一方面，提供了一种确定融合参数的装置，包括：第一特征提取模块，用于将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对目标对象的第一对象特征；以及第一参数获得模块，用于将第一对象特征输入参数确定模型中的多任务网络，获得多个评估指标针对目标对象的第一融合参数，其中，多个评估指标用于评估目标对象对推荐信息的偏好。

根据本公开的另一个方面，提供了一种信息推荐装置，包括：第一评估模块，用于对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据每个第一信息的多个评估指标的预估值及多个评估指标针对目标对象的第一融合参数，确定每个第一信息针对目标对象的第一评估值；以及第一信息确定模块，用于根据第一评估值，确定多个第一待推荐信息中针对目标对象的第一目标信息及由第一目标信息组成的第一信息列表，其中，第一融合参数是采用本公开提供的确定融合参数的装置确定的。

根据本公开的另一个方面，提供了一种参数确定模型的训练装置，其中，参数确定模型包括特征提取网络和多任务网络；训练装置包括：第二特征提取模块，用于将参考对象的推荐参考信息输入特征提取网络，提取针对参考对象的第二对象特征；第二参数获得模块，用于将第二对象特征输入多任务网络，获得多个评估指标针对参考对象的第二融合参数；第二评估模块，用于对于针对参考对象的多个第二待推荐信息中的每个第二信息，根据每个第二信息的多个评估指标的预估值及第二融合参数，确定每个第二信息针对参考对象的第二评估值；第二信息确定模块，用于根据第二评估值，确定多个第二待推荐信息中针对参考对象的第二目标信息及由第二目标信息组成的第二信息列表；以及第一训练模块，用于根据参考对象对第二信息列表的反馈信息，对多任务网络进行训练。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的以下方法中的至少之一：确定融合参数的方法、信息推荐方法和参数确定模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的以下方法中的至少之一：确定融合参数的方法、信息推荐方法和参数确定模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的以下方法中至少之一的步骤：确定融合参数的方法、信息推荐方法和参数确定模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的参数确定模型的训练方法的流程示意图；

图3是根据本公开实施例的参数确定模型的结构示意图；

图4是根据本公开另一实施例的参数确定模型的结构示意图；

图5是根据本公开实施例的确定融合参数的方法的流程示意图；

图6是根据本公开实施例的信息推荐方法的流程示意图；

图7是根据本公开实施例的确定每个第一信息针对目标对象的评估值的原理示意图；

图8是根据本公开实施例的参数确定模型的训练装置的结构框图；

图9是根据本公开实施例的确定融合参数的装置的结构框图；

图10是根据本公开实施例的信息推荐装置的结构框图；以及

图11是用来实施本公开实施例的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的场景100包括用户110和终端设备120，用户110可以通过终端设备120刷新信息。例如，刷新的信息例如可以包括图文信息、短视频信息、小视频信息或影视剧等。

示例性地，终端设备120可以为智能手机、平板电脑、膝上型便捷计算机或台式计算机等。该终端设备120上可以安装有网页浏览器、即时通信类应用、视频播放类应用或新闻资讯类应用等客户端应用(仅作为示例)。该终端设备120例如可以通过网络130与服务器140进行交互。网络可以为有线或无线通信链路。

在一实施例中，服务器140可以为用于支持终端设备120中的客户端应用运行的后台管理服务器。终端设备120例如可以响应于用户110的刷新操作或打开客户端应用的操作，向服务器140发送获取请求。服务器140可以响应于该获取请求，从数据库150中获取与用户110匹配的信息，并将该获取的信息作为推荐信息160推送给终端设备120。

在一实施例中，在从数据库150中获取与用户110匹配的信息时，为了提高信息与用户110的匹配度，提高用户点击浏览信息的几率，服务器140可以采用资源召回模型等来从数据库150中召回信息。其中，资源召回模型例如可以根据用户的浏览信息与数据库中信息的相似度等来召回信息。在从数据库150中召回信息后，服务器140例如还可以根据多个评估指标来评估召回的信息，并根据评估结果来对召回的信息进行进一步地挑选和排序，从而得到推荐信息。其中，多个评估指标的取值例如可以根据用户特征与信息特征预估得到。

在一实施例中，服务器140可以以多个评估指标的取值最大化作为优化目标，来对多个评估指标的取值进行融合，从而得到召回的每个信息的评估值。其中，可以采用网格搜索(Grid Search)算法、随机搜索(Random Search)算法、贝叶斯优化(BayesianOptimization)算法或强化学习算法等来得到对多个评估指标的取值进行融合时的融合参数。

其中，网格搜索算法、随机搜索算法、贝叶斯优化算法进行多目标优化任务时，通常参数寻优的过程需要耗费较长的时间，且由于不同算法的擅长场景不同，可能会存在优化效果不好的问题。强化学习算法虽然优化效果较好，但通常实现起来成本较高，需要设计复杂的策略梯度和策略网络，且需要耗费大量的计算资源。再者，该强化学习算法的实现通常需要依赖密集特征(dense feature)，对于稀疏特征学习能力较弱，因此也不可避免的存在优化效果不佳的问题。

在一实施例中，还可以采用下文描述的参数确定模型，根据用户的推荐参考信息来确定对多个评估指标的取值进行融合时的融合参数。在此不再详述。

需要说明的是，本公开实施例所提供的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法可以均由服务器140执行。本公开实施例所提供的确定融合参数的装置、信息推荐装置和参数确定模型的训练装置可以均设置于服务器140中。或者，确定融合参数的方法和参数确定模型的训练方法可以由与服务器140通信的同一个或不同的服务器执行。相应地，确定融合参数的装置和参数确定模型的训练装置可以设置于与服务器140通信的同一个或不同的服务器中。

应该理解，图1中的终端设备、网络、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、网络、服务器和数据库。

以下将结合图1，通过以下图2～图4对本公开提供的参数确定模型的训练方法进行详细描述。

图2是根据本公开实施例的参数确定模型的训练方法的流程示意图。

如图2所示，该实施例的参数确定模型的训练方法200可以包括操作S210～操作S250。其中，参数确定模型可以包括特征提取网络和多任务网络。

在操作S210，将参考对象的推荐参考信息输入特征提取网络，提取针对参考对象的第二对象特征。

根据本公开的实施例，参考对象例如可以为前文描述的用户或任意的可以使用终端设备的对象。特征提取网络例如可以包括深度神经网络等由多个非线性网络级联形成的网络。该特征提取网络可以采用除推荐任务外其他任务中已训练好的提取对象特征的网络。

该参考对象的推荐参考信息可以包括该参考对象的属性信息、画像信息或行为信息等。其中，属性信息例如可以包括参考对象的类别和基本信息等。该属性信息表征参考对象自身的基本属性，例如，可以包括对象性别、年龄、教育程度、对象活跃度和对象历史点赞比等中的至少一种。可以理解的是，通过在推荐参考信息中引入属性信息，能够在后续进行信息推荐时，实现基于对象的个性化推荐，从而提高信息推荐结果与对象的匹配度，进而提高用户满意度。

该实施例可以将推荐参考信息输入特征提取网络，由特征提取网络输出第二对象特征。

在操作S220，将第二对象特征输入多任务网络，获得多个评估指标针对参考对象的第二融合参数。

根据本公开的实施例，多任务网络为一个基于多任务学习的机器学习网络。其中，多任务学习是基于共享表示(shared representation)，来把多个相关的任务(例如最大化多个评估指标的取值的任务)放在一起学习的机器学习方法。多任务网络例如可以包括Hard参数共享模型、混合专家(Mixture-of-Experts，MOE)模型或多门混合专家(Multi-gate Mixture-of-Experts，MMOE)模型等。

根据本公开的实施例，多个评估指标可以为用于评估目标对象对推荐信息的偏好。例如，多个评估指标可以包括点击率、落地页时长、列表页时长、评论、点赞和分享等指标中的至少两个。

在操作S230，对于针对参考对象的多个第二待推荐信息中的每个第二信息，根据每个第二信息的多个评估指标的预估值及第二融合参数，确定每个第二信息针对参考对象的第二评估值。

根据本公开的实施例，多个评估指标的预估值例如可以采用相关的预测模型来确定。例如，对于点击率，可以是通过将对象的推荐参考信息和每个第二信息输入预测模型，由预测模型输出得到的。可以理解的是，本公开对该多个评估指标的预估值的获取方式不做限定。

根据本公开的实施例，操作S220得到的第二融合参数可以包括针对每个评估指标的融合参数。该实施例可以将针对每个评估指标的融合参数作为该每个评估指标的权重，将多个评估指标的预估值的加权和作为每个第二信息针对参考对象的第二评估值。

在操作S240，根据第二评估值，确定多个第二待推荐信息中针对参考对象的第二目标信息及由第二目标信息组成的第二信息列表。

根据本公开的实施例，可以将多个第二待推荐信息中，第二评估值较大的预定数量个信息作为第二目标信息。随后将该预定数量个第二目标信息随机排列，或者根据第二评估值自大至小排列，从而得到第二信息列表。

根据本公开的实施例，第二信息列表中包括的例如可以为预定数量个第二目标信息的落地页的***，该***可以通过预定数量个第二目标信息的标题来展示。

在操作S250，根据参考对象对第二信息列表的反馈信息，对多任务网络进行训练。

根据本公开的实施例，反馈信息可以根据参考对象在浏览第二信息列表后对该第二信息列表的操作而统计得到。例如，该反馈信息可以包括对第二信息列表中预定数量个信息的点击比例、浏览第二信息列表的时长(即前述的列表页时长)、浏览第二信息列表中被点击的第二信息的落地页的时长(即落地页时长)等。该实施例还可以对前述参考对象对第二信息列表的反馈项(即点击比例、列表页时长、落地页时长等)进行统计，将得到的统计信息作为反馈信息。

根据本公开的实施例，可以通过最大化反馈信息的方式来对多任务网络进行训练，直至该多任务网络达到训练截止条件。其中，训练截止条件可以包括达到设定训练次数，或者参考对象对根据多任务网络输出的第二评估值确定的第二信息列表的反馈信息趋于稳定等。

在一实施例中，例如可以采用强化学习算法来对多任务网络进行训练。具体可以采用强化学习算法调整多任务网络中的网络参数，以此不断地调整多任务网络根据第二对象特征得到第二融合参数的策略。

本公开实施例通过在确定第二融合参数之前，先采用特征提取网络来从推荐参考信息中提取对象特征，可以提高输入至多任务网络的对象特征对稀疏的推荐参考信息的表达能力。即通过将特征提取网络与多任务网络相结合，可以实现对大规模稀疏特征的学习，从而可以提升参数确定模型确定的第二融合参数的精度，实现个性化和场景化的多目标优化。因此，可以在一定程度上提高根据第二融合参数确定的推荐信息的精度，便于提高用户体验。

在一实施例中，参考对象的推荐参考信息除了参考对象的属性信息外，还可以包括对参考对象进行信息推荐的场景信息。

其中，场景信息用于表征对参考对象进行信息推荐时的场景状态数据，例如，场景信息可以包括刷新次数、刷新状态、刷新大小、网络状态和刷新时段等中的至少一种。可以理解的是，通过在推荐参考信息中引入场景信息，能够在后续进行信息推荐时，针对不同场景向参考对象进行不同待推荐信息的推荐，从而达到基于场景的个性化推荐的目的。

在一实施例中，参考对象的推荐参考信息除了参考对象的属性信息外，还可以包括目标对象对推荐信息的偏好信息。偏好信息用于表征参考对象对不同类型的信息中不同种类信息内容的喜爱程度等。可以理解的是，通过在推荐参考信息中引入偏好信息，能够在后续进行信息推荐时，向对象进行感兴趣内容的推荐，进而提高用户满意度。其中，该偏好信息例如可以以信息对的形式来表示，信息对可以由对象的某个属性信息和某个场景信息构成。或者，该信息对可以由对象的某个属性信息和待推荐信息的类别构成。

在一实施例中，参考对象的推荐参考信息可以包括参考对象的属性信息、目标对象对推荐信息的偏好信息和对参考对象进行信息推荐的场景信息中的任意一个或多个。例如，参考对象的推荐参考信息可以既包括属性信息、又包括偏好信息和场景信息。如此可以使得特征提取网络对多方面的稀疏特征进行充分学习，有效提高得到的对象特征的表达能力。

在一实施例中，可以根据参考对象对第二信息列表的交互信息以及参考对象对第二信息列表中被选中信息的交互信息，确定参考对象对第二信息列表的反馈评估值。随后可以将该反馈评估值作为反馈信息。参考对象对第二信息列表的交互信息可以包括：参考对象浏览该第二信息列表的时长、参考对象点击第二信息列表中的信息的个数等。参考对象对第二信息列表中被选中信息的交互信息可以包括：参考对象浏览点击的每个信息的落地页的时长、参考对象浏览点击的多个信息的落地页的平均时长等。通过既考虑参考对象对第二信息列表的交互信息，又考虑参考对象对第二信息列表中被选中信息的交互信息来确定反馈评估值，可以便于提高确定的反馈信息的表达能力。

例如，该实施例可以将列表页时长与落地页时长的和，作为反馈评估值。

例如，在确定反馈评估值时，例如还可以考虑参考对象点击的信息个数。以此可以避免因参考对象浏览单个信息的落地页时长过长而使得反馈评估值较高，从而无法准确表达参考对象对第二信息列表的满意程度的情况。具体地，该实施例可以将预定页均时长与点击的信息个数的乘积与前述列表页时长与落地页时长的和相加，从而得到反馈评估值。其中，预定页均时长可以为通过统计得到的对象浏览推荐信息的落地页的平均时长，或者，可以根据需求设定该预定页均时长的值，本公开对此不做限定。

图3是根据本公开实施例的参数确定模型的结构示意图。

在一实施例中，前述从数据库中召回的信息可以包括多种类型的信息，即向参考对象推荐的信息包括多种类型的信息。每种类型的信息均包括前述的多个评估指标。针对每种类型的信息，融合参数的取值可以不同，以此提高对每种类型的信息进行评估得到的评估值的精度。这是由于同一用户对不同类型的信息的偏好程度是不同的。

在一实施例中，参数确定模型在确定融合参数时，不仅需要完成多任务，还需要完成对多种类型的信息中每种类型信息的融合参数的预测。例如，该参数确定模型中的多任务网络可以包括特征表示子网络和多个预测子网络。该多个预测子网络共享特征表示子网络输出的特征。

以下将结合图3，以推荐参考信息包括前述的属性信息、场景信息和偏好信息为例，对该实施例获得第二融合参数的原理进行描述。

如图3所示，该实施例300中，参数确定模型包括特征提取网络310和多任务网络320。多任务网络包括特征表示子网络321和n个预测子网络。其中，n个预测子网络中的第1预测子网络3221～第n预测子网络3222分别用于预测与n种类型一一对应的第1融合参数组305～第n融合参数组306。即，针对每种类型的信息，预测得到一个融合参数组。该一个融合参数组中包括与多个评估指标相同个数的融合参数。

在获得第二融合参数时，可以先对参考对象的属性信息301、场景信息302、偏好信息303分别进行嵌入表示，得到该三个信息的三个嵌入特征。将该三个嵌入特征拼接后，可以得到特征304。该实施例可以将特征304输入特征提取网络310，从而得到第二对象特征。其中，特征提取网络310例如可以由多个非线性网络级联形成，每个非线性网络包括的神经元的个数和层数可以根据实际需求进行设定，本公开对此不做限定。

在得到第二对象特征后，可以将该第二对象特征输入特征表示子网络321中，由特征表示子网络321对该第二对象特征进行针对性地学习，使得得到的表示特征能够更好地表达参考对象的偏好。或者，通过该特征表示子网络321的处理，可以使得表示特征的尺寸能够满足n个预测子网络对输入特征尺寸的要求。

在得到表示特征后，可以将表示特征和第二对象特征输入n个预测子网络中的每一个。此处，每个预测子网络的输入包括第二对象特征，可以避免因表示特征表达的信息不完整而对预测结果产生影响的情况。该每个预测子网络可以以不同的权重考虑表示特征，以允许对应不同类型信息的融合参数以不同的方式利用表示特征，从而捕获不同类型的信息之间的关系。

例如，将表示特征和第二对象特征输入第1预测子网络3221，该第1预测子网络3221可以输出第1融合参数组305。将表示特征和第二对象特征输入第n预测子网络3222，该第n预测子网络3222可以输出第n融合参数组306。

图4是根据本公开另一实施例的参数确定模型的结构示意图。

在一实施例中，特征表示子网络可以包括多个专家单元，每个专家单元有一个擅长的预测方向。例如，多个专家单元分别用于根据第二对象特征表示参考对象针对多个预定对象类别中一个类别的特征。如此，可以使得多个专家单元分别得到的表示特征具有表达倾向性。相应地，前述的n个预测子网络中的每个预测子网络可以根据第二对象特征来综合考虑多个专家单元的输出，使得每个预测子网络得到的融合参数更够更为精准地表达参考对象对与该每个预测子网络对应的信息类型的偏好。

例如，设定多个预定对象类别可以包括全局低活跃类别、分信息类型的对信息轻度偏好的轻度类别，分信息类型的对信息中度偏好的中度类别和分信息类型的对信息重度偏好的重度类别。相应地，如图4所示，特征表示子网络可以包括低活专家(Expert)单元4211、轻度专家单元4212、中度专家单元4213和重度专家单元4214，用于分别根据第二对象特征对来表示参考对象属于全局活跃类别、轻度类别、中度类别和重度类别的特征。

该实施例在获得第二融合参数时，可以先对属性信息401、场景信息402和偏好信息403分别进行嵌入表示，将嵌入表示得到的三个特征拼接后得到的特征404输入特征提取网络410，从而得到第二对象特征。将该第二对象特征同时输入低活专家单元4211、轻度专家单元4212、中度专家单元4213和重度专家单元4214，由该四个单元分别输出一个表示特征，总计得到四个表示特征。

以多种类型的信息包括图文类型的信息、短视频类型的信息和小视频类型的信息为例，在得到四个表示特征后，可以将该四个表示特征同时输入对应图文类型的图文类型预测子网络4221、对应短视频类型的短视频类型预测子网络4222和对应小视频类型的小视频类型预测子网络4223。由该图文类型预测子网络4221、短视频类型预测子网络4222和小视频类型预测子网络4223分别根据第二对象特征，确定各自考虑四个表示特征的权重。该三个预测子网络可以根据各自确定的权重对四个表示特征计算加权和。最终根据计算得到的加权和来第二融合参数组。例如，图文类型预测子网络4221可以预测得到图文融合参数组405，短视频类型预测子网络4222可以预测得到短视频融合参数组406，小视频类型预测子网络4223可以预测得到小视频融合参数组407。

在一实施例中，反馈信息还可以包括实际浏览时长，该实际浏览时长例如可以由列表时长和落地页时长的和来表示。该实施例可以将该实际浏览时长作为参考对象的推荐参考信息的标签，从而以实际浏览时长为监督，对特征提取网络进行训练，以此提高特征提取网络的学习能力。

例如，如图4所示，该实施例400中，参数确定模型除了特征提取网络410、多任务网络420外，还可以包括预测网络430。该预测网络430例如可以包括全连接网络，用于根据第二对象特征来预测参考对象对推荐信息的浏览时长。

例如，可以将特征提取网络410输出的第二对象特征输入至预测网络430中，由该预测网络430输出预测浏览时长408。该实施例可以根据预测浏览时长和实际浏览时长的差异，来对特征提取网络和预测网络进行训练。例如，可以根据预浏览时长和实际浏览时长，确定特征提取网络和预测网络构成的网络模型的损失。随后，采用反向传播算法来调整特征提取网络和预测网络中的网络参数，以使得网络模型的损失最小化。例如，可以采用L1损失函数或L2损失函数等来确定网络模型的损失，本公开对此不做限定。

本公开实施例通过设置预测网络，并根据预测浏览时长和标签指示的实际浏览时长来对特征提取网络进行训练，可以实现特征提取网络的有监督训练。如此，可以进一步提高特征提取网络对稀疏特征的学习能力，并因此可以扩大参数确定模型的适用范围和精度。

可以理解的是，在一实施例中，可以采用MMOE模型来作为多任务网络的架构，以此实现多场景下的多目标优化任务。再者，该MMOE模型通过使得多个预测子网络共享同一特征表示子网络，可以减小模型的参数规模，防止模拟过拟合。再者，该MMOE通过引入门结构作为不同场景之间学习的注意力引入，可以既考虑多场景之间任务的关联性，还可以限制不同场景的特异性。因此，便于提高预测得到的融合参数的精度。

在一实施例中，例如可以通过为多任务网络中的网络参数添加扰动的方式，来对多任务网络进行训练。例如，可以根据为网络参数添加扰动所带来的反馈信息来确定网络参数的扰动方向。

示例性地，可以根据参考对象的标识信息来生成为网络参数添加的扰动值。随后根据反馈评估值和扰动值，来对多个网络参数进行调整。其中，参考对象的标识信息例如可以包括参考对象的账户信息。生成的扰动值可以为数组形式，数据中包括针对每个网络参数的扰动值。其中，反馈评估值例如可以与扰动值负相关。例如，若反馈评估值较大，则可以为网络参数添加较小的扰动值。

其中，可以对标识信息进行加密运算，从而得到随机数种子，随后采用分布函数来基于随机数种子生成扰动值组。其中，加密运算可以采用哈希算法等来实现，分布函数例如可以采用高斯分布函数等，本公开对该加密运算采用的算法和分布函数的类型不做限定。

在一实施例中，在生成扰动值时，例如还可以考虑时间信息，以此保证产生的扰动值的多样性。例如，时间信息可以包括日期信息和/或时钟信息。该实施例可以通过对标识信息和时间信息进行加密运算，来得到随机数种子。

示例性地，在对多个网络参数进行调整时，例如可以先根据反馈评估值与每个网络参数的扰动值之间的比值，来确定该每个网络参数的调整步长。随后根据该调整步长，来对网络参数进行调整。在一实施例中，可以直接将反馈评估值与每个网络参数的扰动值之间的比值作为调整步长，也可以为该比值添加超参，该超参与比值的乘积作为调整步长。其中，超参的取值可以根据实际需求进行设定，本公开对此不做限定。

示例性地，可以将一批参考对象的多个推荐参考信息作为一批训练样本。该实施例可以将根据该一批训练样本得到的多个反馈评估值的平均值与每个网络参数的扰动值之间的比值，来作为确定该每个网络参数的调整步长的依据。

该实施例通过添加扰动值的方式和考虑反馈结果的方式来对多任务模型进行训练，则可以无需设计复杂的策略梯度，从而可以节省计算资源。

在一实施例中，可以采用前述的方法产生多个扰动值组。每个扰动值组包括与多任务网络中的多个网络参数一一对应的多个扰动值。该实施例可以采用进化算法来确定对多个网络参数进行调整的目标扰动值组。以此提高多任务网络的训练效果。

例如，进化算法可以通过考虑反馈评估值和多个扰动值组，还确定目标扰动值组。例如，进化算法可以以最大化反馈评估值为目标，对多个扰动值组进行融合，从而得到目标扰动值组。该融合方法可以采用为每个扰动值组添加系数的方式来进行，本公开对此不做限定。在得到目标扰动值组后，该实施例即可根据反馈评估值和目标扰动值组来确定每个网络参数的调整步长，并根据该调整步长来调整每个网络参数。

至此，完成对参数确定模型的训练方法的详细描述。基于本公开训练得到的参数确定模型，本公开还提供了一种确定融合参数的方法，以下将结合图5对该方法进行详细描述。

图5是根据本公开实施例的确定融合参数的方法的流程示意图。

如图5所示，该实施例的确定融合参数的方法500包括操作S510～操作S520。

在操作S510，将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对目标对象的第一对象特征。

其中，目标对象可以为刷新信息的用户等，该目标对象与前述参考对象类似。目标对象的推荐参考信息与前文描述的参考对象的推荐参考信息类似，例如可以包括以下至少之一：目标对象的属性信息、对目标对象进行信息推荐的场景信息和目标对象对推荐信息的偏好信息。该操作S510的实现方式与前文描述的操作S210的实现方式类似，在此不再赘述。

在操作S520，将第一对象特征输入参数确定模型中的多任务网络，获得多个评估指标针对目标对象的第一融合参数。

其中，第一融合参数与前文描述的第二融合参数类似。多个评估指标用于评估目标对象对推荐信息的偏好。该操作S520的实现方式与前文描述的操作S220的实现方式类似，在此不再赘述。

本公开实施例在确定融合参数时，通过先根据推荐参考信息提取对象特征，再经由多任务网络来确定第一融合参数，可以便于第一融合参数的获得考虑大量的稀疏特征，并因此便于提高确定的融合参数的精度。再者，本公开通过采用多任务网络获得融合参数，相较于直接通过多任务网络输出推荐信息的技术方案，可以便于使得该实施例的方法能够应用在多个场景中信息的推荐，可以提高该方法的鲁棒性。

根据本公开的实施例，与前文描述类似，向目标对象推荐的信息可以包括多种类型的信息，每种类型的信息都具有多个评估指标。该实施例可以采用前文描述的包括特征表示子网络和多个预测子网络的多任务网络来获得第一融合参数。具体地，可以将第一对象特征输入特征表示子网络，获得表示特征。随后将表示特征和第一对象特征输入多个预测子网络，由多个预测子网络中的每一个子网络输出一个融合参数组。其中，多个预测子网络与信息的多种类型一一对应，且每个融合参数组包括多个评估指标各自的融合参数。

根据本公开的实施例，与前文描述类似，特征表示子网络可以包括多个专家单元。该实施例在获得表示特征时，可以将对象特征输入多个专家单元中的每个专家单元，由每个专家单元输出一个表示特征。其中，多个专家单元分别用于根据第一对象特征表示目标对象针对多个预定对象类别中一个类别的特征。

基于本公开提供的确定融合参数的方法，本公开还提供了一种信息推荐方法，以下将结合图6对该信息推荐方法进行详细描述。

图6是根据本公开实施例的信息推荐方法的流程示意图。

如图6所示，该实施例的信息推荐方法600包括操作S610～操作S620。

在操作S610，对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据每个第一信息的多个评估指标的预估值及多个评估指标针对目标对象的第一融合参数，确定每个第一信息针对目标对象的第一评估值。

其中，第一待推荐信息与前文描述的第二待推荐信息类似，且该第一待推荐信息的获取方式与第二待推荐信息的获取方式也类似，在此不再赘述。

其中，第一融合参数可以是采用前文描述的确定融合参数的方法获得的。该操作S610的实现方式与前文描述的操作S230的实现方式类似，在此不再赘述。

在操作S620，根据第一评估值，确定多个第一待推荐信息中针对目标对象的第一目标信息及由第一目标信息组成的第一信息列表。

其中，第一目标信息和第一信息列表的确定方法与前文描述的操作S240中确定第二目标信息和第二信息列表的方法类似，在此不再赘述。

图7是根据本公开实施例的确定每个第一信息针对目标对象的评估值的原理示意图。

在一实施例中，多个第一待推荐信息例如可以包括至少两种类型的信息。该至少两种类型可以为前文描述的推荐信息的多种类型中的任意至少两种。相应地，针对每种类型的信息，均有一个融合参数组。

如图7所示，该实施例700在确定每个第一信息针对目标对象的第一评估值时，可以先确定该每个第一信息710的信息类型。然后从采用参数确定模型701得到的与多种类型一一对应的多个融合参数组中，查找到与该第一信息的信息类型720对应的融合参数组，作为针对该每个第一信息710的融合参数组730。

设定多个评估指标的个数为m个，则该实施例得到的融合参数组730可以包括第1融合参数731～第m融合参数732，分别与多个评估指标中的第1评估指标741～第m评估指标742相对应。在一实施例中，可以根据每个评估指标及该每个评估指标针对目标对象的融合参数，来确定该每个评估指标的融合值。例如，可以将第1评估指标741与第1融合参数731的乘积作为第1融合值751。类似地，可以得到第1融合值751～第m融合值752共计m个融合值。最后，可以根据该多个融合值，来确定第一评估值760。通过该方式，可以实现多个评估指标的高效融合，利于提高第一评估值的精度。

例如，在得到融合参数组730后，该实施例可以将m个融合参数分别作为m个评估指标的权重，计算m个评估指标的加权和，从而得到第一评估值。

例如，该实施例可以将融合参数作为评估指标的预估值的指数，计算得到融合值。最后，将m个融合值相乘，从而得到评估值。该实施例通过指数方式来确定融合值，可以提高融合参数对融合值的影响程度，便于提高得到的评估值的精度。再者，通过将融合值相乘的方式得到评估值，便于使得不同信息的评估值具有较大差别，能够为第一目标信息的确定提供便利。

通过采用参数确定模型来确定多个评估指标的融合参数，最后根据融合参数来确定信息的评估值，相较于采用模型直接输出推荐信息的技术方案，该实施例的信息推荐方法的应用范围更广。在不同类型信息的推荐场景中，无需对模型进行调整，可以提高信息推荐效率。

基于本公开提供的参数确定模型的训练方法，本公开还提供了一种参数确定模型的训练装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的参数确定模型的训练装置的结构框图。

如图8所示，该实施例的参数确定模型的训练装置800包括第二特征提取模块810、第二参数获得模块820、第二评估模块830、第二信息确定模块840和第一训练模块850。其中，参数确定模型包括特征提取网络和多任务网络。

第二特征提取模块810用于将参考对象的推荐参考信息输入特征提取网络，提取针对参考对象的第二对象特征。在一实施例中，第二特征提取模块810可以用于执行前文描述的操作S210，在此不再赘述。

第二参数获得模块820用于将第二对象特征输入多任务网络，获得多个评估指标针对参考对象的第二融合参数。在一实施例中，第二参数获得模块820可以用于执行前文描述的操作S220，在此不再赘述。

第二评估模块830用于对于针对参考对象的多个第二待推荐信息中的每个第二信息，根据每个第二信息的多个评估指标的预估值及第二融合参数，确定每个第二信息针对参考对象的第二评估值。在一实施例中，第二评估模块830可以用于执行前文描述的操作S230，在此不再赘述。

第二信息确定模块840用于根据第二评估值，确定多个第二待推荐信息中针对参考对象的第二目标信息及由第二目标信息组成的第二信息列表。在一实施例中，第二信息确定模块840可以用于执行前文描述的操作S240，在此不再赘述。

第一训练模块850用于根据参考对象对第二信息列表的反馈信息，对多任务网络进行训练。在一实施例中，第一训练模块850可以用于执行前文描述的操作S250，在此不再赘述。

根据本公开的实施例，上述参数确定模型的训练装置800还可以包括反馈信息确定模块，用于通过以下方式确定参考对象对第二信息列表的反馈信息：根据参考对象对第二信息列表的交互信息以及参考对象对第二信息列表中被选中信息的交互信息，确定参考对象对第二信息列表的反馈评估值。其中，反馈信息包括反馈评估值。

根据本公开的实施例，上述第一训练模块850可以包括扰动值生成子模块和参数调整子模块。扰动值生成子模块用于根据参考对象的标识信息，生成针对多任务网络中多个网络参数的扰动值。参数调整子模块用于根据反馈评估值和针对多个网络参数的扰动值，对多个网络参数进行调整。

根据本公开的实施例，针对多个网络参数的扰动值包括与多个网络参数分别对应的多个扰动值。上述参数调整子模块可以包括步长确定单元和第一调整单元。步长确定单元用于针对多个网络参数中的每个网络参数，根据反馈评估值与对应于每个网络参数的扰动值的比值，确定针对每个网络参数的调整步长。第一调整单元用于根据调整步长，对每个网络参数进行调整。

根据本公开的实施例，针对多个网络参数的扰动值包括多个扰动值组，多个扰动值组中的每个扰动值组包括与多个网络参数分别对应的多个扰动值。上述参数调整子模块可以包括目标扰动确定单元和第二调整单元。目标扰动确定单元用于根据反馈评估值和针对多个网络参数的多个扰动值组，采用进化算法确定目标扰动值组。第二调整单元用于根据反馈评估值和目标扰动值组，对多个网络参数进行调整。

根据本公开的实施例，反馈信息包括实际浏览时长；参数确定模型还包括预测网络。上述参数确定模型的训练装置800还可以包括时长预测模块和第二训练模块。时长预测模块用于将第二对象特征输入预测网络，得到预测浏览时长。第二训练模块用于根据实际浏览时长和预测浏览时长的差异，对特征提取网络和预测网络进行训练。

基于本公开提供的确定融合参数的方法，本公开还提供了一种确定融合参数的装置，以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的确定融合参数的装置的结构框图。

如图9所示，该实施例的确定融合参数的装置900可以包括第一特征提取模块910和第一参数获得模块920。

第一特征提取模块910用于将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对目标对象的第一对象特征。在一实施例中，第一特征提取模块910可以用于执行前文描述的操作S510，在此不再赘述。

第一参数获得模块920用于将第一对象特征输入参数确定模型中的多任务网络，获得多个评估指标针对目标对象的第一融合参数。其中，多个评估指标用于评估目标对象对推荐信息的偏好。在一实施例中，第一参数获得模块920可以用于执行前文描述的操作S520，在此不再赘述。

根据本公开的实施例，推荐信息包括多种类型的信息；每种类型的信息均具有多个评估指标。多任务网络包括特征表示子网络和多个预测子网络。上述第一参数获得模块920可以包括特征获得子模块和参数获得子模块。特征获得子模块用于将第一对象特征输入特征表示子网络，获得表示特征。参数获得子模块用于将表示特征和第一对象特征输入多个预测子网络，由多个预测子网络中的每个子网络输出一个融合参数组。其中，多个预测子网络与多种类型一一对应，且融合参数组包括多个评估指标的融合参数。

根据本公开的实施例，特征表示子网络包括多个专家单元，上述特征获得子模块用于：将对象特征输入多个专家单元中的每个专家单元，由每个专家单元输出一个表示特征。其中，多个专家单元分别用于根据第一对象特征表示目标对象针对多个预定对象类别中一个类别的特征。

根据本公开的实施例，目标对象的推荐参考信息包括以下至少之一：目标对象的属性信息、对目标对象进行信息推荐的场景信息和目标对象对推荐信息的偏好信息。

基于本公开提供的信息推荐方法，本公开还提供了一种信息推荐装置，以下将结合图10对该装置进行详细描述。

图10是根据本公开实施例的信息推荐装置的结构框图。

如图10所示，该实施例的信息推荐装置1000可以包括第一评估模块1010和第一信息确定模块1020。

第一评估模块1010用于对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据每个第一信息的多个评估指标的预估值及多个评估指标针对目标对象的第一融合参数，确定每个第一信息针对目标对象的第一评估值。其中，第一融合参数可以是采用前文描述的确定融合参数的装置确定的。在一实施例中，第一评估模块1010可以用于执行前文描述的操作S610，在此不再赘述。

第一信息确定模块1020用于根据第一评估值，确定多个第一待推荐信息中针对目标对象的第一目标信息及由第一目标信息组成的第一信息列表。在一实施例中，第一信息确定模块1020可以用于执行前文描述的操作S620，在此不再赘述。

根据本公开的实施例，多个第一待推荐信息包括至少两种类型的信息。上述第一评估模块1010可以包括参数确定子模块和评估值确定子模块。参数确定子模块用于根据每个第一信息的类型，确定多个评估指标针对目标对象的多个融合参数，得到针对每个第一信息的融合参数组；融合参数组与信息的类型一一对应。评估值确定子模块用于根据每个第一信息的多个评估指标的预估值和融合参数组，确定第一评估值。

根据本公开的实施例，评估值确定子模块可以包括融合值确定单元和评估值确定单元。融合值确定单元用于针对多个评估指标中的每个评估指标，根据每个评估指标的预估值和融合参数组中每个评估指标针对目标对象的融合参数，确定每个评估指标的融合值。评估值确定单元用于根据多个评估指标的多个融合值，确定第一评估值。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开实施例的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法。例如，在一些实施例中，确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定融合参数的方法、信息推荐方法和参数确定模型的训练方法中任一方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定融合参数的方法，包括：

将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对所述目标对象的第一对象特征；以及

将所述第一对象特征输入所述参数确定模型中的多任务网络，获得多个评估指标针对所述目标对象的第一融合参数，

其中，所述多个评估指标用于评估所述目标对象对推荐信息的偏好，

其中，推荐信息包括多种类型的信息；每种类型的信息均具有所述多个评估指标；所述多任务网络包括特征表示子网络和多个预测子网络；所述将所述第一对象特征输入所述参数确定模型中的多任务网络，获得多个评估指标针对所述目标对象的第一融合参数包括：

将所述第一对象特征输入所述特征表示子网络，获得表示特征；以及

将所述表示特征和所述第一对象特征输入所述多个预测子网络，由所述多个预测子网络中的每个子网络输出一个融合参数组，

其中，所述多个预测子网络与所述多种类型一一对应，且所述融合参数组包括所述多个评估指标的融合参数。

2.根据权利要求1所述的方法，其中，所述特征表示子网络包括多个专家单元；所述将所述第一对象特征输入所述特征表示子网络，获得表示特征包括：

将所述第一对象特征输入所述多个专家单元中的每个专家单元，由所述每个专家单元输出一个表示特征，

其中，所述多个专家单元分别用于根据所述第一对象特征表示所述目标对象针对多个预定对象类别中一个类别的特征。

3.根据权利要求1～2中任一项所述的方法，其中，所述目标对象的推荐参考信息包括以下至少之一：

所述目标对象的属性信息；

对所述目标对象进行信息推荐的场景信息；

所述目标对象对推荐信息的偏好信息。

4.一种信息推荐方法，包括：

对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据所述每个第一信息的多个评估指标的预估值及所述多个评估指标针对所述目标对象的第一融合参数，确定所述每个第一信息针对所述目标对象的第一评估值；以及

根据所述第一评估值，确定所述多个第一待推荐信息中针对所述目标对象的第一目标信息及由所述第一目标信息组成的第一信息列表，

其中，所述第一融合参数是采用权利要求1～3中任一项所述的方法确定的。

5.根据权利要求4所述的方法，其中，所述多个第一待推荐信息包括至少两种类型的信息；所述根据所述每个第一信息的多个评估指标的预估值及所述多个评估指标针对所述目标对象的融合参数，确定所述每个第一信息针对所述目标对象的第一评估值包括：

根据所述每个第一信息的类型，确定所述多个评估指标针对所述目标对象的多个融合参数，得到针对所述每个第一信息的融合参数组；所述融合参数组与信息的类型一一对应；以及

根据所述每个第一信息的所述多个评估指标的预估值和所述融合参数组，确定所述第一评估值。

6.根据权利要求5所述的方法，其中，根据所述每个第一信息的所述多个评估指标的预估值和所述融合参数组，确定所述第一评估值包括：

针对所述多个评估指标中的每个评估指标，根据所述每个评估指标的预估值和所述融合参数组中所述每个评估指标针对所述目标对象的融合参数，确定所述每个评估指标的融合值；以及

根据所述多个评估指标的多个融合值，确定所述第一评估值。

7.一种参数确定模型的训练方法，其中，所述参数确定模型包括特征提取网络和多任务网络；所述方法包括：

将参考对象的推荐参考信息输入所述特征提取网络，提取针对所述参考对象的第二对象特征；

将所述第二对象特征输入所述多任务网络，获得多个评估指标针对所述参考对象的第二融合参数；

对于针对所述参考对象的多个第二待推荐信息中的每个第二信息，根据所述每个第二信息的所述多个评估指标的预估值及所述第二融合参数，确定所述每个第二信息针对所述参考对象的第二评估值；

根据所述第二评估值，确定所述多个第二待推荐信息中针对所述参考对象的第二目标信息及由所述第二目标信息组成的第二信息列表；以及

根据所述参考对象对所述第二信息列表的反馈信息，对所述多任务网络进行训练，

其中，推荐信息包括多种类型的信息；每种类型的信息均具有所述多个评估指标，所述多任务网络包括特征表征子网络和多个预测子网络；所述将所述第二对象特征输入所述多任务网络，获得多个评估指标针对所述参考对象的第二融合参数包括：

将所述第二对象特征输入所述特征表示子网络，获得表示特征；以及

将所述表示特征和所述第二对象特征输入所述多个预测子网络，由所述多个预测子网络中的每个子网络输出一个融合参数组，

8.根据权利要求7所述的方法，还包括通过以下方式确定所述参考对象对所述第二信息列表的反馈信息：

根据所述参考对象对所述第二信息列表的交互信息以及所述参考对象对所述第二信息列表中被选中信息的交互信息，确定所述参考对象对所述第二信息列表的反馈评估值，

其中，所述反馈信息包括所述反馈评估值。

9.根据权利要求8所述的方法，其中，所述根据所述参考对象对所述第二信息列表的反馈信息，对所述多任务网络进行训练包括：

根据所述参考对象的标识信息，生成针对所述多任务网络中多个网络参数的扰动值；以及

根据所述反馈评估值和针对所述多个网络参数的扰动值，对所述多个网络参数进行调整。

10.根据权利要求9所述的方法，其中，针对所述多个网络参数的扰动值包括与所述多个网络参数分别对应的多个扰动值；根据所述反馈评估值和针对所述多个网络参数的扰动值，对所述多个网络参数进行调整包括：

针对所述多个网络参数中的每个网络参数，根据所述反馈评估值与对应于所述每个网络参数的扰动值的比值，确定针对所述每个网络参数的调整步长；以及

根据所述调整步长，对所述每个网络参数进行调整。

11.根据权利要求9所述的方法，其中，针对所述多个网络参数的扰动值包括多个扰动值组，所述多个扰动值组中的每个扰动值组包括与所述多个网络参数分别对应的多个扰动值；所述根据所述反馈评估值和针对所述多个网络参数的扰动值，对所述多个网络参数进行调整包括：

根据所述反馈评估值和针对所述多个网络参数的多个扰动值组，采用进化算法确定目标扰动值组；以及

根据所述反馈评估值和所述目标扰动值组，对所述多个网络参数进行调整。

12.根据权利要求8所述的方法，其中，所述反馈信息包括实际浏览时长；所述参数确定模型还包括预测网络；所述方法还包括：

将所述第二对象特征输入所述预测网络，得到预测浏览时长；以及

根据所述实际浏览时长和所述预测浏览时长的差异，对所述特征提取网络和所述预测网络进行训练。

13.一种确定融合参数的装置，包括：

第一特征提取模块，用于将目标对象的推荐参考信息输入参数确定模型中的特征提取网络，提取得到针对所述目标对象的第一对象特征；以及

第一参数获得模块，用于将所述第一对象特征输入所述参数确定模型中的多任务网络，获得多个评估指标针对所述目标对象的第一融合参数，

其中，所述多个评估指标用于评估所述目标对象对推荐信息的偏好；其中，推荐信息包括多种类型的信息；每种类型的信息均具有所述多个评估指标；所述多任务网络包括特征表示子网络和多个预测子网络；所述第一参数获得模块包括：

特征获得子模块，用于将所述第一对象特征输入所述特征表示子网络，获得表示特征；以及

参数获得子模块，用于将所述表示特征和所述第一对象特征输入所述多个预测子网络，由所述多个预测子网络中的每个子网络输出一个融合参数组，

14.根据权利要求13所述的装置，其中，所述特征表示子网络包括多个专家单元；所述特征获得子模块用于：

将所述对象特征输入所述多个专家单元中的每个专家单元，由所述每个专家单元输出一个表示特征，

15.根据权利要求13～14中任一项所述的装置，其中，所述目标对象的推荐参考信息包括以下至少之一：

所述目标对象的属性信息；

对所述目标对象进行信息推荐的场景信息；

所述目标对象对推荐信息的偏好信息。

16.一种信息推荐装置，包括：

第一评估模块，用于对于针对目标对象的多个第一待推荐信息中的每个第一信息，根据所述每个第一信息的多个评估指标的预估值及所述多个评估指标针对所述目标对象的第一融合参数，确定所述每个第一信息针对所述目标对象的第一评估值；以及

第一信息确定模块，用于根据所述第一评估值，确定所述多个第一待推荐信息中针对所述目标对象的第一目标信息及由所述第一目标信息组成的第一信息列表，

其中，所述第一融合参数是采用权利要求13～15中任一项所述的装置确定的。

17.根据权利要求16所述的装置，其中，所述多个第一待推荐信息包括至少两种类型的信息；所述第一评估模块包括：

参数确定子模块，用于根据所述每个第一信息的类型，确定所述多个评估指标针对所述目标对象的多个融合参数，得到针对所述每个第一信息的融合参数组；所述融合参数组与信息的类型一一对应；以及

评估值确定子模块，用于根据所述每个第一信息的所述多个评估指标的预估值和所述融合参数组，确定所述第一评估值。

18.根据权利要求17所述的装置，其中，所述评估值确定子模块包括：

融合值确定单元，用于针对所述多个评估指标中的每个评估指标，根据所述每个评估指标的预估值和所述融合参数组中所述每个评估指标针对所述目标对象的融合参数，确定所述每个评估指标的融合值；以及

评估值确定单元，用于根据所述多个评估指标的多个融合值，确定所述第一评估值。

19.一种参数确定模型的训练装置，其中，所述参数确定模型包括特征提取网络和多任务网络；所述装置包括：

第二特征提取模块，用于将参考对象的推荐参考信息输入所述特征提取网络，提取针对所述参考对象的第二对象特征；

第二参数获得模块，用于将所述第二对象特征输入所述多任务网络，获得多个评估指标针对所述参考对象的第二融合参数；

第二评估模块，用于对于针对所述参考对象的多个第二待推荐信息中的每个第二信息，根据所述每个第二信息的所述多个评估指标的预估值及所述第二融合参数，确定所述每个第二信息针对所述参考对象的第二评估值；

第二信息确定模块，用于根据所述第二评估值，确定所述多个第二待推荐信息中针对所述参考对象的第二目标信息及由所述第二目标信息组成的第二信息列表；以及

第一训练模块，用于根据所述参考对象对所述第二信息列表的反馈信息，对所述多任务网络进行训练，

其中，推荐信息包括多种类型的信息；每种类型的信息均具有所述多个评估指标，所述多任务网络包括特征表征子网络和多个预测子网络；所述第二参数获得模块用于：

20.根据权利要求19所述的装置，还包括反馈信息确定模块，用于通过以下方式确定所述参考对象对所述第二信息列表的反馈信息：

其中，所述反馈信息包括所述反馈评估值。

21.根据权利要求20所述的装置，其中，所述第一训练模块包括：

扰动值生成子模块，用于根据所述参考对象的标识信息，生成针对所述多任务网络中多个网络参数的扰动值；以及

参数调整子模块，用于根据所述反馈评估值和针对所述多个网络参数的扰动值，对所述多个网络参数进行调整。

22.根据权利要求21所述的装置，其中，针对所述多个网络参数的扰动值包括与所述多个网络参数分别对应的多个扰动值；所述参数调整子模块包括：

步长确定单元，用于针对所述多个网络参数中的每个网络参数，根据所述反馈评估值与对应于所述每个网络参数的扰动值的比值，确定针对所述每个网络参数的调整步长；以及

第一调整单元，用于根据所述调整步长，对所述每个网络参数进行调整。

23.根据权利要求21所述的装置，其中，针对所述多个网络参数的扰动值包括多个扰动值组，所述多个扰动值组中的每个扰动值组包括与所述多个网络参数分别对应的多个扰动值；所述参数调整子模块包括：

目标扰动确定单元，用于根据所述反馈评估值和针对所述多个网络参数的多个扰动值组，采用进化算法确定目标扰动值组；以及

第二调整单元，用于根据所述反馈评估值和所述目标扰动值组，对所述多个网络参数进行调整。

24.根据权利要求20所述的装置，其中，所述反馈信息包括实际浏览时长；所述参数确定模型还包括预测网络；所述装置还包括：

时长预测模块，用于将所述第二对象特征输入所述预测网络，得到预测浏览时长；以及

第二训练模块，用于根据所述实际浏览时长和所述预测浏览时长的差异，对所述特征提取网络和所述预测网络进行训练。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～12中任一项所述的方法。