CN114298728A

CN114298728A - 一种数据处理方法及相关装置

Info

Publication number: CN114298728A
Application number: CN202111220725.8A
Authority: CN
Inventors: 谭斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-04-08
Also published as: US20230281656A1; WO2023065869A1

Abstract

本申请实施例公开了一种数据处理方法及相关装置，其中该方法包括：针对目标曝光请求对应的各候选广告，获取各候选广告各自对应的广告状态、以及响应目标曝光请求的广告投放平台的整体状态；针对每个候选广告，通过打分模型中的分类网络确定该候选广告属于各参考广告类型的概率；基于该候选广告属于各参考广告类型的概率，通过打分模型中的打分网络，根据该候选广告对应的广告状态和所述整体状态，确定该候选广告对于目标曝光请求的竞争得分；打分模型包括多个分别对应于各参考广告类型的打分网络；根据各候选广告各自对于目标曝光请求的竞争得分，确定通过目标曝光请求曝光的目标广告。该方法能够提高打分模型为广告配置的得分的准确性。

Description

一种数据处理方法及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及相关装置。

背景技术

在实际应用中，广告主在广告投放平台上投放广告时，会针对所投放的广告设置定向条件，例如，设置广告的曝光对象为上海30岁以下男性，等等。广告投放平台检测到曝光请求到来时，会召回定向条件与该曝光请求匹配的广告，并对所召回的广告进行粗排、精排等过滤处理，得到该曝光请求对应的候选广告队列；进而，对该候选广告队列中的广告进行打分，根据该候选广告队列中各广告的得分，确定通过本次曝光请求曝光的广告。

相关技术中，通常利用基于强化学习算法训练得到的模型，对上述候选广告队列中的广告进行打分。

然而，本申请发明人研究发现，上述模型通常难以针对各种广告均进行准确地打分。其原因在于，广告投放平台上投放的广告丰富多样，为了适应广告投放平台的此特点，训练用于对广告打分的模型时，通常会利用该模型对大量不同类型的广告进行打分，而这将使得模型具有巨大的动作空间，该巨大的动作空间会导致所训练的模型难以收敛，即模型性能无法达到预期的要求。相应地，在实际应用中，根据该模型为广告配置的得分确定最终曝光的广告，往往难以使得广告投放平台产生理想的收益。

发明内容

本申请实施例提供了一种数据处理方法及相关装置，能够提高打分模型为广告配置的得分的准确性，从而有助于提高广告投放平台的整体收益。

有鉴于此，本申请第一方面提供了一种数据处理方法，所述方法包括：

针对目标曝光请求对应的各候选广告，获取各所述候选广告各自对应的广告状态，所述广告状态用于表征其对应的候选广告竞争所述目标曝光请求时的竞争条件；并且获取响应所述目标曝光请求的广告投放平台的整体状态，所述整体状态用于表征所述广告投放平台当前的曝光任务完成情况；

针对每个所述候选广告，通过打分模型中的分类网络确定所述候选广告属于各参考广告类型的概率；

针对每个所述候选广告，基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分；所述打分模型包括多个分别对应于各所述参考广告类型的所述打分网络；

根据各所述候选广告各自对于所述目标曝光请求的竞争得分，确定通过所述目标曝光请求曝光的目标广告。

本申请第二方面提供了一种数据处理装置，所述装置包括：

状态获取模块，用于针对目标曝光请求对应的各候选广告，获取各所述候选广告各自对应的广告状态，所述广告状态用于表征其对应的候选广告竞争所述目标曝光请求时的竞争条件；并且获取响应所述目标曝光请求的广告投放平台的整体状态，所述整体状态用于表征所述广告投放平台当前的曝光任务完成情况；

分类模块，用于针对每个所述候选广告，通过打分模型中的分类网络确定所述候选广告属于各参考广告类型的概率；

打分模块，用于针对每个所述候选广告，基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分；所述打分模型包括多个分别对应于各所述参考广告类型的所述打分网络；

广告选择模块，用于根据各所述候选广告各自对于所述目标曝光请求的竞争得分，确定通过所述目标曝光请求曝光的目标广告。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的数据处理方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种数据处理方法，该方法利用包括多个打分网络的打分模型对曝光请求对应的候选广告进行打分，该打分模型中的多个打分网络分别适用于对不同参考广告类型的广告进行打分。采用该打分模型对目标曝光请求对应的候选广告打分时，先通过该打分模型中的分类网络，确定候选广告属于各参考广告类型的概率；然后，基于该候选广告属于各参考广告类型的概率，通过该打分模型中的打分网络，根据该候选广告对应的广告状态和广告投放平台的整体状态，确定该候选广告对于目标曝光请求的竞争得分；进而，可以根据各候选广告各自对于该目标曝光请求的竞争得分，确定通过该目标曝光请求曝光的目标广告。由于打分模型中不同的打分网络适用于为不同参考广告类型的广告进行打分，因此，训练该打分模型时，对于每个打分网络可以仅利用其适用的参考广告类型的广告对其进行训练，如此，每个打分网络的动作空间都不至于过大，在较小的动作空间中打分网络更易收敛，即更容易使得所训练的打分网络具备更好的性能，相应地，包括各个打分网络的打分模型也可具备较高的性能，能够为各候选广告准确地确定其对应的得分。基于该打分模型为广告配置的得分选择广告投放平台最终曝光的广告，也有助于使广告投放平台获得较高的收益。

附图说明

图1为本申请实施例提供的数据处理方法的应用场景示意图；

图2为本申请实施例提供的数据处理方法的流程示意图；

图3为本申请实施例提供的分类网络的工作原理；

图4为本申请实施例提供的打分模型的一种打分方式的实现示意图；

图5为本申请实施例提供的打分模型的另一种打分方式的实现示意图；；

图6为本申请实施例提供的打分模型的又一种打分方式的实现示意图；；

图7为本申请实施例提供的强化学习结构示意图；

图8为本申请实施例提供的打分模型训练方法的流程示意图；

图9为本申请实施例提供的虚拟广告投放平台的构建方式以及工作方式的示意图；

图10为本申请实施例提供的一种示例性的二部图；

图11为本申请实施例提供的一种数据处理装置的结构示意图；

图12为本申请实施例提供的另一种数据处理装置的结构示意图；

图13为本申请实施例提供的终端设备的结构示意图；

图14为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，采用强化学习算法训练用于为候选广告打分的打分模型时，为了使该打分模型能够针对各种广告均进行准确地打分，通常会将定向条件满足某曝光请求的所有广告均视为该曝光请求对应的训练候选广告，进而，利用所要训练的打分模型确定所有训练候选广告各自对应的得分，并基于各训练候选广告各自对应的得分，从中选择通过该曝光请求曝光的广告。然而，定向条件满足曝光请求的广告通常有上万个，针对上万个广告配置得分，并从中选择一个最终曝光的广告，会使得所要训练的打分模型具有巨大的动作空间，而巨大的动作空间往往会让打分模型难以收敛，导致最终训练得到的打分模型性能较差，难以准确地为各种广告配置得分。

为了解决上述相关技术存在的技术问题，本申请实施例提供了一种数据处理方法。

在该数据处理方法中，针对目标曝光请求对应的各候选广告，先获取各候选广告各自对应的广告状态，该广告状态用于表征其对应的候选广告竞争目标曝光请求时的竞争条件；并且获取响应该目标曝光请求的广告投放平台的整体状态，该整体状态用于表征该广告投放平台当前的曝光任务完成情况。然后，针对每个候选广告，通过打分模型中的分类网络确定该候选广告属于各参考广告类型的概率；进而，基于该候选广告属于各参考广告类型的概率，通过打分模型中的打分网络，根据该候选广告对应的广告状态和广告投放平台的整体状态，确定该候选广告对于目标曝光请求的竞争得分；上述打分模型包括多个分别对应于各参考广告类型的打分网络。最终，根据各候选广告各自对于目标曝光请求的竞争得分，确定通过目标曝光请求曝光的目标广告

上述数据处理方法利用包括多个打分网络的打分模型，对目标曝光请求对应的各候选广告进行打分，并且打分模型中的多个打分网络分别适用于为不同参考广告类型的广告进行打分。由于打分模型中不同的打分网络适用于为不同参考广告类型的广告打分，因此，训练该打分模型时，对于每个打分网络可以仅利用其适用的参考广告类型的广告对其进行训练，如此，每个打分网络的动作空间都不至于过大，在较小的动作空间中打分网络更易收敛，即更容易使得所训练的打分网络具备更好的性能，相应地，包括各个打分网络的打分模型也可具备较高的性能，能够为各候选广告准确地确定其对应的得分。基于该打分模型为广告配置的得分选择广告投放平台最终曝光的广告，也有助于使广告投放平台获得较高的收益。

应理解，本申请实施例提供的数据处理方法可以应用于具备数据处理能力的计算机设备，该计算机设备可以是终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assitant，PDA)等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。

为了便于理解本申请实施例提供的数据处理方法，下面以该数据处理方法的执行主体为服务器为例，对该数据处理方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的数据处理方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110、服务器120和数据库130；终端设备110与服务器120之间可以通过网络通信；服务器120与数据库130之间也可以通过网络通信，或者数据库130也可以集成在服务器120中。

在本申请实施例中，终端设备110面向用户，用于通过特定的界面或者窗口展示所曝光的广告。服务器120可以是广告投放平台的后台服务器，其用于执行本申请实施例提供的数据处理方法，响应终端设备110产生的曝光请求，向终端设备110反馈通过该曝光请求曝光的目标广告。数据库130用于存储广告主在广告投放平台上投放的广告以及广告对应的播放控制参数。

在实际应用中，终端设备110检测到用户触发打开广告播放界面或广告播放窗口的操作后，可以通过网络向服务器120传输目标曝光请求。例如，假设终端设备110检测到用户触发打开某视频应用程序的操作，并且该视频应用程序的开屏界面支持曝光广告，则终端设备110可以向服务器120发送目标曝光请求，该目标曝光请求中可以携带自身对应的定向属性，如用户的个人属性等等。

服务器120接收到终端设备110发送的目标曝光请求后，可以根据该目标曝光请求对应的定向属性，从数据库130中召回所对应的定向条件与该目标曝光请求对应的定向属性相匹配的广告；例如，假设目标曝光请求对应的定向属性表征用户为上海30岁以下男性，则服务器120可以从数据库130中召回定向条件与“上海30岁以下男性”相匹配的广告。进而，服务器120可以针对所召回的广告进行粗排、精排等一系列的筛选过滤处理，从而得到该目标曝光请求对应的各候选广告。

针对目标曝光请求对应的各候选广告，服务器120可以获取各候选广告各自对应的广告状态，此处的广告状态用于表征其对应的候选广告竞争目标曝光请求时的竞争条件。示例性的，当候选广告为合约广告时，服务器120可以根据各候选广告中除该合约广告外的其它广告的广告特征，确定该合约广告的竞争环境；服务器120还可以从数据库130中获取该合约广告的播放量、缺量、预定播放量、售价、播控参数和定向条件中的至少一种信息；进而，将该合约广告的竞争环境和从数据库130中获取的与该合约广告相关的信息拼接起来，得到该合约广告对应的广告状态。当候选广告为竞价广告时，服务器120可以根据各候选广告中除该竞价广告外的其它广告的广告特征，确定该竞价广告的竞争环境；进而，将该竞价广告的竞争环境作为该竞价广告对应的广告状态。

此外，服务器120还需要获取广告投放平台的整体状态，该整体状态用于表征广告投放平台当前的曝光任务完成情况。示例性的，服务器120可以获取广告投放平台当前整体的广告缺量、广告超播量、收益等，作为该广告投放平台的整体状态。

进而，针对目标曝光请求对应的每个候选广告，服务器120利用预先训练好的打分模型，确定其对于目标曝光请求的竞争得分。具体的，针对每个候选广告，可以通过打分模型121中的分类网络1211确定该候选广告属于各参考广告类型的概率；然后，基于该候选广告属于各参考广告类型的概率，通过打分模型121中的打分网络1212，根据该候选广告对应的广告状态以及广告投放平台的整体状态，确定该候选广告对于目标曝光请求的竞争得分。

需要说明的是，打分模型121中包括多个打分网络1212，多个打分网络1212分别适用于对不同参考广告类型的广告打分。训练该打分模型121中的每个打分网络1212时，仅需利用该打分网络1212所适用的参考广告类型的广告对其进行训练，如此，每个打分网络1212的动作空间都不至于过大。

最终，服务器120可以根据打分模型121确定的各候选广告各自对于目标曝光请求的竞争得分，确定通过该目标曝光请求曝光的目标广告；并将该目标广告通过网络传输给终端设备110，以使终端设备110在对应的广告播放界面或广告播放窗口中播放该目标广告。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的数据处理方法还可以应用于其它场景，在此不对本申请实施例提供的数据处理方法适用的应用场景做任何限定。

下面通过方法实施例对本申请提供的数据处理方法进行详细介绍。

参见图2，图2为本申请实施例提供的数据处理方法的流程示意图。为了便于描述，下述实施例仍以该数据处理方法的执行主体为服务器为例进行介绍。如图2所示，该数据处理方法包括以下步骤：

步骤201：针对目标曝光请求对应的各候选广告，获取各所述候选广告各自对应的广告状态，所述广告状态用于表征其对应的候选广告竞争所述目标曝光请求时的竞争条件；并且获取响应所述目标曝光请求的广告投放平台的整体状态，所述整体状态用于表征所述广告投放平台当前的曝光任务完成情况。

在本申请实施例中，服务器检测到目标曝光请求到来后，可以确定该目标曝光请求对应的各候选广告，并且获取各候选广告各自对应的广告状态；此外，服务器还需要获取响应该目标曝光请求的广告投放平台的整体状态。

在一种可能的实现方式中，服务器可以通过以下方式确定目标曝光请求对应的各候选广告：直接确定广告投放平台上所对应的定向条件与目标曝光请求的定向属性相匹配的各广告，作为该目标曝光请求对应的各候选广告。或者，召回广告投放平台上所对应的定向条件与目标曝光请求的定向属性相匹配的各广告，并对所召回的各广告进行粗排处理，将经过粗排处理后筛选保留下来的广告作为该目标曝光请求对应的各候选广告。或者，召回广告投放平台上所对应的定向条件与目标曝光请求的定向属性相匹配的各广告，并对所召回的各广告进行粗排、精排处理，将经过精排处理后筛选保留下来的广告作为该目标曝光请求对应的各候选广告。

应理解，为了减轻服务器对候选广告进行打分处理时的操作压力，通常更倾向于选择将经过精排处理后筛选保留下来的广告作为目标曝光请求对应的候选广告。当然，在实际应用中，服务器也可以采用其它方式确定目标曝光对应的各候选广告，本申请在此不做限定。

在本申请实施例中，服务器通过打分模型确定候选广告对于目标曝光请求的竞争得分时，至少需要利用两种数据，分别是候选广告对应的广告状态和广告投放平台的整体状态。其中，候选广告对应的广告状态用于表征该候选广告竞争目标曝光请求时的竞争条件；例如，该广告状态可以用于表征其对应的候选广告竞争目标曝光请求时所处的竞争环境，又例如，该广告状态可以根据其对应的候选广告的播控参数确定，该播控参数能够在一定程度上反映候选广告的竞争力。广告投放平台的整体状态用于表征广告投放平台当前的曝光任务完成情况，例如，该广告投放平台的整体状态可以包括该广告投放平台当前整体的广告缺量(即广告当前的播放量与其在本周期内的最小应播量之间相差的播放量)、广告超量(即广告当前的播放量超出其在本周期内的最大可播量的播放量)、收益(即当前通过播放广告产生的收益)等等。

在一种可能的实现方式中，目标曝光请求对应的候选广告可以包括合约广告和竞价广告中的至少一种。其中，合约广告是通过以下方式产生的广告：广告主与广告投放平台签订合约，要求广告投放平台在指定时间内向广告主指定类型的用户播放预定播放量的广告，如果合约达成，广告主需要向广告投放平台支付对应的广告投放费用，如果合约未达成，即广告的实际播放量未达到其对应的预定播放量，广告投放平台需要赔付广告主一定的费用，播放此类合约广告时，如果广告的实际播放量超过其对应的预定播放量，广告投放平台不会收取额外的费用。竞价广告是一种按照广告效果(如点击率、转化率等)付费的广告形式；广告主针对其投放的广告可以给出一个出价，当曝光请求到来时，所对应的定向条件与该曝光请求相匹配的各竞价广告可以基于广告主预先给出的出价，竞争该曝光请求。

通常情况下，目标曝光请求对应的各候选广告可以同时包括合约广告和竞价广告，即本申请实施例应用在混排合约广告和竞价广告的场景中；此时，需要采用对应的方式，针对合约广告和竞价广告确定其对应的广告状态。

作为一种示例，合约广告对应的广告状态可以包括该合约广告竞争目标曝光请求时的竞争环境，该竞争环境可以根据各候选广告中除该合约广告自身外的其它广告的广告特征确定，例如，可以将目标曝光请求对应的各候选广告中除该合约广告自身外的其它广告的广告特征拼接起来，得到该合约广告的竞争环境。

此外，合约广告对应的广告状态还可以包括以下至少一种信息：该合约广告的播放量、缺量、预定播放量、售价、播控参数和定向条件。其中，播放量为该合约广告当前的播放量。缺量为该合约广告当前的播放量与本周期内该合约广告的最小应播量之间相差的播放量。预定播放量为广告主投放该合约广告时设定的该合约广告所要达到的播放量。售价为广告主投放该合约广告时与广告投放平台协商的广告投放价格。播控参数例如可以包括合约广告对应的Rate和Theta；Rate是用于控制合约广告播放的一种参数，Rate＝0.5表示合约广告有50％的概率进入候选广告队列；Theta是用于控制合约广告播放的另一种参数，仅在合约广告内部排序中使用，例如，合约广告A和合约广告B匹配到了同一个曝光请求，合约广告A的Theta为0.3，合约广告B的Theta为0.6，则合约广告A的播放概率为30％，合约广告B的播放概率为60％，Theta本质上是合约广告的预定播放量与该合约广告当前的库存量的比值。定向条件即是可以播放该合约广告的曝光请求所需满足的条件。

在本申请实施例中，可以将上述合约广告的竞争环境和上述与合约广告相关的至少一种信息拼接起来，得到该合约广告对应的广告状态。

作为一种示例，竞价广告对应的广告状态可以包括该竞价广告竞争目标曝光请求时的竞争环境，该竞争环境可以根据各候选广告中除该竞价广告自身外的其它广告的广告特征确定，例如，可以将目标曝光请求对应的各候选广告中除该竞价广告自身外的其它广告的广告特征拼接起来，得到该竞价广告的竞争环境。

在本申请实施例中，可以直接将上述竞价广告的竞争环境，作为该竞价广告对应的广告状态。或者，也可以获取与竞价广告相关的至少一种信息，如竞价广告当前的收益、定向条件等，将上述竞价广告的竞争环境和所获取的与竞价广告相关的至少一种信息拼接起来，得到该竞价广告对应的广告状态。

应理解，在本申请实施例中，目标曝光请求对应的候选广告还可以包括其它类型的广告，候选广告对应的广告状态可以根据与该候选广告相关的其它信息确定，本申请在此不做任何限定。

步骤202：针对每个所述候选广告，通过打分模型中的分类网络确定所述候选广告属于各参考广告类型的概率。

针对每个候选广告，服务器可以利用预先训练好的打分模型中的分类网络，确定该候选广告属于各参考广告类型的概率。

需要说明的是，在本申请实施例中，可以根据实际应用需求将广告划分为若干种参考广告类型；例如，可以根据广告是否缺量来划分参考广告类型，也可以根据广告对应的用户观看频次来划分参考广告类型，等等，本申请在此不对参考广告类型做任何限定。

在一种可能的实现方式中，服务器可以通过分类网络，根据候选广告对应的广告状态和广告投放平台的整体状态，确定该候选广告属于各参考广告类型的概率。

示例性的，图3中(a)示出了该种实现方式中分类网络的工作原理。如图3中(a)所示，服务器可以将候选广告对应的广告状态与广告投放平台的整体状态拼接起来；然后，通过分类网络中的多层感知机(Multilayer Perceptron，MLP)层对拼接起来的状态进行处理，得到一个张量Tensor；进而，可以通过分类网络中的分类(Softmax)层基于该Tensor进行分类处理，并输出概率向量，该概率向量用于表征该候选广告属于各参考广告类型的概率。假设总共有四种参考广告类型，分类网络输出的概率向量[0.6,0.1,0.2,0.1]，表示候选广告有60％的概率属于第一种参考广告类型，有10％的概率属于第二种参考广告类型，有20％的概率属于第三种参考广告类型，有10％的概率属于第四种参考广告类型。

在另一种可能的实现方式中，服务器可以通过分类网络，根据候选广告对应的广告状态，确定该候选广告属于各参考广告类型的概率。

示例性的，图3中(b)示出了该种实现方式中分类网络的工作原理。如图3中(b)所示，服务器可以通过分类网络中的MLP层对候选广告对应的广告状态进行处理，得到一个Tensor；然后，可以通过分类网络中的Softmax层基于该Tensor进行分类处理，输出概率向量，该概率向量用于表征该候选广告属于各参考广告类型的概率。

在又一种可能的实现方式中，服务器可以通过分类网络，根据候选广告对应的广告特征，确定该候选广告属于各参考广告类型的概率。

示例性的，图3中(c)示出了该种实现方式中分类网络的工作原理。如图3中(c)所示，服务器可以通过分类网络中的MLP层对候选广告对应的广告特征进行处理，得到一个Tensor，此处的广告特征可以根据候选广告的广告内容确定，也可以根据候选广告的相关播放参数(如播放量、预定播放量、超播量、缺量、收益等等)确定；然后，可以通过分类网络中的Softmax层基于该Tensor进行分类处理，输出概率向量，该概率向量用于表征该候选广告属于各参考广告类型的概率。

应理解，上述三种分类网络的工作方式仅为示例，在实际应用中，还可以根据实际需求针对分类网络设置其它工作方式，本申请在此不做任何限定。

在实际应用中，上述分类网络也可以被称为门网络(Gate)，其本质上相当于注意力机制(attention)层，用于控制打分模型中的打分网络处理的特征。

步骤203：针对每个所述候选广告，基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分；所述打分模型包括多个分别对应于各所述参考广告类型的所述打分网络。

通过打分模型中的分类网络，确定出候选广告属于各参考广告类型的概率后，可以基于该候选广告属于各参考广告类型的概率，通过该打分模型中的打分网络，根据该候选广告对应的广告状态和广告投放平台的整体状态，确定该候选广告对于目标曝光请求的竞争得分。

需要说明的是，本申请实施例提供的打分模型中包括多个打分网络(又可称为专家网络)，这多个打分网络与各种参考广告类型之间具有一一对应的关系，例如，假设共有四种参考广告类型，则打分模型中包括四个打分网络。每个打分网络适用于对所属于其对应的参考广告类型的广告进行打分处理，例如，假设第一个打分网络适用于对第一种参考广告类型的广告打分，则第一个打分网络为所属于第一种参考广告类型的广告配置的得分相比其它打分网络为该广告配置的得分更准确。本申请实施例提供的打分模型是基于强化学习机制训练得到的，下文将通过另一方法实施例对该打分模型的训练方式进行详细介绍。

经本申请发明人研究发现，若打分模型中包括的打分网络的数量过多，则容易因每个打分网络的训练样本不充足，而导致打分网络难以被充分训练，同时也会使打分模型中的分类网络输出维度过大的概率向量；若打分模型中包括的打分网络的数量过少，则与相关技术中的单网络结构相接近，每个打分网络的动作空间仍较大。基于此，需要在打分模型中设置适量的打分网络，经研究发现，在打分模型中设置四到八个打分网络均能取得不错的效果。当然，本申请在此并不对打分模型中包括的打分网络的数量做任何限定。

在一种可能的实现方式中，服务器通过打分模型中的打分网络确定候选广告对于目标曝光请求的竞争得分时，可以通过以下方式实现：根据候选广告对应的广告状态和广告投放平台的整体状态，确定该候选广告的输入特征。基于该候选广告属于各参考广告类型的概率，对该候选广告的输入特征进行加权处理，得到该候选广告在每种参考广告类型下的输入特征。然后，通过打分模型中的每个打分网络，根据该候选广告在该打分网络对应的参考广告类型下的输入特征，为该候选广告配置竞争得分。进而，根据打分模型中各个打分网络各自为该候选广告配置的竞争得分，确定该候选广告对于目标曝光请求的竞争得分。

示例性的，图4示出了打分模型的该种打分方式的实现过程。如图4所示，服务器可以将候选广告对应的广告状态与广告投放平台的整体状态拼接起来；然后，通过打分模型中的MLP层对拼接起来的状态进行处理，得到一个Tensor，作为该候选广告的输入特征。然后，打分模型可以基于候选广告属于各参考广告类型的概率，对该输入特征进行加权处理，得到该候选广告在每种参考广告类型下的输入特征；例如，假设总共有四种参考广告类型，候选广告属于这四种参考广告类型的概率分别为0.6、0.1、0.2和0.1，则打分模型可以在候选广告的输入特征的基础上乘以0.6，得到该候选广告在第一种参考广告类型下的输入特征，在候选广告的输入特征的基础上乘以0.1，得到该候选广告在第二种参考广告类型下的输入特征，在候选广告的输入特征的基础上乘以0.2，得到该候选广告在第三种参考广告类型下的输入特征，在候选广告的输入特征的基础上乘以0.1，得到该候选广告在第四种参考广告类型下的输入特征。进而，打分模型中的每个打分网络，可以根据候选广告在该打分网络对应的参考广告类型下的输入特征，为该候选广告配置竞争得分；例如，打分模型中第一种参考广告类型的打分网络，可以根据该候选广告在第一种参考广告类型下的输入特征，为该候选广告配置竞争得分，打分模型中第二种参考广告类型的打分网络，可以根据该候选广告在第二种参考广告类型下的输入特征，为该候选广告配置竞争得分，以此类推。最终，可以对打分模型中各个打分网络各自为该候选广告配置的竞争得分做求平均处理，得到该候选广告对于目标曝光请求的竞争得分。

如此，使打分模型中的所有打分网络基于候选广告不同权重的输入特征，确定候选广告对于目标曝光请求的竞争得分，能够保证所确定的竞争得分的准确性。

在另一种可能的实现方式中，服务器通过打分模型中的打分网络确定候选广告对于目标曝光请求的竞争得分时，可以通过以下方式实现：根据候选广告对应的广告状态和广告投放平台的整体状态，确定候选广告的输入特征。然后，通过打分模型中的每个打分网络，根据该候选广告的输入特征，为该候选广告配置竞争得分。进而，基于该候选广告属于各参考广告类型的概率，对打分模型中各个打分网络各自为该候选广告配置的竞争得分进行加权求和处理，得到该候选广告对于目标曝光请求的竞争得分。

示例性的，图5示出了打分模型的该种打分方式的实现过程。如图5所示，服务器可以将候选广告对应的广告状态与广告投放平台的整体状态拼接起来；然后，通过打分模型中的MLP层对拼接起来的状态进行处理，得到一个Tensor，作为该候选广告的输入特征。然后，通过打分模型中的每个打分网络对该候选广告的输入特征进行处理，并输出其为该候选广告配置的竞争得分。进而，基于该候选广告属于各参考广告类型的概率，相应地对各打分网络各自为该候选广告配置的竞争得分进行加权求和处理，得到该候选广告对于目标曝光请求的竞争得分；例如，假设总共有四种参考广告类型，候选广告属于这四种参考广告类型的概率分别为0.6、0.1、0.2和0.1，则打分模型可以在第一种参考广告类型对应的打分网络配置的竞争得分的基础上乘以0.6，在第二种参考广告类型对应的打分网络配置的竞争得分的基础上乘以0.1，在第三种参考广告类型对应的打分网络配置的竞争得分的基础上乘以0.2，在第四种参考广告类型对应的打分网络配置的竞争得分的基础上乘以0.1，进而，将上述加权处理后的结果相加，得到候选广告对于目标曝光请求的竞争得分。

如此，使打分模型中的所有打分网络基于候选广告的输入特征为该候选广告配置竞争得分，进而对各打分网络配置的竞争得分进行加权求和处理，也能够保证所确定的竞争得分的准确性。

在又一种可能的实现方式中，服务器通过打分模型中的打分网络确定候选广告对于目标曝光请求的竞争得分时，可以通过以下方式实现：根据候选广告对应的广告状态和广告投放平台的整体状态，确定候选广告的输入特征。然后，基于该候选广告属于各参考广告类型的概率，确定打分模型中最适合处理该候选广告的打分网络，作为目标打分网络。进而，通过目标打分网络，根据候选广告的输入特征，确定该候选广告对于目标曝光请求的竞争得分。

示例性的，图6示出了打分模型的该种打分方式的实现过程。如图6所示，服务器可以将候选广告对应的广告状态与广告投放平台的整体状态拼接起来；然后，通过打分模型中的MLP层对拼接起来的状态进行处理，得到一个Tensor，作为该候选广告的输入特征。同时，打分模型还可以根据该候选广告属于各参考广告类型的概率，确定该候选广告所属的目标参考广告类型，例如，在候选广告属于各参考广告类型的概率中确定最大的概率，进而确定该最大的概率对应的参考广告类型，为该候选广告所属的目标参考广告类型；相应地，打分模型可以确定该目标参考广告类型对应的打分网络，作为目标打分网络，图6中以目标打分网络为适用于处理第一种参考广告类型的广告的打分网络为例。进而，通过该打分模型中的目标打分网络，对该候选广告的输入特征进行处理，输出该候选广告对于目标曝光请求的竞争得分。

如此，从打分模型中选出最适合为候选广告打分的打分网络，对该候选广告进行打分处理，可以在一定程度上保证所确定的竞争得分的准确性，同时减少所需耗费的计算资源。

应理解，上文中介绍的确定候选广告对于目标曝光请求的竞争得分的实现方式仅为示例，在实际应用中，打分模型还可以采用其它方式，利用其中包括的多个打分网络确定候选广告对于目标曝光请求的竞争得分，本申请对此不做限定。

步骤204：根据各所述候选广告各自对于所述目标曝光请求的竞争得分，确定通过所述目标曝光请求曝光的目标广告。

经过打分模型的处理后，服务器将获得目标曝光请求对应的各候选广告各自对于该目标曝光请求的竞争得分，进而，服务器可以根据各候选广告各自对于该目标曝光请求的竞争得分，确定最终通过该目标曝光请求曝光的目标广告。

示例性的，服务器可以直接确定对于目标曝光请求的竞争得分最高的候选广告，作为通过该目标曝光请求曝光的目标广告。或者，服务器可以获取各候选广告各自对应的广告竞争得分，该广告竞争得分是根据候选广告自身的广告内容确定的；然后，针对每个候选广告，根据该候选广告对于目标曝光请求的竞争得分及其对应的广告竞争得分，确定该候选广告的总竞争得分；最终，确定总竞争得分最高的候选广告作为通过该目标曝光请求曝光的目标广告。本申请在此不对确定通过目标曝光请求曝光的目标广告的方式做任何限定。

下面通过方法实施例，对图2所示的方法实施例涉及的打分模型的训练方法进行详细介绍。需要说明的是，本申请实施例中的打分模型是基于强化学习机制训练的，为了便于理解，下面先结合图7所示的AC(Actor-Critict)强化学习结构的示意图，对强化学习机制进行介绍。

强化学习机制通过模型对环境进行探索，给出当前环境状态下每种可选策略的得分，并基于各种可选策略的得分选择一种策略执行，执行该种策略后环境状态将发生改变，并产生对应的奖励(正向奖励或负向奖励)，该奖励可以在下一轮策略打分过程中提供参考。强化学习旨在选出最优策略，使得执行最优策略后环境状态达到最佳。

在训练用于为曝光请求对应的候选广告打分的打分模型的应用场景中，环境(Environment)可以为训练曝光请求对应的各训练候选广告，所要训练的打分模型(即Actor Net)负责对训练曝光请求对应的各训练候选广告打分，根据各训练候选广告各自的得分，选择通过该训练曝光请求曝光的训练目标广告(即Action)。训练目标广告曝光后，虚拟广告投放平台的状态(State)会发生改变，并且还可以给出该广告曝光动作对应的奖励(reward)，评判模型(Critict Net)可以根据虚拟广告投放平台的状态和该奖励值，给出对于所训练的打分模型本次打分操作的反馈信息。打分模型下次针对该训练曝光请求对应的各训练候选广告打分时，可以利用该反馈信息作为参考。

参见图8，图8为本申请实施例提供的打分模型训练方法的流程示意图。为了便于描述，下述实施例仍以该打分模型训练方法的执行主体为服务器为例进行介绍；应理解，该打分模型训练方法在实际应用中也可以由终端设备执行。如图8所示，该打分模型训练方法包括以下步骤：

步骤801：基于所述广告投放平台的历史数据，模拟虚拟广告投放平台。

在本申请实施例中，服务器训练打分模型之前，需要先利用广告投放平台的历史数据，模拟虚拟广告投放平台，以基于该虚拟广告投放平台的环境对打分模型进行训练。

在一种可能的实现方式中，服务器可以通过以下方式模拟虚拟广告投放平台：获取广告投放平台的历史曝光请求数据、历史曝光日志数据、历史库存数据以及历史投放广告的播控参数。基于历史曝光请求数据以及历史曝光日志数据，构建训练曝光请求，并确定训练曝光请求对应的各训练候选广告。基于历史库存数据以及历史投放广告的播控参数，确定训练候选广告对应的广告状态。基于历史库存数据、历史曝光日志数据、以及历史投放广告的播控参数，确定该虚拟广告投放平台的整体状态。

图9示出了本申请实施例提供的虚拟广告投放平台的构建方式以及工作方式。如图9所示，虚拟广告投放平台的构建工作是通过其中的数据来源、数据传输和数据处理三个阶段实现的。

服务器具体构建虚拟广告投放平台时，可以先从广告投放平台的库存***中获取历史库存数据，从广告投放平台的日志管理***中获取历史曝光日志数据和历史曝光请求数据，从广告投放平台的播控***中获取历史投放广告的播控参数。

需要说明的是，库存***中存储的库存数据通常来源于库存预估服务，库存预估服务用于利用过去的广告投放数据对广告未来的可用库存进行预测，可以精确到每个曝光请求与每个广告之间的映射，且可以确定每个广告在给定时间区间内的库存量。二部图即是基于库存数据计算得到的，通过二部图可以反映两个非常具有参考价值的数据：合约广告的播放概率和当前周期的播放曲线，前者可以为广告投放平台提供使合约广告保量的参考，后者可以为广告投放平台提供合约广告的挤占空间；图10所示即为一种示例性的二部图，其中，供应侧为库存数据，可以通过属性维度表达，需求侧为广告数据，可以通过定向条件的属性维度表达，通过关联供应层的属性维度和需求侧的属性维度，即可得到库存数据与广告数据之间的映射关系。

在本申请实施例中，可以基于从广告投放平台的库存***中获取的历史库存数据，确定训练候选广告对应的广告状态，如当训练候选广告为合约广告时，确定其对应的缺播量、超播量等。还可以基于所获取的历史库存数据，确定模拟的虚拟广告投放平台的整体状态，如确定虚拟广告投放平台整体的缺播量、超播量等。

需要说明的是，日志管理***存储的曝光请求数据，是终端设备侧产生的各条历史曝光请求及其对应的定向属性。日志管理***存储的曝光日志数据包括两种，一种是请求级别的曝光日志数据track_log，另一种是曝光级别的曝光日志数据joined_exposure；其中，track_log包括经精排处理后每个曝光请求对应的候选广告队列，以及候选广告队列中各竞价广告的千次展示收益(effective cost per mille，ecpm)、预测点击率(PredictClick-Through Rate，pctr)、过滤条件、扶持策略等等；joined_exposure包括每个曝光请求最终真实曝光的广告，以及该广告对应的计费信息、ecpm信息等等。

在本申请实施例中，可以基于从日志管理***获取的历史曝光请求数据和历史曝光日志数据，构建训练曝光请求，并确定该训练曝光请求对应的各训练候选广告。还可以基于所获取的历史曝光日志数据，确定虚拟广告投放平台的整体状态。

需要说明的是，播控***中存储的广告的播控参数是用于控制广告播放的参数。对于合约广告来说，其播控参数例如可以是Rate、Theta等等，用于辅助调整合约广告的播放情况，是使得合约广告保量的关键信息。对于竞价广告来说，其播控参数例如可以是广告主针对该广告设置的出价等等。

在本申请实施例中，可以基于从播控***获取的播控参数，确定训练曝光请求对应的训练候选广告对应的广告状态。

应理解，上述虚拟广告投放平台的模拟方式仅为示例，在实际应用中，服务器还可以采用其它方式模拟虚拟广告投放平台，本申请对此不做限定。

步骤802：针对所述虚拟广告投放平台上的训练曝光请求，确定所述训练曝光请求对应的各训练候选广告。

正如上文步骤801所介绍的，服务器模拟虚拟广告投放平台时，可以基于所获取的历史曝光请求数据，构建训练曝光请求；并且基于历史曝光日志数据，确定训练曝光请求对应的各训练候选广告。

此外，服务器还需要针对每个训练候选广告，确定其对应的广告状态，例如，基于训练候选广告对应的历史库存数据及其播控参数，确定该训练候选广告对应的广告状态。服务器还需要确定虚拟广告投放平台的整体状态，例如，基于所获取的历史库存数据、历史曝光日志数据、以及各历史投放广告的播控参数，模拟虚拟广告投放平台当前的曝光任务完成情况，从而确定该虚拟广告投放平台的整体状态。

步骤803：通过待训练的初始打分模型，根据各所述训练候选广告各自对应的广告状态和所述虚拟广告投放平台的整体状态，确定各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分；所述初始打分模型包括初始分类网络、以及多个分别对应于各参考广告类型的初始打分网络。

进而，基于训练曝光请求对应的各训练候选广告，对待训练的初始打分模型进行训练。即，针对每个训练候选广告，通过待训练的初始打分模型，根据该训练候选广告对应的广告状态以及虚拟广告投放平台的整体状态，确定该训练候选广告对于该训练曝光请求的训练竞争得分。

应理解，本申请实施例中训练的初始打分模型，与图2所示实施例中的打分模型的结构和工作原理均相同，详细可参见图2所示实施例中对于打分网络的相关介绍内容。该初始打分模型中包括初始分类网络、以及多个分类对应于各参考广告类型的初始打分网络；其中，初始分类网络用于确定训练候选广告属于各参考广告类型的概率，初始打分网络用于根据训练候选广告对应的广告状态和虚拟广告投放平台的整体状态，为训练候选广告配置训练竞争得分。

需要说明的是，基于强化学***台的整体状态外，还需要向该初始打分模型输入参考反馈信息，该参考反馈信息是评判模型对于该初始打分模型上一轮为同一训练曝光请求对应的各训练候选广告进行的打分操作给出的反馈信息。

具体的，初始打分模型完成每轮对于训练曝光请求对应的各训练候选广告的打分操作，并基于各训练候选广告各自对于该训练曝光请求的训练竞争得分选出最终曝光的广告后，评判模型均会根据虚拟广告投放平台整体状态的变化情况和相关奖励值，给出对于初始打分模型该轮打分操作的反馈信息，该反馈信息用于反映初始打分模型该轮打分操作是好还是坏。应理解，反馈信息反映初始打分模型该轮打分操作是好，说明基于初始打分模型该轮打分操作的打分结果执行的广告曝光操作，使得虚拟广告投放平台的整体收益趋于增加，反馈信息反映初始打分模型该轮打分操作是坏，说明基于初始打分模型该轮打分操作的打分结果执行的广告曝光操作，使得虚拟广告投放平台的整体收益趋于减少。初始打分模型下一轮对该训练曝光请求对应的各训练候选广告进行再次打分时，可以将该反馈信息连同训练候选广告对应的广告状态和虚拟广告投放平台的整体状态，一同输入初始打分模型。

在一种可能的实现方式中，服务器具体训练初始打分模型中的每个初始打分网络时，可以针对每个训练候选广告，通过初始打分模型中的初始分类网络，确定该训练候选广告属于各参考广告类型的概率；然后，根据该训练候选广告属于各参考广告类型的概率，确定该训练候选广告所属的目标参考广告类型；进而，通过初始打分模型中该目标参考广告类型对应的初始打分网络，根据训练候选广告对应的广告状态、虚拟广告投放平台的整体状态和参考反馈信息，确定该训练候选广告对于训练曝光请求的训练竞争得分，此处的参考反馈信息即是上文介绍的评判模型对于初始打分网络上次对该训练曝光请求对应的各训练候选广告的打分操作给出的反馈信息。

示例性的，对于某个训练候选广告，服务器可以先将该训练候选广告对应的广告状态、虚拟广告投放平台的整体状态和参考反馈信息拼接起来，并通过MLP层对拼接得到的数据进行处理，得到该训练候选广告的输入特征。然后，服务器可以将该训练候选广告的输入特征输入初始打分模型，该初始打分模型中的初始打分网络对该输入特征进行相应地处理后，将输出该训练候选广告属于各参考广告类型的概率；然后，初始打分模型可以根据该训练候选广告属于各参考广告类型的概率，确定该训练候选广告所属的参考广告类型作为目标参考广告类型；进而，初始打分模型将调用该种目标参考广告类型对应的初始打分网络，通过该初始打分网络对该训练候选广告的输入特征进行处理，最终输出该训练候选广告对于该训练曝光请求的训练竞争得分。

如此，预先设置好初始打分模型中初始打分网络与参考广告类型之间的对应关系，通过初始打分模型中的初始打分网络确定出某训练候选广告所属的参考广告类型后，可以直接利用该参考广告类型对应的初始打分网络对该训练候选广告进行打分处理，从而使得各初始打分网络可以专注地学习所属于其对应的参考广告类型的广告的特征，实现各初始打分网络的专项化。

在另一种可能的实现方式中，服务器具体训练初始打分模型中的每个初始打分网络时，可以针对每个训练候选广告，根据该训练候选广告对应的广告状态、虚拟广告投放平台的整体状态以及参考反馈信息，确定该训练候选广告的输入特征；此处的参考反馈信息是评判模型对于初始打分网络上一轮对训练曝光请求对应的各训练候选广告的打分操作给出的反馈信息。然后，通过初始打分模型中的初始分类网络，确定该训练候选广告属于各参考广告类型的概率；并基于该训练候选广告属于各参考广告类型的概率，对该训练候选广告的输入特征进行加权处理，得到该训练候选广告在每种参考广告类型下的输入特征。进而，通过初始打分模型中的各初始打分网络，根据该训练候选广告在各参考广告类型下的输入特征，确定该训练候选广告对于训练曝光请求的训练竞争得分。

示例性的，对于某个训练候选广告，服务器可以先将该训练候选广告对应的广告状态、虚拟广告投放平台的整体状态和参考反馈信息拼接起来，并通过MLP层对拼接得到的数据进行处理，得到该训练候选广告的输入特征。然后，服务器可以将该训练候选广告的输入特征输入初始打分模型，该初始打分模型中的初始打分网络对该输入特征进行相应地处理后，将输出该训练候选广告属于各参考广告类型的概率；然后，初始打分模型可以基于该训练候选广告属于各参考广告类型的概率，对该训练候选广告的输入特征进行加权处理，得到该训练候选广告在各种参考广告类型下的输入特征；进而，初始打分模型中的各初始打分网络可以对训练候选广告在其对应的参考广告类型下的输入特征进行处理，为该训练候选广告配置训练竞争得分；最终，对各初始打分网络各自为该训练候选广告配置训练竞争得分进行平均处理，得到该训练候选广告对于训练曝光请求的竞争得分。

将该种模型训练方式与相关技术中只训练单一网络结构的方式进行对比，假设一个训练曝光请求对应10000个训练候选广告，相关技术中采用单一的打分网络对各训练候选广告进行打分处理时，该打分网络需要预估10000个训练竞争得分，并反向传播梯度，当存在两个差别较大的训练候选广告时，打分网络很可能一次梯度是很大的正数，依次梯度是很大的负数，这使得打分网络非常震荡，无法收敛。本申请实施例经过初始分类网络分类后，分类概率可以使得不属于某打分网络适用的参考广告类型的广告的输入特征很小，相应地，其输出的竞争得分对于整体的竞争得分的影响较小，反之，分类概率也可以使得属于某打分网络适用的参考广告类型的输入特征很大，如此，前者梯度小，后者梯度大，可以使得每个打分网络都对自身适用的参考广告类型学习得更好。

应理解，上述初始打分模型的工作方式仅为示例，在实际应用中，初始打分模型还可以基于其它工作方式工作，本申请对此不做限定。

步骤804：根据各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，确定通过所述训练曝光请求曝光的训练目标广告，并模拟所述虚拟广告投放平台曝光所述训练广告会产生的训练奖励。

服务器通过初始打分模型确定出训练曝光请求对应的各训练候选广告各自对于该训练曝光请求的竞争得分后，可以根据各训练候选广告各自对于该训练曝光请求的竞争得分，确定通过该训练曝光请求曝光的训练目标广告。

进而，可以模拟虚拟广告投放平台曝光该训练目标广告的场景，并相应地确定曝光该训练目标广告后虚拟广告投放平台的整体状态，例如，模拟曝光该训练目标广告后虚拟广告投放平台整体的缺量、超播、收益等等。并且，还可以模拟该虚拟广告投放平台曝光该训练目标广告后会产生的训练奖励，例如，假设虚拟广告投放平台希望广告的曝光率越高越好，那么如果本次曝光的训练目标广告为没有超播的广告，则可以给出正向的训练奖励，反之，如果本次曝光的训练目标广告为一个已超播的广告，则可以给出负向的训练奖励。

在一种可能的实现方式中，服务器可以通过以下方式确定通过训练曝光请求曝光的训练目标广告：获取各训练候选广告各自对应的广告竞争得分，该广告竞争得分是根据其对应的训练候选广告的广告特征确定的；然后，根据各训练候选广告各自对于该训练曝光请求的训练竞争得分、以及各训练候选广告各自对应的广告竞争得分，确定训练目标广告。

如图9所示，虚拟广告投放平台通过初始打分模型，确定出训练曝光请求对应的各训练候选广告各自对于训练曝光请求的竞争得分后，可以通过该虚拟广告投放平台的线上***，从各训练候选广告中选出通过该训练曝光请求曝光的广告。虚拟广告投放平台的线上***可以包括特征服务器(Feature Server)和混合器(Mixer)；其中，特征服务器可以获取训练曝光请求对应的各训练候选广告各自对于训练曝光请求的竞争得分、以及各训练候选广告各自的广告竞争得分，此处的广告竞争得分是根据其对应的训练候选广告自身的广告特征确定的；然后，混合器可以从特征服务器处获取各训练候选广告各自对应的广告竞争得分、以及各训练候选广告各自对于训练曝光请求的竞争得分，进而，针对每个训练候选广告，根据其对应的广告竞争得分以及其对于训练曝光请求的竞争得分，确定该训练候选广告的总竞争得分，最终，选择总竞争得分最高的训练候选广告曝光，作为通过训练曝光请求曝光的训练目标广告。虚拟广告投放平台完成该训练目标广告的曝光后，可以将本次曝光操作相关的数据记录到日志中。

步骤805：通过评判模型，根据曝光所述训练目标广告后所述虚拟广告投放平台的整体状态和所述训练奖励，确定所述初始打分模型本轮打分操作对应的反馈信息；所述反馈信息在所述初始打分模型下一轮对所述训练曝光请求对应的各训练候选广告打分时被作为参考信息输入所述初始打分模型，以辅助调整所述初始打分模型的模型参数。

正如上文步骤803所介绍的，虚拟广告投放平台每完成一次训练目标广告的曝光操作后，服务器可以将曝光该训练目标广告后该虚拟广告投放平台的整体状态和训练奖励输入评判模型，评判模型通过对输入的数据进行相应地处理，将输出其对于初始打分模型本轮打分操作的反馈信息，该反馈信息用于反映基于初始打分模型本轮打分操作的打分结果曝光的训练目标广告对于虚拟广告投放平台整体收益的影响是正向的、还是负向的。并且，该反馈信息会在初始打分模型下一轮对该训练曝光请求对应的各训练候选广告进行打分时，作为参考信息输入该初始打分模型，从而辅助调整该初始打分模型的模型参数，使得该初始打分模型的模型性能趋于更优。

步骤806：当确认满足训练结束条件时，确定所述初始打分模型作为所述打分模型。

服务器可以基于各训练曝光请求循环执行上述步骤802至步骤805，针对各训练曝光请求完成一轮对应的曝光操作后，服务器可以记录此时虚拟广告投放平台的整体收益情况。如此，针对各训练曝光请求完成多轮对应的曝光操作，并记录每轮曝光操作后虚拟广告投放平台的整体收益情况，当确定该虚拟广告投放平台的整体收益基本稳定、不再大幅度增加，可以确定当前已满足训练结束条件，可以确定此时的初始打分模型作为可以投入实际应用的打分模型，即图2所示实施例中的打分模型。

本申请实施例针对图2所示实施例中的打分模型给出了一种模型训练方法，通过该方法训练包括多个打分网络的打分模型时，对于每个打分网络可以仅利用其适用的参考广告类型的广告对其进行训练，从而保证每个打分网络的动作空间都不至于过大，在较小的动作空间中打分网络更易收敛，即更容易使得所训练的打分网络具备更好的性能，相应地，包括各个打分网络的打分模型也可具备较高的性能，能够为各候选广告准确地确定其对应的得分。

本申请发明人将本申请实施例提供的广告曝光方法投入到实际的广告投放平台中使用，发现广告投放平台整体的收益情况以及竞价广告的ecpm都有明显的提升，竞价广告的ecpm提升了4.2％，消耗提升了7.1％。

针对上文描述的数据处理方法，本申请还提供了对应的数据处理装置，以使上述数据处理方法在实际中得以应用及实现。

参见图11，图11是与上文图2所示的数据处理方法对应的一种数据处理装置1100的结构示意图。如图11所示，该数据处理装置1100包括：

状态获取模块1101，用于针对目标曝光请求对应的各候选广告，获取各所述候选广告各自对应的广告状态，所述广告状态用于表征其对应的候选广告竞争所述目标曝光请求时的竞争条件；并且获取响应所述目标曝光请求的广告投放平台的整体状态，所述整体状态用于表征所述广告投放平台当前的曝光任务完成情况；

分类模块1102，用于针对每个所述候选广告，通过打分模型中的分类网络确定所述候选广告属于各参考广告类型的概率；

打分模块1103，用于针对每个所述候选广告，基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分；所述打分模型包括多个分别对应于各所述参考广告类型的所述打分网络；

广告选择模块1104，用于根据各所述候选广告各自对于所述目标曝光请求的竞争得分，确定通过所述目标曝光请求曝光的目标广告。

可选的，在图11所示的数据处理装置的基础上，所述打分模块1103具体用于：

根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告的输入特征；

基于所述候选广告属于各参考广告类型的概率，对所述候选广告的输入特征进行加权处理，得到所述候选广告在每种参考广告类型下的输入特征；

通过所述打分模型中的每个所述打分网络，根据所述候选广告在所述打分网络对应的参考广告类型下的输入特征，为所述候选广告配置竞争得分；

根据所述打分模型中各个所述打分网络各自为所述候选广告配置的竞争得分，确定所述候选广告对于所述目标曝光请求的竞争得分。

通过所述打分模型中的每个所述打分网络，根据所述候选广告的输入特征，为所述候选广告配置竞争得分；

基于所述候选广告属于各参考广告类型的概率，对所述打分模型中各个所述打分网络各自为所述候选广告配置的竞争得分进行加权求和处理，得到所述候选广告对于所述目标曝光请求的竞争得分。

基于所述候选广告属于各参考广告类型的概率，确定所述打分模型中最适合处理所述候选广告的打分网络，作为目标打分网络；

通过所述目标打分网络，根据所述候选广告的输入特征，确定所述候选广告对于所述目标曝光请求的竞争得分。

可选的，在图11所示的数据处理装置的基础上，所述分类模块1102具体用于通过以下任一种方式确定所述候选广告属于各参考广告类型的概率：

通过所述分类网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告属于各参考广告类型的概率；

通过所述分类网络，根据所述候选广告对应的广告状态，确定所述候选广告属于各参考广告类型的概率；

通过所述分类网络，根据所述候选广告对应的广告特征，确定所述候选广告属于各参考广告类型的概率。

可选的，在图11所示的数据处理装置的基础上，所述候选广告包括合约广告和竞价广告中的至少一种；

所述合约广告对应的广告状态包括所述合约广告竞争所述目标曝光请求时的竞争环境，其是根据各所述候选广告中除所述合约广告外的其它广告的广告特征确定的；所述合约广告对应的广告状态还包括以下至少一种信息：所述合约广告的播放量、缺量、预定播放量、售价、播控参数和定向条件；

所述竞价广告对应的广告状态包括所述竞价广告竞争所述目标曝光请求时的竞争环境，其是根据各所述候选广告中除所述竞价广告外的其它广告的广告特征确定的。

可选的，在图11所示的数据处理装置的基础上，参见图12，图12为本申请实施例提供的另一种数据处理装置1200的结构示意图。如图12所示，该装置还包括模型训练模块1201；所述模型训练模块1201包括：

平台模拟子模块1202，用于基于所述广告投放平台的历史数据，模拟虚拟广告投放平台；

训练数据确定子模块1203，用于针对所述虚拟广告投放平台上的训练曝光请求，确定所述训练曝光请求对应的各训练候选广告；

模型训练子模块1204，用于通过待训练的初始打分模型，根据各所述训练候选广告各自对应的广告状态和所述虚拟广告投放平台的整体状态，确定各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分；所述初始打分模型包括初始分类网络、以及多个分别对应于各参考广告类型的初始打分网络；

模拟曝光子模块1205，用于根据各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，确定通过所述训练曝光请求曝光的训练目标广告，并模拟所述虚拟广告投放平台曝光所述训练目标广告会产生的训练奖励；

评判子模块1206，用于通过评判模型，根据曝光所述训练目标广告后所述虚拟广告投放平台的整体状态和所述训练奖励，确定所述初始打分模型本轮打分操作对应的反馈信息；所述反馈信息在所述初始打分模型下一轮对所述训练曝光请求对应的各训练候选广告打分时被作为参考信息输入所述初始打分模型，以辅助调整所述初始打分模型的模型参数；

模型获取子模块1207，用于当确认满足训练结束条件时，确定所述初始打分模型作为所述打分模型。

可选的，在图12所示的数据处理装置的基础上，所述模型训练子模块1204具体用于：

针对每个所述训练候选广告，通过所述初始打分模型中的所述初始分类网络，确定所述训练候选广告属于各参考广告类型的概率；

根据所述训练候选广告属于各参考广告类型的概率，确定所述训练候选广告所属的目标参考广告类型；

通过所述初始打分模型中所述目标参考广告类型对应的初始打分网络，根据所述训练候选广告对应的广告状态、所述虚拟广告投放平台的整体状态和参考反馈信息，确定所述训练候选广告对于所述训练曝光请求的训练竞争得分；所述参考反馈信息是所述评判模型对于所述初始打分网络上一轮对所述训练曝光请求对应的各训练候选广告的打分操作给出的反馈信息。

针对每个所述训练候选广告，根据所述训练候选广告对应的广告状态、所述虚拟广告投放平台的整体状态和参考反馈信息，确定所述训练候选广告的输入特征；所述参考反馈信息是所述评判模型对于所述初始打分网络上一轮对所述训练曝光请求对应的各训练候选广告的打分操作给出的反馈信息；

通过所述初始打分模型中的所述初始分类网络，确定所述训练候选广告属于各参考广告类型的概率；

基于所述训练候选广告属于各参考广告类型的概率，对所述训练候选广告的输入特征进行加权处理，得到所述训练候选广告在每种参考广告类型下的输入特征；

通过所述初始打分模型中的各所述初始打分网络，根据所述训练候选广告在各参考广告类型下的输入特征，确定所述训练候选广告对于所述训练曝光请求的训练竞争得分。

可选的，在图12所示的数据处理装置的基础上，所述平台模拟子模块1202具体用于：

获取所述广告投放平台的历史曝光请求数据、历史曝光日志数据、历史库存数据、以及历史投放广告的播控参数；

基于所述历史曝光请求数据以及所述历史曝光日志数据，构建所述训练曝光请求，并确定所述训练曝光请求对应的各训练候选广告；

基于所述历史库存数据以及所述历史投放广告的播控参数，确定所述训练候选广告对应的广告状态；

基于所述历史库存数据、所述历史曝光日志数据、以及所述历史投放广告的播控参数，确定所述虚拟广告投放平台的整体状态。

可选的，在图12所示的数据处理装置的基础上，所述模拟曝光子模块1205具体用于：

获取各所述训练候选广告各自对应的广告竞争得分；所述广告竞争得分是根据其对应的训练候选广告的广告特征确定的；

根据各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分、以及各所述训练候选广告各自对应的广告竞争得分，确定所述训练目标广告。

上述数据处理装置利用包括多个打分网络的打分模型，对目标曝光请求对应的各候选广告进行打分，并且打分模型中的多个打分网络分别适用于为不同参考广告类型的广告进行打分。由于打分模型中不同的打分网络适用于为不同参考广告类型的广告打分，因此，训练该打分模型时，对于每个打分网络可以仅利用其适用的参考广告类型的广告对其进行训练，如此，每个打分网络的动作空间都不至于过大，在较小的动作空间中打分网络更易收敛，即更容易使得所训练的打分网络具备更好的性能，相应地，包括各个打分网络的打分模型也可具备较高的性能，能够为各候选广告准确地确定其对应的得分。基于该打分模型为广告配置的得分选择广告投放平台最终曝光的广告，也有助于使广告投放平台获得较高的收益。

本申请实施例还提供了一种用于广告曝光的计算机设备，该计算机设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图13，图13是本申请实施例提供的终端设备的结构示意图。如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales，POS)、车载电脑等任意终端设备，以终端为计算机为例：

图13示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图13，计算机包括：射频(Radio Frequency，RF)电路1310、存储器1320、输入单元1330(其中包括触控面板1331和其他输入设备1332)、显示单元1340(其中包括显示面板1341)、传感器1350、音频电路1360(其可以连接扬声器1361和传声器1362)、无线保真(wirelessfidelity，WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1380是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

在本申请实施例中，该终端所包括的处理器1380还具有以下功能：

可选的，所述处理器1380还用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

参见图14，图14为本申请实施例提供的一种服务器1400的结构示意图。该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以用于执行本申请实施例提供的数据处理方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种数据处理方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述候选广告属于各参考广告类型的概率，通过所述打分模型中的打分网络，根据所述候选广告对应的广告状态和所述整体状态，确定所述候选广告对于所述目标曝光请求的竞争得分，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过打分模型中的分类网络确定所述候选广告属于各参考广告类型的概率，包括以下任一种：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述候选广告包括合约广告和竞价广告中的至少一种；

7.根据权利要求1所述的方法，其特征在于，所述打分模型是通过以下方式训练得到的：

基于所述广告投放平台的历史数据，模拟虚拟广告投放平台；

针对所述虚拟广告投放平台上的训练曝光请求，确定所述训练曝光请求对应的各训练候选广告；

通过待训练的初始打分模型，根据各所述训练候选广告各自对应的广告状态和所述虚拟广告投放平台的整体状态，确定各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分；所述初始打分模型包括初始分类网络、以及多个分别对应于各参考广告类型的初始打分网络；

根据各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，确定通过所述训练曝光请求曝光的训练目标广告，并模拟所述虚拟广告投放平台曝光所述训练目标广告会产生的训练奖励；

通过评判模型，根据曝光所述训练目标广告后所述虚拟广告投放平台的整体状态和所述训练奖励，确定所述初始打分模型本轮打分操作对应的反馈信息；所述反馈信息在所述初始打分模型下一轮对所述训练曝光请求对应的各训练候选广告打分时被作为参考信息输入所述初始打分模型，以辅助调整所述初始打分模型的模型参数；

当确认满足训练结束条件时，确定所述初始打分模型作为所述打分模型。

8.根据权利要求7所述的方法，其特征在于，所述通过待训练的初始打分模型，根据各所述训练候选广告各自对应的广告状态和所述虚拟广告投放平台的整体状态，确定各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，包括：

9.根据权利要求7所述的方法，其特征在于，所述通过待训练的初始打分模型，根据各所述训练候选广告各自对应的广告状态和所述虚拟广告投放平台的整体状态，确定各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，包括：

10.根据权利要求7所述的方法，其特征在于，所述基于所述广告投放平台的历史数据，模拟虚拟广告投放平台，包括：

11.根据权利要求7所述的方法，其特征在于，所述根据各所述训练候选广告各自对于所述训练曝光请求的训练竞争得分，确定通过所述训练曝光请求曝光的训练目标广告，包括：

12.一种数据处理装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至11中任一项所述的数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至11中任一项所述的数据处理方法。

15.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至11中任一项所述的数据处理方法。