CN113112311B

CN113112311B - 训练因果推断模型的方法、信息提示方法以装置

Info

Publication number: CN113112311B
Application number: CN202110519634.8A
Authority: CN
Inventors: 钱丽华; 熊健; 王浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2023-07-25
Anticipated expiration: 2041-05-12
Also published as: CN113112311A

Abstract

本公开提供了一种训练因果推断模型的方法、信息提示方法以装置，涉及计算机技术领域，尤其涉及人工智能、大数据、深度学习技术领域。具体实现方案为：利用第一样本数据集来训练波动预测模型和操作预测模型；利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值；利用经训练的操作预测模型，基于第二样本数据集确定多个操作预测值；以及利用第二样本数据集、多个数据波动预测值和多个操作预测值，训练因果推断模型。

Description

训练因果推断模型的方法、信息提示方法以装置

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、大数据、深度学习技术领域。

背景技术

在互联网广告的投放过程中，广告的展现量、点击量、消费量等数据经常会出现波动，而这些波动对于广告投放方(以下称为用户)是非常敏感的。通常这些数据波动是由于用户在管理***中所做的操作造成的。在数据波动前用户可能进行了多种类型的操作，而这些操作可能并不全是导致数据波动的原因，因此用户难以确定哪些操作是导致数据波动的主因。

发明内容

本公开提供了一种训练因果推断模型的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种训练因果推断模型的方法，包括：利用第一样本数据集来训练波动预测模型和操作预测模型；利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值；利用经训练的操作预测模型，基于所述第二样本数据集确定多个操作预测值；以及利用所述第二样本数据集、所述多个数据波动预测值和所述多个操作预测值，训练因果推断模型。

根据本公开的另一方面，提供了一种信息提示方法，包括：获取目标数据波动值，以及与所述目标数据波动值对应的目标用户特征和目标操作值，其中，所述目标操作值与至少一个目标操作对应；将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第一因果推断模型，得到第一因果参数预测值；将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第二因果推断模型，得到第二因果参数预测值；根据所述目标操作值、所述第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值；以及在所述目标因果参数预测值大于因果参数阈值的情况下，生成针对所述至少一个目标操作的提示信息，其中，所述第一因果推断模型和所述第二因果推断模型是基于本公开实施例的训练因果推断模型的方法训练的。

本公开的另一个方面提供了一种计算设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，计算机程序，所述计算机程序在被处理器执行时实现本公开实施例所示的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的训练因果推断模型的方法的流程图；

图2示意性示出了根据本公开另一实施例的训练波动预测模型的方法的流程图；

图3示意性示出了根据本公开另一实施例的训练操作预测模型的方法的流程图；

图4示意性示出了根据本公开另一实施例的训练因果推断模型的方法的流程图；

图5示意性示出了根据本公开实施例的信息提示方法的流程图；

图6A示意性示出了根据本公开另一实施例的信息提示方法第一阶段的示意图；

图6B示意性示出了根据本公开另一实施例的信息提示方法第二阶段的示意图；

图7示意性示出了根据本公开实施例的训练模型的装置的框图；

图8示意性示出了根据本公开实施例的信息提示装置的框图；

图9示意性示出了根据本公开实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下将结合图1，对训练因果推断模型的方法进行详细描述。

图1示意性示出了根据本公开实施例的训练因果推断模型的方法的流程图。

如图1所示，该方法100包括以下操作S110～S150。

在操作S110，利用第一样本数据集来训练波动预测模型。

根据本公开的实施例，第一样本数据集可以包括多个样本数据，每个样本数据例如可以包括用户特征、数据波动值和操作值。

其中，用户特征用于表示用户的特征数据。用户特征例如可以包括基础属性、行业属性、操作频率、计划预算和生效物料规模中的至少一种。其中，用户基础属性例如可以包括最近一天展现量、最近一天消费量、最近一天点击量等特征。行业属性例如可以包括各级行业id等特征。用户操作频率例如可以包括用户近七天中操作的平均次数、用户近七天中有操作的天数等特征。计划预算例如可以包括用户计划的预算、是否为特定投放方式等特征。生效物料规模例如可以包括了生效单元量、生效词量、生效创意量等特征。

数据波动值可以用于表示特定数据在特定时段内的波动大小。示例性地，本实施例中，特定数据例如可以包括广告的展现量、点击量、消费量中的一种或多种，特定时段例如可以为最近一天、最近一周等。

操作值可以用于以数值的形式表示一个操作集合，该操作集合可以包括同属一个操作类型的一个或多个的操作。示例性地，本实施例中，操作类型例如可以包括调整账户预算、调整在线时长、调整投放地域等等。

根据本公开的实施例，可以按照以下公式计算操作值：

其中，vbid表示操作值。示例性地，本实施例中，若vbid＞0，则表示正向操作，反之则表示负向操作。bid表示操作集中每个操作进行调整后参数的变化量，为该操作将参数调整为bid的操作时刻，/>为该参数从bid被调整为其他值的时刻，表示参数被该操作调整为bid后保持为bid的持续时长。

根据本公开的实施例，波动预测模型可以用于根据用户特征，预测得到相应的波动预测值，其中，波动预测值可以用于表示具有该用户特征的用户可能引起的数据波动量。示例性地，本实施例中，可以以每个第一样本数据中的数据波动值作为标签，以每个第一样本数据中的用户特征作为输入数据，训练波动预测模型。

然后，在操作S120，利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值。

根据本公开的实施例，可以将第一样本数据集中的每个第一样本中的用户特征输入经训练的波动预测模型，以得到多个数据波动预测值。

在操作S130，利用第一样本数据集来训练操作预测模型。

根据本公开的实施例，操作预测模型可以用于根据用户特征，预测得到相应的操作预测值，其中，操作预测值可以用于表示具有该用户特征的用户可能执行的操作。示例性地，本实施例中，可以以每个第一样本数据中的操作值作为标签，以每个第一样本数据中的用户特征作为输入数据，训练操作预测模型。

在操作S140，利用经训练的操作预测模型，基于第二样本数据集确定多个操作预测值。

根据本公开的实施例，可以将第一样本数据集中的每个第一样本中的用户特征输入经训练的操作预测模型，以得到多个操作预测值。

需要说明的是，本公开对操作S110～S120和S130～S140之间的执行顺序不作具体限定，操作S110～S120和S130～S140之间可以以任意顺序执行。例如，可以先执行操作S110～S120，然后再执行操作S130～S140，也可以先执行操作S130～S140，然后再执行操作S110～S120，还可以同时执行操作S110～S120和S130～S140。

在操作S150，利用第二样本数据集、多个数据波动预测值和多个操作预测值，训练因果推断模型。

根据本公开的实施例，第二样本数据集可以包括多个样本数据，每个样本数据例如可以包括用户特征、数据波动值和操作值。需要说明的是，第二样本数据集中的样本数据可以与第一样本数据集中的样本数据不同。因果推断模型可以用于根据用户特征，预测得到相应的因果参数预测值。其中，因果参数预测值可以用于确定特定操作与数据波动之间的相关程度。

示例性地，本实施例中，波动预测模型和操作预测模型例如可以分别包括梯度提升树(GBDT)模型。因果推断模型例如可以包括随机森林模型。通过使用GBDT模型对操作值建模，使得GBDT模型可以拟合连续的T值，因此本方法不仅可以应用于离散T值的场景，对连续值的T也有着良好的支持。

根据本公开的实施例，经训练的因果推断模型可以用于对数据的波动进行诊断，以确定影响数据波动的操作。

另外，相关技术采用人工设立规则库，基于规则库来确定影响数据波动的操作，该过程较为繁琐。相对于人工设立规则库的方法，根据本公开的实施例的训练因果推断模型的方法较为简单，无需丰富的先验知识。

以下将结合图2，对训练波动预测模型的方法进行详细描述。

图2示意性示出了根据本公开另一实施例的训练波动预测模型的方法的流程图。

如图2所示，训练波动预测模型的方法210可以包括以下操作S211～S215。

在操作S211，将每个第一样本数据中的用户特征输入波动预测模型，以得到与每个第一样本数据对应的波动预测值。

在操作S212，计算第一目标函数。

根据本公开的实施例，可以根据以下公式计算第一目标函数：

其中，Obj₁为第一目标函数，Yi是第一样本数据集中第i个第一样本数据中的数据波动值，是与第i个第一样本数据对应的波动预测值，N是第一样本数据集中第一样本数据的总数量。

在操作S213，判断第一目标函数是否收敛。在第一目标函数没有收敛的情况下，执行操作S214，在第一目标函数收敛的情况下，执行操作S215。

根据本公开的实施例，可以在第一目标函数的值达到最小的情况下，确定第一目标函数收敛。示例性地，本实施例中，若第一目标函数的值在最近k₁轮的训练中的改变量小于第一阈值，则可以确定第一目标函数收敛。其中，k₁为正整数。k₁和第一阈值的取值可以分别根据实际需要进行设置，本公开对k₁和第一阈值的取值不作具体限定。

在操作S214，根据第一目标函数的值调整波动预测模型的参数，并返回操作S211

在操作S215，结束针对波动预测模型的训练。

以下将结合图3，对训练操作预测模型的方法进行详细描述。

图3示意性示出了根据本公开另一实施例的训练操作预测模型的方法的流程图。

如图3所示，训练操作预测模型的方法320可以包括以下操作S321～S325。

在操作S321，将每个第一样本数据中的用户特征输入操作预测模型，以得到与每个第一样本数据对应的操作预测值。

在操作S322，计算第二目标函数。

根据本公开的实施例，可以根据以下公式计算第二目标函数：

其中，Obj₂为第二目标函数，Ti是第一样本数据集中第i个第一样本数据中的操作值，是与第i个第一样本数据对应的操作预测值，N是第一样本数据集中第一样本数据的总数量。

在操作S323，判断第二目标函数是否收敛。在第二目标函数没有收敛的情况下，执行操作S324，在第二目标函数收敛的情况下，执行操作S325。

根据本公开的实施例，可以在第二目标函数的值达到最小的情况下，确定第二目标函数收敛。示例性地，本实施例中，若第二目标函数的值在最近k₂轮的训练中的改变量小于第二阈值，则可以确定第二目标函数收敛。其中，k₂为正整数。k₂和第二阈值的取值可以分别根据实际需要进行设置，本公开对k₂和第二阈值的取值不作具体限定。

在操作S324，根据第二目标函数的值调整操作预测模型的参数，并返回操作S321。

在操作S325，结束针对操作预测模型的训练。

以下将结合图4，对训练因果推断模型的方法进行详细描述。

图4示意性示出了根据本公开另一实施例的训练因果推断模型的方法的流程图。

如图4所示，该训练因果推断模型的方法450可以包括以下操作S451～S458。

可以针对第二样本数据集中的每个第二样本数据，执行以下操作S451～S453。

在操作S451，根据第二样本数据中的数据波动值和基于第二样本数据得到的数据波动预测值，确定波动值残差。

根据本公开的实施例，可以根据以下公式计算波动值残差：

其中，Y_i是点击量波动值的真实值，是波动预测模型得到的点击量波动值的预测值。

在操作S452，根据第二样本数据中的操作值和基于第二样本数据得到的操作预测值，确定操作值残差。

根据本公开的实施例，可以根据以下公式计算操作值残差：

其中，T_i是操作值的真实值，是GBDT模型620得到的操作值的预测值，/>是点击量波动值的残差，/>是操作值的残差。

需要说明的是，本公开对操作S451和S452之间的执行顺序不作具体限定，操作S451和S452之间可以以任意顺序执行。例如，可以先执行操作S451，然后再执行操作S452，也可以先执行操作S452，然后再执行操作S451，还可以同时执行操作S451和S452。

在操作S453，根据波动值残差和操作值残差，确定因果参数样本。

根据本公开的实施例，因果参数是关于波动值残差和操作值残差的参数。因果参数样本为用于作为训练因果推断模型的样本的因果参数。示例性地，本实施中，可用将波动值残差与操作值残差的比值作为因果参数。

即因果参数样本等于

然后，以因果参数样本作为标签，以第二样本数据中的用户特征作为输入数据，训练因果推断模型。即以下操作S454～S458。

在操作S454，将每个第二样本数据中的用户特征输入因果推断模型，以得到与每个第二样本数据对应的因果参数预测值。

在操作S455，计算第三目标函数。

根据本公开的实施例，可以根据以下公式计算第三目标函数：

其中，Obj₃为第三目标函数，是于第二样本数据集中第i个第二样本数据对应的操作值残差，/>是与第i个第二样本数据对应的波动值残差，θ(x_i)为与第i个第二样本数据对应的因果参数预测值，M是第二样本数据集中第二样本数据的总数量。

在操作S456，判断第三目标函数是否收敛。在第三目标函数没有收敛的情况下，执行操作S457。在第三目标函数收敛的情况下，执行操作S458。

根据本公开的实施例，可以在第三目标函数的值达到最小的情况下，确定第三目标函数收敛。示例性地，本实施例中，若第三目标函数的值在最近k₃轮的训练中的改变量小于第三阈值，则可以确定第三目标函数收敛。其中，k₃为正整数。k₃和第三阈值的取值可以分别根据实际需要进行设置，本公开对k₃和第三阈值的取值不作具体限定。

在操作S457，根据第三目标函数的值调整因果推断模型的参数，并返回操作S454。

在操作S458，结束针对操作预测模型的训练。

根据本公开的实施例，通过使用操作预测值和波动预测值的残差来训练因果推断模型，而不是直接使用操作预测值和波动预测值来建模，一方面至少部分避免了过拟合现象，另一方面减小了直接拟合所带来得偏差。

以下将结合图5，对信息提示方法进行详细描述。

图5示意性示出了根据本公开实施例的信息提示方法的流程图。

如图5所示，该信息提示方法500可以包括以下操作S510～S550。

在操作S510，获取目标数据波动值，以及与目标数据波动值对应的目标用户特征和目标操作值。

其中，目标操作值与至少一个目标操作对应。

根据本公开的实施例，可以预先对目标数据进行监控，在监控到目标数据在预设时间段内的波动量大于预设波动量的情况下，确定目标数据的波动量，作为目标数据波动值。其中，预设时间段和预设波动量可以根据实际需要进行设置。示例性地，预设时间段例如可以为最近一天、最近一周等，预设波动量例如可以为波动前目标数据数值的20％。

例如，可以获取当前的目标数据作为原始数据，并获取预设时间段之前的目标数据作为对比数据。然后计算原始数据与对比数据的差值。在差值大于预设波动阈值的情况下，确定差值作为目标数据波动值。

根据本公开的实施例，可以确定与目标数据波动值相关的至少一个目标操作，其中，目标操作例如可以包括调整参数的操作。然后根据至少一个目标操作中每个目标操作进行调整后参数的变化量和该调整的持续时长，确定目标操作值。其中，操作值用于以数值的形式表示一个或多个的操作。例如，目标操作值可以用于以数值的形式表示至少一个目标操作。

在操作S520，将目标用户特征、目标数据波动值和目标操作值输入经训练的第一因果推断模型，得到第一因果参数预测值。

在操作S530，将目标用户特征、目标数据波动值和目标操作值输入经训练的第二因果推断模型，得到第二因果参数预测值。

需要说明的是，本公开对操作S520和S530之间的执行顺序不作具体限定，操作S520和S530之间可以以任意顺序执行。例如，可以先执行操作S520，然后再执行操作S530，也可以先执行操作S530，然后再执行操作S520，还可以同时执行操作S520和S530。

根据本公开的实施例，第一因果推断模型和第二因果推断模型是基于本公开实施例所示的训练因果推断模型的方法训练的。其中，训练第一因果推断模型时使用的第一样本数据集与训练第二因果推断模型时使用的第二样本数据集相同，训练第一因果推断模型时使用的第二样本数据集与训练第二因果推断模型时使用的第一样本数据集相同。通过将数据集划分为第一样本数据集合第二样本数据集两部分，并对该两部分进行交叉拟合，分别训练第一和第二因果推断模型，至少部分避免了过拟合现象，减小了拟合偏差。

在操作S540，根据目标操作值、第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值。

根据本公开的实施例，可以根据以下公式计算目标因果参数预测值：

其中，ATT为目标因果参数预测值，θ₁(x)为第一因果参数预测值，θ₂(x)为第二因果参数预测值，T为目标操作值。

在操作S550，在目标因果参数预测值大于因果参数阈值的情况下，生成针对至少一个目标操作的提示信息。

根据本公开的实施例，若目标因果参数预测值大于因果参数阈值，则表示与该目标因果参数预测值对应的至少一个目标操作是造成数据波动的主要原因，因此可以生成相应的提示信息，以针对该至少一个目标操作向用户进行提示。

根据本公开的实施例，通过因果推断模型对不同操作的操作值进行预测，可以确定其中影响数据波动的操作。在确定影响数据波动的操作的基础上，对这些影响数据波动操作进行提示，可以使用户知晓数据波动的原因。

下面结合具体实施例对信息提示方法的方法做进一步说明。本领域技术人员可以理解，以下示例实施例仅用于理解本公开，本公开并不局限于此。

根据本公开的实施例，上述信息提示方法的方法可以应用于互联网广告领域。示例性地，本实施例中，波动实体例如包括广告的投放包和广告的计划两种类型，波动的维度例如可以包括展现量、点击量、消费量三种类型。下面以对计划的展现量诊断的应用场景为例进行说明。如果某个计划的展现量日环比、周环比、日环比中的任一维度出现了20％以上的上升或下降，且用户在对比日到当前日期间内在管理***中对相应计划或投放包做过操作，则可以确定用户所做的操作可能引起了这个计划的展现量波动，需要对其波动的原因进行进一步分析。

首先需要提取出与该计划相关联的操作，并进行筛选，这一过程也称为操作召回。在原始提取的操作中，可能会出现一个类型的操作在不同的方向和不同的数值上进行了多次，在这种情况下，可以对该类型的操作进行聚合，从而用操作值来表示这些操作。以针对单元出价的操作为例，假设用户的对单元出价进行了多次更改的操作，则可以按照以下公式对单元出价维度的操作进行聚合：

其中，vbid表示聚合后的虚拟操作值(以下称为操作值)，若vbid＞0，则为正向操作，反之则为负向操作。bid表示当前时段的单元出价，表示单元出价为bid值的时长，/>为修改单元出价为bid的操作时刻，/>为将单元出价从bid修改为其他值的时刻。

将操作聚合以得到操作值后，可以判断操作值符号和波动方向的关系，如果两者方向一致，例如vbid＞0且波动也是正向波动，则保留这个操作值，如不一致则舍弃。

此外，针对每一个操作类型，除了定义操作的正负向计算规则外，还可用自定义校验规则。以预算下调的操作为例，可以预先设置撞线阈值，在操作满足正负向计算规则的情况下，判断操作将预算下调后，预算的数值是否超过撞线阈值，若预算的数值超过撞线阈值，则表明预算下调的操作是有效的操作，保留该操作，若没有超过，则舍弃。

经过操作召回阶段后，可以得到可能造成波动的候选操作集合。后续可以确定候选操作集合中各操作的因果参数，按照因果参数的值对各操作进行排序。

根据本公开的实施例，波动的维度例如可以包括展现量、点击量、消费量三种，可能引起数据波动的操作类型例如可以包括：新增计划、暂停计划、提高预算、降低预算等等。针对不同的波动维度和不同类型的操作，可以建立不同的模型。示例性地，以下以确定提高预算操作对点击量的因果效应为例，具体说明因果参数的确定过程。提高预算操作为正向操作，对应的负向操作为降低账户预算。示例性地，本实施例中，数据集例如可以包括多组数据，每组数据包括相互对应的用户特征X、操作值T和波动值Y。其中，用户特征X例如可以包括用户基础属性、行业属性、操作频率、计划预算、生效物料规模五个维度的特征数据。操作值T的值例如可以为召回阶段得到的操作值的绝对值。波动值Y例如可以包括是展现量、点击量、消费量的波动幅度，可以用如下等式表示：

Y＝Cur_pv/clk/pay-Cmp_pv/clk/pay

其中Cur_pv/clk/pay是指展现量、点击量、消费量的当前日值，Cmp_pv/clk/pay是指展现量、点击量、消费量的对比日的值。

图6A示意性示出了根据本公开另一实施例的信息提示方法第一阶段的示意图。如图6A所示，可以预先设置两个数据集，分别是样本数据集A 601和样本数据集B 602。

可以基于样本数据集A 601训练波动预测模型(以下称为Y模型)610和操作预测模型(以下称为T模型)620。

例如，可以将样本数据集A 601中的点击量波动Y作为标签，用户特征X作为输入特征，使用GBDT模型对点击量波动Y进行拟合，以得到Y模型610。其中拟合的目标函数如下：

其中Yi是点击量波动值的真实值，是由GBDT模型620得到的点击量波动值的预测值，N是样本数据集A 601中样本的总数量。

可以将操作值，即vbid作为标签，用户特征X作为输入特征，使用GBDT模型620对操作值T进行拟合，以得到X模型。其中拟合的目标函数如下：

其中Ti是操作值的真实值，是GBDT模型620得到的操作值的预测值，N是样本的总数量。

然后，利用经训练的Y模型610和T模型620对样本数据集B 602中的每个样本进行预测，设Y模型610将用户特征X_i作为输入得到的Y预测值603为T模型620将用户特征X_i作为输入得到的Y预测值604为/>其中i为样本数据集B 602中样本的序号。接下来分别计算上述得到的Y预测值603、T预测值604与对应的真实值之间的差值，得到Y和T的残差605、606，可以表示为：

其中，Y_i是点击量波动值的真实值，是Y模型610得到的点击量波动值的预测值，T_i是操作值的真实值，/>是T模型620得到的操作值的预测值，/>是点击量波动值的残差，/>是操作值的残差。得到Y和T的残差之后，可以对θ(X)进行建模。

根据本公开的实施例，有以下等式成立：

其中ε是误差项。通过上式若想得到e(x)的值，可以拟合一个关于/>的参数模型即可，参数的值即是θ(x)的值。基于此，优化目标可以设置为：

但大部分参数模型的非线性表达能力较弱，并且容易过拟合。因此，本实施例中可以选用随机森林对θ(x)进行拟合。基于此，上述的目标函数可以转化为：

根据上述目标函数，可以将作为标签，使用用户特征x作为特征输入，使用随机森林模型拟合标签值，以得到相应的e(x)模型(即因果推断模型)630。在得到因果推断模型后，可以使用该因果推断模型630对实际需要预测的输入x607进行预测即可得到θ(x_i)的预测值608。

图6B示意性示出了根据本公开另一实施例的信息提示方法第二阶段的示意图。

如图6B所示，设上述操作得到的e(x)模型631为M₁，为了进一步防止过拟合，可以调换样本数据集A 601和样本数据集B 602，即使用样本数据集B 602拟合Y模型610和T模型620，使用样本数据集A 601拟合θ(x)模型632，设此时的θ(x)模型632为M₂。

在得到模型M₁ 631和M₂ 632之后，可以分别使用M₁ 631和M₂ 632对实际需要预测的输入x 607进行预测即可得到相应的预测值608、609。可以用以下等式计算相应操作T的因果参数(ATT)6010：

其中，θ₁(x)为模型M₁631得到的θ(x)预测值608，θ₂(x)为模型M₂632得到的θ(x)预测值609

针对候选操作集合中的每个操作，可以分别根据上述方法进行因果参数的计算，再根据因果参数的值进行排序，输出因果参数较高的操作。

以下将结合图7，对训练模型的装置进行详细描述。

图7示意性示出了根据本公开实施例的训练模型的装置的框图。

如图7所示，训练模型的装置700可以包括第一训练模块710、波动预测模块720、操作预测模块730和第二训练模块740。

第一训练模块710，可以用于利用第一样本数据集来训练波动预测模型和操作预测模型。

波动预测模块720，可以用于利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值。

操作预测模块730，可以用于利用经训练的操作预测模型，基于第二样本数据集确定多个操作预测值。

第二训练模块740，可以用于利用第二样本数据集、多个数据波动预测值和多个操作预测值，训练因果推断模型。

以下将结合图8，对信息提示装置进行详细描述。

图8示意性示出了根据本公开实施例的信息提示装置的框图。

如图8所示，信息提示装置800可以包括获取模块810、第一因果预测模块820、第二因果预测模块830、目标因果参数确定模块840和提示信息生成模块850。

获取模块810，可以用于获取目标数据波动值，以及与目标数据波动值对应的目标用户特征和目标操作值，其中，目标操作值与至少一个目标操作对应。

第一因果预测模块820，可以用于将目标用户特征、目标数据波动值和目标操作值输入经训练的第一因果推断模型，得到第一因果参数预测值。

第二因果预测模块830，可以用于将目标用户特征、目标数据波动值和目标操作值输入经训练的第二因果推断模型，得到第二因果参数预测值。

目标因果参数确定模块840，可以用于根据目标操作值、第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值。

提示信息生成模块850，可以用于在目标因果参数预测值大于因果参数阈值的情况下，生成针对至少一个目标操作的提示信息，其中，第一因果推断模型和第二因果推断模型是基于本公开实施例的训练因果推断模型的方法训练的。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如训练模型的方法和/或信息提示方法。例如，在一些实施例中，训练模型的方法信息提示方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的训练模型的方法信息提示方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行训练模型的方法信息提示方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括用户端和服务器。用户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有用户端-服务器关系的计算机程序来产生用户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练因果推断模型的方法，包括：

利用第一样本数据集来训练波动预测模型和操作预测模型；

利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值；

利用经训练的操作预测模型，基于所述第二样本数据集确定多个操作预测值；以及

利用所述第二样本数据集、所述多个数据波动预测值和所述多个操作预测值，训练因果推断模型；

其中，所述第一样本数据集包括多个第一样本数据，所述多个第一样本数据中的每个第一样本数据包括用户特征、数据波动值和操作值，所述用户特征包括基础属性、行业属性、操作频率、计划预算和生效物料规模中的至少一种；

其中，所述利用第一样本数据集来训练波动预测模型和操作预测模型包括：以所述每个第一样本数据中的数据波动值作为标签，以所述每个第一样本数据中的用户特征作为输入数据，训练所述波动预测模型；以及以所述每个第一样本数据中的操作值作为标签，以所述每个第一样本数据中的用户特征作为输入数据，训练操作预测模型；

其中，所述利用所述第二样本数据集、所述多个数据波动预测值和所述多个操作预测值，训练因果推断模型，包括：针对所述第二样本数据集中的每个第二样本数据，根据所述第二样本数据中的数据波动值和基于所述第二样本数据得到的数据波动预测值，确定波动值残差；根据所述第二样本数据中的操作值和基于所述第二样本数据得到的操作预测值，确定操作值残差；根据所述波动值残差和所述操作值残差，确定因果参数样本；以及以所述因果参数样本作为标签，以所述第二样本数据中的用户特征作为输入数据，训练所述因果推断模型；

其中，所述以所述因果参数样本作为标签，以所述第二样本数据中的用户特征作为输入数据，训练所述因果推断模型包括：

将所述每个第二样本数据中的用户特征输入因果推断模型，以得到与每个第二样本数据对应的因果参数预测值；

根据以下公式计算第三目标函数：

其中，所述/>为所述第三目标函数，所述/>是于所述第二样本数据集中第i个第二样本数据对应的操作值残差，所述/>是与所述第i个第二样本数据对应的波动值残差，所述/>为与所述第i个第二样本数据对应的因果参数预测值，M是第二样本数据集中第二样本数据的总数量；以及

在所述第三目标函数没有收敛的情况下，根据所述第三目标函数的值调整所述因果推断模型的参数，并返回将所述每个第二样本数据中的用户特征输入因果推断模型的步骤。

2.根据权利要求1所述的方法，其中，所述训练波动预测模型包括：

将所述每个第一样本数据中的用户特征输入波动预测模型，以得到与每个第一样本数据对应的波动预测值；

根据以下公式计算第一目标函数：

其中，所述/>为所述第一目标函数，所述/>是第一样本数据集中第i个第一样本数据中的数据波动值，所述/>是与所述第i个第一样本数据对应的波动预测值，所述N是第一样本数据集中第一样本数据的总数量；以及

在所述第一目标函数没有收敛的情况下，根据所述第一目标函数的值调整所述波动预测模型的参数，并返回将所述每个第一样本数据中的用户特征输入所述波动预测模型的步骤。

3.根据权利要求1所述的方法，其中，所述训练操作预测模型包括：

将所述每个第一样本数据中的用户特征输入操作预测模型，以得到与每个第一样本数据对应的操作预测值；

根据以下公式计算第二目标函数：

其中，所述/>为所述第二目标函数，所述/>是第一样本数据集中第i个第一样本数据中的操作值，所述/>是与所述第i个第一样本数据对应的操作预测值，所述N是第一样本数据集中第一样本数据的总数量；以及

在所述第二目标函数没有收敛的情况下，根据所述第二目标函数的值调整所述操作预测模型的参数，并返回将所述每个第一样本数据中的用户特征输入所述操作预测模型的步骤。

4.根据权利要求1所述的方法，其中，所述波动预测模型和所述操作预测模型包括梯度提升树模型，所述因果推断模型包括随机森林模型。

5.一种信息提示方法，包括：

获取目标数据波动值，以及与所述目标数据波动值对应的目标用户特征和目标操作值，其中，所述目标操作值与至少一个目标操作对应；

将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第一因果推断模型，得到第一因果参数预测值；

将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第二因果推断模型，得到第二因果参数预测值；

根据所述目标操作值、所述第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值；以及

在所述目标因果参数预测值大于因果参数阈值的情况下，生成针对所述至少一个目标操作的提示信息，

其中，所述第一因果推断模型和所述第二因果推断模型是基于权利要求1-4中任一项所述的方法训练的。

6.根据权利要求5所述的方法，其中，训练所述第一因果推断模型时使用的第一样本数据集与训练所述第二因果推断模型时使用的第二样本数据集相同，训练所述第一因果推断模型时使用的第二样本数据集与训练所述第二因果推断模型时使用的第一样本数据集相同。

7.根据权利要求5所述的方法，其中，所述根据所述目标操作值、所述第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值，包括：

根据以下公式计算所述目标因果参数预测值：

其中，所述ATT为所述目标因果参数预测值，所述/>为第一因果参数预测值，所述/>为第二因果参数预测值，所述T为所述目标操作值。

8.根据权利要求5所述的方法，其中，所述获取目标数据波动值包括：

获取原始数据和对比数据；

计算所述原始数据与所述对比数据的差值；以及

在所述差值大于预设波动阈值的情况下，确定所述差值作为所述目标数据波动值。

9. 根据权利要求5所述的方法，其中，所述获取与所述目标数据波动值对应的目标操作值包括：

确定与所述目标数据波动值相关的至少一个目标操作，其中，所述目标操作用于调整参数；以及

根据所述至少一个目标操作中每个目标操作进行调整后参数的变化量和该调整的持续时长，确定所述目标操作值。

10.一种训练模型的装置，包括：

第一训练模块，用于利用第一样本数据集来训练波动预测模型和操作预测模型；

波动预测模块，用于利用经训练的波动预测模型，基于第二样本数据集确定多个数据波动预测值；

操作预测模块，用于利用经训练的操作预测模型，基于所述第二样本数据集确定多个操作预测值；以及

第二训练模块，用于利用所述第二样本数据集、所述多个数据波动预测值和所述多个操作预测值，训练因果推断模型；

其中，所述第一训练模块还用于以所述每个第一样本数据中的数据波动值作为标签，以所述每个第一样本数据中的用户特征作为输入数据，训练所述波动预测模型；以及以所述每个第一样本数据中的操作值作为标签，以所述每个第一样本数据中的用户特征作为输入数据，训练操作预测模型；

其中，所述第二训练模块还用于针对所述第二样本数据集中的每个第二样本数据，根据所述第二样本数据中的数据波动值和基于所述第二样本数据得到的数据波动预测值，确定波动值残差；根据所述第二样本数据中的操作值和基于所述第二样本数据得到的操作预测值，确定操作值残差；根据所述波动值残差和所述操作值残差，确定因果参数样本；以及以所述因果参数样本作为标签，以所述第二样本数据中的用户特征作为输入数据，训练所述因果推断模型；

其中，所述第二训练模块还用于包括：

根据以下公式计算第三目标函数：

11.一种信息提示装置，包括：

获取模块，用于获取目标数据波动值，以及与所述目标数据波动值对应的目标用户特征和目标操作值，其中，所述目标操作值与至少一个目标操作对应；

第一因果预测模块，用于将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第一因果推断模型，得到第一因果参数预测值；

第二因果预测模块，用于将所述目标用户特征、所述目标数据波动值和所述目标操作值输入经训练的第二因果推断模型，得到第二因果参数预测值；

目标因果参数确定模块，用于根据所述目标操作值、所述第一因果参数预测值和第二因果参数预测值，确定目标因果参数预测值；以及

提示信息生成模块，用于在所述目标因果参数预测值大于因果参数阈值的情况下，生成针对所述至少一个目标操作的提示信息，

12. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。