CN113902132B

CN113902132B - 负反馈行为预测模型训练方法、消息推送方法及设备

Info

Publication number: CN113902132B
Application number: CN202111499434.7A
Authority: CN
Inventors: 刘睿智; 章昊; 孙式松
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-05-24
Anticipated expiration: 2041-12-09
Also published as: CN113902132A

Abstract

本公开关于负反馈行为预测模型训练方法、消息推送方法及设备，该方法包括：监听推送消息对应的反馈信息；从目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录；该目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端；从目标候选推送消息记录中确定用于生成正样本的正样本消息记录；从剩余候选推荐消息记录中确定用于生成负样本的负样本消息记录；根据正样本和负样本训练预设机器学习模型，得到负反馈行为预测模型；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为。本公开提高了针对负反馈行为的训练样本的准确性，提高了训练后模型对于负反馈行为预测的准确性。

Description

负反馈行为预测模型训练方法、消息推送方法及设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种负反馈行为预测模型训练方法、消息推送方法及设备。

背景技术

目前，终端在收到应用程序对应的推送消息后，可能会选择关闭该应用程序的消息推送通知，而一旦消息推送通知被关闭，则该应用程序将无法通过其对应的消息推送***向该终端传递应用程序的信息，也无法再拉活该终端对应的用户账户；另外，终端关闭应用程序的消息推送通知也表明该应用程序的体验效果较差。因此，准确预测终端针对待推送消息的负反馈行为具有非常重要的意义，其中，负反馈行为即指关闭消息推送通知的行为。

相关技术中在训练推荐***的负反馈行为预测模型时，通过直接获取负反馈信号确定训练样本，如直接点击不感兴趣的按钮这样的行为确定训练样本。然而，在消息推送场景下，终端关闭消息推送通知是在终端操作***上操作的，如图1中所示，可以通过直接在收到的推送消息上操作***开关关闭消息推送通知，也可以通过在操作***的设置中关闭消息推送通知，从而后台无法实时获取终端关闭消息推送通知的信号，进而也无法准确确定针对负反馈行为的训练样本，降低了负反馈行为预测模型的训练效果，导致对于消息推送场景下的负反馈行为预测不准确以及消息推送通知的关闭率较高。

发明内容

本公开提供一种负反馈行为预测模型训练、消息推送方法及设备，以至少解决相关技术因无法准确确定针对负反馈行为的训练样本，导致负反馈行为预测模型的训练效果差，进而使得消息推送场景下的负反馈行为预测不准确以及消息推送通知的关闭率较高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种负反馈行为预测模型训练方法，包括：

监听推送消息对应的反馈信息；所述反馈信息是样本终端接收并展示所述推送消息后发送的；

从目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录；所述目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端，所述候选推送消息记录指监听到反馈信息的推送消息对应的推送消息记录；

从所述目标候选推送消息记录中确定正样本消息记录，并根据所述正样本消息记录生成正样本；

从剩余候选推荐消息记录中确定负样本消息记录，并根据所述负样本消息记录生成负样本；所述剩余候选推荐消息记录是指除所述目标候选推送消息记录之外的候选推荐消息记录；

根据所述正样本和所述负样本训练预设机器学习模型，得到负反馈行为预测模型；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为。

在一个示例性的实施方式中，所述从所述目标候选推送消息记录中确定正样本消息记录，包括：

将满足预设条件的所述目标候选推送消息记录确定为正样本消息记录；所述预设条件包括以下至少之一：

所述目标候选推送消息记录对应的样本终端，在第一历史时间段内的候选推送消息记录的数量超过第一预设数量阈值，所述第一历史时间段是指当前时间之前的第一预设时间段；

历史正样本消息记录对应的样本终端中不包含所述目标候选推送消息记录对应的样本终端；

与所述目标候选推送消息记录对应的样本终端的通信连接错误次数不超过预设次数阈值。

在一个示例性的实施方式中，所述根据所述正样本消息记录生成正样本包括：

根据所述正样本消息记录确定第一负反馈行为相关特征；

根据所述第一负反馈行为相关特征，生成所述正样本；

其中，所述第一负反馈行为相关特征包括以下至少之一：所述正样本消息记录中推送消息的推送消息类型、推送时间，所述正样本消息记录对应样本终端的历史推送消息列表、所述正样本消息记录对应样本终端在预设时间段内的推送消息数量；

所述根据所述负样本消息记录生成负样本包括：

根据所述负样本消息记录确定第二负反馈行为相关特征；

根据所述第二负反馈行为相关特征，生成所述负样本；

其中，所述第二负反馈行为相关特征包括以下至少之一：所述负样本消息记录中推送消息的推送消息类型、推送时间，所述负样本消息记录对应样本终端的历史推送消息列表、所述负样本消息记录对应样本终端在所述预设时间段内的推送消息数量。

在一个示例性的实施方式中，所述方法还包括：

响应于向所述样本终端发送所述推送消息的事件，按照预设数值增量增加所述样本终端对应计数器的计数；

在监听到所述推送消息对应的反馈信息时，重置所述推送消息对应样本终端的计数器的计数，并根据所述反馈信息对应的推送消息生成所述样本终端的候选推送消息记录。

在一个示例性的实施方式中，所述方法还包括：

获取所述样本终端对应计数器的当前计数；

在所述当前计数超过所述预设数量的情况下，确定所述样本终端为所述目标样本终端。

根据本公开实施例的第二方面，提供一种消息推送方法，包括：

获取针对消息接收终端的待推送消息；

根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为；

将所述消息接收终端对应的负反馈行为相关特征输入至负反馈行为预测模型进行负反馈行为预测，得到负反馈行为指标；所述负反馈行为指标表征所述消息接收终端在接收到所述待推送消息后关闭消息推送通知的概率；

根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息。

在一个示例性的实施方式中，所述根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息，包括：

在所述负反馈行为指标未超过所述预设指标阈值的情况下，向所述消息接收终端发送所述待推送消息；

其中，所述负反馈行为预测模型是根据前述第一方面中的负反馈行为预测模型训练方法训练得到的。

在一个示例性的实施方式中，所述方法还包括：

在所述负反馈行为指标超过所述预设指标阈值的情况下，确定第二历史时间段内向所述消息接收终端发送的推送消息的数量；所述第二历史时间段是指当前时间之前的第二预设时间段；

在所述数量未超过第二预设数量阈值时，向所述消息接收终端发送所述待推送消息。

在一个示例性的实施方式中，在向所述消息接收终端发送所述待推送消息之前，所述方法还包括：

确定向所述消息接收终端最近一次发送的推送消息的发送时间；

确定所述当前时间与所述发送时间之间的时间差值；

在所述时间差值不小于预设时间差阈值的情况下，执行所述向所述消息接收终端发送所述待推送消息的步骤。

在一个示例性的实施方式中，所述根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征包括：

根据所述待推送消息确定第三负反馈行为相关特征；

根据所述第三负反馈行为相关特征，确定所述消息接收终端对应的负反馈行为相关特征；

其中，所述第三负反馈行为相关特征包括以下至少之一：所述待推送消息对应的推送消息类型、当前时间、所述消息接收终端对应的历史推送消息列表、所述消息接收终端在预设时间段内的推送消息数量。

根据本公开实施例的第三方面，提供一种负反馈行为预测模型训练装置，包括：

监听单元，被配置为执行监听推送消息对应的反馈信息；所述反馈信息是样本终端接收并展示所述推送消息后发送的；

目标候选推送消息记录确定单元，被配置为执行从目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录；所述目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端，所述候选推送消息记录指监听到反馈信息的推送消息对应的推送消息记录；

正样本确定单元，被配置为执行从所述目标候选推送消息记录中确定正样本消息记录，并根据所述正样本消息记录生成正样本；

负样本确定单元，被配置为执行从剩余候选推荐消息记录中确定负样本消息记录，并根据所述负样本消息记录生成负样本；所述剩余候选推荐消息记录是指除所述目标候选推送消息记录之外的候选推荐消息记录；

训练单元，被配置为执行根据所述正样本和所述负样本训练预设机器学习模型，得到负反馈行为预测模型；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为。

在一个示例性的实施方式中，所述正样本确定单元，具体被配置为执行将满足预设条件的所述目标候选推送消息记录确定为正样本消息记录；所述预设条件包括以下至少之一：

在一个示例性的实施方式中，所述正样本确定单元，包括：

第一特征确定单元，被配置为执行根据所述正样本消息记录确定第一负反馈行为相关特征；

正样本生成子单元，被配置为执行根据所述第一负反馈行为相关特征，生成所述正样本；

所述负样本生成单元，包括：

第二特征确定单元，被配置为执行根据所述负样本消息记录确定第二负反馈行为相关特征；

负样本生成子单元，被配置为执行根据所述第二负反馈行为相关特征，生成所述负样本；

在一个示例性的实施方式中，所述装置还包括：

推送消息记录单元，被配置为执行响应于向所述样本终端发送所述推送消息的事件，按照预设数值增量增加所述样本终端对应计数器的计数；

计数重置单元，被配置为执行在监听到所述推送消息对应的反馈信息时，重置所述推送消息对应样本终端的计数器的计数，并根据所述反馈信息对应的推送消息生成所述样本终端的候选推送消息记录。

在一个示例性的实施方式中，所述装置还包括：

当前计数获取单元，被配置为执行获取所述样本终端对应计数器的当前计数；

目标样本终端确定单元，被配置为执行在所述当前计数超过所述预设数量的情况下，确定所述样本终端为所述目标样本终端。

根据本公开实施例的第四方面，提供一种消息推送装置，包括：

待推送消息获取单元，被配置为执行获取针对消息接收终端的待推送消息；

负反馈行为相关特征确定单元，被配置为执行根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为；

负反馈行为指标预测单元，被配置为执行将所述消息接收终端对应的负反馈行为相关特征输入至负反馈行为预测模型进行负反馈行为预测，得到负反馈行为指标；所述负反馈行为指标表征所述消息接收终端在接收到所述待推送消息后关闭消息推送通知的概率；

待推送消息发送单元，被配置为执行根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息；

其中，所述负反馈行为预测模型是根据前述第一方面的负反馈行为预测模型训练方法训练得到的。

在一个示例性的实施方式中，所述待推送消息发送单元，包括：

第一发送子单元，被配置为执行在所述负反馈行为指标未超过所述预设指标阈值的情况下，向所述消息接收终端发送所述待推送消息。

在一个示例性的实施方式中，所述待推送消息发送单元，还包括：

推送消息数量确定单元，被配置为执行在所述负反馈行为指标超过所述预设指标阈值的情况下，确定第二历史时间段内向所述消息接收终端发送的推送消息的数量；所述第二历史时间段是指当前时间之前的第二预设时间段；

第二发送子单元，被配置为执行在所述数量未超过第二预设数量阈值时，向所述消息接收终端发送所述待推送消息。

发送时间确定单元，被配置为执行确定向所述消息接收终端最近一次发送的推送消息的发送时间；

时间差确定单元，被配置为执行确定所述当前时间与所述发送时间之间的时间差值；

执行单元，被配置为执行在所述时间差值不小于预设时间差阈值的情况下，执行所述向所述消息接收终端发送所述待推送消息的步骤。

在一个示例性的实施方式中，所述负反馈行为相关特征确定单元，包括：

第三特征确定单元，被配置为执行根据所述待推送消息确定第三负反馈行为相关特征；

负反馈行为相关特征确定子单元，被配置为执行根据所述第三负反馈行为相关特征，确定所述消息接收终端对应的负反馈行为相关特征；

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的负反馈行为预测模型训练方法或者上述第二方面的消息推送方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的负反馈行为预测模型训练方法或者上述第二方面的消息推送方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面的负反馈行为预测模型训练方法或者上述第二方面的消息推送方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过从目标样本终端对应的候选推送消息中确定距离当前时间最近的目标候选推送消息记录，并从该目标候选推送消息记录中确定用于生成正样本的正样本消息记录，从除目标候选推送消息记录之外的候选推送消息记录中确定用于生成负样本的负样本消息记录，进而根据正样本和负样本训练预设机器学习模型得到负反馈行为预测模型，上述方案中，由于候选推送消息记录为监听到反馈信息的推送消息对应的推送消息记录，目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端，从而解决了消息推送场景下无法实时获取终端关闭消息推送通知信号的问题，进而可以准确确定针对负反馈行为的训练样本，提高了负反馈行为预测模型的训练效果，确保了对于消息推送场景下的负反馈行为预测的准确性，有利于降低消息推送通知的关闭率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是相关技术中关闭消息推送通知的示意图；

图2a是根据一示例性实施例示出的一种应用环境的示意图；

图2b是根据一示例性实施例示出的终端上报消息推送通知开关状态的示意图；

图3是根据一示例性实施例示出的一种负反馈行为预测模型训练方法的流程图；

图4是根据一示例性实施例示出的一种训练负反馈行为预测模型的示例；

图5是根据一示例性实施例示出的一种消息推送方法的流程图；

图6是根据一示例性实施例示出的另一种消息推送方法的流程图；

图7是根据一示例性实施例示出的另一种消息推送方法的流程图；

图8是根据一示例性实施例示出的一种负反馈行为预测模型训练装置的框图；

图9是根据一示例性实施例示出的一种消息推送装置的框图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图2a，其所示为根据一示例性实施例示出的一种应用环境示意图，该应用环境包括终端210和服务器220，该终端210与服务器220可以通过网络连接通信，该网络可以是有线网络也可以是无线网络。

终端210可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端210中可以安装有提供人机交互功能的客户端软件如应用程序（Application，简称为App），该应用程序可以是独立的应用程序，也可以是应用程序中的子程序。示例性的，该应用程序可以包括视频类应用程序、资讯类应用程序、直播应用程序等。终端210的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器220可以是为终端210中的应用程序提供后台服务的服务器，具体的，服务器220提供的服务可以是消息推送服务。服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个具体的应用场景中，服务器220在向终端210推送消息时可以调用训练好的负反馈行为预测模型来预测终端210针对该待推送消息的负反馈行为指标，其中，负反馈行为是指终端210在收到推送消息后关闭消息推送通知的行为，该负反馈行为指标指终端210在接收到该待推送消息之后关闭消息推送通知的概率，从而可以根据该负反馈行为指标来确定是否向终端210推送该待推送消息。

相关技术中在训练推荐***的负反馈行为预测模型时，通过直接获取负反馈信号确定训练样本，如直接点击不感兴趣的按钮这样的行为确定训练样本。然而，在消息推送场景下，终端关闭消息推送通知是在终端操作***上操作的，后台无法实时获取终端关闭消息推送通知的信号，进而也无法准确确定消息推送场景下的训练样本。具体如图2b所示，只有在终端中的应用程序APP活跃的时候终端才会上报消息推送通知的开关状态，若终端在APP未活跃时段关闭了消息推送通知，由于APP处于未活跃时段，因此终端不能将消息推送通知的关闭状态实时上报给后台服务端，只有当该应用程序再次活跃时才能将消息推送通知的关闭状态上报给后台服务端，而此时后台根本无法确定终端是具体在什么时间、在收到了哪条推送消息之后关闭了消息推送通知，从而也就无法准确获取到用于训练负反馈行为预测模型的样本，降低了负反馈行为预测模型的训练效果，导致对于消息推送场景下的负反馈行为预测不准确以及消息推送通知的关闭率较高，其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为。

鉴于此，本公开实施例提供一种负反馈行为预测模型训练方法，该方法解决了消息推送场景下无法实时获取终端关闭消息推送通知信号的问题，进而可以准确确定针对负反馈行为的训练样本，提高了负反馈行为预测模型的训练效果，确保了对于消息推送场景下的负反馈行为预测的准确性，有利于降低消息推送通知的关闭率。

图3是根据一示例性实施例示出的一种负反馈行为预测模型训练方法的流程图，如图3所示，以该方法应用于图2a的服务器为例，包括以下步骤：

在步骤S301中，监听推送消息对应的反馈信息。

其中，所述反馈信息是样本终端接收并展示所述推送消息后发送的，样本终端展示推送消息是指以消息的形式展示该推送消息。

具体的实施中，服务器可以对多个样本终端中的任一样本终端进行监听，以监听向任一样本终端发送的推送消息对应的反馈信息。

实际应用中，推送消息由服务器下发给样本终端后，在样本终端收到该推送消息且展示该推送消息时会反馈给服务器一个达到（receive）信号，该到达信号即为该推送消息对应的反馈信息。若样本终端关闭了消息推送通知，由于样本终端收到的推送消息无法展示，则样本终端不会反馈到达（receive）信号给服务器。

在步骤S303中，从目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录。

其中，目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端，该目标样本终端可能是一个样本终端也可能是多个样本终端，预设数量可以根据实际经验进行设定，例如可以是5等等。

所述候选推送消息记录指监听到反馈信息的推送消息对应的推送消息记录。具体的，服务器在监听到样本终端针对推送消息返回的反馈信息时，表明该反馈信息对应的推送消息已经被样本终端接收到且正常展示，此时服务器可以生成该样本终端对应的候选消息推送记录，该候选消息推送记录可以包括但不限于该被正常展示的推送消息的推送消息类型以及推送时间。

在一个示例性的实施方式中，为了能够准确的生成样本终端对应的候选推送消息记录，服务器可以为每个样本终端配置一个对应的计数器，从而在监听推送消息对应的反馈信息时，服务器可以响应于每个向样本终端发送推送消息的事件，按照预设数值增量增加该样本终端对应的计数器的计数；在监听到推送消息对应的反馈信息时，重置该推送消息对应样本终端的计数器的计数，并根据该反馈信息对应的推送消息生成该样本终端的候选推送消息记录。其中，预设数值增量可以是1，也就是说，服务器每向样本终端发送一次推送消息，都会使得该样本终端对应的计数器的计数加1，而在监听到推送消息对应的反馈信息时，会将该推送消息对应样本终端的计数器的计数重置为零。

在一个示例性的实施方式中，为了能够从多个样本终端中准确且快速的找到目标样本终端，以提高模型的训练效率，服务器可以获取样本终端对应计数器的当前计数，并在该当前计数超过前述预设数量的情况下，确定该样本终端为目标样本终端，进而可以执行步骤S303以从该目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录。

在步骤S305中，从所述目标候选推送消息记录中确定正样本消息记录，并根据所述正样本消息记录生成正样本。

具体的，若服务器一直向某个样本终端发送推送消息，且该样本终端也一直有反馈到达信号（即反馈信息）给服务器，那么当从某条推送消息开始的连续预设数量个推送消息该样本终端均不再反馈到达信号，则可以判定该样本终端是在最后一条到达成功（即监听到反馈信息）的推送消息之后关闭了消息推送通知的，则该最后一条到达成功（即监听到反馈信息）的推送消息即可以确定为是导致关闭消息推送通知这一负反馈行为的推送消息，该最后一条到达成功的推送消息对应的推送消息记录可以作为针对负反馈行为的正样本消息记录。

在一个具体的实施方式中，正样本消息记录可以是目标候选推送消息记录中随机选取的一条或者多条。

考虑到实际应用中可能会存在噪声干扰的问题，例如，可能样本终端已关闭消息推送通知，但是由于样本终端处理存在错误，导致样本终端可能会错误的返回一条反馈信息；或者，虽然服务器一直向样本终端发送推送消息，但是没有收到该样本终端返回的反馈信息；或者，该样本终端已经存在了对应的正样本消息记录；或者，样本终端早在应用程序上线以前就关闭了消息推送通知；又或者由于样本终端与服务器的通信连接存在错误（例如令牌检测失败），虽然样本终端没有关闭消息推送通知，但是服务器发送给该样本终端的推送消息无法收到对应的反馈信息等等。

为了避免噪声干扰对训练样本确定准确性的影响，在一个示例性的实施方式中，上述步骤S305在从所述目标候选推送消息记录中确定正样本消息记录时，可以将满足预设条件的所述目标候选推送消息记录确定为正样本消息记录，其中，预设条件包括以下至少之一：

所述目标候选推送消息记录对应的样本终端，在第一历史时间段内的候选推送消息记录的数量超过第一预设数量阈值，所述第一历史时间段是指所述当前时间之前的第一预设时间段；

具体的，第一预设时间段可以根据实际需要进行设定，例如可以是48小时。预设次数阈值也可以根据实际需要进行设定，例如可以是10次。历史正样本消息记录是指在当前时间之前确定的正样本消息记录，实际应用中可以是当前时间之前的预设时间段（例如三个月、五个月等）内确定的正样本消息记录。

本公开实施例通过预设条件对噪声干扰进行过滤，确保了训练样本确定的准确性，从而能够得到高质量的训练样本，进而有利于提高负反馈行为预测模型的预测准确性。

在一个示例性的实施方式中，上述步骤S305在根据所述正样本消息记录生成正样本时可以包括：

根据所述正样本消息记录确定第一负反馈行为相关特征；

根据所述第一负反馈行为相关特征，生成所述正样本；

其中，所述第一负反馈行为相关特征包括以下至少之一：所述正样本消息记录中推送消息的推送消息类型、推送时间，所述正样本消息记录对应样本终端的历史推送消息列表、所述正样本消息记录对应样本终端在预设时间段内的推送消息数量。该预设时间段可以时近期的一段时间了，例如可以是过去2小时、4小时或者当天发送的推送消息条数。

可以理解的，为了提高模型训练的准确性，正样本中除了第一负反馈行为相关特征之外，还可以包括其他一些特征，例如正样本消息记录对应的样本终端特征、内容特征和交叉特征，其中，样本终端特征可以包括对应用户账户画像（如用户账户标识、年龄信息、性别信息、地域信息等）、历史行为信息（如对于推送消息的历史点击率、历史点击的内容列表、历史点击的推送消息列表等等）；内容特征可以包括内容类型（如视频、直播等等）、内容标识、内容发布者的标识等等；交叉特征可以包括内容发布者维度的交叉特征和内容类型维度的交叉特征，其中，内容发布者维度的交叉特征可以根据点击的内容发布者列表与当前推送消息对应的发布者确定，具体的实施中可以将二者分别转换成向量表示，然后计算向量之间的乘积得到内容发布者维度的交叉特征，同理，内容类型维度的交叉特征可以根据点击的内容列表与当前推送消息对应的内容确定，具体的实施中也可以将二者分别转换成向量表示，然后计算向量之间的乘积得到内容类型维度的交叉特征。

上述实施例中，由于第一负反馈行为相关特征是与负反馈行为关联紧密的特征，从而使得基于正样本消息记录生成的正样本能够更加准确的表征负反馈行为，有利于提高训练效果，提高训练后模型对于负反馈行为预测的准确性。

在步骤S307中，从剩余候选推荐消息记录中确定负样本消息记录，并根据所述负样本消息记录生成负样本。

其中，所述剩余候选推荐消息记录是指除所述目标候选推送消息记录之外的候选推荐消息记录。

在一个示例性的实施方式中，在根据所述负样本消息记录生成负样本时，可以包括：

根据所述负样本消息记录确定第二负反馈行为相关特征；

根据所述第二负反馈行为相关特征，生成所述负样本；

其中，所述第二负反馈行为相关特征包括以下至少之一：所述负样本消息记录中推送消息的推送消息类型、推送时间，所述负样本消息记录对应样本终端的历史推送消息列表、所述负样本消息记录对应样本终端在所述预设时间段内的推送消息数量。该预设时间段可以时近期的一段时间了，例如可以是过去2小时、4小时或者当天发送的推送消息条数。

可以理解的，为了提高模型训练的准确性，负样本中除了第二负反馈行为相关特征之外，还可以包括其他一些特征，例如负样本消息记录对应的样本终端特征、内容特征和交叉特征，具体可以参见前述关于样本终端特征、内容特征和交叉特征的描述，在此不再赘述。

上述实施例中，负样本中的特征与正样本相对应，从而有利于提高模型的训练效果，提高训练后模型对于负反馈行为预测的准确性。

在步骤S309中，根据所述正样本和所述负样本训练预设机器学习模型，得到负反馈行为预测模型。

其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为，该负反馈行为预测模型可以用于预测负反馈行为指标，该负反馈行为指标表征消息接收终端在接收到待推送消息后关闭消息推送通知的概率。

预设机器学习模型可以是二分类的机器学习模型，也可以是深度学习模型，如图4中所示出的深度神经网络（Deep Neural Networks, DNN）模型。模型训练的目标是能正确区分训练样本中的正样本和负样本，通过将大量的正样本特征和负样本特征输入到预设机器学习模型，模型可以通过反向传播更新模型参数，使模型能够区分正负样本。具体的实施中，可以通过损失函数大小来判断模型区分正负样本的能力，该损失函数可以是如以下公式所示的对数损失函数：

其中，y_i为输入样本特征的真实类别，p_i为预测的输入样本特征属于类别 1 的概率，y_i = 1表示为正样本特征，y_i = 0 表示为负样本特征，N为输入的样本量。

具体的，模型对正样本的预测概率越大，对负样本的预测概率越小，则模型的损失函数越小，代表模型的训练效果越好，模型越能区分正样本和负样本，因此预设训练结束条件可以是损失函数的损失值达到最小值。当然，预设训练结束条件也可以是迭代次数达到预设迭代次数阈值，该预设迭代次数阈值可以根据实际需要进行设定，例如100次等。

可以理解的，本公开实施例的负反馈行为预测模型训练方法可以是离线训练负反馈行为预测模型，也可以是对部署在线上的负反馈行为预测模型进行在线更新训练，在线更新训练后的负反馈行为预测模型也可以用于线上实时的预测。

在一个示例性的实施方式中，在训练得到负反馈行为预测模型之后，该方法还可以包括：

获取针对消息接收终端的待推送消息；

根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征；

本公开实施例利用准确确定的针对负反馈行为的训练样本来训练预设机器学习模型得到负反馈行为预测模型，确保了负反馈行为预测模型的预测准确性，进而有利于提高对于消息推送场景下的负反馈行为预测的准确性。

请参见图5，其所示为本公开实施例提供的一种消息推送方法的流程图，如图5所示，该方法包括：

在步骤S501中，获取针对消息接收终端的待推送消息。

在步骤S503中，根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征。

在一个示例性的实施方式中，根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征可以包括：

根据所述待推送消息确定第三负反馈行为相关特征；

实际应用中，为了提高预测的准确性，消息接收终端对应的负反馈行为相关特征除了上述的第三负反馈行为相关特征之外，还可以包括其他一些特征，例如消息接收终端特征、内容特征和交叉特征，消息接收终端特征可以包括对应的用户账户画像（如用户账户标识、年龄信息、性别信息、地域信息等）、历史行为信息（如对于历史推送消息的历史点击率、历史点击的内容列表、历史点击的推送消息列表等等）。内容特征可以包括待推送消息所针对内容的内容类型（如视频、直播等等）、内容标识、内容发布者的标识等等；交叉特征可以包括内容发布者维度的交叉特征和内容类型维度的交叉特征，其中，内容发布者维度的交叉特征可以根据消息接收终端点击的内容发布者列表与待推送消息对应的发布者确定，具体的实施中可以将二者分别转换成向量表示，然后计算向量之间的乘积得到内容发布者维度的交叉特征，同理，内容类型维度的交叉特征可以根据消息接收终端点击的内容列表与待推送消息对应定的内容确，具体的实施中也可以将二者分别转换成向量表示，然后计算向量之间的乘积得到内容类型维度的交叉特征。

上述实施例中，由于第三负反馈行为相关特征是与负反馈行为紧密关联的特征，从而对向消息终端发送的待推送消息进行了负反馈行为方面的充分表达，有利于提高后续对于负反馈行为预测的准确性。

在步骤S505中，将所述消息接收终端对应的负反馈行为相关特征输入至负反馈行为预测模型进行负反馈行为预测，得到负反馈行为指标。

其中，所述负反馈行为指标表征所述消息接收终端在接收到所述待推送消息后关闭消息推送通知的概率。负反馈行为预测模型是根据本公开实施例中的负反馈行为预测模型训练方法训练得到的，具有的训练方法可以参见本公开实施例的前述图3所示的流程图，在此不再赘述。

在步骤S507中，根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息。

其中，预设指标阈值可以根据实际经验进行设定，一般预设指标阈值设置的越小，对于待推送消息下发控制的越精确。

本公开实施例在准备发送待推送消息时，调用负反馈行为预测模型可以准确预测消息接收终端针对待推送消息的负反馈行为指标，进而根据该负反馈行为指标与预设指标阈值的比对情况向消息接收终端发送该待推送消息，有利于降低消息推送通知的关闭率，从而使得待推送消息能够触达更多的终端，提升了消息推送拉活的日活跃用户量；同时还降低了消息接收终端收到不符合自身需求的推送消息的可能性，提升了用户体验。

在一个示例性的实施方式中，上述步骤S507在根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息时，如图6所示，可以包括：

在步骤S601中，判断所述负反馈行为指标是否超过预设指标阈值。

具体的，若判断的结果是负反馈行为指标未超过预设指标阈值，则表明消息接收终端针对待推送消息的负反馈行为概率较小，消息接收终端在接收到该待推送消息后不会关闭消息推送通知，此时可以执行步骤S603；反之，若判断的结果是负反馈行为指标超过预设指标阈值，则表明消息接收终端针对待推送消息的负反馈行为概率较大，消息接收终端在接收到该待推送消息后很有可能会关闭消息推送通知，此时可以执行步骤S605至步骤S607。

在步骤S603中，向所述消息接收终端发送所述待推送消息。

上述实施例中，在负反馈行为指标未超过预设指标阈值的情况下才向目标终端发送该待推送消息，有利于降低消息推送通知的关闭率，从而使得推送消息能够触达更多的终端，同时还降低了终端收到不符合自身需求的推送消息的可能性，提升了用户体验。

在步骤S605中，确定第二历史时间段内向所述消息接收终端发送的推送消息的数量。

其中，所述第二历史时间段是指当前时间之前的第二预设时间段，该第二预设时间段可以根据实际经验进行设定，例如可以是3小时。

在步骤S607中，判断所述第二历史时间段内向所述消息接收终端发送的推送消息的数量是否超过第二预设数量阈值。

其中，第二预设数量阈可以根据实际经验进行设定，例如可以是4或5等。具体的，若判断的结果是在第二历史时间段内向消息接收终端发送的推送消息的数量未超过第二预设数量阈值，则可以执行步骤609：向消息接收终端发送该待推送消息；反之，若判断的结果是在第二历史时间段内向消息接收终端发送的推送消息的数量超过来了第二预设数量阈值，则可以执行步骤S611：不向消息接收终端发送该待推送消息。

本公开实施例在负反馈行为指标超过预设指标阈值的情况下，通过基于历史时间段内向消息接收终端发送的推送消息的数量的频控逻辑来控制向消息接收终端发送待推送消息，进而仅将满足该频控逻辑的待推送消息发送给消息接收终端，而将不满足该频控逻辑的待推送消息过滤掉，从而在使推送消息能够触达更多终端的同时降低消息推送通知的关闭率。

为了提高对于待推送消息下发控制的精确性，确保降低消息推送通知的关闭率，在一个示例性的实施方式中，如图7所示，在步骤S609之前，该方法还可以包括：

在步骤S701中，确定向所述消息接收终端最近一次发送的推送消息的发送时间。

在步骤S703中，确定所述当前时间与所述发送时间之间的时间差值。

在步骤S705中，在所述时间差值不小于预设时间差阈值的情况下，执行所述步骤S609，向所述消息接收终端发送所述待推送消息。

其中，预设时间差阈值可以根据实际需要进行设定，例如可以10分钟等。

上述实施例中，通过基于最近一次发送的推送消息的发送时间与当前时间的差值进一步细化频控逻辑，从而避免在短时间内向消息接收终端发送多条推送消息，有利于进一步降低终端关闭消息推送通知的可能性，进而降低了消息推送通知的关闭率，进一步提升了用户体验。

图8是根据一示例性实施例示出的一种负反馈行为预测模型训练装置的框图。参照图8，该负反馈行为预测模型训练装置800包括监听单元810、目标候选推送消息记录确定单元820、正样本确定单元830、负样本确定单元840和训练单元850，其中：

监听单元810，被配置为执行监听推送消息对应的反馈信息；所述反馈信息是样本终端接收并展示所述推送消息后发送的；

目标候选推送消息记录确定单元820，被配置为执行从目标样本终端对应的候选推送消息记录中确定距离当前时间最近的目标候选推送消息记录；所述目标样本终端为连续预设数量个推送消息没有监听到对应反馈信息的样本终端，所述候选推送消息记录指监听到反馈信息的推送消息对应的推送消息记录；

正样本确定单元830，被配置为执行从所述目标候选推送消息记录中确定正样本消息记录，并根据所述正样本消息记录生成正样本；

负样本确定单元840，被配置为执行从剩余候选推荐消息记录中确定负样本消息记录，并根据所述负样本消息记录生成负样本；所述剩余候选推荐消息记录是指除所述目标候选推送消息记录之外的候选推荐消息记录；

训练单元850，被配置为执行根据所述正样本和所述负样本训练预设机器学习模型，得到负反馈行为预测模型；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为。

在一个示例性的实施方式中，所述正样本确定单元830，具体被配置为执行将满足预设条件的所述目标候选推送消息记录确定为正样本消息记录；所述预设条件包括以下至少之一：

在一个示例性的实施方式中，所述正样本确定单元830，包括：

所述负样本生成单元840，包括：

在一个示例性的实施方式中，所述装置还包括：

图9是根据一示例性实施例示出的一种消息推送装置的框图。参照图9，该消息推送装置900包括待推送消息获取单元910、负反馈行为相关特征确定单元920、负反馈行为指标预测单元930和待推送消息发送单元940，其中：

待推送消息获取单元910，被配置为执行获取针对消息接收终端的待推送消息；

负反馈行为相关特征确定单元920，被配置为执行根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征；其中，负反馈行为是指在收到推送消息后关闭消息推送通知的行为；

负反馈行为指标预测单元930，被配置为执行将所述消息接收终端对应的负反馈行为相关特征输入至负反馈行为预测模型进行负反馈行为预测，得到负反馈行为指标；所述负反馈行为指标表征所述消息接收终端在接收到所述待推送消息后关闭消息推送通知的概率；

待推送消息发送单元940，被配置为执行根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息；

其中，所述负反馈行为预测模型是根据本公开实施例提供的负反馈行为预测模型训练方法训练得到的。

在一个示例性的实施方式中，所述待推送消息发送单元940，包括：

在一个示例性的实施方式中，所述待推送消息发送单元940，还包括：

在一个示例性的实施方式中，所述负反馈行为相关特征确定单元920，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述任一实施方式中提供的负反馈行为预测模型训练方法或者消息推送方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图10是根据一示例性实施例示出的一种电子设备的框图，如图10所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（CentralProcessing Units，CPU）1010（处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020（例如一个或一个以上海量存储设备）。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作***1021，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1040可以为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

在一个示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1030，上述指令可由装置1000的处理器1010执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在一个示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式中提供的负反馈行为预测模型训练方法或者消息推送方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种负反馈行为预测模型训练方法，其特征在于，包括：

监听推送消息对应的反馈信息；所述反馈信息是到达信号，所述到达信号是样本终端收到所述推送消息且展示所述推送消息时返回的；

2.根据权利要求1所述的负反馈行为预测模型训练方法，其特征在于，所述从所述目标候选推送消息记录中确定正样本消息记录，包括：

3.根据权利要求1所述的负反馈行为预测模型训练方法，其特征在于，所述根据所述正样本消息记录生成正样本包括：

根据所述正样本消息记录确定第一负反馈行为相关特征；

根据所述第一负反馈行为相关特征，生成所述正样本；

所述根据所述负样本消息记录生成负样本包括：

根据所述负样本消息记录确定第二负反馈行为相关特征；

根据所述第二负反馈行为相关特征，生成所述负样本；

4.根据权利要求1~3中任一项所述的负反馈行为预测模型训练方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的负反馈行为预测模型训练方法，其特征在于，所述方法还包括：

获取所述样本终端对应计数器的当前计数；

6.一种消息推送方法，其特征在于，包括：

获取针对消息接收终端的待推送消息；

根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息；

其中，所述负反馈行为预测模型是根据权利要求1~5中任一项所述的负反馈行为预测模型训练方法训练得到的。

7.根据权利要求6所述的消息推送方法，其特征在于，所述根据所述负反馈行为指标与预设指标阈值的比对情况，向所述消息接收终端发送所述待推送消息，包括：

在所述负反馈行为指标未超过所述预设指标阈值的情况下，向所述消息接收终端发送所述待推送消息。

8.根据权利要求7所述的消息推送方法，其特征在于，所述方法还包括：

9.根据权利要求7或8所述的消息推送方法，其特征在于，在向所述消息接收终端发送所述待推送消息之前，所述方法还包括：

确定所述当前时间与所述发送时间之间的时间差值；

10.根据权利要求6所述的消息推送方法，其特征在于，所述根据所述待推送消息，确定所述消息接收终端对应的负反馈行为相关特征包括：

根据所述待推送消息确定第三负反馈行为相关特征；

11.一种负反馈行为预测模型训练装置，其特征在于，包括：

监听单元，被配置为执行监听推送消息对应的反馈信息；所述反馈信息是到达信号，所述到达信号是样本终端收到所述推送消息且展示所述推送消息时返回的；

12.根据权利要求11所述的负反馈行为预测模型训练装置，其特征在于，所述正样本确定单元，具体被配置为执行将满足预设条件的所述目标候选推送消息记录确定为正样本消息记录；所述预设条件包括以下至少之一：

13.根据权利要求11所述的负反馈行为预测模型训练装置，其特征在于，所述正样本确定单元，包括：

所述负样本生成单元，包括：

14.根据权利要求11~13中任一项所述的负反馈行为预测模型训练装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的负反馈行为预测模型训练装置，其特征在于，所述装置还包括：

16.一种消息推送装置，其特征在于，包括：

17.根据权利要求16所述的消息推送装置，其特征在于，所述待推送消息发送单元，包括：

18.根据权利要求17所述的消息推送装置，其特征在于，所述待推送消息发送单元，还包括：

19.根据权利要求17或18所述的消息推送装置，其特征在于，所述待推送消息发送单元，还包括：

20.根据权利要求16所述的消息推送装置，其特征在于，所述负反馈行为相关特征确定单元，包括：

21.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的负反馈行为预测模型训练方法，或者权利要求6至10中任一项所述的消息推送方法。

22.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的负反馈行为预测模型训练方法，或者权利要求6至10中任一项所述的消息推送方法。