CN112883259A

CN112883259A - 信息推送方法和装置

Info

Publication number: CN112883259A
Application number: CN202110084478.7A
Authority: CN
Inventors: 段凯
Original assignee: Nanjing Weiwo Software Technology Co ltd
Current assignee: Nanjing Weiwo Software Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-06-01

Abstract

本申请公开了一种信息推送方法和装置，属于计算机技术领域。该信息推送方法包括向第一设备发送推送信息，推送信息包括对象推送模型输出得到的多个推送对象，多个推送对象包括目标对象；在第一设备接收到用户针对目标对象的第一输入的情况下，获取第一输入对应的收益值；根据收益值，对对象推送模型进行更新；根据更新后的对象推送模型，向第二设备发送更新后的推送信息。采用本申请提供的信息推送方法和电子设备，至少解决现有技术中推送效果不佳的问题。

Description

信息推送方法和装置

技术领域

本申请属于计算机技术领域，具体涉及一种信息推送方法和装置。

背景技术

近年来，随着互联网技术的不断发展，人们越来越倾向于通过网络来搜索信息，各种信息推送平台应运而生，为用户与推送对象之间建立信息桥梁。

现有信息推送平台中，主要采用的信息推送机制是通过机器学习中的监督学习算法，向用户推送该用户最有可能选择的推送对象。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：由于仅考虑到用户是否会选择该推送对象这一单一因素的影响，导致推送效果不佳。

发明内容

本申请实施例的目的是提供一种信息推送方法和装置，能够解决推送效果不佳的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种信息推送方法，该方法包括：

向第一设备发送推送信息，所述推送信息包括对象推送模型输出得到的多个推送对象，所述多个推送对象包括目标对象；

在所述第一设备接收到用户针对所述目标对象的第一输入的情况下，获取所述第一输入对应的收益值；

根据所述收益值，对所述对象推送模型进行更新；

根据更新后的对象推送模型，向第二设备发送更新后的推送信息。

第二方面，本申请实施例提供了一种信息推送装置，该装置包括：

信息发送模块，用于向第一设备发送推送信息，所述推送信息包括对象推送模型输出得到的多个推送对象，所述多个推送对象包括目标对象；

收益获取模块，用于在所述第一设备接收到用户针对所述目标对象的第一输入的情况下，获取所述第一输入对应的收益值；

模型更新模块，用于根据所述收益值，对所述对象推送模型进行更新；

推送更新模块，用于根据更新后的对象推送模型，向第二设备发送更新后的推送信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过采用强化学习算法构建的对象推送模型，为用户提供推送信息，利用用户与对象推送模型之间长期的交互和学习，使得对象推送模型得到不断更新优化，由于强化学习算法不仅能考虑到用户选择倾向的影响因素，还能兼顾用户每次选择所带来的后续收益量等多种因素，根据用户每次对象选择结果带来的收益值更新对象推送模型，进而向用户提供不断更新的推送信息，以期获得长期累积收益的最大化，因此，能够提高推送效果。

附图说明

图1是根据一示例性实施例示出的一种信息推送过程的架构图；

图2是根据一示例性实施例示出的一种信息推送方法的流程图；

图3是根据一示例性实施例示出的另一种信息推送方法的流程图；

图4是根据一示例性实施例示出的一种信息推送装置的结构框图；

图5是根据一示例性实施例示出的一种电子设备的结构框图；

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的信息推送方法和电子设备进行详细地说明。

图1是根据一示例性实施例示出的一种信息推送过程的架构图。本申请实施例所提供的信息推送方法，可以应用于如图1所示的架构中，具体结合图1进行详细说明。

如图1所示，该架构图中可以包括信息推送***11和用户12。其中，信息推送***11可集成在手机、平板电脑、一体机等具有通讯功能的电子设备中，也可以集成在虚拟机或模拟器模拟的设备中，还可以集成在云服务器或者服务器集群等具有存储以及计算功能的电子设备中。另外，信息推送***中具体可以包括对象推送模型，该模型可以是基于强化学习算法构建得到，且可输出得到多个推送对象，以生成推送信息，提供给用户12。

基于上述架构，用户12可通过访问信息推送***11所在电子设备上的应用程序或特定网站，亦或是，通过用户12使用的其他电子设备获取信息推送***11所在电子设备上的信息推送服务，接收信息推送***推送的信息。然后，用户12从该推送信息中选取一个推送对象，根据该选取结果获得的收益值，对该对象推送模型进行更新，以在下一时刻向用户12或其他用户提供更新的推送信息。其中，下一时刻可以是用户12下一次接收推送信息的时刻，该时刻可以是预设时刻，也可以是用户12触发主动获取推送信息的时刻，在此不作限定。

具体的，本申请实施例中可将信息推送***11作为智能体(Agent)，用户12的选择过程作为环境(Environment)。基于此，Agent与Environment之间进行交互的过程可以是：将信息推送***11在t时刻给用户12推送的多个对象，作为Agent提供给Environment的动作空间(Action)；将用户12选中目标对象后产生的收益值，作为t+1时刻Environment反馈给Agent的奖励(Reward)；同时，将目标对象对应的特征信息，作为Agent所能感知的Environment在t+1时刻的状态(State)，进而完成对Agent，也即信息推送***11推送策略的更新，在t+1时刻按照新的推送策略向用户12提供推送信息，如此循环。

需要说明的是，由于本申请是采用强化学习算法来代替现有的监督学习算法，而基于强化学习算法的特性，本申请实施例是根据每次模型输出的结果在环境中实施时获得的“收益”，来进行模型更新的，因此，不仅能够考虑到用户个人选择倾向这一影响因素，还能兼顾用户每次选择所带来的收益等多种因素。如此，通过用户与信息推送***中的对象推送模型之间长期的交互和学习，可以使对象推送模型得到不断更新优化，从而在将获得最大“收益”作为目标时，可以使得信息推送***输出的推送结果所带来的长期累积“收益”最大化，提高推送效果。

为了进一步提高推送效果，第一输入对应的收益值具体可以由以下两个因素决定：一是基于该用户的第一输入所带来的所有收入，二是基于该用户的第一输入所带来的损失。具体的，可将收益值定义为交易失败时的预设值，以及交易成功时的由该用户带来的收入与损失之间的差值。

另外，本申请实施例中所涉及的对象包括但不限于商品、机构等，其中，机构可以是金融机构，例如信贷机构、保险机构、投资理财机构等。相应的，本申请实施例提供的信息推送方法可应用于商品推荐、信贷业务推荐、保险业务推荐、理财业务推荐等场景。

以信贷业务推荐的场景为例，信息推送***所在推荐平台向用户推送包含多个信贷机构的机构列表以供用户选择，在用户选择向机构列表中的信贷机构A申请借贷后，***根据该用户是否通过信贷机构A的审核，以及在通过审核的情况下由该用户带来的收入和损失，来获取相应的收益值，其中，由该用户带来的收入例如可以包括推荐平台收取的中介费和信贷机构A借款所获利息等所有收入，而损失例如可以包括逾期或坏账等所带来的损失。将获取的收益值以及信贷机构A的特征信息作为对象推送模型的输入信息，对对象推送模型进行更新，进而在下次推送时，向用户提供更新的机构列表。

由此，上述方案由于既能够考虑到用户与机构之间双选成功的概率，又能够考虑到各方所获收益的大小，因此，可以解决现有技术中由于仅考虑用户与机构之间双选成功的概率，而忽略双选成功后各方所获收益大小，长此以往，导致推荐效果不佳的问题，从而进一步提升流量分发的效率，使得信贷机构、推荐平台以及用户都能达到收益的最大化，提高推荐效果。

根据上述架构，下面结合图2-图3对本申请实施例提供的信息推送方法进行详细说明。

图2是根据一示例性实施例示出的一种信息推送方法的流程图。如图2所示，该信息推送方法具体可以包括如下步骤：

首先，步骤210，向第一设备发送推送信息，推送信息包括对象推送模型输出得到的多个推送对象，多个推送对象包括目标对象。

其次，步骤220，在第一设备接收到用户针对目标对象的第一输入的情况下，获取第一输入对应的收益值。

接着，步骤230，根据收益值，对对象推送模型进行更新。

然后，步骤240，根据更新后的对象推送模型，向第二设备发送更新后的推送信息。

由此，通过采用强化学习算法构建的对象推送模型，为用户提供推送信息，利用用户与对象推送模型之间长期的交互和学习，使得对象推送模型得到不断更新优化，由于强化学习算法不仅能考虑到用户选择倾向的影响因素，还能兼顾用户每次选择所带来的后续收益量等多种因素，根据用户每次对象选择结果带来的收益值更新对象推送模型，进而向用户提供不断更新的推送信息，以期获得长期累积收益的最大化，因此，能够提高推送效果。

下面对上述步骤进行详细说明，具体如下所示：

首先，涉及步骤210，推送信息可以是信息推送***推送给用户的推送对象列表。该推送对象列表中包括对象推送模型输出得到的多个推送对象，该多个推送对象可按照预设顺序进行排序，其中，预设顺序包括但不限于各推送对象对应的预测收益从大到小的顺序。

此外，本申请实施例中用于输出推送对象的对象推送模型，可以是采用强化学习算法来构建的，进一步的，可以采用深度强化算法进行模型构建。

为了降低计算复杂度的同时达到预期的推送效果，可选的，对象推送模型具体可以为DQN(Deep Q-Learning，深度Q网络)模型，DQN模型的输入数据可以是目标对象对应的特征信息，输出数据可以是更新的推送信息。

其中，强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略，求值函数，和根据值函数来更新策略。而DQN就是将深度学习和强化学习结合起来，从而实现从感知到动作的端对端学习的一种算法。这里需要指明的是，本申请实施例除了可以采用经典的DQN模型来实现，还可以使用其他强化学习模型来实现，在此不作限定。

另外，作为DQN模型的输入数据，目标对象对应的特征信息可以根据对象类型的不同而不同，例如，当对象为商品时，目标对象对应的特征信息可以为商品类型、商品金额、商品购买率等。

可选的，对象可以为金融机构，相应的，目标对象对应的特征信息可以包括：机构类型、平均交易时长、平均交易利率、平均交易额度以及平均交易成功率中的至少一项。

此处，金融机构可以包括信贷机构、保险机构、投资理财机构等，例如，本申请实施例中的对象为信贷机构时，对应的，被用户选中的目标信贷机构所对应的特征信息可以包括：信贷机构类型(例如，消金公司、现金贷、车贷等)，平均放款时长、平均放款利率、平均放款额度、机构放款申请的平均通过率等。

其次，涉及步骤220，第一输入具体可以是第一设备的用户对目标对象的选中操作，例如，第一设备的用户从推送信息包括的多个推送对象中，点击选择目标对象；进一步的，第一输入也可以是第一设备的用户选中目标对象后的交易操作，例如，选中目标对象后跳转至设定交易界面，用户在该界面上点击选择购买按键或者申请交易按键。

另外，第一输入对应的收益值可以是由第一输入选中的目标对象在环境中实施而产生的奖励。在其中一种可选实施方式中，第一输入对应的收益值可以包括交易失败情况下的预设值，以及交易成功情况下由用户带来的收入与损失之间的差值。

这里，预设值例如可以是0，由用户带来的收入可以包括各方由此带来的收入总和，损失可以包括各方由此带来的损失总和。其中，收入可以是收入金额，例如借款利息、推荐费等，而损失不仅可以包括损失金额，还可以包括有可能给推荐效果带来负面影响的金额数，例如逾期或坏账的金额数等。在信贷业务场景中，交易成功可表现为放款申请审核通过，交易失败可表现为放款申请审核不通过。而在商品推荐场景中，交易成功可表现为购买成功，交易失败可表现为购买失败。具体的，收益值的计算公式可定义为：

其中，R(s,a)为输入状态为s，输出动作为a时的收益值，Gain为收入总和，Loss为损失总和。

如此，在考虑到交易成功概率的基础上，还能够考虑到交易成功后有可能带来的负面影响，从而兼顾推送风险，提升流量分发的效率，使得对象推送后各方都能达到收益的最大化，进一步提高推荐效果。

最后，涉及步骤230和步骤240，在获得第一输入对应的收益值后，可根据该收益值，采用强化学习算法中的“贪婪”策略，对对象推送模型进行模型参数的更新，以在向用户提供的更新的推送信息时，可以获取更高的收益。具体的，可将目标对象对应的特征信息输入至对象推送模型中，并利用收益值更新模型参数，使得模型推送结果能够达到更高的收益目标。

这里，第二设备可以就是原来的第一设备，也可以是除第一设备之外的其他新设备，在此不作限定。第一设备和第二设备可以为移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

基于此，在其中一种可选的实施例中，如图3所示，除了步骤210至步骤220外，步骤230具体可以包括：步骤2301至步骤2303，具体如下所示：

步骤2301，根据第一输入对应的收益值，确定基于第一输入预测得到的收益价值。

这里，收益价值例如可以是强化学习算法中的值函数Q(s，a)的取值，其中，s为输入的状态，a为输出的动作空间，每一个状态-动作对(s，a)，都对应于一个值函数Q(s，a)。值函数Q(s，a)具体可以定义为：

Q(s_t，a_t)＝R(s_t，a_t)+γ*max{Q(s_t+1，a_t+1)}

其中，Q(s_t，a_t)为t时刻基于第一输入预测得到的收益价值，R(s_t，a_t)为t时刻第一输入对应的收益值，Q(s_t+1，a_t+1)为基于第一输入预测得到的t+1时刻的收益价值，γ为网络参数。

步骤2302，根据收益价值，确定对象推送模型对应的损失函数。

这里，以DQN模型为例，损失函数(Loss Fuction)可以被定义为：

L＝E[(r+γ*max_a′Q(s′，a′)-Q(s，a))²]

其中，L为损失函数，r为收益价值，Q(s,a)为基于第一输入预测得到的收益价值，Q(s’,a’)为目标值函数，该目标值函数的取值可伴随模型与用户之间的交互而不断更新。

当然，以上仅为举例，不同的模型可对应于不同的损失函数计算公式，可根据实际所采用的模型来具体确定对应的损失函数，在此不再赘述。

步骤2303，根据损失函数，对对象推送模型进行更新。

这里，可通过该损失函数，采用梯度下降法进行模型更新，以使对象推送模型输出的推送结果能够获得更高的收益。

这样，本申请实施例中不仅能够将用户与推送信息进行精确匹配，提升用户对推送对象的选中概率，还能够通过收益值，关注到选中操作后带来的收益大小，以及通过预测得到的收益价值，关注到后续收益大小，从而可以保证推送***所获累积收益最大，提高推荐效果。

综上，为了便于理解本公开实施例提供的信息推送方法，以下结合实际应用场景对本公开实施例提供的信息推送方法进行说明。

在一个具体实施例中，应用于信贷业务场景，如在图1所示的架构中，各参数的意义可如下所示：

(1)智能体(Agent)：信息推送***11；

(2)环境(Environment)：用户12在申请借款过程中与信息推送***11的交互；

(3)状态(State)：用户12在时间维度t上所申请借款的机构的特征，作为Agent所能感知的状态，令s代表状态：

s＝(org type,rate,loan time,loanamount,cvr)

其中，orgtype为信贷机构类型，loantime代表机构的平均放款时长、rate代表平均放款利率、loanamount代表平均放款额度，cvr代表机构放款申请的平均通过率；

(4)动作空间(Action)：在t时刻信息推送***11给用户12推荐的贷款机构列表；

(5)奖励(Reward)：包括放款申请审核被拒绝时获得奖励为0，以及审核通过时，获得奖励为由本次借款所获利息以及推荐费减去逾期产生的坏账金额，得到的差值。

由此，通过如图1所示的方式，使得用户12与信息推送***11之间不断进行交互与“学习”，最终可以使得***的长期累积“收益”最大化。

需要说明的是，上述本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

另外，本申请实施例提供的信息推送方法，执行主体可以为信息推送装置，或者该信息推送装置中的用于执行信息推送方法的控制模块。本申请实施例中以信息推送装置执行信息推送方法为例，说明本申请实施例提供的信息推送装置。

图4是根据一示例性实施例示出的一种信息推送装置的结构示意图。

如图4所示，信息推送装置400具体可以包括：

信息发送模块401，用于向第一设备发送推送信息，所述推送信息包括对象推送模型输出得到的多个推送对象，所述多个推送对象包括目标对象；

收益获取模块402，用于在所述第一设备接收到用户针对所述目标对象的第一输入的情况下，获取所述第一输入对应的收益值；

模型更新模块403，用于根据所述收益值，对所述对象推送模型进行更新；

推送更新模块404，用于根据更新后的对象推送模型，向第二设备发送更新后的推送信息。

下面对上述信息推送装置400进行详细说明，具体如下所示：

在其中一个实施例中，模型更新模块403具体可以包括：价值确定子模块、函数确定子模块和模型更新子模块，其中：

价值确定子模块，用于根据第一输入对应的收益值，确定基于所述第一输入预测得到的收益价值。

函数确定子模块，用于根据所述收益价值，确定对象推送模型对应的损失函数；

模型更新子模块，用于根据损失函数，对对象推送模型进行更新。

在其中一个实施例中，第一输入对应的收益值具体可以包括交易失败情况下的预设值，以及交易成功情况下由用户带来的收入与损失之间的差值。

在其中一个实施例中，对象推送模型可以为深度Q网络DQN模型，DQN模型的输入数据可以为目标对象对应的特征信息，输出数据可以为更新的推送信息。

在其中一个实施例中，对象具体可以包括金融机构。

在其中一个实施例中，目标对象对应的特征信息具体可以包括：机构类型、平均交易时长、平均交易利率、平均交易额度以及平均交易成功率中的至少一项。

由此，通过采用强化学习算法构建的对象推送模型，为用户提供推送信息，利用用户与对象推送模型之间长期的交互和学习，使得对象推送模型得到不断更新优化，由于强化学习算法不仅能考虑到用户选择倾向的影响因素，还能兼顾用户每次选择所带来的后续收益量等多种因素，根据用户每次对象选择结果带来的收益值更新对象推送模型，进而向用户提供不断更新的推送信息，以期获得长期累积收益的最大化，因此，能够针对不同的用户提高信息推送的准确性，进而提高推送效果。

本申请实施例中的信息推送装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是服务器、云服务器或者服务器集群等，本申请实施例不作具体限定。

本申请实施例中的信息推送装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的信息推送装置能够实现图2至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述信息推送方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：输出单元601、存储器602、以及处理器603等部件。

本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器603逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输出单元601，用于向第一设备发送推送信息，推送信息包括对象推送模型输出得到的多个推送对象，多个推送对象包括目标对象；

处理器603，用于在第一设备接收到用户针对目标对象的第一输入的情况下，获取第一输入对应的收益值；根据收益值，对对象推送模型进行更新；

输出单元601，还用于根据更新后的对象推送模型，向用户提供更新的推送信息。

可选的，处理器603，还用于根据第一输入对应的收益值，确定基于第一输入预测得到的收益价值；根据收益价值，确定对象推送模型对应的损失函数；根据损失函数，对对象推送模型进行更新。

由此，本申请实施例中不仅能够将用户与推送信息进行精确匹配，提升用户对推送对象的选中概率，还能够通过收益值，关注到选中操作后带来的收益大小，以及通过预测得到的收益价值，关注到后续收益大小，从而可以保证推送***所获累积收益最大，提高推荐效果。

应理解的是，本申请实施例中，存储器602可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器603可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器603中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述信息推送方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述信息推送方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种信息推送方法，其特征在于，包括：

根据所述收益值，对所述对象推送模型进行更新；

2.根据权利要求1所述的方法，其特征在于，所述根据所述收益值，对所述对象推送模型进行更新，包括：

根据所述第一输入对应的收益值，确定基于所述第一输入预测得到的收益价值；

根据所述收益价值，确定所述对象推送模型对应的损失函数；

根据所述损失函数，对所述对象推送模型进行更新。

3.根据权利要求1所述的方法，其特征在于，所述第一输入对应的收益值包括交易失败情况下的预设值，以及交易成功情况下由所述用户带来的收入与损失之间的差值。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对象推送模型为深度Q网络DQN模型，所述DQN模型的输入数据为所述目标对象对应的特征信息，输出数据为所述更新的推送信息。

5.根据权利要求4所述的方法，其特征在于，所述目标对象对应的特征信息包括：机构类型、平均交易时长、平均交易利率、平均交易额度以及平均交易成功率中的至少一项。

6.一种信息推送装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述模型更新模块，具体包括：

价值确定子模块，用于根据所述第一输入对应的收益值，确定基于所述第一输入预测得到的收益价值；

函数确定子模块，用于根据所述收益价值，确定所述对象推送模型对应的损失函数；

模型更新子模块，用于根据所述损失函数，对所述对象推送模型进行更新。

8.根据权利要求6所述的装置，其特征在于，所述第一输入对应的收益值包括交易失败情况下的预设值，以及交易成功情况下由所述用户带来的收入与损失之间的差值。

9.根据权利要求6-8任一项所述的装置，其特征在于，所述对象推送模型为深度Q网络DQN模型，所述DQN模型的输入数据为所述目标对象对应的特征信息，输出数据为所述更新的推送信息。

10.根据权利要求9所述的装置，其特征在于，所述目标对象对应的特征信息包括：机构类型、平均交易时长、平均交易利率、平均交易额度以及平均交易成功率中的至少一项。