CN111046156B

CN111046156B - 奖励数据的确定方法、装置和服务器

Info

Publication number: CN111046156B
Application number: CN201911199043.6A
Authority: CN
Inventors: 张琳; 梁忠平
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-10-13
Anticipated expiration: 2039-11-29
Also published as: CN111046156A

Abstract

本说明书提供了奖励数据的确定方法、装置和服务器。在一个实施例中，奖励数据的确定方法通过先获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据；再通过调用事先训练好的预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及当前动作策略数据，确定出反馈给预设的提问模型的用于强化学习的奖励数据。从而能够快速、准确地获取用于强化学习的奖励数据。

Description

奖励数据的确定方法、装置和服务器

技术领域

本说明书属于互联网技术领域，尤其涉及奖励数据的确定方法、装置和服务器。

背景技术

在许多场景(例如，APP的客服答复场景)中，为了提高用户的使用体验，常常会利用预先训练建立的模型来根据所采集的用户的行为数据(例如用户针对所展示的多组标签的点击操作)，自动预测出用户想要提问的具体问题。再针对该问题，及时地搜索并向该用户反馈相应的答案。

其中，上述模型通常需要通过强化学习才能获得。在通过强化学习训练相关模型的过程中，具体又需要使用合适的奖励数据反馈给模型，以便可以利用奖励数据不断地引导模型找到较优的处理策略，来预测用户想要提问的目标问题。

因此，亟需一种能够获取用于强化学习的奖励数据的方法。

发明内容

本说明书提供了一种奖励数据的确定方法、装置和服务器，以快速、准确地获取用于强化学习的奖励数据。

本说明书提供的一种奖励数据的确定方法、装置和服务器是这样实现的：

一种奖励数据的确定方法，包括：获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

一种奖励数据的确定方法，包括：获取当前状态数据，以及预设的处理模型根据所述当前状态数据所确定的当前动作策略数据；调用预设的奖励模型根据所述当前状态数据，以及所述当前动作策略数据，确定出反馈给预设的处理模型的奖励数据。

一种奖励数据的确定装置，包括：获取模块，用于获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；确定模块，用于调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

本说明书提供的一种奖励数据的确定方法、装置和服务器，通过先获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据；再通过调用事先训练好的预设的奖励模型根据上述第一样本用户针对当前标签的点击状态数据，以及当前动作策略数据，确定出反馈给预设的提问模型的奖励数据，用于对预设的提问模型进行强化学习。从而能够快速、准确地获取训练效果较好的用于强化学习的奖励数据。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是在一个场景示例中，应用本说明书实施例提供的奖励数据的确定方法的一种实施例的示意图；

图2是在一个场景示例中，应用本说明书实施例提供的奖励数据的确定方法的一种实施例的示意图；

图3是在一个场景示例中，应用本说明书实施例提供的奖励数据的确定方法的一种实施例的示意图；

图4是本说明书的一个实施例提供的奖励数据的确定方法的流程示意图；

图5是本说明书的一个实施例提供的获取预设的奖励模型的示意图；

图6是本说明书的一个实施例提供的服务器的结构组成示意图；

图7是本说明书的一个实施例提供的奖励数据的确定装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种奖励数据的确定方法，所述奖励数据的确定方法具体可以应用于数据处理***的服务器中。

具体实施时，上述服务器具体可以用于获取并利用第一样本用户针对多组标签的点击操作数据，以及第一样本用户的目标问题，通过强化学习，训练得到能够根据用户针对多组标签的点击操作预测用户想要提问的目标问题的符合要求的预设的提问模型。在具体进行强化学习的过程中，上述服务器可以先获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；再调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。进而后续可以通过上述方式，不断地利用基于上述方式得到的奖励数据来引导训练预设的提问模型找到较好的策略较为准确地预测用户想要提出的目标问题，得到符合要求的预设的提问模型。

在本实施例中，所述服务器具体可以包括一种应用于业务平台一侧，能够实现数据传输、数据处理等功能的后台业务服务器。具体的，所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在一个场景示例中，可以参阅图1所示，可以应用本说明书实施例提供的奖励数据的确定方法自动确定出合适的奖励数据，进而可以利用上述奖励数据不断地通过强化训练得到符合要求的预设的提问模型。

在本场景示例中，A网络公司计划在自己发布的某宝的手机APP上增加一个智能的客服答复功能，以及时、快速地解答用户在使用该APP时出现的问题。为了提高用户的使用体验，A网络公司希望训练一个针对上述客服答复场景的预设的提问模型，通过该模型用户可以不用直接输入想要提问的问题，而是引导、采集并根据用户提问时的行为数据来智能地确定出用户想要提问的问题，再根据所确定出的问题为用户反馈该问题的答案。

具体的，参阅图2所示，当用户点击安装在手机上的某宝APP的首页面中的客服图标“我的客服”时，会进入“我的客服”中的客服对话界面。这时，该APP可以根据当前登录用户的用户属性信息(例如，用户的性别、年龄、交易记录、学历等等)，依次向用户展示出多组标签。用户可以根据自己所要提问的问题，分别点击手机上所展示出各组标签中的一个或多个标签。该APP则会采集用户针对上述标签的点击操作，作为用户提问时的行为数据，并通过预设的提问模型根据所述行为数据，结合预设的问题库，确定出用户想要提问的标准问题。例如确定出用户想问的标准问题是“如何查询交易记录”。进一步，该APP可以搜索与该标准问题匹配的答案反馈给用户。具体可以参阅图3所示。

其中，上述标签具体可以包括相关业务的名称标签，例如“交易业务”等；也可以包括业务中支持的操作的名称标签，例如“查询”等；还可以包括业务中所涉及的操作指定对象的名称标签，例如“交易订单”等。当然，上述所列举的标签只是一种示意性说明。具体实施时，根据具体的业务场景和处理需要，还可以包括其他内容或形式的标签。对此，本说明书不作限定。

为了实现上述功能，首先需要训练得到能够根据所采集到的用户针对所展示的标签的点击操作来预测用户下一步动作，以及用户想要提问的问题的预设的提问模型。

在本场景示例中，服务器可以利用事先采集的样本数据，例如参与测试的第一样本用户针对多组标签的点击操作数据，以及第一样本用户所提的目标问题，通过强化学习的方式来训练、建立得到符合要求的预设的提问模型。

具体的，服务器可以先建立出一个初始的策略模型，再利用上述初始的策略模型基于所建立的处理策略来根据第一样本用户针对标签的点击操作数据，来预测第一样本用户下次要点击的标签，以及最终该第一样本用户想要提问的目标问题。进一步，再针对上述预测结果反馈给模型对应的奖励数据，以便使得上述初始的策略模型在每次预测后，都可以根据所得到的奖励数据，不断地优化模型所使用的处理策略，从而使得能够逐渐地学习并建立出较为准确的处理策略，基于上述处理策略能更加准确地根据用户针对标签的点击操作预测出该用户所要提出的目标问题。

具体实施时，服务器可以将样本数据中第一样本用户A当前针对所展示的第一组标签的点击状态数据(可以记为S1)：用户A点击了标签1和标签2，以及用户A的用户特征数据，例如，用户A的性别、年龄、职业、月收入等输入至上述初始的策略模型中，并运行该初始的策略模型，使得上述初始的策略模型可以基于当前所拥有的处理策略，来根据上述用户A当前的标签点击状态数据，以及用户A的用户特征，预测出该用户A针对下一组所展示的标签(例如，第二组标签)的点击操作为：点击了标签4和标签5，作为针对用户A当前标签的点击状态数据所预测的下一步的动作策略数据(可以记为a1)。

进一步，服务器可以针对初始的策略模型根据原来的处理策略所预测出的上述动作策略数据，确定出对应的奖励数据(可以记为r1)，以引导初始的策略模型不断地改进、优化所使用的处理策略。

具体的，服务器可以将初始的策略模型预测出的用户A的动作策略数据a1，以及用户A的当前标签的点击状态数据(S1)作为模型输入至事先训练好的，用于确定合适的奖励数据的预设的奖励模型中，并运行上述预设的奖励模型，得到与a1和S1对应的模型输出，作为反馈给上述初始的策略模型的针对状态数据S1和针对状态数据S1所采用的动作策略数据a1的奖励数据，记为r1。以便后续上述初始的策略模型可以根据上述奖励数据r1学习并调整之前所使用的处理策略，进而能够采用更好的处理策略更加准确地预测出用户的动作策略数据。

进一步，上述处理的策略模型可以根据所预测出的动作策略数据a1，更新用户A的标签点击状态数据，得到下一个用户A的标签点击状态数据(可以记为S2)：用户A点击了标签4和标签5。这时，服务器可以将上述新更新的标签点击状态数据S2作为当前的标签点击状态，连同用户A的用户特征作为模型输入，输入至初始的策略模型，并运行该策略模型，以预测出针对该状态的下一个动作策略数据(可以记为a2)：用户A提问如何查询交易记录。即，预测出了用户A想要提问的目标问题是如何查询交易记录。

同样，服务器还会将上述标签点击状态数据S2和预测出的对应的动作策略数据a2作为模型输入，输入至预设的奖励模型中，并通过运行上述预设的奖励模型得到对应的模型输出，作为反馈给上述初始的策略模型的针对状态数据S2和针对状态数据S2所采用的动作策略数据a2的奖励数据r2。

进而，服务器可以根据上述奖励数据r1和r2调整、优化初始的策略模型所使用的处理策略，从而完成了对样本数据中的第一样本用户A的样本数据的强化学习。

按照上述方式，服务器可以不断地利用样本数据对上述策略模型所使用的处理策略进行多次的调整、优化，直到通过策略模型基于所使用的策略所最终确定出的第一样本用户提问的目标问题的误差相对较小，例如误差小于预设的误差值时，完成了强化训练，得到了准确度较高的，符合要求的预设的提问模型。

这样可以不需要依赖技术人员根据相关知识和经验人工地来设置对应的奖励数据，也避免了依赖技术人员设置奖励数据存在的容易出现受技术人员主观因素(例如处理经验、知识背景等因素)影响、奖励数据数值离散、容易出现误差等情况，提高了所确定的奖励数据的准确度，以及确定奖励数据的效率。

在另一个场景示例中，服务器可以先搜集参与测试的第二样本用户的标签点击操作数据，以及第二样本用户的想要提问的目标问题，利用上述数据训练得到能够较为精准地确定出合适的奖励数据的预设的奖励模型。

在本场景示例中，A公司可以组织一批测试用户分别点击APP所展示的多组标签，来描述自己想要提问的目标问题，并最后明确地输入自己想要提问的目标问题。服务器可以采集上述用户的标签点击操作，以及输入的目标问题，作为第二样本用户针对多组标签的点击操作数据，以及第二样本用户的目标问题。例如，采集到参与测试的用户B在所展示的第一组标签中点击了标签2和标签3，在所展示的第二组标签中点击了标签4和标签6，以及用户B在最后的对话框中输入的目标问题：如何查询芝麻信用。

具体实施时，服务器可以先调用初始的策略模型对上述第二样本用户的标签点击数据和目标问题进行强化学习，由有经验的技术人员根据相应的预设的奖励规则，人工对每次初始的预设提问模型针对预设的提问模型所确定的与第二样本用户的状态数据所对应的动作策略数据设置相应的奖励参数。进一步，服务器可以获取技术人员针对同一个第二样本用户的多个动作策略数据的多个奖励参数，并根据多个奖励参数计算出累积奖励。再根据上述累积奖励构建目标损失函数。其中，上述目标损失函数包含有预设的奖励模型。进而可以根据上述目标损失函数，通过求解目标损失函数的最优值，确定出对应的预设的奖励模型中的模型参数，从而建立得到了预设的奖励模型。

在另一个场景示例中，服务器还可以先获取技术人员根据预设的奖励规则，人工设置确定的针对基于初始的策略模型所确定的多个动作策略数据的多个第一奖励参数。同时，服务器还可以建立一个初始的奖励模型，并利用该初始的奖励模型确定出针对基于初始的策略模型所确定的多个动作策略数据的多个第二奖励参数。进而服务器可以根据上述多个第一奖励参数和第二奖励参数，有针对性地多次调整上述初始的奖励模型，直到第一奖励参数和第二奖励参数的差异值小于等于预设的差异阈值，从而得到准确度较高的预设的奖励模型。

在另一个场景示例中，服务器还可以搜集获取历史上通过强化学习训练模型时的历史训练记录。从上述历史训练记录中提取出样本状态数据、样本动作策略数据，以及对应于上述样本状态数据和样本动作策略数据所采用的样本奖励数据。进一步，可以将相互对应的样本状态数据、样本动作策略数据，以及样本奖励数据作为一组训练数据。按照上述方式，可以从历史训练记录中得到用于训练奖励模型的多组训练数据。再通过对上述多组训练数据的模型学习，建立得到能够根据状态数据和对应状态数据的动作策略数据来确定出合适的奖励数据的预设的奖励模型。

当然，需要说明的是，上述所列举的获取预设的奖励模型的方式只是一种示意性说明。具体实施时，可以根据具体情况和处理需求选择其中一种，或者除上述所列举的获取方式以外其他合适的获取方式来获取预设的奖励模型。对此，本说明书不作赘述。

参阅图4所示，本说明书实施例提供了一种奖励数据的确定方法，其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容。

S401：获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题。

在一些实施例中，上述第一样本用户针对当前标签的点击状态数据具体可以包括：参与训练预设的提问模型的用户针对所展示的多组标签中的当前标签的点击操作数据。例如，第一样本用户针对当前所展示的第二组标签中点击了该组标签中的标签4和标签5，而没有点击该组中的其他标签(例如标签1、标签2和标签3)。

其中，上述标签具体可以包括与问题相关联，能够描述问题的某一个或多个相关属性特征的标签数据。上述预设的提问模型具体可以包括一种能够根据用户针对所展示的标签点击操作来预测用户下一步动作，以及用户想要提问的目标问题的模型。

在一些实施例中，具体实施时，服务器可以先向上述第一样本用户按顺序依次展示多组不同标签。例如，先展示第一组标签，再展示第二组标签等。上述第一样本用户可以根据自己想要提问的目标问题，分别选中点击所展示的各组标签中与目标问题相关联的，能够描述目标问题的某一个或多个相关属性特征的标签。同时，第一样本用户还会按照指示，输入自己想要提问的目标问题。这样服务器可以采集获取第一样本用户对多组标签的点击操作数据，以及与上述点击操作数据对应的该第一样本用户的目标问题，作为后续用于训练、建立预设的提问模型的样本数据。

在一些实施例中，服务器可以利用所采集的上述样本数据(包括第一样本用户的针对标签的点击操作数据以及第一样本用户的目标问题)，进行强化学习，以建立得到准确度较高的，符合要求的预设的提问模型。

具体实施时，服务器可以先建立一个初始的策略模型作为预设的提问模型。其中，通过上述预设的提问模型可以随机生成相应的处理策略，并基于上述处理策略来根据用户当前的标签点击状态数据来预测用户下一步的动作数据(可以记为动作策略数据)，包括用户下一步可能点击的标签，或者用户想要提问的目标问题等。

具体的，服务器可以将所获取的第一样本用户针对当前标签的点击状态数据(例如，第一样本用户D在所展示的第一组标签中选中点击了标签1和标签2，没有点击该组标签中的其他标签)作为模型输入，输入至上述预设的提问模型。运行上述预设的提问模型，使得该预设的提问模型可以基于所拥有的处理策略，根据该第一样本用户针对当前标签的点击状态数据得到与该第一样本用户针对当前标签的点击状态数据对应的模型输出(例如，第一样本用户D在接下来所展示的第二组标签中会选中并点击标签6和标签7，而不会点击该组标签中的其他标签)，作为对应的当前动作策略数据，从而预测出了该样本用户下一步较高概率可能采取的动作。

但是，由于上述预设的提问模型是基于随机生成的处理策略来进行预测的，这种处理策略还没有对样本数据进行学习，因此该处理策略本身的准确度就并不高，在基于该处理策略预测动作策略数据时误差往往会相对较大，使得预设的提问模型不符合要求。

在本实施例中，具体实施时，可以基于强化学习，利用上述预设的提问模型基于所拥有的处理策略来根据第一样本用户的标签点击状态数据预测对应的动作策略数据。再根据所预测出的动作策略数据，结合对应的第一样本用户的标签点击状态数据确定出奖励数据。进而可以利用上述奖励数据引导预设的提问模型不断地优化、改进所使用的处理策略，从而能够基于优化、改进后的处理策略，更加准确地基于用户针对标签的点击状态数据预测用户的动作策略数据，确定出用户想要提问的目标问题。

其中，上述奖励数据具体可以包括一种用于引导强化学习的学习方向的参数数据。根据上述奖励数据，在强化学习过程中，模型能够具有相对更高的概率自动向较优的处理策略的学习方向进行学习和改进，以不断地调整、优化所使用的处理策略。

通常在确定奖励数据的过程中，是由技术人员基于自身的知识背景和处理经验，根据预设的提问模型基于所使用的处理策略针对每一次的用户的标签点击状态数据所预测的动作策略数据，人工设置一个合适的奖励数值作为奖励数据反馈给预设的提问模型。

按照上述方式所确定的奖励数据往往受技术人员主观因素(包括技术人员的知识背景、处理经验等)影响，导致所确定的奖励数据往往不够准确、稳定，容易出现误差。此外，由于是通过技术人员人工来设置具体的奖励数据，导致所确定的多个奖励数据往往在数值上是离散、不连续的，使得在引导预设的提问模型的优化、改进的所使用的处理策略时往往效果不够理想。

而在本实施例中，具体实施时，服务器可以使用预先训练好的预设的奖励模型来根据每一次输入至预设的提问模型的第一样本用户针对当前标签的点击状态数据，以及预设的提问模型基于上述针对当前标签的点击状态数据所确定出的当前动作策略数据来自动、精准地确定出合适的奖励数据，而不需要依赖技术人员人工设置奖励数据。

S403：调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

其中，上述预设的奖励模型具体可以包括一种事先训练好的能够根据用户针对标签的点击状态数据，以及对应该点击状态数据所预测出的动作策略数据来确定反馈给模型用于强化学习训练的奖励数据的模型。

在一些实施例中，具体实施时，服务器可以将上述第一样本用户针对当前所展示的标签的点击状态数据，以及通过上述预设的提问模型根据上述第一样本用户针对当前所展示的标签的点击状态数据所确定出的与上述标签的点击状态数据对应的当前动作策略数据作为一组模型输入，输入至上述预设的奖励模型中。并运行上述预设的奖励模型，得到对应该组的模型输入的模型输出，作为针对预设的提问模型根据上述第一样本用户针对当前所展示的标签的点击状态数据所确定出的当前动作策略数据时所采用的处理策略的奖励数据。

在一些实施例中，在通过上述方式得到反馈给预设的提问模型的奖励数据后，服务器进一步还可以利用上述奖励数据，对预设的提问模型进行强化学习，使得预设的提问模型能够根据上述奖励数据不断地修改、优化所使用的处理策略。进而使得后续预设的提问模型在对相同或者近似的标签的点击状态数据所对应的动作策略进行预测判断时，能够采用修改后、优化了的处理策略来更加准确地确定出所对应的动作策略数据，提高了预设的提问模型的模型精度。

由上可见，本说明书实施例提供的奖励数据的确定方法，通过先获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据；再通过调用事先训练好的预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及当前动作策略数据，确定出反馈给预设的提问模型的奖励数据，来对预设的提问模型进行强化学习。从而能够快速、准确地获取用于强化学习的奖励数据。

在一些实施例中，所述预设的奖励模型具体可以按照以下方式获取：获取第二样本用户针对多组标签的点击操作数据，以及第二样本用户的目标问题作为样本数据；通过学习所述样本数据，以获取预设的奖励模型。

在一些实施例中，具体实施时，服务器可以预先向参与测试的第二样本用户展示多组标签，引导第二样本用户通过点击每组中的相关标签来描述想要提问的目标问题，从而可以采集得到第二样本用户针对多组标签的点击操作数据。同时，服务器还会引导用户最后，或在刚开始的时候输入所要提问的目标问题，从而服务器可以同时采集得到与上述第二样本用户针对多组标签的点击操作数据所对应的目标问题。并将上述第二样本用户针对多组标签的点击操作数据，以及与上述第二样本用户针对多组标签的点击操作数据所对应的目标问题组合在一起作为一组数据。按照上述方式，可以获取得到多组上述数据，作为用于训练预设的奖励模型的样本数据。

进一步，可以通过对上述样本数据进行学习，以建立得到预设的奖励模型。

具体实施时，上述学习所述样本数据，以获取预设的奖励模型，可以包括以下内容：根据所述样本数据，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数；根据所述多个奖励参数，确定累积奖励；根据所述累积奖励，构建目标损失函数；根据所述目标损失函数，建立所述预设的奖励模型。

在本实施例中，具体实施时，服务器可以先建立一个初始的策略模型作为预设的提问模型使用，并调用该初始的策略模型对上述样本数据进行强化学习，同时通过技术人员根据相应的预设的奖励规则，人工对通过上述初始的策略模型每一轮针对样本数据中的第二样本用户的点击操作数据所预测出的动作策略数据设置出对应的奖励值作为奖励参数。进一步，服务器可以搜集技术人员针对该初始的策略模型的多轮预测给出的奖励参数，确定出对应累积奖励。进而可以根据上述累积奖励建立包含有预设的奖励模型的目标损失函数。再通过求解上述目标损失函数的最优值，例如极小值，来确定、建立对应的预设的奖励模型。

具体的，可以按照以下方式确定出所述累积奖励：

其中，G_t具体可以表示为累积奖励，r_t具体可以表示为针对样本数据中的第二样本用户的点击操作数据中点击操作数据第t轮预测出的动作策略数据所设置的对应的奖励参数，γ^k具体可以表示为基于上述第t轮预测出的动作策略数据再累积k轮后的折扣数据，γ具体可以表示为折扣因子，T具体可以表示为针对样本数据中的第二样本用户的点击操作数据中点击操作数据所进行的动作策略数据预测的总轮数。

在本实施例中，可以先将预设的奖励模型记为R。进一步，可以根据上述得到的累积奖励，建立得到包含有待确定的预设的奖励模型R的目标损失函数。

具体的，可以按照以下方式，根据上述累积奖励建立对应的包含有预设的奖励模型的目标损失函数：

L₁(σ)＝(R(s_t,a_t；σ)-sigmoid(G_t))²

其中，σ具体可以表示为预设的奖励模型中的模型参数，R具体可以表示为预设的奖励模型，s_t具体可以表示为预设的提问模型第t轮预测时输入的第二样本用户的点击操作数据(或者称点击状态数据)，a_t具体可以表示为基于s_t第t轮预测出来的对应的动作策略数据，sigmoid()具体可以表示为Sigmoid(西格玛)激活函数，L₁具体可以表示为目标损失函数。

其中，上述Sigmoid(西格玛)激活函数具体可以表示为以下形式：

在得到上述目标损失函数后，可以根据上述目标损失函数，建立获得预设的奖励模型。具体的，可以通过不断地寻找、求解目标损失函数的最优值(例如极小值)，来逐步地计算、确定出预设的奖励模型R中各个模型参数σ，从而确定得到了上述预设的奖励模型。

当然，需要说明的是，上述所列举的获取预设的奖励模型的方式只是一种示意性说明。具体实施时，根据具体的应用场景和处理需要，还可以采用其他合适的方式来建立获取预设的奖励模型。

在一些实施例中，具体实施时，还可以通过以下方式来学习样本数据，建立预设的奖励模型。

建立初始的奖励模型；根据所述样本数据和预设的奖励规则，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第一奖励参数；根据所述初始的奖励模型，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第二奖励参数；根据所述多个第一奖励参数和所述多个第二奖励参数，调整所述初始的奖励模型，以得到所述预设的奖励模型。

在本实施例中，上述第一奖励参数具体可以是技术人员根据预设的奖励规则人工针对预设的提问模型(例如初始的策略模型)根据第二样本用户的标签点击操作数据所预测出的动作策略数据设置的奖励值。

在本实施例中，上述第二奖励参数具体可以是通过初始的奖励模型针对预设的提问模型根据同一个第二样本用户的标签点击操作数据所预测点的动作策略数据所确定出的奖励值。

进一步，服务器可以将上述对应同一个预测出的动作策略数据的第一奖励参数和第二奖励参数进行比较，根据比较结果，不断地调整初始的奖励模型中的模型参数，直到基于调整后的奖励模型得到的第二奖励参数与第一奖励参数的差异值小于预设的差异阈值，则确定当前的奖励模型符合精度要求，将当前的奖励模型确定为预设的奖励模型。

在一些实施例中，参阅图5所示，服务器还可以采用另一种方式来建立获取预设的奖励模型。具体的，可以包括：获取历史上通过强化学习训练模型时的历史训练记录。从上述历史训练记录中提取出样本状态数据、样本动作策略数据，以及对应于上述样本状态数据和样本动作策略数据所采用的样本奖励数据。进一步，可以将相互对应的样本状态数据、样本动作策略数据，以及样本奖励数据作为一组训练数据。按照上述方式，可以从历史训练记录中得到用于训练奖励模型的多组训练数据。再通过对上述多组训练数据的模型学习，建立得到能够根据状态数据和对应状态数据的动作策略数据来确定出合适的奖励数据的预设的奖励模型。

在一些实施例中，所述标签具体可以包括：业务的名称标签、业务中操作的名称标签、业务中操作执行对象的名称标签等等。当然，需要说明的是，上述所列举的标签只是一种示意性说明。具体实施时，根据具体的应用场景，还可以引入其他类型和内容的标签。对此，本说明书不作限定。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

为了能够更加准确地完成上述指令，参阅图6所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口601、处理器602以及存储器603，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口601，具体可以用于获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题。

所述处理器602，具体可以用于调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

所述存储器603，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口601可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的80号端口，也可以是负责进行FTP数据通信的21号端口，还可以是负责进行邮件数据通信的25号端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器602可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器603可以包括多个层次，在数字***中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在***中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述奖励数据的确定方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说明书实施例还提供了一种奖励数据的确定方法，该方法具体应用于服务器一侧，具体实施时，可以包括以下内容。

S1：获取当前状态数据，以及预设的处理模型根据所述当前状态数据所确定的当前动作策略数据；

S2：调用预设的奖励模型根据所述当前状态数据，以及所述当前动作策略数据，确定出反馈给预设的处理模型的奖励数据。

在本实施例中，上述当前状态数据具体可以是用于表征目标对象的当前状态的数据。例如，可以是用户当前针对所展示的标签的点击操作数据，也可以是旅客当前所在的城市位置、所在城市天气、所在城市交通等环境数据，还可以是病人当前的血糖值、血压值等健康数据等等。当然，上述所列举的当前状态数据只是一种示意性说明。具体实施时，根据具体的应用场景和处理需要，还可以引入其他内容和类型的数据作为当前状态数据。对此，本说明书不作限定。

在一些实施例中，上述当前动作策略数据具体可以理解为一种基于处理策略所预测出的目标对象基于当前状态数据下一步可能采取的动作数据。其中，上述当前动作策略数据与当前状态数据对应。例如，如果当前状态数据为用户当前针对所展示的标签的点击操作数据。相应的，当前动作策略数据可以是该用户针对下一组所展示的标签的点击操作数据，或者该用户想要提问的目标问题。如果当前状态数据为旅客当前所在的城市位置、所在城市天气、所在城市交通等环境数据。相应的，当前动作策略数据可以是该旅客下一步会选择的交通方式等等。

在一些实施例中，具体实施时，可以将当前状态数据作为模型输入，输入至预设的处理模型中。并运行该预设的处理模型，得到对应的模型输出，作为上述与该当前状态数据对应的当前动作策略数据。

在一些实施例中，上述预设的处理模型具体可以包括一种能够基于所掌握的处理策略，根据当前状态数据预测出对应的当前动作策略数据的模型。

在一些实施例中，在调用预设的奖励模型根据所述当前状态数据，以及所述当前动作策略数据，确定出反馈给预设的处理模型的奖励数据后，所述方法具体实施时，还可以包括以下内容：根据所述奖励数据，对所述预设的处理模型进行强化学习，以得到符合要求的预设的处理模型，其中，所述符合要求的预设的处理模型用于根据状态数据确定出对应于所述状态数据的动作策略。

通过上述实施例，可以使用训练好的预设的奖励模型来替代技术人员，根据预设的处理模型基于当前的状态数据所确定出的当前动作策略数据给出对应的奖励数据，反馈给预设的处理模型，以便后续可以根据上述奖励数据对预设的处理模型进行相应的强化学习，得到准确度较高、效果较好的处理模型。

参阅图7所示，在软件层面上，本说明书实施例还提供了一种奖励数据的确定装置，该装置具体可以包括以下的结构模块。

获取模块701，具体可以用于获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；

确定模块703，具体可以用于调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据。

在一些实施例中，所述装置具体还可以包括强化学习模块，具体可以用于根据所述奖励数据，对所述预设的提问模型进行强化学习，以得到符合要求的预设的提问模型，其中，所述符合要求的预设的提问模型用于根据用户针对多组标签的点击操作数据来预测用户的目标问题。

在一些实施例中，所述装置具体还可以包括建立模块，具体可以用于建立预设的奖励模型，所述建立模块具体可以包括以下结构单元：

获取单元，具体可以用于获取第二样本用户针对多组标签的点击操作数据，以及第二样本用户的目标问题作为样本数据；

学习单元，具体可以用于学习所述样本数据，以获取预设的奖励模型。

在一些实施例中，所述学习单元具体可以用于根据所述样本数据，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数；根据所述多个奖励参数，确定累积奖励；根据所述累积奖励，构建目标损失函数；根据所述目标损失函数，建立所述预设的奖励模型。

在一些实施例中，所述标签具体可以包括：业务的名称标签、业务中操作的名称标签、业务中操作执行对象的名称标签等等。

在一些实施例中，所述学习单元具体还可以用于建立初始的奖励模型；根据所述样本数据和预设的奖励规则，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第一奖励参数；根据所述初始的奖励模型，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第二奖励参数；根据所述多个第一奖励参数和所述多个第二奖励参数，调整所述初始的奖励模型，以得到所述预设的奖励模型。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的奖励数据的确定装置，通过获取模块先获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据；再通过确定模块调用事先训练好的预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及当前动作策略数据，确定出反馈给预设的提问模型的奖励数据，来对预设的提问模型进行强化学习。从而能够快速、准确地获取用于强化学习的奖励数据。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种奖励数据的确定方法，包括：

获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；

调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据；其中，所述预设的奖励模型按照以下方式获取：根据样本数据，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数；根据所述多个奖励参数，确定累积奖励；根据所述累积奖励，构建目标损失函数；根据所述目标损失函数，建立所述预设的奖励模型。

2.根据权利要求1所述的方法，在调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据后，所述方法还包括：

根据所述奖励数据，对所述预设的提问模型进行强化学习，以得到符合要求的预设的提问模型，其中，所述符合要求的预设的提问模型用于根据用户针对多组标签的点击操作数据来预测用户的目标问题。

3.根据权利要求1所述的方法，所述预设的奖励模型按照以下方式获取：

获取第二样本用户针对多组标签的点击操作数据，以及第二样本用户的目标问题作为样本数据；

学习所述样本数据，以获取预设的奖励模型。

4.根据权利要求1所述的方法，所述标签包括：业务的名称标签、业务中操作的名称标签、业务中操作执行对象的名称标签。

5.根据权利要求3所述的方法，通过学习所述样本数据，获取预设的奖励模型，还包括：

建立初始的奖励模型；

根据所述样本数据和预设的奖励规则，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第一奖励参数；

根据所述初始的奖励模型，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第二奖励参数；

根据所述多个第一奖励参数和所述多个第二奖励参数，调整所述初始的奖励模型，以得到所述预设的奖励模型。

6.一种奖励数据的确定方法，包括：

获取当前状态数据，以及预设的处理模型根据所述当前状态数据所确定的当前动作策略数据；

调用预设的奖励模型根据所述当前状态数据，以及所述当前动作策略数据，确定出反馈给预设的处理模型的奖励数据；其中，所述预设的奖励模型按照以下方式获取：根据样本数据，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数；根据所述多个奖励参数，确定累积奖励；根据所述累积奖励，构建目标损失函数；根据所述目标损失函数，建立所述预设的奖励模型。

7.根据权利要求6所述的方法，在调用预设的奖励模型根据所述当前状态数据，以及所述当前动作策略数据，确定出反馈给预设的处理模型的奖励数据后，所述方法还包括：

根据所述奖励数据，对所述预设的处理模型进行强化学习，以得到符合要求的预设的处理模型，其中，所述符合要求的预设的处理模型用于根据状态数据确定出对应于所述状态数据的动作策略。

8.一种奖励数据的确定装置，包括：

获取模块，用于获取第一样本用户针对当前标签的点击状态数据，以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据，其中，所述当前动作策略数据包括：第一样本用户针对下一组标签的点击操作，或者，第一样本用户提出目标问题；

确定模块，用于调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据，以及所述当前动作策略数据，确定出反馈给预设的提问模型的奖励数据；其中，所述预设的奖励模型按照以下方式获取：根据样本数据，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数；根据所述多个奖励参数，确定累积奖励；根据所述累积奖励，构建目标损失函数；根据所述目标损失函数，建立所述预设的奖励模型。

9.根据权利要求8所述的装置，所述装置还包括强化学习模块，用于根据所述奖励数据，对所述预设的提问模型进行强化学习，以得到符合要求的预设的提问模型，其中，所述符合要求的预设的提问模型用于根据用户针对多组标签的点击操作数据来预测用户的目标问题。

10.根据权利要求9所述的装置，所述装置还包括建立模块，用于建立预设的奖励模型，所述建立模块包括：

获取单元，用于获取第二样本用户针对多组标签的点击操作数据，以及第二样本用户的目标问题作为样本数据；

学习单元，用于学习所述样本数据，以获取预设的奖励模型。

11.根据权利要求8所述的装置，所述标签包括：业务的名称标签、业务中操作的名称标签、业务中操作执行对象的名称标签。

12.根据权利要求10所述的装置，所述学习单元具体还用于建立初始的奖励模型；根据所述样本数据和预设的奖励规则，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第一奖励参数；根据所述初始的奖励模型，确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第二奖励参数；根据所述多个第一奖励参数和所述多个第二奖励参数，调整所述初始的奖励模型，以得到所述预设的奖励模型。

13.一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至5中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至5中任一项所述方法的步骤。