CN111814987A

CN111814987A - 动态反馈方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN111814987A
Application number: CN202010647910.4A
Authority: CN
Inventors: 肜博辉; 杨秀君
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-23

Abstract

本申请提供了一种动态反馈方法、模型训练方法、装置、设备及存储介质，其中，该方法包括：接收请求客户端发送的服务请求；若不存在所述服务请求匹配的服务提供方，则获取所述服务请求对应用户的状态信息；根据预设的动作反馈模型，对所述状态信息进行处理，确定目标反馈动作；向所述服务请求对应的请求客户端反馈所述目标反馈动作。从而解决现有技术中向客户端反馈的反馈动作不合适，造成用户流失的问题，达到减少用户负面情绪的作用。

Description

动态反馈方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及模型训练技术领域，具体而言，涉及一种动态反馈方法、模型训练方法、装置、设备及存储介质。

背景技术

随着服务类平台在人们生活中的渗透和普及，例如：外卖、网约车、各大网站或饭店等；越来越多的人在生活中通过在服务类平台上下单，来实现服务类的消费或预约消费。

由于服务类需求的分布不均衡，例如：饭点高峰期、上下班高峰期、恶劣天气等均会导致在特定的场景下，用户需要等待较长的时间才能被服务提供方应答；在等待过程中，用户往往会伴随着焦虑、抱怨、愤怒等负面情绪。一方面，对于用户来说，这些负面情绪严重影响心情，甚至会造成服务平台与用户之间的关系紧张；另一方面，对于服务平台来说，长时间的等待会给用户带来不好的产品体验，进而带来用户的投诉行为和用户流失等负面情况。

现有技术中一般通过简单单一的形式来缓解用户在等待环节的负面情绪，例如通过服务提供方运营的预先统一配置，以消息的形式安抚等待中的用户，但这种方式没有考虑每个用户所处的场景和自身特点，每个用户收到的消息均是一样的，用户容易产生疲劳，即无法避免用户的投诉行为和用户流失等负面情况。

发明内容

有鉴于此，本申请的目的在于提供一种动态反馈方法、模型训练方法、装置、设备及存储介质，能够解决现有技术中单一的反馈方式造成用户产生疲劳，无法避免用户的投诉行为和用户流失等负面情况问题，达到缓解用户等待时的负面情绪的作用。

在本申请的第一方面，本申请提供一种动态反馈方法，所述方法包括：

接收请求客户端发送的服务请求；

若不存在所述服务请求匹配的服务提供方，则获取所述服务请求对应用户的状态信息；

根据预设的动作反馈模型，对所述状态信息进行处理，确定目标反馈动作；

向所述服务请求对应的请求客户端反馈所述目标反馈动作。

可选地，所述方法还包括：

获取所述目标反馈动作反馈之后，所述服务请求的状态变化信息；

根据所述状态变化信息以及所述目标反馈动作，对所述动作反馈模型进行更新。

可选地，所述根据所述状态变化信息以及所述目标反馈动作，对所述动作反馈模型进行更新，包括：

根据所述状态变化信息、所述状态变化信息对应的反馈效果得分、以及所述目标反馈动作，对所述动作反馈模型进行更新。

可选地，所述状态信息包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

第二方面，本申请提供一种动作反馈模型的训练方法，所述方法包括：

获取多组历史数据构成的训练数据集，其中，所述每组历史数据包括：历史状态信息和所述历史状态信息对应的反馈动作；

根据所述训练数据集，采用预设的强化学习算法进行模型训练，得到所述预设的动作反馈模型。

可选地，所述根据所述训练数据集，采用预设的强化学习算法进行模型训练，得到所述预设的动作反馈模型，包括：

对所述训练数据集中的所述多组历史数据进行聚类；

根据聚类后的训练数据集，采用所述强化学习算法进行模型训练，得到所述预设的动作反馈模型。

根据所述训练数据集，以及所述训练数据集对应的业务场景，采用所述强化学习算法进行模型训练，得到所述业务场景对应的所述预设的动作反馈模型。

可选地，所述历史状态信息包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

在本申请的第三方面，本申请还提供了一种动态反馈装置，所述装置包括：接收模块、获取模块、确定模块和反馈模块，其中：

所述接收模块，用于接收请求客户端发送的服务请求；

所述获取模块，用于若不存在所述服务请求匹配的服务提供方，则获取所述服务请求对应用户的状态信息；

所述确定模块，用于根据预设的动作反馈模型，对所述状态信息进行处理，确定目标反馈动作；

所述反馈模块，用于向所述服务请求对应的请求客户端反馈所述目标反馈动作。

可选地，所述装置还包括：更新模块，其中：

所述获取模块，具体用于获取所述目标反馈动作反馈之后，所述服务请求的状态变化信息；

所述更新模块，用于根据所述状态变化信息以及所述目标反馈动作，对所述动作反馈模型进行更新。

可选地，所述更新模块，具体用于根据所述状态变化信息、所述状态变化信息对应的反馈效果得分、以及所述目标反馈动作，对所述动作反馈模型进行更新。

在本申请的第四方面，本申请还提供了一种动作反馈模型的训练装置，所述装置包括：获取模块和训练模块，其中：

所述获取模块，用于获取多组历史数据构成的训练数据集，其中，所述每组历史数据包括：历史状态信息和所述历史状态信息对应的反馈动作；

所述训练模块，用于根据所述训练数据集，采用预设的强化学习算法进行模型训练，得到所述预设的动作反馈模型。

可选地，所述装置还包括：聚类模块，其中：

所述聚类模块，用于对所述训练数据集中的所述多组历史数据进行聚类；

所述训练模块，具体用于根据聚类后的训练数据集，采用所述强化学习算法进行模型训练，得到所述预设的动作反馈模型。

可选地，所述训练模块，具体用于根据所述训练数据集，以及所述训练数据集对应的业务场景，采用所述强化学习算法进行模型训练，得到所述业务场景对应的所述预设的动作反馈模型。

在本申请的第五方面，提供一种动态反馈设备，处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当动态反馈设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面任一所述方法的步骤。

在本申请的第六方面，提供一种动态反馈模型的训练设备，处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当动作反馈模型的训练模型的训练设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第二方面任一所述方法的步骤。

在本申请的第七方面，本申请还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面或第二方面任一所述方法的步骤。

基于上述任一方面，采用本申请提供的动态反馈方法，可以在不存在与服务请求匹配的服务提供方时，获取服务请求对应用户的当前状态信息，并根据预设的动作反馈模型对状态信息进行处理后，确定目标反馈动作，随后向服务请求对应的请求客户端反馈目标反馈动作，由于每个目标反馈动作均是根据各用户的当前状态信息确定的，从而使得目标反馈动作是个性化的，不同用户对应的目标反馈动作可能不同，即使是同一用户，不同的状态下收到的目标反馈动作也可能不同，解决了现有技术中单一的反馈方式造成用户产生疲劳，无法避免用户的投诉行为和用户流失等负面情况问题，达到缓解用户等待时的负面情绪的作用。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请一实施例提供的一种动态反馈***的结构示意图；

图2示出了本申请一实施例提供的一种动态反馈方法的流程示意图；

图3示出了本申请一实施例提供的一种动作反馈模型的训练方法的流程示意图；

图4示出了本申请另一实施例提供的一种动作反馈模型的训练方法的流程示意图；

图5示出了本申请另一实施例提供的一种动态反馈方法的流程示意图；

图6示出了本申请一实施例提供的一种动态反馈装置的结构示意图；

图7示出了本申请另一实施例提供的一种动态反馈装置的结构示意图；

图8示出了本申请一实施例提供的一种动作反馈模型的训练装置的结构示意图；

图9示出了本申请另一实施例提供的一种动作反馈模型的训练装置的结构示意图；

图10示出了本申请一实施例提供的一种动态反馈设备的结构示意图；

图11示出了本申请一实施例提供的一种动作反馈模型的训练设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景网约车平台等待接单场景下的动态反馈，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车平台等待接单场景下的动态反馈进行描述，但是应该理解，这仅是一个示例性实施例，本申请可以应用于各种需要进行动态反馈的场景中，例如：外卖平台等餐场景下的动态反馈、代驾平台等待接单场景下的动态反馈、饭店等待排位场景下的反馈、网站下载场景下的反馈等。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种动态反馈***。该***可以在接收客户端发送的服务请求，且当前不存在与该服务请求匹配的服务提供方后，获取客户端对应的用户在当前服务请求下对应的状态信息，并根据预设的动作反馈模型对上述状态信息进行处理，确定并向对应的客户端发送目标反馈动作，其中，服务提供方可以为：网约车、外卖、代驾、饭店、网站等，本申请在此不做任何限制。

值得注意的是，在本申请提出申请之前，现有技术通常使用单一的方法，例如通过简单直接的文案形式来告知用户当前服务请求对应的状态，例如可以为：饭店等待排位场景下反馈给用户“当前前方还有23桌等位”；网站等待下载资源场景下反馈给用户“当前下载速度2M，下载进度30％，预计还需13分钟下载完成”；网约车平台等待接单场景下反馈给用户“前方还有32位等车，预计还需10分钟接单”；但是这种反馈方法由于没有考虑每个用户所处的场景以及自身特点，每个用户收到的反馈均是一样的，用户容易产生疲劳，且无法安抚用户长时间等待下产生的负面情绪；所以这种单一重复的反馈方式会导致用户产生负面情绪影响心情，进而带来投诉或用户损失的情况。

本申请提供的动态反馈方法，可以在不存在与服务请求匹配的服务提供方时，即用户出于等待应答的状态下时，获取服务请求对应用户的当前状态信息，并根据预设的动作反馈模型对状态信息进行处理后，确定目标反馈动作，随后向服务请求对应的请求客户端反馈目标反馈动作，由于每个目标反馈动作均是根据各用户的当前状态信息确定的，从而使得目标反馈动作是个性化的，解决了现有技术中单一的反馈方式造成用户产生疲劳，无法避免用户的投诉行为和用户流失等负面情况问题，达到缓解用户等待时的负面情绪的作用。

图1是本申请实施例提供的一种动态反馈***100的架构示意图，例如：动态反馈***100可以是用于网约车平台等待接单场景下的动态反馈场景、或是任何涉及动态反馈的任意平台或场景。如图1所示，动态反馈***100可以包括服务器110、网络120、服务终端130和数据库140中的一种或多种。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从服务终端130获得的服务请求来确定用户服务请求当前的状态信息。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(M))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

在一些实施例中，服务终端130对应的设备类型可以是移动设备，比如可以包括可穿戴设备、智能移动设备、平板计算机、膝上型计算机等。以网约车平台等待接单场景下的动态反馈场景为例，服务终端130可以是用户的手机，用户通过安装于手机上的网约车应用程序发起服务请求，网约车应用程序后台根据当前用户信息和各网约车信息，例如：位置信息等，返回对应的服务应答信息，或目标反馈信息。

在一些实施例中，数据库140可以连接到网络120以与动态反馈***100中的一个或多个组件(例如，服务器110，服务终端130，服务提供端等)通信。动态反馈***100中的一个或多个组件可以经由网络120访问存储在数据库140中的数据或指令。在一些实施例中，数据库140可以直接连接到动态反馈***100中的一个或多个组件，或者，数据库140也可以是服务器110的一部分。

下面结合上述图1示出的动态反馈***100中描述的内容，对本申请实施例提供的动态反馈方法进行详细说明，下述动态反馈方法应用于上述***之中，执行主体可以为服务器或用户对应的终端设备来执行，下述实施例中均以网约车平台等待接单场景下的动态反馈场景，执行主体为用户对应的终端设备为例进行说明，且该终端设备上安装有可以用户发送的服务请求对应的服务类的应用程序，具体预设场景可以根据用户需要设计和调整，任何涉及动态反馈的场景或是平台均可使用，本申请在此不做任何限制。

如下结合多个具体的应用示例，对本申请实施例所提供的一种动态反馈方法进行解释说明。参照图2所示，为本申请一实施例提供的一种动态反馈方法的流程示意图，如图2所示，该方法包括：

S201：接收请求客户端发送的服务请求。

可选地，请求客户端可以为可穿戴设备、智能移动设备、平板计算机、膝上型计算机等任意安装有上述服务请求对应的服务类应用程序的智能终端设备；服务请求类型根据服务类提供的服务请求类型确定；例如可以为：在网约车平台下，服务请求类型可能包括：拼车类型、专车类型、顺风车类型或预约类型等；在饭店平台下，服务请求类型可能包括：排位类型或预约类型等；在外卖平台下，服务请求类型可能包括：点餐类型、预约配送类型、跑腿代购类型等；具体服务请求的类型根据服务提供方提供的类型为准，并不以上述实施例给出的为限。

示例地，用户在客户端上确定服务请求的方式可以为：在服务类的应用程序上的多种服务类型中，选择目标服务类型，并发起目标服务类型对应的服务请求；或是根据服务类设置的默认服务类型，确定默认服务类型为目标服务类型，并发起目标服务类型对应的服务请求；其中，服务请求中可以包括一个服务类型，也可以包括多种服务类型的组合，例如网约车平台下服务请求可以为：拼车类型和专车类型的组合请求，即用户当前同时呼叫了拼车和专车，这样的呼叫方式可以使得提供多种选择给用户，用户可以同时呼叫多种类型的网约车，最后乘坐先响应呼叫的网约车，此时订单状态变更为进行中，则停止对其他网约车的呼叫，从而减少了用户的等待时间；具体服务请求中包括的服务类型的数量等，本申请在此不做任何限制，可以根据用户选择操作或服务提供方的默认设置确定。

S202：若不存在服务请求匹配的服务提供方，则获取服务请求对应用户的状态信息。

其中，不存在服务请求匹配的服务提供方，即说明当前用户通过客户端发送的服务请求没有被服务提供方应答，没有被应答的情况可能是由于当前用户所在周边范围发起服务请求的人数太多，服务提供方无法及时响应，需要用户等待前方其他排队用户的服务请求被响应后，再响应该用户服务请求；也可能为用户所在周边范围内不存在服务提供方，需要等待服务提供方的调度；无论是何种情况导致的服务请求没有应答，均说明用户当前需要进入等待状态，等待其发起的服务请求被响应，此时需要获取对应用户的状态信息，以便对用户的状态信息进行分析后，进行后续步骤。

可选地，在本申请的一个实施例中，状态信息可以包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

示例地，在网约车场景下，行为状态信息例如可以为：用户对地图的操作行为(例如放大地图或缩小地图)、用户的切换操作(例如切换到其他类型的网约车进行查看)等；个人信息例如可以为：用户的历史发送订单请求信息、历史取消信息、年龄信息、常用打车出发地信息、常用打目的地信息、历史投诉信息等；服务场景信息例如可以为：当前所处的时段是否为打车高峰期、当前订单上车点的类型、当前天气情况、当前是否为节假日，周围司机的分布情况、周围的前提用户发单需求等场景信息。

S203：根据预设的动作反馈模型，对状态信息进行处理，确定目标反馈动作。

其中，由于状态信息是根据用户的实时情况变化的，因此对状态信息进行处理后，确定目标反馈动作，可以实现对不同的用户反馈不同的动作，有效降低用户在服务请求被应答前取消服务请求的概率，从而提升了用户体验。

示例地，目标反馈动作包括的方式例如可以为：反馈情感化包装文案；反馈需要继续等待的原因；反馈资讯类信息；反馈用户还需要等待的时间；反馈鼓励金等；具体目标反馈动作包括的内容可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S204：向服务请求对应的请求客户端反馈目标反馈动作。

可选地，反馈目标反馈动作的方式例如可以为：若客户端上服务请求对应的应用程序为打开状态，则在应用程序界面上以弹窗的形式反馈目标反馈动作；若客户端上服务请求对应的应用程序为关闭状态，则不发送目标反馈动作，直至应用程序的状态为开启状态时，再根据开启状态下用户对应的状态信息，确定对应的目标反馈动作并反馈；具体反馈动作的反馈方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

采用本申请提供的动态反馈方法，可以在不存在与服务请求匹配的服务提供方时，获取服务请求对应用户的当前状态信息，并根据预设的动作反馈模型对状态信息进行处理后，确定目标反馈动作，随后向服务请求对应的请求客户端反馈目标反馈动作，由于每个目标反馈动作均是根据各用户的当前状态信息确定的，从而使得目标反馈动作是个性化的，不同用户对应的目标反馈动作可能不同，即使是同一用户，不同的状态下收到的目标反馈动作也可能不同，解决了现有技术中单一的反馈方式造成用户产生疲劳，无法避免用户的投诉行为和用户流失等负面情况问题，达到缓解用户等待时的负面情绪的作用。

可选的，在上述实施例的基础上，本申请实施例还可提供一种动态反馈方法，如下结合附图对上述方法中如何获得预设的动作反馈模型的实现过程进行示例说明。图3为本申请一实施例提供的一种动作反馈模型的训练方法的流程示意图，如图3所示，该方法包括：

S205：获取多组历史数据构成的训练数据集。

其中，每组历史数据包括：历史状态信息和历史状态信息对应的反馈动作；历史状态信息为历史服务请求对应用户的历史状态信息。

可选地，在本申请的一个实施例中，历史状态信息可以包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

根据待训练业务场景的不同，选择对应业务场景下的训练数据集，并计算每组历史状态信息下，用户对于反馈动作的反馈信息，并根据反馈信息对模型进行训练；其中，用户的反馈信息例如可以为：取消订单、继续等待、订单被应答等，具体反馈信息包括的内容可以根据用户需要灵活调整，并不以上述实施例给出的为限。

可选地，在本申请的一个实施例中，可以使用Q-learning的方法，对模型进行训练，最终训练好的模型即为Q值表；对于不同的反馈信息，对应的奖励积分和订单状态不同，随后根据历史状态信息、历史状态信息对应的反馈动作、奖励积分和订单状态，对模型进行训练，最后使用Q-learning的方法得到Q值表，在模型部署至线上后，只需根据不同状态信息在Q值表中对应的反馈动作，就可以确定不同状态信息对应的目标反馈动作，从而确定并完成目标反馈动作的推送。

其中，由于状态信息中包括多种信息，则在确定目标反馈动作的方式例如可以为：若Q值表中与用户当前状态信息存在完全一致的状态信息，则直接将该状态信息对应的反馈动作确定为目标反馈动作；若Q值表中不存在与用户当前状态信息完全一致的状态信息，则在Q值表中，选择与用户当前状态信息的相似度最高的状态信息，或状态信息中各信息一致的数量最多的状态信息为目标状态信息，此时确定该目标状态信息对应的反馈动作为目标反馈动作，但应当理解具体确定目标反馈动作的方式可以根据用户需要灵活调整，并不以上述实施例给出的为限，本申请在此不做任何限制。

举例说明：在本申请的一个实施例中，仍以用户的反馈信息包括：取消订单、继续等待、订单被应答为例进行说明，此时奖励积分的确定方式例如可以为：若用户在接收到反馈动作后，取消服务请求订单，则该状态对应的奖励积分为-100，至此该服务请求对应的订单状态为结束，即该服务请求对应的订单回合结束；若用户在接收到反馈动作后，选择继续等待，则该状态对应的奖励积分为+1，并且该服务请求对应的订单状态为继续进行状态，表示该服务请求对应的订单回合继续；若用户在接收到反馈动作后，订单被成功应答，则说明当前订单应答成功，则该状态对应的奖励积分为+100，至此该服务请求对应的订单状态为结束，即该服务请求对应的订单回合结束；应当理解具体训练模型的方法和对应的奖励积分的确定方式，可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S206：根据训练数据集，采用预设的强化学习算法进行模型训练，得到预设的动作反馈模型。

其中，不同业务场景可能对应不同预设的动作反馈模型，在本申请的一个实施例中，可以根据训练数据集，以及训练数据集对应的业务场景，采用强化学习算法进行模型训练，得到业务场景对应的预设的动作反馈模型。

采用本申请提供的动态反馈方法，可以根据不同的训练数据集，训练得到可以应用于不同业务场景的动态反馈模型，从而扩大了该方法的应用范围，使得任何涉及动态反馈的场景均可以使用本申请提供的方法，从而提高客户与该场景对应的服务提供方的粘性，提高用户使用感。

可选的，在上述实施例的基础上，本申请实施例还可提供一种动态反馈方法，如下结合附图对上述方法中如何获得预设的动作反馈模型的实现过程进行示例说明。图4为本申请另一实施例提供的一种动作反馈模型的训练方法的流程示意图，如图4所示，S206可包括：

S207：对训练数据集中的多组历史数据进行聚类。

由于各服务提供方的应用场景下，用户基数庞大、历史数据稀疏，所以需要对低频的用户进行聚类，从而避免因为数据稀疏带来的模型泛化能力(即对新鲜样本的适应能力)差的问题，聚类的规则可以根据用户需要灵活设置调整，在本申请的一个实施例中，聚类规则例如可以为：将历史数据中上一年内发起服务请求订单的数量在1-5单之内的用户对应的发起服务请求订单的数量统一到3单，但具体聚类规则并不以上述实施例给出的为限，本申请在此不做任何限制。

S208：根据聚类后的训练数据集，采用强化学习算法进行模型训练，得到预设的动作反馈模型。

其中，根据预设聚类规则对低频的用户聚类后，使用聚类后的训练数据集对模型进行训练，训练后得到预设的动作反馈模型，这样的训练方式提高了模型的泛化能力。

可选的，在上述实施例的基础上，本申请实施例还可提供一种动态反馈方法，如下结合附图对上述方法中如何更新预设的动作反馈模型的实现过程进行示例说明。图5为本申请另一实施例提供的一种动态反馈方法的流程示意图，如图5所示，该方法还包括：

S209：获取目标反馈动作反馈之后，服务请求的状态变化信息。

其中，将预设动作反馈模型部署至线上应用后，可以根据用户的状态信息反馈对应的目标反馈动作，并获取目标反馈动作以后服务请求对应订单的状态变化信息。

S210：根据状态变化信息以及目标反馈动作，对动作反馈模型进行更新。

获取目标反馈动作以后服务请求对应订单的状态变化信息后，将上述用户的状态信息、目标反馈动作信息和服务请求对应订单的状态变化信息作为新的历史数据，加入至训练数据集合中，并根据训练数据集合中的各数据对模型进行更新，从而使得该***可以持续自主学习。

可选的，在本申请的一个实施例中，可以在获取目标反馈动作以后服务请求对应订单的状态变化信息后的第一时间，就将上述用户的状态信息、目标反馈动作信息和服务请求对应订单的状态变化信息作为新的历史数据，加入至训练数据集合中；也可以设置一个预设更新时间间隔，在预设时间间隔后，获取上一时间间隔内的所有用户的状态信息、目标反馈动作信息和服务请求对应订单的状态变化信息，并将所有获取到的信息加入至训练数据集合中；具体获取上述信息的方法可以根据用户需要灵活调整，并不以上述实施例给出的为限。

可选地，在本申请的一个实施例中，可以根据状态变化信息、状态变化信息对应的反馈效果得分、以及目标反馈动作，对动作反馈模型进行更新。

采用本申请提供的动态反馈方法，由于可以根据用户当前对应的状态信息给出特定的目标反馈动作，从而可以实现对不同的用户，或对同一用户的不同状态反馈不同的目标反馈动作，从而避免了用户对于目标反馈动作的疲惫性，有效降低了用户在服务请求订单被应答前的取消率，提高了用户体验。

基于同一发明构思，本申请实施例中还提供了与动态反馈方法对应的动态反馈装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述动态反馈方法相似，因此装置的实施可以参见方法的实施，有益效果的重复之处不再赘述。

图6为本申请一实施例提供的一种动态反馈装置的结构示意图，如图6所示，该装置包括：接收模块301、获取模块302、确定模块303和反馈模块304，其中：

接收模块301，用于接收请求客户端发送的服务请求。

获取模块302，用于若不存在服务请求匹配的服务提供方，则获取服务请求对应用户的状态信息。

确定模块303，用于根据预设的动作反馈模型，对状态信息进行处理，确定目标反馈动作。

反馈模块304，用于向服务请求对应的请求客户端反馈目标反馈动作。

图7为本申请一实施例提供的一种动态反馈装置的结构示意图，如图7所示，该装置还包括：更新模块305，其中：

获取模块302，具体用于获取目标反馈动作反馈之后，服务请求的状态变化信息。

更新模块305，用于根据状态变化信息以及目标反馈动作，对动作反馈模型进行更新。

可选地，更新模块305，具体用于根据状态变化信息、状态变化信息对应的反馈效果得分、以及目标反馈动作，对动作反馈模型进行更新。

图8为本申请一实施例提供的一种动作反馈模型的训练装置的结构示意图，如图7所示，该装置包括：获取模块401和训练模块402，其中：

获取模块401，具体用于获取多组历史数据构成的训练数据集，其中，每组历史数据包括：历史状态信息和历史状态信息对应的反馈动作。

训练模块402，用于根据训练数据集，采用预设的强化学习算法进行模型训练，得到预设的动作反馈模型。

图9为本申请另一实施例提供的一种动作反馈模型的训练装置的结构示意图，如图9所示，该装置还包括：聚类模块403，其中：

聚类模块403，用于对训练数据集中的多组历史数据进行聚类。

训练模块402，具体用于根据聚类后的训练数据集，采用强化学习算法进行模型训练，得到预设的动作反馈模型。

可选地，训练模块402，具体用于根据训练数据集，以及训练数据集对应的业务场景，采用强化学习算法进行模型训练，得到业务场景对应的预设的动作反馈模型。

基于同一发明构思，本申请实施例中还提供了与动态反馈方法对应的动态反馈装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述图1-图5任一方法相似，因此装置的实施可以参见方法的实施，有益效果的重复之处不再赘述。

图10为本申请一实施例提供的一种动态反馈设备的结构示意图，如图10所示，该动态反馈设备包括：处理器601、存储器602和总线603；存储器602存储有处理器601可执行的机器可读指令，当动态反馈设备运行时，处理器601与存储器602之间通过总线603通信，处理器601执行机器可读指令，以执行如前述方法实施例所提供的动态反馈方法的步骤。

具体地，存储器602中所存储的机器可读指令为本申请前述实施例所述的动态反馈方法的执行步骤，处理器601可执行该动态反馈方法对用户的状态信息进行处理，因此，该动态反馈设备同样具备前述方法实施例中所述的全部有益效果，本申请亦不再重复描述。

需要说明的是，该动态反馈设备可以是通用计算机或特殊用途的计算机，以及其他用于处理数据的服务器等，三者都可以用于实现本申请的动态反馈方法。本申请尽管仅仅通过计算机和服务器分别对动态反馈方法进行了说明，但是为了方便起见，也可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，动态反馈设备可以包括用于执行程序指令的一个或多个处理器、通信总线、和不同形式的存储介质，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。

为了便于说明，在上述实施例中仅描述了一个处理器。然而，应当注意，本申请中的动态反馈设备还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

图11为本申请一实施例提供的一种动作反馈模型的训练设备的结构示意图，如图11所示，该动作反馈模型的训练设备包括：处理器701、存储器702和总线703；存储器702存储有处理器701可执行的机器可读指令，当动作反馈模型的训练设备运行时，处理器701与存储器702之间通过总线703通信，处理器701执行机器可读指令，以执行如前述方法实施例所提供的动作反馈模型的训练方法的步骤。

具体地，存储器702中所存储的机器可读指令为本申请前述实施例所述的动作反馈模型的训练方法的执行步骤，处理器701可执行该动作反馈模型的训练方法对用户的状态信息进行处理，因此，该动作反馈模型的训练设备同样具备前述方法实施例中所述的全部有益效果，本申请亦不再重复描述。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述动态反馈方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述动态反馈方法，从而，解决现有技术中向客户端反馈的反馈动作不合适，造成用户流失的问题，达到减少用户负面情绪的作用。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种动态反馈方法，其特征在于，所述方法包括：

接收请求客户端发送的服务请求；

向所述服务请求对应的请求客户端反馈所述目标反馈动作。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述状态变化信息以及所述目标反馈动作，对所述动作反馈模型进行更新，包括：

4.如权利要求1-3中任一所述的方法，其特征在于，所述状态信息包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

5.一种动作反馈模型的训练方法，其特征在于，所述方法包括：

获取多组历史数据构成的训练数据集，其中，每组所述历史数据包括：历史状态信息和所述历史状态信息对应的反馈动作；其中，所述历史状态信息为历史服务请求对应用户的历史状态信息；

6.如权利要求5所述的方法，其特征在于，所述根据所述训练数据集，采用预设的强化学习算法进行模型训练，得到所述预设的动作反馈模型，包括：

对所述训练数据集中的所述多组历史数据进行聚类；

7.如权利要求5所述的方法，其特征在于，所述根据所述训练数据集，采用预设的强化学习算法进行模型训练，得到所述预设的动作反馈模型，包括：

8.如权利要求5所述的方法，其特征在于，所述历史状态信息包括下述至少一项信息：行为状态信息、个人信息、服务场景信息。

9.一种动态反馈装置，其特征在于，所述装置包括：接收模块、获取模块、确定模块和反馈模块，其中：

所述接收模块，用于接收请求客户端发送的服务请求；

10.如权利要求9所述的装置，其特征在于，所述装置还包括：更新模块，其中：

11.一种动作反馈模型的训练装置，其特征在于，所述装置包括：获取模块和训练模块，其中：

所述获取模块，用于获取多组历史数据构成的训练数据集，其中，每组所述历史数据包括：历史状态信息和所述历史状态信息对应的反馈动作；其中，所述历史状态信息为历史服务请求对应用户的历史状态信息；

12.一种动态反馈设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述动态反馈设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述权利要求1-4任一项所述的方法。

13.一种动作反馈模型的训练设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述动作反馈模型的训练设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述权利要求5-8任一项所述的方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-8任一项所述的方法。