CN112328769A

CN112328769A - 自动客服的应答方法、装置和计算机可读存储介质

Info

Publication number: CN112328769A
Application number: CN202011277208.XA
Authority: CN
Inventors: 张伯雷; 易津锋; 陈东东; 刘君亮
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Huijun Technology Co.,Ltd.
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-05

Abstract

本公开涉及一种自动客服的应答方法、装置和计算机可读存储介质，涉及计算机技术领域。本公开的方法包括：响应于用户进入自动客服***，获取用户的特征信息；将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，显示给用户，其中，应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的；接收用户针对一条或多条应答信息的反馈信息；根据反馈信息更新应答模型的参数。

Description

自动客服的应答方法、装置和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种自动客服的应答方法、装置和计算机可读存储介质。

背景技术

为了提高服务质量，各种互联网平台都设置了客服(客户服务)***，以解答客户的各种问题或为客户提供各种相关服务。

客服***一般包括：自动客服***和人工客服***。自动客服***根据用户输入的信息，自动进行应答。人工客服***则由工作人员进行回复。

发明内容

发明人发现：自动客服***根据用户输入的信息进行应答，并且很多情况下，需要用户输入很多信息才能理解用户的意图，例如，需要输入具体的商品信息、订单信息等。自动客服***与用户交互过程中，不能很准确的理解用户的意图，不能迅速做出准确应答，应答效率低，准确率低，用户体验比较差。

本公开所要解决的一个技术问题是：如何提高自动客服的应答的准确性和效率。

根据本公开的一些实施例，提供的一种自动客服的应答方法，包括：响应于用户进入自动客服***，获取用户的特征信息；将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，显示给用户，其中，应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的；接收用户针对一条或多条应答信息的反馈信息；根据反馈信息更新应答模型的参数。

在一些实施例中，根据反馈信息更新应答模型的参数包括：根据反馈信息确定奖励值，其中，在反馈信息包括用户选择的至少一条应答信息的情况下相对于反馈信息为用户未选择应答信息的情况下，奖励值更高；根据反馈信息更新用户的特征信息，生成更新后的特征信息；根据更新后的特征信息转换成的更新后的特征向量和奖励值，更新应答模型的参数。

在一些实施例中，根据更新后的特征信息转换成的更新后的特征向量和奖励值，更新应答模型的参数包括：针对每个用户，将特征向量、一条或多条应答信息、更新后的特征向量和奖励值，作为用户对应的样本数据；根据预设数量的用户中每个用户对应的样本数据更新应答模型的参数。

在一些实施例中，应答模型包括：第一当前神经网络、第一目标神经网络、第二当前神经网络和第二目标神经网络，将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息包括：将特征向量作为当前状态输入第一当前神经网络，得到输出的一条或多条应答信息。

在一些实施例中，根据预设数量的用户中每个用户对应的样本数据更新应答模型的参数包括：针对每个用户，将一条或多条应答信息对应的数值作为当前动作值，与当前状态一起输入第二当前神经网络，得到用户对应的当前评估值；针对每个用户，将更新后的特征向量作为下一状态，输入第一目标神经网络，得到下一动作值；针对每个用户，将下一动作值、下一状态输入第二目标神经网络得到用户对应的目标评估值；根据每个用户对应的当前评估值更新第一当前神经网络的参数；根据每个用户对应的当前评估值、目标评估值和奖励值更新第二当前神经网络的参数；根据第一当前神经网络的参数更新第一目标神经网络的参数，根据第二当前神经网络的参数更新第二目标神经网络的参数。

在一些实施例中，根据每个用户对应的当前评估值更新第一当前神经网络的参数包括：根据每个用户对应的当前评估值，计算策略梯度；根据策略梯度更新第一当前神经网络的参数；根据每个用户对应的当前评估值、目标评估值和奖励值更新第二当前神经网络的参数包括：根据每个用户对应的当前评估值、目标评估值和奖励值，计算损失函数；根据损失函数更新第二当前神经网络的参数。

在一些实施例中，将特征向量作为当前状态输入第一当前神经网络，得到一条或多条应答信息包括：将特征向量作为当前状态输入第一当前神经网络得到第一动作值，对第一动作值进行随机噪声采样，得到当前动作值；根据当前动作值对应的应答信息集合，得到一条或多条应答信息。

在一些实施例中，用户的特征信息包括：用户的画像信息和用户在当前时间之前预设时间内的历史行为数据中至少一项，历史行为数据包括：与自动客服***的会话数据，订单数据，浏览一个或多个对象的数据，搜索一个或多个对象的数据，关注一个或多个对象的数据，购买一个或多个对象的数据，将一个或多个对象加入购物车的数据，进入自动客服***的入口的关联对象信息，售后数据中至少一项。

在一些实施例中，将特征信息输入意图分类模型，得到由意图分类模型中倒数第二层网络输出的特征向量，意图分类模型是根据多个用户的特征信息以及标注的每个用户的意图类别训练得到的。

在一些实施例中，一条或多条应答信息中每条应答信息包括：预测用户欲提出的问题或要求，或者向用户推荐的对象。

在一些实施例中，该方法还包括：在反馈信息包括用户选择的至少一条预测用户欲提出的问题或要求的情况下，根据至少一条预测用户欲提出的问题或要求，向用户发送对应的答复；在反馈信息包括用户选择的至少一个向用户推荐的对象的情况下，向用户显示对象的信息。

根据本公开的另一些实施例，提供的一种自动客服的应答装置，包括：获取模块，用于响应于用户进入自动客服***，获取用户的特征信息；应答模块，用于将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，其中，应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的；接收模块，用于接收用户针对一条或多条应答信息的反馈信息；更新模块，用于根据反馈信息更新应答模型的参数。

根据本公开的又一些实施例，提供的一种自动客服的应答装置，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的自动客服的应答方法。

根据本公开的再一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的自动客服的应答方法。

本公开在用户进入自动客服***的情况下，自动获取用户的特征信息，用户的特征信息转换成的特征向量后输入应答模型，得到一条或多条应答信息并进行显示。这样可以在用户一进入自动客服***就对用户的意图进行预判，为用户提供应答信息，节省用户的输入时间，提高应答效率。进一步，根据用户的反馈信息对应答模型进行更新，可以提高应答模型的准确性，提高为后续针对各个用户的应答信息的准确性，从整体上提升用户的体验。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的自动客服的应答方法的流程示意图。

图2示出本公开的另一些实施例的自动客服的应答方法的流程示意图。

图3示出本公开的一些实施例的自动客服的应答装置的结构示意图。

图4示出本公开的一些实施例的自动客服的应答装置的结构示意图。

图5示出本公开的一些实施例的自动客服的应答装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提出一种自动客服的应答方法，下面结合图1～图2进行描述。

图1为本公开自动客服的应答方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S108。

在步骤S102中，响应于用户进入自动客服***，获取用户的特征信息。

在一些实施例中，用户的特征信息包括：用户的画像信息和用户在当前时间之前预设时间内的历史行为数据中至少一项。用户的画像信息可以通过现有的用户画像分析技术得到，不再赘述。历史行为数据例如包括：与自动客服***的会话数据，订单数据，浏览一个或多个对象的数据，搜索一个或多个对象的数据，关注一个或多个对象的数据，购买一个或多个对象的数据，将一个或多个对象加入购物车的数据，进入自动客服***的入口的关联对象信息，售后数据中至少一项，还可以根据实际需求或者用户在互联网平台上实际产生的各种行为定义历史行为数据，不限于所举示例。用户例如通过网页上的入口进入自动客服页面或窗口等，即进入自动客服***。

在步骤S104中，将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，显示给用户。

应答模型例如是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的。应答模型的预训练过程与后续的更新应答模型的参数的过程类似，后续将进行详细描述。

可以首先将各个特征信息进行预处理后串联拼接起来，再输入意图分类模型。预处理例如包括：缺失值补全，对特征进行编码，例如，对特征进行one-hot编码等。意图分类模型可以是神经网络模型，例如多层神经网络模型(MLP)，用于根据用户的特征信息确定用户的意图分类。意图分类例如包括：询问发货时间、询问价保、询问退货、询问人工客服、商品推荐、物流状态等至少一项，不限于所举示例。对意图分类模型可以预先进行训练，训练样本为多个用户的特征信息，并且每个用户对应的标注了意图的类别。将各个用户的特征信息输入意图分类网络，得到输出的意图的类别。根据输出的意图的类别与标注的意图类别确定损失函数。根据损失函数对意图分类模型的参数进行调整，重复上述过程，直至达到预设收敛条件，例如，迭代达到预设次数，损失函数值最小或损失函数值低于阈值等。

通过上述意图分类模型可以首先预判用户的意图，将用户的特征转换为能够表示用户意图的特征向量，再输入后续的应答模型，得到的一条或多条应答信息则能够更加符合用户的意图，可以提高应答信息的准确性。

在一些实施例中，每条应答信息包括：预测用户欲提出的问题或要求，或者向用户推荐的对象。本公开的方法适用于多种场景，例如，在用户访问对象前，识别用户的意图，向用户推荐对象的场景，在用户需要人工客服的情况下，识别用户的意图，将用户直接分配给人工客服的场景，或者，在用户提问前，识别用户的意图，预测用户欲提出的问题的场景等等。

在步骤S106中，接收用户针对一条或多条应答信息的反馈信息。

一条或多条应答信息显示给用户，用户可以通过点击选择至少一条应答信息，因此，反馈信息可以包括用户选择至少一条应答信息的指示信息。如果一条或多条应答信息中没有符合用户意图的应答信息，用户可以不选择或者输入其他反馈信息，因此，反馈信息可以包括用户未选择应答信息的指示信息或者用户输入的信息。

在步骤S108中，根据反馈信息更新应答模型的参数。

应答模型可以采用强化学习的方式进行更新。在一些实施例中，根据反馈信息确定奖励值，其中，在反馈信息包括用户选择的至少一条应答信息的情况下相对于反馈信息为用户未选择应答信息的情况下，奖励值更高；根据反馈信息更新用户的特征信息，生成更新后的特征信息；根据更新后的特征信息转换成的更新后的特征向量和奖励值，更新应答模型的参数。

用户的反馈信息可以作为用户的历史行为信息，例如，用户选择一条应答信息为“我的包裹到哪里了”，则在用户在当前时间之前预设时间内的历史行为数据中添加表示用户选择该应答信息的信息，具体的可以作为与自动客服***的会话数据。进一步，将更新后的特征信息输入意图分类模型，得到由意图分类模型中倒数第二层网络输出的特征向量，作为更新后的特征向量。

在一些实施例中，针对每个用户，将特征向量、一条或多条应答信息、更新后的特征向量和奖励值，作为用户对应的样本数据；根据预设数量的用户中每个用户对应的样本数据更新应答模型的参数。下面具体描述应答模型的参数的更新方法。

在一些实施例中，应答模型包括：第一当前神经网络(可以称为动作当前网络，Actor当前网络)、第一目标神经网络(可以称为动作目标网络，Actor目标网络)、第二当前神经网络(可以称为评估当前网络，Critic当前网络)和第二目标神经网络(可以称为评估目标网络，Critic目标网络)。

用户的特征向量可以作为当前状态，表示为S，第一当前神经网络的参数可以表示为θ，用于根据当前状态S确定一条或多条应答信息，一条或多条应答信息对应的数值作为当前动作值，表示为A。例如，将特征向量输入第一当前神经网络，得到输出的一条或多条应答信息。在一些实施例中，将特征向量作为当前状态输入第一当前神经网络得到第一动作值，对第一动作值进行随机噪声采样，得到当前动作值；根据当前动作值对应的应答信息集合，得到一条或多条应答信息。例如可以采用OUNoise进行动态探索。

用户的更新后的特征向量，可以作为下一状态，表示为S′，第一目标神经网络的参数可以表示为θ′，用于根据下一状态，确定下一动作值A′。第二当前神经网络的参数可以表示为ω，用于根据当前状态S，当前动作值A，计算当前评估值，表示为Q(S，A，ω)。第二目标神经网络的参数可以表示为ω′，用于根据下一状态S，下一动作值A，奖励值R，计算目标评估值，表示为Q′(S′，A′，ω′)。每个用户对应的样本数据可以表示为(S_i，A_i，S′_i，R_i)，将(S_i，A_i，S′_i，R_i)进行存储，选取预设数量m个用户对应的样本数据，用于更新应答模型。

在一些实施例中，针对每个用户i，将一条或多条应答信息对应的数值作为当前动作值A_i，与当前状态S_i一起输入第二当前神经网络，得到用户对应的当前评估值Q(S_i，A_i，ω)。针对每个用户，将更新后的特征向量作为下一状态S′_i，输入第一目标神经网络，得到下一动作值A′_i。针对每个用户，将下一动作值A′_i、下一状态S′_i输入第二目标神经网络得到用户对应的目标评估值Q′(S′_i，A′_i，ω′)；根据每个用户对应的当前评估值Q(S_i，A_i，ω)更新第一当前神经网络的参数；根据每个用户对应的当前评估值Q(S_i，A_i，ω)、目标评估值Q(S_i，A_i，ω)和奖励值R_i更新第二当前神经网络的参数；根据第一当前神经网络的参数更新第一目标神经网络的参数，根据第二当前神经网络的参数更新第二目标神经网络的参数。

进一步，根据每个用户对应的当前评估值，计算策略梯度；根据策略梯度更新第一当前神经网络的参数；根据每个用户对应的当前评估值、目标评估值和奖励值，计算损失函数；根据损失函数更新第二当前神经网络的参数。例如，策略梯度可以采用以下公式确定。

其中，u(S,θ)为第一神经网络的函数，

为梯度符号。

例如，损失函数可以采用以下公式确定。

y_i＝R_i+γQ′(S′_i,A′_i,ω′) (2)

其中，

为梯度符号，γ为权重。例如，用户选择至少一条应答信息，则奖励值为1，否则为0。

第一当前神经网络和第二当前神经网络的参数可以采用以下公式确定。

θ′←τθ+(1-τ)θ′ (4)

ω′←τω+(1-τ)ω′ (5)

其中，τ为预设权重。

可以通过反向传播算法，更新第一当前神经网络的参数和第二当前神经网络的参数。前述实施例中提到应答模型的预训练过程，可以参考上述实施例，只是反馈信息为预设的，在此不再赘述。

上述实施例的方法在用户进入自动客服***的情况下，自动获取用户的特征信息，用户的特征信息转换成的特征向量后输入应答模型，得到一条或多条应答信息并进行显示。这样可以在用户一进入自动客服***就对用户的意图进行预判，为用户提供应答信息，节省用户的输入时间，提高应答效率。进一步，根据用户的反馈信息对应答模型进行更新，可以提高应答模型的准确性，提高为后续针对各个用户的应答信息的准确性，从整体上提升用户的体验。

下面结合图2描述本公开的自动客服的应答方法的另一些实施例，下面结合图2进行描述。

图2为本公开自动客服的应答方法另一些实施例的流程图。如图2所示，该实施例的方法包括：步骤S202～S214。

在步骤S202中，响应于用户进入自动客服***，获取用户的特征信息。

在步骤S204中，将特征信息输入意图分类网络，得到特征向量。

在步骤S206中，将特征向量输入应答模型，得到一条或多条应答信息，显示给用户。

在步骤S208中，接收用户针对一条或多条应答信息的反馈信息。

在步骤S210中，根据反馈信息更新应答模型的参数。

在步骤S212中，在反馈信息包括用户选择的至少一条预测用户欲提出的问题或要求的情况下，根据至少一条预测用户欲提出的问题或要求，向用户发送对应的答复。

在步骤S214中，在反馈信息包括用户选择的至少一个向用户推荐的对象的情况下，向用户显示对象的信息。

当有用户的新增意图时，可以保持的意图分类模型不变，只需要修改应答模型中Actor网络输出和Critic网络的输入，即新增加对应的动作，对新的意图和动作进行动态的探索，调整应答模型的参数，使得模型能够针对用户的新增意图给出准确的应答信息。例如，将用户的特征，新增意图对应的应答信息和用户的反馈信息作为样本数据，对应答模型采用前述实施例的方法进行训练。

本公开提供一种自动客服的应答装置，下面结合图3进行描述。

图3为本公开自动客服的应答装置的一些实施例的结构图。如图3所示，该实施例的装置30包括：获取模块302，应答模块304，接收模块306，更新模块308。

获取模块302用于响应于用户进入自动客服***，获取用户的特征信息。

应答模块304用于将特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，其中，应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的。

接收模块306用于接收用户针对一条或多条应答信息的反馈信息。

在一些实施例中，在反馈信息包括用户选择的至少一条预测用户欲提出的问题或要求的情况下，应答模块304用于根据至少一条预测用户欲提出的问题或要求，向用户发送对应的答复。

在一些实施例中，在反馈信息包括用户选择的至少一个向用户推荐的对象的情况下，应答模块304用于向用户显示对象的信息。

更新模块308用于根据反馈信息更新应答模型的参数。

在一些实施例中，更新模块308用于根据反馈信息确定奖励值，其中，在反馈信息包括用户选择的至少一条应答信息的情况下相对于反馈信息为用户未选择应答信息的情况下，奖励值更高；根据反馈信息更新用户的特征信息，生成更新后的特征信息；根据更新后的特征信息转换成的更新后的特征向量和奖励值，更新应答模型的参数。

在一些实施例中，更新模块308用于针对每个用户，将特征向量、一条或多条应答信息、更新后的特征向量和奖励值，作为用户对应的样本数据；根据预设数量的用户中每个用户对应的样本数据更新应答模型的参数。

在一些实施例中，应答模型包括：第一当前神经网络、第一目标神经网络、第二当前神经网络和第二目标神经网络，更新模块308用于将特征向量作为当前状态输入第一当前神经网络，得到输出的一条或多条应答信息。

在一些实施例中，更新模块308用于针对每个用户，将一条或多条应答信息对应的数值作为当前动作值，与当前状态一起输入第二当前神经网络，得到用户对应的当前评估值；针对每个用户，将更新后的特征向量作为下一状态，输入第一目标神经网络，得到下一动作值；针对每个用户，将下一动作值、下一状态输入第二目标神经网络得到用户对应的目标评估值；根据每个用户对应的当前评估值更新第一当前神经网络的参数；根据每个用户对应的当前评估值、目标评估值和奖励值更新第二当前神经网络的参数；根据第一当前神经网络的参数更新第一目标神经网络的参数，根据第二当前神经网络的参数更新第二目标神经网络的参数。

在一些实施例中，更新模块308用于根据每个用户对应的当前评估值，计算策略梯度；根据策略梯度更新第一当前神经网络的参数；根据每个用户对应的当前评估值、目标评估值和奖励值，计算损失函数；根据损失函数更新第二当前神经网络的参数。

在一些实施例中，更新模块308用于将特征向量作为当前状态输入第一当前神经网络得到第一动作值，对第一动作值进行随机噪声采样，得到当前动作值；根据当前动作值对应的应答信息集合，得到一条或多条应答信息。

本公开的实施例中的自动客服的应答装置可各由各种计算设备或计算机***来实现，下面结合图4以及图5进行描述。

图4为本公开自动客服的应答装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行本公开中任意一些实施例中的自动客服的应答方法。

其中，存储器410例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图5为本公开自动客服的应答装置的另一些实施例的结构图。如图5所示，该实施例的装置50包括：存储器510以及处理器520，分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530，540，550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种自动客服的应答方法，包括：

响应于用户进入自动客服***，获取所述用户的特征信息；

将所述特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，显示给所述用户，其中，所述应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的；

接收所述用户针对所述一条或多条应答信息的反馈信息；

根据所述反馈信息更新所述应答模型的参数。

2.根据权利要求1所述的应答方法，其中，所述根据所述反馈信息更新所述应答模型的参数包括：

根据所述反馈信息确定奖励值，其中，在所述反馈信息包括所述用户选择的至少一条应答信息的情况下相对于所述反馈信息为所述用户未选择应答信息的情况下，所述奖励值更高；

根据所述反馈信息更新所述用户的特征信息，生成更新后的特征信息；

根据更新后的特征信息转换成的更新后的特征向量和所述奖励值，更新所述应答模型的参数。

3.根据权利要求2所述的应答方法，其中，所述根据更新后的特征信息转换成的更新后的特征向量和所述奖励值，更新所述应答模型的参数包括：

针对每个用户，将所述特征向量、所述一条或多条应答信息、更新后的特征向量和所述奖励值，作为所述用户对应的样本数据；

根据预设数量的用户中每个用户对应的样本数据更新所述应答模型的参数。

4.根据权利要求3所述的应答方法，其中，所述应答模型包括：第一当前神经网络、第一目标神经网络、第二当前神经网络和第二目标神经网络，所述将所述特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息包括：

将所述特征向量作为当前状态输入第一当前神经网络，得到输出的一条或多条应答信息。

5.根据权利要求4所述的应答方法，其中，所述根据预设数量的用户中每个用户对应的样本数据更新所述应答模型的参数包括：

针对每个用户，将所述一条或多条应答信息对应的数值作为当前动作值，与所述当前状态一起输入所述第二当前神经网络，得到所述用户对应的当前评估值；

针对每个用户，将所述更新后的特征向量作为下一状态，输入所述第一目标神经网络，得到下一动作值；

针对每个用户，将所述下一动作值、所述下一状态输入第二目标神经网络得到所述用户对应的目标评估值；

根据每个用户对应的当前评估值更新所述第一当前神经网络的参数；

根据每个用户对应的当前评估值、目标评估值和所述奖励值更新所述第二当前神经网络的参数；

根据所述第一当前神经网络的参数更新所述第一目标神经网络的参数，根据所述第二当前神经网络的参数更新所述第二目标神经网络的参数。

6.根据权利要求5所述的应答方法，其中，所述根据每个用户对应的当前评估值更新所述第一当前神经网络的参数包括：

根据每个用户对应的当前评估值，计算策略梯度；

根据所述策略梯度更新所述第一当前神经网络的参数；

所述根据每个用户对应的当前评估值、目标评估值和所述奖励值更新所述第二当前神经网络的参数包括：

根据每个用户对应的当前评估值、目标评估值和所述奖励值，计算损失函数；

根据所述损失函数更新所述第二当前神经网络的参数。

7.根据权利要求4所述的应答方法，其中，所述将所述特征向量作为当前状态输入第一当前神经网络，得到一条或多条应答信息包括：

将所述特征向量作为当前状态输入第一当前神经网络得到第一动作值，对所述第一动作值进行随机噪声采样，得到当前动作值；

根据当前动作值对应的应答信息集合，得到一条或多条应答信息。

8.根据权利要求1-7任一项所述的应答方法，其中，所述用户的特征信息包括：所述用户的画像信息和所述用户在当前时间之前预设时间内的历史行为数据中至少一项，所述历史行为数据包括：与自动客服***的会话数据，订单数据，浏览一个或多个对象的数据，搜索一个或多个对象的数据，关注一个或多个对象的数据，购买一个或多个对象的数据，将一个或多个对象加入购物车的数据，进入自动客服***的入口的关联对象信息，售后数据中至少一项。

9.根据权利要求1所述的应答方法，其中，将所述特征信息输入意图分类模型，得到由所述意图分类模型中倒数第二层网络输出的特征向量，所述意图分类模型是根据多个用户的特征信息以及标注的每个用户的意图类别训练得到的。

10.根据权利要求1所述的应答方法，其中，所述一条或多条应答信息中每条应答信息包括：预测所述用户欲提出的问题或要求，或者向所述用户推荐的对象。

11.根据权利要求10所述的应答方法，还包括：

在反馈信息包括所述用户选择的至少一条预测所述用户欲提出的问题或要求的情况下，根据所述至少一条预测所述用户欲提出的问题或要求，向所述用户发送对应的答复；

在反馈信息包括所述用户选择的至少一个向所述用户推荐的对象的情况下，向所述用户显示所述对象的信息。

12.一种自动客服的应答装置，包括：

获取模块，用于响应于用户进入自动客服***，获取所述用户的特征信息；

应答模块，用于将所述特征信息转换成的特征向量输入应答模型，得到一条或多条应答信息，其中，所述应答模型是根据多个用户的特征向量，对应的预设的应答信息以及对应的预设的反馈信息预训练得到的；

接收模块，用于接收所述用户针对所述一条或多条应答信息的反馈信息；

更新模块，用于根据所述反馈信息更新所述应答模型的参数。

13.一种自动客服的应答装置，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-11任一项所述的自动客服的应答方法。

14.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。