CN110543555A

CN110543555A - 一种用于智能客服中的标问召回方法和装置

Info

Publication number: CN110543555A
Application number: CN201910755552.6A
Authority: CN
Inventors: 蔡捷; 温祖杰; 蒋亮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-06

Abstract

本说明书实施例提供了一种用于智能客服中的标问召回方法和装置，所述方法包括：获取用户的输入问句；将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句；以及从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

Description

一种用于智能客服中的标问召回方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种用于智能客服中的标问召回方法和装置。

背景技术

在智能客服产品中，客户在与机器人交互的过程用户语言存在口语化、长句或简略表达等多样性，提升客服机器人召回准确标问的能力和效果对整个客服***十分关键，直接影响智能客服***的服务体验。传统客服召回标问方案存在对用户长句、歧义句等召回困难的情况。传统智能客服召回用户提问匹配的标问集方案主要有搜索引擎和匹配***两类。智能客服的标问库除标问外，往往还会存储有附属于标问的用户问法集合。以搜索引擎为例，其召回的过程主要可分为先建立标问及问法的索引库及切分词，然后通常基于Lucene引擎全文检索和用户问句相近的问法集合，最后召回输出问法集合所对应的标问集合。然而，随着智能客服***服务人群的年龄、地区分布越来越广，智能客服面临的用户问法多样性的特点越来越显著，用户问句的口语化、复杂化、需求差异化给机器理解用户问题带来很大的挑战，只靠用户提问的字面意思，上述传统召回***常会出现漏召回或者误召回。

因此，需要一种更有效的用于智能客服中的标问召回方法和装置。

发明内容

本说明书实施例旨在提供一种更有效的用于智能客服中的标问召回方法和装置，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种用于智能客服中的标问召回方法，包括：

获取用户的输入问句；

将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句；以及

从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述核心语义抽取模型包括相连的BERT模型和BiLSTM-CRF模型。

在一个实施例中，所述核心语义抽取模型基于多个训练样本得到训练，其中，每个训练样本包括：初始问句和标签集，其中，所述标签集中包括顺序排列的多个标注标签，所述多个标注标签与初始问句中顺序排列的多个字分别对应。

在一个实施例中，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题包括，将所述第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述各个概率，确定与所述第一改写问句相匹配的至少一个标准问题。

在一个实施例中，所述方法还包括，

在获取用户的输入问句之后，确定所述输入问句所属的领域；

基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句；以及

从预设的标问库中确定与所述第二改写问句相匹配的至少一个标准问题，作为所述输入问句的第二标问候选集，以用于获取召回的标问候选集。

在一个实施例中，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句包括，

对于所述输入问句中的各个分词，遍历所述同义表达词库中的同义表达进行分词替换，以获取多个同义表达改写问句；

将各个同义表达改写问句输入预先训练的语言模型，以输出各个同义表达改写问句的合理性分数，其中，所述语义模型基于来自所述领域的语料库预先训练；以及

基于各个改写问句的合理性分数，从所述各个改写问句中确定所述第二改写问句。

在一个实施例中，所述方法，还包括，

在获取第一改写问句之后，确定所述输入问句所属的领域；

基于预设的与所述领域对应的同义表达词库，对所述第一改写问句进行同义表达改写，以获取第三改写问句；以及

从预设的标问库中确定与所述第三改写问句相匹配的至少一个标准问题，作为所述输入问句的第三标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述方法还包括，对第一、第二、第三标问候选集中包括的全部标准问题进行排序，以基于所述排序确定预定数目的标准问题，作为召回的标问候选集。

在一个实施例中，对第一、第二、第三标问候选集中包括的全部标准问题进行排序包括，通过预先训练的排序模型对第一、第二、第三标问候选集中包括的全部标准问题进行排序，其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。

本说明书另一方面提供一种用于智能客服中的标问召回方法，包括：

获取用户的输入问句；

确定所述输入问句所属的领域；

基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取改写问句；以及

从预设的标问库中确定与所述改写问句相匹配的至少一个标准问题，作为所述输入问句的标问候选集，以用于获取召回的标问候选集。

本说明书另一方面提供一种用于智能客服中的标问召回装置，包括：

获取单元，配置为，获取用户的输入问句；

第一改写单元，配置为，将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句；以及

第一确定单元，配置为，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述第一确定单元还配置为，将所述第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述各个概率，确定与所述第一改写问句相匹配的至少一个标准问题。

在一个实施例中，所述装置还包括，

第二确定单元，配置为，在获取用户的输入问句之后，确定所述输入问句所属的领域；

第二改写单元，配置为，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句；以及

第三确定单元，配置为，从预设的标问库中确定与所述第二改写问句相匹配的至少一个标准问题，作为所述输入问句的第二标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述第二改写单元包括，

遍历子单元，配置为，对于所述输入问句中的各个分词，遍历所述同义表达词库中的同义表达进行分词替换，以获取多个同义表达改写问句；

输入子单元，配置为，将各个同义表达改写问句输入预先训练的语言模型，以输出各个同义表达改写问句的合理性分数，其中，所述语义模型基于来自所述领域的语料库预先训练；以及

确定子单元，配置为，基于各个改写问句的合理性分数，从所述各个改写问句中确定所述第二改写问句。

在一个实施例中，所述装置还包括，

第四确定单元，配置为，在获取第一改写问句之后，确定所述输入问句所属的领域；

第三改写单元，配置为，基于预设的与所述领域对应的同义表达词库，对所述第一改写问句进行同义表达改写，以获取第三改写问句；以及

第五确定单元，配置为，从预设的标问库中确定与所述第三改写问句相匹配的至少一个标准问题，作为所述输入问句的第三标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述装置还包括，排序单元，配置为，对第一、第二、第三标问候选集中包括的全部标准问题进行排序，以基于所述排序确定预定数目的标准问题，作为召回的标问候选集。

在一个实施例中，所述排序单元还配置为，通过预先训练的排序模型对第一、第二、第三标问候选集中包括的全部标准问题进行排序，其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。

获取单元，配置为，获取用户的输入问句；

第一确定单元，配置为，确定所述输入问句所属的领域；

改写单元，配置为，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取改写问句；以及

第二确定单元，配置为，从预设的标问库中确定与所述改写问句相匹配的至少一个标准问题，作为所述输入问句的标问候选集，以用于获取召回的标问候选集。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

在根据本说明书的一个实施例中，通过在对原始问句进行核心语义抽取改写之后进行与标问库中标问的匹配，以获取召回的标问，在明确用户的语义重心之后进行与标问的匹配，可减少问句中无用噪声信息的干扰，更加准确地召回用户希望得到的答案。在根据本说明书的一个实施例中，通过创新地结合BERT模型和BiLSTM-CRF模型以序列标注任务的方式来处理用户问句，更准确地获取用户的语义重心，提高了召回准确率。在根据本说明书一个实施例中，通过对输入问句识别具体的业务领域，再通过预先建立的领域同义表达词库进行针对性的替换改写，从而增加了召回的准确性。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出根据本说明书实施例的智能客服标问召回***100的示意图；

图2示出根据本说明书一个实施例的一种用于智能客服中的标问召回方法流程图；

图3示出了根据本说明书实施例的用户通过智能客服提问的全过程；

图4示意示出了智能客服的提问界面；

图5示意示出了根据本说明书一个实施例的核心语义抽取模型；

图6示出了根据本说明书实施例的一种用于智能客服中的标问召回方法；

图7示意示出了根据本说明书一个实施例的花呗领域的同义表达词库；

图8示出根据本说明书一个实施例的用于智能客服中的标问召回装置8000；

图9示出根据本说明书一个实施例的一种用于智能客服中的标问召回装置900。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示出根据本说明书实施例的智能客服标问召回***100的示意图。如图中所示，***100中包括核心语义抽取模型11、同义表达替换模块12、语言模型13、分类模型14和排序模型15。其中，核心语义抽取模型11、语言模型13、分类模型14和排序模型15都是预先训练好的。在使用该***100的智能客服中，例如，在用户在该客服界面中输入问句的情况中，客服将该输入问句发送给***100。***100在获取该输入问句之后，将其分别发送给核心语义抽取模型11和同义表达替换模块12。核心语义抽取模型11对输入问句进行核心语义主干提取，获取第一改写问句。同义替换模块利用12预设的对应的词库对该输入问句进行同义表达替换，并将替换后的各个句子都输入语言模型13，以输出第二改写问句。另外，核心语义抽取模型11还将输出的第一改写问句发送给同义表达替换模块12，以使得语言模型13输出对应的第三改写问句。之后，将所述第一、第二、第三改写问句分别输入分类模型14，以分别输出对应的第一、第二、第三标问候选集。之后，将第一、第二、第三标问候选集中包括的全部标问输入排序模型15以进行排序，从而可基于排序结果获取该召回***的召回结果。

可以理解，图1所示的召回***100仅仅是示意性的，而不用于限制本说明书实施例的范围，例如，图1中的第一标问候选集和第三标问候选集也可以作为召回***100的召回结果。

下面将详细描述上述各个过程。

图2示出根据本说明书一个实施例的一种用于智能客服中的标问召回方法流程图，包括：

步骤S202，获取用户的输入问句；

步骤S204，将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句；以及

步骤S206，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

首先，在步骤S202，获取用户的输入问句。

图2所示方法可通过图1所示的召回***100来执行。图3示出了根据本说明书实施例的用户通过智能客服提问的全过程。在图3中示出了四个执行主体：用户、智能客服、召回引擎(即图1所示的召回***)和标问库，其中，召回引擎在步骤1～3中进行一些准备工作，如准备词库、训练模型等，以使得可进行后续的改写，这将在下文详细描述。当用户希望客服解答问题时，在步骤4，用户首先例如通过智能客服的提问界面输入问句，以向智能客服提问。图4示意示出了智能客服的提问界面，在该界面中，用户可通过输入文字(或语音输入等)而向智能客服进行提问，并在该界面获取智能客服的回答。智能客服在接收到用户的输入问句之后，在步骤4.1步，将该输入问句发送给召回引擎，以通过该召回引擎进行标准问题的召回。也即，在该方法的步骤S202中，召回引擎从智能客服接收到用户的输入问句。

在步骤S204，将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句。

该步骤如图3中所示，为图3中的4.1.1步，即通过核心语义抽取模型对输入问句进行核心语义抽取改写。

所述核心语义抽取模型即为基于核心语义进行主干抽取的模型，其例如可以为任意一种序列标注模型。在一个实施例中，所述核心语义抽取模型中包括前后相连的BERT模型和BiLSTM-CRF模型。图5示意示出了根据本说明书一个实施例的核心语义抽取模型500。如图5中所示，该抽取模型的输入即为用户问句，该核心语义抽取模型的下部为BERT模型，抽取模型通过将用户的输入问句转换为嵌入向量作为BERT模型的输入，该BERT模型与BiLSTM-CRF模型相连，从而，BERT模型的输出向量被输入至BiLSTM-CRF模型。BiLSTM-CRF模型基于来自BERT模型的输出向量输出相应的预测标签。

具体是，例如，如图4中智能客服界面中所示，用户输入问句“请问花呗到底怎么提前还清呢”，核心语义抽取模型在获取该问句之后，首先在问句首末位置设置标志位，将该问句中的多个字逐字转换成顺序排列的多个输入特征E₁～E₁₃，并将该顺序排列的输入特征顺序输入BERT模型，其中，所述输入特征中包含字标识、句子标识和字的位置信息。BERT模型基于Transformer模型进行计算，从而向BiLSTM-CRF模型输出与顺序排列的多个字的对应的顺序排列的表示向量T₁～T₁₃，该表示向量相比于词向量，包括了问句中各个字的关联性，提高了对上下文信息的利用，有助于更好地理解上下文语句。

BiLSTM-CRF模型在接收到顺序排列的表示向量T₁～T₁₃之后，基于表示向量T₁～T₁₃确定所述多个字之间的前后关系，从而对所述多个字进行序列标注，即输出与所述多个字对应的顺序排列的标签集合，例如，对于上述问句“请问花呗到底怎么提前还清呢”，从BiLSTM-CRF模型输出的标签集合可能为[N,N,Y,Y,N,N,Y,Y,Y,Y,Y,Y,N],其中，每个标签与问句中相应顺序字对应，N表示不保留原句中对应的字，Y表示保留原句中对应的字。基于该标签集合对原问句进行转换，可得对原问句的改写问句“花呗怎么提前还清”。

该核心语义抽取模型的训练如图3中所示，可在图3中的步骤3进行，即在模型使用前预先训练。在训练该模型之前，通过数据预处理过程准备训练样本。具体是，可首先通过人工标注准备大批量的原始问句-改写问句数据对，然后，可对改写问句进行分词，并基于分词比照原始问句进行字粒度的序列标注，从而获取各个原始问句的标注的标签集，从而可基于各个原始问句和相应的标签集获取多个训练样本。在标注的过程中，可将问句中的无用的噪声数据去除。在标注完成之后，还可以将标注的样本按一定的比例分成训练数据集、验证数据集和测试数据集等，以分别用于后续的训练、验证和测试过程。

在准备好训练数据之后，可批量地对核心语义抽取模型输入训练样本中的原始问句，以基于模型输出的预测标签集和人工标注的标签集进行对语义抽取模型中的参数的调整，其中，包括对BiLSTM-CRF模型参数的调整。例如，可通过梯度下降法、反向传播法等优化算法进行模型优化。可以对该核心语义抽取模型进行持续训练，直到训练结果收敛，从而可结束训练，并可将模型用于进行模型预测，即，在标问召回中对用户问句进行核心语义抽取改写，通过该改写后，例如获取了与用户问句对应的第一改写问句。

可以理解，在本说明书实施例中，所述核心语义抽取模型不限于包括BERT模型和BiLSTM-CRF模型，其只要为用于核心语义抽取的模型即可，例如，其也可以为BiLSTM-CRF模型、BERT+CRF模型等等。

在步骤S206，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

在智能客服中，可根据用户的历史提问、常见问题等归纳出标问库，即标准问题库。标问库中包括多个(例如一万个等)标准问题及对应的答案。在如上所述获取第一改写问句之后，可从该标问库中确定与第一改写问句匹配的至少一个标准问题，以作为所述输入问句的第一标问候选集，从而可基于该第一标问候选集获取通过该召回***召回的标问候选集。在一个实施例中，该第一标问候选集可作为召回的标问候选集。

在一个实施例中，可将第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述分类模型输出的各个概率，确定与所述第一改写问句相匹配的至少一个标准问题，例如将第一改写问句的分类概率为前预定位(例如前10位)的标问确定为与之匹配的至少一个标准问题。在该情况中，该步骤如图3中所示，为图3中的步骤4.1.4，即以标问库中标问类别对改写问句进行分类。

所述分类模型例如可以为BERT分类模型、FastText模型、Text-CNN模型等，其可通过多个训练样本进行预先训练，其中，该训练样本例如包括改写问句和预先标注的针对各个标问的概率。可以理解，所述分类模型不限于包括BERT模型，而可以包括其它语义分析模型，以用于对改写问句的分类。通过以分类模型对第一改写问句进行分类而确定第一标问候选集，由于该分类模型基于大批量的人工标注的样本进行训练，因此该模型的确定结果可更好地体现多方面的分类规则，从而得到更准确的分类结果。可以理解，在该实施例中，不限于通过分类模型获取与第一改写问句匹配的标问，而是可以通过本领域已有的各种方法，例如，可通过计算第一改写问句与各个标问的相似度，来确定相匹配的标问，等等。

在该实施例中，通过在对原始问句进行核心语义抽取改写之后进行与标问库中标问的匹配，以获取召回的标问，在明确用户的语义重心之后进行与标问的匹配，可减少问句中无用噪声信息的干扰，更加准确地召回用户希望得到的答案。另外，通过创新地结合BERT模型和BiLSTM-CRF模型以序列标注任务的方式来处理用户问句，更准确地获取用户的语义重心，提高了召回准确率。

例如，对于用户的输入问句“我申请了扫码付款，我是商户，客户扫我付的钱都去哪了？”，该输入问句中包括多个短句，前后句重点不清晰，传统召回引擎可能会把语义重心理解为[商户,申请扫码付款]之类，通过根据本说明书实施例的核心语义抽取模型改写后可输出“申请了扫码付款，客户扫我付的钱去哪了？”，再将该改写问句与标问相匹配，就可以较准确地召回正确标问。

再例如，对于用户的输入问句“我按着说话，你不回答，我放二手，那你把这路径去了，我，请问余额宝怎样使用，是不是必须定存够两万块钱，已才能使用，或者说我一分不传，能不能使用”，该输入问句为用户闲聊式的长句，通过根据本说明书实施例的核心语义抽取模型可改写成“余额宝怎样使用”，较大程度上减少了噪音信息对于召回的影响。

图6示出了根据本说明书实施例的一种用于智能客服中的标问召回方法，包括：

步骤S602，获取用户的输入问句；

步骤S604，确定所述输入问句所属的领域；

步骤S606，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句；以及

步骤S608，从预设的标问库中确定与所述第二改写问句相匹配的至少一个标准问题，作为所述输入问句的第二标问候选集，以用于获取召回的标问候选集。

该方法为根据本说明一个书实施例的另一种召回方法，该召回方法与图2所示方法不同仅在于，在获取输入问句之后，对输入问句进行同义表达替换改写，因此，下文中将主要进行对步骤S604和步骤S606的描述，步骤S602和步骤S608可参考上文中对步骤S202和步骤S206的描述，在此不再赘述。

在步骤S604，确定所述输入问句所属的领域。

可根据智能客服的具体应用场景预设多个领域类型。例如，在支付宝的智能客服中，可分为花呗、借呗、余额宝、蚂蚁森林等多个领域。当获取用户的输入问句之后，例如，可通过该输入问句中的关键词确定其所述领域。例如，在上述输入问句“请问花呗到底怎么提前还清呢”中包括“花呗”，则可确定该输入问句属于“花呗”领域。

在步骤S606，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句。

该步骤也即图3中的步骤4.1.2，即对输入语句进行领域同义表达替换改写。

在如上文所述在智能客服中预设多个领域之后，可针对每个领域建立与该领域对应的同义表达词库。具体是，如图3中所示，在图3中的步骤1，召回引擎定期从标问库请求获取分词索引。在步骤1.1，标问库将从其中包括的标问及每个标问对应的问法集合中获取的各个业务领域的分词索引集合发送给召回引擎。从而在步骤2，召回引擎基于获取的各个领域的分词索引集合，建立或扩充同义表达词库。

图7示意示出了根据本说明书一个实施例的花呗领域的同义表达词库。如图7中所示，该词库的例如每行表示同一种同义表达，每个同义表达后面的数字例如为用户询问次数。其中，“花呗”的同义表达包括：蚂蚁花呗、蚂蚁花、花贝、蚂蚁花吧、蚂蚁花贝，可见，该同义表达不限于为同义词，而是可以为词组、包括错别字的同义表达、包括缺啥字的同义表达等等，如表中所示，该同义表达还可以包括该词的其它语言表达等等。

从而，对于上述输入问句“请问花呗到底怎么提前还清呢”，可基于预设的“花呗”领域的同义表达词库，对该输入问句进行同义表达改写。

在一个实施例中，对于该输入问句中的每个分词，可遍历其每个同义表达进行分词替换。例如，对于分词“花呗”，可使用词库中的蚂蚁花呗、蚂蚁花、花贝、蚂蚁花吧、蚂蚁花贝分别替换，以获取5个改写句。可将该5个改写句分别输入预先训练的语言模型，以获取该改写句的合理性分数，从而将合理性分数最高的改写句确定为所述第二改写问句。在一个实施例中，可将5个改写句及其中的替换分词的权重(例如通过询问次数计算获取)分别输入语言模型中，以获取该改写句的合理性分数，从而在考虑句子合理性分数中还加入替换分词的权重的因素。其中，所述语言模型例如预先通过“花呗”领域的语料库进行训练。例如，该输入问句中还包括分词“还清”，从而可遍历“花呗”和“还清”两个分词的同义表达，进行同义表达改写。例如，在进行该同义表达改写后，获取的第二改写问句可能为“请问花呗到底如何提前还款呢”，该改写问句语义相对最为合理，也最为接近标问库中的表达，从而便于召回引擎进行后续的与标问库中标问的匹配过程，也即图3中的步骤4.1.4，对改写问句按标问库标问类别进行分类。在通过步骤S608获取第二标问候选集之后，可基于该第二标问候选集获取通过该召回***召回的标问候选集，例如，该第二标问候选集本身可作为召回的标问候选集。通过使用语义模型对遍历了同义表达词库获取的多个改进行选择，可更加准确的获取第二改写问句。可以理解，这里，获取第二改写问句的方法不限于该方法，例如，可以通过以询问次数最多的同义表达替换的改写问句作为第二改写问句，等等。

在该实施例中，通过对输入问句识别具体的业务领域，再通过预先建立的领域同义表达词库进行针对性的替换改写，从而增加了召回的准确性。例如，对于输入问句“花呗越期了怎么还掉？”，在该问句中，较口语化，从而匹配的标问分词索引([花呗])过少，通过对其进行同义表达改写后，可将其改写为“花呗逾期了怎么还款”，即，将其中的口语化分词同义替换为客服领域内标问语句的常用表达词汇，索引命中[花呗,逾期,还款]，有助于准确召回。

再例如，对于输入问句“蚂蚁借贝怎么还款”，该问句存在错别字，通过同义表达改写将其改写为“蚂蚁借呗怎么还款”，可以有效地对这类因为业务词输入错误，造成的模糊语句修正后召回。

在一个实施例中，在图2所示方法获取第一改写问句之后，还可以通过与图6所示方法类似的方法对该第一改写问句进行同义表达改写，具体是：

在获取第一改写问句之后，确定所述输入问句所属的领域；

例如，对于通过图2所示方法获取的与输入问句“请问花呗到底怎么提前还清呢”对于的第一改写问句“花呗怎么提前还清”，通过该方法可将其进一步改写为第三改写问句“花呗如何提取还款”，从而在与标问的匹配中，可以更准确地命中。该步骤也即图3中的步骤4.1.3,即对第一改写问句进行领域同义表达替换改写。

在一个实施例中，如图3中所示，在通过上述方法分别获取第一改写问句、第二改写问句和第三改写问句，并分别获取与其对应的第一、第二、第三标问候选集之后，可在步骤4.1.5，对该三个标问候选集中的全部标问进行排序。具体是，可将所述三个标问候选集中的标问集中到一起，对其中的标问进行去重之后，再进行排序。通过对通过上述三种方式获取的三个标问候选集进行综合排序，也即对三种方式获取的标问进行融合，并从中根据排序的顺序进行挑选。从而综合考虑了三种方式用于获取最终的召回结果，使得召回的准确率更高。

在一个实施例中，可通过预先训练的排序模型对所述多个标问进行排序。其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。所述排序模型例如为xgboost模型，所述标问的用户咨询概率是预先算好的，其通过标问在一定时间范围内被咨询过的频次/该客服领域总咨询标问数计算。通过使用基于大批量训练数据训练的排序模型对多个标问进行排序，获取了更准确的排序结果。

在对所述多个标问进行排序之后，召回引擎例如可如图3中步骤4.1.6所示将排序在前预定位(例如前三位)的标问作为召回的标问集合发送给智能客服。智能客服在接收该召回标问集合之后，还可以进行后续处理，例如在图3中的步骤4.2将该召回结果与其他召回引擎的召回结果放在一起再次排序，以获取最终的至少一个输出标问，并在图3中的步骤4.3基于该输出标问从标问库请求对应答案，标问库在图3中的步骤4.4返回对应的答案，智能客服在步骤4.5将该答案显示给用户。

图8示出根据本说明书一个实施例的用于智能客服中的标问召回装置8000，包括：

获取单元801，配置为，获取用户的输入问句；

第一改写单元802，配置为，将所述输入问句输入预先训练的核心语义抽取模型，以获取第一改写问句；以及

第一确定单元803，配置为，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题，作为所述输入问句的第一标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述第一确定单元803还配置为，将所述第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述各个概率，确定与所述第一改写问句相匹配的至少一个标准问题。

在一个实施例中，所述装置8000还包括，

第二确定单元804，配置为，在获取用户的输入问句之后，确定所述输入问句所属的领域；

第二改写单元805，配置为，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句；以及

第三确定单元806，配置为，从预设的标问库中确定与所述第二改写问句相匹配的至少一个标准问题，作为所述输入问句的第二标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述第二改写单元805包括，

遍历子单元8051，配置为，对于所述输入问句中的各个分词，遍历所述同义表达词库中的同义表达进行分词替换，以获取多个同义表达改写问句；

输入子单元8052，配置为，将各个同义表达改写问句输入预先训练的语言模型，以输出各个同义表达改写问句的合理性分数，其中，所述语义模型基于来自所述领域的语料库预先训练；以及

确定子单元8053，配置为，基于各个改写问句的合理性分数，从所述各个改写问句中确定所述第二改写问句。

在一个实施例中，所述装置8000还包括，

第四确定单元807，配置为，在获取第一改写问句之后，确定所述输入问句所属的领域；

第三改写单元808，配置为，基于预设的与所述领域对应的同义表达词库，对所述第一改写问句进行同义表达改写，以获取第三改写问句；以及

第五确定单元809，配置为，从预设的标问库中确定与所述第三改写问句相匹配的至少一个标准问题，作为所述输入问句的第三标问候选集，以用于获取召回的标问候选集。

在一个实施例中，所述装置还包括，排序单元810，配置为，对第一、第二、第三标问候选集中包括的全部标准问题进行排序，以基于所述排序确定预定数目的标准问题，作为召回的标问候选集。

在一个实施例中，所述排序单元810还配置为，通过预先训练的排序模型对第一、第二、第三标问候选集中包括的全部标准问题进行排序，其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。

图9示出根据本说明书一个实施例的一种用于智能客服中的标问召回装置900，包括：

获取单元91，配置为，获取用户的输入问句；

第一确定单元92，配置为，确定所述输入问句所属的领域；

改写单元93，配置为，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取改写问句；以及

第二确定单元94，配置为，从预设的标问库中确定与所述改写问句相匹配的至少一个标准问题，作为所述输入问句的标问候选集，以用于获取召回的标问候选集。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于智能客服中的标问召回方法，包括：

获取用户的输入问句；

2.根据权利要求1所述的方法，其中，所述核心语义抽取模型包括相连的BERT模型和BiLSTM-CRF模型。

3.根据权利要求1所述的方法，其中，所述核心语义抽取模型基于多个训练样本得到训练，其中，每个训练样本包括：初始问句和标签集，其中，所述标签集中包括顺序排列的多个标注标签，所述多个标注标签与初始问句中顺序排列的多个字分别对应。

4.根据权利要求1所述的方法，其中，从预设的标问库中确定与所述第一改写问句相匹配的至少一个标准问题包括，将所述第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述各个概率，确定与所述第一改写问句相匹配的至少一个标准问题。

5.根据权利要求1所述的方法，还包括，

6.根据权利要求5所述的方法，其中，基于预设的与所述领域对应的同义表达词库，对所述输入问句进行同义表达改写，以获取第二改写问句包括，

7.根据权利要求6所述的方法，还包括，

在获取第一改写问句之后，确定所述输入问句所属的领域；

8.根据权利要求7所述的方法，还包括，对第一、第二、第三标问候选集中包括的全部标准问题进行排序，以基于所述排序确定预定数目的标准问题，作为召回的标问候选集。

9.根据权利要求8所述的方法，其中，对第一、第二、第三标问候选集中包括的全部标准问题进行排序包括，通过预先训练的排序模型对第一、第二、第三标问候选集中包括的全部标准问题进行排序，其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。

10.一种用于智能客服中的标问召回方法，包括：

获取用户的输入问句；

确定所述输入问句所属的领域；

11.一种用于智能客服中的标问召回装置，包括：

获取单元，配置为，获取用户的输入问句；

12.根据权利要求11所述的装置，其中，所述核心语义抽取模型包括相连的BERT模型和BiLSTM-CRF模型。

13.根据权利要求11所述的装置，其中，所述核心语义抽取模型基于多个训练样本得到训练，其中，每个训练样本包括：初始问句和标签集，其中，所述标签集中包括顺序排列的多个标注标签，所述多个标注标签与初始问句中顺序排列的多个字分别对应。

14.根据权利要求11所述的装置，其中，所述第一确定单元还配置为，将所述第一改写问句输入预先训练的分类模型，以使得所述分类模型输出所述第一改写问句被分类为所述标问库中包括的各个标准问题的概率，从而基于所述各个概率，确定与所述第一改写问句相匹配的至少一个标准问题。

15.根据权利要求11所述的装置，还包括，

16.根据权利要求15所述的装置，其中，所述第二改写单元包括，

17.根据权利要求16所述的装置，还包括，

18.根据权利要求17所述的装置，还包括，排序单元，配置为，对第一、第二、第三标问候选集中包括的全部标准问题进行排序，以基于所述排序确定预定数目的标准问题，作为召回的标问候选集。

19.根据权利要求18所述的装置，其中，所述排序单元还配置为，通过预先训练的排序模型对第一、第二、第三标问候选集中包括的全部标准问题进行排序，其中，对于每个标准问题，对所述排序模型输入该标准问题、该标准问题的分类概率、该标准问题与所述输入问句的相似度、以及该标准问题在所述领域下的用户咨询概率，以使得所述排序模型输出各个标准问题的排序。

20.一种用于智能客服中的标问召回装置，包括：

获取单元，配置为，获取用户的输入问句；

第一确定单元，配置为，确定所述输入问句所属的领域；

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。