CN116340481A

CN116340481A - 自动回复提问的方法及装置、计算机可读存储介质、终端

Info

Publication number: CN116340481A
Application number: CN202310182371.5A
Authority: CN
Inventors: 史可欢; 徐清; 蔡华
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-27
Anticipated expiration: 2043-02-27
Also published as: CN116340481B

Abstract

一种自动回复提问的方法及装置、计算机可读存储介质、终端，方法包括：确定问答库，问答库包含多组问题及每组问题对应的一个或多个回答，每组问题包含一个标准问题及其对应的一个或多个相似问题；确定输入提问的第一句向量与所述问答库每个标准问题的第二句向量之间的第一相似度；如果最大第一相似度小于第一阈值，则基于各个第一相似度对问答库进行筛选，得到待匹配问题集；分别确定第一句向量与待匹配问题集的每个问题的第三句向量之间的第二相似度；如果最大第二相似度大于等于第二阈值，则将最大第二相似度所属的问题对应的至少一个回答，作为输入提问的最终回答；其中，第一阈值小于等于第二阈值。上述方案可以提高回答的效率与准确性。

Description

自动回复提问的方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种自动回复提问的方法及装置、计算机可读存储介质、终端。

背景技术

在社会生产消费活动场景中，很多领域的工作人员都需要面对大量来自访客的咨询和提问，而回答的及时性和准确性会决定访客的感受，并影响到工作的下一步进展。例如，电子商务平台上的商家或者主播需要回答客户对于店铺、商品信息和物流情况的提问，景点旅游中心工作人员需要回答游客关于门票信息、景点路线和文化历史背景的提问等等。面对庞大的提问数量，人工回答的方式已无法满足时效要求。基于此，人们已开始研究将自然语言处理技术应用于问答领域，通过机器自动回答用户提问。其中，如何提高回复提问的及时性与准确性，具有重要研究价值。

自动回复用户提问需要找寻到问答库中与当前提问最相似的问句，然后回复该最相似的问句所对应的回答，本质上是将提问与已有问题列表进行相似度匹配的技术。具体而言，针对用户输入的提问，终端设备(例如，机器人)需要从问答库中寻找与该输入的提问最相似的问句，然后回复该最相似的问句所对应的回答。在现有技术中，问句匹配主要通过计算问句之间的相似度来实现，常用方案包括如下几种：

(1)字符串匹配方法。字符串匹配主要包括逐字精确匹配、关键字匹配、正则匹配以及通过计算衡量字符串差异度的编辑距离、寻找最长公共子序列等方式进行文本匹配等。然而，字符串匹配方法无法准确识别出问句的语义特征，对于表述差异大但语义上相似的问句，容易将其误判为不相似。

(2)基于机器学习的短文本分类方案。现有的短文本分类方法，通常需要对采用大量带标签数据(往往需要人工标注)集对短文本分类模型进行有监督训练，存在训练数据集获取成本高、数量不足的问题，难以覆盖现实语言中相似语义下庞大数量的多样化表达，进而导致最终获得的回答的准确性不足。

发明内容

本发明实施例解决的技术问题是如何对输入提问进行高效且准确地回答。

为解决上述技术问题，本发明实施例提供一种自动回复提问的方法，包括以下步骤：确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；其中，所述第一阈值小于等于所述第二阈值。

可选的，所述确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，包括：分别将所述输入提问以及所述问答库中的各个标准问题，输入预设的语言模型，以确定所述输入提问的第一句向量，以及确定所述问答库中各个标准问题的第二句向量；其中，所述语言模型是采用全词遮蔽方法以及预设的中文数据集，对初始语言模型进行初训练得到优化语言模型后，采用训练问题集对所述优化语言模型进行微调训练得到的。

可选的，所述初始语言模型为中文BERT模型；所述采用训练问题集对所述优化语言模型进行微调训练，包括：采用无监督SimCSE的对比学习方法，将所述训练问题集输入所述优化语言模型进行迭代训练，得到所述语言模型。

可选的，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，包括：依据数值大小，对所得到的各个第一相似度由大至小进行排序；从排序后的各个第一相似度中，选取预设数量个排序靠前的第一相似度；将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集。

可选的，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，包括：从各个第一相似度中，选取数值大于等于第三阈值的第一相似度；将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集；其中，所述第三阈值小于所述第一阈值。

可选的，所述方法还包括：如果所述最大第一相似度大于等于第一阈值，则将该最大第一相似度所属的标准问题所对应的至少一个回答，作为所述输入提问的最终回答。

可选的，所述方法还包括：如果所得到的最大第二相似度小于所述第二阈值，则确认所述问答库中不存在所述输入提问对应的回答。

可选的，所述确定问答库，包括：确定初始问题集，所述初始问题集包含多个初始问题子集，其中，各个初始问题子集分别属于不同的领域；对预设的包含一个或多个标准问题的初始问答库，确定所述初始问答库所属的领域；从所述初始问题集中确定与所述初始问答库所属的领域相同的初始问题子集，作为候选问题子集；对所述初始问答库中每个标准问题，确定该标准问题与所述候选问题子集中的各个问题之间的第三相似度；从所述候选问题子集中，选取第三相似度大于等于第四阈值的各个问题，作为该标准问题对应的相似问题；将所选取的各个相似问题添加至所述初始问答库中，以得到所述问答库。

可选的，在确定问答库之后，所述方法还包括：将待添加的标准问题输入训练后的文本生成模型，以生成所述待添加的标准问题对应的多个相似问题，其中，所述训练后的文本生成模型是采用多组相似问题构成的数据集对预设的文本生成模型进行训练得到的；将所述待添加的标准问题及其对应的多个相似问题的至少一部分，添加至所述问答库。

本发明实施例还提供一种自动回复提问的装置，包括：问答库确定模块，用于确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；第一相似度确定模块，用于确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；问题筛选模块，用于如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；第二相似度确定模块，用于分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；回答确定模块，用于如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；其中，所述第一阈值小于等于所述第二阈值。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述自动回复提问的方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述自动回复提问的方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种自动回复提问的方法，先确定问答库，所述问答库中的每组问题包含一个标准问题及其对应的一个或多个相似问题；然后分别确定输入提问的第一句向量和每个标准问题的第二句向量之间的第一相似度；如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；再分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；基于最大的第二相似度与第二阈值的比较结果，确定所述输入提问的最终回答；其中，所述第一阈值小于等于所述第二阈值。

在本发明实施例中，一方面，在实际应用中，用户输入的提问在语义相同或相近的情况下，提问的表述方式各异甚至差别很大，而问句的句向量能够较为准确地反映问句中包含的语义信息。由此，相较于现有的字符串匹配或正则匹配方案容易漏掉与输入提问的表述差异大但语义上相似的问句，本发明实施例基于句向量的相似度进行问句匹配，可以有效提升问句匹配的准确性，进而提升最终回答的准确性。另一方面，本发明实施例先基于输入提问与问答库中的各个标准问题的第一相似度，对所述问答库中的问题进行筛选得到待匹配问题集；再基于输入提问与所待匹配问题集中各个问题的第二相似度，确定输入提问的最终回答。由于经过筛选得到的待匹配问题集问题数量明显少于问答库中的问题数量，可以大幅减少参与运算的数据量，从而降低运算开销的同时，提高自动回复提问的效率。

进一步，所述确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，包括：分别将所述输入提问以及所述问答库中的各个标准问题，输入预设的语言模型，以确定所述输入提问的第一句向量，以及确定所述问答库中各个标准问题的第二句向量；其中，所述语言模型是采用全词遮蔽方法以及预设的中文数据集，对初始语言模型进行初训练得到优化语言模型后，采用训练问题集对所述优化语言模型进行微调训练得到的。

在本发明实施例中，通过采用训练问题集对初训练得到的优化语言模型进行微调训练，可以实现对所述优化语言模型参数的微调，使得模型参数进一步优化。进一步，微调训练的方法可以是无监督SimCSE的对比学习方法，训练目标为尽可能提高正例中两个句向量的相似度并尽可能降低正例与反例间的句向量相似度。相较于现有技术采取带标签数据集进行有监督训练，采用无监督训练方式可以显著降低训练成本。进一步，微调后得到的语言模型输出的句向量能够更加准确地反映不同输入问句的语义特征，有助于提高后续句向量相似度计算结果的准确度，进而提高最终回答的准确度。

进一步，所述确定问答库，包括：确定初始问题集，所述初始问题集包含多个初始问题子集，其中，各个初始问题子集分别属于不同的领域；对预设的包含一个或多个标准问题的初始问答库，确定所述初始问答库所属的领域；从所述初始问题集中确定与所述初始问答库所属的领域相同的初始问题子集，作为候选问题子集；对所述初始问答库中每个标准问题，确定该标准问题与所述候选问题子集中的各个问题之间的第三相似度；从所述候选问题子集中，选取第三相似度大于等于第四阈值的各个问题，作为该标准问题对应的相似问题；将所选取的各个相似问题添加至所述初始问答库中，以得到所述问答库。在本发明实施例中，基于不同的“领域”对数量庞大的初始问题集进行划分；然后根据预设的初始问答库所属的领域，从相同领域的问题子集相同领域的问题子集中筛选所述初始问答库中每个标准问题对应的相似问题。由此，可以快速地确定每个标准问题对应的相似问题，提高所述问答库的配置效率。

进一步，在确定问答库之后，所述方法还包括：将待添加的标准问题输入训练后的文本生成模型，以生成所述待添加的标准问题对应的多个相似问题，其中，所述训练后的文本生成模型是采用多组相似问题构成的数据集对预设的文本生成模型进行训练得到的；将所述待添加的标准问题及其对应的多个相似问题的至少一部分，添加至所述问答库。由于训练后的文本生成模型学习到相似问题之间的特征，因此可以结合实际场景需要，基于任何需要添加至所述问答库的标准问题，快速而准确地生成对应的多个相似问题，实现对所述问答库的及时更新，以扩充所述问答库中的问题数量。

附图说明

图1是本发明实施例中一种自动回复提问的方法的流程图；

图2是图1中步骤S11的一种具体实施方式的流程图；

图3是图1中步骤S13的第一种具体实施方式的流程图；

图4是图1中步骤S13的第二种具体实施方式的流程图；

图5是本发明实施例中一种自动回复提问的装置的结构示意图。

具体实施方式

如前所述，实现自动回复提问的技术本质上可以被认为是将提问与问答库中的已有问题列表进行匹配的技术。匹配的准确度往往直接影响到最终回答的准确性。

在现有技术中，问句匹配以寻找最相似问句的方法主要通过计算问句之间的相似度来实现，常用方案包括如下几种：

(1)字符串匹配方法。字符串匹配主要包括逐字精确匹配、关键字匹配、正则匹配以及通过计算衡量字符串差异度的编辑距离、寻找最长公共子序列等方式进行文本匹配等。然而，精确匹配和关键字匹配对于多义词和否定句来说容易出现错误匹配的情况，无法对上下文的语境做出判断；正则匹配则需要人工对于每一类问题进行复杂的规则配置，并且难以穷尽覆盖多样化的语言表述；计算编辑距离或者最长公共子序列则可能导致匹配的范围比较狭窄，漏掉表述差异大但语义上相似的问题，并且同样存在将字符相似而语义大相径庭的句子错配的问题。

(2)机器学习匹配方案。机器学习匹配方案主要包括短文本分类。短文本分类可以使用包括朴素贝叶斯、支持向量机、XGBoost等在内的常用分类算法实现。现有的机器学习匹配方案通常需要人工对领域内的问题集进行整理分类并标注上类别标签，得到训练数据集；然后采用该训练数据集对模型进行有监督训练，获得领域内的短文本分类模型；最后通过该模型将用户提问划入相应的分类并返回该分类的预设回答。该方法依赖大量的人工标注工作，且存在分类数量和训练数据集规模有限的问题；对于每次分类变化都需要重新进行模型训练，成本较大；采用的训练数据集未覆盖现实语言中相似语义下庞大数量的多样化表达，导致最终的回答准确性不足。

为解决上述技术问题，本发明实施例提供一种自动回复提问的方法，具体包括：确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；其中，所述第一阈值小于等于所述第二阈值。

在本发明实施例中，一方面，在实际应用中，用户输入的提问在语义相同或相近的情况下，提问的表述方式各异甚至差别很大，而问句的句向量能够较为准确地反映问句中包含的语义信息。由此，相较于现有的字符串匹配或正则匹配方案容易漏掉与输入提问的表述差异大但语义上相似的问句，本发明实施例基于句向量的相似度进行问句匹配，可以有效提升问句匹配的准确性，进而提升所确定的最终回答的准确性。

另一方面，本发明实施例先基于输入提问与问答库中的各个标准问题的第一相似度，对所述问答库中的问题进行筛选得到待匹配问题集；再基于输入提问与所待匹配问题集中各个问题的第二相似度，确定输入提问的最终回答。由于经过筛选得到的待匹配问题集问题数量明显少于问答库中的问题数量，可以大幅减少参与运算的数据量，从而降低运算开销的同时，提高自动回复提问的效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种自动回复提问的方法的流程图。所述方法可以包括步骤S11至步骤S14：

步骤S11：确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；

步骤S12：确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；

步骤S13：如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；

步骤S14：分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度。

步骤S15：如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答。

其中，所述第一阈值小于等于所述第二阈值。

在步骤S11的具体实施中，在所述问答库的每组问题中，所述标准问题以及所述相似问题之间语义相同或相近。

作为一个非限制性实施例，对于下述问题：“北京与上海之间的距离有多远”、“北京距离上海有多远”、“上海距离北京有多少公里”、“上海与北京之间的距离是多少”、“从上海到北京有多少千米”等。虽然各个问题的表述方式存在一定的差异(例如，词汇先后顺序不同)，但各个问题表达的语义是相同或相近的(具体而言，各个问题包含的语音信息相同或相近)，因此可以划分为所述问答库中的一组问题。

在划分得到的每组问题中，可以随机选取其中一个问题作为标准问题，其余问题作为该标准问题的相似问题；或者，也可以将其中符合预设的问句表达模式的问题作为标准问题，其余问题作为该标准问题的相似问题；或者，也可以采用其他适当方式分别确定标准问题及其相似问题。

进一步地，参照图2，图2是图1中步骤S11的一种具体实施方式的流程图，所述步骤S11中确定问答库的过程具体可以包括步骤S21至步骤S26。

在步骤S21中，确定初始问题集，所述初始问题集包含多个初始问题子集，其中，各个初始问题子集分别属于不同的领域。

其中，所述初始问题集可以是采用文本爬取方法，从各大网站爬取到的用户历史提问集合；也可以是从不同领域的业务场景中搜集到的用户历史提问集。所述初始问题集包含的问题数量较为庞大，例如可以包含数千至数万条甚至更多数量的问题。

在具体实施中，可以基于不同的领域对所述初始问题集进行划分，得到多个所述初始问题子集。

具体地，可以采用一级分类、两级分类或多级分类方式。以两级分类方式为例，第一级别领域可以包括但不限于：教育、电商、法律等；其中，电商领域下的第二级别领域可以细分为：食品、保健品、化妆品、服装等等。其中，所述初始问题集中的各个初始问题子集，所属的第一级别领域可以相同或不同，所属的第二级别领域应是不同的。关于对所述初始问题集进行领域划分方法，可以是基于关键词进行领域分类，也可以是基于现有文本分类模型进行领域分类，或者其他适当的方法。

在步骤S22中，对预设的包含一个或多个标准问题的初始问答库，确定所述初始问答库所属的领域。

在具体实施中，例如，可以通过结合场景需要人工进行不同领域的划分，然后根据预设的领域获取属于该领域的若干问题及其回答，以确定所述初始问答库。

在步骤S23中，从所述初始问题集中确定与所述初始问答库所属的领域相同的初始问题子集，作为候选问题子集。

在步骤S24中，对所述初始问答库中每个标准问题，确定该标准问题与所述候选问题子集中的各个问题之间的第三相似度。

在具体实施中，可以采用句向量准确表征每个问题所表达/包含的语义信息或语义特征，进一步而言，可以将所述标准问题的句向量和所述候选问题子集中的各个问题的句向量之间的相似度(例如，余弦相似度)，作为所述第三相似度。其中，问题的句向量可以采用适当的句向量生成模型得到

其中，本发明实施例中提到的句向量之间的相似度可以采用现有的适当方式进行确定，例如，采用句向量与句向量进行点乘运算得到，或者，也可以采用句向量与多维矩阵(多个句向量形成的多维矩阵)进行点乘运算得到。

在步骤S25中，从所述候选问题子集中，选取第三相似度大于等于第四阈值的各个问题，作为该标准问题对应的相似问题；

在步骤S26中，将所选取的各个相似问题添加至所述初始问答库中，以得到所述问答库。

具体地，对所述初始问答库中的每个标准问题，将从所述候选问题子集中选取的该标准问题对应的相似问题，添加至所述初始问答库中，从而得到所述问答库。

其中，所述第四阈值可以根据实际场景需要而设置，例如可以选取数值区间[0.8,1.0]内的适当数值作为所述第四阈值。可以理解的是，所述第四阈值越大，所述标准问题与对应的相似问题之间的语义越接近。

在具体实施中，除图2所示实施例提供的问答库确定方法，还可以采用其他适当方法确定所述问答库。例如，可以人工对若干候选问题进行语义相似度分析，然后将语义相同或相近的各个候选问题划分为所述问答库中的一组问题。又如，可以对若干候选问题生成各自的初始句向量，然后将初始句向量之间的相似度大于等于预设相似度阈值的多个候选问题，划分为所述问答库中的一组问题。

进一步地，在确定所述问答库之后，所述方法还可以包括：将待添加的标准问题输入训练后的文本生成模型，以生成所述待添加的标准问题对应的多个相似问题，其中，所述训练后的文本生成模型是采用多组相似问题构成的数据集对预设的文本生成模型进行训练得到的；将所述待添加的标准问题及其对应的多个相似问题的至少一部分，添加至所述问答库。

其中，所述多组相似问题可以是采用现有的文本分类模型对初始问题集(该初始问题集可以直接采用步骤S21中所述的初始问题集)进行分类后得到的。所述预设的文本生成模型可以是现有的可以实现文本生成功能的机器学习模型，例如，双向和自回归转换模型(Bidirectional and Auto-Regressive Transformers，BART)。BART是一种开源单位文本理解和生成模型，在编写文本摘要、对话生成等文本生成类任务中表现优异。

在本发明实施例中，通过采用多组相似问题对文本生成模型进行训练，可以使得该模型学习到相似问题之间的特征。由此，可以结合实际场景需要，基于任何需要添加至所述问答库的标准问题，快速而准确地生成对应的多个相似问题，实现对所述问答库的及时更新，以扩充所述问答库中的问题数量。

继续参照图1，在步骤S12的具体实施中，采用所述第一句向量表征所述输入提问包含的语义信息或语义特征，采用所述第二句向量表征所述问答库中每个标准问题包含的语义信息或语义特征；然后基于计算句向量的相似度(例如，计算余弦相似度)方法进行问句匹配。

需要指出的是，相较于问句本身或基于问句得到的字符串，问句的句向量(sentence embedding)可以反映整个句子的语义特征，从而有助于解决单纯字符匹配方法中由于缺乏语义信息，对于表述差异大但语义上相似的问句，容易将其误判为不相似(或相似度小)的问题。

进一步地，所述步骤S12中确定所述第一句向量和所述第二句向量的方法具体可以包括：分别将所述输入提问以及所述问答库中的各个标准问题，输入预设的语言模型，以确定所述输入提问的第一句向量，以及确定所述问答集中各个标准问题的第二句向量。

其中，所述输入提问的第一句向量以及所述标准问题的第二句向量可以是具有预设长度的一维向量数据，例如，可以是长度为768的一维向量。具体地，句向量的长度可以指句向量中包含的编码数量。若所述问答库中的标准问题共有N条，则N条标准问题的全部第二句向量可以形成维度为N×768的矩阵。

其中，所述语言模型是采用全词遮蔽方法以及预设的中文数据集，对初始语言模型进行初训练得到优化语言模型后，采用训练问题集对所述优化语言模型进行微调训练得到的。

其中，其中，所述预设的中文数据集可以是从百科、新闻、问答等多渠道不同领域获取的大规模数据集；所述训练问题集可以直接采用步骤S21中所述的初始问题集。

更进一步地，所述初始语言模型为中文BERT模型；所述采用训练问题集对所述优化语言模型进行微调训练，包括：采用无监督SimCSE的对比学习方法和预设的损失函数，将所述训练问题集输入所述优化语言模型进行迭代训练，直至所述损失函数收敛或迭代次数达到预设次数，得到所述语言模型。

其中，所述损失函数可以采用现有的对比学习损失函数，例如多重否定排名损失函数(Multiple Negatives Ranking Loss)。

具体地，在所述无监督SimCSE的对比学习方法中，对所述训练问题集中的每个问题，将该问题两次输入所述优化语言模型，每次进行随机的遮蔽，从而得到一对不同的句向量；采用该对句向量作为一对正例，并与所述训练问题集中其他各个问题输入所述优化语言模型得到的句向量互为反例。训练目标为提高正例中两个句向量的相似度并降低正例与反例间的句向量相似度，直至达到终止条件时停止训练。

在本发明实施例中，相较于现有技术采取带标签数据集进行有监督的训练方式中训练数据集难以获取、训练成本高，本发明实施例采用无监督训练方式可以显著降低训练成本。进一步，基于对比学习方法微调后得到的语言模型能够输出更加准确地反映不同输入问句的语义特征的句向量，提高所述语言模型在相似问题与非相似问题之间的区分能力，从而提高后续句向量相似度计算结果的准确度，进而提高回答的准确度。

在具体实施中，所述语言模型也可以采用训练问题集对中文RoBERTa-wwm-ext模型进行微调训练得到的。中文RoBERTa-wwm-ext模型是采用全词遮蔽方法和大规模数据集(总词数约为54亿规模的中文数据集(ext)，该中文数据集是从百科、新闻、问答等多渠道获取的)，对中文BERT模型进行训练得到的。相比于中文BERT模型，中文RoBERTa-wwm-ext模型在机器阅读理解、单句分类、句对分类等任务中有着显著的提升。

关于对中文RoBERTa-wwm-ext模型进行微调训练的方法参照上述对所述优化语言模型进行无监督训练的方法，此处不再赘述。

在步骤S13的具体实施中，判断步骤S12中确定的所述输入提问的第一句向量与每个标准问题的第二句向量之间的第一相似度中的最大值(即，所述最大第一相似度)，是否小于第一阈值；如果所述最大第一相似度小于第一阈值，则基于步骤S12中得到的各个第一相似度，对所述问答库中的问题进行筛选，得到待匹配问题集。

进一步地，如果所述最大第一相似度大于等于第一阈值，则将该最大第一相似度所属的标准问题所对应的至少一个回答，作为所述输入提问的最终回答。

具体而言，如果所述最大第一相似度大于等于第一阈值，则可以从该最大第一相似度所属的标准问题所对应的多个回答中，随机选取一个回答，作为所述输入提问的最终回答；或者，也可以从该最大第一相似度所属的标准问题所对应的多个回答中，选取优先级最高的一个回答，作为所述最终回答。

其中，该最大第一相似度所属的标准问题，具体指：所述问答库的各个标准问题的第二句向量中，与输入提问的第一句向量之间的第一相似度数值最大的那个第二句向量所属的标准问题。

在具体实施中，所述第一阈值可以根据实际需要而设定。可以理解的是，所述第一阈值设置越大，则所述步骤S13中最大第一相似度小于所述第一阈值的概率越大；所述第一阈值设置越小，则所述步骤S13中最大第一相似度大于等于所述第一阈值的概率越大。

进一步地，参照图3，图3是图1中步骤S13的第一种具体实施方式的流程图。在所述步骤S13的第一种具体实施方式中，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，可以包括步骤S31至步骤S33。

在步骤S31中，依据数值大小，对所得到的各个第一相似度由大至小进行排序。

在步骤S32中，从排序后的各个第一相似度中，选取预设数量个排序靠前的第一相似度。

在具体实施中，所述预设数量可以根据实际需要适当设置，例如，可以基于第一相似度的总数乘以预设百分比确定。非限制性地，所述预设百分比可以是[15％，30％]中的适当数值。可以理解的是，所述预设数量的数值越大，则筛选得到的待匹配问题集中的问题总数越多。

在步骤S33中，将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集。

进一步地，参照图4，图4是图1中步骤S13的第二种具体实施方式的流程图。在所述步骤S13的第二种具体实施方式中，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，具体可以包括步骤S41至步骤S42。

在步骤S41中，从各个第一相似度中，选取数值大于等于第三阈值的第一相似度。

其中，所述第三阈值小于所述第一阈值，所述第一阈值小于等于所述第二阈值。

在一个具体实施例中，所述第二阈值可以设置为0.9；所述第一阈值可以设置为[0.8，0.9]中的适当数值；所述第三阈值可以设置为[0.7，0.8)中的适当数值。

在另一个具体实施例中，所述第二阈值可以设置为0.98；所述第一阈值可以设置为[0.9，0.98]中的适当数值；所述第三阈值可以设置为[0.8，0.9)中的适当数值。

需要指出的是，关于所述第一阈值、第二阈值以及第三阈值的具体数值设置，可以在满足大小关系的前提下，根据具体场景需要设置为其他适当数值，本发明实施例对此不做限制。

在步骤S42中，将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集。

继续参照图1，在步骤S14的具体实施中，确定所述待匹配问题集中的每个问题的第三句向量的具体方法，可以参照上述步骤S12中关于确定所述第一句向量和所述第二句向量的方法，此处不再赘述。

在步骤S15的具体实施中，判断上述步骤S14中确定的所述输入提问的第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度的最大值(即，所述最大第二相似度)，是否大于等于第二阈值；如果所述最大第二相似度大于等于所述第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答。

进一步地，如果所述最大第二相似度小于所述第二阈值，则确认所述问答库中不存在所述输入提问对应的回答。

更进一步地，确认所述问答库中不存在所述输入提问对应的回答之后，可以向用户输出相应的提示信息(或兜底回答)，以提示所输入提问未查找到对应的回答，或者提示用户从其他渠道(例如人工窗口)进行询问。所述提示信息可以通过文字、语音、动画等形式呈现。

参照图5，图5是本发明实施例中一种自动回复提问的装置的结构示意图。所述自动回复提问的装置可以包括：

问答库确定模块51，用于确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；

第一相似度确定模块52，用于确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；

问题筛选模块53，用于如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；

第二相似度确定模块54，用于分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；

回答确定模块55，用于如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；

其中，所述第一阈值小于等于所述第二阈值。

关于该自动回复提问的装置的原理、具体实现和有益效果请参照前文及图1至图4示出的关于自动回复提问的方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图4示出的自动回复提问的方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图4示出的自动回复提问的方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种自动回复提问的方法，其特征在于，包括：

确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；

如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；

分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；

如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；

其中，所述第一阈值小于等于所述第二阈值。

2.根据权利要求1所述的方法，其特征在于，所述确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，包括：

分别将所述输入提问以及所述问答库中的各个标准问题，输入预设的语言模型，以确定所述输入提问的第一句向量，以及确定所述问答库中各个标准问题的第二句向量；

3.根据权利要求2所述的方法，其特征在于，所述初始语言模型为中文BERT模型；

所述采用训练问题集对所述优化语言模型进行微调训练，包括：

采用无监督SimCSE的对比学习方法，将所述训练问题集输入所述优化语言模型进行迭代训练，得到所述语言模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，包括：

依据数值大小，对所得到的各个第一相似度由大至小进行排序；

从排序后的各个第一相似度中，选取预设数量个排序靠前的第一相似度；将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集。

5.根据权利要求1所述的方法，其特征在于，所述基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集，包括：

从各个第一相似度中，选取数值大于等于第三阈值的第一相似度；

将所选取的第一相似度所属的标准问题及其对应的相似问题的集合，作为所述待匹配问题集；

其中，所述第三阈值小于所述第一阈值。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述最大第一相似度大于等于第一阈值，则将该最大第一相似度所属的标准问题所对应的至少一个回答，作为所述输入提问的最终回答。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所得到的最大第二相似度小于所述第二阈值，则确认所述问答库中不存在所述输入提问对应的回答。

8.根据权利要求1所述的方法，其特征在于，所述确定问答库，包括：

确定初始问题集，所述初始问题集包含多个初始问题子集，其中，各个初始问题子集分别属于不同的领域；

对预设的包含一个或多个标准问题的初始问答库，确定所述初始问答库所属的领域；

从所述初始问题集中确定与所述初始问答库所属的领域相同的初始问题子集，作为候选问题子集；

对所述初始问答库中每个标准问题，确定该标准问题与所述候选问题子集中的各个问题之间的第三相似度；

从所述候选问题子集中，选取第三相似度大于等于第四阈值的各个问题，作为该标准问题对应的相似问题；

将所选取的各个相似问题添加至所述初始问答库中，以得到所述问答库。

9.根据权利要求1或8所述的方法，其特征在于，在确定问答库之后，所述方法还包括：

将待添加的标准问题输入训练后的文本生成模型，以生成所述待添加的标准问题对应的多个相似问题，其中，所述训练后的文本生成模型是采用多组相似问题构成的数据集对预设的文本生成模型进行训练得到的；

将所述待添加的标准问题及其对应的多个相似问题的至少一部分，添加至所述问答库。

10.一种自动回复提问的装置，其特征在于，包括：

问答库确定模块，用于确定问答库，所述问答库包含多组问题以及每组问题对应的一个或多个回答，其中，每组问题包含一个标准问题及其对应的一个或多个相似问题；

第一相似度确定模块，用于确定输入提问的第一句向量，以及确定所述问答库中每个标准问题的第二句向量，然后分别确定所述第一句向量与每个标准问题的第二句向量之间的第一相似度；

问题筛选模块，用于如果所得到的最大第一相似度小于第一阈值，则基于所得到的各个第一相似度对所述问答库中的问题进行筛选，得到待匹配问题集；

第二相似度确定模块，用于分别确定所述第一句向量与所述待匹配问题集中的每个问题的第三句向量之间的第二相似度；

回答确定模块，用于如果所得到的最大第二相似度大于等于第二阈值，则将该最大第二相似度所属的问题对应的至少一个回答，作为所述输入提问的最终回答；

其中，所述第一阈值小于等于所述第二阈值。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至9任一项所述自动回复提问的方法的步骤。

12.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至9任一项所述自动回复提问的方法的步骤。