CN111078972B

CN111078972B - 提问行为数据的获取方法、装置和服务器

Info

Publication number: CN111078972B
Application number: CN201911199034.7A
Authority: CN
Inventors: 张琳; 梁忠平
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-06-16
Anticipated expiration: 2039-11-29
Also published as: CN111078972A

Abstract

本说明书提供了提问行为数据的获取方法、装置和服务器。在一个实施例中，提问行为数据的获取方法通过先利用预设的关联标签确定模型根据用户所提的目标问题，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个目标标签；再根据预设的排序规则，排列上述多个目标标签，得到对应目标标签点击序列，进而可以将上述目标标签点击序列作为一种用户提问目标问题时的行为数据。这样可以不需要依赖用户真实地去点击所展示的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高的参考价值的用户提问目标问题时的行为数据。

Description

提问行为数据的获取方法、装置和服务器

技术领域

本说明书属于互联网技术领域，尤其涉及提问行为数据的获取方法、装置和服务器。

背景技术

在许多场景中，例如，APP中的客服答复场景。为了提高用户的使用体验，有时会利用预先训练建立的模型来根据所采集的用户的行为数据，预测出用户想要提问的具体问题。再针对该问题，向用户反馈对应的答案。其中，上述模型需要通过对大量用户的提问时的行为数据进行学习训练才能获得。

因此，亟需一种能够获取用户的提问行为数据的方法。

发明内容

本说明书提供了提问行为数据的获取方法、装置和服务器，以便能够不需要依赖用户真实地去点击所展示的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高的参考价值的用户提问目标问题时的行为数据。

本说明书提供的一种提问行为数据的获取方法、装置和服务器是这样实现的：

一种提问行为数据的获取方法，包括：获取用户提出的目标问题；利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

一种提问行为数据的获取装置，包括：获取模块，用于获取用户提出的目标问题；确定模块，用于利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；排序模块，用于根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现获取用户提出的目标问题；利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取用户提出的目标问题；利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

本说明书提供的提问行为数据的获取方法、装置和服务器，通过先利用预设的关联标签确定模型根据用户所提的目标问题，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个目标标签；再根据预设的排序规则，基于不同维度考虑，排列上述多个目标标签，得到对应的符合用户真实点击规律的目标标签点击序列，进而可以将上述目标标签点击序列作为一种用户提问目标问题时的行为数据。这样可以不需要依赖用户真实地去点击所展示的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高的参考价值的用户提问目标问题时的行为数据。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的提问行为数据的获取方法的***结构组成的一个实施例的示意图；

图2是在一个场景示例中，引导用户通过点击所展示的标签确定用户所要提问的目标问题的一个场景示意图；

图3是在一个场景示例中，引导用户通过点击所展示的标签确定用户所要提问的目标问题的一个场景示意图；

图4是本说明书的一个实施例提供的提问行为数据的获取方法的流程示意图；

图5是在一个场景示例中，应用本说明书实施例提供的提问行为数据的获取方法的一种实施例的示意图；

图6是在一个场景示例中，应用本说明书实施例提供的提问行为数据的获取方法的一种实施例的示意图；

图7是本说明书的一个实施例提供的服务器的结构组成示意图；

图8是本说明书的一个实施例提供的提问行为数据的获取装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种提问行为数据的获取方法，所述提问行为数据的获取方法可以通过模拟的方式而不需要依赖用户真实地去点击与问题相关的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高参考的价值的用户提问目标问题时的标签点击序列作为对应的行为数据。

上述方法具体可以应用于包含有服务器和客户端的***架构中。具体可以参阅图1所示，上述客户端与服务器耦合，以便进行数据交互。其中，上述客户端具体可以用于采集获取用户提出的目标问题，并将所获取的用户提出的目标问题发送至服务器。上述服务器具体可以用于利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

在本实施例中，所述服务器具体可以包括一种应用于业务平台一侧，能够实现数据传输、数据处理等功能的后台负责数据处理的服务器。具体的，所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在本实施例中，所述客户端具体可以包括一种应用于用户一侧，能够实现数据采集、数据传输等功能的前端设备。具体的，所述客户端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、具有网络访问功能的电视机等。或者，所述客户端也可以为能够运行于上述电子设备中的软件应用。例如，可以是在手机上运行的某APP等。

在一个场景示例中，可以参阅图1所示，应用本说明书实施例提供的提问行为数据的获取方法，可以不需要依赖用户真实地去点击标签来描述自己想要提问的问题，就能够获得大量具有较高参考价值的，用于训练客服答复功能中的提问模型的提问行为数据。

在本场景示例中，A网络公司计划在自己发布的某宝的手机APP上增加一个智能的客服答复功能，以及时、快速地解答用户在使用该APP时出现的问题。为了提高用户的使用体验，A网络公司希望训练一个针对上述客服答复场景的预设的提问模型，通过该模型用户可以不用直接输入想要提问的问题，而是引导、采集并根据用户提问时的行为数据来智能地确定出用户想要提问的问题，再根据所确定出的问题为用户反馈该问题的答案。

具体的，参阅图2所示，当用户点击安装在手机上的某宝APP的首页面中的客服图标“我的客服”时，会进入“我的客服”中的客服对话界面。这时，该APP可以根据当前登录用户的用户属性信息(例如，用户的性别、年龄、交易记录、学历等等)，依次向用户展示出多组标签。用户可以根据自己所要提问的问题，分别点击手机上所展示出各组标签中的一个或多个标签。该APP则会采集用户上述点击标签的操作，作为用户提问时的行为数据，并通过预设的提问模型根据所述行为数据，结合预设的问题库，确定出用户想要提问的标准问题。例如确定出用户想问的标准问题是“如何查询交易记录”。进一步，该APP可以搜索与该标准问题匹配的答案反馈给用户。具体可以参阅图3所示。

为了实现上述功能，首先需要训练得到能够根据所采集到的用户针对所展示的标签的点击操作预测用户想要提问的问题的预设的提问模型。在训练建立上述预设的提问模型的过程中，需要获取大量用户通过点击标签操作来描述所要提问的问题的这类提问行为数据作为样本数据，用于训练得到较为准确的预设的提问模型。

然而上述提问行为数据往往需要依赖参与测试的用户真实地去点击所展示的标签来描述所要提问的问题，才能采集得到。而用户并不一定愿意配合测试，以供A网络公司获取上述提问行为数据。因此，如果依赖用户真实地去点击所展示的标签来描述所要提问的问题来获取大量用于模型训练的提问行为数据，实现过程相对较为麻烦，且数据的获取成本也相对较高。

基于上述情况，A网络公司的服务器可以应用本说明书实施例提供的提问行为数据的获取方法在不需要依赖用户真实地去点击所展示的标签来描述想要提问的问题的前提下，高效、低成本地拟合得到大量具有较高的参考价值的用户提问时的行为数据。

具体的，A网络公司的服务器可以通过用户手机上安装的APP搜集用户过去的提问记录，并从上述提问记录中提取出用户想要提问的标准问题作为用户的目标问题。其中，上述标准问题也可以称为标问，具体可以包括一种与预设的问题库匹配的问题，服务器预先获取并存储有与该问题对应的答案。

例如，服务器可以获取并从用户甲在某宝APP中与人工客服的历史对话记录里进行检索，提取出用户甲想要提问的，并且与预设的问题库中所保包含问题相匹配的问题：“如何查询交易记录”作为目标问题。

在得到了用户的目标问题后，可以调用预设的关联标签确定模型对该目标问题进行处理，得到与该目标问题对应相关的与目标问题较为近似的多个目标标签。

其中，上述预设的关联标签确定模型具体可以包括一种预先训练好的用于确定与目标问题近似且相关联的目标标签的模型。其中，上述目标标签具体可以包括一种与目标问题相关联，能够描述目标问题的某一个或多个相关属性特征的标签数据。对于某一个具体的目标问题，可以有多个不同的目标标签对应。具体的，可以用标签与问题的近似程度来描述标签与问题之间的近似关联性。如果一个标签与某个问题的近似程度越高，则该标签与该问题的近似关联性更强，能够更好地描述该问题的相关的属性特征。

其中，上述多个不同的目标标签中的任意两个标签可是描述该目标问题不同的属性特征的标签，也可以是描述同一个属性特征中不同层面或细节的标签。例如，对应于同一个目标问题的两个目标标签中的一个目标标签可以是用于描述目标问题所对应的业务类型的标签，例如，标签“交易”等。而另一个目标标签则可以是用于描述目标问题所对应的关联动作的标签，例如，标签“修改”等。又例如，上述两个目标标签还可以是描述同一个业务的标签，其中，一个目标标签可以是用于描述该业务的业务名称的标签，例如，标签“交易”等。而另一个目标标签则可以是用于描述同一业务下的次一级业务的业务名称的标签，例如，标签“交易查询”等。

在本场景示例中，具体实施时，服务器可以将上述目标问题作为模型输入，输入至所调用的预设的关联标签确定模型中；运行该预设的关联标签确定模型，得到对应的模型输出。根据所述模型输出，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个标签，作为该目标问题所对应的目标标签。

例如，通过利用预设的关联标签确定模型对用户甲的问题“如何查询交易记录”进行处理，可以得到以下三个目标标签：标签1“交易”、标签2“查询”和标签3“交易记录”。

服务器在按照上述方式得到了用户甲所提问的目标问题的多个标签后，可以根据预设的排序规则，按照一定的顺序来排列上述多个目标标签，以模拟用户甲在所展示的多个标签中选中点击关联近似的标签来描述自己想要提问的问题时的行为，从而得到一组用于指示用户甲的目标问题的目标标签点击序列。

其中，上述预设的排序规则具体可以理解为一种包括目标标签的维度的属性值的确定规则、目标标签的维度属性值的优先级权重确定规则、目标标签的排序评分的确定规则，以及目标标签的排序规则等的规则集。其中，上述预设的排序规则具体可以根据所对应的应用场景中用户的提问习惯、该应用场景中用户的关注点等具体情况，灵活设置。

具体的，服务器可以先根据预设的排序规则，从标签的语义范围、标签所对应的业务类型，以及用户对标签的关注程度这三个维度，来确定上述三个目标标签中各个目标标签的各个维度的属性值。

例如，从语义范围的维度对上述3个目标标签进行分析处理，发现：标签2“查询”与另外两个标签即标签1“交易”和标签3“交易记录”在语义范围维度不存在包含关系，而标签1“交易”在语义范围维度包含了标签3“交易记录”的语义范围，进而根据预设的排序规则，可以将语义范围较大，互不包含的标签1和标签2在语义范围维度上的属性值分别确定为较大的数值2，而将语义范围小于标签1的标签3在语义范围维度上的属性值确定为较小的数值1。然后，再从业务等级维度对上述3个目标标签进行分析处理，发现：标签1和标签3所对应的业务类型都为“交易”，而标签2所对应的业务类型为“查询”，根据预设的排序规则可以确定交易类业务的业务等级高于查询类业务，进而可以将标签1和标签3在业务等级的维度的属性值确定为较大的数值2，将标签2在业务等级维度的属性值确定为较低的数值1。接着，从用户的关注程度维度对上述3个目标标签进行分析处理，发现：根据预设的排序规则用户对这三类的关注程度是位于同一级别，因此可以将上述3个标签再关注程度维度上的属性值统一确定为数值1。

在得到了多个标签中各个目标标签的维度的属性值后，进一步可以根据预设的排序规则确定出不同维度的属性值的优先级权重。再根据每一个目标标签的各个维度的属性值，以及各个维度的优先级权重对该目标标签的多个维度的属性值进行加权求和，得到对应该目标标签的排序评分。再根据目标标签的排序评分，按照排序评分的数值大小排序来排列多个目标标签，得到对应的目标标签序列。

例如，根据预设的排序规则确定出在语义范围的维度上的属性值的优先级权重为0.5，在业务等级维度上的属性值的优先级权重为0.3，在关注程度维度上的属性值的优先级权重为0.2，进而可以根据上述3个标签各个标签的各个维度上的属性值，以及对应维度上的属性值的优先级权重进行加权求和来计算该标签的排序评分。对于标签1，可以按照以下算式计算对应的排序评分：f₁＝2×0.5+2×0.3+1×0.2＝1.8。即标签1的排序评分为1.8。按照同样的方式，可以分别计算出标签2的排序评分为1.5，标签3的排序评分为1.3。再根据各个目标标签的排序评分按照排序评分从大到小的顺序对上述3个目标标签进行排序，得到排序后的目标标签序列：标签1、标签2、标签3。进而可以利用该目标标签序列作为目标标签的点击序列，来模拟用户甲提问上述目标问题时点击所展示的标签时的行为数据，从而能够在不需要依赖用户甲真实地通过点击相应的标签来描述所要提问的问题，就可以顺利地采集到用户甲提问上述目标问题时的行为数据。

按照上述方式，可以从多个用户过去的提问记录中提取相应的目标问题，并生成用户提问目标问题时的行为数据，从而可以快速、低成本地获取大量不同用户提问不同目标问题的行为数据。

进而，服务器可以利用通过上述方式得到的大量用户提问目标问题时的行为数据作为样本数据，并利用该样本数据通过强化学习等方式进行具体的模型训练，得到效果相对较好、准确度相对较高的预设的提问模型。在得到上述预设的提问模型后，服务器可以利用上述预设的提问模型对客户端所采集到的用户针对客服答复界面中所展示的标签的点击操作，来准确地确定出用户想要提问的问题，并针对该问题搜索出对应的答案，及时地反馈给用户。

在另一个场景示例中，考虑到用户在提问记录中提出的问题可能与预设的问题库中所包含的问题差异比较大，导致无法从该用户的提问记录中提取得到标准问题。在这种情况下，服务器可以通过语义识别的方式找到用户在提问记录中提出的原始问题(也可以称为非标准问题)，将该原始问题作为目标问题。进而可以调用预设的关联标签确定模型对上述原始问题进行处理，得到与该原始问题关联，较为近似的多个目标标签。

在得到上述多个目标标签后，进一步可以根据所确定出的多个目标标签在返回预设的问题库中进行搜索匹配，从预设的问题库中找到与上述多个目标标签匹配的问题作为与上述原始问题对应的标准问题，并利用该标准问题替换上述原始问题作为该用户提的目标问题。这样，后续在根据预设的排序规则得到了对应的目标标签点击序列后，可以将该目标标签点击序列确定为该用户提问上述标准问题时的行为数据。

通过上述场景示例，可以适用于处理更多更复杂的用户的提问记录，来获取更多的用户提问目标问题时的行为数据。

参阅图4所示，本说明书实施例还提供了一种提问行为数据的获取方法。其中，该方法具体实施时，可以包括以下内容：

S401：获取用户提出的目标问题。

在一些实施例中，目标问题具体可以包括所针对的应用场景中用户想要提问的问题。例如，用户在使用某个APP时想要咨询的APP使用问题，或者用户在办理某业务时想要咨询的业务办理情况等等。当然，需要说明的是，上述所列举的目标问题只是一种示意性说明。具体实施时，根据所针对的应用场景的具体情况，上述目标问题还可以包括其他类型或内容的问题。对此，本说明书不作限定。

在一些实施例中，具体实施时，可以参阅图5所示，采集用户过去的提问记录；通过对上述提问记录进行语义识别，从用户的提问记录中获取标准问题作为上述目标问题。

其中，上述标准问题也可以称为标问，具体可以理解为一种与预设的问题库匹配的问题。上述预设的问题库具体可以包括一种针对应用场景设置建立的包含有多个标准问题的数据库。具体的，服务器可以预先针对所要处理的应用场景中用户可能提出的问题准备多个标准问题，以建立上述预设的问题库。其中，预设的问题库中的一个标准问题可以与直接从用户的提问记录中提取得到的多个不同形式，但所表征的语义内容相同的原始问题匹配对应。

例如，用户A在提问记录中提出的原始问题a是“查看我的交易记录”，用户B在提问记录中提出的原始问题b是“查询理历史交易数据”。通过语义识别分析，可知上述两个问题的语义内容实际上是相同的。进而，可以根据原始问题的语义内容，将存储在预设的问题库中的标准问题“查询交易记录”同时作为与上述原始问题a和原始问题b匹配对应的标准问题。

在一些实施例中，具体实施时，可以先采集用户过去的提问记录；通过语义识别，从所述提问记录中提取用户提问的原始问题；再根据所述原始问题，检索预设的问题库，从预设的问题库中到与所述原始问题匹配对应的标准问题，作为所述目标问题。当然，需要说明的是，上述所列举的获取目标问题的方式只是一种示意性说明。具体实施时，根据具体的应用场景和具体情况，还可以采用其他合适的方式来获取用户提问的目标问题。对此，本说明书不作限定。

S403：利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签。

在一些实施例中，上述预设的关联标签确定模型具体可以包括一种预先训练好的用于确定与目标问题近似且相关联的目标标签的模型。其中，上述目标标签具体可以包括一种与目标问题相关联，能够描述目标问题的某一个或多个相关属性特征的标签数据。对于某一个具体的目标问题，可以有多个不同的目标标签对应。具体的，可以用标签与问题的近似程度来描述标签与问题之间的近似关联性。如果一个标签与某个问题的近似程度越高，则该标签与该问题的近似关联性更强，能够更好地描述该问题的相关的属性特征。

在一些实施例中，上述预设的关联标签确定模型具体实施时，可以按照以下方式获取：搜集用户历史上提出的问题，作为第一样本数据；根据所述第一样本数据，以及预设的语料库，进行模型训练，得到所述预设的关联标签确定模型。

在本实施例中，上述预设的语料库具体可以是一种与所要针对的应用场景所属领域匹配的语料库。其中，该预设的语料库相对具有更高的几率包含更多与该应用场景中用户可能提问的问题相关的词组等语料。

具体实施时，可以先确定并根据所要针对的应用场景所属领域，有针对性地从多个语料库中搜索与该领域匹配的语料库作为预设的语料库。进而可以利用所搜集的用户历史上提出的问题，结合上述预设的语料库对初始模型进行学习、训练，得到效果较好的、能够较为准确地根据问题确定出所对应的近似程度较高的目标标签的模型，即预设的关联标签确定模型。

在一些实施例中，服务器可以依次分别向用户展示多组与问题相关的标签，引导用户根据自己想要提问的问题，在所展示的各组标签中选中并点击与自己想要提问的问题相关的标签，来描述自己想要提出的问题，而不用直接给出问题。

在一些实施例中，具体实施时，参阅图5所示，服务器可以将上述目标问题作为模型输入，输入至所调用的预设的关联标签确定模型中；运行该预设的关联标签确定模型，得到对应的模型输出。根据所述模型输出，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个标签，作为该目标问题所对应的目标标签。

S405：根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

在一些实施例中，上述预设的排序规则具体可以理解为一种包括目标标签的维度的属性值的确定规则、目标标签的维度属性值的优先级权重确定规则、目标标签的排序评分的确定规则，以及目标标签的排序规则等的规则集。其中，上述预设的排序规则具体可以根据所对应的应用场景中用户的提问习惯、该应用场景中用户的关注点等具体情况，灵活设置。

在一些实施例中，具体实施时，参阅图5所示，可以根据预设的排序规则，确定出多个目标标签中各个目标标签的排序分数；再按照排序分数的数值大小，来排列多个目标标签，得到排序后的目标标签序列；进而可以利用上述目标标签序列来模拟用户真实情况下基于提问习惯，按照一定顺序点击所展示的多组标签中与自己想问的问题相关的标签来描述自己想要提问的目标问题时的行为，即用户在提问目标问题时所执行的目标标签点击序列，将该目标标签点击序列作为该用户提问目标问题时的行为数据。

在一些实施例中，上述根据预设的排序规则，排列所述多个目标标签，具体实施时，可以包括以下内容：确定出目标标签的维度的属性值；根据目标标签的维度的属性值，确定出目标标签的排序评分；根据所述目标标签的排序评分，排列所述多个目标标签。

在一些实施例中，上述维度具体可以包括以下至少之一：标签的语义范围、标签所对应的业务类型、用户对标签的关注程度等。当然，需要说明的是，上述所列举的维度只是一种示意性说明。具体实施时，根据所针对的应用场景和具体情况，还可以引入其他类型的维度来确定目标标签的排序评分。对此，本说明书不作限定。

在一些实施例中，具体实施时，可以根据预设的排序规则，确定用于计算目标标签的排序评分的多个维度；进而可以根据预设的排序规则确定目标标签的各个维度的属性值；再根据预设的排序规则确定出不同维度属性值的优先级权重；最后可以根据目标标签各个维度的属性值，以及各个维度所对应的优先级权重进行加权求和，得到该目标标签的排序评分。

其中，上述排序评分具体可以用于反映用户对多个目标标签的点击顺序。通常，排序评分越高，则说明该目标标签用户在描述问题时越有可能先点击。

在一些实施例中，具体实施时，可以根据预设的排序规则，根据目标标签的排序评分的数值，按照排序评分从大到小的顺序，排列多个目标标签，得到该用户的目标标签的点击序列，作为该用户提问目标问题时的行为数据。从而能够不需要依赖用户真实地通过点击相关标签来描述自己想要提问的目标问题，就能够高效、低成本地获取大量用户提问目标问题时的行为数据。

基于上述实施例，可以通过先利用预设的关联标签确定模型根据用户所提的目标问题，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列上述多个目标标签，得到对应目标标签点击序列，进而可以将上述目标标签点击序列作为一种用户提问目标问题时的行为数据。这样可以不需要依赖用户真实地去点击所展示的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高的参考价值的用户提问目标问题时的行为数据。

在一些实施例中，在根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据后，所述方法具体实施时，还可以包括以下内容：将所述用户提问目标问题的行为数据确定为第二样本数据；利用所述第二样本数据，进行模型训练，以建立得到预设的提问模型，其中，所述预设的提问模型用于根据用户针对所展示的标签的点击操作确定用户想要提问的问题。

在本实施例中，上述预设的提问模型具体可以是一种应用某个具体的提问场景中的用于确定用户想要提问的目标问题的模型。在上述提问场景中，用户可以不需要直接说出自己想要提问的具体问题，而是通过选中并点击所展示的多组标签中与自己想要提问的问题相关或相近标签来描述自己想要提的问题。上述预设的提问模型可以根据用户针对所展示的标签的点击行为，确定出用户想要提问的目标问题。

在本实施例中，具体实施时，可以不需要依赖、组织测试用户来真实地通过点击所展示的标签描述要提问的问题，以采集用于模型训练的行为数据，而是直接使用通过上述方式根据用户历史提问记录所提取到的目标问题得到的目标标签点击序列，来模拟用户提问时的真实行为，作为该用户提问目标问题时的行为数据，用于训练预设的提问模型。从而可以降低获取用于训练预设的提问模型的行为数据的获取成本，提高获取上述行为数据的效率。

在一些实施例中，为了训练得到准确度较好的预设的提问模型，可以将所获取的用户提问目标问题时的行为数据作为第二样本数据，并利用上述第二样本数据，对模型进行强化学习，以训练得到符合要求的预设的提问模型。进而可以在相应的提问场景中运用上述预设的提问模型来根据所采集的用户针对所展示的多组标签的点击操作来确定出用户所要提问的问题，而不需要用户直接说出所要提问的具体问题，提高了用户的使用乐趣和使用体验。

进一步，还可以根据预设的提问模型确定出的用户想要提问的目标问题，搜索对应该目标问题的答案，在用户没有直接说出具体问题的情况下，将用户想要提问的问题的答案反馈给用户。从而能进一步提高用户的使用体验。

在一些实施例中，上述获取用户提出的目标问题，具体实施时，可以包括以下内容：采集用户的提问记录；从所述提问记录中提取标准问题作为所述目标问题，其中，所述标准问题包括与预设的问题库匹配的问题。

在本实施例中，需要说明的，上述所列举的采集并根据用户的提问记录来获取目标问题的方式只是一种示意性说明。具体实施时，也可以采集历史记录中其他涉及用户提问的记录数据来获取目标问题。对此，本说明书不作限定。

在本实施例中，具体实施时，可以先对提问记录进行语义识别，从提问记录中确定出用户所提出的原始问题。再根据用户所提出的原始问题，在预设的问题库中进行搜索匹配，找到与原始问题匹配的标准问题(例如，与原始问题的差异度小于差异度阈值的标准问题)作为上述目标问题。其中，上述预设的问题库具体可以包括有多个不同的标准问题。

在一些实施例中，在从所述提问记录中无法提取到标准问题的情况下，参阅图6所示，所述方法具体实施时，还可以包括以下内容：从所述提问记录中提取非标准问题作为目标问题；相应的，在利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签后，所述方法还包括：根据所述多个目标标签，从所述预设的问题库中确定出匹配的问题作为标准问题，并将所述标准问题确定为目标问题。

在本实施例中，上述非标准问题具体可以理解为一种从提问记录中通过语义识别获取得到的用户所提出的原始问题。

在一些实施例中，由于不同用户提问的方式不同，导致对应同一个标准问题往往可能会存在多个不同的原始问题。而有些原始问题，受用户的提问习惯、语言习惯等影响，可能会相对比较复杂，或者与标准问题的差别较大，导致在获取目标问题的过程中无法在预设的问题库中检索到与该原始问题匹配的标准问题。这时可以先将从提问记录中获得的非标准问题，例如，用户的原始问题，作为目标问题。利用预设的关联标签确定模型基于上述非标准问题，确定出与该问题对应的多个目标标签。进而再可以根据上述多个目标标签，再对预设的问题库中进行匹配检索，以便从预设的问题库中找到与上述多个目标标签匹配的标准问题作为真正的目标问题，以替换之前使用的非标准问题。从而可以准确地找到与用户所提出的原始问题对应的标准问题，方便后续的数据处理以及模型训练。

在本实施例中，具体实施时，可以根据上述基于非标准问题所得到的多个目标标签进行相似度计算，根据相似度计算结果从预设的问题库中筛选出与上述多个目标标签总体近似程度较高的问题作为对应的标准问题。当然，上述所列举的根据多个目标标签反过来确定标准问题的方式只是一种示意性说明。具体实施时，根据具体情况，还可以采用其他合适的方式来根据基于非标准问题所确定的目标标签来找到对应的标准问题。对此，本说明书不作限定。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取用户提出的目标问题；利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

为了能够更加准确地完成上述指令，参阅图7，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口701、处理器702以及存储器703，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口701，具体可以用于获取用户提出的目标问题。

所述处理器702，具体可以用于利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

所述存储器703，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口701可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的80号端口，也可以是负责进行FTP数据通信的21号端口，还可以是负责进行邮件数据通信的25号端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器702可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器703可以包括多个层次，在数字***中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在***中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述提问行为数据的获取方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取用户提出的目标问题；利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图8所示，在软件层面上，本说明书实施例还提供了一种提问行为数据的获取装置，该装置具体可以包括以下的结构模块。

获取模块801，具体可以用于获取用户提出的目标问题；

确定模块803，具体可以用于利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；

排序模块805，具体可以用于根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

在一些实施例中，所述排序模块805具体可以包括以下结构单元：

第一确定单元，具体可以用于确定出目标标签的维度的属性值；

第二确定单元，具体可以用于根据目标标签的维度的属性值，确定出目标标签的排序评分；

排列单元，具体可以用于根据所述目标标签的排序评分，排列所述多个目标标签。

在一些实施例中，所述维度具体可以包括以下至少之一：标签的语义范围、标签所对应的业务类型、用户对标签的关注程度等等。

在一些实施例中，所述装置具体还可以包括第一建立模块，所述第一建立模块具体可以包括以下结构单元：

搜集单元，具体可以用于搜集用户历史上提出的问题，作为第一样本数据；

第一训练单元，具体可以用于根据所述第一样本数据，以及预设的语料库，进行模型训练，得到所述预设的关联标签确定模型。

在一些实施例中，所述装置具体还可以包括第二建立模块，所述第二建立模块具体可以包括以下结构单元：

第三确定单元，具体可以用于将所述用户提问目标问题的行为数据确定为第二样本数据；

第二训练单元，具体可以用于利用所述第二样本数据，进行模型训练，以建立得到预设的提问模型，其中，所述预设的提问模型用于根据用户针对所展示的标签的点击操作确定用户想要提问的问题。

在一些实施例中，所述获取模块801具体可以包括以下结构单元：

采集单元，具体可以用于采集用户的提问记录；

提取单元，具体可以用于从所述提问记录中提取标准问题作为所述目标问题，其中，所述标准问题包括与预设的问题库匹配的问题。

在一些实施例中，在所述提取单元从所述提问记录中无法提取到标准问题的情况下，所述提取单元具体还可以用于从所述提问记录中提取非标准问题作为目标问题；

相应的，在所述确定模块803具体还可以利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签后，所述获取模块还用于根据所述多个目标标签，从所述预设的问题库中确定出匹配的问题作为标准问题，并将所述标准问题确定为目标问题。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的提问行为数据的获取装置，通过确定模块先利用预设的关联标签确定模型根据用户所提的目标问题，确定出与该目标问题的近似程度大于预设的近似程度阈值的多个目标标签；再通过排序模块根据预设的排序规则，排列上述多个目标标签，得到对应目标标签点击序列，进而可以将上述目标标签点击序列作为一种用户提问目标问题时的行为数据。这样可以不需要依赖用户真实地去点击所展示的标签来描述自己想要提问的目标问题，就能高效地获取到具有较高的参考价值的用户提问目标问题时的行为数据。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种提问行为数据的获取方法，包括：

获取用户提出的目标问题；其中，所述目标问题为根据用户的提问记录得到的；

利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；

根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

2.根据权利要求1所述的方法，根据预设的排序规则，排列所述多个目标标签，包括：

确定出目标标签的维度的属性值；

根据目标标签的维度的属性值，确定出目标标签的排序评分；

根据所述目标标签的排序评分，排列所述多个目标标签。

3.根据权利要求2所述的方法，所述维度包括以下至少之一：标签的语义范围、标签所对应的业务类型、用户对标签的关注程度。

4.根据权利要求1所述的方法，所述预设的关联标签确定模型按照以下方式获取：

搜集用户历史上提出的问题，作为第一样本数据；

根据所述第一样本数据，以及预设的语料库，进行模型训练，得到所述预设的关联标签确定模型。

5.根据权利要求1所述的方法，在根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据后，所述方法还包括：

将所述用户提问目标问题的行为数据确定为第二样本数据；

利用所述第二样本数据，进行模型训练，以建立得到预设的提问模型，其中，所述预设的提问模型用于根据用户针对所展示的标签的点击操作确定用户想要提问的问题。

6.根据权利要求1所述的方法，获取用户提出的目标问题，包括：

采集用户的提问记录；

从所述提问记录中提取标准问题作为所述目标问题，其中，所述标准问题包括与预设的问题库匹配的问题。

7.根据权利要求6所述的方法，在从所述提问记录中无法提取到标准问题的情况下，所述方法还包括：

从所述提问记录中提取非标准问题作为目标问题；

相应的，在利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签后，所述方法还包括：

根据所述多个目标标签，从所述预设的问题库中确定出匹配的问题作为标准问题，并将所述标准问题确定为目标问题。

8.一种提问行为数据的获取装置，包括：

获取模块，用于获取用户提出的目标问题；其中，所述目标问题为根据用户的提问记录得到的；

确定模块，用于利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签；

排序模块，用于根据预设的排序规则，排列所述多个目标标签，得到目标标签点击序列，并将所述目标标签点击序列作为用户提问目标问题的行为数据。

9.根据权利要求8所述的装置，所述排序模块包括：

第一确定单元，用于确定出目标标签的维度的属性值；

第二确定单元，用于根据目标标签的维度的属性值，确定出目标标签的排序评分；

排列单元，用于根据所述目标标签的排序评分，排列所述多个目标标签。

10.根据权利要求9所述的装置，所述维度包括以下至少之一：标签的语义范围、标签所对应的业务类型、用户对标签的关注程度。

11.根据权利要求8所述的装置，所述装置还包括第一建立模块，所述第一建立模块包括：

搜集单元，用于搜集用户历史上提出的问题，作为第一样本数据；

第一训练单元，用于根据所述第一样本数据，以及预设的语料库，进行模型训练，得到所述预设的关联标签确定模型。

12.根据权利要求8所述的装置，所述装置还包括第二建立模块，所述第二建立模块包括：

第三确定单元，用于将所述用户提问目标问题的行为数据确定为第二样本数据；

第二训练单元，用于利用所述第二样本数据，进行模型训练，以建立得到预设的提问模型，其中，所述预设的提问模型用于根据用户针对所展示的标签的点击操作确定用户想要提问的问题。

13.根据权利要求8所述的装置，所述获取模块包括：

采集单元，用于采集用户的提问记录；

提取单元，用于从所述提问记录中提取标准问题作为所述目标问题，其中，所述标准问题包括与预设的问题库匹配的问题。

14.根据权利要求13所述的装置，在所述提取单元从所述提问记录中无法提取到标准问题的情况下，所述提取单元还用于从所述提问记录中提取非标准问题作为目标问题；

相应的，在所述确定模块利用预设的关联标签确定模型，确定出与所述目标问题的近似程度大于预设的近似程度阈值的多个目标标签后，所述获取模块还用于根据所述多个目标标签，从所述预设的问题库中确定出匹配的问题作为标准问题，并将所述标准问题确定为目标问题。

15.一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。