CN113010664A

CN113010664A - 一种数据处理方法、装置及计算机设备

Info

Publication number: CN113010664A
Application number: CN202110464102.9A
Authority: CN
Inventors: 张欢韵; 朴圣浩
Original assignee: Digital Finance Ltd
Current assignee: Digital Finance Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-22
Anticipated expiration: 2041-04-27
Also published as: CN113010664B

Abstract

本申请实施例公开了一种数据处理方法、装置及计算机设备，该方法包括：获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；通过对多个第一类型文本数据进行聚类处理，得到至少一个包括至少一个第一类型文本数据以及对应的第二类型文本数据的问答对集合；通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据；基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。采用本方案，可以对语料数据进行自动化处理，高效地生成参考问答语料库，并且不受语料数据量级的限制，通用性强。

Description

一种数据处理方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置及计算机设备。

背景技术

随着人工智能的发展，智能化机器客服的应用越来越广泛，特别是在各种B2B(Business to Business，即企业到企业之间通过网络进行交易的模式)或者B2C(Business-to-Consumer，即企业到消费者之间的交易活动)的平台中，机器客服能够替代人工客服和用户进行交流，回答常见的问题。通常，需要预先构建人机对话语料库，以保证机器客服回答问题的准确度。其中，利用人工客服语料生成人机对话语料库的方式有两种：其一是通过人工的方法依次标注常用问题，然后提炼频繁的问题，并人工确定答案；其二是利用大量相同业务的人工问答，通过生成模型，生成相似问题或对应答案。

但是上述的第一种方式靠人工去寻找相似的问题以及频繁问题的答案，生成人机对话语料库的效率低下，第二种方式则需要大量人工客服语料来训练生成模型，而针对一些细分领域，人工客服语料较少，采用这种方式生成人机对话语料库效果可能不佳。因此，如何高效地生成参考问答语料库，并且在生成过程不受人工客服语料的量级限制是一个值得研究的问题。

发明内容

本申请实施例提供一种数据处理方法、装置及计算机设备，可以对语料数据进行自动化处理，高效地生成参考问答语料库，并且不受语料数据量级的限制，通用性强。

本申请实施例一方面提供了一种数据处理方法，包括：

获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据；

基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

本申请实施例一方面提供了一种数据处理装置，包括：

获取模块，用于获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

聚类模块，用于通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

聚类模块，还用于通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据；

确定模块，用于基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器以及网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用所述程序代码，使得处理器执行本申请实施例中的数据处理方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的数据处理方法。

相应的，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。

在本申请实施例中，通过获取包括第一类型文本数据和第二类型文本数据的问答对数据，并将获取到的第一类型文本数据进行聚类处理得到问答对集合，然后对问答对集合中的第二类型文本数据进行聚类处理，得到候选数据集合，进而根据问答对集合和候选数据集合生成目标问答对集合，整个过程避免了人工标注问答对数据来筛选出目标问答对，而是采用聚类处理将相应的文本数据进行自动归类，得到目标问答对集合，提高了对问答对数据处理的效率，进而能够高效地生成人机对话语料库，此外，针对一些细分领域下收集到的少量问答对数据，同样可以准确得到参考问答语料库，因此可以不受语料数据量级的限制，通用性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理的网络架构示意图；

图2是本申请实施例提供的一种相似度计算的处理框架的示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种人工对话历史记录的示意图；

图5是本申请实施例提供的一种数据处理方法的流程示意图；

图6是本申请实施例提供的一种各数据之间的关系示意图；

图7是本申请实施例提供的一种数据处理方法的流程示意图；

图8是本申请实施例提供的一种问答对数据处理流程的示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种数据处理的网络架构示意图，如图1所示，包括终端设备101和服务器100，其中，终端设备101可以包括多个，每个终端设备101可以与上述服务器100进行网络连接，网络连接可以包括有线连接或无线连接，以便于每个终端设备101可以通过该网络连接与服务器100进行数据交互，以及服务器100可以接收到来自于每个终端设备101上传的聊天数据。

其中，终端设备101中运行有应用程序，作为一种功能客户端，该应用程序包括客服功能，能够给用户提供相关的问题解答的功能，基于终端设备101，能够在客服功能的对话框中输入相关数据来表达交流，如文字、语音、图片、表情等，构成聊天数据，其中包括问题和问题对应的答案，终端设备101可以实时地将这些聊天数据发送给服务器100。

服务器100中搭载有聚类算法的处理框架和相似度计算的处理框架，如图2所示，是本申请实施例提供的一种相似度计算的处理框架的示意图，包括句子表示模块和相似度计算模块。其中，句子表示模块和相似度计算模块中可以封装相应功能的程序代码来执行具体的处理逻辑。首先基于相似度计算的处理框架，可以将聊天数据中的文本数据，即相同类型的句子(如两个问句或两个答案)输入，依次经过句子表示模块和相似度计算模块，可以得到一个相似度，来表征两个句子的相似程度，越相似语义也可能越接近，然后基于聚类算法的处理框架，可以根据得到的文本数据的相似度，对相应的文本数据进行聚类处理，并得到相应的数据集合，再对这些数据集合进行一定的筛选和核验，就能够得到人机语料库中的语料数据，即问题文本和对应的答案文本，或者根据这些数据集合生成常用问题解答文档，帮助管理者规范和统一与用户沟通的常用话术。采用该处理框架自动对聊天数据进行聚类处理，能够高效地生成人机对话语料库的语料数据。

上述终端设备101可以是智能手机、平板电脑、智能可穿戴设备、个人电脑等等设备，可以理解的是，本申请实施例提供的方法可以由计算机设备执行(如服务器100)，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。其中，该数据处理方法至少可以包括以下步骤：

S301，获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

在一实施例中，获取问答对数据的实现方式可以是：获取人工对话历史记录，人工对话历史记录包括多个第一类型文本数据以及多个第二类型文本数据；以每个第一类型文本数据为中心，从人工对话历史记录中提取位于每个第一类型文本数据之前或之后预设数量的第二类型文本数据；根据每个第一类型文本数据以及对应提取的预设数量的第二类型文本数据生成问答对数据。

其中，人工对话历史记录可以是在预设时间段内，每个用户与人工客服之间一整轮的对话或者多轮对话，是最原始的聊天记录，例如B2B、B2C平台商家的客服人员与其用户的原始聊天记录，该原始聊天记录其中可以包括表情、图片、链接、文本、语音等内容。请参见图4，图4是本申请实施例提供的一种人工对话历史记录的示意图，其中包括用户提出的多个问题和人工客服的回答，以及表情，图片。由于问答对数据包括问题和答案，均可以为文本数据，且问题和答案之间存在对应关系，如问题A对应着答案B或答案C，答案C对应着问题A或问题B，基于这样的对应关系，本申请实施例中将问答对数据中包括的问题和答案视为第一类型文本数据和第二类型文本数据，即第一类型文本数据为答案时，第二类型文本数据为该答案对应的问题，第一类型文本数据为问题时，第二类型文本数据为该问题对应的答案，因此，人工对话历史记录中包括的多个第一类型文本数据和多个第二类型文本数据可以理解为多个问题和多个答案，且第一类型文本数据和多个第二类型文本数据是相对的，如第一类型文本数据是客服回答用户的答案，第二类型文本数据则是用户提出的问题，反之，第一类型文本数据是用户提出的问题，则第二类型文本数据则是客服回答用户的答案。

在获取到人工对话历史记录后，还要对其进行预处理，即将原始聊天记录提前进行清洗，删掉常用的话术，如“你好”，“谢谢”，“稍后”，“你好还有其他问题吗”等，还要删掉原始聊天记录中包括的表情、图片、信息等和问题或答案不相关的数据，以使得后续提取问答对数据更方便快捷。当然，如果人工对话历史记录中还包括语音数据，其用来表达问题或答案，例如用户提问是直接发送的语音，而不是文字，则可以使用语音识别算法将语音数据转换为文本数据，以获取问答对数据。

经过上述对人工对话历史记录清洗之后，可以按照预设规则提取文本数据并生成问答对数据，其中的预设规则可以包括两种，一种是以第一类型文本数据为中心，提取第一类型文本数据之前的预设数量的第二类型文本数据。采用这种规则时，第一类型文本数据为答案，第二类型文本数据为问题，这里的预设数量通常设置为3，也就是将某个答案之前的连续3个问题提取出来，如果该答案之前连续的问题数量没有达到3个，那么就是有几个就提取几个。另一种则是以第一类型文本数据为中心，提取第一类型文本之后的预设数量的第二类型文本。采用这种规则时，第一类型文本数据为问题，第二类型文本数据为答案，按照同样的方式，将某问题之后的连续3个或不满3个的答案全部提取出来，上述两种规则中的预设数量可以按需设置成其他数值，在此不做限定。根据每个第一类型文本数据和根据上述预设规则提取的第二类型文本数据进行组合，得到问答对数据。示例的，若第一类型文本数据为问题A，其对应提取的第二类型文本数据为答案a、b、c，那么问题A和答案a、b、c构成一个问答对。这样基于多个第一类型文本数据和对应提取出来的第二类型文本数据，可以构成问答对数据。

S302，通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

在一实施例中，此步骤的具体实现可以是：确定聚类中心和除聚类中心之外的第一类型文本数据之间的第一相似度，聚类中心是多个第一类型文本数据中的任意一个；根据第一相似度对多个第一类型文本数据进行聚类处理，得到至少一个第一数据集合，每个第一数据集合包括至少一个第一类型文本数据；从问答对数据中获取每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据；根据每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据，得到每个第一数据集合对应的问答对集合。

其中，聚类中心可以是上述步骤中获取的问答对数据包括的多个第一类型文本数据中的任意一个，因此聚类中心也是第一类型文本数据，聚类中心和其余的第一类型文本数据之间第一相似度的计算是两个不同内容的文本之间的相似度计算，该文本可以是句子，本质上也是两个句子之间的相似度计算。相似度的计算逻辑可以采用如图2所示的相似度计算的处理框架的逻辑，即首先经过句子表示模块得到两个不同的第一类型文本数据的句子表示，然后再将句子表示输入相似度计算模块，最终输出两个句子(即两个第一类型文本数据)之间的相似度。句子表示模块的作用是利用相关特征提取方法得到能够被计算机识别的语言，通常是向量，对应的，相似度计算模块是一种向量计算模型。在此可以采用传统的基于统计的句子表示TF-IDF(Term Trequency–Inverse Document Frequency，词频-逆向文件频率)生成词频向量，这种方法在词频的基础上，赋予每一个词的权重，进一步体现该词的重要性，也可以采用预训练模型得到句子向量。得到对应的向量表示后可以利用计算向量相似度的各种指标来计算相似度，例如编辑距离、杰卡德系数、余弦相似度等。当然，针对相似度计算涉及的算法在此并不具体限于某种算法，NLP常用计算句子相似度的算法均可以用来计算本申请实施例中第一类型文本数据之间的相似度。

根据上述得到的第一相似度可以对第一类型文本数据进行聚类处理，在聚类处理的过程中，可以将第一相似度和第一相似度阈值进行比较，将第一相似度大于或等于第一相似度阈值的第一类型文本数据归为一类，并将其作为第一数据集合，这样就能够得到至少一个第一数据集合，然后将第一数据集合中的第一类型文本数据和与之对应的第二类型文本数据都放到一个集合中，便可构成问答对集合，单个问答对集合包括的问答内容类似，不同问答对集合中包括的问答内容有所区别，第一相似度阈值可以设置为95％，或其他数值，在此不做限制。

聚类处理具体过程可以下述示例：以第一类型文本数据为问题，第二类型文本数据为答案说明，假设有100个问题，每个问题对应的3个答案(共300个答案)。首先进行第一轮聚类处理，从100个问题中随机选取一个问题作为聚类中心，如问题A，计算问题A和其他的99个问题之间的相似度(即第一相似度)，得到大于或等于第一相似度阈值的问题有9个，则将这9个问题与问题A组成一个第一数据集合，这10个问题可以是表达相同语义的不同句子，将该第一数据集合中10个问题和对应的30个答案放到同一集合中，便构成问答对集合，然后进行第二轮聚类处理，在剩下的90个问题中再随机选取一个问题作为聚类中心，如问题B，计算问题B和其他的89个问题之间的相似度(即第一相似度)，和第一相似度阈值比较，得到大于或等于第一相似度阈值的问题有5个，则将这5个问题和问题B组成一个第一数据集合，和上述方式相同，将这6个问题和对应的18个答案都放到一个集合中构成问答对集合，依次类推，直到所有的问题都被归到第一数据集合中，所有问题和答案都归到问答对集合中，完成对问答对数据中第一类型文本数据的聚类处理。

S303，通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据。

在一实施例中，每个问答对集合中包括至少一个第一类型文本数据和每个第一类型文本数据对应的至少一个第二类型文本数据，如上述示例的问答对集合中包括10个问题和30个答案，针对每个问答对集合中的第二类型文本数据进行聚类处理的方式可以与对问答对数据中第一类型文本数据进行聚类处理的方式相同，即将相似度大于某一相似度阈值的第二类型文本数据作为同一类文本数据，这里的相似度计算也可与采用前述说明的相似度计算方式。聚类大致为：先从问答对集合中选择一个第二类型文本数据，将其作为聚类中心，和其他的第二类型文本数据计算相似度，并把相似度大于或等于相似度阈值的第二类型文本数据和聚类中心归为一类，然后再从未归类的第二类型文本数据中选取聚类中心，计算和剩下的第二类型文本的相似度，进行第二轮筛选，以此类推，直到问答对集合中全部的第二类型文本数据归类完成，聚类出来的数据集合需要经过相关规则的筛选，才能得到候选的第二类型文本数据，即候选数据集合，筛选得到候选数据集合的过程可参见图5对应实施例示出的内容。

S304，基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

在一实施例中，可以根据候选数据集合包括的第二类型文本数据，从对应的问答对集合中确定出第一类型文本数据，然后将确定出来的第一类型文本数据和第二类型文本数据经过筛选之后，作为目标问答对集合。具体实现中，可以遍历不在候选数据集合中的第二类型文本数据，如果某一第一类型文本数据对应的第二类型文本数据均没有在候选数据集中，那么就删掉该第一类型文本数据，这样问答对数据中剩余的第一类型文本数据就是候选数据集合中第二类型文本数据对应的第一类型文本数据，再将第一类型文本数据和第二类型文本数据筛选一次，得到目标问答对集合，筛选得到目标问答对集合的具体过程可参见下述图5对应实施例所示出的内容。可选的，也可以直接将候选数据集中的第二类型文本数据和对应的第一类型文本数据作为目标问答对集合。

综上所述，本申请实施例至少具有以下优点：

通过清洗人工历史对话记录并按照预设规则提取得到问答对数据，对于任何量级的问答对数据，都可以采用以下方式处理，即对问答对数据中的第一类型文本数据进行聚类处理，得到问答对集合，并对问答对集合中的第二类型文本数据进行聚类处理，得到候选数据集合，进而根据候选数据集合和问答对集合生成目标问答对集合，这样不受语料量级的限制，通用性强，且整个处理过程避免了人工处理问答对数据，而是通过聚类对问答对数据进行自动归类处理，并从归类得到的问答对集合中进一步筛选所需的问答对，提高了生成参考问答语料的效率。

请参见图5，图5是本申请实施例提供的一种数据处理方法的流程示意图。该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。其中，该数据处理方法至少可以包括以下步骤：

S501，获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

S502，通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

上述步骤S501～S502的具体实现方式可参见上述图3对应实施例中的步骤S301～S302，这里不再进行赘述。

S503，获取每个问答对集合包括的第二类型文本数据之间的第二相似度。

在一实施例中，获取问答对集合中第二类型文本数据之间的第二相似度可以和图3对应实施例中确定第一相似度的方式相同。同样可以利用如图2所示的相似度计算的处理框架，将两个不同的第二类型文本数据的句子表示提取出来，再进行向量相似度计算，其余内容不再进行赘述。

S504，根据第二相似度对每个问答对集合包括的第二类型文本数据进行聚类处理，得到至少一个第二数据集合，每个第二数据集合包括至少一个第二类型文本数据。

在一实施例中，对第二类型文本数据聚类处理也可以采用图3对应实施例中的聚类处理相同的方式，即每次从没有归类到的第二类型文本数据中随机确定一个第二类型文本数据作为聚类中心，然后计算其他数据和该聚类中心的相似度，每轮遍历未归类的第二类型文本数据，通过多轮的聚类处理，得到至少一个第二数据集合。当然，对问答对集合包括的第二类型文本数据的聚类处理方式也可采用其他方式，如K均值、DMRS(Density-BasedSpatial Clustering Algorithm with Noise，基于密度的噪声空间聚类算法)等，在此不做限制。

S505，根据每个第二数据集合包括的第二类型文本数据的数量得到每个问答对集合对应的候选数据集合。

在一实施例中，此步骤的具体实现方式可以是：对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序；获取至少一个第二数据集合中排序在预设位置之前的第二数据集合；将排序在预设位置之前的第二数据集合作为每个问答对集合对应的候选数据集合。上述步骤每个问答对集合对应至少一个第二数据集合，每个第二数据集合中包括的第二类型文本数据是同一类，如第二类型文本数据是答案，答案内容语义大致都是“发xx快递，3～5天到达”。按照每个第二数据集合中第二类型文本数据的数量，将第二数据集合由大到小排序并将排序在预设位置之前的第二数据作为候选数据集合，预设位置可以是第N个，N取值为正整数。举例来说，如果问答对集合Φ₁对应6个第二数据集合{χ₁,χ₂,χ₃,χ₄,χ₅,χ₆}，分别代表6类第二类型文本数据，其中，每个第二数据集合的数量依次对应的是{4,6,5,3,4,1}，将这6个第二数据集合的数量由大到小进行排序，得到的第二数据集合的顺序是{χ₂,χ₃,χ₁,χ₅,χ₄,χ₆}，假设预设位置是第4个，因此会将{χ₂,χ₃,χ₁,χ₅}作为问答对集合Φ₁对应的候选数据集合。当然也可以按照由小到大的顺序将第二数据集合进行排序，将预设位置之后的第二数据集合作为候选数据集合。这两种不同的排序方式都是要在问答对集合对应的至少一个第二数据集合中，选取第二类型文本数据的数量最多的N个第二数据集合作为候选数据集合。需要说明的是，上述方式可以是在第一类型文本数据为问题，第二类型文本数据为答案的条件下执行的步骤，并且针对任一问答对集合对应的至少一个第二数据集合，均可以采用同样的方式获取候选数据集合。这种方式是为了在多个相似的问题里面找到使用次数最高的几个答案。此外，针对第一类型文本数据为答案，第二类型文本数据为问题的条件下，可参见下述内容。

在一实施例中，此步骤的具体实现方式还可以是：获取每个第二数据集合包括的第二类型文本数据的数量；将数量大于或等于参考数量阈值的第二类型文本数据作为每个问答对集合对应的候选数据集合。其中，第二数据集合中包括的第二类型文本数据是问题，针对某一问答对集合，获取其聚类处理得到的至少一个第二数据集合中每个第二数据集合的问题数量，和参考数量阈值做比较，如果大于或等于参考数量阈值，就可以将对应的第二数据集合作为候选数据集合，每个问答对集合中采用以上方式构成候选数据集合，若有M个问答对集合，则对应M个候选数据集合。其中，参考数量阈值可以根据实际情况设置，如设置为10，即代表第二数据集合中问题数量大于或等于10个的才能作为候选数据集合，在此对参考数量阈值的具体数值不做限制。可以发现，和第二类型文本数据是答案不同的是，采用此方式不用将第二数据集合的第二类型文本数据的数量进行排序处理，而是直接用参考数量阈值作为选择标准，这样可以快速确定候选数据集合，并可以保证答案有足够数量相似的对应问题。

可以理解的是，上述两种方式中第二类型文本数据也可以互相交换，即需要排序处理的方式中的第二类型文本数据可以是问题，和参考数量阈值比较的方式中第二类型文本数据可以是答案，在此不做限制。

S506，基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

在一实施例中，此步骤的具体实现方式可以是：获取每个问答对集合对应的候选数据集合包括的第二类型文本数据的数量或者第二类型文本数据对应的第一类型文本数据的数量；从至少一个问答对集合对应的至少一个候选数据集合中，获取数量大于或等于预设数量阈值的目标候选数据集合；从对应的问答对集合中获取每个目标候选数据集合包括的第二类型文本数据对应的第一类型文本数据；根据每个目标候选数据集合包括的第二类型文本数据以及对应的第一类型文本数据确定目标问答对集合。

当第一类型文本数据为答案，第二类型文本数据为问题时，获取的是候选数据集合中第二类型文本数据的数量，当第一类型文本数据为问题，第二类型文本数据为答案时，获取的是第二类型文本数据对应的第一类型文本数据的数量，上述方式均是统计问题的数量。将问题的数量大于或等于预设数量阈值的候选数据集合作为目标候选数据集合，然后将目标候选数据集合中第二类型文本数据对应的第一类型文本数据从问答对集合中获取出来，也就是如果第二类型文本数据是问题，则获取答案，如果第二类型文本数据是答案，则获取问题。将目标候选数据集中包括的第一类型文本数据和对应获取到的第二类型文本数据作为目标问答对集合，也就是每个目标候选数据集合对应一个目标问答对集合，假设有M个问答对集合，可以对应P个候选数据集合，对应有Q个目标问答对集合，其中，目标问答对集合可看作问答对集合的子集。由于一些候选数据集合不满足条件(即第二类型文本数量小于预设数量阈值)不能被视为目标候选数据集合，对应的问答对集合也会被删掉，因此Q可以小于或等于P，由于某个问答对集合也有可能没有对应的候选数据集合，相应的目标问答对集合也没有，因此P可以小于或等于M。请参见图6，是本申请实施例提供的一种各数据之间的关系示意图，图6示出了问答对数据、问答对集合、候选数据集合以及目标问答对集合之间的关系。

综上所述，本申请实施例至少具有以下优点：

通过对问答对集合中的第二类型文本数据进行聚类处理，得到的第二数据集合，再按照一定规则筛选第二数据集合得到候选数据集合，本申请提供的方案采用了两种不同的方式来筛选，一种是对第二数据集合的第二类型文本数据的数量排序，筛选出预置数量的第二数据集合，得到候选数据集合，另一种是利用参考数量阈值来筛选满足条件(即大于或等于参考数量阈值)的第二数据集合，得到候选数据集合，前一种方式通过排序能够找到使用次数最高的几类第二类型文本数据，使得候选数据集合的获取更加可靠，后一种方式采用参考数量阈值可以保证有足够数量的第二类型文本数据，同时可以更加高效地选取出候选数据集合，有效节省计算资源。在得到候选数据集合之后，同样是通过数量来筛选出目标候选数据集合，将数量较多的候选数据集合对应的问答对集合作为目标问答对集合，这样可以保证足够数量的问题或答案，以保证目标问答对集合的可信度。

请参见图7，图7是本申请实施例提供的一种数据处理方法的流程示意图。该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。其中，该数据处理方法至少可以包括以下步骤：

S701，获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

S702，通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据。

S703，通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据。

S704，基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

上述步骤S701～S704可参见图3对应实施例S301～S304所描述的内容，这里不再不做赘述。

S705，将目标问答对集合中的任一问题作为标准问题，并将除标准问题之外的问题作为相似问题，以及将目标问答对集合中的答案作为标准答案。

在一实施例中，前述步骤得到的目标问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据，其中，第一类型文本数据为问题，第二类型文本数据为答案，或者，第一类型文本数据为答案，第二类型文本数据为问题。针对某个目标问答对集合，其中包括的是同一类问题和针对该类问题的不同类答案，或者同一类答案和针对该类答案的不同类问题。简单来说，即同样的问句有不同回答，同样的回答可有由不同的问法，因此，可以任意选取一个问题作为标准问题，剩余的问题作为相似问题(相似问句)，目标问答集合中的所有答案作为该类问题对应的答案，或者随机选取部分答案作为该类问题对应的标准答案，或上述标准问题和相似问题可以看作参考问题，对应的答案为该参考问题的参***。

S706，根据标准问题、相似问题以及标准答案，生成人机对话语料库或问答管理文档。

在一实施例中，由于问答对集合可以有多个，根据问答对集合和对应的候选数据集合得到目标问答对集合也可以有多个，针对不同的目标问答对集合，其包括的问题类别或答案类别不同，因此可以得到不同内容对应的标准问题、相似问题以及标准答案，将这多个目标问答对集合对应的标准问题、相似答案以及标准答案整理成相应的问答管理文档，例如常用问题解答FAQ文档，用于管理者统计和管理频繁问题的答案，同时规范及发现常用的人工话术，提高客服人员回答用户的效率，或者将上述标准问题、相似问题以及标注答案经过人工复核，确认提取出来的问题和答案是否相对应，进一步生成人机对话语料库。

以上方案是基于人工客服和用户之间的多轮聊天记录，归纳总结FAQ文档，这些文档可以用于管理者规范和发现常用的人工话术，或者用于生成人机对话语料库，适用于各种B2B、B2C平台商家的客服人员与其客户的聊天记录自动生成语料库的情况。

针对本申请提供的方案，第一类型文本数据是问题(答案)，第二类型文本数据为问题(答案)，给出如图8所示的处理流程，请参见图8，是本申请实施例提供的一种问答对数据处理流程的示意图。图8示出的内容说明生成语料库可以按照两个方向进行，一个是从问题到答案，一个是从答案反推问题。包括6个步骤，步骤1，提取问题-答案对(问题-答案对)，即前述的问答对数据，具体可参照前述获取问答对数据所描述的内容。步骤2，对问题(答案)聚类，可参照对第一类型文本数据的聚类处理过程，得到的是问答对集合。步骤3，对聚类后的答案(问题)再进行聚类，即对问答对集合聚类，得到相应的答案(问题)集合。步骤4，取topN的答案(问题)作为候选答案(候选问题)，即按照排序或者按照参考数量阈值来确定候选答案(候选问题)。步骤5，将不在topN中的答案(问题)对应的问题(答案)删掉。即将不是候选答案对应的问题删掉。步骤6，最终问题(答案)个数超过某个阈值的保留，作为最终的常用问题解答文档。删掉之后留下的问题都是候选答案对应的问题，但是还需要经过一次阈值的筛选，保留足够数量且可信度较高的问题和对应的答案，将其作为最终的常用问题解答文档。

综上所述，本申请实施例至少具有以下优点：

根据目标问答对集合生成人机对话语料库或者问答管理文档，人机对话语料库或问答管理文档可以作为参考问答语料的应用，进一步地，将该人机对话语料应用在智能问答中，如机器客服的问答，可以对用户提出的问题进行准确全面的解答，问答管理文档可以帮助管理者规范和统一常用话术，进一步提升用户的满意度。根据准确的目标问答对集合，可以进一步保证人机对话语料库或者问答管理文档的准确度，其中，准确可信的问答管理文档也能够给到管理者更多的参考价值。

请参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于终端设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该数据处理装置90可以包括：获取模块901、聚类模块902、确定模块903，其中：

获取模块901，用于获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

聚类模块902，用于通过对多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

聚类模块902，还用于通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据；

确定模块903，用于基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。

在一实施例中，聚类模块902具体用于：确定聚类中心和除聚类中心之外的第一类型文本数据之间的第一相似度，聚类中心是多个第一类型文本数据中的任意一个；根据第一相似度对多个第一类型文本数据进行聚类处理，得到至少一个第一数据集合，每个第一数据集合包括至少一个第一类型文本数据；从问答对数据中获取每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据；根据每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据，得到每个第一数据集合对应的问答对集合。

在一实施例中，聚类模块902具体用于：获取每个问答对集合包括的第二类型文本数据之间的第二相似度；根据第二相似度对每个问答对集合包括的第二类型文本数据进行聚类处理，得到至少一个第二数据集合，每个第二数据集合包括至少一个第二类型文本数据；根据每个第二数据集合包括的第二类型文本数据的数量得到每个问答对集合对应的候选数据集合。

在一实施例中，聚类模块902具体用于：对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序；获取至少一个第二数据集合中排序在预设位置之前的第二数据集合；将排序在预设位置之前的第二数据集合作为每个问答对集合对应的候选数据集合。

在一实施例中，聚类模块902具体用于：获取每个第二数据集合包括的第二类型文本数据的数量；将数量大于或等于参考数量阈值的第二类型文本数据作为每个问答对集合对应的候选数据集合。

在一实施例中，确定模块903具体用于：获取每个问答对集合对应的候选数据集合包括的第二类型文本数据的数量或者第二类型文本数据对应的第一类型文本数据的数量；从至少一个问答对集合对应的至少一个候选数据集合中，获取数量大于或等于预设数量阈值的目标候选数据集合；从对应的问答对集合中获取每个目标候选数据集合包括的第二类型文本数据对应的第一类型文本数据；根据每个目标候选数据集合包括的第二类型文本数据以及对应的第一类型文本数据确定目标问答对集合。

在一实施例中，数据处理装置90还包括生成模块904，其中：

确定模块903，用于将目标问答对集合中的任一问题作为标准问题，并将除标准问题之外的问题作为相似问题，以及将目标问答对集合中的答案作为标准答案；

生成模块904，用于根据标准问题、相似问题以及标准答案，生成人机对话语料库或问答管理文档。

在一实施例中，获取模块901具体用于：获取人工对话历史记录，人工对话历史记录包括多个第一类型文本数据以及多个第二类型文本数据；以每个第一类型文本数据为中心，从人工对话历史记录中提取位于每个第一类型文本数据之前或之后预设数量的第二类型文本数据；根据每个第一类型文本数据以及对应提取的预设数量的第二类型文本数据生成问答对数据。

可以理解的是，本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1000可以包括处理器1001、存储器1002、网络接口1003和至少一个通信总线1004。其中，处理器1001用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1002用于存储计算机程序，可以包括高速随机存取存储器RAM，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，提供数据通信功能，通信总线1004负责连接各个通信元件。该计算机设备1000可以对应于前文的服务器100。

其中，处理器1001可以用于调用存储器中的计算机程序，以执行如下操作：

在一实施例中，处理器1001具体用于：确定聚类中心和除聚类中心之外的第一类型文本数据之间的第一相似度，聚类中心是多个第一类型文本数据中的任意一个；根据第一相似度对多个第一类型文本数据进行聚类处理，得到至少一个第一数据集合，每个第一数据集合包括至少一个第一类型文本数据；从问答对数据中获取每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据；根据每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据，得到每个第一数据集合对应的问答对集合。

在一实施例中，处理器1001具体用于：获取每个问答对集合包括的第二类型文本数据之间的第二相似度；根据第二相似度对每个问答对集合包括的第二类型文本数据进行聚类处理，得到至少一个第二数据集合，每个第二数据集合包括至少一个第二类型文本数据；根据每个第二数据集合包括的第二类型文本数据的数量得到每个问答对集合对应的候选数据集合。

在一实施例中，处理器1001具体用于：对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序；获取至少一个第二数据集合中排序在预设位置之前的第二数据集合；将排序在预设位置之前的第二数据集合作为每个问答对集合对应的候选数据集合。

在一实施例中，处理器1001具体用于：获取每个第二数据集合包括的第二类型文本数据的数量；将数量大于或等于参考数量阈值的第二类型文本数据作为每个问答对集合对应的候选数据集合。

在一实施例中，处理器1001具体用于：获取每个问答对集合对应的候选数据集合包括的第二类型文本数据的数量或者第二类型文本数据对应的第一类型文本数据的数量；从至少一个问答对集合对应的至少一个候选数据集合中，获取数量大于或等于预设数量阈值的目标候选数据集合；从对应的问答对集合中获取每个目标候选数据集合包括的第二类型文本数据对应的第一类型文本数据；根据每个目标候选数据集合包括的第二类型文本数据以及对应的第一类型文本数据确定目标问答对集合。

在一实施例中，处理器1001还用于：将目标问答对集合中的任一问题作为标准问题，并将除标准问题之外的问题作为相似问题，以及将目标问答对集合中的答案作为标准答案；根据标准问题、相似问题以及标准答案，生成人机对话语料库或问答管理文档。

在一实施例中，处理器1001具体用于：获取人工对话历史记录，人工对话历史记录包括多个第一类型文本数据以及多个第二类型文本数据；以每个第一类型文本数据为中心，从人工对话历史记录中提取位于每个第一类型文本数据之前或之后预设数量的第二类型文本数据；根据每个第一类型文本数据以及对应提取的预设数量的第二类型文本数据生成问答对数据。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对该数据处理方法的描述，也可执行前文图9所对应实施例中对该数据处理装置90的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3(或图5或图7)所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取问答对数据，所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，所述候选数据集合包括至少一个第二类型文本数据；

基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。

2.如权利要求1所述的方法，其特征在于，所述通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，包括：

确定聚类中心和除所述聚类中心之外的第一类型文本数据之间的第一相似度，所述聚类中心是所述多个第一类型文本数据中的任意一个；

根据所述第一相似度对所述多个第一类型文本数据进行聚类处理，得到至少一个第一数据集合，每个第一数据集合包括至少一个第一类型文本数据；

从所述问答对数据中获取所述每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据；

根据所述每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据，得到所述每个第一数据集合对应的问答对集合。

3.如权利要求1或2所述的方法，其特征在于，所述通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，包括：

获取所述每个问答对集合包括的第二类型文本数据之间的第二相似度；

根据所述第二相似度对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到至少一个第二数据集合，每个第二数据集合包括至少一个第二类型文本数据；

根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合。

4.如权利要求3所述的方法，其特征在于，所述第一类型文本数据为问题，所述第二类型文本数据为答案，所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合，包括：

对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序；

获取所述至少一个第二数据集合中排序在预设位置之前的第二数据集合；

将所述排序在预设位置之前的第二数据集合作为所述每个问答对集合对应的候选数据集合。

5.如权利要求3所述的方法，其特征在于，所述第一类型文本数据为答案，所述第二类型文本数据为问题，所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合，包括：

获取所述每个第二数据集合包括的第二类型文本数据的数量；

将所述数量大于或等于参考数量阈值的第二类型文本数据作为所述每个问答对集合对应的候选数据集合。

6.如权利要求1所述的方法，其特征在于，所述基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合，包括：

获取所述每个问答对集合对应的候选数据集合包括的第二类型文本数据的数量或者所述第二类型文本数据对应的第一类型文本数据的数量；

从所述至少一个问答对集合对应的至少一个候选数据集合中，获取所述数量大于或等于预设数量阈值的目标候选数据集合；

从对应的问答对集合中获取每个所述目标候选数据集合包括的第二类型文本数据对应的第一类型文本数据；

根据每个所述目标候选数据集合包括的第二类型文本数据以及对应的第一类型文本数据确定目标问答对集合。

7.如权利要求1所述的方法，其特征在于，所述目标问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据，其中，所述第一类型文本数据为问题，所述第二类型文本数据为答案，或者，所述第一类型文本数据为答案，所述第二类型文本数据为问题，所述方法还包括：

将所述目标问答对集合中的任一问题作为标准问题，并将除所述标准问题之外的问题作为相似问题，以及将所述目标问答对集合中的答案作为标准答案；

根据所述标准问题、所述相似问题以及所述标准答案，生成人机对话语料库或问答管理文档。

8.如权利要求1所述的方法，其特征在于，所述获取问答对数据，包括：

获取人工对话历史记录，所述人工对话历史记录包括多个第一类型文本数据以及多个第二类型文本数据；

以每个第一类型文本数据为中心，从所述人工对话历史记录中提取位于所述每个第一类型文本数据之前或之后预设数量的第二类型文本数据；

根据所述每个第一类型文本数据以及对应提取的所述预设数量的第二类型文本数据生成问答对数据。

9.一种数据处理装置，其特征在于，包括：

获取模块，用于获取问答对数据，所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

聚类模块，用于通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；

所述聚类模块，还用于通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，所述候选数据集合包括至少一个第二类型文本数据；

确定模块，用于基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。

10.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1～8任一项所述的数据处理方法。