CN111709247A

CN111709247A - 数据集处理方法、装置、电子设备和存储介质

Info

Publication number: CN111709247A
Application number: CN202010430339.0A
Authority: CN
Inventors: 胡哲; 彭程; 罗雪峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-25
Anticipated expiration: 2040-05-20
Also published as: US20210365444A1; JP2021184237A; US11663258B2; EP3913499A1; KR20210075036A; CN111709247B; KR102532396B1; JP7126542B2

Abstract

本申请公开了数据集处理方法、装置、电子设备和存储介质，涉及大数据领域。具体实现方案为：获取目标用户提供的多个文本区块，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。由此，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

Description

数据集处理方法、装置、电子设备和存储介质

技术领域

本申请涉及数据处理领域的自然语言处理领域，尤其涉及一种数据集处理方法、装置、电子设备和存储介质。

背景技术

通常，当用户输入一个查询语句，使用检索***在数据库中检索出若干个相似的问题之后通过更加准确、灵活的模型对这些候选项进行重新排序，并且得到最终的答案。

在上述重新排序的过程中，通过相似度匹配模型计算两个文本之间的语义相似度，例如用户输入一个查询语句为“我想要办理一张***”，相似度匹配模型需要准确地在候选项中匹配到“怎么样可以开***”，因此需要大规模且高质量的训练数据来生成相似度匹配模型。

相关技术中，通过随机选取不同语义的文本作为训练数据集中的负样本，生成的负样本的方式比较简单且不准确的情况。

发明内容

提供了一种数据集处理方法、装置、电子设备和存储介质。

根据第一方面，提供了一种数据集处理方法，包括：

获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；

从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合；

根据所述第二文本集合中每条文本归属的候选文本区块内容生成所述目标文本的负样本集合；

根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合；

根据所述负样本集合和所述正样本集合生成所述目标用户的数据集，根据所述数据集训练匹配模型识别文本相似度。

根据第二方面，提供了一种数据集处理装置，包括：

第一获取模块，用于获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本；

第二获取模块，用于从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；

第三获取模块，用于从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合；

第一生成模块，用于根据所述第二文本集合中每条文本归属的候选文本区块内容生成所述目标文本的负样本集合；

第二生成模块，用于根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合；

第三生成模块，用于根据所述负样本集合和所述正样本集合生成所述目标用户的数据集；

识别模块，用于根据所述数据集训练匹配模型识别文本相似度。

本申请第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例所述的数据集处理方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面实施例所述的数据集处理方法。

上述申请中的一个实施例具有如下优点或有益效果：

获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。由此，避免了随机采样中的假样本和数据比较简单的技术问题，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例提供的数据集处理方法的流程示意图；

图2是本申请实施例提供的文本区块的示例图；

图3是根据本申请第二实施例提供的数据集处理方法的流程示意图；

图4是根据本申请第三实施例提供的数据集处理方法的流程示意图；

图5是根据本申请第四实施例提供的数据集处理方法的流程示意图；

图6是根据本申请第五实施例提供的数据集处理方法的流程示意图；；

图7是根据本申请第六实施例提供的数据集处理装置的结构示意图；

图8是根据本申请第七实施例提供的数据集处理装置的结构示意图；

图9是用来实现本申请实施例的数据集处理的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的数据集处理方法、装置、电子设备和存储介质。

图1是根据本申请第一实施例提供的数据集处理方法的流程示意图。

具体地，在现有方式中，通过随机选取不同语义的文本作为训练数据集中的负样本，生成的负样本的方式比较简单且不准确的情况。

本申请提出一种数据集处理方法，获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。

由此，避免了随机采样中的假样本和数据比较简单的技术问题，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

如图1所示，该数据集处理方法可以包括以下步骤：

步骤101，获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合。

本申请通过获取目标用户的数据集来训练匹配模型识别文本相似度，从而提高匹配模型的准确性和稳定性。其中，目标用户可以是一个或者多个子用户，在本申请中，可以基于不同领域应用场景确定时一个或则多个子用户作为目标用户。

举例而言，比如银行领域，不同的银行机构之间查询文本存在差异性，目标用户为多个子用户即多个银行机构，比如教育领域，各个教育机构之间的查询文本差异性不大，为了提高训练效率，目标用户为一个子用户即一个银行机构，具体可以根据实际应用需要进行选择设置。

具体地，获取目标用户提供的多个文本区块，每个文本区块包括具有相似语义的多条文本，也就是说，文本数据往往是一系列的具有相似语义文本的文本区块，在每个文本区块内的文本都具有相同的语义，比如图2所示，“我想办理一张***”和“怎么样可以开张***”两个文本在同一文本区块1；“查询一下我的***账单”和“***账单还有多少”在同一文本区块2。

可以理解的是，每个文本区块内的文本都有相似语义，如果随机从与它不同的文本区块中采样其它文本作为负样本，然后默认两个文本有不同的语义相似度，这种随机负采样的方式容易采样出一些不准确的负样本。

举例而言，比如“我要开张卡”与“我要办理***”为语义相似的两个文本；“我要开张卡”与“我要办理一张储蓄卡”为语义不相似的两个文本，但是“我要开张卡”与“我要办理一张储蓄卡”属于不同的文本区块，但是它们很有可能在一定程度上具有相似语义，这样的负样本会对训练的匹配模型的精确度有很大的影响，以及随机采样生成的负样本比较简单，使得匹配模型无法学习到足够准确的知识，也影响匹配模型的细粒度和精确度。

因此，需要进一步从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合。其中，预设相似匹配条件可以是一个或者多个。

举例而言，比如，为了选取具有相似的表达形式，但是却具有不同的语义信息的样本作为负样本，将两条文本有较高的词语重叠作为预设相似匹配条件，再比如，两条文本有较高的语义相似度作为预设相似匹配条件等，可以根据实际应用需要进行选择设置，举例说明如下：

第一种示例，对目标文本进行切词处理生成第一分词集合，以及对多个文本区块中每条文本进行切词处理生成多个第二分词集合，将第一分词集合与每个第二分词集合进行比较，获取第一分词集合与每个第二分词集合之间的分词重复度，将第一分词集合与每个第二分词集合之间的分词重复度与预设阈值进行比较，根据大于阈值的分词重复度对应的第二分词集合生成第一文本集合。

第二种示例，获取目标文本对应的子向量、文本向量和位置向量，并将目标文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到目标句向量，获取多个文本区块中每条文本对应的子向量、文本向量和位置向量，并将每条文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到每条文本对应的句向量；计算目标句向量与每条文本对应的句向量之间的余弦相似度；将余弦相似度与预设余弦阈值进行比较，根据大于预设余弦阈值对应的文本生成第一文本集合。

需要说明的是，目标文本可以是多个文本区块中每一条文本都作为目标文本进行数据集构造(即遍历每条文本)，可以是多个文本区块中部分文本都作为目标文本进行数据集构造，具体根据实际应用场景进行选择设置，从而在保证训练出的模型精确度的同时提高训练效率。

步骤102，从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合。

步骤103，根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合。

具体地，满足预设相似匹配条件的第一文本集合中各个文本属于多个文本区块，需要从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合，可以根据应用场景进行选择设置，举例说明如下:

作为一种示例，获取目标文本对应的区块标识，获取第一文本集合中每条文本归属的区块标识，将每条文本归属的区块标识与目标文本对应的区块标识进行对比，根据区块标识不一致的文本生成第二文本集合。

最后，根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合，作为一种可能实现方式，获取第二文本集合中每条文本归属的候选文本区块内容，对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合，对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合，根据第一负样本集合和第二负样本集合生成目标文本的负样本集合。

步骤104，根据目标文本归属的目标文本区块内容生成目标文本的正样本集合。

具体地，目标文本具有文本区块标识，从而根据文本区块标识可以确定目标文本区块，进一步可以获取目标文本区块内容，也就是说目标文本区块中的多条文本，通过对目标文本区块中的多条文本进行文本组合生成目标文本的正样本集合。

当然，还可以在获取目标文本区块中的多条文本后，将与第二文本集合中匹配的多条文本生成目标文本的正样本集合。

步骤105，根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。

具体地，在目标用户包括一个子用户的应用场景，可以根据负样本集合和正样本集合生成目标用户的数据集；在目标用户包括多个子用户的应用场景，需要获取每个子用户提供的多个文本区块，根据负样本集合和正样本集合生成每个子用户对应的子数据集，对每个子用户对应的子数据集进行组合生成候选数据集，根据预设去重策略对候选数据集进行去重处理，生成目标用户的数据集，从而提高数据集的领域通用性和适用性，能够在特定领域的任务对话上取得很好的效果。

最后，根据数据集训练匹配模型识别文本相似度的方式有很多种，可以根据需要进行选择设置，举例说明如下：

第一种示例，获取第一查询语句和第二查询语句，对第一查询语句进行编码生成第一查询向量，对第二查询语句进行编码生成第二查询向量，对第一查询向量和第二查询向量输入匹配模型输出匹配类别，根据匹配类别确定第一查询语句和第二查询语句的文本相似度。

举例而言，比如第一查询向量输入匹配模型输出匹配类别1和第二查询向量输入匹配模型输出匹配类别2，匹配类别1和匹配类别2不同，则确定第一查询语句和第二查询语句文本不相似；再比如第一查询向量输入匹配模型输出匹配类别1和第二查询向量输入匹配模型输出匹配类别1，匹配类别1和匹配类别1相同，则确定第一查询语句和第二查询语句文本相似。

第二种示例，获取第一查询语句和第二查询语句，将第一查询语句和第二查询语句输入匹配模型进行句子对齐，根据对齐结果确定第一查询语句和第二查询语句的文本相似度。

举例而言，比如第一查询语句和第二查询语句输入匹配模型进行对齐得到对齐比例为百分之九十五，大于预设阈值百分之九十，则确定第一查询语句和第二查询语句的相似，否则为不相似。

本申请实施例的数据集处理方法，通过获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。由此，避免了随机采样中的假样本和数据比较简单的技术问题，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

基于上述实施例的描述，可以理解基于不同的预设相似匹配条件获取到的第一文本集合不同，从而最后构建的数据集也不同，为了本领域人员更加清楚如何获取与目标文本满足预设相似匹配条件的第一文本集合，下面结合图3和图4以基于词频统计和基于句向量进行计算匹配为例进行详细说明。

具体地，如图3所示，在步骤101之后，还包括：

步骤201，对目标文本进行切词处理生成第一分词集合，以及对多个文本区块中每条文本进行切词处理生成多个第二分词集合。

步骤202，将第一分词集合与每个第二分词集合进行比较，获取第一分词集合与每个第二分词集合之间的分词重复度。

步骤203，将第一分词集合与每个第二分词集合之间的分词重复度与预设阈值进行比较，根据大于阈值的分词重复度对应的第二分词集合生成第一文本集合。

具体地，通过预设切词算法对目标文本进行切词处理生成第一分词集合，也就是第一分词集合中包括目标文本对应的一个或者多个分词，以及对多个文本区块中每条文本进行切词处理生成多个第二分词集合。

进一步地，将第一分词集合与每个第二分词集合进行比较，获取第一分词集合与每个第二分词集合之间的分词重复度，也就是说，目标文本与多个文本区块中每条文本之间的词语重叠的具体情况通过分词重复度便可以快速了解，进一步将分词重复度大于预设阈值的分词重复度对应的第二分词集合生成第一文本集合。

也就是说，目标文本与多个文本区块中每条文本之间的词语重叠的个数大于一定阈值才确定该文本作为第一文本集合中的文本，从而实现选取具有相似的表达形式，但是具有不同的语义信息的文本，比如“我想要办理一张***”和“我想要办理一张储蓄卡”表达式比较相近，其实上语义信息不同的文本，这些的文本后续作为训练样本可以使得模型能够很好地区分语义信息和句子表达形式之间的不同。

具体地，如图4所示，在步骤101之后，还包括：

步骤301，获取目标文本对应的子向量、文本向量和位置向量，并将目标文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到目标句向量。

步骤302，获取多个文本区块中每条文本对应的子向量、文本向量和位置向量，并将每条文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到每条文本对应的句向量。

步骤303，计算目标句向量与每条文本对应的句向量之间的余弦相似度。

步骤304，将余弦相似度与预设余弦阈值进行比较，根据大于预设余弦阈值对应的文本生成第一文本集合。

具体地，为了进一步提高模型的稳定性，基于图3实施例获取的文本作为第一文本集合外还可以结合语义相似度获取文本加入到第一文本集合中，实现选取一些具有一定的语义相似性，但是往往内容并不真正相同的文本，比如“我想要开通一张***”和“我刚开的***有多少额度”，这些的文本后续作为训练样本可以使模型学习到细粒度更高并且更精准地区分语义相似地程度。

具体地，获取目标文本对应的子向量、文本向量和位置向量，并将目标文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到目标句向量，计算目标句向量与每条文本对应的句向量之间的余弦相似度大于预设余弦阈值对应的文本生成第一文本集合。其中，可以选择使用循环神经网络或者是卷积神经网络预选针对文本样本训练生成。

由此，使用预设训练语言表示模型，可以更好地表征整个文本的上下文的关系，而不是单独把每个词语作为独立的一部分，举个例子，比如”苹果”，在和水果相关的语义环境和在手机相关的语义环境中是完全不同的，本申请考虑到文本中的词语顺序以及词语的依存关系，在训练的过程中就是正对整个文本的上下文，提高语义相似度计算的精确度，从而提高匹配模型的识别结果。

基于上述实施例的描述，还可以了解的是，获取与目标文本满足预设相似匹配条件的第一文本集合中文本的数量不一定是本申请构建数据集的预设数量阈值，因此，需要进一步筛选来提高训练效率。

具体地，如图5所示，在步骤101之后，还包括：

步骤401，获取第一文本集合中的文本数量，并判断文本数量是否大于预设数量阈值。

步骤402，若文本数量大于预设数量阈值，则根据数量阈值对第一文本集合中的文本进行删除处理，使文本数量等于数量阈值。

在实际应用中，可以根据不同的应用场景设置不同的数量阈值，即选择多少数量的文本作为训练样本，因此，获取第一文本集合中的文本数量，并判断文本数量是否大于预设数量阈值，文本数量大于预设数量阈值，则根据数量阈值对第一文本集合中的文本进行删除处理，使文本数量等于数量阈值，其中，删除处理可以是随机删除，进一步提高样本的随机性。

图6是根据本申请第五实施例提供的数据集处理方法的流程示意图。

步骤501，获取每个子用户提供的多个文本区块，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合。

具体地，本实施针对的是目标用户包括多个子用户的应用场景，为了数据集的领域通用性，需要针对每一个子用户对应的子数据集进行组合生成候选数据集，根据预设去重策略对候选数据集进行去重处理，生成目标用户的数据集。

具体地，获取每个子用户提供的多个文本区块，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合，其中，预设相似匹配条件可以是一个或者多个，比如，为了选取具有相似的表达形式，但是却具有不同的语义信息的样本作为负样本，将两条文本有较高的词语重叠作为预设相似匹配条件，再比如，两条文本有较高的语义相似度作为预设相似匹配条件等，可以根据实际应用需要进行选择设置。

步骤502，获取目标文本对应的区块标识，获取第一文本集合中每条文本归属的区块标识，将每条文本归属的区块标识与目标文本对应的区块标识进行对比，根据区块标识不一致的文本生成第二文本集合。

可以理解的是，目标文本具有区块标识，以及获取第一文本集合中每条文本归属的区块标识，将每条文本归属的区块标识与目标文本对应的区块标识进行对比，比如目标文本的区块标识01与文本1归属的区块标识一致，目标文本的区块标识01与文本2归属的区块标识02不一致，确定文本2存入第二文本集合。

步骤503，获取第二文本集合中每条文本归属的候选文本区块内容，对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合。

步骤504，对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合，根据第一负样本集合和第二负样本集合生成目标文本的负样本集合。

具体地，第二文本集合中的文本可能归属同一个或者不同的文本区块，根据第二文本集合中的文本的区块标识确定多个候选文本区块，根据候选文本区块中的多条文本进行文本组合生成第一负样本集合，进一步将不同候选文本区块中的多条文本进行文本组合生成第二负样本集合，根据第一负样本集合和第二负样本集合生成目标文本的负样本集合。

从而，通过在每个候选文本区块中的多条文本进行文本组合生成第一负样本集合，以及不同候选文本区块中的多条文本进行文本组合生成第二负样本集合最后生成目标文本的负样本集合，进一步提高文本的随机性，从而提高训练样本的随机性，提高匹配模型的识别精确度。

步骤505，获取目标文本归属的目标文本区块内容，对目标文本区块中的多条文本进行文本组合生成目标文本的正样本集合。

步骤506，对每个子用户对应的子数据集进行组合生成候选数据集，根据预设去重策略对候选数据集进行去重处理，生成目标用户的数据集。

具体地，将每个子用户对应的子数据集进行组合生成候选数据集，进一步根据预设去重策略对候选数据集进行去重处理，生成目标用户的数据集，其中，预设去重策略可以根据不同应用场景需要进行选择，比如可以直接检测候选数据集中各个文本样本的重复性，将重复的文本样本进行删除后生成目标用户的数据集，减少样本噪声，提高匹配模型的精确度。

步骤507，获取第一查询语句和第二查询语句，对第一查询语句进行编码生成第一查询向量，对第二查询语句进行编码生成第二查询向量。

步骤508，对第一查询向量和第二查询向量输入匹配模型输出匹配类别，根据匹配类别确定第一查询语句和第二查询语句的文本相似度。

具体地，在获取第一查询语句和第二查询语句，分别对第一查询语句进行编码生成第一查询向量，对第二查询语句进行编码生成第二查询向量，进一步地，对第一查询向量和第二查询向量输入匹配模型输出匹配类别，最后根据匹配类别确定第一查询语句和第二查询语句的文本相似度。

由此，获取每个子用户提供的多个文本区块，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合，获取目标文本对应的区块标识，获取第一文本集合中每条文本归属的区块标识，将每条文本归属的区块标识与目标文本对应的区块标识进行对比，根据区块标识不一致的文本生成第二文本集合，获取第二文本集合中每条文本归属的候选文本区块内容，对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合，对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合，根据第一负样本集合和第二负样本集合生成目标文本的负样本集合，获取目标文本归属的目标文本区块内容，对目标文本区块中的多条文本进行文本组合生成目标文本的正样本集合，对每个子用户对应的子数据集进行组合生成候选数据集，根据预设去重策略对候选数据集进行去重处理，生成目标用户的数据集，获取第一查询语句和第二查询语句，对第一查询语句进行编码生成第一查询向量，对第二查询语句进行编码生成第二查询向量，对第一查询向量和第二查询向量输入匹配模型输出匹配类别，根据匹配类别确定第一查询语句和第二查询语句的文本相似度。由此，对于每个子用户构造数据集后进行合并去重，将所有的子数据集合并在一起作为目标用户的通用数据集，具有更好领域通用性，以及有效解决随机采样中的假样本和数据太简单的问题，使得训练出来的模型具有更好的鲁棒性。

为了实现上述实施例，本申请提出了一种数据集处理装置。

图7是根据本申请第六实施例提供的数据集处理装置的结构示意图。

如图7所示，该数据集处理装置600，可以包括：第一获取模块601、第二获取模块602、第三获取模块603、第一生成模块604、第二生成模块605、第三生成模块606和识别模块607。

其中，第一获取模块601，用于获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本。

第二获取模块602，用于从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合。

第三获取模603，用于从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合。

第一生成模块604，用于根据所述第二文本集合中每条文本归属的候选文本区块内容生成所述目标文本的负样本集合。

第二生成模块605，用于根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合。

第三生成模块606，用于根据所述负样本集合和所述正样本集合生成所述目标用户的数据集。

识别模块607，用于根据所述数据集训练匹配模型识别文本相似度。

作为一种可能的情况，第二获取模块602，具体用于：对所述目标文本进行切词处理生成第一分词集合，以及对所述多个文本区块中每条文本进行切词处理生成多个第二分词集合；将所述第一分词集合与每个所述第二分词集合进行比较，获取所述第一分词集合与每个所述第二分词集合之间的分词重复度；将所述第一分词集合与每个所述第二分词集合之间的分词重复度与预设阈值进行比较，根据大于所述阈值的分词重复度对应的第二分词集合生成所述第一文本集合。

作为一种可能的情况，第二获取模块602，具体用于：获取所述目标文本对应的子向量、文本向量和位置向量，并将所述目标文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到目标句向量；获取所述多个文本区块中每条文本对应的子向量、文本向量和位置向量，并将所述每条文本对应的子向量、文本向量和位置向量输入所述预设训练语言表示模型得到每条文本对应的句向量；计算所述目标句向量与所述每条文本对应的句向量之间的余弦相似度；将所述余弦相似度与预设余弦阈值进行比较，根据大于所述预设余弦阈值对应的文本生成所述第一文本集合。

作为一种可能的情况，如图8所示，在图7的基础上，还包括：第四获取模块608和删除模块609。

第四获取模块608，用于获取所述第一文本集合中的文本数量，并判断所述文本数量是否大于预设数量阈值。

删除模块609，用于若所述文本数量大于所述预设数量阈值，则根据所述数量阈值对所述第一文本集合中的文本进行删除处理，使所述文本数量等于所述数量阈值。

作为一种可能的情况，第三获取模块603，具体用于：获取所述目标文本对应的区块标识；获取所述第一文本集合中每条文本归属的区块标识；

将所述每条文本归属的区块标识与所述目标文本对应的区块标识进行对比，根据区块标识不一致的文本生成所述第二文本集合。

作为一种可能的情况，第一生成模块604，具体用于：获取所述第二文本集合中每条文本归属的候选文本区块内容；对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合；对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合；根据所述第一负样本集合和所述第二负样本集合生成所述目标文本的负样本集合。

作为一种可能的情况，第二生成模块605，具体用于：获取所述目标文本归属的目标文本区块内容；对所述目标文本区块中的多条文本进行文本组合生成所述目标文本的正样本集合。

作为一种可能的情况，目标用户包括多个子用户，第一获取模块601，具体用于：获取每个子用户提供的多个文本区块；第三生成模块606，具体用于：根据所述负样本集合和所述正样本集合生成所述每个子用户对应的子数据集；对所述每个子用户对应的子数据集进行组合生成候选数据集；

根据预设去重策略对所述候选数据集进行去重处理，生成所述目标用户的数据集。

作为一种可能的情况，识别模块607，具体用于：获取第一查询语句和第二查询语句；对所述第一查询语句进行编码生成第一查询向量；对所述第二查询语句进行编码生成第二查询向量；对所述第一查询向量和所述第二查询向量输入所述匹配模型输出匹配类别，根据所述匹配类别确定所述第一查询语句和所述第二查询语句的文本相似度。

作为一种可能的情况，识别模块607，具体用于：获取第一查询语句和第二查询语句；将所述第一查询语句和所述第二查询语句输入所述匹配模型进行句子对齐；根据对齐结果确定所述第一查询语句和所述第二查询语句的文本相似度。

本申请实施例的数据集处理装置，通过获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。由此，避免了随机采样中的假样本和数据比较简单的技术问题，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的数据集处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据集处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据集处理的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据集处理的方法对应的程序指令/模块(例如，附图7所示的第一获取模块601、第二获取模块602、第三获取模块603、第一生成模块604、第二生成模块605、第三生成模块606和识别模块607)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据集处理的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据数据集处理的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至数据集处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据集处理的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与数据集处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取目标用户提供的多个文本区块，其中，每个文本区块包括具有相似语义的多条文本，从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合；从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合；根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合；根据目标文本归属的目标文本区块内容生成目标文本的正样本集合；根据负样本集合和正样本集合生成目标用户的数据集，根据数据集训练匹配模型识别文本相似度。由此，避免了随机采样中的假样本和数据比较简单的技术问题，通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集，提高数据集的有效性，从而提高匹配模型的鲁棒性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据集处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合，包括：

对所述目标文本进行切词处理生成第一分词集合，以及对所述多个文本区块中每条文本进行切词处理生成多个第二分词集合；

将所述第一分词集合与每个所述第二分词集合进行比较，获取所述第一分词集合与每个所述第二分词集合之间的分词重复度；

将所述第一分词集合与每个所述第二分词集合之间的分词重复度与预设阈值进行比较，根据大于所述阈值的分词重复度对应的第二分词集合生成所述第一文本集合。

3.如权利要求1所述的方法，其特征在于，所述从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合，包括：

获取所述目标文本对应的子向量、文本向量和位置向量，并将所述目标文本对应的子向量、文本向量和位置向量输入预设训练语言表示模型得到目标句向量；

获取所述多个文本区块中每条文本对应的子向量、文本向量和位置向量，并将所述每条文本对应的子向量、文本向量和位置向量输入所述预设训练语言表示模型得到每条文本对应的句向量；

计算所述目标句向量与所述每条文本对应的句向量之间的余弦相似度；

将所述余弦相似度与预设余弦阈值进行比较，根据大于所述预设余弦阈值对应的文本生成所述第一文本集合。

4.如权利要求1所述的方法，其特征在于，在从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合之前，还包括：

获取所述第一文本集合中的文本数量，并判断所述文本数量是否大于预设数量阈值；

若所述文本数量大于所述预设数量阈值，则根据所述数量阈值对所述第一文本集合中的文本进行删除处理，使所述文本数量等于所述数量阈值。

5.如权利要求1所述的方法，其特征在于，所述从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合，包括：

获取所述目标文本对应的区块标识；

获取所述第一文本集合中每条文本归属的区块标识；

6.如权利要求1所述的方法，其特征在于，所述根据所述第二文本集合中每条文本归属的候选文本区块内容生成所述目标文本的负样本集合，包括：

获取所述第二文本集合中每条文本归属的候选文本区块内容；

对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合；

对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合；

根据所述第一负样本集合和所述第二负样本集合生成所述目标文本的负样本集合。

7.如权利要求1所述的方法，其特征在于，所述根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合，包括：

获取所述目标文本归属的目标文本区块内容；

对所述目标文本区块中的多条文本进行文本组合生成所述目标文本的正样本集合。

8.如权利要求1所述的方法，其特征在于，所述目标用户包括多个子用户，所述获取目标用户提供的多个文本区块，包括：

获取每个子用户提供的多个文本区块；

所述根据所述负样本集合和所述正样本集合生成所述目标用户的数据集，包括：

根据所述负样本集合和所述正样本集合生成所述每个子用户对应的子数据集；

对所述每个子用户对应的子数据集进行组合生成候选数据集；

9.如权利要求1所述的方法，其特征在于，所述根据所述数据集训练匹配模型识别文本相似度，包括：

获取第一查询语句和第二查询语句；

对所述第一查询语句进行编码生成第一查询向量；

对所述第二查询语句进行编码生成第二查询向量；

对所述第一查询向量和所述第二查询向量输入所述匹配模型输出匹配类别，根据所述匹配类别确定所述第一查询语句和所述第二查询语句的文本相似度。

10.如权利要求1所述的方法，其特征在于，所述根据所述数据集训练匹配模型识别文本相似度，包括：

获取第一查询语句和第二查询语句；

将所述第一查询语句和所述第二查询语句输入所述匹配模型进行句子对齐；

根据对齐结果确定所述第一查询语句和所述第二查询语句的文本相似度。

11.一种数据集处理装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，所述第二获取模块，具体用于：

13.如权利要求11所述的装置，其特征在于，所述第二获取模块，具体用于：

14.如权利要求11所述的装置，其特征在于，还包括：

第四获取模块，用于获取所述第一文本集合中的文本数量，并判断所述文本数量是否大于预设数量阈值；

删除模块，用于若所述文本数量大于所述预设数量阈值，则根据所述数量阈值对所述第一文本集合中的文本进行删除处理，使所述文本数量等于所述数量阈值。

15.如权利要求11所述的装置，其特征在于，所述第三获取模块，具体用于：

获取所述目标文本对应的区块标识；

获取所述第一文本集合中每条文本归属的区块标识；

16.如权利要求11所述的装置，其特征在于，所述第一生成模块，具体用于：

17.如权利要求11所述的装置，其特征在于，所述第二生成模块，具体用于：

获取所述目标文本归属的目标文本区块内容；

18.如权利要求11所述的装置，其特征在于，所述目标用户包括多个子用户，所述第一获取模块，具体用于：

获取每个子用户提供的多个文本区块；

所述第三生成模块，具体用于：

19.如权利要求11所述的装置，其特征在于，所述识别模块，具体用于：

获取第一查询语句和第二查询语句；

对所述第一查询语句进行编码生成第一查询向量；

对所述第二查询语句进行编码生成第二查询向量；

20.如权利要求11所述的装置，其特征在于，所述识别模块，具体用于：

获取第一查询语句和第二查询语句；

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的数据集处理方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的数据集处理方法。