CN110796153A

CN110796153A - 一种训练样本的处理方法、装置

Info

Publication number: CN110796153A
Application number: CN201810862790.2A
Authority: CN
Inventors: 唐大怀; 陈戈
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2020-02-14
Anticipated expiration: 2038-08-01
Also published as: CN110796153B

Abstract

本申请公开了一种训练样本的处理方法、装置，该方法包括如下步骤：获得第一数据样本；获取第一数据样本经第一分类器分类后获得的错误主题以及与错误主题相关的分类数据；根据与错误主题相关的分类数据，获取导致第一数据样本经第一分类器分类后获得错误主题的第一特征；从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本；对包含第一特征的训练样本进行处理。通过使用本方法，可避免通过人工对已标注的训练样本进行筛选观察所造成的人力资源浪费；并且可高效查找出在模型训练过程中发生错误的训练样本，避免现有的无法对此类训练样本进行筛查所造成的对训练样本进行数据清洗的准确率低的问题。

Description

一种训练样本的处理方法、装置

技术领域

本申请涉及机器学习领域，具体涉及一种训练样本的处理方法。本申请同时涉及一种训练样本的处理装置、一种电子设备以及一种计算机可读取存储介质。

背景技术

在电子商务领域，利用人工智能方式针对客户的咨询信息进行分析和应答，已成为现阶段响应客户咨询的主流方式之一，例如，商家通过使用应答机器人对客户咨询的问题进行意图识别，以此获得用户的核心用意，并根据意图识别所获得的结果针对用户提出的问题进行回复。在该过程中，此类应答机器人采用有监督机器学习的方法，使用人工或半自动标注的方式对训练样本进行标注，并且使用标注过的训练样本进行模型训练，获得分类器，采用测试样本对上述训练完成的分类器进行分类性能的测试。

在对上述分类器进行分类性能测试或在实际的意图识别过程中，存在因对训练样本标注有误而造成模型训练不准确，或者因模型本身的训练过程发生错误而影响分类器的分类结果，使得意图识别的结果不准确，因此，需要对上述的训练样本进行样本清洗工作，能够发现并纠正标注错误的训练样本和训练错误的训练样本。

现有的样本清洗方法为通过人工对所有的训练样本进行筛选观察，查找出训练样本中的错误词汇，在此基础上总结出词汇规则，通过模式匹配的方式获得错误样本，进行清洗和整理。

然而，上述样本清洗方法存在以下缺陷：

训练样本的数量较为庞大，通过人工对所有已标注的训练样本进行筛选观察，造成人力资源的浪费；

因模型本身的训练过程发生错误而导致分类器的分类性能受到影响，最终误导分类器产生错误的分类结果，此类训练样本无法通过人工筛选观察的方法获得标注错误的训练样本，从而无法对此类训练样本进行清洗和整理，降低了对训练样本进行样本清洗的准确率。

发明内容

本申请提供一种训练样本的处理方法，以解决现有的样本清洗方法存在的人力资源浪费以及对训练样本进行样本清洗的准确率低的问题。本申请另外提供一种训练样本的处理装置、一种电子设备以及一种计算机可读取存储介质。

本申请提供一种训练样本的处理方法，包括：

获得第一数据样本；

获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据；

根据所述与所述错误主题相关的分类数据，获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征；

从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本；

对所述包含所述第一特征的训练样本进行处理。

可选的，所述与所述错误主题相关的分类数据，包括：

在所述第一数据样本包含的特征下所述错误主题对应的概率值；

相应的，所述根据所述与所述错误主题相关的分类数据，获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征，包括：

确定在所述第一数据样本包含的特征下所述错误主题对应的概率值；

对所述概率值进行比较；

将所述比较获得的最大概率值所对应的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用KL-概率离散分布计算方法对所述概率值进行比较；或者，

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，在将所述比较获得的最大概率值所对应的特征作为所述第一特征之后，还包括：

将所述第一数据样本输入与所述第一分类器具有不同算法规则的第二分类器中进行分类，获得所述第二分类器输出的所述第一特征下所述错误主题对应的概率值；其中，所述第一分类器与所述第二分类器对应相同的训练样本集合；

将所述第二分类器输出的所述第一特征下所述错误主题对应的概率值与所述第一分类器输出的所述第一特征下所述错误主题对应的概率值进行比较；

如果所述第二分类器输出的所述第一特征下所述错误主题对应的概率值与所述第一分类器输出的所述第一特征下所述错误主题对应的概率值一致，则确定所述第一特征不是最终导致所述第一数据样本经第一分类器分类后获得错误主题的特征；如果所述第二分类器输出的所述第一特征下所述错误主题对应的概率值与所述第一分类器输出的所述第一特征下所述错误主题对应的概率值不一致，则确定所述第一特征是最终导致所述第一数据样本经第一分类器分类后获得错误主题的特征。

可选的，所述与所述错误主题相关的分类数据，包括：

在所述错误主题下所述第一数据样本包含的特征对应的概率值；

确定所述在所述错误主题下所述第一数据样本包含的特征对应的概率值；

对所述概率值进行比较；

将概率值最大的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，在将所述比较获得的具有最大概率值的特征作为所述第一特征之后，还包括：

将所述第一数据样本输入与所述第一分类器具有不同算法规则的第二分类器中进行分类，获得所述第二分类器输出的所述第一特征对应的概率值；其中，所述第一分类器与所述第二分类器对应相同的训练样本集合；

将所述第二分类器输出的所述第一特征对应的概率值与所述第一分类器输出的所述第一特征对应的概率值进行比较；

如果所述第二分类器输出的所述第一特征对应的概率值与所述第一分类器输出的所述第一特征对应的概率值一致，则确定所述第一特征不是最终导致所述第一数据样本经第一分类器分类后获得错误主题的特征；如果所述第二分类器输出的所述第一特征对应的概率值与所述第一分类器输出的所述第一特征对应的概率值不一致，则确定所述第一特征是最终导致所述第一数据样本经第一分类器分类后获得错误主题的特征。

可选的，还包括：

获得所述第一数据样本所对应的正确主题；

将所述正确主题与所述错误主题进行比对，确定所述错误主题为所述第一数据样本经第一分类器进行错误分类后所获得的分类结果。

可选的，所述获得所述第一数据样本所对应的正确主题，包括：

获得针对所述第一数据样本进行人工打标后得到的人工标签，将所述人工标签作为所述第一数据样本所对应的正确主题。

可选的，所述获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据，包括：

将所述第一数据样本输入所述第一分类器；

获取所述第一分类器针对所述第一数据样本生成的中间分类数据和输出的分类结果，所述中间分类数据为与所述错误主题相关的分类数据，所述分类结果为所述错误主题。

可选的，所述第一数据样本是用于测试所述第一分类器的分类性能的测试样本，所述获得第一数据样本，包括：

确定对所述第一分类器进行分类性能测试时所获得的分类结果是否为错误的分类结果；

如果是，则将所述错误的分类结果所对应的测试样本作为第一数据样本。

获取所述测试样本经过所述第一分类器分类后获得的分类测试数据，所述分类测试数据包括所述错误主题和与所述错误主题相关的分类数据。

可选的，所述第一数据样本为智能回复场景中用户提出的咨询语句，所述第一分类器为用于对用户提出的咨询语句进行意图识别的识别模型，所述错误主题为所述用户提出的咨询语句经所述识别模型进行意图识别后所获得的错误的意图识别结果；

所述获得第一数据样本，包括：

根据用户反馈的信息获取第一数据样本；或，

根据随机抽样的方式获取第一数据样本；或，

根据对运营数据进行统计的方式获取第一数据样本。

可选的，所述从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本，包括：

将包含所述第一特征的训练样本作为检索条件，在用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中进行检索；

提取所述检索获得的检索结果。

可选的，所述对所述包含所述第一特征的训练样本进行处理，包括：

将所述包含所述第一特征的训练样本转换成与正确主题相对应的训练样本。

可选的，还包括：获得所述第一数据样本所对应的正确主题；

所述将所述包含所述第一特征的训练样本转换成与正确主题相对应的训练样本，包括：

以所述第一数据样本所对应的正确主题为参考数据，将所述包含所述第一特征的训练样本移动至分类器中的该训练样本所对应的正确主题下；或，

以所述第一数据样本所对应的正确主题为参考数据，在所述包含第一特征的训练样本中增加部分内容，使该训练样本可对应正确的主题。

将所述包含所述第一特征的训练样本进行移除。

本申请还提供一种训练样本的处理装置，包括：

第一数据样本获得单元，用于获得第一数据样本；

错误主题以及与错误主题相关的分类数据获得单元，用于获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据；

第一特征获取单元，用于根据所述与所述错误主题相关的分类数据，获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征；

训练样本获得单元，用于从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本；

训练样本处理单元，用于对所述包含所述第一特征的训练样本进行处理。

本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储训练样本的处理程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

本申请还提供一种计算机可读取存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

与现有技术相比，本申请具有以下优点：

本申请提供的训练样本的处理方法，获得经第一分类器分类后获得错误主题的第一数据样本、错误主题以及与错误主题相关的分类数据，根据与错误主题相关的分类数据，从第一数据样本包含的特征中获得导致第一数据样本经第一分类器分类后获得错误主题的第一特征，从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本，对包含第一特征的训练样本进行处理。本方法从分类器的分类结果出发，利用分类模型的有限错误分类结果(错误主题)和分类数据(与错误主题相关的分类数据)，反向获得用于训练分类模型的训练样本中发生错误的训练样本，并对该发生错误的训练样本进行处理，以此实现对训练样本进行数据清洗。通过使用本方法，可避免通过人工对所有已标注的训练样本进行筛选观察所造成的人力资源浪费；并且可快速高效地查找出在模型训练过程中发生训练错误的训练样本，避免现有的无法对此类训练样本进行筛查所造成的对训练样本进行数据清洗的准确率低的问题。

附图说明

图1是本申请第一实施例提供的方法流程图；

图2是本申请第二实施例提供的装置单元框图；

图3是本申请第三实施例提供的电子设备示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

有监督机器学习包括模型建立和模型分类两个过程，模型构建指的是根据已知类别的训练样本调整分类器的参数，使该分类器达到预定的分类性能；模型分类指的是利用上述分类器将未知类别的样本映射到训练生成的给定类别中的一个。在模型建立的过程中，上述已知类别的训练样本通过人工或半自动方式预先进行样本标记，形成该样本的标签。

当训练样本出现异常时，即，当分类器通过训练样本进行训练时发生训练错误、或者训练样本的标签与该训练样本的实际类别或主题不相符时，会影响上述的模型建立的准确性，进而影响分类器的分类性能。

为了保证分类器的分类性能，需对训练样本进行数据清洗，即对训练样本在模型训练时发生训练错误的样本或者与其标签所表示的类别或主题不相符的样本进行查找以及处理。

为了高效完成对训练样本的数据清洗，本申请从分类器的分类结果出发，提供了一种训练样本的处理方法、与该方法相对应的训练样本的处理装置、电子设备以及计算机可读取存储介质。以下提供实施例对方法、装置、电子设备以及计算机可读取存储介质进行详细说明。

本申请第一实施例提供一种训练样本的处理方法，该方法应用于对有监督机器学习中的发生异常的训练样本进行样本清洗；该方法适用于one-hot(一种文本特征的构建方法，指定一个词即为一个特征，每个词分别使用一个维度表示，常用于提取文本特征)模式。图1为本申请第一实施例提供的训练样本的处理方法流程图，以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图1所示，本实施例提供的训练样本的处理方法包括如下步骤：

S101，获得第一数据样本。

本申请提供的方法，从分类器的分类结果出发，首先获得经分类器分类后得到错误的分类结果的第一数据样本。

第一数据样本指的是经分类器分类后可得到错误的分类结果的文本信息。文本信息可通过文本分类器进行文本主题识别，获得该文本信息的核心语义，实现对该文本信息的意图识别。

第一数据样本可以为用于测试分类器的分类性能的测试样本，该测试样本可通过如下方式获得：确定对分类器进行分类性能测试时所获得的分类结果是否为错误的分类结果；如果是，则将错误的分类结果所对应的测试样本作为第一数据样本。

上述第一数据样本还可以为分类器在实际使用中的输入数据，在本实施例中，其为智能回复场景中用户提出的咨询语句，智能回复场景指的是可针对用户的咨询语句进行自动答复的购物场景或服务场景，智能回复的过程可通过商家设置的专用于回复用户咨询信息的聊天机器人完成，该过程一般为：在接收到用户的咨询语句后，通过预设的主题模型对该咨询语句进行语义挖掘，获得该咨询语句的核心语义，以此识别出用户的意图，并根据识别获得的用户意图向用户返回对应的答复信息。

在本实施例中，可通过如下方式中的至少一种获得第一数据样本：

根据用户反馈的信息获取第一数据样本，例如，当用户输入咨询语句后，获得的答复信息与其输入的咨询语句不相关，通过用户对相关问题所反馈的投诉建议、举报等信息可获知针对用户所输入的咨询语句进行语义挖掘时出现了错误，即识别出的用户意图与用户的真实意图之间存在偏差，因此，将该用户输入的咨询语句作为第一数据样本。

根据随机抽样的方式获取第一数据样本，例如，采用随机抽样的方式随机抽取针对某一品类的商品、或针对某个交易周期内与用户的交互信息，将抽取获得的异常交互信息中的用户咨询语句作为第一数据样本。

根据对运营数据进行统计的方式获取第一数据样本，例如，当用户针对某个品类的商品、或与该商品相关的信息进行咨询时，如果由于对用户的咨询语句的语义理解错误而给出错误的回复信息，则会影响用户的交互体验，并进一步对该品类商品的交易数据产生消极影响，因此，通过对异常交易数据所对应的交互信息进行分析，核查该交互信息中针对用户咨询语句的回复信息的内容是否出现错误，如果是，则将该用户的咨询语句作为第一数据样本。

S102，获取第一数据样本经第一分类器分类后获得的错误主题以及与错误主题相关的分类数据。

与上述步骤获得第一数据样本相对应，本步骤用于获得上述第一数据样本经分类器分类后获得的错误主题以及与错误主题相关的分类数据。

第一分类器即为使上述第一数据样本在分类后获得错误的分类结果的分类器，其为用于进行语义挖掘的文本识别模型，可对文本信息进行主题识别。在本实施例中，第一分类器为用于对用户提出的咨询语句进行意图识别的识别模型。

主题即为文本所表达的语义，在第一分类器中可包含多个主题，每个主题为一个概念。对于用户提出的咨询语句，主题代表用户的意图，主题识别即为意图识别。错误主题指的是第一数据样本经第一分类器分类后获得的错误语义，在本实施例中，错误主题为用户提出的咨询语句经识别模型进行意图识别后所获得的错误的意图识别结果。例如，上述第一数据样本为用户输入的如下语句：“我要买衣服，要大小适中的，不要像之前那种长短不合适的，该选什么尺码？”，通过语义分析可知，该用户的真实意图为：推荐尺码，而经上述第一分类器分类所得结果为：大小不合适，此处的“大小不合适”即为上述第一数据样本的错误主题。

与错误主题相关的分类数据指的是第一分类器在对第一数据样本进行分类的过程中所形成的中间数据，该中间数据为用于获得最终分类结果的过度数据，其通过上述第一分类器的分类算法和模型已有的训练数据计算生成，对最终的分类结果具有直接影响，例如，分类器输出的文本的主题是上述中间数据按预定的分类算法进行相应计算后最终确定的。

上述第一分类器对第一数据样本的分类方法遵循one-hot模式，在该模式下，将文本映射到向量空间中，第一分类器预先对上述第一数据样本进行文本分词处理，将文本映射到向量空间中，获得单个的词，每个词对应一个特征，例如对于上述语句“我要买衣服，要大小适中的，不要像之前那种长短不合适的，该选什么尺码”进行文本分词后，可得到“我、选、衣服、大小适中、长短不合适、尺码”等词，每个词对应一个维度，即每个词均为一个单独的特征。

对于文本信息，可认为文本以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语。在本实施例中，上述与错误主题相关的分类数据为在第一数据样本包含的特征下错误主题对应的概率值，该概率值为第一数据样本包含的所有特征的主题分布的一部分，第一数据样本包含的所有特征的主题分布指的是在第一数据样本包含的各个特征下、第一分类器包含的所有主题依次出现的概率，第一数据样本包含的特征下错误主题对应的概率值表示在第一数据样本包含的每个特征下、错误主题出现的概率，即在文本包含的每个词下错误主题出现的概率。例如，在上述文本中，对应于上述特征中的“衣服、长短不合适、尺码”等特征，上述错误主题“大小不合适”出现的概率分别为75％、99％、85％。

需要说明的是，与错误主题相关的分类数据还可以为：在错误主题下第一数据样本包含的特征对应的概率值，其表示在错误主题下第一数据样本包含的每个词出现的概率，例如，在上述文本中，在给定的错误主题“大小不合适”下，上述“衣服、长短不合适、尺码”等特征出现的概率分别是80％、95％、90％。

上述获取第一数据样本经第一分类器分类后获得的错误主题以及与错误主题相关的分类数据，该过程可在获取第一数据样本时获得，例如，第一数据样本为第一分类器的测试样本，错误主题即为对应的测试结果，错误主题以及与错误主题相关的分类数据仅通过对测试数据进行分析即可获得。在本实施例中，通过如下方式实现：将第一数据样本输入第一分类器；获取第一分类器针对第一数据样本生成的中间分类数据和输出的分类结果，中间分类数据为与错误主题相关的分类数据，分类结果为错误主题。

在本实施例中，在获取错误主题以及与错误主题相关的分类数据之后，还需获得第一数据样本所对应的正确主题；将正确主题与错误主题进行比对，确定错误主题为第一数据样本经第一分类器进行错误分类后所获得的分类结果。获得第一数据样本所对应的正确主题的方式为：获得针对第一数据样本进行人工打标后得到的人工标签，将该人工标签作为第一数据样本所对应的正确主题。例如，通过获取人工对上述文本“我要买衣服，要大小适中的，不要像之前那种长短不合适的，该选什么尺码？”进行语义分析和打标后得到的人工标签，获得该文本的正确主题为“推荐尺码”，通过将该正确主题与上述分类获得的分类结果“大小不合适”进行对比，可确定上述通过第一分类器获得的分类结果为错误的分类结果。

S103，根据与错误主题相关的分类数据，获取第一数据样本包含的、导致第一数据样本经第一分类器分类后获得错误主题的第一特征。

在经上述步骤获得错误主题以及与错误主题相关的分类数据之后，本步骤用于根据与错误主题相关的分类数据，从第一数据样本包含的特征中获取导致第一数据样本经第一分类器分类后获得错误主题的第一特征。

第一特征可导致第一分类器对第一数据样本进行错误分类，并获得上述的错误主题，该方法遵循的逻辑为：文本的主题分布是由文本包含的各个特征的主题分布按照分类器的分类算法给出的权重叠加得到的，如果一个权重很高的特征发生了错误，则会导致整个文本的主题发生错误。因此，第一特征实质为在第一分类器的分类过程中占有很高权重的能够误导分类器获得错误主题的特征。

本实施例中与错误主题相关的分类数据为在第一数据样本包含的特征下错误主题对应的概率值；相应的，根据与错误主题相关的分类数据，获取第一数据样本包含的、导致第一数据样本经第一分类器分类后获得错误主题的第一特征，可通过如下方式实现：确定在第一数据样本包含的特征下错误主题对应的概率值；对在第一数据样本包含的特征下错误主题对应的概率值进行比较，即对第一数据样本包含的特征的主题分布进行比较，将比较获得的最大概率值所对应的特征作为第一特征。例如，在上述文本中，对于文本所包含的所有特征，在特征“长短不合适”下，错误主题“大小不合适”出现的概率最高，为99％，因此认为“长短不合适”这个特征影响了整个文本的主题分布，将其作为第一特征。

在本实施例中，采用KL(英文全称Kullback-Leibler Divergence)-概率离散分布计算方法或者采用F(英文全称F-divergence)-概率离散分布计算方法实现上述对在第一数据样本包含的特征下错误主题对应的概率值进行比较。

在本实施例中，在将比较获得的最大概率值所对应的特征作为第一特征之后，还需进行如下步骤对上述第一特征进行验证：

将第一数据样本输入与第一分类器具有不同算法规则的第二分类器中进行分类，获得第二分类器输出的第一特征下错误主题对应的概率值；其中，第一分类器与第二分类器对应相同的训练样本集合；

将第二分类器输出的第一特征下错误主题对应的概率值与第一分类器输出的第一特征下错误主题对应的概率值进行比较；

如果第二分类器输出的第一特征下错误主题对应的概率值与第一分类器输出的第一特征下错误主题对应的概率值一致，则确定第一特征不是最终导致第一数据样本经第一分类器分类后获得错误主题的特征；如果第二分类器输出的第一特征下错误主题对应的概率值与第一分类器输出的第一特征下错误主题对应的概率值不一致，则确定第一特征是最终导致第一数据样本经第一分类器分类后获得错误主题的特征。

上述对第一特征进行验证的方法，其遵循的逻辑为：如果通过两个对应相同的训练样本集合的分类器进行分类后所获得的结果相同，则可确定不是因为对第一分类器进行训练的过程发生错误而导致的错误的分类结果，即，确定第一特征本身即为强有力的特征，并非因为模型训练错误而确定出的导致出现错误分类结果的特征。

需要说明的是，如果与错误主题相关的分类数据为在错误主题下第一数据样本包含的特征对应的概率值；则根据与错误主题相关的分类数据，获取第一特征的方法为：确定在错误主题下第一数据样本包含的特征对应的概率值；对在错误主题下第一数据样本包含的特征对应的概率值进行比较；将比较获得的概率值最大的特征作为第一特征。例如，上述文本在给定的错误主题“大小不合适”下，该文本包含的所有特征中，“长短不合适”这个特征出现的概率最高，为95％，因此确定特征“长短不合适”为第一特征。

对在错误主题下第一数据样本包含的特征对应的概率值进行比较也采用KL(英文全称Kullback-Leibler Divergence)-概率离散分布计算方法或者采用F(英文全称F-divergence)-概率离散分布计算方法实现。

对应的，在将比较获得的具有最大概率值的特征作为第一特征之后，还需执行如下步骤以确定上述第一特征是否为最终导致第一数据样本经第一分类器分类后获得错误主题的特征：

将第一数据样本输入与第一分类器具有不同算法规则的第二分类器中进行分类，获得第二分类器输出的第一特征对应的概率值；其中，第一分类器与第二分类器对应相同的训练样本集合；

将第二分类器输出的第一特征对应的概率值与第一分类器输出的第一特征对应的概率值进行比较；

如果第二分类器输出的第一特征对应的概率值与第一分类器输出的第一特征对应的概率值一致，则确定第一特征不是最终导致第一数据样本经第一分类器分类后获得错误主题的特征；如果第二分类器输出的第一特征对应的概率值与第一分类器输出的第一特征对应的概率值不一致，则确定第一特征是最终导致第一数据样本经第一分类器分类后获得错误主题的特征。

S104，从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本。

上述步骤从第一数据样本包含的特征中获得导致第一数据样本经第一分类器分类后获得错误主题的第一特征之后，本步骤用于从错误主题所对应的训练样本中获得包含第一特征的训练样本，即，从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本，将获得的包含第一特征的训练样本作为需要进行数据清洗的样本。

从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本，通过如下方式实现：将包含第一特征的训练样本作为检索条件，在用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中进行检索；提取检索获得的检索结果，该检索结果即为错误主题对应的包含第一特征的训练样本。

S105，对包含第一特征的训练样本进行处理。

本步骤用于对上述获得的包含第一特征的训练样本进行处理，达到对训练样本进行数据清洗的目的。

本实施例中，对包含第一特征的训练样本进行处理可以是指：将包含第一特征的训练样本转换成与正确主题相对应的训练样本，具体可通过对包含第一特征的训练样本进行移动或增加内容的方式实现。

本实施例中，对包含第一特征的训练样本进行处理之前还需获得第一数据样本所对应的正确主题，本实施例中通过获得针对第一数据样本进行人工打标后得到的人工标签，将该人工标签作为第一数据样本所对应的正确主题。

与上述步骤S102中获得第一数据样本所对应的正确主题用于确定错误主题为第一数据样本经第一分类器进行错误分类后所获得的分类结果不同的是，本步骤中获取该正确主题的目的在于以该正确主题为参考数据，将上述包含第一特征的训练样本移动至分类器中的该训练样本所对应的正确主题下；或为了弱化上述第一特征对训练样本的影响，在上述包含第一特征的训练样本中增加部分内容，使该训练样本可对应正确的主题。

除了上述对训练样本进行移动或增加内容，对包含第一特征的训练样本进行处理还可以为：将包含第一特征的训练样本从第一分类器所对应的训练样本集合中进行移除。

本实施例提供的训练样本的处理方法，获得经第一分类器分类后获得错误主题的第一数据样本、错误主题以及与错误主题相关的中间分类数据，该中间分类数据可以为在错误主题下第一数据样本包含的特征对应的概率值，也可以为在第一数据样本包含的特征下错误主题对应的概率值，根据中间分类数据，获取第一数据样本包含的、导致第一数据样本经第一分类器分类后获得错误主题的第一特征，从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中检索获得包含第一特征的训练样本，对包含第一特征的训练样本进行移动、增加内容或移除等处理。

本方法从分类器的分类结果出发，利用分类模型的有限个中间分类数据和错误分类结果，反向获得用于训练分类模型的训练样本中的错误的训练样本，并对该错误的训练样本进行处理，以此实现对训练样本进行数据清洗和整理。通过使用本方法，可避免通过人工对所有已标注的训练样本进行筛选观察所造成的人力资源浪费；并且可快速高效地查找出在模型训练过程中发生训练错误的训练样本，避免现有的无法对此类训练样本进行筛查所造成的对训练样本进行数据清洗的准确率低的问题。

上述第一实施例提供了一种训练样本的处理方法，与之相对应的，本申请第二实施例还提供了一种训练样本的处理装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。

请参考图2理解该实施例，图2为本实施例提供的装置的单元框图，如图2所示，本实施例提供的装置包括：

第一数据样本获得单元201，用于获得第一数据样本；

错误主题以及与错误主题相关的分类数据获得单元202，用于获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据；

第一特征获取单元203，用于根据所述与所述错误主题相关的分类数据，获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征；

训练样本获得单元204，用于从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本；

训练样本处理单元205，用于对所述包含所述第一特征的训练样本进行处理。

可选的，所述与所述错误主题相关的分类数据，包括：

相应的，所述第一特征获取单元203，包括：

概率值确定子单元，用于确定在所述第一数据样本包含的特征下所述错误主题对应的概率值；

概率值比较子单元，用于对所述概率值进行比较；

第一特征确定子单元，用于将所述比较获得的最大概率值所对应的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，还包括：

可选的，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

将概率值最大的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，还包括：

获得所述第一数据样本所对应的正确主题；

将所述第一数据样本输入所述第一分类器；

所述获得第一数据样本，包括：

根据用户反馈的信息获取第一数据样本；或，

根据随机抽样的方式获取第一数据样本；或，

根据对运营数据进行统计的方式获取第一数据样本。

提取所述检索获得的检索结果。

将所述包含所述第一特征的训练样本进行移除。

在上述的实施例中，提供了一种训练样本的处理方法以及一种训练样本的处理装置，此外，本申请第三实施例还提供一种电子设备，该电子设备实施例如下：

请参考图3理解本实施例，图3为本实施例提供的电子设备的示意图。

如图3所示，所述电子设备包括：处理器301；存储器302；

所述存储器302，用于存储训练样本的处理程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

例如，所述电子设备为一台计算机，该计算机可获得第一数据样本；获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据；根据所述与所述错误主题相关的分类数据，获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征；从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本；对所述包含所述第一特征的训练样本进行处理。

可选的，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

将概率值最大的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，还包括：

获得所述第一数据样本所对应的正确主题；

将所述第一数据样本输入所述第一分类器；

所述获得第一数据样本，包括：

根据用户反馈的信息获取第一数据样本；或，

根据随机抽样的方式获取第一数据样本；或，

根据对运营数据进行统计的方式获取第一数据样本。

提取所述检索获得的检索结果。

将所述包含所述第一特征的训练样本进行移除。

在上述的实施例中，提供了一种训练样本的处理方法、一种训练样本的处理装置以及一种电子设备，此外，本申请第四实施例还提供了一种用于实现对训练样本进行处理的计算机可读取存储介质。本申请提供的所述计算机可读取存储介质实施例描述得比较简单，相关部分请参见上述方法实施例的对应说明即可，下述描述的实施例仅仅是示意性的。

本实施例提供一种计算机可读取存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

可选的，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

将概率值最大的特征作为所述第一特征。

可选的，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

可选的，还包括：

获得所述第一数据样本所对应的正确主题；

将所述第一数据样本输入所述第一分类器；

所述获得第一数据样本，包括：

根据用户反馈的信息获取第一数据样本；或，

根据随机抽样的方式获取第一数据样本；或，

根据对运营数据进行统计的方式获取第一数据样本。

提取所述检索获得的检索结果。

将所述包含所述第一特征的训练样本进行移除。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种训练样本的处理方法，其特征在于，包括：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

2.根据权利要求1所述的方法，其特征在于，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

3.根据权利要求2所述的方法，其特征在于，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

4.根据权利要求2所述的方法，其特征在于，在将所述比较获得的最大概率值所对应的特征作为所述第一特征之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述与所述错误主题相关的分类数据，包括：

对所述概率值进行比较；

将概率值最大的特征作为所述第一特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述概率值进行比较，包括：

采用F-概率离散分布计算方法对所述概率值进行比较。

7.根据权利要求5所述的方法，其特征在于，在将所述比较获得的具有最大概率值的特征作为所述第一特征之后，还包括：

8.根据权利要求2或5所述的方法，其特征在于，还包括：

获得所述第一数据样本所对应的正确主题；

9.根据权利要求8所述的方法，其特征在于，所述获得所述第一数据样本所对应的正确主题，包括：

10.根据权利要求1所述的方法，其特征在于，所述获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据，包括：

将所述第一数据样本输入所述第一分类器；

11.根据权利要求1所述的方法，其特征在于，所述第一数据样本是用于测试所述第一分类器的分类性能的测试样本，所述获得第一数据样本，包括：

12.根据权利要求11所述的方法，其特征在于，所述获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据，包括：

13.根据权利要求1所述的方法，其特征在于，所述第一数据样本为智能回复场景中用户提出的咨询语句，所述第一分类器为用于对用户提出的咨询语句进行意图识别的识别模型，所述错误主题为所述用户提出的咨询语句经所述识别模型进行意图识别后所获得的错误的意图识别结果；

所述获得第一数据样本，包括：

根据用户反馈的信息获取第一数据样本；或，

根据随机抽样的方式获取第一数据样本；或，

根据对运营数据进行统计的方式获取第一数据样本。

14.根据权利要求1所述的方法，其特征在于，所述从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本，包括：

提取所述检索获得的检索结果。

15.根据权利要求1所述的方法，其特征在于，所述对所述包含所述第一特征的训练样本进行处理，包括：

16.根据权利要求15所述的方法，其特征在于，还包括：获得所述第一数据样本所对应的正确主题；

17.根据权利要求16所述的方法，其特征在于，所述获得所述第一数据样本所对应的正确主题，包括：

18.根据权利要求1所述的方法，其特征在于，所述对所述包含所述第一特征的训练样本进行处理，包括：

将所述包含所述第一特征的训练样本进行移除。

19.一种训练样本的处理装置，其特征在于，包括：

第一数据样本获得单元，用于获得第一数据样本；

20.一种电子设备，其特征在于，包括：

处理器；

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。

21.一种计算机可读取存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

获得第一数据样本；

对所述包含所述第一特征的训练样本进行处理。