CN110580290B

CN110580290B - 用于文本分类的训练集的优化方法及装置

Info

Publication number: CN110580290B
Application number: CN201910866630.XA
Authority: CN
Inventors: 纪鸿旭; 过群; 鲁骁; 孟二利
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-12-13
Anticipated expiration: 2039-09-12
Also published as: US11507882B2; US20210081832A1; EP3792811A1; CN110580290A

Abstract

本公开是关于一种用于文本分类的训练集的优化方法及装置，所述方法包括：获取用于文本分类的训练集；在训练集中选取一部分样本作为第一初始训练子集，并且对第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集；根据第二初始训练子集，训练文本分类模型；通过训练后的文本分类模型对训练集中的样本进行预测以获得预测结果；根据预测结果，生成标注错误样本集；从标注错误样本集中选取关键标注错误样本，并对关键标注错误样本的标注进行更正，生成对应的正确标注样本；利用正确标注样本更新所述训练集。该方法可以基于主动学习选择错误的标注样本，交由人工重新标注后，快速迭代修正，从而改善训练集的质量。

Description

用于文本分类的训练集的优化方法及装置

技术领域

本公开涉及文本分类领域，尤其涉及一种用于文本分类的训练集的优化方法及装置。

背景技术

文本分类算法是自然语言处理领域中的重要算法，算法的分类效果与训练集的数据质量和样本数量有很大关系，当训练集的标注样本存在错误或者训练集的标注样本数量不够多时，算法的性能会受影响。

目前，通过人工增加标注样本的数量来扩充训练集，或者人工修正训练集中错误的标注样本，以提升训练集的质量。然而，如果在扩充训练集时随机选择样本进行标注，那么大量需要标注的样本会增加人工标注成本和模型训练的时间，而且无法发现错误的标注样本。

通常，主动学习的方法可以筛选信息量更大、更有效的一部分样本交给人工进行标注，使用这种方法扩充训练集，增加部分高质量的标注样本，从而使模型具有较好的分类效果。然而，传统的主动学习也不能挑选出训练集中的错误的标注样本。

另一方面，文本分类领域的数据增强，主要有同义词替换、随机***/交换/删除、交叉翻译、基于上下文预测的替换等。但是这些增强方式属于通用型增强方式，只能处理数据量不足的场景，并不能修正数据噪音或者让模型学习到训练数据以外的信息，对分类模型的性能提升帮助有限。

发明内容

为克服相关技术中存在的问题，本公开提供一种用于文本分类的训练集的优化方法及装置。

根据本公开实施例的第一方面，提供一种用于文本分类的训练集的优化方法，所述方法包括：获取用于文本分类的训练集；在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集；根据所述第二初始训练子集，训练文本分类模型；通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果；根据所述预测结果，生成标注错误样本集；从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本；利用所述正确标注样本更新所述训练集。

可选的，所述在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集包括：通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。

可选的，所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括：根据所述训练后的文本分类模型，构建用于文本分类的分类器；通过所述分类器对所述训练集中的样本进行预测以获得预测结果。

可选的，所述根据所述预测结果，生成标注错误样本集包括：根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。

可选的，所述从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本包括：对所述标注错误样本集中的样本进行分词并形成词表；确定所述词表中的每个词的特征值，根据所述特征值，取排名前k位的词作为关键词并构成关键词库，其中，k是大于或等于1的自然数；根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键标注错误样本；对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。在一示例中，可以根据所述词表，通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值。

可选的，所述方法还包括：从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本；对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

可选的，所述从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本包括：通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的字词作为关键字词并构成关键字词库，其中，x和y是大于或等于1的自然数；对所述关键字词库中的关键字词进行数据增强，并且生成新的样本。在一示例中，例如可以根据所述共现矩阵，通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值。

可选的，所述通过n-gram模型从所述标注错误样本集中提取字词包括：通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。

根据本公开实施例的第二方面，提供一种用于文本分类的训练集的优化装置。所述装置包括：获取单元，被配置为获取用于文本分类的训练集；第一更正单元，被配置为在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集；训练单元，被配置为根据所述第二初始训练子集，训练文本分类模型；预测单元，被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果；生成单元，被配置为根据所述预测结果，生成标注错误样本集；第二更正单元，被配置为从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本；更新单元，被配置为利用所述正确标注样本更新所述训练集。

可选的，所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集：通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。

可选的，所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果：根据所述训练后的文本分类模型，构建用于文本分类的分类器；通过所述分类器对所述训练集中的样本进行预测以获得预测结果。

可选的，所述生成单元被配置为采用如下方式根据所述预测结果，生成标注错误样本集：根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。

可选的，所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本：对所述标注错误样本集中的样本进行分词并形成词表；确定所述词表中的每个词的特征值，根据所述特征值，取排名前k位的关键词构成关键词库，其中，k是大于或等于1的自然数；根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键标注错误样本；对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。

可选的，所述装置还包括：数据增强单元，被配置为从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本；增加单元，被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

可选的，所述数据增强单元被配置为采用如下方式从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本：通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的关键字词构成关键字词库，其中，x和y是大于或等于1的自然数；对所述关键字词库中的关键字词进行数据增强，并且生成新的样本。

根据本公开实施例的第三方面，提供一种用于文本分类的训练集的优化装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述第一方面或者第一方面中任一方面涉及的用于文本分类的训练集的优化方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述第一方面或者第一方面中任一方面涉及的用于文本分类的训练集的优化方法。

本公开的实施例提供的技术方案可以包括以下有益效果：该方法可以基于主动学习选择错误的标注样本，交由人工重新标注后，快速迭代修正，从而改善训练集的质量，提升文本分类的模型效果，并且可以针对错误的标注样本进行数据增强，增加训练样本，快速迭代修正，提升文本分类的模型效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种用于文本分类的训练集的优化方法的流程图。

图2是根据一示例性实施例示出的另一种用于文本分类的训练集的优化方法的流程图。

图3是根据一示例性实施例示出的一种用于文本分类的训练集的优化装置的框图。

图4是根据一示例性实施例示出的另一种用于文本分类的训练集的优化装置的框图。

图5是根据一示例性实施例示出的又一种用于文本分类的训练集的优化装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本公开提供一种用于文本分类的训练集的优化方法，更具体地，利用主动学习方法来优化用于文本分类的训练集。参见图1，图1是根据一示例性实施例示出的一种用于文本分类的训练集的优化方法的流程图。如图1所示，所述用于文本分类的训练集的优化方法包括以下步骤S101-S107。

在步骤S101中，获取用于文本分类的训练集。根据本公开的实施例，获取用于文本分类模型的训练集，该训练集中的文本样本都已经被标注。

在步骤S102中，在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集。在步骤S103中，根据所述第二初始训练子集，训练文本分类模型。根据本公开的实施例，根据所述第二初始训练子集，训练文本分类模型，例如训练TextCNN模型，以便获得训练后的文本分类模型。在另一实施例中，可以使用Bert预训练模型，然后针对分类任务进行微调，以得到初步的训练模型。

在步骤S104中，通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果。根据本公开的实施例，通过训练后的文本分类模型对所述训练集中的全部文本样本进行预测以获得预测结果。在另一实施例中，也可以对训练集中除了第一初始训练子集外的其他样本进行预测。

在步骤S105中，根据所述预测结果，生成标注错误样本集。根据本公开的实施例，根据所述预测结果，构建所有标注错误样本的集合。

在步骤S106中，从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。根据本公开的实施例，从所有标注错误样本的集合中选取关键的标注错误样本，并对关键的标注错误样本的标注进行更正，由此将关键的标注错误样本更正为正确标注样本。

在步骤S107中，利用所述正确标注样本更新所述训练集。根据本公开的实施例，使用所述正确标注样本替换所述训练集中的原有样本。

当然，该方法可以在执行完步骤S107后返回步骤S101继续执行该步骤S101，并且利用更新了更多正确标注样本的训练集反复迭代文本分类模型，直至文本分类模型具有良好的分类效果。应当注意的是，关于迭代的次数，可以由本领域技术人员根据应用场景的需求来具体确定。在一个示例中，可以采用从训练集抽样的方法，随机抽取一定数量样本，数据标注正确率超过一预定阈值时，可以认为完成迭代。

根据本公开的实施例，所述在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集包括：通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。在该实施例中，通过诸如Random()的随机提取函数在所述训练集中随机选取一小部分文本样本作为第一初始训练子集，并且对所述第一初始训练子集中的所有文本样本的错误标注进行人工更正，获得更正后的文本样本集合作为第二初始训练子集。

根据本公开的实施例，所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括：根据所述训练后的文本分类模型，构建用于文本分类的分类器；通过所述分类器对所述训练集中的样本进行预测以获得预测结果。在该实施例中，根据所述训练后的文本分类模型，根据已知方法构建用于文本二分类的分类器；通过所述二分类的分类器对所述训练集中的全部文本样本进行预测以获得预测结果。

根据本公开的实施例，所述根据所述预测结果，生成标注错误样本集包括：根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。在该实施例中，根据所述预测结果的混淆矩阵选择标注错误样本，例如在二分类问题时，可以选择将负类预测为正类(假正，FP)的样本和将正类预测为负类(假负，FN)的样本，生成标注错误样本集。

根据本公开的实施例，所述从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本包括：对所述标注错误样本集中的样本进行分词并形成词表；确定所述词表中的每个词的特征值，根据所述特征值，取排名前k位的词作为关键词并构成关键词库，其中，k是大于或等于1的自然数；根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键标注错误样本；对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。在一示例中，例如可以根据所述词表，通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值。

在该实施例中，通过已知分词方法(例如使用jieba)对所述标注错误样本集中的样本进行分词并通过统计方法形成词表，所述词表包括所述词表中的词分别在所述标注错误样本集中出现的次数信息和所述词表中的词分别在所述标注错误样本集中的不同类别(例如，财经、体育等)的样本中出现的次数信息；根据所述词表，通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值，该特征值代表所述词与不同类别(例如，财经、体育等)的关联性，综合由这两种算法获得的特征值，取关联性排名前k位(例如，排名前5)的词作为关键词构成关键词库，其中，k是大于或等于1的自然数，例如k＝5；根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键的标注错误样本；对所述关键的标注错误样本的标注进行更正，生成对应的正确标注样本。

本公开的上述实施例，对于训练集中错误标注样本较多的问题，基于主动学习算法提出一种错误标注样本的选择策略，通过分类器预测结果的混淆矩阵和文本特征挖掘算法，可以从已标注的训练集中确定出所有错误的标注样本，并从所有错误的标注样本中仅选择出一部分关键的错误标注样本，然后仅需要对这一小部分关键的错误标注样本进行人工重新标注。如此，通过对小规模错误数据的人工标注，在保证人工小成本的前提下，快速迭代修正，并自动判定迭代的终止时机，从而解决了现有主动学习方法中无法自动确定错误的标注样本，以及在错误标注样本过多的情况下，人工标注成本过高的问题。

图2是根据一示例性实施例示出的另一种用于文本分类的训练集的优化方法的流程图。如图2所示，所述方法还包括以下步骤S108-S109。在步骤S108中，从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本；在步骤S109中，对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

在该实施例中，从所述标注错误样本集中选取关键的字词，对所述关键的字词进行数据增强并生成新的样本，并且对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

当然，该方法可以在执行完步骤S109后返回步骤S101继续执行该步骤S101，并且利用扩充的训练集反复迭代文本分类模型，直至文本分类模型具有良好的分类效果。另外，扩充的训练集通过上述方法被更正其中的标注错误，因此，更正训练集中的错误标注的样本与扩充训练集相结合，能够更好地优化训练集。

根据本公开的实施例，所述从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本包括：通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的字词作为关键字词并构成关键字词库，其中，x和y是大于或等于1的自然数，并且x等于y或者x不等于y；对所述关键字词库中的关键字词进行数据增强，并且生成新的样本。在一示例中，例如可以根据所述共现矩阵，通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值。

在该实施例中，通过n-gram模型对所述标注错误样本集中的所有样本提取字词，并形成字词集合；根据所述字词集合，通过统计算法生成所述字词与所述字词所属类别(例如，财经、体育等)的共现矩阵，所述共现矩阵包括所述共现矩阵中的字词分别在所述标注错误样本集中出现的次数信息、所述共现矩阵中的字词分别在所述标注错误样本集中的不同类别(例如，财经、体育等)的样本中出现的次数信息以及所述类别的数量；根据所述共现矩阵，通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值，该特征值代表所述字词与不同类别(例如，财经、体育等)的关联性，综合由这两种算法获得的特征值，取关联性排名前x位(例如排名前5)和后y位(例如排名后5)的字词作为关键字词构成关键字词库，其中，x和y是大于或等于1的自然数，并且x等于y或者x不等于y；通过任何适用的已知数据增强算法对所述关键字词库中的关键字词进行数据增强，并且生成新的样本。

根据本公开的实施例，所述通过n-gram模型从所述标注错误样本集中提取字词包括：通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。在该实施例中，通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取一个字、两个字和三个字的字词。

本公开的上述实施例，对于训练集中标记样本不均衡的问题，使用主动学习算法与数据增强算法，分析混淆矩阵中分类器判断不准的样本，针对不均衡类别和分类器预测错误样本，使用TF-IDF和BM25算法选择贡献度高的关键文本特征，对特定类别和样本进行精确数据增强，增加样本数量，经过自动标注和人工标注后加入训练集，改善标记样本少的问题，提升模型的泛化能力，并且定向提升模型在真实业务场景中的分类效果。本公开实施例还提供一种用于文本分类的训练集的优化装置。

可以理解的是，本公开实施例提供的用于文本分类的训练集的优化装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

本实施例公开一种用于文本分类的训练集的优化装置。该装置用于执行上述方法实施例中的步骤。

参照图3，图3是根据一示例性实施例示出的一种用于文本分类的训练集的优化装置100的框图。如图3所示，所述用于文本分类的训练集的优化装置100包括获取单元101、第一更正单元102、训练单元103、预测单元104、生成单元105、第二更正单元106和更新单元107。获取单元101被配置为获取用于文本分类的训练集。第一更正单元102被配置为在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集。训练单元103被配置为根据所述第二初始训练子集，训练文本分类模型。预测单元104被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果。生成单元105被配置为根据所述预测结果，生成标注错误样本集。第二更正单元106被配置为从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。更新单元107被配置为利用所述正确标注样本更新所述训练集。

另一方面，所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集：通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。

又一方面，所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果：根据所述训练后的文本分类模型，构建用于文本分类的分类器；通过所述分类器对所述训练集中的样本进行预测以获得预测结果。

又一方面，述生成单元被配置为采用如下方式根据所述预测结果，生成标注错误样本集：根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。

又一方面，所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本：对所述标注错误样本集中的样本进行分词并形成词表；确定所述词表中的每个词的特征值，根据所述特征值，取排名前k位的词作为关键词并构成关键词库，其中，k是大于或等于1的自然数；根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键标注错误样本；对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。

参见图4，图4是根据一示例性实施例示出的另一种用于文本分类的训练集的优化装置的框图。如图4所示，所述装置200还包括：数据增强单元108，被配置为从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本；增加单元109，被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

又一方面，所述数据增强单元被配置为采用如下方式从所述标注错误样本集中选取关键字词，对所述关键字词进行数据增强并生成新的样本：通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的字词作为关键字词并构成关键字词库，其中，x和y是大于或等于1的自然数，并且x等于y或者x不等于y；对所述关键字词库中的关键字词进行数据增强，并且生成新的样本。

又一方面，所述通过n-gram模型从所述标注错误样本集中提取字词包括：通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。

可以理解的是，关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例还提供一种用于文本分类的训练集的优化装置，图5是根据一示例性实施例示出的又一种用于文本分类的训练集的优化装置400的框图。例如，装置400可以是服务器。

参照图5，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400的一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，3G或4G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例涉及的用于文本分类的训练集的优化方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种用于文本分类的训练集的优化方法，其特征在于，所述方法包括：

获取用于文本分类的训练集；

在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集；

根据所述第二初始训练子集，训练文本分类模型；

通过训练后的文本分类模型，对所述训练集中的样本进行预测，以获得预测结果；

根据所述预测结果，生成标注错误样本集；

采用文本特征挖掘算法，从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本；

利用所述正确标注样本更新所述训练集；以及，

通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；

根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；

根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的字词作为关键字词，并构成关键字词库，其中，x和y是大于或等于1的自然数；

对所述关键字词库中的关键字词进行数据增强，并且生成新的样本；

对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

2.根据权利要求1所述的用于文本分类的训练集的优化方法，其特征在于，所述在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集包括：

通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。

3.根据权利要求1所述的用于文本分类的训练集的优化方法，其特征在于，所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括：

根据所述训练后的文本分类模型，构建用于文本分类的分类器；

通过所述分类器对所述训练集中的样本进行预测以获得预测结果。

4.根据权利要求3所述的用于文本分类的训练集的优化方法，其特征在于，所述根据所述预测结果，生成标注错误样本集包括：

根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。

5.根据权利要求4所述的用于文本分类的训练集的优化方法，其特征在于，所述从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本包括：

对所述标注错误样本集中的样本进行分词并形成词表；

确定所述词表中的每个词的特征值，根据所述特征值，取排名前k位的词作为关键词并构成关键词库，其中，k是大于或等于1的自然数；

根据所述关键词库，从所述标注错误样本集中选取含有所述关键词的关键标注错误样本；

对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本。

6.根据权利要求1所述的用于文本分类的训练集的优化方法，其特征在于，所述通过n-gram模型从所述标注错误样本集中提取字词包括：

通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。

7.一种用于文本分类的训练集的优化装置，其特征在于，所述装置包括：

获取单元，被配置为获取用于文本分类的训练集；

第一更正单元，被配置为在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集；

训练单元，被配置为根据所述第二初始训练子集，训练文本分类模型；

预测单元，被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果；

生成单元，被配置为根据所述预测结果，生成标注错误样本集；

第二更正单元，被配置为采用文本特征挖掘算法，从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本；

更新单元，被配置为利用所述正确标注样本更新所述训练集；

数据增强单元，被配置为通过n-gram模型从所述标注错误样本集中提取字词，并形成字词集合；根据所述字词集合，生成所述字词与所述字词所属类别的共现矩阵；根据所述共现矩阵，分别计算所述字词集合中的每个字词的特征值，根据所述特征值，取排名前x位和后y位的字词作为关键字词并构成关键字词库，其中，x和y是大于或等于1的自然数；对所述关键字词库中的关键字词进行数据增强，并且生成新的样本；

增加单元，被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。

8.根据权利要求7所述的用于文本分类的训练集的优化装置，其特征在于，所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行更正，获得第二初始训练子集：通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集，并且对所述第一初始训练子集中存在错误标注的样本进行人工更正，获得第二初始训练子集。

9.根据权利要求7所述的用于文本分类的训练集的优化装置，其特征在于，所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果：

10.根据权利要求9所述的用于文本分类的训练集的优化装置，其特征在于，所述生成单元被配置为采用如下方式根据所述预测结果，生成标注错误样本集：根据所述预测结果的混淆矩阵选择标注错误样本，生成标注错误样本集。

11.根据权利要求10所述的用于文本分类的训练集的优化装置，其特征在于，所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本，并对所述关键标注错误样本的标注进行更正，生成对应的正确标注样本：

对所述标注错误样本集中的样本进行分词并形成词表；

12.根据权利要求7所述的用于文本分类的训练集的优化装置，其特征在于，所述通过n-gram模型从所述标注错误样本集中提取字词包括：通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。

13.一种用于文本分类的训练集的优化装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至6中任一项所述的用于文本分类的训练集的优化方法。

14.一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行权利要求1至6中任一项所述的用于文本分类的训练集的优化方法。