WO2018166499A1

WO2018166499A1 - 文本分类方法、设备和存储介质

Info

Publication number: WO2018166499A1
Application number: PCT/CN2018/079136
Authority: WO
Inventors: 李探; 温旭; 常卓; 闫清岭; 张智敏; 王树伟; 花少勇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-17
Filing date: 2018-03-15
Publication date: 2018-09-20
Also published as: CN108628873A; CN108628873B

Abstract

一种文本分类方法和设备，所述方法包括：获取待分类文本（101）；采用第一分类器对所述待分类文本进行分类，得到第一分类结果（102）；采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果，其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系（103）；基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本（104）。

Description

文本分类方法、设备和存储介质

本申请要求于2017年03月17日提交中国专利局、申请号为201710159632.6、发明名称为“一种文本分类方法、装置和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域中的文本分类技术，尤其涉及一种文本分类方法、设备和存储介质。

发明背景

目前常用的文本分类器主要可以分成两大类：基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累，基于模型的文本分类器主要利用数据挖掘和机器学习的方法模型。在实际的文本分类应用中，无论是用哪种分类器模型经常会出现分类错误的问题，导致分类的准确率和召回率降低；而且在多层次分类中，如果上一级类出现错误直接会影响下面所有子分类的准确性。故如何准确地进行文本分类是解决上述问题的关键。

发明内容

为解决上述技术问题，本申请实施例期望提供一种文本分类方法、设备和存储介质，解决了现有的文本分类方案中存在分类错误的问题，提高了文本分类的准确率，增强了可维护性和可扩展性。

本申请的实施例提供一种文本分类方法，应用于计算设备，所述方法包括：

获取待分类文本；

采用第一分类器对所述待分类文本进行分类，得到第一分类结果；

采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；

基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。

本申请的实施例还提供一种文本分类设备，应用于计算设备，所述文本分类设备包括存储器和处理器，其中：

所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

获取待分类文本；

本申请实施例还提供了一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

附图简要说明

图1为本申请的实施例提供的一种文本分类方法的流程示意图；

图2为本申请的实施例提供的另一种文本分类方法的流程示意图；

图3为本申请的实施例提供的又一种文本分类方法的流程示意图；

图4为本申请的另一实施例提供的一种文本分类方法的流程示意图；

图5为本申请的实施例提供的一种文本分类装置的结构示意图；

图6A为本申请的实施例提供的另一种文本分类装置的结构示意图；

图6B为本申请的实施例提供的一种文本分类方法的适用的***结构示意图；

图7为本申请的实施例提供的一种文本分类设备的结构示意图；

图8为本申请的实施例提供的一种文本分类设备的硬件的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

可以采用以下两种方案来解决上述如何准确地进行文本分类的问题：一种方案是加入一系列的人工规则，修改分类错误的分类，但是规则通常不能覆盖所有的情况，而且还可能造成误修改；另一种方案是修改分类器模型，包括调整每个类别各自的特征，或修改分类器模型的参数。但是上述两种解决方案仍然存在无法准确修改分类的问题，还是会降低分类的准确率，可维护性与可扩展性变差。

本申请的实例的一种文本分类方法，可以应用于计算设备，其中，计算设备可以包括终端设备或服务器；参照图1所示，该方法包括以下步骤：

步骤101、获取待分类文本。

具体的，步骤101获取待分类文本可以是由文本分类装置来实现的；文本分类装置可以是能够实现对文本信息进行分类的设备，例如可以是能够对文本信息进行分类的移动终端或服务器。待分类文本可以是预先已经存储在移动终端或服务器中的一些需要对其进行分类处理的文本信息，获取待分类文本的一种可行的实现方案如下。用户需要对某些文本信息进行分类时，可以给移动终端或服务器发送文本信息获取指令，该获取指令中具有标识信息，移动终端或服务器接收到用户发送的获取指令后，可以从自身存储的文本信息中获取该标识信息对应的文本信息得到待分类文本信息；或者，另一种可行的实现方案是，用户需要对某些文本信息进行分类时可以给移动终端或服务器发送文本信息获取指令，该获取指令中具有标识信息，移动终端或服务器接收到用户发送的获取指令后，可以转发该获取指令给服务器，并从服务器处获取该标识信息对应的文本信息，最终得到待分类文本信息。

这里，所述文本可以为新闻、帖子、文章、产品说明(例如应用程序的简介)等，在实现的过程中只要需要进行分类的都可以作为本实施例中的文本。

步骤102、采用第一分类器对待分类文本进行分类，得到第一分类结果。

具体的，步骤102采用第一分类器对待分类文本进行分类，得到第一分类结果可以是由文本分类装置来实现的。第一分类结果可以是对待分类文本进行分类后得到的分类结果的信息，第一分类结果中可以包括至少两种分类信息。

以对包含多个文本或文章的文章R进行分类，且文章R中包括两个类别(A类别和B类别)为例进行说明，获取到文章R后，采用第一分类器对文章R进行分类后可以得到两组分类，第一组分类的文本的类别均为A，第二组分类的文本中包括类别A和类别B的文本；其中，第二组分类中的类别为A的文本为A _b，说明此次分类中将本应该划分到A类别中的文本A _b错误的与B类别的文本划分到了第二组分类中，出现了分类不正确的问题。

应理解，上述实施例中的文本分类是将相同类别的文本分到一个组中，该组的类别可以根据该组中的文本类别确定，当该组中包括至少两个类别的文本时，则视为该组分类不正确。且因为该组包括至少两个类别的文本，该组的类别无论根据组中的哪个文本类别确定，都是不正确的。

步骤103、采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果。

其中，第二分类器的分类参数与第一分类器的分类参数具有关联关系。

第一分类器的参数(即第一分类参数)是根据待分类文本中的文本的特征信息生成的。

第二分类器的参数(即第二分类参数)是根据进行第一次分类后存在错误的文本的特征信息设置的。

具体的，步骤103采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果可以是由文本分类装置来实现的；第一分类器的分类参数与第二分类器的分类参数在设置的时候，第一分类器的分类参数的设置原则和第二分类器的分类参数的设置原则之间具有一定的关联关系。

第二分类结果中可以包括至少两种分类信息，这至少两种分类信息中的一种类别与第一分类结果中的一种类别相同。例如，第二分类结果可以是对文章R进行分类后得到的类别包括类别A和类别B的第二组分类的文本进行再分类后得到的。采用第二分类器对第二组分类中的文本进行分类，分类后可以得到两组分类，第三组分类中的文本的类别是A，第四组分类中的文本的类别为B；第三组分类中的文本的类别与第一组分类中的文本的类别相同，均为A类别；而且，剩下的一组分类中的文本的类别均为B，不存在一组分类中包括有多个类别的文本的情况。而且，此次分类后的第二分类结果可以将第一分类结果中的错误分类的文本再分出来，最终形成的文本的分类信息均是正确的。

步骤104、基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

具体的，步骤104基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本可以是由文本分类装置来实现的。得到第一分类结果和第二分类结果后，可以查找第一分类结果和第二分类结果中共有的类别，然后将共有类别的文本合并为一个文本，最终得到目标文本。其中，目标文本中的每一个文本都属于同一类别。

本申请的实施例所提供的文本分类方法，获取待分类文本，采用第一分类器对待分类文本进行分类，得到第一分类结果，采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果，第二分类器的分类参数与第一分类器的分类参数具有关联关系，基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本；这样，在对待分类文本进行分类之后，可以对分类之后存在错误分类的文本继续进行分类，经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的，从而解决了现有的文本分类方案中存在分类错误的问题，提高了文本分类的准确率，增强了可维护性和可扩展性。

基于前述实施例，本申请的实施例提供一种文本分类方法，该方法包括以下步骤：

步骤201、文本分类装置获取待分类文本。

步骤202、文本分类装置采用第一分类器对待分类文本进行分类，得到第一分类结果。

具体的，采用第一分类器对待分类文本进行分类可以是基于预先设置的分类参数，并采用第一分类器对待分类文本进行分类。预先设置的分类参数可以是根据待分类文本的特征信息生成的，待分类文本的特征信息可以是能够表征待分类文本的属性信息的参数，例如可以包括工具、乐器等。

第一分类器可以是基于先验规则的文本分类器，其分类规则需要靠人工挖掘或先验知识的积累来得到；也可以是基于模型的文本分类器，具体包括利用数据挖掘和机器学习的各种方法模型，例如最近邻分类器、逻辑回归分类器、决策树分类器、朴素贝叶斯分类器、支持向量机分类器、人工神经网络分类器等。

步骤203、文本分类装置判断第一分类结果中是否存在分类不正确的文本。

具体的，判断第一分类结果中是否存在分类不正确的文本可以是通过比较归为一个类别中的所有文本的类别是否相同来实现的；如果归为一个类别的文本中存在至少两个类别，说明这个类别中存在分类不正确的文本。

步骤204、若第一分类结果中存在分类不正确的文本，文本分类装置获取第一分类结果中分类不正确的文本。

具体的，若待分类的文本为文章R，采用第一分类器对文章R进行分类后可以得到两组分类，第一组分类的文本的类别均是A，第二组分类的文本的类别中包括类别是A和类别是B的文本；所以第二组分类中存在分类不正确的文本，因此需要获取第一分类结果中的第二组分类对应的文本，即获取类别中包括类别是A和类别是B的分组对应的文本。

步骤205、文本分类装置获取第一分类结果中分类不正确的文本的特征信息。

具体的，在获取到第一分类结果中分类不正确的文本后，可以获取对应的文本的特征信息。此处的特征信息的定义与步骤202中关于特征信息的定义是相同的，只不过此处的特征信息是第一分类结果中分类不正确的文本的属性信息的参数。例如，可以是第二组分类对应的文本的属性信息的参数。

步骤206、文本分类装置基于第一分类结果中分类不正确的文本的特征信息，设置分类参数。

具体的，可以根据已经获取到的第一分类结果中分类不正确的文本的特征信息来设置第一分类器中的分类参数，最终实现对第一分类结果中分类不正确的文本的分类。

步骤207、文本分类装置基于分类参数并采用第二分类器，对第一分类结果中分类不正确的文本进行分类得到第二分类结果。

其中，第一分类器的分类参数是根据待分类文本中的文本的特征信息生成的。

具体的，第一分类器的分类参数与第二分类器的分类参数不同。第一分类器所采用的分类方法与第二分类器所采用的分类方法相同。

或者，第一分类器所采用的分类方法与第二分类器所采用的分类方法不同。

其中，第二分类器可以是基于先验规则的文本分类器，其分类规则需要靠人工挖掘或先验知识的积累来得到；也可以是基于模型的文本分类器，具体包括利用数据挖掘和机器学习的各种方法模型，例如最近邻分类器、逻辑回归分类器、决策树分类器、朴素贝叶斯分类器、支持向量机分类器、人工神经网络分类器等。

例如第一分类器和第二分类器采用的分类方法都是逻辑回归分类器，在如图3中所示在对待分类文章R(快报文章)进行分类时可以先采用逻辑回归分类器并基于设置的第一分类参数(原分类模型)对文章R进行分类，得到两组分类结果，第一组分类中的文本的类别都是A(分类正确)，第二组分类中文本的类别包括A和B(分类错误)，将本应该分到第一组中的文本错误到分到了第二组中，并将其类别归类为B(即第二组分类)；明显分类结果中存在错误分类的是第二组分类；之后，继续获取第二组分类对应的文本，采用逻辑回归分类器并基于设置的第二分类参数(新增分类模型)对包括有类别A和类别B的文本的第二组进行再分类，得到两组分类结果，第三组分类中的文本的类别为A(分类正确)，第四组分类中文本的类别为B(分类正确)。此时，分类结果中的文本的类别均是正确的。其中第一分类参数是根据文章R的特征信息设置的，第二分类参数是根据第二组分类对应的文本的特征信息设置的。因为，第一次采用逻辑回归分类器进行分类时，第一分类参数是根据所有文本即文章R的特征信息设置的，因此第一分类结果中存在文本错误分类的问题；第二次采用逻辑回归分类器进行分类时，第二分类参数是根据进行第一次分类后存在错误的文本(即包括有类别A和类别B的文本)的特征信息设置的。因为，第二分类参数的设置更精准，所以经过第二次分类后得到的文本的分类结果都是正确的。

步骤208、文本分类装置基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

具体的，在得到第一分类结果和第二分类结果后，可以比较第一分类结果和第二分类结果，并基于比较结果对第一分类结果对应的文本和第二分类结果对应的文本进行筛选和组成，最终得到目标文本。

需要说明的是，本实施例中与其它实施例中相同步骤或者概念的解释，可以参照其它实施例中的描述。

基于前述实施例，本申请的实施例提供一种文本分类方法，参照图4所示，该方法包括以下步骤：

步骤301、文本分类装置获取待分类文本。

步骤302、文本分类装置采用第一分类器对待分类文本进行分类，得到第一分类结果。

步骤303、文本分类装置判断第一分类结果中是否存在分类不正确的文本。

步骤304、若第一分类结果中存在分类不正确的文本，文本分类装置获取第一分类结果中分类不正确的文本。

步骤305、文本分类装置获取第一分类结果中分类不正确的文本的特征信息。

步骤306、文本分类装置基于第一分类结果中分类不正确的文本的特征信息，设置分类参数。

步骤307、文本分类装置基于分类参数并采用第二分类器，对第一分类结果中分类不正确的文本进行分类得到第二分类结果。

需要说明的是，第一分类器的分类参数与第二分类器的分类参数不同。第一分类器所采用的分类方法与第二分类器所采用的分类方法相同。

例如第一分类器采用的分类方法是逻辑回归分类器，第二分类器采用的分类方法是决策树分类器，在对待分类文章R进行分类时可以先采用逻辑回归分类器并基于设置的第一分类参数对文章R进行分类，得到三组分类结果，第一组分类中的文本的类别都是A，第二组分类中文本的类别包括A、B和C，第三组分类中的文本的类别都是C；明显分类结果中存在错误分类的是第二组分类；之后，继续获取第二组分类对应的文本，采用决策树分类器并基于设置的第二分类参数对包括有类别A、类别B和类别C的文本进行分类，得到三组分类结果，第三组分类中的文本的类别为A，第四组分类中文本的类别为B，第五组分类中文本的类别为C。此时，分类结果中的文本的类别均是正确的。其中第一分类参数是根据文章R的特征信息设置的，第二分类参数是根据第二组分类(即包括有类别A、类别B和类别C的分类)对应的文本的特征信息设置的。因为，第一次采用逻辑回归分类器进行分类时第一分类参数是根据所有文本即文章R的特征信息设置的，因此第一分类结果中存在文本错误分类的问题；第二次采用决策树分类器进行分类时第二分类参数是根据进行第一次分类后存在错误的文本(即包括有类别A、类别B和类别C的文本)设置的。因为，第二分类参数的设置更精准，所以经过第二次分类后得到的文本的分类结果都是正确的。

步骤308、文本分类装置获取第一分类结果中分类正确的文本的类别，得到第一类别。

其中，第一类别中包括至少一种类别。

具体的，可以获取第一分类结果中分类正确的文本的类别为类别A和类别C，即第一类别可以是类别A和类别C。

步骤309、文本分类装置基于第一类别和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

具体的，步骤309基于第一类别和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本可以通过以下方式来实现：

步骤309a、文本分类装置基于第二分类结果，获取第二分类结果对应的文本中类别为第一类别的文本，得到第一文本集合。

具体的，分析第二分类结果从第二分类结果对应的文本中获取文本的类别为第一类别的文本，即可以是从第三组分类、第四组分类和第五组分类对应的文本中获取类别为A和C的文本，最终获取到的是第三组分类和第五组分类对应的文本得到第一文本集合。其中，第一文本集合中至少包括两个文本。在本实施例中第一文本集合中包括两种类别(如，A和C)的文本。

步骤309b、文本分类装置将第一文本集合和一个分类结果中分类正确的文本中属于同一类别的文本结合，得到第一目标文本。

具体的，将得到第一文本集合中的类别为A的文本与第一组分类对应的文本结合，同时将第一文本集合中的类别为C的文本与第三组分类对应的文本结合，最终得到第一目标文本。需要说明的是，第一目标文本中包括至少一种类别的文本。

其中，目标文本包括第一目标文本和第二目标文本。

步骤309c、文本分类装置获取第二分类结果对应的文本中类别为除第一类别集合之外的文本，得到第二目标文本。

具体的，第二分类结果对应的文本中类别为除第一类别集合之外的文本为第四组分类(即第二分类结果中类别为B的分类)对应的文本，此时该文本即为第二目标文本。

本申请中的文本分类方法最终得到的文本的分类信息都是正确的，即使需要分类的文本包括有多层次的分类，因为已经可以保证第一层次分类后的分类信息是准确的，即使后面还有更多层次的分类，只要是按照本申请中的文本分类方法进行分类的都可以保证最终分类结果的准确性。

本申请的实施例提供一种文本分类装置4，所述装置应用于图1～2、4对应的实施例提供的一种文本分类方法中，参照图5所示，该装置包括：第一获取单元41、第一分类单元42、第二分类单元43和处理单元44，其中：

第一获取单元41，用于获取待分类文本。

第一分类单元42，用于采用第一分类器对待分类文本进行分类，得到第一分类结果。

第二分类单元43，用于采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果。

处理单元44，用于基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

本申请的实施例所提供的文本分类装置，获取待分类文本，采用第一分类器对待分类文本进行分类，得到第一分类结果，采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果，第二分类器的分类参数与第一分类器的分类参数具有关联关系，基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本；这样，在对待分类文本进行分类之后，可以对分类之后存在错误分类的文本继续进行分类，经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的，从而解决了现有的文本分类方案中存在分类错误的问题，提高了文本分类的准确率，增强了可维护性和可扩展性。

进一步，参照图6A所示，该装置还包括：判断单元45和第二获取单元46，其中：

判断单元45，用于判断第一分类结果中是否存在分类不正确的文本。

第二获取单元46，用于若第一分类结果中存在分类不正确的文本，获取第一分类结果中分类不正确的文本。

具体的，参照图6A所示，第二分类单元43包括：第一获取模块431、设置模块432和分类模块433，其中：

第一获取模块431，用于获取第一分类结果中分类不正确的文本的特征信息。

设置模块432，用于基于第一分类结果中分类不正确的文本的特征信息，设置分类参数。

分类模块433，用于基于分类参数并采用第二分类器，对第一分类结果中分类不正确的文本进行分类得到第二分类结果。

具体的，参照图6A所示，处理单元44包括：第二获取模块441和处理模块442，其中：

第二获取模块441，用于获取第一分类结果中分类正确的文本的类别，得到第一类别。

其中，第一类别中包括至少一种类别。

处理模块442，用于基于第一类别和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

进一步，处理模块442具体用于执行以下步骤：

基于第二分类结果，获取第二分类结果对应的文本中类别为第一类别的文本，得到第一文本集合。

将第一文本集合和第一分类结果中分类正确的文本中属于同一类别的文本结合，得到第一目标文本。

获取第二分类结果对应的文本中类别为除第一类别集合之外的文本，得到第二目标文本。

其中，目标文本包括第一目标文本和第二目标文本。

具体的，第一分类器的分类参数与第二分类器的分类参数不同。

第一分类器所采用的分类方法与第二分类器所采用的分类方法相同。

需要说明的是，本实施例中各个单元和模块之间的交互过程，可以参照图1～2、4对应的实施例提供的一种文本分类方法中的交互过程，此处不再赘述。

基于前述实施例，本申请的实施例提供一种文本分类设备5，可以应用于图1～2、4对应的实施例提供的一种文本分类方法中，参照图7所示，该设备包括：存储器51和处理器52，其中：

存储器51中存储可被所述处理器52执行的指令，当执行所述指令时，所述处理器52用于：

存储待分类文本；采用第一分类器对待分类文本进行分类，得到第一分类结果；采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，第二分类器的分类参数与第一分类器的分类参数具有关联关系；基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。

需要说明的是，本实施例中存储器与处理器之间的交互过程，可以参照图1～2、4对应的实施例提供的一种文本分类方法中的交互过程，此处不再赘述。

图6B示出了本申请实施例提供的一种文本分类方法适用的***600B结构示意图。该***600B至少包括终端设备601，文本服务器602以及网络603，该***还可以包括资源服务器604。

其中，终端设备601是指具有数据计算处理功能的终端设备601，包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑等。这些终端设备601上都安装有操作***，包括但不限于：Android操作***、Symbian操作***、Windows mobile操作***、以及苹果iPhone OS操作***等等。终端设备601安装有应用程序(如，新闻APP或阅读PC应用客户端)，该应用程序通过网络603与文本服务器602中安装有的应用服务器软件(如与新闻APP或阅读PC应用客户端对应的应用服务器软件)进行信息交互(如，发送文本获取请求至文本服务器602，接受文本服务器602发送的文本信息等)。

文本服务器602中安装有文本应用服务器软件，该文本应用服务器软件通过网络603为安装在终端设备601中的应用程序提供相应的文本资源(如，文本信息等)。

终端设备601可以接收用户发送的获取指令或查看指令(如，获取新闻文本指令或查看新闻文本指令)，且获取指令或查看指令携带有标识信息(如，文本标识信息)，终端设备601响应于获取指令或查看指令，向文本服务器602发送获取请求或查看请求，该获取请求或查看请求携带标识信息(如，文本标识信息)，还可以携带用户标识信息(如，用户ID)，文本服务器602响应于获取请求或查看请求，向终端设备601返回待分类文本(如，多个不同种类的新闻待分类文本)，终端设备601接收到待分类文本并将待分类文本存储在本地终端设备601中，终端设备601采用存储在本地终端设备601中的第一分类器(如，逻辑回归分类器)对待分类文本进行分类，得到第一分类结果(如，A类别和B类别，其中A类别可以是娱乐新闻，B类别可以是国际新闻)；终端设备601采用存储在本地终端设备601中的第二分类器(如，逻辑回归分类器)对第一分类结果中分类不正确的文本进行分类(如，经过终端设备601对第一分类结果进行判断，确定出B类别的文本中存在分类错误的文本，那么终端设备601中的第二分类器对B类别的文本进行分类)，得到第二分类结果(如，A类别和B类别，其中A类别可以是娱乐新闻，B类别可以是国际新闻)，其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；终端设备601基于第一分类结果和第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本(如，终端设备601将第一分类结果中的A类别的文本与第二分类结果中的A类别的文本，进行合并处理，得到最终的A类别的文本和第二分类结果中的B类别的文本)，终端设备601在得到目标文本(即已经正确分类的文本)后，响应于获取指令或查看指令，展示该目标文本的信息(如，新闻标题)，该目标文本根据最终分类结果进行展示(如，在A类别娱乐新闻中展示A类别娱乐新闻的标题，在B类别国际新闻中展示B类别国际新闻的标题)，以便用户根据自己的需求方便地查看或获取文本。

文本服务器602可以通过网络603向资源服务器604(如，用于存储各种种类文本的服务器)发送获取请求，该获取请求携带标识信息(如，文本标识信息)，资源服务器604响应于获取请求，返回多个待分类文本(如，多个娱乐新闻文本、多个国际新闻文本以及多个军事新闻文本)，文本服务器602将获取到的多个待分类文本(如，多个娱乐新闻文本、多个国际新闻文本以及多个军事新闻文本)存储在本地文本服务器602中，文本服务器602采用存储在本地文本服务器602中的第一分类器(如，逻辑回归分类器)对待分类文本进行分类，得到第一分类结果(如，A类别、B类别和C类别，其中A类别可以是娱乐新闻，B类别可以是国际新闻，C类别可以是军事新闻文本)；文本服务器602采用存储在本地文本服务器602中的第二分类器(如，逻辑回归分类器)对第一分类结果中分类不正确的文本进行分类(如，经过文本服务器602对第一分类结果进行判断，确定出B类别的文本中存在分类错误的文本，那么文本服务器602中的第二分类器对B类别的文本进行分类)，得到第二分类结果(如，A类别、B类别和C类别，其中A类别可以是娱乐新闻，B类别可以是国际新闻，C类别可以是军事新闻文本)，其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；文本服务器602基于第一分类结果和第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本(如，文本服务器602将第一分类结果中的A类别的文本和C类别的文本与第二分类结果中的A类别的文本和C类别的文本，进行合并处理，得到最终的A类别的文本、C类别的文本以及第二分类结果中的B类别的文本)，文本服务器602在得到目标文本(即已经正确分类的文本)后，接收到终端设备101发送的获取请求，该获取请求携带标识信息(如，文本标识信息)，文本服务器602响应于该获取请求向终端设备101返回目标文本的信息(如，已经正确分类的文本的标题以及类别)，终端设备101接收到该目标文本的信息后，响应于用户的获取指令，根据目标文本的类别进行展示文本的信息(如，在娱乐新闻类别中展示娱乐新闻标题，在国际新闻类别中展示国际新闻标题，在军事新闻类别中展示军事新闻标题)，以便用户能够根据需求进行查看。

其中，资源服务器604中安装有资源应用服务器软件，该资源应用服务器软件通过网络603与文本服务器602中的文本应用服务器软件进行信息交互，以提供相应的文本资源(如，文本信息等)。

网络103可以是有线网络，也可以是无线网络。

本申请的实施例所提供的文本分类设备，获取待分类文本，采用第一分类器对待分类文本进行分类，得到第一分类结果，采用第二分类器对第一分类结果中分类不正确的文本进行分类，得到第二分类结果，第二分类器的分类参数与第一分类器的分类参数具有关联关系，基于第一分类结果和第二分类结果，对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本；这样，在对待分类文本进行分类之后，可以对分类之后存在错误分类的文本继续进行分类，经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的，从而解决了现有的文本分类方案中存在分类错误的问题，提高了文本分类的准确率，增强了可维护性和可扩展性。

在实际应用中，所述第一获取单元41、第一分类单元42、第二分类单元43、处理单元44、判断单元45、第二获取单元46、第一获取模块431、设置模块432、分类模块433、第二获取模块441和处理模块442均可由位于无线数据发送设备中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

图8示出了文本分类设备5的具体硬件的组成结构图800。如图8所示，该文本分类设备5除了包括一个或者多个处理器(CPU)802和存储器806，还可以包括通信模块804、用户接口810，以及用于互联这些组件的通信总线808。

处理器802可通过通信模块804接收和发送数据以实现网络通信和/或本地通信。

用户接口810包括一个或多个输出设备812，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口810也包括一个或多个输入设备814，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器806可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器806存储处理器802可执行的指令集，包括：

操作***816，包括用于处理各种基本***服务和用于执行硬件相关任务的程序；

应用818，包括用于视频播放的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图5所示的文本分类装置4中的部分或全部模块，各模块41-44中的至少一个模块可以存储有机器可执行指令，处理器802通过执行存储器806中各模块41-44中至少一个模块中的机器可执行指令，进而能够实现上述各模块41-44中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各实例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述任何一种方法实例。

图5中的模块对应的机器可读指令可以使计算机上操作的操作***等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

一种文本分类方法，其特征在于，应用于计算设备，所述方法包括：

获取待分类文本；

采用第一分类器对所述待分类文本进行分类，得到第一分类结果；

采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；

基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述第一分类结果中是否存在分类不正确的文本；

若所述第一分类结果中存在分类不正确的文本，获取所述第一分类结果中分类不正确的文本。
根据权利要求1所述的方法，其特征在于，所述采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果，包括：

获取所述第一分类结果中分类不正确的文本的特征信息；

基于所述第一分类结果中分类不正确的文本的特征信息，设置分类参数；

基于所述分类参数并采用所述第二分类器，对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果；其中，所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
根据权利要求1所述的方法，其特征在于，所述基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本，包括：

获取所述第一分类结果中分类正确的文本的类别，得到第一类别；其中，所述第一类别中包括至少一种类别；

基于所述第一类别和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
根据权利要求4所述的方法，其特征在于，所述基于所述第一类别和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理，得到所述目标文本，包括：

基于所述第二分类结果，获取所述第二分类结果对应的文本中类别为所述第一类别的文本，得到第一文本集合；

将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合，得到第一目标文本；

获取所述第二分类结果对应的文本中类别为除所述第一类别集合之外的文本，得到第二目标文本；其中，所述目标文本包括第一目标文本和第二目标文本。
根据权利要求1所述的方法，其特征在于，

所述第一分类器的分类参数与所述第二分类器的分类参数不同；

所述第二分类器的分类参数是根据进行第一次分类后存在错误的文本的特征信息设置的。
根据权利要求1所述的方法，其特征在于，所述第一分类器所采用的分类方法与所述第二分类器所采用的分类方法相同；

或者，所述第一分类器所采用的分类方法与所述第二分类器所采用的分类方法不同。
一种文本分类设备，其特征在于，应用于计算设备，所述文本分类设备包括存储器和处理器，其中：

所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

获取待分类文本；

采用第一分类器对所述待分类文本进行分类，得到第一分类结果；

采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；

基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
根据权利要求8所述的设备，其特征在于，所述处理器进一步用于：

判断所述第一分类结果中是否存在分类不正确的文本；

若所述第一分类结果中存在分类不正确的文本，获取所述第一分类结果中分类不正确的文本。
根据权利要求9所述的设备，其特征在于，所述处理器进一步用于：

获取所述第一分类结果中分类不正确的文本的特征信息；

基于所述第一分类结果中分类不正确的文本的特征信息，设置分类参数；

基于所述分类参数并采用所述第二分类器，对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果；其中，所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
根据权利要求8所述的设备，其特征在于，所述处理器进一步用于：

获取所述第一分类结果中分类正确的文本的类别，得到第一类别；其中，所述第一类别中包括至少一种类别；

基于所述第一类别和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
根据权利要求11所述的设备，其特征在于，所述处理器进一步用于：

基于所述第二分类结果，获取所述第二分类结果对应的文本中类别为所述第一类别的文本，得到第一文本集合；

将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合，得到第一目标文本；

获取所述第二分类结果对应的文本中类别为除所述第一类别集合之外的文本，得到第二目标文本；其中，所述目标文本包括第一目标文本和第二目标文本。
根据权利要求8所述的设备，其特征在于，所述第一分类器的分类参数与所述第二分类器的分类参数不同；

所述第二分类器的分类参数是根据进行第一次分类后存在错误的文本的特征信息设置的。
根据权利要求9所述的设备，其特征在于，所述第一分类器所采用的分类方法与所述第二分类器所采用的分类方法相同；

或者，所述第一分类器所采用的分类方法与所述第二分类器所采用的分类方法不同。
一种非易失性计算机可读存储介质，存储有计算机程序，该计算机程序用于执行所述权利要求1至7任一项所述的方法。