CN106909654A

CN106909654A - 一种基于新闻文本信息的多级分类***及方法

Info

Publication number: CN106909654A
Application number: CN201710103541.0A
Authority: CN
Inventors: 赵毅强
Original assignee: Beijing Time Ltd By Share Ltd
Current assignee: Beijing time Ltd.
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-06-30
Anticipated expiration: 2037-02-24
Also published as: CN106909654B

Abstract

本发明公开了一种基于新闻文本信息的多级分类***及方法，涉及文件分类技术领域。其中，该***包括：训练模块，用于针对新闻文本信息的各级分类，通过多种机器学***衡导致的分类结果不准确的问题，并且有效提高了分类的准确性，提升了分类效率。

Description

一种基于新闻文本信息的多级分类***及方法

技术领域

本发明涉及文件分类技术领域，具体涉及一种基于新闻文本信息的多级分类***及方法。

背景技术

随着互联网时代的发展，网络资源越来越丰富，种类也越来越多。为了能够有效检索并利用网络上的各种资源，对上述网络资源进行准确而全面的分类显得尤为重要。随着机器学习算法的出现和发展，越来越多的人们将机器学习算法应用到了新闻文本信息分类方法中。

但是，发明人在实现本发明的过程中，发现在现有技术中至少存在如下问题：在许多具体应用场景下，因为各种各样的原因，会出现样本数据分布不平衡的情况。在遇到不平衡数据时，现有技术中采用机器学***衡，导致机器学习算法过多地关注多数类样本，而使少数类样本无法被准确识别，从而从整体上降低了这些新闻文本信息分类方法的准确率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于新闻文本信息的多级分类***和相应的方法。

根据本发明的一个方面，提供了一种基于新闻文本信息的多级分类***，包括：训练模块，用于针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型；多级分类模块，用于根据训练模块确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型；结果确定模块，用于将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

根据本发明的另一方面，提供了一种基于新闻文本信息的多级分类方法，包括：针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型；根据各级分类所对应的分类器的数量和类型，配置相应的多级分类模型；将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

由此可见，本发明提供了一种基于新闻文本信息的多级分类***及方法，通过构建一个多层级的新闻文本信息分类***框架，并在每个层级根据新闻文本信息类型配置不同的多级分类器，有针对性的解决了样本数据不平衡导致的分类结果不准确的问题，并且有效提高了新闻文本信息分类的准确性，提升了新闻文本信息分类效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一提供的一种基于新闻文本信息的多级分类***的结构示意图；

图2为本发明实施例二提供的一种基于新闻文本信息的多级分类***的结构示意图；

图3为本发明实施例三提供的一种基于新闻文本信息的多级分类方法的流程图；

图4为本发明实施例四提供的一种基于新闻文本信息的多级分类方法的流程图；

图5为本发明实施例二提供的一种基于新闻文本信息的多级分类***的工作流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供了一种基于新闻文本信息的多级分类***及方法，至少能够解决现有技术中因为数据不平衡导致的新闻文本信息分类不准确的技术问题。

实施例一

图1示出了本发明提供的一种基于新闻文本信息的多级分类***，该***包括：训练模块110、多级分类模块120和结果确定模块130。

训练模块110，用于针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型。

在新闻文本信息分类过程中，根据新闻文本信息内容，可以将不同的新闻文本信息归入不同类别。为了使新闻文本信息的类别准确且精细，可以采用多层级的分类体系。该多层级的分类体系可以是根据类别的抽象程度依次递增的，也可以是根据类别的抽象程度依次递减的。为了方便分类，且符合习惯，本实施例采用抽象程度依次递减的三级分类体系，例如，“英超联赛”一词的一级类别为“体育”，二级类别为“国际足球”，三级类别为“英超联赛”。对于分类体系的层级和分级依据，本发明不做具体限定，本领域技术人员可以根据实际情况灵活设定。

在新闻文本信息分类过程中经常会遇到数据不平衡的问题，如果仅采用一种分类算法进行全部数据的分类时，会因为分类算法自身的特性导致该分类算法过多地关注样本中的一部分数据，而使另一部分数据无法被准确识别，从而降低了分类***整体上的分类准确性。为了克服上述问题，本实施例提供了一种多层级的新闻文本信息分类***，而且本实施例在***中的每个层级的每个节点上都设置对应的分类器，这些分类器包括但不限于：根节点分类器、叶节点分类器以及中间节点分类器。在具体应用中，各个节点上的分类器可以采用相同的分类算法，也可以采用不同的分类算法，优选地，是根据不同层级的不同节点所对应的数据特性来选择不同的分类算法。

具体地，在本实施例提供的方案中，需要针对各个层级的各个节点预先设置相应的训练样本集，每个训练样本集中的数据应该包含了对应节点类别数据的全部的或者至少大部分的特征。训练模块110将通过多种分类算法对每一个节点对应的训练样本集进行训练，并为每一个节点选择出最优的分类算法，从而确定各级分类对应的分类器的数量和类型。

为了进一步提高多级分类***的分类准确性，在本实施例中，各种分类算法优选为机器学习算法，其中，上述机器学习算法具体地包括但不限于支持向量机算法、卷积神经网络算法、循环神经网络算法等。不同的算法具有自身不同的优缺点，因此本发明对节点采用的具体机器学习算法不做具体限定，本领域技术人员可以根据实际应用效果进行设定。

多级分类模块120，用于根据各级分类所对应的分类器的数量和类型，配置相应的多级分类模型。

该多级分类模型是一个包含了多种算法的混合模型，其包含了***中所有节点上的分类器所采用的不同分类算法，并且通过配置文件记录了各个分类器之间的连接关系。在本实施例中，多级分类模块120根据训练模块110确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型，并生成记录各个节点分类器信息的配置文件；当待分类新闻文本信息输入多级分类模型后，多级分类模块120会根据获取到的当前节点分类器的输出结果，查询上述配置文件，以确定当前节点分类器的下一级节点分类器。该多级分类模型优选为包括多级节点分类器的树状分类模型。

结果确定模块130，用于将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

具体地，结果确定模块130将获取到的待分类新闻文本信息输入到多级分类模块120中的多级分类模型中，多级分类模块120会根据内置分类器对该待分类新闻文本信息进行识别分类，并将分类结果传递给结果确定模块130，结果确定模块130根据多级分类模块120输出的分类结果确定该待分类新闻文本信息的最终分类结果。

由此可见，本发明提供的一种基于新闻文本信息的多级分类***，通过构建一个多层级的新闻文本信息分类***框架，并在每个层级配置不同的分类器，有针对性地解决了样本数据不平衡导致的分类结果不准确的问题，并且有效提高了新闻文本信息分类的准确性，提升了新闻文本信息分类效率。

实施例二

图2示出了本发明提供的一种基于新闻文本信息的多级分类***，该***包括：训练模块210、评价模块220、多级分类模块230、模型更新模块240和结果确定模块250。

训练模块210，用于针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型。

具体地，训练模块210根据获取到的标注数据生成训练样本集，并提取训练样本集中包含的训练特征词，且为已提取的训练特征词赋予对应的权重；然后训练模块210再根据已提取的训练特征词及其权重生成对应的训练特征向量，根据该训练特征向量得到训练结果以及对应的分类器。其中，可以根据预设的词典进行训练特征词的提取，也可以根据其他规则进行训练特征词的提取，本发明对此不作具体限定。对于为已提取的训练特征词赋予权重的具体方法，本发明也不做具体限定，本领域技术人员可以灵活设置。例如，当待分类新闻文本信息为纯文本文件时，可以采用TF-IDF(Term Frequency–Inverse DocumentFrequency，即词频-逆向文件频率)算法对提取出来的训练特征词赋予对应的权重。

为了进一步提高多级分类***的分类准确性，在本实施例中，各种分类算法优选为机器学习算法，其中，上述机器学习算法具体地包括但不限于支持向量机算法、卷积神经网络算法、以及循环神经网络算法等。不同的算法具有自身不同的优缺点，因此本发明对节点采用的具体机器学习算法不做具体限定，本领域技术人员可以根据实际应用效果进行设定。

评价模块220，用于对训练模块210的训练结果进行评价，根据评价结果对各级分类所对应的分类器的数量和类型进行修改。

为了进一步提高训练模块210确定的分类器的数量和类型的准确性，可以加入评价模块220。评价模块220根据预设的验证集合对训练模块210的训练结果进行评价，并根据评价结果对训练模块210确定的各级分类所对应的分类器的数量和类型进行修改，使所确定的分类器更加适合其所在层级的分类。上述修改包括分类器的删除、新增和/或替换。其中，验证集合是标注数据的一小部分，不参与模型训练，专门用来评估训练好的不同模型，哪个效果更好。

其中，评价模块220不仅可以辅助训练模块210确定合适的分类器，还可以在后续模块运行过程中，对新增的样本集以及新采用的分类算法进行不断的尝试，进而针对每种尝试结果进行评价，从而确定更优的分类器。对于评价模块220采用的具体评价方法，本发明不做具体限定，本领域技术人员可以根据实际情况灵活设置。

多级分类模块230，用于根据训练模块确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型。

在本实施例中，多级分类模块230根据训练模块210确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型，并生成与多级分类模型对应的配置文件；每当获取到当前节点分类器的输出结果时，多级分类模块230通过查询上述配置文件，从而确定当前节点分类器的下一级节点分类器。该配置文件中存储有分别与各个节点分类器相对应的多个配置项，具体而言，每个配置项包含对应的节点分类器的描述信息、该节点分类器所适配的分类类型、和/或该节点分类器的每种输出结果与其下一级节点分类器之间的对应关系。因此，多级分类模块230通过该配置文件就能自动从下一级分类的多个分类器中选择最合适的分类器进行进一步地分类操作。

在本实施例中，多级分类模型为包括多级节点分类器的树状分类模型，该模型包括多个不同类型的节点分类器，例如，可以包括根节点分类器、叶节点分类器和中间节点分类器，其中，叶节点分类器和中间节点分类器的数量通常为多个，例如，可以是一个节点分类器仅对应一个子分类的一对一关系；也可以是多个节点分类器对应同一个子分类的多对一关系，在多对一关系的情况下，可以进一步根据新闻文本信息类型等因素选择不同类型的节点分类器进行该子分类进行识别；还可以是一个节点分类器对应多个子分类的一对多关系，此时多个子分类的分类规则通常是相似的，因此可以用同一个节点分类器进行识别。另外，根节点分类器的数量通常为一个，但也可以是多个不同类型的根节点分类器，从而适应于不同的新闻文本信息类型。以上对多级分类模型结构的描述只是一种举例，并非本发明对多级分类模型结构的限定，本领域技术人员可以根据实际情况采用其他合适的结构。

模型更新模块240，用于根据评价模块220的修改，对已配置的多级分类模型进行更新。

为了使***能够达到最优的新闻文本信息识别效果，评价模块220会对训练模块210确定的分类器数量和类型不断进行修改，因此，模型更新模块240根据评价模块220的修改，对已配置的多级分类模型进行更新，与此同时，模型更新模块240还需要对多级分类模块230生成的配置文件进行相应的更新，并根据更新后的配置文件，对多级分类模型进行相匹配的更新。

为了提高本***的整体运行效率，模型更新模块240对多级分类模型的更新操作可以是热切换类型的更新操作，即可以在不关闭***的情况下，根据评价模块220的修改结果，当新模型效果优于线上模型时，通过热切换操作快速更新***所采用的多级分类模型种类。为了配合模型更新模块240的热切换操作，多级分类模块230生成的配置文件中可以包含多个分别与不同的分类模型对应的元数据，每个元数据记录了对应的分类模型的路径和描述信息(例如模型种类等)，在分类模型更新时同步更新对应的元数据，模型更新模块240在进行模型的热切换更新操作时可以自动根据元数据记录的内容完成更新操作。

结果确定模块250，用于将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

其中，待分类新闻文本信息一般为完整的段落或文章，无法直接输入多级分类模型进行识别，因此在输入多级分类模型前，结果确定模块250需要对待分类新闻文本信息进行一系列预处理操作，将待分类新闻文本信息转换为多级分类模型可以识别的文件类型。常见的预处理操作可以是提取待分类新闻文本信息中包含的文件特征词，为已提取的文件特征词赋予对应的权重，根据已提取的文件特征词及其权重生成对应的文件特征向量等。其中，提取文件特征词和赋予对应权重的规则可以与训练模块210中类似操作的规则一致，在此不再赘述。

另外，在实际应用中，待分类新闻文本信息的来源是多种多样的，因此，结果确定模块250还需要先对待分类新闻文本信息进行一系列的规范化处理，从而方便后续的预处理操作。常见的规范化处理包括按照预设的字体设置规则对待分类新闻文本信息中的字体进行调整、和/或按照预设的过滤规则对待分类新闻文本信息中的词汇进行过滤。

如上所述，在本发明提供的一种基于新闻文本信息的多级分类***中，每个节点都可以设置不同种类和数量的分类器，由此可以根据待分类新闻文本信息的类型和内容有针对性地设置分类器。例如，当待分类新闻文本信息为文本类型时，可以设置对应分类器采用朴素贝叶斯算法等适用于文本分类的算法；当待分类新闻文本信息为图片类型时，可以设置对应的分类器采用深度学习算法等适用于图片分类的算法。由此可见，通过在不同节点设置不同种类和数量的分类器可以对各种类型的待分类新闻文本信息进行有针对性地识别，使得新闻文本信息最终分类结果更加准确。例如，当待分类新闻文本信息包含图片类型时，可以首先获取新闻文本信息中包含的图片信息；然后，通过预设的图片分类模型确定与图片信息相对应的图片分类结果；最后，根据图片分类结果生成与新闻文本信息相对应的文件特征向量，并通过预设的新闻文本信息分类模型确定与文件特征向量相对应的新闻文本信息分类结果。通过该种方式处理包含图片的新闻文本信息时，能够快速准确地对图片进行量化，将数据量庞大、且形式多变的图片量化为对应的图片分类结果，由于该图片分类结果具有数据量小、处理速度快、且分类效果好等诸多优势，因此，利用该图片分类结果确定新闻文本信息类型时也具备处理速度快、分类结果准确等诸多优势。

为了方便进一步理解本发明提供的一种基于新闻文本信息的多级分类***的工作流程，下面结合图5对***的工作流程进行详细阐述：本发明提供的多级分类***大致可以分为两个部分，即“训练部分”和“预测部分”，其中，“训练部分”用于模型的构建和修正，“预测部分”用于利用构建好的分类模型对待分类新闻文本信息进行识别并分类。就“训练部分”而言，具体来说，首先将预先准备好的标注文档输入***，***的训练模块会从标注文档中获取标注数据，利用该标注数据生成训练样本集，并从该训练样本集中提取训练特征词存储到对应的词典中；然后，训练模块利用训练样本集和词典进行模型训练，从而得到不同的分类模型和与每个分类模型对应的元数据和词典；之后，评价模块根据模型的实际应用情况评价并选择最合适的分类模型用于具体的待分类新闻文本信息的识别和分类操作。就“预测部分”而言，具体地，首先将待分类新闻文本信息输入***，结果确定模块会对待分类新闻文本信息进行预处理，并将预处理后的待分类新闻文本信息发送给多级分类模块；多级分类模块会根据其选择的多级分类模型中包含的多级分类算法(例如图中所示的一级分类算法、二级分类算法和三级分类算法)对待分类新闻文本信息进行识别和分类，并将分类结果发送给结果确定模块，与此同时，模型更新模块还会根据评价模块的修改，对多级分类模块采用的多级分类模型进行热切换，以使***保持最佳的工作状态；最后，结果确定模块将多级分类模块发送的多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

由此可见，本发明提供的一种基于新闻文本信息的多级分类***，通过构建一个多层级的新闻文本信息分类***框架，并在每个层级配置不同的分类器，从而有针对性地解决了样本数据不平衡导致的分类结果不准确的问题，并且有效提高了新闻文本信息分类的准确性，提升了新闻文本信息分类效率。另外，本多级分类***还利用机器学习算法进行新闻文本信息分类，并通过评价机制和具有热切换功能的模型更新机制实现对***的实时修正，使***能够保持最佳的工作状态。同时通过预处理操作和规范化操作，使得***能够对不同种类不同来源的待分类新闻文本信息进行识别，进一步提高了***的适应性，拓宽了***的使用范围。

实施例三

图3示出了本发明提供的一种基于新闻文本信息的多级分类方法，该方法包括：

步骤S310：针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型。

具体地，在本实施例提供的方案中，需要针对各个层级的各个节点预先设置相应的训练样本集，每个训练样本集中的数据应该包含了对应节点类别数据的全部的或者至少大部分的特征，然后通过多种分类算法对每一个节点对应的训练样本集进行训练，并为每一个节点选择出最优的分类算法，从而确定各级分类对应的分类器的数量和类型。

步骤S320：根据各级分类所对应的分类器的数量和类型，配置相应的多级分类模型。

其中，多级分类模型是一个包含了多种算法的混合模型，其包含了***中所有节点上的分类器所采用的不同分类算法，并且通过配置文件记录了各个分类器之间的连接关系。在本实施例中，首先根据步骤S310确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型，并生成记录各个节点分类器信息的配置文件；当待分类新闻文本信息输入多级分类模型后，再根据获取到的当前节点分类器的输出结果，查询上述配置文件，以确定当前节点分类器的下一级节点分类器。该多级分类模型优选为包括多级节点分类器的树状分类模型。

步骤S330：将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

具体地，将获取到的待分类新闻文本信息输入到多级分类模型中，该多级分类模型会根据内置分类器对该待分类新闻文本信息进行识别分类，并生成分类结果，最后将输出的该分类结果确定为该待分类新闻文本信息的最终分类结果。

由此可见，本发明提供的一种基于新闻文本信息的多级分类方法，通过构建一个多层级的新闻文本信息分类框架，并在每个层级配置不同的分类器，有针对性地解决了样本数据不平衡导致的分类结果不准确的问题，并且有效提高了新闻文本信息分类的准确性，提升了新闻文本信息分类效率。

实施例四

图4示出了本发明提供的一种基于新闻文本信息的多级分类方法，该方法包括：

步骤S410：针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型。

具体地，根据获取到的标注数据生成训练样本集，提取训练样本集中包含的训练特征词，并为已提取的训练特征词赋予对应的权重；然后再根据已提取的训练特征词及其权重生成对应的训练特征向量，根据该训练特征向量得到训练结果以及对应的分类器。其中，可以根据预设的词典进行训练特征词的提取，也可以根据其他规则进行训练特征词的提取，本发明对此不作具体限定。对于为已提取的训练特征词赋予权重的具体方法，本发明也不做具体限定，本领域技术人员可以灵活设置。例如，当待分类新闻文本信息为纯文本文件时，可以采用TF-IDF(Term Frequency–Inverse Document Frequency，即词频-逆向文件频率)算法对提取出来的训练特征词赋予对应的权重。

为了进一步提高多级分类方法的分类准确性，在本实施例中，各种分类算法优选为机器学习算法，其中，上述机器学习算法具体地包括但不限于支持向量机算法、卷积神经网络算法、循环神经网络算法等。不同的算法具有自身不同的优缺点，因此本发明对节点采用的具体机器学习算法不做具体限定，本领域技术人员可以根据实际应用效果进行设定。

步骤S420：根据各级分类所对应的分类器的数量和类型，配置相应的多级分类模型。

在本实施例中，根据步骤S410确定的各级分类所对应的分类器的数量和类型，配置相应的多级分类模型，并生成与多级分类模型对应的配置文件；每当获取到当前节点分类器的输出结果时，通过查询上述配置文件，从而确定当前节点分类器的下一级节点分类器。该配置文件中存储有分别与各个节点分类器相对应的多个配置项，具体而言，每个配置项包含对应的节点分类器的描述信息、该节点分类器所适配的分类类型、和/或该节点分类器的每种输出结果与其下一级节点分类器之间的对应关系。因此，通过该配置文件就能自动从下一级分类的多个分类器中选择最合适的分类器进行进一步地分类操作。

步骤S430：对训练结果进行评价，根据评价结果对各级分类所对应的分类器的数量和类型进行修改，根据修改结果对已配置的多级分类模型进行更新。

为了进一步提高步骤S410确定的分类器的数量和类型的准确性，可以加入评价步骤，即步骤S430。根据预设的验证集合对步骤S410的训练结果进行评价，并根据评价结果对步骤S410确定的各级分类所对应的分类器的数量和类型进行修改，使所确定的分类器更加适合其所在层级的分类。上述修改包括分类器的删除、新增和/或替换。其中，验证集合是标注数据的一小部分，不参与模型训练，专门用来评估训练好的不同模型，哪个效果更好。

其中，步骤S430不仅可以辅助步骤S410确定合适的分类器，还可以在后续步骤运行过程中，对新增的样本集以及新采用的分类算法进行不断的尝试，进而针对每种尝试结果进行评价，从而确定更优的分类器。对于步骤S430采用的具体评价方法，本发明不做具体限定，本领域技术人员可以根据实际情况灵活设置。

为了使该方法能够达到最优的新闻文本信息识别效果，步骤S430会对步骤S410确定的分类器数量和类型不断进行修改，同时，对已配置的多级分类模型和与模型对应的配置文件进行相应的更新，并根据更新后的配置文件，对多级分类模型进行相匹配的更新。

为了提高本方法的整体运行效率，步骤S430对多级分类模型的更新操作可以是热切换类型的更新操作，即可以在不关闭***的情况下，当新模型效果优于线上模型时，通过热切换操作快速更新***所采用的多级分类模型种类。为了配合该热切换操作，步骤S420生成的配置文件中可以包含多个分别与不同的分类模型对应的元数据，每个元数据记录了对应的分类模型的路径和描述信息(例如模型种类等)，在分类模型更新时同步更新对应的元数据，因此在进行模型的热切换更新操作时可以自动根据元数据记录的内容完成更新操作。

步骤S440：将获取到的待分类新闻文本信息输入多级分类模型进行分类，将多级分类模型的输出结果确定为待分类新闻文本信息的最终分类结果。

其中，待分类新闻文本信息一般为完整的段落或文章，无法直接输入多级分类模型进行识别，因此在输入多级分类模型前，需要对待分类新闻文本信息进行一系列预处理操作，将待分类新闻文本信息转换为多级分类模型可以识别的文件类型。常见的预处理操作可以是提取待分类新闻文本信息中包含的文件特征词，为已提取的文件特征词赋予对应的权重，根据已提取的文件特征词及其权重生成对应的文件特征向量等。其中，提取文件特征词和赋予对应权重的规则可以与步骤S410中类似操作的规则一致，在此不再赘述。

另外，在实际应用中，待分类新闻文本信息的来源是多种多样的，因此，还需要先对待分类新闻文本信息进行一系列的规范化处理，从而方便后续的预处理操作。常见的规范化处理包括按照预设的字体设置规则对待分类新闻文本信息中的字体进行调整、和/或按照预设的过滤规则对待分类新闻文本信息中的词汇进行过滤。

由此可见，本发明提供的一种基于新闻文本信息的多级分类方法，通过构建一个多层级的新闻文本信息分类框架，并在每个层级配置不同的分类器，从而有针对性地解决了样本数据不平衡导致的分类结果不准确的问题，并且有效提高了新闻文本信息分类的准确性，提升了新闻文本信息分类效率。另外，本多级分类方法还利用机器学习算法进行新闻文本信息分类，并通过评价机制和具有热切换功能的模型更新机制实现对分类模型的实时修正，使本方法能够保持最佳的实施状态。同时通过预处理操作和规范化操作，使得本方法能够对不同种类不同来源的待分类新闻文本信息进行识别，进一步提高了本方法的适应性，拓宽了笨方法的使用范围。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于新闻文本信息的多级分类***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种基于新闻文本信息的多级分类***，包括：

训练模块，用于针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型；

多级分类模块，用于根据所述训练模块确定的所述各级分类所对应的分类器的数量和类型，配置相应的多级分类模型；

结果确定模块，用于将获取到的待分类新闻文本信息输入所述多级分类模型进行分类，将所述多级分类模型的输出结果确定为所述待分类新闻文本信息的最终分类结果。

A2.根据A1所述的***，其中，所述***进一步包括：

评价模块，用于对所述训练模块的训练结果进行评价，根据评价结果对所述各级分类所对应的分类器的数量和类型进行修改，所述修改包括：分类器的删除、新增和/或替换；

模型更新模块，用于根据所述评价模块的修改，对已配置的多级分类模型进行更新。

A3.根据A2所述的***，其中，所述多级分类模块进一步用于：生成与所述多级分类模型相对应的配置文件，且所述模型更新模块进一步用于：对所述配置文件进行更新，根据更新后的配置文件更新所述多级分类模型。

A4.根据A1-A3任一所述的***，其中，所述多级分类模型为包括多级节点分类器的树状分类模型，且所述树状分类模型中包括多个不同类型的节点分类器。

A5.根据A4所述的***，其中，所述多级分类模块进一步用于：每当获取到当前节点分类器的输出结果时，通过查询与所述多级分类模型相对应的配置文件，确定所述当前节点分类器的下一级节点分类器；

其中，所述配置文件中存储有：分别与各个节点分类器相对应的多个配置项，每个配置项包括：对应的节点分类器的描述信息、该节点分类器所适配的分类类型、和/或该节点分类器的每种输出结果与其下一级节点分类器之间的对应关系。

A6.根据A1-A5任一所述的***，其中，所述训练模块具体用于：

根据获取到的标注数据生成所述训练样本集，提取所述训练样本集中包含的训练特征词，为已提取的训练特征词赋予对应的权重；

根据已提取的训练特征词及其权重生成对应的训练特征向量，根据所述训练特征向量得到训练结果以及对应的分类器。

A7.根据A1-A6任一所述的***，其中，所述结果确定模块具体用于：对获取到的待分类新闻文本信息进行预处理，并将预处理后的待分类新闻文本信息输入所述多级分类模型进行分类；

其中，所述预处理包括：提取所述待分类新闻文本信息中包含的文件特征词，为已提取的文件特征词赋予对应的权重；根据已提取的文件特征词及其权重生成对应的文件特征向量。

A8.根据A7所述的***，其中，所述结果确定模块在进行预处理之前，进一步用于：按照预设的字体设置规则对所述待分类新闻文本信息中的字体进行调整、和/或按照预设的过滤规则对所述待分类新闻文本信息中的词汇进行过滤。

A9.根据A1-A8任一所述的***，其中，所述多种机器学习算法包括以下中的至少一个：支持向量机算法、卷积神经网络算法、以及循环神经网络算法。

本发明还公开了：B10.一种基于新闻文本信息的多级分类方法，包括：

针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型；

根据所述各级分类所对应的分类器的数量和类型，配置相应的多级分类模型；

将获取到的待分类新闻文本信息输入所述多级分类模型进行分类，将所述多级分类模型的输出结果确定为所述待分类新闻文本信息的最终分类结果。

B11.根据B10所述的方法，其中，所述方法进一步包括：

对训练结果进行评价，根据评价结果对所述各级分类所对应的分类器的数量和类型进行修改，根据修改结果对已配置的多级分类模型进行更新；其中，所述修改包括：分类器的删除、新增和/或替换。

B12.根据B11所述的方法，其中，所述根据所述各级分类所对应的分类器的数量和类型，配置相应的多级分类模型的步骤进一步包括：生成与所述多级分类模型相对应的配置文件，且所述根据修改结果对已配置的多级分类模型进行更新的步骤进一步包括：对所述配置文件进行更新，根据更新后的配置文件更新所述多级分类模型。

B13.根据B10-B12任一所述的方法，其中，所述多级分类模型为包括多级节点分类器的树状分类模型，且所述树状分类模型中包括多个不同类型的节点分类器。

B14.根据B13所述的方法，其中，所述根据所述各级分类所对应的分类器的数量和类型，配置相应的多级分类模型的步骤进一步包括：每当获取到当前节点分类器的输出结果时，通过查询与所述多级分类模型相对应的配置文件，确定所述当前节点分类器的下一级节点分类器；

B15.根据B10-B14任一所述的方法，其中，所述针对新闻文本信息的各级分类，通过多种机器学习算法对预设的训练样本集进行训练，根据训练结果确定各级分类所对应的分类器的数量和类型的步骤具体包括：

B16.根据B10-B15任一所述的方法，其中，所述将获取到的待分类新闻文本信息输入所述多级分类模型进行分类，将所述多级分类模型的输出结果确定为所述待分类新闻文本信息的最终分类结果的步骤具体包括：

对获取到的待分类新闻文本信息进行预处理，并将预处理后的待分类新闻文本信息输入所述多级分类模型进行分类；

B17.根据B16所述的方法，其中，在所述预处理之前进一步包括：按照预设的字体设置规则对所述待分类新闻文本信息中的字体进行调整、和/或按照预设的过滤规则对所述待分类新闻文本信息中的词汇进行过滤。

B18.根据B10-B17任一所述的方法，其中，所述多种机器学习算法包括以下中的至少一个：支持向量机算法、卷积神经网络算法、以及循环神经网络算法。

Claims

1.一种基于新闻文本信息的多级分类***，包括：

2.根据权利要求1所述的***，其中，所述***进一步包括：

3.根据权利要求2所述的***，其中，所述多级分类模块进一步用于：生成与所述多级分类模型相对应的配置文件，且所述模型更新模块进一步用于：对所述配置文件进行更新，根据更新后的配置文件更新所述多级分类模型。

4.根据权利要求1-3任一所述的***，其中，所述多级分类模型为包括多级节点分类器的树状分类模型，且所述树状分类模型中包括多个不同类型的节点分类器。

5.根据权利要求4所述的***，其中，所述多级分类模块进一步用于：每当获取到当前节点分类器的输出结果时，通过查询与所述多级分类模型相对应的配置文件，确定所述当前节点分类器的下一级节点分类器；

6.根据权利要求1-5任一所述的***，其中，所述训练模块具体用于：

7.根据权利要求1-6任一所述的***，其中，所述结果确定模块具体用于：对获取到的待分类新闻文本信息进行预处理，并将预处理后的待分类新闻文本信息输入所述多级分类模型进行分类；

8.根据权利要求7所述的***，其中，所述结果确定模块在进行预处理之前，进一步用于：按照预设的字体设置规则对所述待分类新闻文本信息中的字体进行调整、和/或按照预设的过滤规则对所述待分类新闻文本信息中的词汇进行过滤。

9.根据权利要求1-8任一所述的***，其中，所述多种机器学习算法包括以下中的至少一个：支持向量机算法、卷积神经网络算法、以及循环神经网络算法。

10.一种基于新闻文本信息的多级分类方法，包括：