CN111858843B

CN111858843B - 一种文本分类方法及装置

Info

Publication number: CN111858843B
Application number: CN201910365409.6A
Authority: CN
Inventors: 王伟玮
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-12-05
Anticipated expiration: 2039-04-30
Also published as: CN111858843A

Abstract

本申请提供了一种文本分类方法及装置，其中，该方法包括：确定待分类文本属于每个分类标签对应的类别的概率值；若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。上述技术方案利用文本中的句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

Description

一种文本分类方法及装置

技术领域

本申请涉及文本处理技术领域，具体而言，涉及一种文本分类方法及装置。

背景技术

目前，随着信息技术的高度发展，人工智能得到了广泛的应用，其中，文本分类技术应用尤其广泛，例如垃圾邮件的分类、智能服务或是在诸多场景中的个性化推荐等，都需要应用到文本分类技术。

由于文本内容较为复杂和多样等因素的限制，导致无法直接对文本进行分类，此时，需要对文本进行分词处理。现有的文本分类方法需要将文本分成多个词语，通过词语的词向量识别文本中关键词语的语义，根据词语的语义对文本进行分类，这样的方式不能将文本的原有意思完整的反映出来，导致语义分析错误等问题，进而导致文本分类错误，甚至无法对文本进行分类。

发明内容

有鉴于此，本申请的目的在于提供一种文本分类方法及装置，能够利用文本中的句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

第一方面，本申请提供了一种文本分类方法，包括：

确定待分类文本属于每个分类标签对应的类别的概率值；

若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；

针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；

选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。

在一种可能的实施方式中，在确定所述待分类文本与候选分类标签的相似度之前，上述文本分类方法还包括：

获取所述待分类文本中的语句；

针对每个语句，基于该语句在所述待分类文本中的位置、该语句中的词汇和每个词汇在该语句中的位置，生成该语句对应的句向量。

获取所述待分类文本中的语句；

针对每个语句，对该语句进行分词处理得到至少一个词汇，生成每个词汇对应的词向量，并基于该语句中每个词汇对应的词向量，生成该语句对应的句向量。

针对每个候选分类标签，基于该候选分类标签中的词汇和每个词汇在该候选分类标签中的位置，生成该候选分类标签的句向量。

针对每个候选分类标签，对该候选分类标签进行分词处理得到至少一个词汇，生成每个词汇对应的词向量，并基于该候选分类标签每个词汇对应的词向量，生成该候选分类标签对应的句向量。

在一种可能的实施方式中，所述基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度，包括：

确定所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度；

基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度。

在一种可能的实施方式中，所述基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度，包括：

从每个语句对应的句向量与该候选分类标签对应的句向量的相似度中，选取最大的相似度作为所述待分类文本与该候选分类标签的相似度。

在一种可能的实施方式中，上述文本分类方法还包括：

若确定的概率值中至少有一个概率值大于或等于所述预设值，则将最大的概率值对应的分类标签，作为所述待分类文本的目标分类标签。

在一种可能的实施方式中，所述确定待分类文本属于每个分类标签对应的类别的概率值，包括：

利用训练好的分类模型，确定所述待分类文本属于每个分类标签对应的类别的概率值；

所述方法还包括训练所述分类模型的步骤：

获取多个训练样本，其中，所述训练样本中包括样本文本和所述样本文本对应的分类标签；

利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型。

在一种可能的实施方式中，所述利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型，包括：

利用多个样本文本和每个样本文本对应的分类标签对初始的分类模型进行训练，得到候选的分类模型；

获取多个模型评估文本和每个模型评估文本对应的分类标签；

利用所述多个模型评估文本和每个模型评估文本对应的分类标签，确定所述候选的分类模型的分类准确度；

若所述候选的分类模型的分类准确度大于预设准确度，则将所述候选的分类模型作为所述训练好的分类模型。

第二方面，本申请提供了一种文本分类装置，包括：

第一确定模块，用于确定待分类文本属于每个分类标签对应的类别的概率值；

标签选取模块，用于判断所述第一确定模块确定的概率值与预设值的大小，若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；

第二确定模块，用于针对标签选取模块选取的每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；

第一目标选取模块，用于选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。

在一种可能的实施方式中，上述文本分类装置还包括第一生成模块，所述第一生成模块用于：

获取所述待分类文本中的语句；

在一种可能的实施方式中，上述文本分类装置，还包括第二生成模块，所述第二生成模块用于：

获取所述待分类文本中的语句；

在一种可能的实施方式中，上述文本分类装置，还包括第三生成模块，所述第三生成模块用于：

在一种可能的实施方式中，上述文本分类装置，还包括第四生成模块，所述第四生成模块用于：

在一种可能的实施方式中，所述第二确定模块包括：

第一确定单元，用于确定所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度；

第二确定单元，用于基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度。

在一种可能的实施方式中，所述第二确定单元具体用于：

在一种可能的实施方式中，上述文本分类装置还包括第二目标选取模块，所述第二目标选取模块用于：

在一种可能的实施方式中，所述第一确定模块具体用于：

所述文本分类装置还包括用于训练所述分类模型的模型训练模块，所述模型训练模块具体用于：

在一种可能的实施方式中，所述模型训练模块在利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型时，具体用于：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行本申请实施例第一方面，第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行本申请实施例第一方面，第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种文本分类方法及装置，确定待分类文本属于每个分类标签对应的类别的概率值；若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。上述技术方案利用文本中的句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种服务***的架构示意图；

图2示出了本申请实施例提供的一种文本分类方法的流程图；

图3示出了本申请实施例提供的另一种文本分类方法的流程图；

图4示出了本申请实施例提供的一种文本分类装置的结构示意图之一；

图5示出了本申请实施例提供的一种文本分类装置的结构示意图之二；

图6示出了本申请实施例提供的一种文本分类装置的结构示意图之三；

图7示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种文本分类***。该***可以通过利用文本中的句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

值得注意的是，在本申请提出申请之前，文本分类技术通过对待分类文本进行分词处理，并通过分词处理得到的词语的词向量识别文本中关键词语的语义，根据词语的语义对文本进行分类，其仅通过词向量对文本进行分类的方式并不能完整的分析出整个文本的语义，导致了语义分析错误等问题，进而导致文本分类错误，甚至无法分类。然而，本申请提供的文本分类***，可以确定待分类文本的句向量，并基于句向量确定整个文本的类型。因此，通过对待分类文本句向量的分析，本申请的文本分类***可以提高文本分类的精度。

图1是本申请实施例提供的一种文本分类***100的架构示意图。例如，文本分类***100可以是用于诸如网上购物、智能客服、邮件分类、个性化推荐等需要对文本进行分类的在线服务平台。文本分类***100可以包括服务器110、网络120、服务请求方终端130、服务提供方终端140、和数据库150中的一种或多种。

在一种可能的实施方式中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从服务请求方终端130获得的服务请求来确定待分类文本。在一种可能的实施方式中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

在一种可能的实施方式中，服务请求方终端130和服务提供方终端140对应的设备类型可以是移动设备，比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。

在一种可能的实施方式中，数据库150可以连接到网络120以与文本分类***100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)通信。文本分类***100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一种可能的实施方式中，数据库150可以直接连接到文本分类***100中的一个或多个组件，或者，数据库150也可以是服务器110的一部分。

下面结合上述图1示出的文本分类***100中描述的内容，对本申请实施例提供的文本分类方法进行详细说明。

请参阅图2，图2为本申请实施例提供的一种文本分类方法的流程示意图，该方法可以由文本分类***100中的一个或者多个处理器来执行，如图2中所述，具体执行过程为：

S201、确定待分类文本属于每个分类标签对应的类别的概率值。

在该步骤中，可以先通过训练好的分类模型对待分类文本进行初步分类，得到多个待分类文本中每个语句属于每个分类标签对应的类别，并通过训练好的分类模型计算待分类文本中每个语句属于每个分类标签对应的类别的概率值，即待分类文本属于每个分类标签对应的类别的概率值。

其中，可以先通过训练好的分类模型对待分类文本进行初步分类，在得到待分类文本中每个语句属于每个分类标签对应的类别后，再通过训练好的分类模型确定待分类文本属于每个分类标签对应的类别的概率值，也可以直接将待分类文本输入进训练好的分类模型中，得到训练好的分类模型输出的待分类文本属于每个分类标签对应的类别的概率值。

这里，待分类文本属于每个分类标签对应的类别的概率值可以是一个大于或等于0、且小于或等于1的数值，该概率值越高，说明待分类文本是分类模型确定的分类标签对应的类别可信度越高，则待分类文本是该类型的可信度就越高。

S202、若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签。

在该步骤中，在确定待分类文本属于每个分类标签对应的类别的概率值后，可以判断多个确定的概率值与预设值的大小，若每个确定的概率值都小于预设概率值，则说明文本的初步分类结果不理想，直接将概率值最高的类型作为待分类文本的类型可能不准确。此时，需要对待分类文本进行进一步的分析。为了提高文本分类的精确度，选取预设个分类标签作为候选分类标签，以便针对候选分类标签，对待分类文本进一步的分析。

其中，与概率值进行比较的预设值是根据实际情况而定的，具体的，比如，若确定的概率值集中在0.4附近，可以将预设值设置为0.5，当然，也可以根据对文本分类的历史数据进行分析，得到确定的概率值与文本真实的分类之间的关系，并基于其关系确定预设值。

进一步的，候选分类标签的预设数量也可以是根据实际情况而定的，预设数量可以随待分类文本对应的分类标签的数量的变化而变化，一般情况下，预设数量的值可以为5。

其中，候选分类标签的选取标准可以是其对应的概率值的大小，比如，将多个确定的概率值按从大至小的顺序排列，取顺序最前的预设数量个概率值对应的分类标签作为候选分类标签；或者，选取概率值高于预设阈值的预设数量个分类标签作为候选分类标签。

S203、针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度。

在该步骤中，可以通过训练好的模型确定每个候选分类标签及待分类文本中每个语句对应的句向量，并通过将候选分类标签的句向量和待分类文本中每个的语句的句向量进行对比，并基于对比结果计算出待分类文本与该候选分类标签的相似度，得到预设数量个待分类文本与不同候选分类标签的相似度。

其中，待分类文本一般由多个语句组成，每个语句对应一个句向量，句向量是表示一个语句的一种形式，语句中每个词语都与句向量词典中的值一一对应。

这样，可以在对待分类文本进行初步分类后，提取出待分类文本与每个候选分类标签的相似度，并将其作为对待分类文本进一步分类的依据，提升文本分类的精确度。

S204、选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。

在该步骤中，可以先将各个候选分类标签按照与待分类文本的相似度从大至小的顺序排序，并选取相似度最大候选分类标签，作为待分类文本的目标分类标签，目标分类标签所对应的类型即为待分类文本的类型。

这样，可以在文本分类的过程中，既考虑待分类文本的整个语句形式，也考虑整个语句的语义，有效提高文本分类的准确度。

本申请实施例提供的文本分类方法，确定待分类文本属于每个分类标签对应的类别的概率值；若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。这样，利用文本中的句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

请参阅图3，图3为本申请实施例提供的另一种文本分类方法的流程示意图，可以由文本分类***100中的一个或者多个处理器来执行，如图3中所述，具体执行过程为：

S301、确定待分类文本属于每个分类标签对应的类别的概率值。

S302、若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签。

S303、获取所述待分类文本中的语句。

该步骤中，可以按照标点符号、语义等要素对待分类文本进行断句，进而将待分类文本中的每个语句从待分类文本中提取出来。

S304、针对每个语句，基于该语句在所述待分类文本中的位置、该语句中的词汇和每个词汇在该语句中的位置，生成该语句对应的句向量。

在该步骤中，可以通过直接对待分类文本中的多条语句按照时间顺序进行向量编码的方式，生成对应的句向量。

其中，向量编码是将词语或语句转换成计算机语言的一种方式，生成的句向量是其对应语句的另一种表现形式，在该种形式下，语句即可被计算机识别、处理。

具体的，通过向量编码的方式，根据该语句中的词汇和每个词汇在该语句中的位置，生成该语句中每个词汇对应的编号，并根据该语句在待分类文本中的位置，生成该语句在待分类文本中的编号，即为该语句对应的句向量。

S305、针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度。

S306、选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。

其中，S301、S302、S305和S306的描述可以分别参照S201、S202、S203和S204的描述，并可以实现相同或者相类似的技术效果，再次不再赘述。

可选的，在一种可能的实施方式中，S304可以替换成以下步骤：

步骤1、针对每个语句，对该语句进行分词处理得到至少一个词汇，生成每个词汇对应的词向量，并基于该语句中每个词汇对应的词向量，生成该语句对应的句向量。

在该步骤中，可以通过中文分词的方式，如结巴分词等方式，对待分类文本中的多个语句进行中文分词处理，每个语句可以得到至少一个词汇，再利用分词学习工具生成相应的词向量，最后，将待分类文本和词向量输入进训练好的句向量模型中，得到句向量模型输出的每个语句的句向量。

可选的，在一种可能的实施方式中，在S305之前，所述文本分类方法还包括：

在该步骤中，基于和S304相同或相似的步骤，可以得到候选分类标签的句向量，在此不再一一赘述。

在该步骤中，可以基于和步骤1相同或相似的步骤，可以得到候选分类标签的句向量，在此不再一一赘述。

可选的，在一种可能的实施方式中，所述基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度，包括：

确定所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度；基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度。

在该步骤中，可以先将候选分类标签的句向量和待分类文本中每个语句的句向量进行对比，对比每对句向量中每个元素是否相同，并按照对比得到的每对句向量中所有元素的相同率，计算出待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，进而可以在待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度中选出合适的一个来作为待分类文本与该候选分类标签的相似度。当然，还可以利用其他方法计算待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，这里并不进行限定。

可选的，在一种可能的实施方式中，所述基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度，包括：

在该步骤中，在确定待分类文本中每个语句与该候选分类标签的相似度之后，待分类文本中每有一个语句，就有一个其与该候选分类标签的相似度，从多个语句与该候选分类标签的相似度中，选取相似度最大的语句对应的相似度，作为待分类文本与该候选分类标签的相似度。

这样，可以去除相关性小的语句，简化文本分类的判断过程，并提升文本分类的精准度。

当然，还可以利用其他方法基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度，这里并不进行限定。

可选的，在一种可能的实施方式中，所述文本分类方法，还包括：

在该步骤中，在确定待分类文本属于每个分类标签对应的类别的概率值之后，可以将确定的概率值和预设值对比，若确定的概率值中至少有一个概率值大于或等于所述预设值，则将最大的概率值对应的分类标签，作为所述待分类文本的目标分类标签，目标分类标签对应的类型即为待分类文本的类型。

可选的，在一种可能的实施方式中，所述确定待分类文本属于每个分类标签对应的类别的概率值，包括：

所述方法还包括训练所述分类模型的步骤：

获取多个训练样本，其中，所述训练样本中包括样本文本和所述样本文本对应的分类标签；利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型。

在该步骤中，可以将待分类文本输入至训练好的分类模型，经过分类模型的计算，得到分类模型输出的待分类文本属于每个分类标签对应的类别的概率值。

进一步地，该分类模型可以是深度学习的模型，比如，决策树模型、支持向量机模型、神经网络模型、集成学习模型等，其训练方式都是基于多个样本文本和每个样本文本对应的分类标签进行的，其具体的调参过程因模型的选取而改变。具体的，可以是将多个样本文本输入至分类模型中，并基于每个样本文本对应的分类标签和分类模型输出的结果来进行调参。

可选的，在一种可能的实施方式中，所述利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型，包括：

利用多个样本文本和每个样本文本对应的分类标签对初始的分类模型进行训练，得到候选的分类模型；获取多个模型评估文本和每个模型评估文本对应的分类标签；利用所述多个模型评估文本和每个模型评估文本对应的分类标签，确定所述候选的分类模型的分类准确度；若所述候选的分类模型的分类准确度大于预设准确度，则将所述候选的分类模型作为所述训练好的分类模型。

在该步骤中，通过判断分类模型输出的结果是否与样本文本的真实分类一致来确定候选模型的分类准确度，并在准确度大于预设准确度时，停止对分类模型的训练，并将其作为训练好的分类模型。

这样，可以根据实际情况，选择符合要求的分类模型，避免分类模型的过度训练，提高训练模型的性价比。

本申请实施例提供的文本分类方法，确定待分类文本属于每个分类标签对应的类别的概率值；若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；获取所述待分类文本中的语句；针对每个语句，基于该语句在所述待分类文本中的位置、该语句中的词汇和每个词汇在该语句中的位置，生成该语句对应的句向量；针对每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。这样，通过语句在待分类文本中的位置、该语句中的词汇和每个词汇在该语句中的位置，生成该语句对应的句向量，并利用句向量对文本进行分类，而不是只通过文本中词语的词向量对文本进行分类，能完整的确定文本的语义，有效提高文本分类的精确度。

请参阅图4至图6，图4为本申请实施例提供的一种文本分类装置的结构图之一，图5为本申请实施例提供的一种文本分类装置的结构图之二，图6为本申请实施例提供的一种文本分类装置的结构图之三。如图4中所示，所述文本分类装置400包括：

第一确定模块410，用于确定待分类文本属于每个分类标签对应的类别的概率值；

标签选取模块420，用于判断所述第一确定模块410确定的概率值与预设值的大小，若确定的概率值均小于预设值，则根据每个分类标签对应的所述概率值，选取预设数量个分类标签作为候选分类标签；

第二确定模块430，用于针对标签选取模块420选取的每个候选分类标签，基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度；

第一目标选取模块440，用于选取与所述待分类文本的相似度最大的候选分类标签，作为所述待分类文本的目标分类标签。

在一些可能的实施例中，如图5所示，所述文本分类装置包括第一确定模块510、标签选取模块520、第二确定模块530、第一目标选取模块540和第一生成模块550，所述第一生成模块550用于：

获取所述待分类文本中的语句；

在一些可能的实施例中，如图6所示，所述文本分类装置，包括第一确定模块610、标签选取模块620、第二确定模块630、第一目标选取模块640和第二生成模块660，所述第二生成模块660用于：

获取所述待分类文本中的语句；

在一些可能的实施例中，所述文本分类装置，还包括第三生成模块670，所述第三生成模块670用于：

在一些可能的实施例中，所述文本分类装置，还包括第四生成模块680，所述第四生成模块680用于：

应当说明的是，可以选用第三生成模块670或第四生成模块680中的一个生成候选分类标签对应的句向量。

在一些可能的实施例中，所述第二确定模块630包括：

第一确定单元631，用于确定所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度；

第二确定单元632，用于基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度。

在一些可能的实施例中，所述第二确定单元632具体用于：

在一些可能的实施例中，所述文本分类装置，还包括第二目标选取模块690，所述第二目标选取模块690用于：

在一些可能的实施例中，所述第一确定模块610具体用于：

所述文本分类装置还包括用于训练所述分类模型的模型训练模块6100，所述模型训练模块6100具体用于：

在一些可能的实施例中，所述模型训练模块6100在利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型时，具体用于：

本申请实施例公开了一种电子设备，如图7所示，包括：处理器701、存储器702和总线703，所述存储器702存储有所述处理器701可执行的机器可读指令，当电子设备运行时，所述处理器701与所述存储器702之间通过总线703通信。

所述机器可读指令被所述处理器701执行时执行以下在服务提供方的终端执行的文本分类方法的步骤：

确定待分类文本属于每个分类标签对应的类别的概率值；

在一种可能的实施方式中，上述处理器701在确定所述待分类文本与候选分类标签的相似度之前，还用于执行：

获取所述待分类文本中的语句；

在一种可能的实施方式中，上述处理器701在基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度时，具体用于执行：

在一种可能的实施方式中，上述处理器701在基于所述待分类文本中每个语句对应的句向量与该候选分类标签对应的句向量的相似度，确定所述待分类文本与该候选分类标签的相似度时，具体用于执行：

在一种可能的实施方式中，上述处理器701还用于执行：

在一种可能的实施方式中，上述处理器701在确定待分类文本属于每个分类标签对应的类别的概率值时，具体用于执行：

上述处理器701还用于执行训练所述分类模型的步骤：

在一种可能的实施方式中，上述处理器701在利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型时，具体用于执行：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中的文本分类方法的步骤。

本申请实施例还提供了一种计算机程序产品，其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，包括：

确定待分类文本属于每个分类标签对应的类别的概率值；

2.根据权利要求1所述的文本分类方法，其特征在于，在确定所述待分类文本与候选分类标签的相似度之前，还包括：

获取所述待分类文本中的语句；

3.根据权利要求1所述的文本分类方法，其特征在于，在确定所述待分类文本与候选分类标签的相似度之前，还包括：

获取所述待分类文本中的语句；

4.根据权利要求1所述的方法，其特征在于，所述基于所述待分类文本中每个语句对应的句向量和该候选分类标签对应的句向量，确定所述待分类文本与该候选分类标签的相似度，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述确定待分类文本属于每个分类标签对应的类别的概率值，包括：

所述方法还包括训练所述分类模型的步骤：

7.根据权利要求6所述的方法，其特征在于，所述利用多个样本文本和每个样本文本对应的分类标签，对初始的分类模型进行训练，得到训练好的分类模型，包括：

8.一种文本分类装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述文本分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述文本分类方法的步骤。