CN114780719A

CN114780719A - 文本分类模型的训练方法、文本分类方法及装置

Info

Publication number: CN114780719A
Application number: CN202210311837.2A
Authority: CN
Inventors: 孙彦苹; 张钧波; 任朝淦; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-22

Abstract

本申请实施例提供一种文本分类模型的训练方法、文本分类方法及装置，该文本分类模型的训练方法包括：获取样本数据集，样本数据集中包含有文本的描述信息以及文本标注的多个维度的类别标签；使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息；使用样本数据集中的文本的初始表示信息对文本分类模型进行训练；其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。通过该方式，由于规范了不同维度的类别标签的排列关系的对比相关性，从而提高了分类模型针对多个维度的类别标签的分类性能。

Description

文本分类模型的训练方法、文本分类方法及装置

技术领域

本发明涉及信息技术领域，尤其涉及一种文本分类模型的训练方法、文本分类方法及装置。

背景技术

文本多维度分类是指对于每一个文本描述均存在多个维度的类别标签，并且每个维度的类别标签下又存在多个子维度的类别标签。其中，多个维度的类别标签构成的标签体系为已知的先验信息，呈现一种由上至下的有交叉的包含关系。

相关技术中，通常包括两种常用的文本多维度分类方式。在第一种方式中，可以基于文本相似度，与已有文本描述进行匹配，从而进行文本多维度分类。在第二种方式中，可以独立地对不同维度进行文本分类学习。

然而，若基于文本相似度与已有文本描述进行匹配，对已有文本的标注质量要求较高，当文本标注质量较差时，会导致多个维度的类别标签的分类性能不高。若独立地对不同维度进行文本分类学习，会丢掉不同维度类别间的已有相关性信息，从而对于不同上一类别维度的较相似的文本类别的判别性较差。因此，现有的文本多维度分类的分类性能不高。

发明内容

本申请实施例提供一种文本分类模型的训练方法、文本分类方法及装置，以解决现有技术中文本多维度分类的分类性能不高的问题。

第一方面，本申请实施例提供一种文本分类模型的训练方法，所述方法包括：

获取样本数据集，所述样本数据集中包含有文本的描述信息以及所述文本标注的多个维度的类别标签；

使用预训练词向量对所述样本数据集中的文本的描述信息进行预训练，确定所述样本数据集中的文本的初始表示信息；

使用所述样本数据集中的文本的初始表示信息对所述文本分类模型进行训练；其中，所述文本分类模型采用对比学习对所述多个维度的类别标签的排列关系进行对比相关性规范。

一种可选的实施方式中，所述类别标签的类别体系按照层级结构排列，下层维度的类别标签的粒度细于比上层维度的类别标签。

一种可选的实施方式中，所述文本分类模型包括表示学习网络，所述表示学习网络用于提取所述文本的初始表示信息的文本特征并得到所述文本的文本表示信息，所述表示学习网络的对比损失用于对所述文本的文本表示信息进行所述对比相关性规范。

一种可选的实施方式中，所述对比损失是根据对比三元组确定的，所述对比三元组包括样本数据集中的待训练文本、所述待训练文本的正样本和所述待训练文本的负样本。

一种可选的实施方式中，在所述使用所述样本数据集中的文本的初始表示信息对所述文本分类模型进行训练之前，还包括：

根据所述类别标签的类别体系，构建所述待训练文本的三元组。

一种可选的实施方式中，所述构建所述待训练文本的三元组，包括：

确定所述待训练文本在所述样本数据集中不同维度的领域集，所述领域集中的文本与所述待训练文本在所述领域集所在维度的类别标签相同；

根据从低维度到高维度的顺序，从所述不同维度的领域集中确定出预设数量的文本作为所述正样本。

一种可选的实施方式中，所述构建所述样本数据集中的待训练文本的三元组，还包括：

确定所述待训练文本与所述样本数据集中的文本的相似度；

根据所述相似度从高到低的顺序，从所述样本数据集中确定预设数量的文本作为所述负样本，所述负样本与所述待训练文本存在至少一个维度的类型标签不同。

一种可选的实施方式中，所述文本分类模型还包括分类学习网络，所述分类学习网络包括多个多类分类器，所述多个多类分类器用于分别多所述多个维度的类别标签进行分类学习。

一种可选的实施方式中，所述文本分类模型的训练机制包括多任务学习机制或分阶段训练机制。

一种可选的实施方式中，在所述确定所述样本数据集中的文本的初始表示信息之前，所述方法还包括：

根据所述类别标签的类别体系，对所述样本数据集进行过滤，去除所述样本数据集中的无效样本。

一种可选的实施方式中，所述无效样本包括错误样本和低频样本，所述低频样本的出现次数小于次数阈值，所述错误样本不满足所述类别标签的标签体系的层级结构。

第二方面，本申请实施例提供一种文本分类方法，所述方法包括：

获取待分类的文本的描述信息；

使用预训练词向量对所述待分类的文本的描述信息进行预训练，确定所述待分类的文本的初始表示信息；

将所述待分类的文本的初始表示信息输入文本分类模型，并获取所述文本分类模型输出的多个维度的文本类别标签；其中，所述文本分类模型采用对比学习对所述多个维度的类别标签的排列关系进行对比相关性规范。

第三方面，本申请实施例提供一种文本分类模型的训练装置，所述装置包括：

获取模块，用于获取样本数据集，所述样本数据集中包含有文本的描述信息以及所述文本标注的多个维度的类别标签；

训练模块，用于使用预训练词向量对所述样本数据集中的文本的描述信息进行预训练，确定所述样本数据集中的文本的初始表示信息；使用所述样本数据集中的文本的初始表示信息对所述文本分类模型进行训练；其中，所述文本分类模型采用对比学习对所述多个维度的类别标签的排列关系进行对比相关性规范。

一种可选的实施方式中，所述装置还包括：

构建模块，用于根据所述类别标签的类别体系，构建所述待训练文本的三元组。

一种可选的实施方式中，所述构建模块，具体用于确定所述待训练文本在所述样本数据集中不同维度的领域集，所述领域集中的文本与所述待训练文本在所述领域集所在维度的类别标签相同；根据从低维度到高维度的顺序，从所述不同维度的领域集中确定出预设数量的文本作为所述正样本。

一种可选的实施方式中，所述构建模块，还用于确定所述待训练文本与所述样本数据集中的文本的相似度；根据所述相似度从高到低的顺序，从所述样本数据集中确定预设数量的文本作为所述负样本，所述负样本与所述待训练文本存在至少一个维度的类型标签不同。

一种可选的实施方式中，所述训练模块，还用于根据所述类别标签的类别体系，对所述样本数据集进行过滤，去除所述样本数据集中的无效样本。

第四方面，本申请实施例提供一种文本分类装置，所述装置包括：

获取模块，用于获取待分类的文本的描述信息；

分类模块，用于使用预训练词向量对所述待分类的文本的描述信息进行预训练，确定所述待分类的文本的初始表示信息；将所述待分类的文本的初始表示信息输入文本分类模型，并获取所述文本分类模型输出的多个维度的文本类别标签；其中，所述文本分类模型采用对比学习对所述多个维度的类别标签的排列关系进行对比相关性规范。

第五方面，本申请还提供一种电子设备，包括：处理器，以及存储器；

所述存储器用于存储所述处理器的计算机程序；所述处理器被配置为通过执行所述计算机程序来实现第一方面中任意一种可能的方法。

第六方面，本申请还提供一种电子设备，包括：处理器，以及存储器；

所述存储器用于存储所述处理器的计算机程序；所述处理器被配置为通过执行所述计算机程序来实现第二方面中任意一种可能的方法。

第七方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任意一项所述的方法。

第八方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第二方面任意一项所述的方法。

第九方面，本发明还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任意一种可能的方法。

第十方面，本发明还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第二方面中任意一种可能的方法。

本申请实施例提供的文本分类模型的训练方法、文本分类方法及装置，在文本分类模型的训练中，首先获取样本数据集，样本数据集中包含有文本的描述信息以及文本标注的多个维度的类别标签。随后，使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息。最后，使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。通过该方式，由于规范了不同维度的类别标签的排列关系的对比相关性，从而提高了分类模型针对多个维度的类别标签的分类性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种标签类别体系的示例图；

图2为本申请实施例提供的一种文本分类的应用场景示意图；

图3为本申请实施例提供的一种文本分类模型的训练方法的流程示意图；

图4为本申请实施例提供的一种文本分类模型的训练方法的原理示意图；

图5为本申请实施例提供的另一种文本分类模型的训练方法的流程示意图；

图6为本申请实施例提供的一种文本分类方法的流程示意图；

图7为本申请实施例提供的一种文本分类模型的训练装置的结构示意图；

图8为本申请实施例提供的一种文本分类装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

文本多维度分类是指对于每一个文本描述均存在多个维度的类别标签，并且每个维度的类别标签下又存在多个子维度的类别标签。其中，多个维度的类别标签构成的标签类别体系为已知的先验信息，呈现一种由上至下的有交叉的包含关系。图1为本申请实施例提供的一种标签类别体系的示例图，如图1所示，包含y₁至y_q多个维度的类别标签，上一维度的类别标签之下可以包括多个下一维度的类别标签，同一个下一维度的类别标签可以包含于多个上一维度的类别标签之下。

示例性的，在政务事件管理***中，对事件可以进行四级归口分类，即对于每一个事件，事件类型标签为4维。例如，可以分为城市管理类、市容管理类、卫生设施管理类和公厕管理类。其中，市容管理类又分为卫生设施管理类、城市作风监督类、广告监管等多个类别。

相关技术中，通常包括两种常用的文本多维度分类方式。在第一种方式中，可以基于文本相似度，与已有文本描述进行匹配，从而进行文本多维度分类。

在第二种方式中，可以独立地对不同维度进行文本分类学习。示例性的，可以使用预训练向量词等文本分类器，或者，预训练模型和分类任务(fine-tune)进行文本分类学习。其中，预训练向量词可例如嵌入(embedding)+长短期记忆(Long Short-Term Memory，LSTM)、文本卷积神经网络(Convolutional Neural Networks，CNN)、双向长短记忆(Bi-Long Short-Term Memory，Bi-LSTM)等。

为解决上述问题，本申请实施例提供一种文本分类模型的训练方法、文本分类方法及装置，在文本分类模型中采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范，从而规范不同维度的类别标签的排列关系的对比相关性，进而提高了分类模型针对多个维度的类别标签的分类性能。

下面对于本申请涉及的文本分类的应用场景进行说明。

图2为本申请实施例提供的一种文本分类的应用场景示意图。如图2所示，服务器102中可以进行文本分类模型的训练，通过获取样本数据集从而对文本分类模型进行训练。当服务器102中完成文本分类模型的训练后，终端设备101可以向服务器102发送分类请求，该分类请求中包含有待分类的文本的描述信息。当服务器102获取到终端设备101发送的待分类的文本的描述信息后，可以将待分类的文本的描述信息输入文本分类模型中，从而获取文本分类模型输出的多个维度的文本类别标签。随后，服务器102可以将多个维度的文本类别标签发送给终端设备101。

其中，终端设备101可以为平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、智慧家庭(smart home)中的无线终端等。本申请实施例中，用于实现终端的功能的装置可以是终端，也可以是能够支持终端实现该功能的装置，例如芯片***，该装置可以被安装在终端中。本申请实施例中，芯片***可以由芯片构成，也可以包括芯片和其他分立器件。

服务器102可以是但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。

应理解，本申请技术方案的应用场景可以是图1中的场景，但不限于此，还可以应用于其他需要进行文本分类的场景中。

可以理解，上述文本分类模型的训练方法可以通过本申请实施例提供的文本分类模型的训练装置实现，文本分类模型的训练装置可以是某个设备的部分或全部，例如为服务器或服务器的芯片。同样的，上述文本分类方法可以通过本申请实施例提供的文本分类装置实现，文本分类装置可以是某个设备的部分或全部，例如为服务器或服务器的芯片。

下面以集成或安装有相关执行代码的服务器为例，以具体地实施例对本申请实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请实施例提供的一种文本分类模型的训练方法的流程示意图，图4为本申请实施例提供的一种文本分类模型的训练方法的原理示意图，本实施例涉及的是服务器如何对文本分类模型进行训练的过程。如图3和图4所示，该方法包括：

S201、获取样本数据集。

在本申请中，当服务器对文本分类模型进行训练前，可以获取样本数据集。

应理解，本申请实施例对于样本数据集不作限制，在一些实施例中，样本数据集中可以包含有文本的描述信息以及文本标注的多个维度的类别标签。本申请实施例对于样本数据集中文本的数量不作限制，可以根据实际情况具体设置。需要说明的是，样本数据集中的文本标注可以由人工进行标注。

应理解，类别标签的类别体系可以按照层级结构排列，下层维度的类别标签的粒度细于比上层维度的类别标签。

示例性的，样本数据集可以为X＝<D，Y>，D为文本的描述信息，Y为该文本标注的多个维度的类别标签。其中，类别标签可以分为多个维度，每个维度下有多个类别标签。继续参考图1，标记空间可以为标记多维度Y＝(y₁,y₂,……y_q)，y_i中包括e_i个文本类别。文本分类模型的训练中的学习任务可以学得D至Y的映射函数。在完成训练后，若文本分类模型被给定新的文本的描述信息D时，可以预测其对应的多各维度的类别标签。需要说明的是，该场景中已知标记空间中q维标记间呈现如图1所示的层级结构，其中越往下可以视为更细粒度的文本划分。

S202、使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息。

在本步骤中，当服务器获取到样本数据集后，可以使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息。

应理解，本申请实施例对于预训练词向量的类型不作限制，在一些实施例中，预训练词向量可以包括word2vec、fastText等，通过预训练词向量，可以对文本的描述信息文本的描述信息，得到文本的初始表示信息embedding x_i。

在一些实施例中，在确定样本数据集中的文本的初始表示信息之前，服务器还可以根据类别标签的类别体系，对样本数据集进行过滤，去除样本数据集中的无效样本。

其中，无效样本包括错误样本和低频样本，低频样本的出现次数小于次数阈值，错误样本不满足类别标签的标签体系的层级结构。

在一些实施例中，在去除样本数据集中的无效样本后，还可以对过滤后的样本数据集进行预处理，每条的文本的描述信息可以得到对应的单词集合。

需要说明的是，单词集合的长度可以预先设定，本申请实施例对于单词长度不作限制，示例性的，单词长度可以为S。

通过上述过滤和预处理，可以提高训练后的文本分类模型的分类性能。

S203、使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。

在本步骤中，当服务器确定样本数据集中的文本的初始表示信息后，可以使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。

应理解，本申请实施例对于文本分类模型的结构不作限制，在一些实施例中，文本分类模型可以包括表示学习网络，表示学习网络用于提取文本的初始表示信息的文本特征并得到文本的文本表示信息，表示学习网络的对比损失用于对文本的文本表示信息进行对比相关性规范。

在一些实施例中，表示学习网络可以基于LSTM、transformer等常用方法提取文本特征，得到文本表示z_i。在另一些实施中，可以基于单词得到位置编码等特征，使用基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)等预训练语言模型，得到文本表示z_i。

应理解，上述对比损失可以是根据对比三元组确定的，对比三元组包括样本数据集中的待训练文本、待训练文本的正样本和待训练文本的负样本。需要说明的是，本申请实施例中的对比损失，可以采用infoNCE损失替换，其中向量间相关性可以使用余弦(cosine)相似性。

下面对于待训练文本的三元组的构建过程进行说明。

在一些实施例中，服务器可以根据类别标签的类别体系，构建待训练文本的三元组。继续参考图1所示的类别标签的类别体系，类别标签间从上至下呈现出包含的层级结构，即维度向下是上层的更细分类，越靠近叶子节点的类别标签越相似，且已将上层类别标签包含在内。基于“最大距离的正样本，最小距离的负样本”选择原则，可以进行三元组额构造。

其中，待训练文本的三元组的构建过程可以分为正样本的构建过程和负样本的构建过程。

示例性的，待训练文本的三元组可以构建为(xi，x_j，x_k)，x_i为待训练样本，x_j为x_i对应的正样本，x_k为x_i对应的负样本。其中，x_j与x_i的相关性大于x_k与x_i的相关性。对于每个x_i，可以计算其K各正样本x_j和K个负样本x_k。

针对正样本，在一些实施例中，服务器可以先确定待训练文本在样本数据集中不同维度的领域集，该领域集中的文本与待训练文本在领域集所在维度的类别标签相同。随后，服务器可以根据从低维度到高维度的顺序，从不同维度的领域集中确定出预设数量的文本作为正样本。

示例性的，对于每一个待训练文本x_i，可以首先将同一个类别标签y_q(最后一层标签维度)的样本作为邻域集，从中选择K个样本作为正样本。如政务事件x_i，其对应的类别标签可以包括便民服务类(第一维度标签q＝1)、供水服务类(第二维度标签q＝2)、供水报修类(第三维度标签q＝3)和故障报修类(第四维度标签q＝4)。在选择正样本时，可以首先从与其相同的第四维度标签类别“故障报修”的样本中选择K个样本加入邻域集。若第四维度标签类别“故障报修”的样本数小于K，则可以在将第四维度标签类别“故障报修”的全部样本加入邻域集的基础上，继续从第三维度标签类别“供水报修类”的样本中继续选择样本加入领域集。若第四维度的样本加第三维度的样本的数量仍然小于K，则继续依照从低到高的顺序从第二维度和第一维度的样本中选择样本加入邻域集，直接邻域集中的样本数据为K。

应理解，本申请实施例对于正样本的数量不作限制，可以根据实际情况具体设置。

针对负样本，在一些实施例中，服务器可以先确定待训练文本与样本数据集中的文本的相似度。随后，服务器可以根据相似度从高到低的顺序，从样本数据集中确定预设数量的文本作为负样本，负样本与待训练文本存在至少一个维度的类型标签不同。

示例性的，对于每一个待训练文本x_i，可以直接对其进行文本余弦(cosine)相似度计算，按相似度从大到小排序，优先选择相似度大，且至少存在一维不同类别标签的样本。如待训练文本(便民服务类，供水服务，供水报修，故障报修)与比较样本(便民服务类，供水服务，供水报修，规模停水)的1维标签(“故障报修”与“规模停水”)不同，上述比较样本可以为待训练文本的负样本。其中，文本余弦相似度计算可以如公式(1)所示：

其中，x_i为待训练文本，x_t为比较样本，S(x_i，x_t)为x_i和x_j的余弦相似度计算结果。对于与待训练样本x_i至少存在一维不同类别标签的比较样本x_t，可以按照本余弦相似度从大到小的顺序，选择K个作为x_i的负样本x_k。

应理解，本申请实施例对于负样本的数量也不作限制，可以根据实际情况具体设置。

示例性的，服务器对于待训练文本的三元组(x_i，x_j，x_k)，通过表示学习网络可以得到待训练的文本表示信息(z_i，z_j，z_k)。对于损失可以使用缓限度损失(margin loss)L_contrasive，其中形式如公式(2)所示：

L_contrasive＝max(margin+d(z_i，z_j)-d(z_i，z_k)，0) (2)

其中，d(z_i，z_j)为样本间的距离函数，此处使用平方差。

通过对比损失函数可以对表示学习网络进行训练，从而使得其学得表示满足三元组中的相关关系。

在一些实施例中，文本分类模型还可以包括表示学习网络，分类学习网络，分类学习网络包括多个多类分类器，多个多类分类器用于分别多多个维度的类别标签进行分类学习。

示例性的，基于表示学习的输出，文本分类模型可以进行分类网络训练。为了简化标记空间的复杂度，可以分别对q个维度的文本类别进行分类学习，即需要训练q个多类分类器。通过使用单隐层感知网络(例如，Relu激活函数)，可以得到分类任务相关的表示v，通过回归函数(softmax)可以进行多类分类。其中，分类loss使用交叉熵如公式(3)所示：

其中，

为类别标签y_i的交叉熵，v_i为y_i对应的分类任务相关的表示，v_j为y_j对应的分类任务相关的表示。

通过本申请实施例提供的文本分类模型的训练方法，在上述提到的政务事件多维度分类场景中，每个事件对应一段事件文本描述，标签体系为4维(y1，y2，y3，y4)。其中，每维类别标签可以包括多个事件类别，维度间关系如上述图1中所示，从上至下为有交叉的层级包含关系。

对于现有的文本分类方法多是对不同维度进行分别分类，即分别对yi(i＝[1，2，3，4])维度进行分类学习，从而丢掉了不同维度间的标签关系，此时对于单独维度比较相似，但是，其他标签维度不同的样本无法很好的进行判别。如标签为(公安司法类，公安交警，交通组织，交通管制、单行线、专用车道)与(公安司法类，公安交警，交通设施，信号灯、标示标线、指示牌、隔离栏)的两类样本，y3(“交通组织”和“交通设施”)和y4标签(“交通管制、单行线、专用车道”和“信号灯、标示标线、指示牌、隔离栏”)均比较相似。若单独对其进行分类，很容易分类错误，而对比三元组构造，可以考虑标签间的相似关系，可以很好的将其进行分类。

本申请实施例，在对比学习方法中加入文本类别间相关性，通过增强监督信息，提升文本分类性能，可以很好的对属于不同上层类别的相似文本类别进行判别。同时，由于基于类别标签的类别体系的先验信息进行对比三元组构建，然后通过对比损失的方式辅助模型训练，从而使得所学表示空间保持标签空间的对比排序关系。

本申请实施例提供的文本分类模型的训练方法，首先获取样本数据集，样本数据集中包含有文本的描述信息以及文本标注的多个维度的类别标签。随后，使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息。最后，使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。通过该方式，由于规范了不同维度的类别标签的排列关系的对比相关性，从而提高了分类模型针对多个维度的类别标签的分类性能。

在上述实施例的基础上，下面对于如何完整的文本分类模型的训练过程进行行说明。图5为本申请实施例提供的另一种文本分类模型的训练方法的流程示意图，如图5所示，该文本分类模型的训练方法，包括：

S301、获取样本数据集，样本数据集中包含有文本的描述信息以及文本标注的多个维度的类别标签。

其中，类别标签的类别体系按照层级结构排列，下层维度的类别标签的粒度细于比上层维度的类别标签。

S302、根据类别标签的类别体系，对样本数据集进行过滤，去除样本数据集中的无效样本。

S303、对样本数据集中的文本的描述信息进行预处理，转化为固定长度的单词集合。

S304、使用预训练词向量对样本数据集中的文本的描述信息对应的单词集合进行预训练，确定样本数据集中的文本的初始表示信息。

S305、使用样本数据集中的文本的初始表示信息对文本分类模型进行训练。其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。

其中，文本分类模型包括表示学习网络，表示学习网络用于提取文本的初始表示信息的文本特征并得到文本的文本表示信息，表示学习网络的对比损失用于对文本的文本表示信息进行对比相关性规范。

其中，对比损失是根据对比三元组确定的，对比三元组包括样本数据集中的待训练文本、待训练文本的正样本和待训练文本的负样本。

在上述实施例的基础上，下面对于如何使用文本分类模型进行文本分类进行说明。图6为本申请实施例提供的一种文本分类方法的流程示意图，如图6所示，该文本分类方法，包括：

S401、获取待分类的文本的描述信息。

应理解，本申请实施例对于如何获取待分类的文本的描述信息不作限制，在一些实施例中，在文本分类模型训练好前，待分类的文本的描述信息可以预先存储在服务器中。当文本分类模型训练好后，服务器可以直接从存储器中提取待分类的文本的描述信息。

在另一些实施例中，在文本分类模型训练好后，服务器可以接收终端设备发送的分类请求。随后，服务器可以从分类请求中提起出待分类的文本的描述信息。

S402、使用预训练词向量对待分类的文本的描述信息进行预训练，确定待分类的文本的初始表示信息。

S403、将待分类的文本的初始表示信息输入文本分类模型，并获取文本分类模型输出的多个维度的文本类别标签。

其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。

示例性的，服务器可以先进行文本预处理，再基于预训练向量得到文本的初始表示信息。随后，服务器可以将文本的初始表示信息输入已训练好的文本分类模型中进行表示学习，再将表示学习的输出输入到已训练好的文本分类模型中的q个分类网络中，最终得到q维的文本类别标签。

应理解，文本分类模型进行文本分类的过程可以参照文本分类模型的训练过程，在此不再赘述。

本申请实施例提供的文本分类方法，服务器首先获取待分类的文本的描述信息。随后，服务器可以使用预训练词向量对待分类的文本的描述信息进行预训练，确定待分类的文本的初始表示信息。最后，服务器将待分类的文本的初始表示信息输入文本分类模型，并获取文本分类模型输出的多个维度的文本类别标签。其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。通过该方式，由于规范了不同维度的类别标签的排列关系的对比相关性，从而提高了分类模型针对多个维度的类别标签的分类性能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图7为本申请实施例提供的一种文本分类模型的训练装置的结构示意图。该文本分类模型的训练装置可以通过软件、硬件或者两者的结合实现，可例如上述实施例中的服务器或服务器的芯片，以执行上述实施例中的文本分类模型的训练方法。如图7，该文本分类模型的训练装置500包括：

获取模块501，用于获取样本数据集，样本数据集中包含有文本的描述信息以及文本标注的多个维度的类别标签。

训练模块502，用于使用预训练词向量对样本数据集中的文本的描述信息进行预训练，确定样本数据集中的文本的初始表示信息；使用样本数据集中的文本的初始表示信息对文本分类模型进行训练；其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。

一种可选的实施方式中，类别标签的类别体系按照层级结构排列，下层维度的类别标签的粒度细于比上层维度的类别标签。

一种可选的实施方式中，文本分类模型包括表示学习网络，表示学习网络用于提取文本的初始表示信息的文本特征并得到文本的文本表示信息，表示学习网络的对比损失用于对文本的文本表示信息进行对比相关性规范。

一种可选的实施方式中，对比损失是根据对比三元组确定的，对比三元组包括样本数据集中的待训练文本、待训练文本的正样本和待训练文本的负样本。

一种可选的实施方式中，装置还包括：

构建模块503，用于根据类别标签的类别体系，构建待训练文本的三元组。

一种可选的实施方式中，构建模块503，具体用于确定待训练文本在样本数据集中不同维度的领域集，领域集中的文本与待训练文本在领域集所在维度的类别标签相同；根据从低维度到高维度的顺序，从不同维度的领域集中确定出预设数量的文本作为正样本。

一种可选的实施方式中，构建模块503，还用于确定待训练文本与样本数据集中的文本的相似度；根据相似度从高到低的顺序，从样本数据集中确定预设数量的文本作为负样本，负样本与待训练文本存在至少一个维度的类型标签不同。

一种可选的实施方式中，文本分类模型还包括分类学习网络，分类学习网络包括多个多类分类器，多个多类分类器用于分别多多个维度的类别标签进行分类学习。

一种可选的实施方式中，文本分类模型的训练机制包括多任务学习机制或分阶段训练机制。

一种可选的实施方式中，训练模块502，还用于根据类别标签的类别体系，对样本数据集进行过滤，去除样本数据集中的无效样本。

一种可选的实施方式中，无效样本包括错误样本和低频样本，低频样本的出现次数小于次数阈值，错误样本不满足类别标签的标签体系的层级结构。

需要说明的，图7示实施例提供的文本分类模型的训练装置，可用于执行上述任意实施例所提供的方法，具体实现方式和技术效果类似，这里不再进行赘述。

图8为本申请实施例提供的一种文本分类装置的结构示意图。该文本分类装置可以通过软件、硬件或者两者的结合实现，可例如上述实施例中的服务器或服务器的芯片，以执行上述实施例中的文本分类方法。如图8，该文本分类装置600包括：

获取模块601，用于获取待分类的文本的描述信息。

分类模块602，用于使用预训练词向量对待分类的文本的描述信息进行预训练，确定待分类的文本的初始表示信息；将待分类的文本的初始表示信息输入文本分类模型，并获取文本分类模型输出的多个维度的文本类别标签；其中，文本分类模型采用对比学习对多个维度的类别标签的排列关系进行对比相关性规范。

需要说明的，图8示实施例提供的文本分类装置，可用于执行上述任意实施例所提供的方法，具体实现方式和技术效果类似，这里不再进行赘述。

图9为本申请实施例提供的一种电子设备的结构示意图。如图9示，该电子设备可以包括：至少一个处理器701和存储器702。图9的是以一个处理器为例的电子设备。

存储器702，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器702可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器701用于执行存储器702存储的计算机执行指令，以实现上述文本分类模型的训练方法，或者，以实现上述文本分类方法；

其中，处理器701可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选的，在具体实现上，如果通信接口、存储器702和处理器701独立实现，则通信接口、存储器702和处理器701可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口、存储器702和处理器701集成在一块芯片上实现，则通信接口、存储器702和处理器701可以通过内部接口完成通信。

本申请实施例还提供了一种芯片，包括处理器和接口。其中接口用于输入输出处理器所处理的数据或指令。处理器用于执行以上方法实施例中提供的方法。该芯片可以应用于文本分类模型的训练装置中，或者可以应用于文本分类装置。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序信息，程序信息用于上述文本分类模型的训练方法，或者用于上述文本分类方法。

本申请实施例还提供一种程序，该程序在被处理器执行时用于执行以上方法实施例提供的文本分类模型的训练方法或者上述文本分类方法。

本申请实施例还提供一种程序产品，例如计算机可读存储介质，该程序产品中存储有指令，当其在计算机上运行时，使得计算机执行上述方法实施例提供的文本分类模型的训练方法或者上述文本分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述类别标签的类别体系按照层级结构排列，下层维度的类别标签的粒度细于比上层维度的类别标签。

3.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括表示学习网络，所述表示学习网络用于提取所述文本的初始表示信息的文本特征并得到所述文本的文本表示信息，所述表示学习网络的对比损失用于对所述文本的文本表示信息进行所述对比相关性规范。

4.根据权利要求3所述的方法，其特征在于，所述对比损失是根据对比三元组确定的，所述对比三元组包括样本数据集中的待训练文本、所述待训练文本的正样本和所述待训练文本的负样本。

5.根据权利要求4所述的方法，其特征在于，在所述使用所述样本数据集中的文本的初始表示信息对所述文本分类模型进行训练之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述构建所述待训练文本的三元组，包括：

7.根据权利要求5所述的方法，其特征在于，所述构建所述样本数据集中的待训练文本的三元组，还包括：

确定所述待训练文本与所述样本数据集中的文本的相似度；

8.根据权利要求1所述的方法，其特征在于，所述文本分类模型还包括分类学习网络，所述分类学习网络包括多个多类分类器，所述多个多类分类器用于分别多所述多个维度的类别标签进行分类学习。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述文本分类模型的训练机制包括多任务学习机制或分阶段训练机制。

10.根据权利要求1-8任一项所述的方法，其特征在于，在所述确定所述样本数据集中的文本的初始表示信息之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述无效样本包括错误样本和低频样本，所述低频样本的出现次数小于次数阈值，所述错误样本不满足所述类别标签的标签体系的层级结构。

12.一种文本分类方法，其特征在于，所述方法包括：

获取待分类的文本的描述信息；

13.一种文本分类模型的训练装置，其特征在于，所述装置包括：

14.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的文本的描述信息；

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-12任意一项所述的方法。

16.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-12任意一项的方法步骤。

17.一种或电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-12任意一项的方法。