CN109684478B

CN109684478B - 分类模型训练方法、分类方法及装置、设备和介质

Info

Publication number: CN109684478B
Application number: CN201811554820.XA
Authority: CN
Inventors: 张海松; 宋彦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2023-04-07
Anticipated expiration: 2038-12-18
Also published as: US11853704B2; CN111339306A; US20210216723A1; CN109684478A; WO2020125445A1; CN111339306B

Abstract

本申请实施例公开了一种分类模型训练方法、装置及相关设备，该方法先利用包括大量第一样本的第一样本集对初始分类模型进行训练，得到预训练模型，第一样本中包括社交文本及其对应的表情符号标签；再利用包括少量第二样本的第二样本集对预训练模型进行训练，得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。该方法将大量弱监督样本与少量有监督样本结合起来对模型进行训练，能够在不增加人工标注样本的情况下，保证训练得到的模型具有较好的模型性能。

Description

分类模型训练方法、分类方法及装置、设备和介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种分类模型训练方法、分类方法及装置、设备和介质。

背景技术

目前，社交文本的情感分类在许多产品中都具有重要作用，例如舆情分析、产品营销、聊天机器人等产品，都会依赖社交文本情感分类模型来实现对社交文本的情感分类，以基于情感分类结果实现相应的产品功能，这些产品的性能主要取决于社交文本情感分类模型的性能。

现有的社交文本情感分类模型，主要依赖于监督学习和人工标注的样本集，模型性能主要取决于人工标注的样本质量以及样本数量，只有基于大规模的高质量的样本数据，才能训练出高性能的社交文本情感分类模型。但是由于人工标注成本非常高，这就限制了高质量的样本数据的增广，而标注数量的不足就会影响模型的性能。

可见，目前这种模型训练方法受限于标注的样本数量，导致文本情感分类模型的性能不高，难以满足上述产品的性能需求。

发明内容

本申请实施例提供了一种分类模型训练方法、装置、相关设备以及介质，能够在不增加人工标注的样本的情况下，保证训练得到的性能较优的社交文本情感分类模型。

有鉴于此，本申请第一方面提供了一种分类模型训练方法，包括：

利用第一样本集对初始分类模型进行训练，得到预训练模型，所述第一样本集包括第一样本，所述第一样本包括社交文本及其对应的表情符号标签；

利用第二样本集对所述预训练模型进行训练，得到社交文本情感分类模型，所述社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出；所述第二样本集包括第二样本，所述第二样本包括社交文本及其对应的情感分类标签。

本申请第二方面提供了一种分类方法，包括：

获取社交文本；

根据所述社交文本，通过社交文本情感分类模型，获得所述社交文本对应的情感类别概率分布，所述社交文本情感分类模型是根据上述第一方面提供的所述分类模型训练方法训练得到的；

根据所述社交文本对应的情感类别概率分布，确定所述社交文本的情感类别。

本申请第三方面提供了一种分类模型训练装置，包括：

第一训练模块，用于利用第一样本集对初始分类模型进行训练，得到预训练模型，所述第一样本集包括第一样本，所述第一样本包括社交文本及其对应的表情符号标签；

第二训练模块，用于利用第二样本集对所述预训练模型进行训练，得到社交文本情感分类模型，所述社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出；所述第二样本集包括第二样本，所述第二样本包括社交文本及其对应的情感分类标签。

本申请第四方面提供了一种分类装置，包括：

获取模块，用于获取社交文本；

预测模块，用于利用预先训练的社交文本情感分类模型对所述社交文本的情感进行预测，得到所述社交文本对应的情感类别概率分布；所述社交文本情感分类模型是根据上述第一方面提供的所述分类模型训练方法训练得到的；

分类模块，用于根据所述社交文本对应的情感类别概率分布，确定所述社交文本的情感类别。

本申请第五方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上述第一方面所述的分类模型训练方法的步骤，或者，执行如上述第二方面所述的分类方法的步骤。

本申请第六方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的分类模型训练方法的步骤，或者，执行如上述第二方面所述的分类方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种分类模型训练方法，该方法利用包含有大量弱监督样本的第一样本集，对初始分类模型进行训练得到预训练模型，此处的弱监督样本即为第一样本，其包括社交文本及其对应的表情符号标签，利用社交文本中附带的表情符号能够在一定程度上表征社交文本的情感分类这一特点，直接将社交文本中附带的表情符号作为该社交文本对应的情感分类标签，无需人工标注样本标签；在完成对预训练模型的训练后，进一步利用包括有少量有监督样本的第二样本集，对该预训练模型做进一步优化训练，此处的有监督样本即为第二样本，其包括社交文本及其对应的人工标注的情感分类标签，从而得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。如此，将大量弱监督样本与少量有监督样本结合起来对模型进行训练，保证在不增加人工标注样本的成本的情况下，即在使用少量人工标注样本的情况下，训练出模型性能较优的社交文本情感分类模型。

附图说明

图1为本申请实施例提供的一种分类模型训练方法的应用场景示意图；

图2为本申请实施例提供的分类模型训练方法的流程示意图；

图3为本申请实施例提供的模型训练过程的架构示意图；

图4为本申请实施例提供的生成第一样本集的方法的流程示意图；

图5为本申请实施例提供的分类方法的流程示意图；

图6为本申请实施例提供的另一种分类模型训练方法的应用场景示意图；

图7为本申请实施例提供的一种分类模型训练装置的结构示意图；

图8为本申请实施例提供的另一种分类模型训练装置的结构示意图；

图9为本申请实施例提供的又一种分类模型训练装置的结构示意图；

图10为本申请实施例提供的一种分类装置的结构示意图；

图11为本申请实施例提供的另一种分类装置的结构示意图；

图12为本申请实施例提供的又一种分类装置的结构示意图；

图13为本申请实施例提供的再一种分类装置的结构示意图；

图14为本申请实施例提供的一种服务器的结构示意图；

图15为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，对社交文本情感分类模型进行训练时，主要依赖人工标注样本对模型进行有监督训练，然而，人工标注样本的成本非常高，在模型训练成本有限的情况下，通常只能获取少量的人工标注样本，利用少量的人工标注样本对模型进行训练，得到的模型的性能通常较差，很多情况下无法满足实际应用产品的需求。

为了解决上述现有技术存在的技术问题，本申请提供了一种分类模型训练方法，该方法将大量弱监督样本与少量有监督样本结合起来，对分类模型进行训练，保证在不增加人工标注样本的情况下，训练得到性能较优的社交文本情感分类模型。

应理解，本申请实施例提供的分类模型训练方法可以应用于具备模型训练功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(PersonalDigital Assitant，PDA)、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

在实际应用中，终端设备和服务器可以单独训练分类模型，也可以彼此交互训练分类模型；二者交互训练分类模型时，服务器可以从终端设备处获取社交文本，基于所获取的社交文生成第一样本和第二样本，并相应地组成第一样本集和第二样本集，进而利用第一样本集和第二样本集对分类模型进行训练；相类似地，终端设备也可以从服务器处获取社交文本，基于所获取的社交文本生成第一样本和第二样本，并相应地组成第一样本集和第二样本集，进而利用第一样本集和第二样本集对分类模型进行训练。

应理解，终端设备或服务器执行本申请实施例提供的分类模型训练方法，训练得到社交文本情感分类模型后，可以将该社交文本情感分类模型发送至其他终端设备，以在这些终端设备上运行该社交文本情感分类模型，实现相应的功能；也可以将该社交文本情感分类模型发送至其他服务器，以在其他服务器上运行该社交文本情感分类模型，通过这些服务器实现相应的功能。

为了便于理解本申请实施例提供的技术方案，下面以服务器训练分类模型为例，结合实际应用场景对本申请实施例提供的分类模型训练方法进行介绍。

参见图1，图1为本申请实施例提供的分类模型训练方法的应用场景示意图。该应用场景中包括若干个终端设备101和用于训练神经网络模型的服务器102，各个终端设备101和服务器102可以通过网络连接；其中，各个终端设备101可以为服务器102提供用于生成第一样本和第二样本的社交文本。

如图1所示，服务器102可以从各个终端设备101处获取社交文本，所获取的社交文本中包括附带有表情符号的社交文本；进而，服务器102可以通过对附带有表情符号的社交文本进行相应地处理，确定该社交文本对应的表情符号标签，进而将社交文本及其对应的表情符号标签作为第一样本，利用大量第一样本组成第一样本集；服务器102收集到社交文本之后，以为标注人员提供这些社交文本，从而基于人工标注的方式相应地对所收集的社交文本进行人工标注，以标注出社交文本对应的情感分类标签，进而将社交文本及其对应的情感分类标签作为第二样本，利用少量第二样本组成第二样本集。

进而，服务器102利用第一样本集中的第一样本，对预先构建的初始分类模型进行训练，得到预训练模型；再利用第二样本集中的第二样本，对预训练模型进行训练，得到能够以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。

需要说明的是，上述第一样本集中包括大量第一样本，第一样本为弱监督样本，其利用社交文本中附带的表情符号能够在一定程度上表征社交文本的情感分类这一特点，直接将社交文本中附带的表情符号作为该社交文本对应的情感分类标签，无需人工标注样本标签；在利用第一样本集训练得到预训练模型的基础上，进一步利用第二样本集对预训练模型进行优化训练，得到社交文本情感分类模型，该第二样本集中通常仅包括少量第二样本，该第二样本为有监督样本，其中包括人工标注的情感分类标签，基于该有监督样本对预训练模型做二次训练，进一步确保训练得到的社交文本情感分类模型具有较优的模型性能。

需要说明的是，服务器102还通过其他方式获取社交文本，例如从数据库、从其他服务器处获取社交文本，当然，服务器102也可以直接从其他设备处获得第一样本集和第二样本集，应理解的是，上述图1所示的应用场景仅为一种示例，在实际应用中，本申请实施例提供的分类模型训练方法还可以应用于其他应用场景，在此不对该分类模型训练方法的应用场景做任何限定。

下面通过实施例对本申请提供的分类模型训练方法进行介绍。

参见图2，图2为本申请实施例提供的一种分类模型训练方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该分类模型训练方法的执行主体并不限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图2所示，该分类模型训练方法包括以下步骤：

步骤201：利用第一样本集对初始分类模型进行训练，得到预训练模型；该第一样本集中包括第一样本，该第一样本包括社交文本及其对应的表情符号标签。

服务器获取大量包括有表情符号的社交文本，通过对所获取的社交文本进行相应地处理，确定社交文本对应的表情符号标签，进而将社交文本以及其对应的表情符号标签作为第一样本，如此生成大量第一样本，组成第一样本集；进而，利用第一样本集中各个第一样本对预先构建的初始分类模型进行训练，以对初始分类模型的模型参数不断地进行优化，从而得到预训练模型。

需要说明的是，上述社交文本具体可以为用户在社交软件的状态发布区中发表的文本，其中携带有表情符号；例如，用户在微博状态发布区、微信朋友圈以及QQ空间等状态发布区内发表的携带有表情符号的文本；此外，上述社交文本还可以为用户通过社交软件向其他用户发送的文本，其中携带有表情符号；例如，用户通过微信、微博和QQ等社交软件，向其他用户发送的携带有表情符号的文本。

应理解，第一样本集是服务器通过对所获取的社交文本进行一定的处理后生成的，具体生成第一样本集的方法将在后续实施例详细介绍，详细参见后续实施例中的相关描述。

具体利用第一样本对初始分类模型进行训练时，服务器可以先利用分词工具对第一样本中的社交文本进行分词处理，得到该社交文本对应的分词序列，进而将该社交文本对应的分词序列输入至初始分类模型；初始分类模型通过对该社交文本对应的分词序列进行分析处理，输出该社交文本对应的预测情感类别概率分布，对比该预测情感类别概率分布以及该第一样本中表情符号标签对应的情感类别概率分布，生成对比结果，进而基于该对比结果对初始分类模型的模型参数进行调整。

如此按照上述方式，利用第一样本集中的各第一样本对初始分类模型参数进行迭代调整，从而使得初始分类模型逐步趋于收敛，即逐步优化初始分类模型的模型性能，当该初始分类模型满足收敛条件时，根据当前初始分类模型的模型结构以及模型参数确定预训练模型。

需要说明的是，上述初始分类模型具体可以包括词嵌入层、卷积层、至少一个特征提取层以及分类层；其中，特征提取层中可以包括多个卷积层和一个池化层，其中的每个卷积层与其后所有的卷积层相连接。

参见图3，图3为本申请实施例提供的模型训练过程的架构示意图。该图中示出了模型的网络结构以及双重训练架构，该双重训练架构可以包括S1：预训练过程和S2:训练过程。下面先基于图3对预训练过程中所基于的初始分类模型进行解释。如图3所示，该初始分类模型中包括有词嵌入层310、卷积层320、至少一个特征提取层330和分类层341。

其中，词嵌入层310可以把一个维数为所有词的数量的高维空间嵌入至一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

卷积层320中包括大小不同的多个卷积核，其使用词嵌入层320的输出作为自身的输入，通过对输入数据进行卷积操作，逐层提取文本中的语义信息，从而得到抽象程度更高的特征。

特征提取层330中包括有多个卷积层以及一个池化层，其中的各个卷积层不仅与自身相邻的卷积层有连接，其还与设置在自身后面的各个卷积层均有直接的连接；如图3所示，特征提取层330中包括卷积层331、卷积层332、卷积层333、卷积层334和池化层335，其中，卷积层331不仅与其相邻的卷积层332具有连接关系，其还与卷积层333、卷积层334也具有直接的连接关系，相类似地，卷积层332不仅与其相邻的卷积层331和卷积层333具有连接关系，其还与卷积层334具有直接的连接关系。

应理解，特征提取层330中所包括的卷积层的数目还可以为任意个数，图3所示的特征提取层330中的卷积层的数目仅为示例，在此不对特征提取层中所包括的卷积层的数目做任何限定。

需要说明的是，卷积神经网络对于图形处理器(Graphics Processing Unit，GPU)的并行处理较为友好，因此，对该包括有大量密集连接的卷积层的初始分类模型进行训练，可以极大地提高模型训练效率，有效地节省模型训练和模型测试的时间成本。

需要说明的是，上述特征提取层330中除了可以使用卷积层提取特征外，在实际应用中，还可以利用多层感知器(Multi-Layer Perceptron，MLP)、残差网络、双向长短记忆网络BiLSTM等网络结构替代上述卷积层，在此不对特征提取层330中包括的神经网络结构做任何限定。

需要说明的是，在实际应用中，为了提高模型分类的准确度，初始分类模型中可以包括多个特征提取层330，当包括多个特征提取层330时，多个特征提取层330串行连接，前一个特征提取层330的输出作为后一个特征提取层330的输入。

分类层341进一步基于特征提取层330的输出，确定社交文本对应的表情符号标签。

可选的，该初始分类模型中还可以包括全局池化层350和至少一个全连接层360，其中，全局池化层350设置在特征提取层330之后，至少一个全连接层360串行连接，设置于全局池化层350之后、分类层341之前。

应理解，图3所示初始分类模型结构仅为一种示例，在实际应用中，初始分类模型还可以为其他结构，在此不对该初始分类模型的模型结构做任何限定。

步骤202：利用第二样本集对预训练模型进行训练，得到社交文本情感分类模型；该社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出；该第二样本集中包括第二样本，该第二样本包括社交文本及其对应的情感分类标签。

服务器训练得到预训练模型后，进一步利用第二样本集中的第二样本对该预训练模型进行训练，从而得到社交文本情感分类模型，该社交文本情感分类模型能够以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出，该情感类别的概率分布具体为该社交文本对应于各种情感类别的概率。

需要说明的是，上述第二样本为基于人工标注生成的有监督样本，其中包括社交文本及其对应的情感分类标签，该情感分类标签能够表征社交文本所对应的情感类别。第二样本中的社交文本可以为携带表情符号的社交文本，该第二样本社交文本也可以为不携带表情符号的普通文本。

而且，第二样本集与第一样本集中的社交文本可以相同，也可以不同。考虑到人工标注人工较高，在具体实现时，为了节省人工成本，则第二样本集的样本个数可以远远小于第一样本集；当然，本申请的实现对样本个数也可以不做具体限定，例如，第二样本集和第一样本集中的样本个数可以相同，也可以不同。

服务器获取上述第二样本时，可以先获取社交文本，进而采用人工标注的方式为所获取的社交文本标注其对应的情感分类标签，将该社交文本与其对应的情感分类标签作为第二样本，如此获取预设数量的第二样本，组成第二样本集。

需要说明的是，当社交文本为微博时，第二样本中对应于该社交文本的情感标签相应地用于表征该微博的情感极性；当社交文本为朋友圈状态时，该第二样本中对应于该社交文本的情感标签相应地用于表征该状态的情感极性，以此类推。

应理解，情感标签的分类具体可以包括正极性、负极性和中性，其中，正极性的情感标签普遍对应于积极的情感类别、负极性的情感标签普遍对应于消极的情感类别，中性的情感标签不具有明显的情感倾向。

当然，情感标签的分类并不仅局限于上述正极性、负极性和中性，还可以为喜怒哀乐等分类，即该情感标签的分类可以根据实际需求进行设置，在此不对该情感标签的分类做具体限定。

应理解，由于预训练模型是利用大量的第一样本训练得到的模型，该预训练模型已经具备较强的情感分类能力，因此，利用第二样本对该预训练模型进行训练时，仅利用少量的第二样本对其进行训练，即可实现对模型性能的进一步优化，并保证优化得到的社交文本情感分类模型具备较优的模型性能，由此减少了训练过程所需的人工标注样本数量，节省了人工标注样本需要耗费的成本。

具体利用第二样本集对预训练模型进行训练时，服务器可以先利用分词工具对第二样本中的社交文本进行分词处理，得到该社交文本对应的分词序列，进而将该社交文本对应的分词序列输入至在步骤201中训练得到预训练模型；该预训练模型通过对社交文本对应的分词序列进行分析处理，输出该社交文本对应的预测情感类别的概率分布，对比该预测情感类别的概率分布以及根据第二样本中情感分类标签生成的情感类别概率分布，生成对比结果，进而基于该对比结果对预训练模型的模型参数进行调整。

如此按照上述方式，利用第二样本集中的各个第二样本对预训练模型的模型参数进行迭代调整，从而使得预训练模型进一步趋于收敛，即逐步优化该预训练模型的模型性能，当该预训练模型的模型性能满足收敛条件时，根据当前预训练模型的模型结构以及模型参数，确定社交文本情感分类模型。

在第二样本集中包括的第二样本数量较少的情况下，若直接对预训练模型进行整体训练，通常只能对靠近模型输入的部分网络结构进行有效地优化训练，而对于靠近模型输出的网络结构难以起到有效的优化作用，为了保证对预训练模型中各个网络结构均进行有效地优化训练，本申请采用了冻结与解冻权值的方式对预训练模型进行训练，将预训练模型中的各部分网络结构模块化，利用第二样本集对各个模块逐一进行训练，从而保证对预训练模型中各网络结构均进行有效地优化。

应理解，利用第一样本集训练得到的预训练模型，与初始分类模型的模型结构基本相同，即当初始分类模型中包括词嵌入层、卷积层、至少一个特征提取层以及分类层时，预训练模型中也同样包括词嵌入层、卷积层、至少一个特征提取层以及分类层。

服务器基于该预训练模型的模型结构，采用冻结与解冻权值的方法，利用第二样本集对该预训练模型进行训练时，服务器可以先对该预训练模型进行功能模块化处理，得到多个子模块；进而，按照冻结与解冻权值的方式，利用第二样本集依次对每个子模块进行训练，直到多个子模块均处于收敛状态，服务器将包括多个处于收敛状态的多个子模块的模型作为社交文本情感分类模型；其中，冻结与解冻权值的方式是指在训练某个子模块时，解冻某个子模块的权值对其进行训练，同时冻结其余子模块的权值。

为了便于理解上述训练过程，下面结合图3所示的社交文本情感分类模型的整个训练过程进行介绍。

首先，利用第一样本集按照图3中虚线箭头S1所指示的训练路线对各个网络层的网络参数进行优化，以训练得到预训练模型；然后以预训练模型为基准，再利用第二样本集按照图3中虚线箭头S2所指示的训练路线对各个网络层的网络参数进行优化，最终训练得到社交文本情感分类模型。

如图3所示，在训练预训练模型时，采用的分类器为分类器341，该分类器341用于根据其前一神经网络层的输出，确定各种表情符号标签与输入的社交文本对应的概率。在训练社交文本情感分类模型时，采用的分类器为分类器342，而分类器342用于根据其前一神经网络层的输出，相应地确定社交文本对应的情感类别的概率分布。

需要说明的是，图3所示的初始分类模型的模型结构实际上即为预训练模型的模型结构，也是社交文本情感分类模型的模型结构。

为了便于描述，下面假设图3所示的初始分类模型中包括两个特征提取层330。

服务器在训练预训练模型的过程中，将预训练模型划分为a子模块、b子模块、c子模块和d子模块，其中，a子模块中包括词嵌入层310和卷积层320，b子模块中包括第一个特征提取层330，c子模块中包括第二个特征提取层330，d子模块中包括全局池化层350和两个全连接层360。

应理解，具体划分子模块时，服务器还可以将预训练模型划分成其他形式，即各子模块的划分方式并不仅限于上述划分方式，在此不对子模块的划分方式做任何限定。

完成子模块的划分后，服务器按照冻结与解冻权值的方式，利用第二样本集中的各第二样本对a子模块、b子模块、c子模块和d子模块逐一进行训练；具体的，服务器可以先利用第二样本对a子模块进行训练，此时，解冻a子模块中各神经网络层的模型参数，冻结b子模块、c子模块和d子模块中各层神经网络层的模型参数，利用第二样本对a子模块进行训练，使得该a子模块中各神经网络层的模型参数逐步趋于收敛，待该a子模块满足收敛状态后，确定完成对该a子模块的训练；进而，利用第二样本对b子模块进行训练，此时，解冻b子模块中各神经网络层的模型参数，冻结a子模块、c子模块和d子模块中各层神经网络层的模型参数，利用第二样本对b子模块进行训练，使得b子模块中各神经网络层的模型参数逐步趋于收敛，待b子模块满足收敛状态后，确定完成对该b子模块的训练；以此类推，采用类似的方式对c子模块和d子模块进行训练，待a子模块、b子模块、c子模块和d子模块均处于收敛状态后，将该预训练模型作为社交文本情感分类模型。

应理解，在实际应用中，服务器可以按照预训练模型的模型结构，依次对划分出的各个子模块进行训练，当然，服务器也可以按照其他顺序对各子模块进行训练，在此不对服务器的训练顺序做任何限定。

应理解，在实际应用中，对于预训练模型的训练方式并不仅局限于上冻结与解冻权值的方式，服务器也可以根据实际需求，采用其他训练方式对预训练模型进行训练，得到社交文本情感分类模型，在此不对用于训练预训练模型的训练方式做任何限定。

上述实施例提供的分类模型训练方法，利用包含有大量弱监督样本的第一样本集，对初始分类模型进行训练得到预训练模型，此处的弱监督样本即为第一样本，其包括社交文本及其对应的表情符号标签，利用社交文本中自带的表情符号能够在一定程度上表征社交文本的情感分类这一特点，直接将社交文本中自带的表情符号作为该社交文本对应的情感分类标签，无需人工标注样本标签；在完成对预训练模型的训练后，进一步利用包括有少量有监督样本的第二样本集，对该预训练模型做进一步优化训练，此处的有监督样本即为第二样本，其包括社交文本及其对应的人工标注的情感分类标签，从而得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。如此，将大量弱监督样本与少量有监督样本结合起来对模型进行训练，保证在不增加人工标注样本的成本的情况下，即在使用少量人工标注样本的情况下，训练出模型性能较优的社交文本情感分类模型。

需要说明的是，在上述分类模型训练方法中，服务器先利用大量的弱监督样本即第一样本集对初始分类模型进行训练得到预训练模型，再利用少量的有监督样本即第二样本集对预训练模型进行训练，得到社交文本情感分类模型；基于大量的弱监督样本对初始分类模型进行训练，有效地保证了后续在使用少量的有监督样本的条件下，也能够训练出性能较优的社交文本情感分类模型。

可见，第一样本集在本申请实施例提供的分类模型训练方法中，起到了至关重要的作用。下面将结合图4，对本申请实施例提供的第一样本集的生成方法进行介绍。

参见图4，图4为本申请实施例提供的第一样本集生成方法的流程示意图。为了便于描述，下述实施例仍以服务器作为执行主体进行描述，应理解，该第一样本集生成方法的执行主体并不限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图4所示，该方法包括以下步骤：

步骤401：采集多个社交文本，生成社交文本集，该社交文本集中包括表情符号。

服务器可以通过各种方式采集大量的社交文本，所采集的社交文本中均包含有表情符号，该表情符号具体可以为社交软件中预置的表情符号，也可以为颜文字；进而，服务器利用这些包含有表情符号的社交文本组成社交文本集。

服务器具体可以通过以下实现方式来获取上述社交文本：

在一种可能的实现方式中，服务器可以从与自身关联的数据库中提取社交文本。具体的，服务器可以在用于存储社交文本的数据库中，识别其中存储的各历史社交文本中是否携带表情符号，进而从中获取携带有表情符号的社交文本，利用这些社交文本组成社交文本集。

在另一种可能的实现方式中，服务器可以从终端设备处实时采集社交文本。具体的，服务器接收终端设备发送的社交文本，该社交文本具体可以为用户在社交软件状态发布区中发表的社交文本，也可以为用户通过社交软件向其他用户发送的社交文本，服务器识别这些社交文本中是否携带有表情符号，进而从中获取携带有表情符号的社交文本，利用这些社交文本组成社交文本集。

在又一种可能的实现方式中，服务器还可以从其他服务器处获取社交文本。具体的，服务器与其他社交软件服务器通信，请求其他社交软件服务器为自身提供携带有表情符号的社交文本，相应地，其他社交软件服务器可以在自身存储的历史社交文本和实时接收的社交文本中，采集携带有表情符号的社交文本发送至服务器，利用这些社交文本组成社交文本集。

应理解，在实际应用中，服务器还可以通过其他方式采集携带有表情符号的社交文本，上述采集方式仅为示例，在此不对服务器采集社交文本的方式做任何限定。

步骤402：针对社交文本集中的各表情符号，根据该表情符号出现的次数以及该表情符号与情感词典中各情感词的共现次数，确定该表情符号的情感能力。

服务器生成社交文本集后，统计该社交文本集中包括的所有表情符号，进而计算每个表情符号对应的情感能力；具体的，服务器需要基于每个表情符号在社交文本集中出现的次数，以及表情符号与情感词典中各情感词的共现次数，确定每个表情符号对应的情感能力，表情符号与情感词共现即为表情符号与情感词出现在同一社交文本中的次数。

需要说明的是，上述情感词典中包括大量正负情感类别的情感词，相应地，表情符号与某一情感词共同出现在同一社交文本中，则说明该表情符号可能与该情感词具有一定的关联，或者说，该表情符号可能与该情感词的情感类别相同。

具体计算表情符号对应的情感能力时，可以基于下述公式(1)和公式(2)进行计算：

其中，Pscore(e_i)为社交文本集中第i个表情符号对应的正向情感能力；Nscore(e_i)为社交文本集中第i个表情符号对应的负向情感能力；count(e_i，p_j)为第i个表情符号与情感词典中第j个正向情感词的共现次数；count(e_i，n_k)为第i个表情符号与情感词典中第k个负向情感词的共现次数；count(e_i)为第i个表情符号在社交文本集中的出现次数；M和N分别为情感词典中收录的正向情感词的数量和负向情感词的数量。

将社交文本集中第i个表情符号对应的正向情感能力与负向情感能力相加，得到该第i个表情符号的情感能力，如此计算得到社交文本集中各个表情符号各自对应的情感能力。

步骤403：针对社交文本集中各社交文本，确定社交文本中所包含的情感能力最高的表情符号，作为该社交文本对应的表情符号标签。

服务器确定出社交文本集中各表情符号的情感能力后，可以进一步基于各表情符号的情感能力，确定社交文本集中各社交文本对应的表情符号标签；具体的，可以直接确定该社交文本中包含的情感能力最高的表情符号，作为该社交文本对应的表情符号标签。

应理解，当社交文本中仅包含一个表情符号时，该表情符号相应地即为该社交文本中情感能力最高的表情符号，因此，可以直接将该表情符号作为该社交文本对应的表情符号标签；当社交文本中包含多个表情符号时，可以对各表情符号的情感能力大小进行排序，进而从多个表情符号中，选取情感能力最高的表情符号作为该社交文本对应的表情符号标签。

需要说明的是，很多表情符号所具备的情感能力可能较弱，即很多表情符号并不能有效地表征情感，在实际应用中，这类表情符号对于情感分类所起的帮助并不大；因此，在训练分类模型的过程中，为了减少不必要资源耗费，可以仅利用部分能够有效表征情感的表情符号作为表情符号标签，即利用情感能力较高的表情符号作为表情符号标签，基于包含有这些表情符号标签的社交文本生成第一样本。

具体的，服务器可以按照表情符号的情感能力由高到低排序，从社交文本集中选择排序靠前的前M个表情符号(M为正整数)；进而，确定社交文本中包括这M个表情符号中情感能力最高的表情符号，作为该社交文本对应的表情符号标签。

具体实现时，服务器可以对社交文本集中包括的所有表情符号的情感能力，按照从高到低的顺序进行排序，选择排序靠前的M个表情符号；进而，服务器在社交文本集中筛选出包括有这M个表情符号的社交文本，针对这些被筛选出的社交文本，确定其各自对应的表情符号标签，即确定各社交文本中情感能力最高的表情符号，作为各社交文本各自对应的表情符号标签。

应理解，M的数值可以根据实际需求进行设定，具体可以设置为60、20、8等，在此不对M的具体数值做任何限定。

步骤404：根据社交文本集中各社交文本及其对应的表情符号标签，生成第一样本集。

服务器针对社交文本集中全部或部分的社交文本，确定出其各自对应的表情符号标签后，服务器可以将每个社交文本及其对应的表情符号标签作为一个第一样本，如此确定出若干个第一样本，利用所有第一样本组成第一样本集。

需要说明的是，在很多情况下，服务器所采集的社交文本可能不太符合用于训练模型的样本要求，为了保证能够获得更好的模型训练效果，服务器在生成第一样本时，还可以对社交文本进行一定的预处理。

具体的，当社交文本中存在表情符号时，服务器需要去掉社交文本中的表情符号；当社交文本为微博文本等社交文本时，服务器还需要将社交文本中的转发符号以及转发符号所连接的内容替换成空格符号，例如，将社交文本中的@XXX替换成空格符号；当社交文本中存在网页链接时，服务器可以将网页链接也替换为空格符号；服务器还可以将社交文本中的全角符号替换为半角符号，将社交文本中繁体形式的文本转换为简体形式的文本；当社交文本中存在一些网络滥用词时，服务器可以根据滥用词的语义，将其相应地转换为标准用词；当社交文本中存在hashtag标签时，相应地删除社交文本中的hashtag标签；当社交文本中存在大写字母时，还可以将这些大写字母替换为小写字母；当社交文本中存在除正常标点符号外的特殊字符时，将这些特殊字符替换为空格；当社交文本中存在多个连续的空格时，将这些连续的空格替换为一个空格，并且在社交文本的开头和结尾处存在空格的情况下，去掉开头和结尾处的空格。

应理解，服务器具体对社交文本进行预处理时，可以根据实际需求以及社交文本的实际情况，从上述预处理方式中，选择一项或多项对社交文本相应地进行预处理；当然，服务器还可以根据自身的实际需求，采用其他预处理方式对社交文本进行相应地处理，在此不对社交文本的预处理方式做任何限定。

为了保证在利用第一样本集对初始分类模型训练的过程中，针对各表情符号标签对应的情感类别均能有效地进行训练，即保证利用第一样本集训练得到的预训练模型，能够有效地将输入的社交文本划分至各表情符号标签对应的情感类别。

服务器在生成第一样本集时，可以基于不同表情符号对应的社交文本数量相同的原则，从社交文本集中抽取不同表情符号所对应的社交文本；进而，根据所抽取的社交文本及其对应的表情符号标签，生成第一样本集。

具体的，服务器可以在社交文本集中，针对各表情符号均抽取数量相同的社交文本，进而，基于所抽取的社交文本以及各表情符号生成第一样本，利用所有第一样本组成第一样本集。

应理解，当服务器仅选取M个情感能力较高的表情符号作为表情符号标签时，服务器需要针对这M个表情符号，从社交文本集中抽象数量相同的社交文本，即保证这M个表情符号各自对应的社交文本的数量相同，进而基于所抽取的社交文本和M个表情符号生成第一样本，并利用所生成的所有第一样本组成第一样本集。

在上述第一样本集生成方法中，服务器基于社交文本集中各表情符号的出现次数，以及各表情符号与情感词典中各情感词的共现次数，确定各表情符号的情感能力，进而基于各表情符号的情感能力，确定社交文本集中各社交文本对应的表情符号标签，由此利用各社交文本及其对应的表情符号标签生成第一样本，并将所生成的第一样本组成第一样本集。该方法利用社交文本中附带的表情符号能够在一定程度上表征社交文本的情感分类这一特点，直接根据社交文本中附带的表情符号生成社交文本对应的表情符号标签，由此无需人工对样本数据的标签进行标注，节约了人工标注样本的成本；基于大量的第一样本对初始分类模型，能够保证训练得到的预训练模型具备基本的情感分类能力，因此，利用人工标注数据对该预训练模型进行进一步训练时，在不需要大量的人工标注数据的情况下，也能够保证训练得到的社交文本情感分类模型具备较好的模型性能。

基于上述实施例提供的分类模型训练方法，可以训练得到具备较好的模型性能的社交文本情感分类模型，基于该社交文本情感分类模型，本申请进一步提供了一种分类方法，以便更清楚地了解上述社交文本情感分类模型在实际应用中所起的作用。

应理解，本申请实施例提供的分类方法可以应用于具备数据处理功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

应理解，基于上述分类模型训练方法训练得到的社交文本情感分类模型，可以在终端设备或服务器中运行，当该社交文本情感分类模型在终端设备中运行时，终端设备可以直接利用该社交文本情感分类模型，确定用户输入的社交文本的情感类别；当社交文本情感分类模型在服务器中运行时，服务器可以获取终端设备发送的社交文本，利用该社交文本情感分类模型，确定终端设备发送的社交文本的情感类别。

下面通过实施例对本申请提供的分类方法做具体介绍。

参见图5，图5为本申请实施例提供的一种分类方法的流程示意图。为了便于描述，本实施例以终端设备作为执行主体对方案进行描述，应理解，在实际应用中，该分类方法的执行主体还可以为服务器等设备。如图5所示，该分类方法包括以下步骤：

步骤501：获取社交文本。

终端设备具体获取社交文本时，可以获取用户在某些社交平台发表的文本作为社交文本，例如，终端设备可以获取用户在微博、微信朋友圈以及QQ空间等公共社交平台上发表的文本作为社交文本；此外，终端设备还可以获取用户在特定界面上输入的文本作为社交文本，例如，终端设备可以获取用户在聊天界面上输入的文本作为社交文本。

需要说明的是，在一些情况下，终端设备还可以采用语音识别功能，将用户输入的语音相应地转换为文本，终端设备也可以将如此转换得到的文本作为社交文本。

应理解，在实际应用中，终端设备可以通过各种方式获取社交文本，上述获取方式仅为本实施例提供的几种示例，在此不对终端设备获取社交文本的方式做任何限定。

步骤502：根据社交文本，通过社交文本情感分类模型，获得所述社交文本对应的情感类别概率分布；该社交文本情感分类模型是根据图2所示的分类模型训练方法训练得到的。

终端设备获取到社交文本后，将所获取的社交文本输入至终端设备中运行的社交文本情感分类模型，利用该社交文本情感分类模型对社交文本进行处理，输出该社交文本对应的情感类别概率分布。

需要说明的是，上述社交文本情感分类模型即为经图2所示的分类模型训练方法训练得到的模型，该模型以社交文本作为输入，以社交文本对应的情感类别概率分布作为输出。

具体实现时，终端设备获取到社交文本后，可以先对社交文本进行分词处理，得到该社交文本对应的分词序列，进而将该社交文本对应的分词序列输入至社交文本情感分类模型，该社交文本的分词序列在社交文本情感分类模型中，经词嵌入层、卷积层、特征提取层、全局池化层、全连接层以及分类层的处理，最终输出该社交文本对应的情感类别概率分布，该情感类别概率分布具体表现为该社交文本对应于各种情感类别的概率。

应理解，当社交文本情感分类模型的情感分类包括正极性、负极性和中性时，相应地，社交文本情感分类模型输出的社交文本对应的情感类别分布概率表现为该社交文本对应于正极性情感的概率、该社交文本对应于负极性的概率以及该社交文本对应于中性情感的概率；当社交文本情感分类模型的情感分类包括喜、怒、哀和乐时，相应地，社交文本情感分类模型输出的社交文本对应的情感类别分布概率表现该社交文本分别对应喜、怒、哀和乐的概率。

当然，社交文本情感分类模型还可以用于对其他形式的情感进行分布，在此不对社交文本情感分类模型的情感分类形式，以及其输出的情感类别分布概率的表现形式做任何限定。

步骤503：根据社交文本对应的情感类别概率分布，确定社交文本的情感类别。

进而，终端设备根据社交文本情感分类模型输出的情感类别分布概率，确定该社交文本对应的情感类别，具体的，终端设备可以直接将情感类别分布概率中概率值最大的情感类别作为该社交文本对应的情感类别。

例如，假设社交文本情感分类模型针对某社交文本输出的情感类别分布概率为：正极性70％、负极性5％以及中性25％，相应地，终端设备可以直接确定该社交文本对应的情感类别为正极性。

在上述分类方法中，终端设备利用基于图2所示的分类模型训练方法训练得到的社交文本情感分类模型，对所获取的社交文本进行处理，相应地确定所获取的社交文本的情感类别。上述社交文本情感分类模型是利用大量弱监督样本和少量有监督样本训练出来的，具备较好的模型性能，因此，利用该社交文本情感分类模型针对社交文本确定出的情感类别较为准确。

需要说明的是，上述图5所示的分类方法可以应用于各种应用场景，下面结合几种典型的应用场景，对上述分类方法做进一步介绍。

在一种可能的应用情况下，上述分类方法可以应用于使用聊天机器人聊天的应用场景中。在这种应用场景中，上述分类方法的执行主体一般为终端设备，该终端设备中运行有社交文本情感分类模型。

终端设备获取用户通过聊天界面输入的聊天文本，作为社交文本；具体的，用户可以在终端设备提供的聊天界面上输入聊天文本，终端设备相应地获取用户所输入的聊天文本，将该聊天文本作为社交文本；用户也可以通过语音输入聊天内容，终端设备接收到用户的聊天语音后，调用语音识别功能将聊天语音相应地转换为聊天文本，并将该聊天文本作为社交文本。

终端设备获取到社交文本后，采用上述图5所示的分类方法，利用社交文本情感分类模型对社交文本进行相应地处理，确定社交文本的情感类别。

进而，终端设备可以进一步确定与社交文本的情感类别和社交文本相匹配的答复内容；并在聊天界面显示该答复内容。

具体的，终端设备可以根据所确定出的社交文本的情感类别以及社交文本本身对应的语义，相应地生成用于答复该社交文本的答复内容，进而将所生成的答复内容显示在聊天界面上，当然，终端设备也可以进一步将该答复内容转换成对应的语音，通过播放语音的方式答复用户。

由此，基于社交文本情感分类模型准确地确定用户聊天内容的情感类别，保证后续基于该情感类别以及用户的聊天内容，能够生成合理的答复内容，提高用户的使用体验。

在另一可能的应用情况下，上述分类方法可以应用于向用户推荐相关对象的应用场景中。在这种应用场景中，上述分类方法的执行主体一般为服务器，该服务器中运行有社交文本情感分类模型。

在很多情况下，用户经常会通过微博、微信朋友圈以及QQ空间等公共社交平台，发布自身对于某些产品、新闻、广告等对象的评论文本；相应地，服务器可以采集用户发布的评论文本，根据用户发布过的评论文本的情感趋向，针对性地为用户推荐用户可能感兴趣的相关内容。

服务器获取指定用户的对象评论文本，作为社交文本；具体的，服务器可以根据指定用户标识，获取该指定用户发布过的对象评论文本作为社交文本，此处的对象评论文本具体可以为用户对于产品的评论文本，也可以为用户对于广告信息的评论文本，还可以为用户对于新闻信息的评论文本。

服务器获取到社交文本后，采用上述图5所示的分类方法，利用社交文本情感分类模型对社交文本进行相应地处理，确定社交文本的情感类别。

进而，服务器确定出社交文本的情感类别后，进一步根据该社交文本的情感类别，为指定用户进行对象推荐。

具体的，若确定用户针对某一对象发布的社交文本属于正极性情感，则相应地可以确定用户对这一对象比较感兴趣，相应地，服务器可以搜索与该对象相关或相似的对象作为推荐对象，进而向用户进行推荐；反之，若确定用户针对某一对象发布的社交文本属于负极性情感，则相应地可以确定用户对这一对象不感兴趣，相应地，服务器后续避免向用户推荐与该对象相关或相似的对象。

由此，基于社交文本情感分类模型准确地确定指定用户对于评论对象的情感类别，保证服务器后续能够向指定用户进行有效地对象推荐，提高用户的使用体验。

在又一可能的应用情况下，上述分类方法可以应用于对舆情进行分析的应用场景中。在这种应用场景中，上述分类方法的执行主体一般为服务器，该服务器中运行有社交文本情感分类模型。

在很多情况下，用户经常会通过微博、微信朋友圈以及QQ空间等公共社交平台，发布自身对于一些产品的评论文本；相应地，产品的商家在对产品的舆情进行分析时，需要在网络中收集用户对于特定产品产生的评论，以便根据用户的评论，针对该特定产品生成舆情报告。

服务器获取与指定产品相关的社交文本；具体的，服务器可以根据与指定产品相关的关键词，如指定产品的产品名称、产品名称缩写等，从各社交平台的社交文本中筛选出与指定产品相关的社交文本。

服务器获取到社交文本后，采用上述图5所示的分类方法，利用社交文本情感分类模型对所采集的各与指定产品相关的社交文本进行相应地处理，确定各社交文本各自的情感类别。

进而，服务器根据与指定产品相关的社交文本各自的情感类别，生成指定产品的舆情报告；具体的，服务器确定出各社交文本各自的情感类别后，相应地按照舆情报告模板，生成关于该指定产品的舆情报告。

由此，基于社交文本情感分类模型准确地确定用户对于指定产品的情感类别，进而保证基于该情感类别生成的舆情报告更加准确，更符合用户的实际使用体验。

为了便于进一步理解本申请实施例提供的分类模型训练方法以及分类方法，下面结合具体应用场景，对本申请实施例提供的分类模型训练方法以及分类方法进行整体性介绍。

参见图6，图6为本申请实施例提供的分类模型训练方法的应用场景示意图。

如图6所示，服务器601在对模型进行训练之前，可以先从终端设备602处采集大量包括有表情符号的社交文本，利用这些社交文本组成社交文本集，针对社交文本集中各表情符号，根据表情符号在社交文本集中的出现次数以及表情符号与情感词典中各情感词的共现次数，确定社交文本集中各表情符号的情感能力，进而，针对社交文本集中各社交文本，确定其中所包含的情感能力最高的表情符号作为该社交文本对应的表情符号标签，由此利用将社交文本以及其对应的表情符号标签组合起来作为第一样本，如此生成大量的第一样本，利用这些第一样本组成第一样本集。

应理解，在实际应用中，服务器601还可以从数据库、或其他服务器处采集社交文本，在此不对社交文本的来源做任何限定。

需要说明的是，确定出表情符号的情感能力后，服务器601可以先按照表情符号的情感能力由高至低排序，从社交文本集中选择排序靠前的前M个表情符号，进而，仅利用包括有这M个表情符号的社交文本生成第一样本。

需要说明的是，在生成第一样本集时，服务器601可以基于不同表情符号对应的社交文本数量相同的原则，从社交文本集中抽取不同表情符号对应的社交文本，利用这些社交文本生成第一样本。

生成第一样本集后，服务器601利用该第一样本集中各第一样本对初始分类模型进行训练，得到预训练模型；在完成对预训练模型的训练后，服务器进一步利用第二样本集对该预训练模型进行训练，得到社交文本情感分类模型，该第二样本集中包括少量的有监督样本即第二样本，第二样本中包括社交文本集其对应的人工标注的情感分类标签。

需要说明的是，利用第二样本集对预训练模型进行训练时，可以采用冻结与解冻权值的方式对其进行训练。具体的，服务器可以先对预训练模型进行功能模块化处理，得到多个子模块；进而按照冻结与解冻权值的方式，利用第二样本集依次对每个子模块进行训练，待这些子模块均达到收敛状态后，将包括这些子模块的模型作为社交文本情感分类模型。

服务器601生成社交文本情感分类模型后，可以将该社交文本情感分类模型发送至其他终端设备或服务器处，以在其他终端设备或服务器上运行该社交文本情感分类模型，从而使得这些终端设备或服务器执行本申请提供的分类方法。

以终端设备602运行该社交文本情感分类模型为例，终端设备获取用户输入的社交文本，利用该社交文本情感分类模型，对社交文本进行相应地处理，获得该社交文本对应的情感类别概率分布；由此终端设备602可以根据该情感类别概率分布，确定社交文本的情感类别。

针对上文描述的分类模型训练方法，本申请还提供了对应的分类模型训练装置，以使上述分类模型训练方法在实际中得以应用和实现。

参见图7，图7是与上文图2所示的分类模型训练方法对应的一种分类模型训练装置700的结构示意图，该分类模型训练装置700包括：

第一训练模块701，用于利用第一样本集对初始分类模型进行训练，得到预训练模型，所述第一样本集包括第一样本，所述第一样本包括社交文本及其对应的表情符号标签；

第二训练模块702，用于利用第二样本集对所述预训练模型进行训练，得到社交文本情感分类模型，所述社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出；所述第二样本集包括第二样本，所述第二样本包括社交文本及其对应的情感分类标签。

可选的，在图7所示的分类模型训练装置的基础上，参见图8，图8为本申请实施例提供的另一种分类模型训练装置800的结构示意图，该装置还包括：

采集模块801，用于采集多个社交文本，生成社交文本集，所述社交文本包括表情符号；

情感能力确定模块802，用于针对所述社交文本集中各表情符号，根据该表情符号出现的次数以及该表情符号与情感词典中各情感词的共现次数，确定该表情符号的情感能力；

表情符号标签确定模块803，用于针对所述社交文本集中各社交文本，确定该社交文本中所包含的情感能力最高的表情符号，作为该社交文本对应的表情符号标签；

第一样本集生成模块804，用于根据所述社交文本集中各社交文本及其对应的表情符号标签，生成所述第一样本集。

可选的，在图8所示的分类模型训练装置的基础上，所述第一样本集生成模块804具体用于：

基于不同表情符号对应的社交文本数量相同的原则，从所述社交文本集中抽取不同表情符号所对应的社交文本；

根据所抽取的社交文本及其对应的表情符号标签，生成所述第一样本集。

可选的，在图8所示的分类模型训练装置的基础上，参见图9，图9为本申请实施例提供的另一种分类模型训练装置900的结构示意图，该装置还包括：

选择模块901，用于按照表情符号的情感能力由高到低排序，从所述社交文本集中选择排序靠前的前M个表情符号，M为正整数；

则所述表情符号标签确定模块803具体用于：

确定该社交文本中所包含的所述M个表情符号中情感能力最高的表情符号，作为该社交文本对应的表情符号标签。

可选的，在图7所示的分类模型训练装置的基础上，所述初始分类模型包括词嵌入层、卷积层、至少一个特征提取层以及分类层；所述特征提取层包括多个卷积层和一个池化层，每个卷积层与其后所有卷积层相连接；

则所述第二训练模块702具体用于：

对所述预训练模型进行功能模块化处理，得到多个子模块；

按照冻结与解冻权值的方式，利用所述第二样本集依次对每个子模块进行训练，直到所述多个子模块均处于收敛状态，将包括处于收敛状态的多个子模块的模型作为社交文本情感分类模型；

其中，所述冻结与解冻权值的方式是指在训练某个子模块时，解冻所述某个子模块的权值对其进行训练，并冻结其余子模块的权值。

可选的，在图7所示的分类模型训练装置的基础上，所述社交文本包括微博；所述情感分类标签用于表征微博的情感极性，所述情感极性的分类包括正极性、负极性和中性。

上述实施例提供的分类模型训练装置，利用包含有大量弱监督样本的第一样本集，对初始分类模型进行训练得到预训练模型，此处的弱监督样本即为第一样本，其包括社交文本及其对应的表情符号标签，利用社交文本中自带的表情符号能够在一定程度上表征社交文本的情感分类这一特点，直接将社交文本中自带的表情符号作为该社交文本对应的情感分类标签，无需人工标注样本标签；在完成对预训练模型的训练后，进一步利用包括有少量有监督样本的第二样本集，对该预训练模型做进一步优化训练，此处的有监督样本即为第二样本，其包括社交文本及其对应的人工标注的情感分类标签，从而得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。如此，将大量弱监督样本与少量有监督样本结合起来对模型进行训练，保证在不增加人工标注样本的成本的情况下，即在使用少量人工标注样本的情况下，训练出模型性能较优的社交文本情感分类模型。

针对上文描述的分类方法，本申请还提供了对应的分类装置，以使上述分类方法在实际中得以应用和实现。

参见图10，图10是与上文图5所示的分类方法对应的一种分类装置1000的结构示意图，该分类装置1000包括：

获取模块1001，用于获取社交文本；

预测模块1002，用于利用预先训练的社交文本情感分类模型对所述社交文本的情感进行预测，得到所述社交文本对应的情感类别概率分布；所述社交文本情感分类模型是根据上述图2所示的分类模型训练方法训练得到的；

分类模块1003，用于根据所述社交文本对应的情感类别概率分布，确定所述社交文本的情感类别。

可选的，在图10所示的分类装置的基础上，参见图11，图11为本申请实施例提供的另一种分类装置1100的结构示意图，在该装置中：

获取模块1001，具体用于获取通过聊天界面所输入的聊天文本，作为社交文本；

该装置还包括：

确定模块1101，用于确定与所述社交文本的情感类别和所述社交文本相匹配的答复内容；

显示模块1102，用于在所述聊天界面显示所述答复内容。

可选的，在图10所示的分类装置的基础上，参见图12，图12为本申请实施例提供的另一种分类装置1200的结构示意图，在该装置中：

获取模块1001，具体用于获取指定用户的对象评论文本，作为社交文本；

该装置还包括：

推荐模块1201，用于根据所述社交文本的情感类别，为所述指定用户进行对象推荐。

可选的，在图10所示的分类装置的基础上，参见图13，图13为本申请实施例提供的另一种分类装置1300的结构示意图，在该装置中：

获取模块1001，具体用于获取与指定产品相关的社交文本；

该装置还包括：

报告生成模块1301，用于根据与所述指定产品相关的各社交文本各自的情感类别，生成所述指定产品的舆情报告。

在上述分类装置中，利用基于图2所示的分类模型训练方法训练得到的社交文本情感分类模型，对所获取的社交文本进行处理，相应地确定所获取的社交文本的情感类别。上述社交文本情感分类模型是利用大量弱监督样本和少量有监督样本训练出来的，具备较好的模型性能，因此，利用该社交文本情感分类模型针对社交文本确定出的情感类别较为准确。

本申请还提供了一种用于训练分类模型的设备，该设备具体可以为服务器，参见图14，图14是本申请实施例提供的一种用于训练分类模型的服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU1422还可以执行本申请实施例中分类模型训练方法任一具体实现方式的方法步骤。

此外，本申请还提供了一种用于分类的服务器，该服务器与上述图14所示的服务器的结构相类似。其中的CPU用于执行如下步骤：

获取社交文本；

根据所述社交文本，通过社交文本情感分类模型，获得所述社交文本对应的情感类别概率分布，所述社交文本情感分类模型是根据上述图2所示方法训练得到的；

可选的，CPU还可以执行本申请实施例中分类方法任一具体实现方式的方法步骤。

本申请实施例还提供了另一种用于训练分类模型设备，该设备可以为终端设备，如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图15示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图15，手机包括：射频电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本申请实施例中，该终端所包括的处理器1580还具有以下功能：

可选的，处理器1580还可以执行本申请实施例中分类模型训练方法任一具体实现方式的方法步骤。

此外，本申请还提供了一种用于分类的终端设备，该终端设备与上述图15所示的终端设备的结构相类似。其中的处理器用于执行如下步骤：

获取社交文本；

可选的，处理器还可以执行本申请实施例中分类方法任一具体实现方式的方法步骤。。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的分类模型训练方法中的任意一种实施方式，或者分类方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的分类模型训练方法中的任意一种实施方式，或者分类方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种分类模型训练方法，其特征在于，包括：

利用第一样本集对初始分类模型进行训练，得到预训练模型，所述第一样本集包括第一样本，所述第一样本包括社交文本及其对应的表情符号标签，所述初始分类模型包括词嵌入层、卷积层、至少一个特征提取层以及分类层；所述特征提取层包括多个卷积层和一个池化层，每个卷积层与其后所有卷积层相连接；

对所述预训练模型进行功能模块化处理，得到多个子模块；

按照冻结与解冻权值的方式，利用第二样本集依次对每个子模块进行训练，直到所述多个子模块均处于收敛状态，将包括处于收敛状态的多个子模块的模型作为社交文本情感分类模型，所述社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出，所述第二样本集包括第二样本，所述第二样本包括社交文本及其对应的情感分类标签；

其中，所述冻结与解冻权值的方式是指在训练某个子模块时，解冻所述某个子模块的权值对其进行训练，并冻结其余子模块的权值，所述冻结与解冻权值的训练方式包括：对于每个子模块，解冻该子模块中各神经网络层的模型参数，冻结多个子模块中除该子模块之外的子模块中各层神经网络层的模型参数，利用第二样本对该子模块进行训练，以在该子模块满足收敛状态后确定完成对该子模块的训练，按照上述方式利用第二样本集对各个子模块逐一进行训练；

通过以下方式生成所述第一样本集：

采集多个社交文本，生成社交文本集，所述社交文本包括表情符号；

针对所述社交文本集中各表情符号，根据该表情符号出现的次数以及该表情符号与情感词典中各情感词的共现次数，确定该表情符号的情感能力；

针对所述社交文本集中各社交文本，确定该社交文本中所包含的情感能力最高的表情符号，作为该社交文本对应的表情符号标签；

根据所述社交文本集中各社交文本及其对应的表情符号标签，生成所述第一样本集。

2.根据权利要求1所述方法，其特征在于，根据所述社交文本集中各社交文本及其对应的表情符号标签，生成所述第一样本集，包括：

3.根据权利要求1所述方法，其特征在于，在确定该表情符号的情感能力之后，所述方法还包括：

按照表情符号的情感能力由高到低排序，从所述社交文本集中选择排序靠前的前M个表情符号，M为正整数；

则确定该社交文本中所包含的情感能力最高的表情符号，作为该社交文本对应的表情符号标签，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述社交文本包括微博；所述情感分类标签用于表征微博的情感极性，所述情感极性的分类包括正极性、负极性和中性。

5.一种分类方法，其特征在于，包括：

获取社交文本；

根据所述社交文本，通过社交文本情感分类模型，获得所述社交文本对应的情感类别概率分布，所述社交文本情感分类模型是根据上述权利要求1至4中任一项所述分类模型训练方法训练得到的；

6.根据权利要求5所述方法，其特征在于，所述获取社交文本，包括：

获取通过聊天界面所输入的聊天文本，作为社交文本；

则所述方法还包括：

确定与所述社交文本的情感类别和所述社交文本相匹配的答复内容；

在所述聊天界面显示所述答复内容。

7.根据权利要求5所述方法，其特征在于，所述获取社交文本，包括：

获取指定用户的对象评论文本，作为社交文本；

则所述方法还包括：

根据所述社交文本的情感类别，为所述指定用户进行对象推荐。

8.根据权利要求5所述方法，其特征在于，所述获取社交文本，包括：

获取与指定产品相关的社交文本；

则所述方法还包括：

根据与所述指定产品相关的各社交文本各自的情感类别，生成所述指定产品的舆情报告。

9.一种分类模型训练装置，其特征在于，包括：

第一训练模块，用于利用第一样本集对初始分类模型进行训练，得到预训练模型，所述第一样本集包括第一样本，所述第一样本包括社交文本及其对应的表情符号标签，所述初始分类模型包括词嵌入层、卷积层、至少一个特征提取层以及分类层；所述特征提取层包括多个卷积层和一个池化层，每个卷积层与其后所有卷积层相连接；

第二训练模块，用于对所述预训练模型进行功能模块化处理，得到多个子模块；按照冻结与解冻权值的方式，利用第二样本集依次对每个子模块进行训练，直到所述多个子模块均处于收敛状态，将包括处于收敛状态的多个子模块的模型作为社交文本情感分类模型，所述社交文本情感分类模型以社交文本作为输入，以社交文本对应的情感类别的概率分布作为输出，所述第二样本集包括第二样本，所述第二样本包括社交文本及其对应的情感分类标签；

通过以下方式生成所述第一样本集：

10.一种分类装置，其特征在于，包括：

获取模块，用于获取社交文本；

预测模块，用于利用预先训练的社交文本情感分类模型对所述社交文本的情感进行预测，得到所述社交文本对应的情感类别概率分布；所述社交文本情感分类模型是根据上述权利要求1至4中任一项所述的分类模型训练方法训练得到的；

11.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1至4中任一项所述的分类模型训练方法，或者，用于执行权利要求5至8中任一项所述的分类方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1至4中任一项所述的分类模型训练方法，或者，用于执行权利要求5至8中任一项所述的分类方法。