CN115422357A

CN115422357A - 文本分类方法、装置、计算机设备和存储介质

Info

Publication number: CN115422357A
Application number: CN202211061502.6A
Authority: CN
Inventors: 邹瑶; 金红琳; 张胜斌; 邹泳彤
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-02

Abstract

本申请涉及一种文本分类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列；针对每个词向量序列，分别通过第一特征提取模型和第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量和上下文特征向量；对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果。采用本方法能够丰富句子语义的表达，进而提高文本分类的准确性。

Description

文本分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本分类方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能领域的发展，出现了自然语言处理技术，该技术主要研究用于实现人与计算机之间用自然语言进行有效通信的各种理论和方法，其中文本分类是自然语言处理技术中一个重要的方向。

现有技术提出的文本分类方法，多为采用统计类模型，如TF-IDF(termfrequency–inverse document frequency，词频-逆文本指数)，或者是词向量模型，如embedding(嵌入)模型等。

然而，由于同一个文本可能会有不同的含义，现有的文本分类方法难以得到准确的分类结果。

发明内容

基于此，有必要针对现有的文本分类方法存在的文本语义表达不全面的技术问题，提供一种文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种文本分类方法。所述方法包括：

通过多个词向量模型对待分类文本中的词语进行向量化处理，得到所述待分类文本的多个词向量序列；

针对每个词向量序列，通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量；以及，通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量；

分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；

对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；

基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果。

在其中一个实施例中，所述第一特征提取模型包括多个第一子模型，所述多个第一子模型之间层级连接；

所述通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量，包括：

针对所述第一特征提取模型中第一层的第一子模型，将所述词向量序列作为所述第一层的第一子模型的输入变量，得到所述第一层的第一子模型的输出结果；

针对所述第一特征提取模型中第二层的第一子模型，将所述词向量序列以及所述第一层的第一子模型的输出结果，确定为所述第二层的第一子模型的输入变量，得到所述第二层的第一子模型的输出结果；

针对所述第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于所述任一层的第一子模型之前两层的第一子模型的输出结果，确定为所述任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；将所述多个第一子模型中最后一层的第一子模型的输出结果，确定为所述待分类文本的局部特征向量。

在其中一个实施例中，所述第二特征提取模型包括多个第二子模型，所述多个第二子模型之间层级连接；

所述通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量，包括：

针对所述第二特征提取模型中第一层的第二子模型，将所述词向量序列作为所述第一层的第二子模型的输入变量，得到所述第一层的第二子模型的输出结果；

针对所述第二特征提取模型中除第一层之外的任一层的第二子模型，将所述词向量序列以及位于所述任一层的第二子模型之前的每个第二子模型的输出结果，确定为所述任一层的第二子模型的输入变量，得到除第一层之外的各层第二子模型的输出结果；

将所述多个第二子模型中最后一层的第二子模型的输出结果，确定为所述待分类文本的上下文特征向量。

在其中一个实施例中，在所述分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量之前，还包括：

针对每个词向量序列，获取所述词向量序列的第一权值向量和第二权值向量；所述第一权值向量包括所述待分类文本的每个词语对应的第一权值，所述每个词语对应的第一权值表示每个词语对应的局部特征对所述待分类文本的分类结果的影响程度；所述第二权值向量包括所述待分类文本的每个词语对应的第二权值，所述每个词语对应的第二权值表示每个词语对应的上下文特征对所述待分类文本的分类结果的影响程度；

通过所述第一权值向量对所述局部特征向量进行加权处理，得到加权后的局部特征向量；

通过所述第二权值向量对所述上下文特征向量进行加权处理，得到加权后的上下文特征向量；

所述分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，包括：

分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量。

在其中一个实施例中，所述分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，包括：

针对每个词向量序列，获取所述词向量序列的加权后的局部特征向量的向量维度和所述加权后的上下文特征向量的向量维度；所述加权后的局部特征向量的向量维度和所述加权后的上下文特征向量的向量维度相同；

基于所述向量维度，确定对所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接的拼接模式；

按照所述拼接模式，对所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接，得到各个词向量序列对应的拼接特征向量。

在其中一个实施例中，所述基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果，包括：

通过分类模型对所述融合特征向量进行处理，得到所述待分类文本的分类结果。

第二方面，本申请还提供了一种文本分类装置。所述装置包括：

词向量模块，用于通过多个词向量模型对待分类文本中的词语进行向量化处理，得到所述待分类文本的多个词向量序列；

特征提取模块，用于针对每个词向量序列，通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量；以及，通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量；

特征拼接模块，用于分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；

特征融合模块，用于对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；

特征分类模块，用于基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述文本分类方法、装置、计算机设备、存储介质和计算机程序产品，通过采用多个词向量模型得到多个词向量序列，并通过两个特征提取模型得到局部特征和上下文特征，接着将多个词向量序列的特征进行融合，最后得到文本分类的结果。该方法通过多个词向量模型对同一个文本进行不同词向量的表达，不同的词向量所表达的语义信息不同；并且，通过不同的特征提取模型对同一个词向量序列提取出不同的特征向量，不同的特征向量所表达的语义信息不同。因此本方法能够丰富对文本语义的表达，进而提高文本分类的准确性。

附图说明

图1为一个实施例中文本分类方法的流程示意图；

图2为一个实施例中文本分类方法中第一特征提取模型的模型结构示意图；

图3为一个实施例中文本分类方法中第二特征提取模型的模型结构示意图；

图4为另一个实施例中文本分类方法的流程示意图；

图5为一个实施例中用于实现文本分类方法的模型的整体结构示意图；

图6为一个实施例中实现文本分类方法的技术架构示意图；

图7为一个实施例中文本分类装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本分类方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤101，通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列。

其中，词向量是将单词或短语转换映射到实数的向量。

其中，词向量模型的数量可以为2个，也可以为3个，本申请对此不作具体限制。为便于描述，下文以两个词向量模型为例，对本申请进行具体说明，两个词向量模型可以是Word2Vec(Word to vector，词语转换成向量)模型和GloVe(Global Vectors，全局向量)模型。

具体实现中，将待分类文本中的每个词语输入第一个预训练好的词向量模型，得到每个词语的第一词向量；将待分类文本中所有词语都输入第一个预训练好的词向量模型，得到待分类文本的第一词向量序列；将待文本分类中的每个词语输入第二个预训练好的词向量模型，得到每个词语的第二词向量；将待分类文本中所有词语都输入第二个预训练好的词向量模型，得到待分类文本的第二词向量序列。

步骤102，针对每个词向量序列，通过第一特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量；以及，通过第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的上下文特征向量。

其中，第一特征提取模型包括多个第一子模型，第一子模型可以是卷积神经网络模型。

其中，第二特征提取模型包括多个第二子模型，第二子模型可以是双向长短期记忆模型。

其中，局部特征向量表示一个词语在前后词语之间的词性关系，即形容词修饰名词或量词修饰名词等。

其中，上下文特征向量表示词语在整个文本中表达的语义信息。

具体实现中，为了提高对文本分类的准确性，本步骤提出了针对每个词向量序列，将词向量序列输入到两个不同的特征提取模型，即第一特征提取模型和第二特征提取模型中，得到表达文本中词语的局部特征的局部特征向量和表达上下文特征的上下文特征向量，通过提取多种特征向量可以更全面地表达出文本的语义信息。

步骤103，分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量。

具体实现中，将局部特征向量和上下文特征向量进行拼接处理，需要根据向量中的维度信息，在不影响每个向量所表达的内容的条件下，进行拼接处理，即两个特征向量保持向量维度的不变(每个向量表达的信息不变)，拼接为一个包含更多向量的序列。

步骤104，对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量。

具体实现中，将每个词向量模型对应的拼接特征向量进行融合处理，需要根据拼接特征向量中的维度信息，不影响每个向量所表达的内容来进行对应的拼接处理，即多个拼接特征向量保持单个特征向量维度的不变，融合成一个包含更多特征向量的序列；后续执行文本分类时可以基于两种特征向量进行分类判断，提高文本分类的准确性。

步骤105，基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果。

具体实现中，可以将得到的融合特征向量输入全连接层，得到全连接层的输出结果，将全连接层的输出结果作为归一化指数函数层(Softmax层)的输入，将归一化指数函数层的输出作为待分类文本的分类结果。

上述文本分类方法中，通过采用多个词向量模型得到多个词向量序列，并通过两个特征提取模型得到局部特征和上下文特征，接着将多个词向量序列的特征进行融合，最后得到文本分类的结果。该方法通过多个词向量模型对同一个文本进行不同特征的向量表示，能够丰富对句子语义的表达，进而提高文本分类的准确性。

在其中一个实施例中，第一特征提取模型包括多个第一子模型，多个第一子模型之间层级连接；

上述步骤102通过第一特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量，具体还可以通过以下步骤实现：

步骤1021，针对第一特征提取模型中第一层的第一子模型，将词向量序列作为第一层的第一子模型的输入变量，得到第一层的第一子模型的输出结果；

步骤1022，针对第一特征提取模型中第二层的第一子模型，将词向量序列以及第一层的第一子模型的输出结果，确定为第二层的第一子模型的输入变量，得到第二层的第一子模型的输出结果；

步骤1023，针对第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于任一层的第一子模型之前两层的第一子模型的输出结果，确定为任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；

步骤1024，将多个第一子模型中最后一层的第一子模型的输出结果，确定为待分类文本的局部特征向量。

具体实现中，第一子模型的连接参考图2所示，为了实现特征复用，将各个第一子模型通过如图2所示的方式进行连接，第一特征提取模型可以是卷积神经网络模型，通过多个卷积神经网络模型层级连接，对词向量进行多次卷积操作，可以得到表达每个词语的局部特征向量，即表达每个词语和前后词语之间词性关系的特征向量。同时因为每层第一子模型的卷积核和步长是相同的，所以输出向量的维度和输入向量的维度有直接关系，因此为了保证每层卷积神经网络的输出向量保持固定的维度，会将不足维度的输入向量进行维度填充，并且将位于每层第一子模型前的其他层第一子模型的输出选择性融合(选择当前第一子模型前两层第一子模型的输出向量，而不是之前全部第一子模型的输出向量)，才可以得到预定维度的输入向量。

本实施例中，通过对于原始输入的词向量或各层第一子模型的输出向量选择性融合，能够实现特征复用，经过多个第一特征提取模型的运算，可以得到对文本分类结果更具有影响的局部特征向量。

在其中一个实施例中，第二特征提取模型包括多个第二子模型，多个第二子模型之间层级连接；

上述步骤102通过第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的上下文特征向量，还可以通过以下步骤实现：

步骤1025，针对第二特征提取模型中第一层的第二子模型，将词向量序列作为第一层的第二子模型的输入变量，得到第一层的第二子模型的输出结果；

步骤1026，针对第二特征提取模型中除第一层之外的任一层的第二子模型，将词向量序列以及位于任一层的第二子模型之前的每个第二子模型的输出结果，确定为任一层的第二子模型的输入变量，得到除第一层之外的各层第二子模型的输出结果；

步骤1027，将多个第二子模型中最后一层的第二子模型的输出结果，确定为待分类文本的上下文特征向量。

具体实现中，第二子模型的连接参考图3所示，为了避免发生梯度消失和过拟合现象并且进一步实现特征复用，将第二子模型通过如图3所示的方式进行连接，第二特征提取模型可以是双向长短期记忆模型，通过多个双向长短期记忆模型层级连接，对词向量进行多次提取特征操作，可以得到表达每个词语在文本上下文特征的向量，即表达每个词语在上下文中的语义信息的特征向量。

本实施例中，通过密集连接融合各层第二子模型的输出作为下层第二子模型的输入，能够实现特征复用，还可以避免发生梯度消失和过拟合现象，经过多个第二特征提取模型的运算，可以得到对文本分类结果更具有影响的上下文特征向量。

在其中一个实施例中，上述步骤103分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量之前，具体还包括以下步骤：

步骤1031，针对每个词向量序列，获取词向量序列的第一权值向量和第二权值向量；第一权值向量包括待分类文本的每个词语对应的第一权值，每个词语对应的第一权值表示每个词语对应的局部特征对待分类文本的分类结果的影响程度；第二权值向量包括待分类文本的每个词语对应的第二权值，每个词语对应的第二权值表示每个词语对应的上下文特征对待分类文本的分类结果的影响程度；

步骤1032，通过第一权值向量对局部特征向量进行加权处理，得到加权后的局部特征向量；

步骤1033，通过第二权值向量对上下文特征向量进行加权处理，得到加权后的上下文特征向量；

步骤103分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，具体还可以通过以下步骤实现：

步骤1034，分别对各个词向量序列的加权后的局部特征向量和加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量。

具体实现中，在预先训练过程中，确定每个词语对于文本分类结果的影响程度，从而得到每个词语对应词向量的不同权值。针对每个词向量进行不同权值的加权操作，得到更能影响文本分类结果的特征向量。

本实施例中，通过对分类结果有重要作用的局部特征向量和上下文特征向量赋予更多的权重，能够得到更准确的文本分类结果。

在其中一个实施例中，上述步骤1034，分别对各个词向量序列的加权后的局部特征向量和加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，还可以通过以下步骤实现：

步骤1034A，针对每个词向量序列，获取词向量序列的加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度；加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度相同；

步骤1034B，基于向量维度，确定对加权后的局部特征向量和加权后的上下文特征向量进行拼接的拼接模式；

步骤1034C，按照拼接模式，对加权后的局部特征向量和加权后的上下文特征向量进行拼接，得到各个词向量序列对应的拼接特征向量。

具体实现中，将加权后的局部特征向量和加权后的上下文特征向量进行拼接处理，需要根据向量中的维度信息，不影响每个向量所表达的内容来进行对应的拼接处理，即两个特征向量保持向量维度的不变(每个向量表达的信息不变)，拼接为一个包含更多向量的序列。比如，局部特征向量和上下文特征向量中的每个行向量是每个词语的特征向量，则局部特征向量和上下文特征向量中的行数表示词语的个数，则将局部特征向量和上下文特征向量进行纵向拼接，得到一个列数不变、行数更大的拼接特征向量；又如，局部特征向量和上下文特征向量中的每个列向量是每个词语的特征向量，则局部特征向量和上下文特征向量中的列数表示词语的个数，则将局部特征向量和上下文特征向量进行横向拼接，得到一个行数不变、列数更大的拼接特征向量。

本实施例中，基于局部特征向量和上下文特征向量的维度信息，将局部特征向量和上下文特征向量拼接为一个包含更多向量但单个向量维度不变的向量序列，能够帮助后续执行文本分类时可以基于两种特征向量进行分类判断，提高文本分类的准确性。

在其中一个实施例中，步骤105基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果，可以通过以下步骤实现：

通过分类模型对融合特征向量进行处理，得到待分类文本的分类结果。

具体实现中，分类模型可以包含全连接层和归一化指数函数层，将融合特征向量输入全连接层，得到全连接层的输出结果，根据随机失活方法(Dropout)对全连接层的输出结果进行处理，得到归一化指数函数层(Softmax层)的输入，将归一化指数函数层的输出作为待分类文本的分类结果。

本实施例中，通过全连接层将前面得到的特征向量映射到样本标记空间，减少特征位置对分类结果的影响；同时为了防止过拟合现象的发生，引入Dropout方法，使分类结果的判断不只依赖部分特征；最后通过Softmax分类器得到待分类的文本分类结果。

在另一个实施例中，如图4所示，提供了一种文本分类方法，本实施例中，包括以下步骤：

步骤401，通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列；

步骤402，针对每个词向量序列，通过包含多层的第一特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量；

步骤403，针对每个词向量序列，通过包含多层的第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的上下文特征向量；

步骤404，根据预设的权值对局部特征向量和上下文特征向量进行加权操作，得到加权后的局部特征向量和加权后的上下文特征向量，并将加权后的局部特征向量通过池化层进行降维处理；

步骤405，分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；

步骤406，对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；

步骤407，基于全连接层、随机失活层和归一化指数函数分类器，对融合特征向量进行分类，得到句子的分类结果。

具体实现中，词向量模型可以采用Word2Vec模型和Glove模型；第一特征提取模型可以采用卷积神经网络模型，第二特征提取模型可以采用双向长短期记忆模型；预设的加权处理可以基于注意力机制完成；池化处理可以采用最大值池化；向量拼接和向量融合均为保持单个向量维度不变，增加序列的向量数量的拼接融合。以上模型均需要通过机器学习训练得到具体的参数，保证模型的结果准确。

本实施例中，通过采用多个词向量模型得到多个词向量序列，并通过两个密集连接特征提取模型得到局部特征和上下文特征，并对重要特征进行加权处理，接着将多个词向量序列的特征进行融合，最后得到文本分类的结果，能够丰富句子语义的表达，减少因为堆叠模型而出现的梯度消失和过拟合现象，进而提高文本分类的准确性。

为了便于本领域技术人员理解本申请实施例，以下结合附图的具体示例对本申请进行说明。本方法具体是通过融合注意力机制双通道模型来实现的，如图5所示，包括：词嵌入层501，卷积神经网络层502，双向长短期记忆层503，注意力机制层504，池化层505，特征融合拼接层505，全连接层和分类层507，详细结构示意图参考图6。其中：

词嵌入层501，包括Word2Vec(Word to vector，词语转换成向量)和GloVe(GlobalVectors，全局向量)两种词向量模型，两种模型都有各自的优点，Word2Vec方法是基于预测的方法，更好的刻画了局部信息；GloVe则是基于计数的方法，更好的利用了全局信息。

具体实现中，将已经训练好的两种词向量模型对输入的句子进行映射，每个词语映射为一个d维的向量，每个句子则被映射为一个向量矩阵。其中，W₁表示Word2Vec训练好的词向量，W₂表示GloVe训练好的词向量。W₁将输入语句映射到第一个通道，W₂将输入语句映射到第二个通道。每个样本句子的矩阵表示为J＝W^wdV，其中W＝[W₁，W₂]，W₁，W₂∈R^d*|v|，是训练好的词向量矩阵，d是词向量维度，|v|表示词典大小；V∈R^|v|*n是输入句子的词袋表示，n是输入句子的长度。

卷积神经网络层502，采用三层CNN(卷积神经网络)结构，将CNN1输出和原输入的词向量矩阵进行融合，用于CNN2的输入，将CNN1输出词向量和CNN2的输出的词向量矩阵进行融合，用于CNN3的输入，接着对CNN2与CNN3的输出进行融合作为卷积神经网络层502的输出。

具体实现中，为了保证每层CNN输入向量的维度与输出向量的维度保持一致，使每个卷积层中的Padding(填充方式)参数都选择SAME模式(填充0以保持输入矩阵维度固定)；将向量矩阵W＝[x₁,x₂,…,x_N]输入到CNN1中，x_i∈R^d表示一条文本句子中第i个词语对应的词向量，取卷积核S＝[s₀,s₁,…,s_α-1]，卷积核中词语个数为α，卷积计算公式为：Y_t＝f(S×X_t:t+α-1+b)，f是非线性激活函数，激活函数使用ReLU(线性整流函数，又称修正线性单元)，X_t:t+α-1表示输入词向量矩阵W的第t列到t+α-1列，b表示偏置项。词向量矩阵W经过卷积公式计算得到CNN1的输出矩阵C₁＝[c₁,c₂,…,c_N]，N代表词向量个数。将原始输入矩阵W和CNN1的输出矩阵C₁通过Concat(连接两个或多个数组的方法)函数进行融合得到融合后的特征矩阵R₁＝[c₁,…,c_N,x₁,…,x_N]，将其作为CNN2的输入，通过卷积公式计算得到CNN2的输出矩阵为C₂＝[k₁,k₂,…,k_N]，N为词向量个数。将CNN1的输出矩阵C₁和CNN2的输出矩阵C₂通过Concat函数进行融合得到融合后的特征矩阵R₂＝[k₁,…,k_N,c₁,…,c_N]，将其作为CNN3的输出，通过卷积公式计算得到CNN3的输出矩阵为C₃＝[m₁,m₂,…,m_o]，o为词向量个数。最后将CNN2的输出C₂和CNN3的输出C₃进行Concat融合，得到下层网络的输入矩阵C₄＝[k₁,…,k_N,m₁,…,m_o]。Concat融合函数为：C₄＝tf.concat([C₂,C₃],axis＝1)，其中axis＝1代表将C₂和C₃进行横向拼接的过程，即只改变了词向量的个数，词向量维度d并没有改变，从而大大减少融合过程给整个模型带来的负面影响。

双向长短期记忆层503，长短期记忆网络(LSTM)由三个门组成：遗忘门、输入门和输出门；其中，遗忘门决定从单元状态中删除掉哪些信息，输入门决定将哪些信息更新为单元状态，当遗忘门与输入门确定以后，单元状态可以随之更新，输出门决定网络的最终输出。BiLSTM(双向长短期记忆网络)包含前向隐藏层和后向隐藏层，当前输出不仅取决于当前输入，还受到历史信息与未来信息的影响。其中前向隐藏层的输出为

后向隐藏层的输出为

BiLSTM隐藏层的输出可表示为

对于BiLSTM1网络，输入是一个词向量矩阵序列W＝[x₁,x₂,…,x_N]，t时刻，输入为x_t，t-1时刻的隐藏层状态向量为h_t-1，计算遗忘门f_t，选择要遗忘的信息：f_t＝σ(W_f·[h_t-1,x_t]+b_f)；计算记忆门i_t，选择要记忆的信息i_t＝σ(W_i·[h_t-1,x_t]+b_i)和通过变换后的新信息：

然后通过前一时刻细胞状态和C_t-1、遗忘门中得到的要遗忘的信息、记忆门中要保留的信息和当前特征信息

更新细胞状态

计算输出门o_t＝σ(W_o·[h_t-1,x_t]+b_o)和当前的隐藏层状态h_t＝o_t*tanh(C_t)。i_t、f_t是sigmoid函数(常见的S型函数，也称为S型生长曲线)，取值范围为[0，1]，

为tanh的函数，取值范围为[-1，1]。σ表示sigmoid函数，W_i,W_f,W_o,W_C为参数矩阵，b_i,b_f,b_o,b_C为偏置项。x_t为时间t的输入向量，h_t-1表示前一步产生的状态，h_t表示最后的输出状态，C_t-1表示上一步输出的单元状态，C_t是当前单元状态，运算符_*表示逐元素乘法。BiLSTM1的输出为矩阵为

其中每一个时间步的输出都是前向隐藏层输出和后向隐藏层输出的融合，可表示为

为了实现时序特征复用以及避免堆叠多层BiLSTM结构出现梯度消失和过拟合现象，在BiLSTM之间采用密集连接的方式，对于BiLSTM2的输入不再是BiLSTM1的输出向量矩阵

而是将之前所有隐藏层的输出Concat，具体表示为

得到BiLSTM2的输出向量矩阵

将原始输入矩阵W、BiLSTM1的输出向量矩阵h¹、BiLSTM2的输出向量矩阵h²Concat后作为BiLSTM3的输入，可表示为

得到最后BiLSTM3的输出向量矩阵

注意力机制层504，可以为词向量分配不同的权重，把注意力集中到对文本较重要的词语上获取对分类结果有重要贡献的局部特征和时序特征，进一步提高对整个文本的语义表达。

具体实现中，双向长短期记忆层503之后接注意力机制的具体计算过程为如下公式：u_i＝tanh(N_sH_t+b_s)，

T＝∑_tα_iH_t，其中u_i为H_t的注意力隐层表示，N_s为权值矩阵，b_s为偏置项，α_i是u_i通过Softmax函数(归一化指数函数)得到的归一化权值，最后将Bi-LSTM隐藏层的输出与注意力权重值迚行点乘与累加操作，得到输出T；卷积神经网络层502之后接注意力机制的具体计算过程为如下公式：

u_t＝tanh(N_sC_t+b_s)，

V＝∑_tα_tC_t，其中，C_t是t时刻通过三层CNN学习到的特征表示，u_t为C_t的注意力隐层表示，N_s为权值矩阵，b_s为偏置项，α_t是u_t通过Softmax函数得到的归一化权值，最后得到的输出V。

池化层505，在卷积神经网络层502后的注意力机制层504后接入池化层505，池化层505主要的作用是对特征向量进行降维操作，通过最大值池化获取更丰富的特征信息。得到最后的输出V’。

特征拼接融合层506，在第一通道中将特征向量融合得到第一通道最终的特征向量O₁＝[T,V′]，在第二通道中将特征向量融合得到第二通道最终的特征向量O₂＝[T,V′]，两通道通过各自的网络结构捕获到了文本序列的局部特征与全局序列信息，将两个通道最后的输出进行融合得到最终的文本特征向量矩阵Output＝[O₁,O₂]。

全连接层和分类层507，将前层计算得到的特征空间映射样本标记空间，全连接层使用ReLU作为激活函数。全连接层之后引入Dropout(随机失活)机制，得到的输出输入到最后的分类层中，分类层采用Softmax(归一化指数函数)来进行分类。

具体实现中，经过Dropout处理之后的向量y，作为句子特征输入到最后的softmax(归一化指数函数)分类器中,最后将x分类为j的概率为：

进一步地，本方法中的模型需要进行训练才能得到具体参数，具体步骤为：

构建训练集，训练集为已知文本分类数据集，包括待分类句子和类别标签；

将训练集输入到融合注意力机制的双通道文本分类方法中进行训练，方法停止训练的节点为损失函数达到最小值，得到训练好的融合注意力机制的双通道文本分类方法；

损失函数中，本申请使用L2正则化在损失函数中添加了L2范数

损失函数可表示为

其中第一项为交叉熵，λ为正则化系数；本申请采用Adam算法来进行优化；

训练过程中，在全连接层之后加入了Dropout策略。

具体的实验超参数设置如表1所示：

表1实验参数具体取值表

参数	值
		词向量维度d	300
卷积核尺寸	3、4、5
		卷积核个数	100*3
LSTM单元个数	100
		学习率	0.001
L2正则化惩罚	0.001
		注意力尺寸	100
Dropout	0.5
		隐藏层维度	128
批处理尺寸	64

本实施例中，采用不同词向量模型对语料进行映射得到不同的向量矩阵，在一定程度上可以缓解对句子语义信息表示不丰富的不足，提高分类准确率；在两个通道中均引入注意力机制进行全局权重分配，使模型能够进一步关注到文本中的关键词，以此提升分类准确率；在堆叠多个双向LSTM模型对各词向量序列进行时序特征提取时，采用密集连接的方式，每层双向LSTM的输入是之前各层输出的融合实现时序特征复用，得到各个通道文本上下文特征向量序列，同时利用多个卷积层，对各词向量序列进行卷积操作，为了实现特征复用，将原始输入向量和各层CNN的输出向量选择性融合，得到各个通道文本局部特征向量序列，避免由于堆叠多层网络容易造成梯度消失和过拟合现象。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种文本分类装置，包括：词向量模块、特征提取模块、特征拼接模块、特征融合模块和特征分类模块，其中：

词向量模块701，用于通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列；

特征提取模块702，用于针对每个词向量序列，通过第一特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量；以及，通过第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的上下文特征向量；

特征拼接模块703，用于分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；

特征融合模块704，用于对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；

特征分类模块705，用于基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果。

在一个实施例中，第一特征提取模型包括多个第一子模型，多个第一子模型之间层级连接；上述特征提取模块702还用于针对第一特征提取模型中第一层的第一子模型，将词向量序列作为第一层的第一子模型的输入变量，得到第一层的第一子模型的输出结果；针对第一特征提取模型中第二层的第一子模型，将词向量序列以及第一层的第一子模型的输出结果，确定为第二层的第一子模型的输入变量，得到第二层的第一子模型的输出结果；针对第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于任一层的第一子模型之前两层的第一子模型的输出结果，确定为任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；将多个第一子模型中最后一层的第一子模型的输出结果，确定为待分类文本的局部特征向量。

在一个实施例中，第二特征提取模型包括多个第二子模型，多个第二子模型之间层级连接；上述特征提取模块702还用于针对第二特征提取模型中第一层的第二子模型，将词向量序列作为第一层的第二子模型的输入变量，得到第一层的第二子模型的输出结果；针对第二特征提取模型中除第一层之外的任一层的第二子模型，将词向量序列以及位于任一层的第二子模型之前的每个第二子模型的输出结果，确定为任一层的第二子模型的输入变量，得到除第一层之外的各层第二子模型的输出结果；将多个第二子模型中最后一层的第二子模型的输出结果，确定为待分类文本的上下文特征向量。

在一个实施例中，上述特征提取模块702还用于针对每个词向量序列，获取词向量序列的第一权值向量和第二权值向量；第一权值向量包括待分类文本的每个词语对应的第一权值，每个词语对应的第一权值表示每个词语对应的局部特征对待分类文本的分类结果的影响程度；第二权值向量包括待分类文本的每个词语对应的第二权值，每个词语对应的第二权值表示每个词语对应的上下文特征对待分类文本的分类结果的影响程度；通过第一权值向量对局部特征向量进行加权处理，得到加权后的局部特征向量；通过第二权值向量对上下文特征向量进行加权处理，得到加权后的上下文特征向量；分别对各个词向量序列的加权后的局部特征向量和加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量。

在一个实施例中，上述特征提取模块703还用于针对每个词向量序列，获取词向量序列的加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度；加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度相同；基于向量维度，确定对加权后的局部特征向量和加权后的上下文特征向量进行拼接的拼接模式；按照拼接模式，对加权后的局部特征向量和加权后的上下文特征向量进行拼接，得到各个词向量序列对应的拼接特征向量。

在一个实施例中，上述文本特征模块705还用于通过分类模型对融合特征向量进行处理，得到待分类文本的分类结果。

上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型参数数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列；

针对每个词向量序列，通过第一特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量；以及，通过第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的上下文特征向量；

分别对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；

基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：第一特征提取模型包括多个第一子模型，多个第一子模型之间层级连接；针对第一特征提取模型中第一层的第一子模型，将词向量序列作为第一层的第一子模型的输入变量，得到第一层的第一子模型的输出结果；针对第一特征提取模型中第二层的第一子模型，将词向量序列以及第一层的第一子模型的输出结果，确定为第二层的第一子模型的输入变量，得到第二层的第一子模型的输出结果；针对第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于任一层的第一子模型之前两层的第一子模型的输出结果，确定为任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；将多个第一子模型中最后一层的第一子模型的输出结果，确定为待分类文本的局部特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：第二特征提取模型包括多个第二子模型，多个第二子模型之间层级连接；针对第二特征提取模型中第一层的第二子模型，将词向量序列作为第一层的第二子模型的输入变量，得到第一层的第二子模型的输出结果；针对第二特征提取模型中除第一层之外的任一层的第二子模型，将词向量序列以及位于任一层的第二子模型之前的每个第二子模型的输出结果，确定为任一层的第二子模型的输入变量，得到除第一层之外的各层第二子模型的输出结果；将多个第二子模型中最后一层的第二子模型的输出结果，确定为待分类文本的上下文特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：针对每个词向量序列，获取词向量序列的第一权值向量和第二权值向量；第一权值向量包括待分类文本的每个词语对应的第一权值，每个词语对应的第一权值表示每个词语对应的局部特征对待分类文本的分类结果的影响程度；第二权值向量包括待分类文本的每个词语对应的第二权值，每个词语对应的第二权值表示每个词语对应的上下文特征对待分类文本的分类结果的影响程度；通过第一权值向量对局部特征向量进行加权处理，得到加权后的局部特征向量；通过第二权值向量对上下文特征向量进行加权处理，得到加权后的上下文特征向量；分别对各个词向量序列的加权后的局部特征向量和加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：针对每个词向量序列，获取词向量序列的加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度；加权后的局部特征向量的向量维度和加权后的上下文特征向量的向量维度相同；基于向量维度，确定对加权后的局部特征向量和加权后的上下文特征向量进行拼接的拼接模式；按照拼接模式，对加权后的局部特征向量和加权后的上下文特征向量进行拼接，得到各个词向量序列对应的拼接特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过分类模型对融合特征向量进行处理，得到待分类文本的分类结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一特征提取模型包括多个第一子模型，所述多个第一子模型之间层级连接；

针对所述第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于所述任一层的第一子模型之前两层的第一子模型的输出结果，确定为所述任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；

将所述多个第一子模型中最后一层的第一子模型的输出结果，确定为所述待分类文本的局部特征向量。

3.根据权利要求1所述的方法，其特征在于，所述第二特征提取模型包括多个第二子模型，所述多个第二子模型之间层级连接；

4.根据权利要求1所述的方法，其特征在于，在所述分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量之前，还包括：

分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理。

5.根据权利要求4所述的方法，其特征在于，所述分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果，包括：

7.一种文本分类装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。