CN113177118A

CN113177118A - 文本分类模型、文本分类的方法以及装置

Info

Publication number: CN113177118A
Application number: CN202110477628.0A
Authority: CN
Inventors: 张兰英; 江黎枫; 黄莺; 李培; 郭玉春; 王燕燕; 刘�文; 许璐; 张海宁; 文禄
Original assignee: Postal Savings Bank of China Ltd
Current assignee: Postal Savings Bank of China Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-27

Abstract

本申请提供了一种文本分类模型、文本分类的方法以及装置，该文本分类模型包括嵌入层、BiLSTM层、注意力层、胶囊网络层、Flatten层、全连接层以及Softmax函数层，其中，嵌入层用于将文本的多个词语转换为词向量；BiLSTM层的输入端与嵌入层的输出端连接；注意力层的输入端BiLSTM层的输出端连接；胶囊网络层的输入端与注意力层的输出端连接；Flatten层的输入端与胶囊网络层的输出端连接；全连接层的输入端与Flatten层的输出端连接；Softmax函数层的输入端与全连接层的输出端连接。该文本分类模型的训练时间较短，训练效率较高。

Description

文本分类模型、文本分类的方法以及装置

技术领域

本申请涉及自然语言处理领域，具体而言，涉及一种文本分类模型、文本分类的方法、装置、计算机可读存储介质、处理器以及电子设备。

背景技术

近几年随着深度学习的崛起，自然语言处理技术快速发展，人机交互的方式也从GUI(Graphical User Interface，图形用户界面)方式渐渐转为CUI(Command UserInterface，命令用户界面)方式。通过引入深度学习算法和自然语言处理技术，分析用户自然对话中的关键语义从而进行意图识别，为用户提供最适当最匹配的信息或服务。

目前广泛使用的文本分类算法为基于预训练语言模型的文本分类，谷歌人工智能团队于2018年10月发布了新一代自然语言处理通用模型——基于双向编码器特征的多头注意力模型BERT(Bidirectional Encoder Representations from Transformers)模型，BERT模型在海量语料的基础上运行自监督学习方法学习词向量，提供了供其它任务做迁移学习的预训练模型。

然而，预训练模型因参数庞大，运算复杂，对GPU(Graphics Processing Unit，图形处理器)资源要求较高，需要大量GPU资源，导致模型训练与预测时间较长，训练效率较低。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

本申请的主要目的在于提供一种文本分类模型、文本分类的方法、装置、计算机可读存储介质、处理器以及电子设备，以解决现有技术中预训练模型进行文本分析的训练效率较低的问题。

根据本发明实施例的一个方面，提供了一种文本分类模型，包括嵌入层、BiLSTM(Bidirectional Long Short Term Memory，双向长短时记忆网)层、注意力(Attention)层、胶囊网络层、Flatten(压平)层、全连接层以及Softmax函数层，其中，所述嵌入层用于将文本的多个词语转换为词向量；所述BiLSTM层的输入端与所述嵌入层的输出端连接；所述注意力层的输入端与所述BiLSTM层的输出端连接；所述胶囊网络层的输入端与所述注意力层的输出端连接；所述Flatten层的输入端与所述胶囊网络层的输出端连接；所述全连接层的输入端与所述Flatten层的输出端连接；所述Softmax函数层的输入端与所述全连接层的输出端连接。

可选地，所述胶囊网络层包括基础胶囊网络层以及全连接胶囊网络层，其中，所述基础胶囊网络层的输入端与所述注意力层的输出端连接，所述基础胶囊网络层用于将转换为第一预定维数向量；所述全连接胶囊网络层的输入端与所述基础胶囊网络层的输出端连接，所述全连接胶囊网络层的输出端与所述Flatten层的输入端连接，所述全连接胶囊网络层用于将所述第一预定维数向量转换为第二预定维数向量。

可选地，所述文本分类模型还包括第一Dropout层，所述第一Dropout层的输入端与所述嵌入层的输出端连接，所述第一Dropout层的输出端与所述BiLSTM层的输入端连接。

可选地，所述文本分类模型还包括第二Dropout层，所述第二Dropout层的输入端与所述全连接层的输出端连接，所述第二Dropout层的输出端与所述Softmax函数层的输入端连接。

可选地，所述嵌入层还用于将所述词语转换为所述词向量的编号。

可选地，所述嵌入层包括BERT子模型，所述注意力层包括注意力子模型。

根据本发明实施例的另一个方面，还提供了一种文本分类的方法，包括：获取目标文本；对任一种所述的文本分类模型进行训练，得到分析模型；使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别。

可选地，对任一种所述的文本分类模型进行训练，得到分析模型，包括：获取所述文本分类模型；获取多个初始训练数据，所述初始训练数据包括初始训练文本以及对应的训练分类结果；对所述初始训练文本进行预处理，得到训练文本，所述预处理包括分词处理，所述训练文本以及对应的所述训练分类结果构成训练数据；使用多个所述训练数据对所述文本分类模型进行训练，得到所述分析模型。

可选地，使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别，包括：使用所述分析模型的嵌入层将所述目标文本的多个词语转换为多个目标词向量；根据多个所述目标词向量，使用所述分析模型的BiLSTM层确定隐藏状态向量；使用所述分析模型的注意力层确定所述目标文本的注意力权重，并根据所述注意力权重以及所述隐藏状态向量，确定预定输出向量；使用所述分析模型的胶囊网络层将所述预定输出向量转换为多维向量；使用所述分析模型的Flatten层将所述多维向量压缩为一维向量；使用所述分析模型的全连接层将所述一维向量的特征综合起来，得到最终输出向量；使用所述分析模型的Softmax函数层将所述最终输出向量映射为类别概率，以输出所述目标文本的类别。

可选地，所述预处理还包括以下至少之一：特殊符号过滤、同义词替换。

根据本发明实施例的再一方面，还提供了一种文本分类的装置，包括获取单元、训练单元以及分析单元，其中，所述获取单元用于获取目标文本；所述训练单元用于对任一种所述的文本分类模型进行训练，得到分析模型；所述分析单元用于使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行中任意一种所述的方法。

根据本发明实施例的再一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。

本申请所述的文本分类模型，包括依次连接的嵌入层、BiLSTM层、注意力层、胶囊网络层、Flatten层、全连接层以及Softmax函数层，通过所述嵌入层将目标文本的多个词语转换为多个目标词向量，然后由BiLSTM层以及注意力层根据目标词向量确定输出向量，再由胶囊网络层对所述输出向量进行聚类，最终通过所述Flatten层、全连接层以及Softmax函数层得到文本类别结果。相比现有技术中采用预训练模型进行文本分类占用大量GPU资源，导致训练效率较低的问题，本申请的文本分类模型中，嵌入层、BiLSTM层、注意力层以及胶囊网络层的运行无需占用大量的GPU资源，这样保证了所述文本分类模型的训练时间较短，预测时间较短，进而保证了所述文本分类模型的训练时间较短，训练效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例的文本分类模型的示意图；

图2示出了根据本申请的实施例的文本分类的方法生成的流程示意图；

图3示出了根据本申请的实施例的文本分类的装置的示意图。

其中，上述附图包括以下附图标记：

100、嵌入层；101、BiLSTM层；102、注意力层；103、胶囊网络层；104、Flatten层；105、全连接层；106、Softmax函数层；107、基础胶囊网络层；108、全连接胶囊网络层；109、第一Dropout层；200、第二Dropout层。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

正如背景技术中所说的，现有技术中的预训练模型进行文本分析的训练效率较低，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种文本分类模型、文本分类的方法、装置、计算机可读存储介质、处理器以及电子设备。

根据本申请的一种典型的实施例，提供了一种文本分类模型，如图1所示，上述文本分类模型包括嵌入层100、BiLSTM层101、注意力层102、胶囊网络层103、Flatten层104、全连接层105以及Softmax函数层106，其中，上述嵌入层100用于将文本的多个词语转换为词向量；上述BiLSTM层101的输入端与上述嵌入层100的输出端连接；上述注意力层102的输入端与上述BiLSTM层101的输出端连接；上述胶囊网络层103的输入端与上述注意力层102的输出端连接；上述Flatten层104的输入端与上述胶囊网络层103的输出端连接；上述全连接层105的输入端与上述Flatten层104的输出端连接；上述Softmax函数层106的输入端与上述全连接层105的输出端连接。

上述的文本分类模型，包括依次连接的嵌入层、BiLSTM层、注意力层、胶囊网络层、Flatten层、全连接层以及Softmax函数层，通过上述嵌入层将目标文本的多个词语转换为多个目标词向量，然后由BiLSTM层以及注意力层根据目标词向量确定输出向量，再由胶囊网络层对上述输出向量进行聚类，最终通过上述Flatten层、全连接层以及Softmax函数层得到文本类别结果。相比现有技术中采用预训练模型进行文本分类占用大量GPU资源，导致训练效率较低的问题，本申请的文本分类模型中，嵌入层、BiLSTM层、注意力层以及胶囊网络层的运行无需占用大量的GPU资源，这样保证了上述文本分类模型的训练时间较短，预测时间较短，进而保证了上述文本分类模型的训练时间较短，训练效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

需要说明的是，上述BiLSTM层为现有技术中任意可行的BiLSTM模型，上述注意力层为现有技术中任意可行的注意力模型。

在实际的应用过程中，将多个训练模型进行组合得到组合模型来进行自然语言处理，常规情况下会面临组合模型占用的GPU资源比单个训练模型占用的GPU资源更大的问题，导致训练效率更低，然而，本申请通过将上述多个层组合得到文本分类模型，经过实际训练，发现本申请的文本训练模型的训练以及预测时间均小于单个训练模型，训练效率高于单个训练模型的训练效率，因此，本申请上述的文本分类模型相对现有技术实现了预料不到的技术效果。

本申请的一种具体的实施例中，通过收集中文领域以及测试领域中的语料，并对收集的语料进行分词，将分词后的词语按照词频排序，得到词汇表，使用上述嵌入层对词汇表中出现频率高于3的词进行向量化的表示，将词语处理成长度为768维的向量矩阵，得到多个上述词向量组成的词向量表。

在实际的应用过程中，上述BiLSTM层中每一个训练序列向前和向后分别是一个LSTM(Long Short Term Memory，长短时记忆网)结构，即上述BiLSTM层中包括多个前向LSTM结构和反向LSTM结构，LSTM结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息，用以获取正向的语义信息和逆向的语义信息。BiLSTM层中前向LSTM结构和反向LSTM结构分别为256个单元，将BiLSTM的输出按元素求和，作为上述注意力层的输入。

根据本申请的一种具体的实施例，如图1所示，上述胶囊网络层103包括基础胶囊网络层107以及全连接胶囊网络层108，其中，上述基础胶囊网络层107的输入端与上述注意力层102的输出端连接，上述基础胶囊网络层107用于将转换为第一预定维数向量；上述全连接胶囊网络层108的输入端与上述基础胶囊网络层107的输出端连接，上述全连接胶囊网络层108的输出端与上述Flatten层104的输入端连接，上述全连接胶囊网络层108用于将上述第一预定维数向量转换为第二预定维数向量。上述文本分类模型，通过上述基础胶囊网络层以及上述全连接胶囊网络层，将经BiLSTM层和注意力层提取的特征转化为向量胶囊，这样可以较好地克服特征提取过程中丢失信息以及文本中局部对整体的信息缺失问题，能够保存文本的位置、语义、语法结构等信息，这样进一步地保证了得到的分类结果较为准确。

根据本申请的一种具体的实施例，基础胶囊网络层将注意力层的输出向量输出转化为32通道的8维胶囊，即上述第一预定维数向量为8维向量。

全连接胶囊网络层运用动态路由算法将向量胶囊从基础胶囊网络层映射到16维全连接胶囊网络层，即上述第二预定维数向量为16维向量。

本申请的再一种具体的实施例中，以上述胶囊网络层的输出值作为输入，后接上述Flatten层、上述全连接层以及上述Softmax函数层，转换为概率。其中，上述全连接层选用Adam优化器，学习率设置为0.001。

根据本申请的另一种具体的实施例，如图1所示，上述文本分类模型还包括第一Dropout层109，上述第一Dropout层109的输入端与上述嵌入层100的输出端连接，上述第一Dropout层109的输出端与上述BiLSTM层101的输入端连接。通过上述第一Dropout层，较好地降低了过拟合问题，进一步地保证了通过上述文本分类模型得到的分类结果较为准确。

为了进一步地避免文本分类模型的过拟合问题，本申请的再一种具体的实施例中，如图1所示，上述文本分类模型还包括第二Dropout层200，上述第二Dropout层200的输入端与上述全连接层105的输出端连接，上述第二Dropout层200的输出端与上述Softmax函数层106的输入端连接。通过上述第二Dropout层进一步地保证了模型基本没有过拟合问题，从而进一步地保证了文本分类模型的输出结果较为准确。

本申请的一种具体的实施例中，上述第一Dropout层以及上述第二Dropout层的dropout值均设置为0.5，当然，本领域技术人员也可以将上述第一Dropout层以及上述第二Dropout层的dropout值设置为任意可行的值。

在实际的应用过程中，上述嵌入层还用于将上述词语转换为上述词向量的编号。具体地，将测试文件经特殊符号过滤、去停用词、同义词替换、特殊数字处理、分词等预处理之后，如果这个词在上述词汇表里存在，则替换为其在词汇表里相应的次序ID，如果不存在，则替换为0，进而将测试训练文件转为词序列文件。例如测试文件为“创建测试计划时，为什么不显示所有的场景脚本”，经过预处理和分词之后，转换为[“创建”，“测试”，“计划”，“时”，“为什么”，“不”，“显示”，“所有”，“场景”，“脚本”]，并替换为词序[24，50，5，27579，43，22，53，87，7，1]，序列不足30位的补0，得到最终的词序列文件[24，50，5，27579，43，22，53，87，7，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0]。

本申请的另一种具体的实施例中，上述嵌入层包括BERT子模型。BERT子模型是一种预训练语言表示方法的模型，通过联合调节所有层中的上下文，预先训练深度双向表示，通过使用预训练好的BERT模型，可以从文本中提取高质量的语言特征，生成测试领域常用的词向量表，来进一步地保证上述文本分类模型较好地完成分类任务。

一种具体的实施例中，上述嵌入层为上述BERT子模型，当然，上述嵌入层并不限于上述的BERT子模型，上述嵌入层还可以为现有技术中任意可行的预训练模型，如ELMo(Embedding From Language Models，双向语言模型)、ALBERT(A Lite BERT，轻量级BERT模型)、XLNet(Extra Long Net，超长网络)模型等预训练模型。

根据本申请的另一种典型的实施例，提供了一种文本分类的方法。图2是根据本申请实施例的文本分类的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S101，获取目标文本；

步骤S102，对任一种上述的文本分类模型进行训练，得到分析模型；

步骤S103，使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。

上述的文本分类的方法中，首先获取目标文本；然后，对任一种上述的文本分类模型进行训练，得到分析模型；最后，使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。上述方法通过对任一种上述的文本分类模型进行训练，得到上述分析模型，由于上述文本分类模型的运行无需占用大量的GPU资源，保证了训练时长以及预测时长较短，进而保证了可以较为快速地得到上述分析模型，保证了文本分类的效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

本申请的一种具体的实施例中，对任一种上述的文本分类模型进行训练，得到分析模型，包括：获取上述文本分类模型；获取多个初始训练数据，上述初始训练数据包括初始训练文本以及对应的训练分类结果；对上述初始训练文本进行预处理，得到训练文本，上述预处理包括分词处理，上述训练文本以及对应的上述训练分类结果构成训练数据；使用多个上述训练数据对上述文本分类模型进行训练，得到上述分析模型。上述方法，通过对初始训练数据进行预处理得到训练数据，再用上述训练数据对上述文本分类模型进行训练，进一步地保证了训练效率较高，进一步地保证了较为快速地得到上述分析模型。

为了进一步地保证可以较为快速地得到上述分析模型，进一步地避免现有技术中预训练模型进行文本分析的训练效率较低的问题，根据本申请的再一种具体的实施例，使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别，包括：使用上述分析模型的嵌入层将上述目标文本的多个词语转换为多个目标词向量；根据多个上述目标词向量，使用上述分析模型的BiLSTM层确定隐藏状态向量；使用上述分析模型的注意力层确定上述目标文本的注意力权重，并根据上述注意力权重以及上述隐藏状态向量，确定预定输出向量；使用上述分析模型的胶囊网络层将上述预定输出向量转换为多维向量；使用上述分析模型的Flatten层将上述多维向量压缩为一维向量；使用上述分析模型的全连接层将上述一维向量的特征综合起来，得到最终输出向量；使用上述分析模型的Softmax函数层将上述最终输出向量映射为类别概率，以输出上述目标文本的类别。

在实际的应用过程中，上述预处理还包括以下至少之一：特殊符号过滤、同义词替换。上述方法通过对初始训练数据进行分词、特殊符号过滤以及同义词替换等预处理，得到训练数据，进一步地方便了文本分类模型的训练，进一步地保证了文本分类模型的训练效率以及训练效果较高。当然，上述预处理还可以包括现有技术中任意可行的文本处理方法，如去停用词以及特殊数字处理等处理方法，本领域技术人员可以根据实际情况进行灵活选择。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种文本分类的装置，需要说明的是，本申请实施例的文本分类的装置可以用于执行本申请实施例所提供的用于文本分类的方法。以下对本申请实施例提供的文本分类的装置进行介绍。

图3是根据本申请实施例的文本分类的装置的示意图。如图3所示，该装置包括获取单元10、训练单元20以及分析单元30，其中，上述获取单元10用于获取目标文本；上述训练单元20用于对任一种上述的文本分类模型进行训练，得到分析模型；上述分析单元30用于使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。

上述的文本分类的装置中，通过上述获取单元获取目标文本；通过上述训练单元对任一种上述的文本分类模型进行训练，得到分析模型；通过上述分析单元使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。上述装置通过对任一种上述的文本分类模型进行训练，得到上述分析模型，由于上述文本分类模型的运行无需占用大量的GPU资源，保证了训练时长以及预测时长较短，进而保证了可以较为快速地得到上述分析模型，保证了文本分类的效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

本申请的一种具体的实施例中，上述训练单元包括第一获取模块、第二获取模块、预处理模块以及训练模块，其中，上述第一获取模块用于获取上述文本分类模型；上述第二获取模块用于获取多个初始训练数据，上述初始训练数据包括初始训练文本以及对应的训练分类结果；上述预处理模块用于对上述初始训练文本进行预处理，得到训练文本，上述预处理包括分词处理，上述训练文本以及对应的上述训练分类结果构成训练数据；上述训练模块用于使用多个上述训练数据对上述文本分类模型进行训练，得到上述分析模型。上述装置，通过对初始训练数据进行预处理得到训练数据，再用上述训练数据对上述文本分类模型进行训练，进一步地保证了训练效率较高，进一步地保证了较为快速地得到上述分析模型。

为了进一步地保证可以较为快速地得到上述分析模型，进一步地避免现有技术中预训练模型进行文本分析的训练效率较低的问题，根据本申请的再一种具体的实施例，上述分析单元包括第一转换模块、第一确定模块、第二确定模块、第二转换模块、压缩模块、综合模块以及映射模块，其中，上述第一转换模块用于使用上述分析模型的嵌入层将上述目标文本的多个词语转换为多个目标词向量；上述第一确定模块用于根据多个上述目标词向量，使用上述分析模型的BiLSTM层确定隐藏状态向量；上述第二确定模块用于使用上述分析模型的注意力层确定上述目标文本的注意力权重，并根据上述注意力权重以及上述隐藏状态向量，确定预定输出向量；上述第二转换模块用于使用上述分析模型的胶囊网络层将上述预定输出向量转换为多维向量；上述压缩模块用于使用上述分析模型的Flatten层将上述多维向量压缩为一维向量；上述综合模块用于使用上述分析模型的全连接层将上述一维向量的特征综合起来，得到最终输出向量；上述映射模块用于使用上述分析模型的Softmax函数层将上述最终输出向量映射为类别概率，以输出上述目标文本的类别。

在实际的应用过程中，上述预处理还包括以下至少之一：特殊符号过滤、同义词替换。上述装置通过对初始训练数据进行分词、特殊符号过滤以及同义词替换等预处理，得到训练数据，进一步地方便了文本分类模型的训练，进一步地保证了文本分类模型的训练效率以及训练效果较高。当然，上述预处理还可以包括现有技术中任意可行的文本处理装置，如去停用词以及特殊数字处理等处理装置，本领域技术人员可以根据实际情况进行灵活选择。

上述文本分类的装置包括处理器和存储器，上述获取单元、上述训练单元以及上述分析单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中预训练模型进行文本分析的训练效率较低的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述文本分类的方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述文本分类的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S101，获取目标文本；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S101，获取目标文本；

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或层的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请上述的文本分类模型，包括依次连接的嵌入层、BiLSTM层、注意力层、胶囊网络层、Flatten层、全连接层以及Softmax函数层，通过上述嵌入层将目标文本的多个词语转换为多个目标词向量，然后由BiLSTM层以及注意力层根据目标词向量确定输出向量，再由胶囊网络层对上述输出向量进行聚类，最终通过上述Flatten层、全连接层以及Softmax函数层得到文本类别结果。相比现有技术中采用预训练模型进行文本分类占用大量GPU资源，导致训练效率较低的问题，本申请的文本分类模型中，嵌入层、BiLSTM层、注意力层以及胶囊网络层的运行无需占用大量的GPU资源，这样保证了上述文本分类模型的训练时间较短，预测时间较短，进而保证了上述文本分类模型的训练时间较短，训练效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

2)本申请上述的文本分类的方法中，首先获取目标文本；然后，对任一种上述的文本分类模型进行训练，得到分析模型；最后，使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。上述方法通过对任一种上述的文本分类模型进行训练，得到上述分析模型，由于上述文本分类模型的运行无需占用大量的GPU资源，保证了训练时长以及预测时长较短，进而保证了可以较为快速地得到上述分析模型，保证了文本分类的效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

3)、本申请上述的文本分类的装置中，通过上述获取单元获取目标文本；通过上述训练单元对任一种上述的文本分类模型进行训练，得到分析模型；通过上述分析单元使用上述分析模型对上述目标文本进行分析，得到上述目标文本的类别。上述装置通过对任一种上述的文本分类模型进行训练，得到上述分析模型，由于上述文本分类模型的运行无需占用大量的GPU资源，保证了训练时长以及预测时长较短，进而保证了可以较为快速地得到上述分析模型，保证了文本分类的效率较高，较好地解决了现有技术中预训练模型进行文本分析的训练效率较低的问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类模型，其特征在于，包括：

嵌入层，用于将文本的多个词语转换为词向量；

BiLSTM层，所述BiLSTM层的输入端与所述嵌入层的输出端连接；

注意力层，所述注意力层的输入端与所述BiLSTM层的输出端连接；

胶囊网络层，所述胶囊网络层的输入端与所述注意力层的输出端连接；

Flatten层，所述Flatten层的输入端与所述胶囊网络层的输出端连接；

全连接层，所述全连接层的输入端与所述Flatten层的输出端连接；

Softmax函数层，所述Softmax函数层的输入端与所述全连接层的输出端连接。

2.根据权利要求1所述的模型，其特征在于，所述胶囊网络层包括：

基础胶囊网络层，所述基础胶囊网络层的输入端与所述注意力层的输出端连接，所述基础胶囊网络层用于将转换为第一预定维数向量；

全连接胶囊网络层，所述全连接胶囊网络层的输入端与所述基础胶囊网络层的输出端连接，所述全连接胶囊网络层的输出端与所述Flatten层的输入端连接，所述全连接胶囊网络层用于将所述第一预定维数向量转换为第二预定维数向量。

3.根据权利要求1所述的模型，其特征在于，所述文本分类模型还包括：

第一Dropout层，所述第一Dropout层的输入端与所述嵌入层的输出端连接，所述第一Dropout层的输出端与所述BiLSTM层的输入端连接。

4.根据权利要求1所述的模型，其特征在于，所述文本分类模型还包括：

第二Dropout层，所述第二Dropout层的输入端与所述全连接层的输出端连接，所述第二Dropout层的输出端与所述Softmax函数层的输入端连接。

5.根据权利要求1所述的模型，其特征在于，所述嵌入层还用于将所述词语转换为所述词向量的编号。

6.根据权利要求1至5中任一项所述的模型，其特征在于，所述嵌入层包括BERT子模型，所述注意力层包括注意力子模型。

7.一种文本分类的方法，其特征在于，包括：

获取目标文本；

对权利要求1至6中任一项所述的文本分类模型进行训练，得到分析模型；

使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别。

8.根据权利要求7所述的方法，其特征在于，对权利要求1至6中任一项所述的文本分类模型进行训练，得到分析模型，包括：

获取所述文本分类模型；

获取多个初始训练数据，所述初始训练数据包括初始训练文本以及对应的训练分类结果；

对所述初始训练文本进行预处理，得到训练文本，所述预处理包括分词处理，所述训练文本以及对应的所述训练分类结果构成训练数据；

使用多个所述训练数据对所述文本分类模型进行训练，得到所述分析模型。

9.根据权利要求7所述的方法，其特征在于，使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别，包括：

使用所述分析模型的嵌入层将所述目标文本的多个词语转换为多个目标词向量；

根据多个所述目标词向量，使用所述分析模型的BiLSTM层确定隐藏状态向量；

使用所述分析模型的注意力层确定所述目标文本的注意力权重，并根据所述注意力权重以及所述隐藏状态向量，确定预定输出向量；

使用所述分析模型的胶囊网络层将所述预定输出向量转换为多维向量；

使用所述分析模型的Flatten层将所述多维向量压缩为一维向量；

使用所述分析模型的全连接层将所述一维向量的特征综合起来，得到最终输出向量；

使用所述分析模型的Softmax函数层将所述最终输出向量映射为类别概率，以输出所述目标文本的类别。

10.根据权利要求8所述的方法，其特征在于，所述预处理还包括以下至少之一：特殊符号过滤、同义词替换。

11.一种文本分类的装置，其特征在于，包括：

获取单元，用于获取目标文本；

训练单元，用于对权利要求1至6中任一项所述的文本分类模型进行训练，得到分析模型；

分析单元，用于使用所述分析模型对所述目标文本进行分析，得到所述目标文本的类别。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求7至10中任意一项所述的方法。

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求7至10中任意一项所述的方法。

14.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求7至10中任意一项所述的方法。