CN112597311B

CN112597311B - 一种基于低轨卫星通信下的终端信息分类方法及***

Info

Publication number: CN112597311B
Application number: CN202011578389.XA
Authority: CN
Inventors: 郑飞; 王文斌
Original assignee: Dongfanghong Satellite Mobile Communication Co Ltd
Current assignee: China Star Network Application Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-07-11
Anticipated expiration: 2040-12-28
Also published as: CN112597311A

Abstract

本发明涉及低轨卫星通信和自然语言处理领域，具体涉及一种基于低轨卫星通信下的终端信息分类方法，包括对要处理的信息进行中文分词处理；对分词后的词进行训练，获取每个词的词向量表示；通过概率潜在语义分析模型对经过中文分词后的文本进行训练，获取文本‑主题矩阵和主题‑词矩阵；将获得的词向量根据主题‑词矩阵进行拓展，形成最终的词向量表示；将原文本和最终的词向量表示一一映射初始化文本矩阵；文本‑主题矩阵和最终的词向量对初始文本矩阵进行填充；将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型，得到分类结果；本发明在原有词向量特征的基础之上，扩展了由主题‑词矩阵产生的词概率特征信息。

Description

一种基于低轨卫星通信下的终端信息分类方法及***

技术领域

本发明涉及低轨卫星通信和自然语言处理领域，具体涉及一种基于低轨卫星通信下的终端信息分类方法。

背景技术

在媒介的快速发展下，信息得到快速的发布和传播。文本信息又是新时代信息的重要组成部分，文本分类技术由此得以发展。文本分类技术在情感分析、新闻分类等领域扮演着重要的角色，正确的对文本信息进行分类有及其积极的意义，对于社会各行各业有极大的帮助。

文本分类技术是指通过传统的机器学习方法或者是深度神经网络的模型对训练集里的文本进行训练，通过优化全局误差更新模型各个参数。通过训练好的模型对未知类别的文本进行正确的预测分类。

目前，在文本分类方法的研究中，国内外的研究学者已经作出了一些良好的开端和探索。对于文本的分类问题，传统主要使用机器学习的方法，如SVM、KNN等。模型的参数较少但带能一个致命的问题，文本分类的准确度也不高。Kim Y.Convolutional NeuralNetworks for Sentence Classification[J].Eprint Arxiv,2014.等提出来一种基于卷积神经网络的文本分类方法，利用CNN网络能提取文本局部特征的优点。在模型中，输入矩阵分为静态和非静态两个通道，非静态的意思是由词向量里面的参数也是可以通过训练改变的，能纠正一些由词向量模型初始化的表示不正确的词向量；静态部分则是由词向量预先训练好的，不会受模型训练而变化，这种方法对文本分类的准确度有一定的提高。ZhouC,Sun C,Liu Z,et al.A C-LSTM Neural Network for Text Classification[J].Computer Science,2015,1(4):39-44.等提出了基于C-LSTM的文本分类方法，将文本集里面的文本进行分词过后，利用词向量模型对其进行训练，在构建了输入矩阵过后利用卷积神经网络提取局部特征的优点还考虑了文本前文的信息，在文本分类的准确度上得到一定程度的提高。Lidong H,Hui Z.A new short text sentimental classification methodbased on multi-mixed convolutional neural network[C]//IEEE InternationalConference on Cloud Computing&Big Data Analysis.IEEE,2018.等使用传统的卷积网络作为文本特征分类器，为了保证文本输入矩阵大小相同，利用了三种不同的填充方式，零填充、循环填充和随机填充，相比较于零填充，后面两种填充方式在文本分类的准确率上还是得到了提高。但是填充方式容易导致语义特征信息杂乱无章。

发明内容

针对信息文本特征表示不足，不能有效的将文本信息更多的转化为特征信息的问题，本发明提出一种基于低轨卫星通信下的终端信息分类方法，具体包括：

对要处理的信息进行中文分词处理；

对分词后的词进行训练，获取每个词的词向量表示；

通过概率潜在语义分析模型对经过中文分词后的文本进行训练，获取文本-主题矩阵和主题-词矩阵；

将获得的词向量根据主题-词矩阵进行拓展，形成最终的词向量表示；进行扩展时如图2，先对数据进行预处理，将经过预处理的数据分别输入skip-gram模型和概率潜在语义分析模型，将这两个模型得到的词向量表示进行融合集合得到最终的词向量表示；

将原文本和最终的词向量表示一一映射初始化文本矩阵；

文本-主题矩阵和最终的词向量对初始文本矩阵进行填充；如图3，在根据词向量矩阵确认最长的文本长度，基于该长度，将当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接，直到达到最长文本长度，完成填充；

将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型，得到分类结果。

进一步的，获取词向量表示的过程包括利用skip-gram词向量模型对经过中文分词后的文本进行训练，得到每一个词的词向量表示。

进一步的，将获得的词向量根据主题-词矩阵进行拓展，即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接。

进一步的，改进的神经网络分类模型包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层，注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重，各个权重乘以相对应的周围词向量，得到当前词的上下文词向量；卷积神经网络层提取输入该层文本的局部特征，将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络，获取最终的信息特征表示向量；softmax分类层输出最终的分类结果。

进一步的，中心词的上下文词向量表示为：

其中，g_i表示了词向量xj和中心词向量xi的权重，α_i,j表示上下文词向量。

进一步的，注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重包括：

其中，v_a为随机初始化的词向量；W_a为可训练的权重矩阵参数；

为向量之间的连接；score(x_i，x_j)表示x_i和x_j之间未归一化的权重值。

进一步的，通过优化误差逆传播的方式更新各个参数，考虑周围词向量对于中心词词向量的距离因素，score(x_i，x_j)表示为：

score(x_i,x_j)＝(1-λ)^k·score(x_i,x_j)；

其中，k＝|j-i|-1，λ＝0.5。

本发明还提出一种基于低轨卫星通信下的终端信息分类***，包括信息分词模块、特征表示模块、特征处理模块、特征分类模块，其中：

信息分词模块，用于将待输入的文本进行分词操作；

特征表示模块包括词向量生成模块、概率潜在语义分析模块，词向量生成模块用于根据分词操作之后的文本生成词向量；概率潜在语义分析模块用于从分词操作之后的文本生中提取文本-主题矩阵、主题-词矩阵；

特征处理模块包括融合模块、最大主题概率计算模块以及填充模块，融合模块用于融合特征表示模块生成的词向量和主题-词矩阵中的词概率特征，融合后的文本根据最大主题概率计算模块计算得到的词向量的概率按概率从大到小进行填充；

特征分类模块包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层，注意力机制层基于中心词向量和各个周围词向量的运算得到周围词向量相对应的权重，各个权重乘以相对应的周围词向量，得到中心词的上下文词向量；卷积神经网络层提取输入该层文本的局部特征，将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络，获取最终的信息特征表示向量；softmax分类层输出最终的分类结果。

本发明具有以下优点：

1、本发明采用基于主题词下的词向量扩展方式，在原有词向量特征的基础之上，扩展了由主题-词矩阵产生的词概率特征信息。

2、本发明采用基于最大概率主题补齐，不但扩充了以输入矩阵表示的文本特征信息还使输入矩阵保持了相同的大小。

3、本发明实验于低轨卫星通信下的终端信息内容分类上，使信息分类的准确率得到提高，具有重要的研究意义。

附图说明

图1本发明提出的整体框架图；

图2本发明使用的基于主题词下的词向量扩展方式；

图3本发明使用的基于最大概率主题下的填充方式；

图4本发明改进的神经网络文本分类模型图；

图5为本发明一种基于低轨卫星通信下的终端信息分类方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于低轨卫星通信下的终端信息分类方法，具体包括以下步骤：

对要处理的信息进行中文分词处理；

对分词后的词进行训练，获取每个词的词向量表示；

将获得的词向量根据主题-词矩阵进行拓展，形成最终的词向量表示；

将原文本和最终的词向量表示一一映射初始化文本矩阵；

文本-主题矩阵和最终的词向量对初始文本矩阵进行填充；

图1给出了整个模型结构框图，分为了信息分词模块、特征表示模块、特征处理模块、特征分类模块完备的流程。

输入：待分类的由低轨卫星通信得到的终端信息，约80万条。

输出：将各个信息文本进行正确的分类。

步骤A：信息分词模块

通过分词模块将待输入的文本进行正确的分词，分词模块在本发明中并不是重要研究重点，所以选择的是jieba分词包。

步骤B：特征表示模块

B1：分词模块过后的文档；

B2：分词后的文档通过skip-gram进行训练词向量，保存在npy文件里面。具体的思想是将词进行one-hot编码，然后通过center词矩阵将词映射成低维词向量，解决了传统的高维词向量表示带来的维度***问题，通过context词矩阵生成周围词的低维词向量，最后使用softmax层进行优化；

B3：分词过后的文档通过概率潜在语义分析模型训练过后生成文本-主题矩阵、主题-词矩阵保存在test文件里。其基本的思想是从分布中取样生成文档的主题分布，从主题的多项式中取样生成文档某词的主题，从分布中取样生成该词主题的词语分布，从词语的多项式分布中采用最终生成该词；

步骤C：特征处理模块

C1：结合skip-gram训练得到的词向量和主题-词矩阵中的词概率特征信息融合形成最终的词向量表示；

C2：对每一个信息文本进行矩阵初始化，利用训练好的词向量进行文本向量化，矩阵的行数为文本词个数，列数为词向量的维度。因为文本集里的每个文本词个数不一导致构建的输入矩阵行数不一，由此会影响后面的特征分类模型结构；

C3：利用文本-主题矩阵和主题-词矩阵对行数不一的文本输入矩阵进行填充，以文本集里的最大文本长度为基准，将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充，直到构建的输入矩阵的行数为最大文本长度；

如图3，获取词向量矩阵的最长文本，并以此为基准，将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充，将获得的词向量根据主题-词矩阵进行拓展，即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接，直到构建的输入矩阵的行数为最大文本长度。

步骤D：特征分类模块

D1：输入端：每个信息文本构建的行数和列数固定的输入矩阵，行数为文本集里的最大文本长度，列数为训练得到的词向量的维度

D2：注意力机制层：每一个词与周围词进行词向量的运算得到各自对应的权重，权重再与对应的周围词向量相乘，最后相加得到该中心词的上下文词向量，上下文词向量与中心词词向量融合得到新的的向量表示。

α_i,j表示上下文词向量，g_i表示了词向量x_j和中心词向量x_i的权重,通过优化误差逆传播的方式更新各个参数，其中也考虑了周围词向量对于中心词词向量的距离因素，如下式：

score(x_i,x_j)＝(1-λ)^k·score(x_i,x_j)；

k＝|j-i|-1，λ＝0.5，表示距离中心词越近，权重越大。

D3：卷积神经网络层：经过注意力机制层后，由上下文向量和中心词词向量构建的新的文本输入矩阵，利用卷积神经网络提取局部特征的优点；

卷积神经网络(Convolutional Neural Network，CNN)，CNN一种前馈神经网络，本发明主要使用卷积神经网络的卷积层，因为池化层会打乱文本的语义顺序。卷积层主要通过卷积操作实现局部特征响应，然后使用相同的卷积核扫描整个文本输入特征，提取整个文本的特征，实现权值共享。一般每个卷积层都会对应多个不同的卷积核，每个卷积核提取出的特征称之为特征谱，具体计算如式：

其中，

表示第j个特征谱，w_j表示对应的卷积核，/>

表示上层第i个特征谱作为当前的输入，/>

表示偏置量，/>

表示每个特征谱的特征数量，M表示每个卷积层的特征谱数。θ(·)为激活函数，选择有ReLU函数。在卷积神经网络中卷积层的输出是文本的特征，隐层的最后部分一般为全连接层，相当于传统神经网络中多层感知机中的隐层，即前一层的每个神经元都与后一层的每个神经元相连。具体公式如式:

其中h_W,b(x)表示全连接层的输出；x_i表示上一层神经元的输出即全连接层的输入；W_i表示神经元之间连接的权值；b表示偏置量，θ(·)表示激活函数。

D4：双向长短期记忆网络层：从卷积神经网络层提取到的深层次语义表示，进入双向长短期记忆网络，利用文本前向和后向的依赖关系，将向量表示的语义作为时间节点输入，生成了两个整体文本向量。

LSTM(Long Short-Term Memory)是长短期记忆网络，LSTM结构如图4所示，LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM在处理时序间隔和延迟非常长的任务时，LSTM比RNN更具有竞争力，其主要原因在于LSTM增加了一个记忆单元(Cell State)，用以取代传统的隐含神经元节点。LSTM很好得解决了传统RNN随着网络层数的增多，产生梯度消失或梯度***的问题。LSTM单元计算如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，σ是逻辑Sigmoid函数，i、f、o还有c分别代表的是LSTM记忆单元的输入门(Input gate)、遗忘门(Forget gate)、输出门(Output gate)、卷积乘和记忆单元向量(Cell vectors)，这些向量的维度都与隐藏层向量h的维度是一致；W_i、W_f、W_o分别表示连接输入门、遗门、输出门的权重矩阵。

D5：分类结果层：将正向和反向输出的文本进行融合成新的信息文本向量过后，进入softmax层进行分类，得出结果。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于低轨卫星通信下的终端信息分类方法，其特征在于，具体包括以下步骤：

对要处理的信息进行中文分词处理；

对分词后的词进行训练，获取每个词的词向量表示；获取词向量表示的过程包括利用skip-gram词向量模型对经过中文分词后的文本进行训练，得到每一个词的词向量表示；

将获得的词向量根据主题-词矩阵进行拓展，即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接，形成最终的词向量表示；

将原文本和最终的词向量表示一一映射初始化文本矩阵，映射过程中将文本矩阵的行数为文本词个数，列数为词向量的维度；

文本-主题矩阵和最终的词向量对初始文本矩阵进行填充，包括：获取词向量矩阵的最长文本，并以此为基准，将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充，将获得的词向量根据主题-词矩阵进行拓展，即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接，直到构建的输入矩阵的行数为最大文本长度；

将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型，得到分类结果；

改进的神经网络分类模型包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层，注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重，各个权重乘以相对应的周围词向量，得到当前词的上下文词向量；卷积神经网络层提取输入该层文本的局部特征，将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络，获取最终的信息特征表示向量；softmax分类层输出最终的分类结果。

2.根据权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法，其特征在于，中心词的上下文词向量表示为：

3.根据权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法，其特征在于，注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重包括：

4.根据权利要求3所述的一种基于低轨卫星通信下的终端信息分类方法，其特征在于，通过优化误差逆传播的方式更新各个参数，考虑周围词向量对于中心词词向量的距离因素，score(x_i，x_j)表示为：

score(x_i,x_j)＝(1-λ)^k·score(x_i,x_j)；

其中，k＝|j-i|-1，λ＝0.5。

5.一种基于低轨卫星通信下的终端信息分类***，其特征在于，用于实现权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法，包括信息分词模块、特征表示模块、特征处理模块、特征分类模块，其中：

信息分词模块，用于将待输入的文本进行分词操作；