CN112597311B - 一种基于低轨卫星通信下的终端信息分类方法及*** - Google Patents

一种基于低轨卫星通信下的终端信息分类方法及*** Download PDF

Info

Publication number
CN112597311B
CN112597311B CN202011578389.XA CN202011578389A CN112597311B CN 112597311 B CN112597311 B CN 112597311B CN 202011578389 A CN202011578389 A CN 202011578389A CN 112597311 B CN112597311 B CN 112597311B
Authority
CN
China
Prior art keywords
word
text
word vector
matrix
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011578389.XA
Other languages
English (en)
Other versions
CN112597311A (zh
Inventor
郑飞
王文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Star Network Application Co Ltd
Original Assignee
Dongfanghong Satellite Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongfanghong Satellite Mobile Communication Co Ltd filed Critical Dongfanghong Satellite Mobile Communication Co Ltd
Priority to CN202011578389.XA priority Critical patent/CN112597311B/zh
Publication of CN112597311A publication Critical patent/CN112597311A/zh
Application granted granted Critical
Publication of CN112597311B publication Critical patent/CN112597311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及低轨卫星通信和自然语言处理领域,具体涉及一种基于低轨卫星通信下的终端信息分类方法,包括对要处理的信息进行中文分词处理;对分词后的词进行训练,获取每个词的词向量表示;通过概率潜在语义分析模型对经过中文分词后的文本进行训练,获取文本‑主题矩阵和主题‑词矩阵;将获得的词向量根据主题‑词矩阵进行拓展,形成最终的词向量表示;将原文本和最终的词向量表示一一映射初始化文本矩阵;文本‑主题矩阵和最终的词向量对初始文本矩阵进行填充;将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型,得到分类结果;本发明在原有词向量特征的基础之上,扩展了由主题‑词矩阵产生的词概率特征信息。

Description

一种基于低轨卫星通信下的终端信息分类方法及***
技术领域
本发明涉及低轨卫星通信和自然语言处理领域,具体涉及一种基于低轨卫星通信下的终端信息分类方法。
背景技术
在媒介的快速发展下,信息得到快速的发布和传播。文本信息又是新时代信息的重要组成部分,文本分类技术由此得以发展。文本分类技术在情感分析、新闻分类等领域扮演着重要的角色,正确的对文本信息进行分类有及其积极的意义,对于社会各行各业有极大的帮助。
文本分类技术是指通过传统的机器学习方法或者是深度神经网络的模型对训练集里的文本进行训练,通过优化全局误差更新模型各个参数。通过训练好的模型对未知类别的文本进行正确的预测分类。
目前,在文本分类方法的研究中,国内外的研究学者已经作出了一些良好的开端和探索。对于文本的分类问题,传统主要使用机器学习的方法,如SVM、KNN等。模型的参数较少但带能一个致命的问题,文本分类的准确度也不高。Kim Y.Convolutional NeuralNetworks for Sentence Classification[J].Eprint Arxiv,2014.等提出来一种基于卷积神经网络的文本分类方法,利用CNN网络能提取文本局部特征的优点。在模型中,输入矩阵分为静态和非静态两个通道,非静态的意思是由词向量里面的参数也是可以通过训练改变的,能纠正一些由词向量模型初始化的表示不正确的词向量;静态部分则是由词向量预先训练好的,不会受模型训练而变化,这种方法对文本分类的准确度有一定的提高。ZhouC,Sun C,Liu Z,et al.A C-LSTM Neural Network for Text Classification[J].Computer Science,2015,1(4):39-44.等提出了基于C-LSTM的文本分类方法,将文本集里面的文本进行分词过后,利用词向量模型对其进行训练,在构建了输入矩阵过后利用卷积神经网络提取局部特征的优点还考虑了文本前文的信息,在文本分类的准确度上得到一定程度的提高。Lidong H,Hui Z.A new short text sentimental classification methodbased on multi-mixed convolutional neural network[C]//IEEE InternationalConference on Cloud Computing&Big Data Analysis.IEEE,2018.等使用传统的卷积网络作为文本特征分类器,为了保证文本输入矩阵大小相同,利用了三种不同的填充方式,零填充、循环填充和随机填充,相比较于零填充,后面两种填充方式在文本分类的准确率上还是得到了提高。但是填充方式容易导致语义特征信息杂乱无章。
发明内容
针对信息文本特征表示不足,不能有效的将文本信息更多的转化为特征信息的问题,本发明提出一种基于低轨卫星通信下的终端信息分类方法,具体包括:
对要处理的信息进行中文分词处理;
对分词后的词进行训练,获取每个词的词向量表示;
通过概率潜在语义分析模型对经过中文分词后的文本进行训练,获取文本-主题矩阵和主题-词矩阵;
将获得的词向量根据主题-词矩阵进行拓展,形成最终的词向量表示;进行扩展时如图2,先对数据进行预处理,将经过预处理的数据分别输入skip-gram模型和概率潜在语义分析模型,将这两个模型得到的词向量表示进行融合集合得到最终的词向量表示;
将原文本和最终的词向量表示一一映射初始化文本矩阵;
文本-主题矩阵和最终的词向量对初始文本矩阵进行填充;如图3,在根据词向量矩阵确认最长的文本长度,基于该长度,将当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接,直到达到最长文本长度,完成填充;
将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型,得到分类结果。
进一步的,获取词向量表示的过程包括利用skip-gram词向量模型对经过中文分词后的文本进行训练,得到每一个词的词向量表示。
进一步的,将获得的词向量根据主题-词矩阵进行拓展,即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接。
进一步的,改进的神经网络分类模型包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层,注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重,各个权重乘以相对应的周围词向量,得到当前词的上下文词向量;卷积神经网络层提取输入该层文本的局部特征,将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络,获取最终的信息特征表示向量;softmax分类层输出最终的分类结果。
进一步的,中心词的上下文词向量表示为:
Figure BDA0002863773180000031
其中,gi表示了词向量xj和中心词向量xi的权重,αi,j表示上下文词向量。
进一步的,注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重包括:
Figure BDA0002863773180000032
Figure BDA0002863773180000033
其中,va为随机初始化的词向量;Wa为可训练的权重矩阵参数;
Figure BDA0002863773180000034
为向量之间的连接;score(xi,xj)表示xi和xj之间未归一化的权重值。
进一步的,通过优化误差逆传播的方式更新各个参数,考虑周围词向量对于中心词词向量的距离因素,score(xi,xj)表示为:
score(xi,xj)=(1-λ)k·score(xi,xj);
其中,k=|j-i|-1,λ=0.5。
本发明还提出一种基于低轨卫星通信下的终端信息分类***,包括信息分词模块、特征表示模块、特征处理模块、特征分类模块,其中:
信息分词模块,用于将待输入的文本进行分词操作;
特征表示模块包括词向量生成模块、概率潜在语义分析模块,词向量生成模块用于根据分词操作之后的文本生成词向量;概率潜在语义分析模块用于从分词操作之后的文本生中提取文本-主题矩阵、主题-词矩阵;
特征处理模块包括融合模块、最大主题概率计算模块以及填充模块,融合模块用于融合特征表示模块生成的词向量和主题-词矩阵中的词概率特征,融合后的文本根据最大主题概率计算模块计算得到的词向量的概率按概率从大到小进行填充;
特征分类模块包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层,注意力机制层基于中心词向量和各个周围词向量的运算得到周围词向量相对应的权重,各个权重乘以相对应的周围词向量,得到中心词的上下文词向量;卷积神经网络层提取输入该层文本的局部特征,将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络,获取最终的信息特征表示向量;softmax分类层输出最终的分类结果。
本发明具有以下优点:
1、本发明采用基于主题词下的词向量扩展方式,在原有词向量特征的基础之上,扩展了由主题-词矩阵产生的词概率特征信息。
2、本发明采用基于最大概率主题补齐,不但扩充了以输入矩阵表示的文本特征信息还使输入矩阵保持了相同的大小。
3、本发明实验于低轨卫星通信下的终端信息内容分类上,使信息分类的准确率得到提高,具有重要的研究意义。
附图说明
图1本发明提出的整体框架图;
图2本发明使用的基于主题词下的词向量扩展方式;
图3本发明使用的基于最大概率主题下的填充方式;
图4本发明改进的神经网络文本分类模型图;
图5为本发明一种基于低轨卫星通信下的终端信息分类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于低轨卫星通信下的终端信息分类方法,具体包括以下步骤:
对要处理的信息进行中文分词处理;
对分词后的词进行训练,获取每个词的词向量表示;
通过概率潜在语义分析模型对经过中文分词后的文本进行训练,获取文本-主题矩阵和主题-词矩阵;
将获得的词向量根据主题-词矩阵进行拓展,形成最终的词向量表示;
将原文本和最终的词向量表示一一映射初始化文本矩阵;
文本-主题矩阵和最终的词向量对初始文本矩阵进行填充;
将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型,得到分类结果。
图1给出了整个模型结构框图,分为了信息分词模块、特征表示模块、特征处理模块、特征分类模块完备的流程。
输入:待分类的由低轨卫星通信得到的终端信息,约80万条。
输出:将各个信息文本进行正确的分类。
步骤A:信息分词模块
通过分词模块将待输入的文本进行正确的分词,分词模块在本发明中并不是重要研究重点,所以选择的是jieba分词包。
步骤B:特征表示模块
B1:分词模块过后的文档;
B2:分词后的文档通过skip-gram进行训练词向量,保存在npy文件里面。具体的思想是将词进行one-hot编码,然后通过center词矩阵将词映射成低维词向量,解决了传统的高维词向量表示带来的维度***问题,通过context词矩阵生成周围词的低维词向量,最后使用softmax层进行优化;
B3:分词过后的文档通过概率潜在语义分析模型训练过后生成文本-主题矩阵、主题-词矩阵保存在test文件里。其基本的思想是从分布中取样生成文档的主题分布,从主题的多项式中取样生成文档某词的主题,从分布中取样生成该词主题的词语分布,从词语的多项式分布中采用最终生成该词;
步骤C:特征处理模块
C1:结合skip-gram训练得到的词向量和主题-词矩阵中的词概率特征信息融合形成最终的词向量表示;
C2:对每一个信息文本进行矩阵初始化,利用训练好的词向量进行文本向量化,矩阵的行数为文本词个数,列数为词向量的维度。因为文本集里的每个文本词个数不一导致构建的输入矩阵行数不一,由此会影响后面的特征分类模型结构;
C3:利用文本-主题矩阵和主题-词矩阵对行数不一的文本输入矩阵进行填充,以文本集里的最大文本长度为基准,将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充,直到构建的输入矩阵的行数为最大文本长度;
如图3,获取词向量矩阵的最长文本,并以此为基准,将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充,将获得的词向量根据主题-词矩阵进行拓展,即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接,直到构建的输入矩阵的行数为最大文本长度。
步骤D:特征分类模块
D1:输入端:每个信息文本构建的行数和列数固定的输入矩阵,行数为文本集里的最大文本长度,列数为训练得到的词向量的维度
D2:注意力机制层:每一个词与周围词进行词向量的运算得到各自对应的权重,权重再与对应的周围词向量相乘,最后相加得到该中心词的上下文词向量,上下文词向量与中心词词向量融合得到新的的向量表示。
Figure BDA0002863773180000071
Figure BDA0002863773180000072
Figure BDA0002863773180000073
αi,j表示上下文词向量,gi表示了词向量xj和中心词向量xi的权重,通过优化误差逆传播的方式更新各个参数,其中也考虑了周围词向量对于中心词词向量的距离因素,如下式:
score(xi,xj)=(1-λ)k·score(xi,xj);
k=|j-i|-1,λ=0.5,表示距离中心词越近,权重越大。
D3:卷积神经网络层:经过注意力机制层后,由上下文向量和中心词词向量构建的新的文本输入矩阵,利用卷积神经网络提取局部特征的优点;
卷积神经网络(Convolutional Neural Network,CNN),CNN一种前馈神经网络,本发明主要使用卷积神经网络的卷积层,因为池化层会打乱文本的语义顺序。卷积层主要通过卷积操作实现局部特征响应,然后使用相同的卷积核扫描整个文本输入特征,提取整个文本的特征,实现权值共享。一般每个卷积层都会对应多个不同的卷积核,每个卷积核提取出的特征称之为特征谱,具体计算如式:
Figure BDA0002863773180000074
其中,
Figure BDA0002863773180000075
表示第j个特征谱,wj表示对应的卷积核,/>
Figure BDA0002863773180000076
表示上层第i个特征谱作为当前的输入,/>
Figure BDA0002863773180000077
表示偏置量,/>
Figure BDA0002863773180000078
表示每个特征谱的特征数量,M表示每个卷积层的特征谱数。θ(·)为激活函数,选择有ReLU函数。在卷积神经网络中卷积层的输出是文本的特征,隐层的最后部分一般为全连接层,相当于传统神经网络中多层感知机中的隐层,即前一层的每个神经元都与后一层的每个神经元相连。具体公式如式:
Figure BDA0002863773180000081
其中hW,b(x)表示全连接层的输出;xi表示上一层神经元的输出即全连接层的输入;Wi表示神经元之间连接的权值;b表示偏置量,θ(·)表示激活函数。
D4:双向长短期记忆网络层:从卷积神经网络层提取到的深层次语义表示,进入双向长短期记忆网络,利用文本前向和后向的依赖关系,将向量表示的语义作为时间节点输入,生成了两个整体文本向量。
LSTM(Long Short-Term Memory)是长短期记忆网络,LSTM结构如图4所示,LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM在处理时序间隔和延迟非常长的任务时,LSTM比RNN更具有竞争力,其主要原因在于LSTM增加了一个记忆单元(Cell State),用以取代传统的隐含神经元节点。LSTM很好得解决了传统RNN随着网络层数的增多,产生梯度消失或梯度***的问题。LSTM单元计算如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002863773180000082
Figure BDA0002863773180000083
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,σ是逻辑Sigmoid函数,i、f、o还有c分别代表的是LSTM记忆单元的输入门(Input gate)、遗忘门(Forget gate)、输出门(Output gate)、卷积乘和记忆单元向量(Cell vectors),这些向量的维度都与隐藏层向量h的维度是一致;Wi、Wf、Wo分别表示连接输入门、遗门、输出门的权重矩阵。
D5:分类结果层:将正向和反向输出的文本进行融合成新的信息文本向量过后,进入softmax层进行分类,得出结果。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于低轨卫星通信下的终端信息分类方法,其特征在于,具体包括以下步骤:
对要处理的信息进行中文分词处理;
对分词后的词进行训练,获取每个词的词向量表示;获取词向量表示的过程包括利用skip-gram词向量模型对经过中文分词后的文本进行训练,得到每一个词的词向量表示;
通过概率潜在语义分析模型对经过中文分词后的文本进行训练,获取文本-主题矩阵和主题-词矩阵;
将获得的词向量根据主题-词矩阵进行拓展,即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接,形成最终的词向量表示;
将原文本和最终的词向量表示一一映射初始化文本矩阵,映射过程中将文本矩阵的行数为文本词个数,列数为词向量的维度;
文本-主题矩阵和最终的词向量对初始文本矩阵进行填充,包括:获取词向量矩阵的最长文本,并以此为基准,将该文本所属最大主题概率下的词向量按概率从大到下按序对输入矩阵进行填充,将获得的词向量根据主题-词矩阵进行拓展,即由当前词向量与当前词向量在主题-词矩阵中的概率向量进行列维度上的拼接,直到构建的输入矩阵的行数为最大文本长度;
将经过填充之后得到的文本输入矩阵输入改进的神经网络分类模型,得到分类结果;
改进的神经网络分类模型包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层,注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重,各个权重乘以相对应的周围词向量,得到当前词的上下文词向量;卷积神经网络层提取输入该层文本的局部特征,将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络,获取最终的信息特征表示向量;softmax分类层输出最终的分类结果。
2.根据权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法,其特征在于,中心词的上下文词向量表示为:
Figure FDA0004266065880000021
其中,gi表示了词向量xj和中心词向量xi的权重,αi,j表示上下文词向量。
3.根据权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法,其特征在于,注意力机制层基于当前词向量和其周围的词向量运算得到周围词向量相对应的权重包括:
Figure FDA0004266065880000022
Figure FDA0004266065880000023
其中,va为随机初始化的词向量;Wa为可训练的权重矩阵参数;
Figure FDA0004266065880000024
为向量之间的连接;score(xi,xj)表示xi和xj之间未归一化的权重值。
4.根据权利要求3所述的一种基于低轨卫星通信下的终端信息分类方法,其特征在于,通过优化误差逆传播的方式更新各个参数,考虑周围词向量对于中心词词向量的距离因素,score(xi,xj)表示为:
score(xi,xj)=(1-λ)k·score(xi,xj);
其中,k=|j-i|-1,λ=0.5。
5.一种基于低轨卫星通信下的终端信息分类***,其特征在于,用于实现权利要求1所述的一种基于低轨卫星通信下的终端信息分类方法,包括信息分词模块、特征表示模块、特征处理模块、特征分类模块,其中:
信息分词模块,用于将待输入的文本进行分词操作;
特征表示模块包括词向量生成模块、概率潜在语义分析模块,词向量生成模块用于根据分词操作之后的文本生成词向量;概率潜在语义分析模块用于从分词操作之后的文本生中提取文本-主题矩阵、主题-词矩阵;
特征处理模块包括融合模块、最大主题概率计算模块以及填充模块,融合模块用于融合特征表示模块生成的词向量和主题-词矩阵中的词概率特征,融合后的文本根据最大主题概率计算模块计算得到的词向量的概率按概率从大到小进行填充;
特征分类模块包括注意力机制层、卷积神经网络层、双向长短期记忆网络层和softmax分类层,注意力机制层基于中心词向量和各个周围词向量的运算得到周围词向量相对应的权重,各个权重乘以相对应的周围词向量,得到中心词的上下文词向量;卷积神经网络层提取输入该层文本的局部特征,将卷积神经网络层输出的向量以时间节点的形式输入进双向长短期记忆网络,获取最终的信息特征表示向量;softmax分类层输出最终的分类结果。
CN202011578389.XA 2020-12-28 2020-12-28 一种基于低轨卫星通信下的终端信息分类方法及*** Active CN112597311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011578389.XA CN112597311B (zh) 2020-12-28 2020-12-28 一种基于低轨卫星通信下的终端信息分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011578389.XA CN112597311B (zh) 2020-12-28 2020-12-28 一种基于低轨卫星通信下的终端信息分类方法及***

Publications (2)

Publication Number Publication Date
CN112597311A CN112597311A (zh) 2021-04-02
CN112597311B true CN112597311B (zh) 2023-07-11

Family

ID=75203721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011578389.XA Active CN112597311B (zh) 2020-12-28 2020-12-28 一种基于低轨卫星通信下的终端信息分类方法及***

Country Status (1)

Country Link
CN (1) CN112597311B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机***有限公司 文本主题的分类方法及***
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答***的构建方法
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
KR101938212B1 (ko) * 2018-05-29 2019-01-15 전남대학교산학협력단 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及***
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221621B2 (en) * 2004-04-06 2007-05-22 College Of William & Mary System and method for identification and quantification of sonar targets in a liquid medium
US20120053080A1 (en) * 2009-03-09 2012-03-01 Juan Cui Protein markers identification for gastric cancer diagnosis
CN109492223B (zh) * 2018-11-06 2020-08-04 北京邮电大学 一种基于神经网络推理的中文缺失代词补全方法
CN109902177B (zh) * 2019-02-28 2022-11-29 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机***有限公司 文本主题的分类方法及***
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答***的构建方法
KR101938212B1 (ko) * 2018-05-29 2019-01-15 전남대학교산학협력단 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及***
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种粒度融合的新闻文本主题分类模型;杨春霞等;《小型微型计算机***》;2256-2259 *

Also Published As

Publication number Publication date
CN112597311A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN106910497B (zh) 一种中文词语发音预测方法及装置
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113657124A (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN112632972A (zh) 一种电网设备故障报告内故障信息的快速提取方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN109684449B (zh) 一种基于注意力机制的自然语言语义表征方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN112883737A (zh) 基于中文命名实体识别的机器人语言指令分析方法及***
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN113139057A (zh) 一种域适应的化工安全隐患短文本分类方法及***
US20230108248A1 (en) Model compression via quantized sparse principal component analysis
CN112597311B (zh) 一种基于低轨卫星通信下的终端信息分类方法及***
CN116821340A (zh) 基于深度学习的多标签文本分类方法
CN114970497B (zh) 基于预训练特征嵌入的文本分类方法及词义消歧方法
CN113505226B (zh) 融合图卷积神经网络的文本情感分类***
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN115577111A (zh) 基于自注意力机制的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 401120 39-1, Building 1, No. 64, Middle Huangshan Avenue, Yubei District, Chongqing

Patentee after: China Star Network Application Co.,Ltd.

Address before: 618 Liangjiang Avenue, Longxing Town, Yubei District, Chongqing

Patentee before: Dongfanghong Satellite Mobile Communication Co.,Ltd.