CN114201959A - 一种移动应急指挥方法 - Google Patents

一种移动应急指挥方法 Download PDF

Info

Publication number
CN114201959A
CN114201959A CN202111351523.7A CN202111351523A CN114201959A CN 114201959 A CN114201959 A CN 114201959A CN 202111351523 A CN202111351523 A CN 202111351523A CN 114201959 A CN114201959 A CN 114201959A
Authority
CN
China
Prior art keywords
emergency
emergency text
text
field
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111351523.7A
Other languages
English (en)
Inventor
张艺龙
张钦
饶啸武
李洁
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Changtai Industrial Technology Co ltd
Original Assignee
Hunan Changtai Industrial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Changtai Industrial Technology Co ltd filed Critical Hunan Changtai Industrial Technology Co ltd
Priority to CN202111351523.7A priority Critical patent/CN114201959A/zh
Publication of CN114201959A publication Critical patent/CN114201959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人机交互指挥的技术领域,公开了一种移动应急指挥方法,包括:利用SimHash方法将移动应急***中的大量文本资料进行去重;利用TF‑IDF方法对去重后的应急文本数据集合进行关键词提取;利用词向量方法对关键词集合进行向量化表示;构建深度神经网络,以关键词向量为输入,应急文本的事态严重程度为输出进行预测分析,得到不同应急文本数据的严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。本发明所述方法通过利用深度神经网络对应急文本关键词向量的事态严重程度进行预测,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,从而降低指挥方舱操作员的工作负荷和操作难度。

Description

一种移动应急指挥方法
技术领域
本发明涉及人机交互指挥的技术领域,尤其涉及一种移动应急指挥方法。
背景技术
指挥方舱是操作人员执行飞行任务时的主要活动场所,指挥方舱中的各类显示器和控制器给操作人员提供重要的人机交互界面,用于实现对飞行以及***的集中显示、控制管理。依据用户要求,指挥方舱需具备扩展兼容多型的能力。随着任务和***功能的不断扩展,***提供给操作人员的信息呈几何级数显著增加,操作员在海量信息中,精神负荷加重,心理疲劳增多。大量的显示信息和及时控制响应的需求,以及***人机分离与长航时的特点,使得指挥方舱操作员的工作负荷和操作难度增大,容易导致误判和误操作,如何实现一种人机交互式的应急指挥,成为移动式指挥方舱所面临的问题。
鉴于此,本发明提出一种移动应急指挥方法,通过对移动应急***中的应急文本进行文本预处理,得到应急文本的关键词向量,利用深度神经网络对应急文本关键词向量的事态严重程度进行预测,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,从而降低指挥方舱操作员的工作负荷和操作难度。
发明内容
本发明提供一种移动应急指挥方法,目的在于(1)降低指挥方舱操作员的工作负荷和操作难度;(2)实现严重事件的优先指挥决策。
实现上述目的,本发明提供的一种移动应急指挥方法,包括以下步骤:
S1:利用SimHash方法将移动应急***中的大量文本资料进行去重,得到去重后的应急文本数据集合;
S2:利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到每条应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心;
S3:利用词向量方法对关键词集合进行向量化表示,得到每条应急文本数据的关键词向量;
S4:构建深度神经网络,以关键词向量为输入,应急文本的事态严重程度为输出进行预测分析,得到不同应急文本数据的严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
作为本发明的进一步改进方法:
所述S1步骤中利用SimHash方法中的字符切分算法对移动应急***中的文本资料进行字符切分处理,得到应急文本的字符切分数据,包括:
获取移动应急***中的应急文本资料,利用字符切分算法对移动应急***中的应急文本资料进行切分处理,所述字符切分算法流程为:
1)预构建分词词典,取应急文本的前n个字符作为匹配字段,匹配分词词典是否含有该字段,则匹配成功,并分出该字段,所述分词词典中最大词条所含的字符个数为n个;若未匹配成功,则将由n个字符组成的匹配字段的最后一位剔除,用剩下n-1个字符组成的匹配字段在分词词典中进行匹配,直到匹配成功;
2)从匹配成功字段的末尾字符处开始,取n个字符组成匹配字段,重新将组成的字段在分词词典中匹配;
4)重复上述步骤,直到应急文本均被切分为若干字段,
5)利用预设的停用词词典对切分后的字段进行遍历匹配操作,将匹配到的停用词进行删除处理,得到的应急文本字符切分数据为:
{(w1,1,w1,2,…),(w2,1,w2,2,…),…,(wi,1,wi,2,…,wi,j,…),…,(wn,1,wn,2,…)}
其中:
wi,j表示应急文本i的第j条切分字段,i表示应急文本的编号;
n表示移动应急***中所获取的应急文本数;
在本发明一个具体实施例中,所述停用词词典中包括自然语言中出现频率很高,但实际意义又不大的词,主要包括语气助词、副词、介词、连词,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类的。
所述S1步骤中利用SimHash方法中的字段权重赋值方法确定切分后字段的权重,包括:
利用字段权重赋值方法确定切分后字段的权重,所述字段权重赋值方法流程为:
对于任意应急文本i(wi,1,wi,2,…,wi,j,…)中的任意切分字段wi,j,计算切分字段在应急文本i的词频:
Figure BDA0003355933430000021
其中:
mi表示应急文本i中的切分字段数目;
mi,j表示切分字段wi,j在应急文本i中的出现次数;
调整切分字段的词频:
Figure BDA0003355933430000022
其中:
δ1,δ2分别为词频修正值,δ12∈[0,1];
mave表示所获取的n条应急文本数据中应急文本的平均切分字段数;
当应急文本字段数超过应急文本字段平均数时词频会减小,抑制了长应急文本中字段词频过高的问题。
所述S1步骤中基于SimHash方法中得到的应急文本字符切分数据以及切分字段权重,进行应急文本去重,包括:
利用SimHash方法对应急文本集合进行去重处理,所述去重处理的流程为:
1)将任意应急文本i切分数据{(w1,1,w1,2,…),(w2,1,w2,2,…),…,(wn,1,wn,2,…)}中的任意切分字段转换为hash值,得到任意应急文本i的集合:
(hash(wi,1):s′i,1,hash(wi,2):s′i,2,…,hash(wi,j):s′i,j,…,hash(wi,k):s′i,k)
其中:
k表示应急文本i中的切分字段总数;
hash(wi,j)表示应急文本i中第j条切分字段wi,j的hash值,s′i,j表示切分字段wi,j的词频;
2)计算得到任意应急文本i的SimHash值:
simi=hash(wi,1)s′i,1+hash(wi,2)s′i,2+…+hash(wi,k)s′i,k
3)重复步骤1)-2),得到所有应急文本的SimHash值;
4)对任意两条应急文本i,j的SimHash值进行异或操作,统计异或操作结果中1的数目,若1的数目大于3则认为当前两条应急文本i,j不相似,否则认为当前两条应急文本i,j相似,保留最近的应急文本,删除另一应急文本。
5)最终得到的应急文本数据集合为{u1,u2,…,uc}={(u1,1,u1,2,…),(u2,1,u2,2,…),…,(uc,1,uc,2,…)},其中,ui,j为应急文本ui的第j条切分字段。
所述S2步骤中利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,包括:
利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到去重后应急文本数据集合的关键词集合,所述TF-IDF方法流程为:
预构建应急文本语料库,对于任意应急文本ui中的切分字段ui,j,分别计算其在应急文本ui以及应急文本语料库中的词频:
Figure BDA0003355933430000031
Figure BDA0003355933430000032
其中:
TFi,j表示切分字段ui,j在应急文本ui中的词频;
IDFi,j表示切分字段ui,j在应急文本语料库中的词频;
N表示应急文本语料库中文本总数;
N(ui,j)表示应急文本语料库中包含切分字段ui,j的文本总数;
ei表示应急文本ui中的切分字段数目;
ei,j表示切分字段ui,j在应急文本ui中的出现次数;
计算切分字段ui,j的TF-IDF值:
TF_IDFi,j=TFi,j*IDFi,j
对于任意应急文本ui,选取TF-IDF值最大的g个切分字段作为应急文本的关键词,得到应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心,所述关键词集合为:
{(x1,1,x1,2,…,x1,g),(x2,1,x2,2,…,x2,g),…,(xc,1,xc,2,…,xc,g)}
其中:
xi,j表示经济文本ui的第j个关键词,j<g;
在本发明一个具体实施例中,将g设置为6。
所述S3步骤中利用词向量方法对关键词集合进行向量化表示,包括:
利用词向量方法对关键词集合进行向量化表示,对于任意应急文本ui的关键词集合xi=(xi,1,xi,2,…,xi,g),利用词向量化方法将其转换为应急文本的关键词向量,所述词向量方法流程为:
1)利用独热编码方法对任意应急文本ui的关键词集合xi=(xi,1,xi,2,…,xi,g)进行编码处理,得到关键词集合xi的二进制独热编码结果ri
2)构建词向量化模型:
F(ri,θ)=f(θTri)
其中:
θ为p×q维矩阵,为词向量化模型的参数,p为独热编码维度,q为词向量化结果维度;
f(·)为sigmoid函数;
3)构建词向量化模型的目标函数:
Figure BDA0003355933430000033
其中:
ε为p维列向量,表示随机误差;
β为p×q维矩阵;
将求解得到的最小θ作为词向量化模型参数,并利用词向量化模型F(ri,θ)输出任意应急文本ui中关键词的关键词向量化结果Xi
所述S4步骤中以关键词向量为输入,应急文本的事态严重程度为输出构建深度神经网络,包括:
构建以关键词向量为输入,应急文本的事态严重程度为输出的深度神经网络,所述关键词向量集合为{X1,X2,…,Xi,…,Xc},其中Xi表示应急文本ui的关键词向量化结果,所述深度神经网络的预测流程为:
将关键词向量集合X={X1,X2,…,Xi,…,Xc}作为深度神经网络输入层的输入值,深度神经网络的隐藏层对输入的数据X进行特征映射:
yi=σ(wXi+b)
其中:
σ(·)表示激活函数,其中激活函数为Sigmoid函数;
w表示隐藏层中的权重值;
b表示隐藏层中的偏置量;
yi表示预测得到关键词向量Xi的事态严重程度,其中事态严重程度分为1~10,1表示事态严重程度最高,数字越大表示事态严重程度越小,10表示事态严重程度最低;
所述深度神经网络的训练流程为:
获取若干训练数据,所述训练数据包括若干关键词向量以及对应的真实事态严重程度,构建深度神经网络的损失函数:
Figure BDA0003355933430000041
其中:
Y表示训练数据的数量;
Figure BDA0003355933430000044
表示深度神经网络输出的训练数据j的事态严重程度,yj表示训练数据j的真实事态严重程度;
利用梯度下降算法对隐藏层中的参数进行更新,参数更新公式如下:
Figure BDA0003355933430000042
Figure BDA0003355933430000043
其中:
α为学习率,将其设置为0.6;
重复上述更新步骤,直到损失函数值Loss达到最小,此时的隐藏层参数即为训练得到的隐藏层参数,完成深度神经网络训练。
所述S4步骤中并将向量化的应急文本输入到深度神经网络中,输出应急文本的事态严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,包括:
将应急文本的关键词向量{X1,X2,…,Xi,…,Xc}依次输入到深度神经网络,其中Xi表示应急文本ui的关键词向量化结果,神经网络的输出结果为应急文本的事态严重程度{y1,y2,…,yi,…,yc},其中yi表示应急文本ui的事态严重程度;
根据深度神经网络输出的事态严重程度结果,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
相对于现有技术,本发明提出一种移动应急指挥方法,该技术具有以下优势:
首先,由于移动应急***中存在大量待处理的应急文本数据,为简化移动应急***中指挥员指挥操作的复杂性,本方案提出一种基于SimHash的应急文本去重方法来对***中的应急文本进行去重,所述应急文本去重方法包括,所述S1步骤中利用SimHash方法中的字符切分算法对移动应急***中的文本资料进行字符切分处理,得到应急文本的字符切分数据,对于任意应急文本i(wi,1,wi,2,…,wi,j,…)中的任意切分字段wi,j,计算切分字段在应急文本i的词频:
Figure BDA0003355933430000051
其中:mi表示应急文本i中的切分字段数目;mi,j表示切分字段wi,j在应急文本i中的出现次数;调整切分字段的词频:
Figure BDA0003355933430000052
其中:δ12分别为词频修正值,δ12∈[0,1];mave表示所获取的n条应急文本数据中应急文本的平均切分字段数;相较于传统方案,当应急文本字段数超过应急文本字段平均数时词频会减小,因此本方案抑制了长应急文本中字段词频过高的问题。基于应急文本字符切分数据以及切分字段权重,本方案进行应急文本去重,将任意应急文本i切分数据{(w1,1,w1,2,…),(w2,1,w2,2,…),…,(wn,1,wn,2,…)}中的任意切分字段转换为hash值,得到任意应急文本i的集合:
(hash(wi,1):s′i,1,hash(wi,2):s′i,2,…,hash(wi,j):s′i,j,…,hash(wi,k):s′i,k)
其中:k表示应急文本i中的切分字段总数;hash(wi,j)表示应急文本i中第j条切分字段wi,j的hash值,s′i,j表示切分字段wi,j的词频;计算得到任意应急文本i的SimHash值:
simi=hash(wi,1)s′i,1+hash(wi,2)s′i,2+…+hash(wi,k)s′i,k
重复步骤上述步骤,得到所有应急文本的SimHash值;对任意两条应急文本i,j的SimHash值进行异或操作,统计异或操作结果中1的数目,若1的数目大于3则认为当前两条应急文本i,j不相似,否则认为当前两条应急文本i,j相似,保留最近的应急文本,删除另一应急文本,实现移动应急***中应急文本数据的去重处理。
同时,本方案提出一种用于预测应急文本事态严重程度的深度神经网络,所述深度神经网络以关键词向量为输入,应急文本的事态严重程度为输出,所述深度神经网络的预测流程为:将关键词向量集合X={X1,X2,…,Xi,…,Xc}作为深度神经网络输入层的输入值,深度神经网络的隐藏层对输入的数据X进行特征映射:
yi=σ(wXi+b)
其中:σ(·)表示激活函数,其中激活函数为Sigmoid函数;w表示隐藏层中的权重值;b表示隐藏层中的偏置量;yi表示预测得到关键词向量Xi的事态严重程度,其中事态严重程度分为1~10,1表示事态严重程度最高,数字越大表示事态严重程度越小,10表示事态严重程度最低;将应急文本的关键词向量{X1,X2,…,Xi,…,Xc}依次输入到深度神经网络,其中Xi表示应急文本ui的关键词向量化结果,神经网络的输出结果为应急文本的事态严重程度{y1,y2,…,yi,…,yc},其中yi表示应急文本ui的事态严重程度;根据深度神经网络输出的事态严重程度结果,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,从而实现实现严重事件的优先指挥决策,避免操作员疲劳状态下处理严重事件,导致严重事件指挥出错的问题。
附图说明
图1为本发明一实施例提供的一种移动应急指挥方法的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
S1:利用SimHash方法将移动应急***中的大量文本资料进行去重,得到去重后的应急文本数据集合。
所述S1步骤中利用SimHash方法中的字符切分算法对移动应急***中的文本资料进行字符切分处理,得到应急文本的字符切分数据,包括:
获取移动应急***中的应急文本资料,利用字符切分算法对移动应急***中的应急文本资料进行切分处理,所述字符切分算法流程为:
1)预构建分词词典,取应急文本的前n个字符作为匹配字段,匹配分词词典是否含有该字段,则匹配成功,并分出该字段,所述分词词典中最大词条所含的字符个数为n个;若未匹配成功,则将由n个字符组成的匹配字段的最后一位剔除,用剩下n-1个字符组成的匹配字段在分词词典中进行匹配,直到匹配成功;
2)从匹配成功字段的末尾字符处开始,取n个字符组成匹配字段,重新将组成的字段在分词词典中匹配;
4)重复上述步骤,直到应急文本均被切分为若干字段,
5)利用预设的停用词词典对切分后的字段进行遍历匹配操作,将匹配到的停用词进行删除处理,得到的应急文本字符切分数据为:
{(w1,1,w1,2,…),(w2,1,w2,2,…),…,(wi,1,wi,2,…,wi,j,…),…,(wn,1,wn,2,…)}
其中:
wi,j表示应急文本i的第j条切分字段,i表示应急文本的编号;
n表示移动应急***中所获取的应急文本数;
在本发明一个具体实施例中,所述停用词词典中包括自然语言中出现频率很高,但实际意义又不大的词,主要包括语气助词、副词、介词、连词,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类的。
所述S1步骤中利用SimHash方法中的字段权重赋值方法确定切分后字段的权重,包括:
利用字段权重赋值方法确定切分后字段的权重,所述字段权重赋值方法流程为:
对于任意应急文本i(wi,1,wi,2,…,wi,j,…)中的任意切分字段wi,j,计算切分字段在应急文本i的词频:
Figure BDA0003355933430000061
其中:
mi表示应急文本i中的切分字段数目;
mi,j表示切分字段wi,j在应急文本i中的出现次数;
调整切分字段的词频:
Figure BDA0003355933430000062
其中:
δ12分别为词频修正值,δ12∈[0,1];
mave表示所获取的n条应急文本数据中应急文本的平均切分字段数;
当应急文本字段数超过应急文本字段平均数时词频会减小,抑制了长应急文本中字段词频过高的问题。
所述S1步骤中基于SimHash方法中得到的应急文本字符切分数据以及切分字段权重,进行应急文本去重,包括:
利用SimHash方法对应急文本集合进行去重处理,所述去重处理的流程为:
1)将任意应急文本i切分数据{(w1,1,w1,2,…),(w2,1,w2,2,…),…,(wn,1,wn,2,…)}中的任意切分字段转换为hash值,得到任意应急文本i的集合:
(hash(wi,1):s′i,1,hash(wi,2):s′i,2,…,hash(wi,j):s′i,j,…,hash(wi,k):s′i,k)
其中:
k表示应急文本i中的切分字段总数;
hash(wi,j)表示应急文本i中第j条切分字段wi,j的hash值,s′i,j表示切分字段wi,j的词频;
2)计算得到任意应急文本i的SimHash值:
simi=hash(wi,1)s′i,1+hash(wi,2)s′i,2+…+hash(wi,k)s′i,k
3)重复步骤1)-2),得到所有应急文本的SimHash值;
4)对任意两条应急文本i,j的SimHash值进行异或操作,统计异或操作结果中1的数目,若1的数目大于3则认为当前两条应急文本i,j不相似,否则认为当前两条应急文本i,j相似,保留最近的应急文本,删除另一应急文本。
5)最终得到的应急文本数据集合为{u1,u2,…,uc}={(u1,1,u1,2,…),(u2,1,u2,2,…),…,(uc,1,uc,2,…)},其中,ui,j为应急文本ui的第j条切分字段。
S2:利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到每条应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心。
所述S2步骤中利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,包括:
利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到去重后应急文本数据集合的关键词集合,所述TF-IDF方法流程为:
预构建应急文本语料库,对于任意应急文本ui中的切分字段ui,j,分别计算其在应急文本ui以及应急文本语料库中的词频:
Figure BDA0003355933430000071
Figure BDA0003355933430000072
其中:
TFi,j表示切分字段ui,j在应急文本ui中的词频;
IDFi,j表示切分字段ui,j在应急文本语料库中的词频;
N表示应急文本语料库中文本总数;
N(ui,j)表示应急文本语料库中包含切分字段ui,j的文本总数;
ei表示应急文本ui中的切分字段数目;
ei,j表示切分字段ui,j在应急文本ui中的出现次数;
计算切分字段ui,j的TF-IDF值:
TF_IDFi,j=TFi,j*IDFi,j
对于任意应急文本ui,选取TF-IDF值最大的g个切分字段作为应急文本的关键词,得到应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心,所述关键词集合为:
{(x1,1,x1,2,…,x1,g),(x2,1,x2,2,…,x2,g),…,(xc,1,xc,2,…,xc,g)}
其中:
xi,j表示经济文本ui的第j个关键词,j<g;
在本发明一个具体实施例中,将g设置为6。
S3:利用词向量方法对关键词集合进行向量化表示,得到每条应急文本数据的关键词向量。
所述S3步骤中利用词向量方法对关键词集合进行向量化表示,包括:
利用词向量方法对关键词集合进行向量化表示,对于任意应急文本ui的关键词集合xi=(xi,1,xi,2,…,xi,g),利用词向量化方法将其转换为应急文本的关键词向量,所述词向量方法流程为:
1)利用独热编码方法对任意应急文本ui的关键词集合xi=(xi,1,xi,2,…,xi,g)进行编码处理,得到关键词集合xi的二进制独热编码结果ri
2)构建词向量化模型:
F(ri,θ)=f(θTri)
其中:
θ为p×q维矩阵,为词向量化模型的参数,p为独热编码维度,q为词向量化结果维度;
f(·)为sigmoid函数;
3)构建词向量化模型的目标函数:
Figure BDA0003355933430000081
其中:
ε为p维列向量,表示随机误差;
β为p×q维矩阵;
将求解得到的最小θ作为词向量化模型参数,并利用词向量化模型F(ri,θ)输出任意应急文本ui中关键词的关键词向量化结果Xi
S4:构建深度神经网络,以关键词向量为输入,应急文本的事态严重程度为输出进行预测分析,得到不同应急文本数据的严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
所述S4步骤中以关键词向量为输入,应急文本的事态严重程度为输出构建深度神经网络,包括:
构建以关键词向量为输入,应急文本的事态严重程度为输出的深度神经网络,所述关键词向量集合为{X1,X2,…,Xi,…,Xc},其中Xi表示应急文本ui的关键词向量化结果,所述深度神经网络的预测流程为:
将关键词向量集合X={X1,X2,…,Xi,…,Xc}作为深度神经网络输入层的输入值,深度神经网络的隐藏层对输入的数据X进行特征映射:
yi=σ(wXi+b)
其中:
σ(·)表示激活函数,其中激活函数为Sigmoid函数;
w表示隐藏层中的权重值;
b表示隐藏层中的偏置量;
yi表示预测得到关键词向量Xi的事态严重程度,其中事态严重程度分为1~10,1表示事态严重程度最高,数字越大表示事态严重程度越小,10表示事态严重程度最低;
所述深度神经网络的训练流程为:
获取若干训练数据,所述训练数据包括若干关键词向量以及对应的真实事态严重程度,构建深度神经网络的损失函数:
Figure BDA0003355933430000082
其中:
Y表示训练数据的数量;
Figure BDA0003355933430000083
表示深度神经网络输出的训练数据j的事态严重程度,yj表示训练数据j的真实事态严重程度;
利用梯度下降算法对隐藏层中的参数进行更新,参数更新公式如下:
Figure BDA0003355933430000084
Figure BDA0003355933430000085
其中:
α为学习率,将其设置为0.6;
重复上述更新步骤,直到损失函数值Loss达到最小,此时的隐藏层参数即为训练得到的隐藏层参数,完成深度神经网络训练。
所述S4步骤中并将向量化的应急文本输入到深度神经网络中,输出应急文本的事态严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,包括:
将应急文本的关键词向量{X1,X2,…,Xi,…,Xc}依次输入到深度神经网络,其中Xi表示应急文本ui的关键词向量化结果,神经网络的输出结果为应急文本的事态严重程度{y1,y2,…,yi,…,yc},其中yi表示应急文本ui的事态严重程度;
根据深度神经网络输出的事态严重程度结果,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种移动应急指挥方法,其特征在于,所述方法包括:
S1:利用SimHash方法将移动应急***中的大量文本资料进行去重,得到去重后的应急文本数据集合;
S2:利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到每条应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心;
S3:利用词向量方法对关键词集合进行向量化表示,得到每条应急文本数据的关键词向量;
S4:构建深度神经网络,以关键词向量为输入,应急文本的事态严重程度为输出进行预测分析,得到不同应急文本数据的严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
2.如权利要求1所述的一种移动应急指挥方法,其特征在于,所述S1步骤中利用SimHash方法中的字符切分算法对移动应急***中的文本资料进行字符切分处理,得到应急文本的字符切分数据,包括:
获取移动应急***中的应急文本资料,利用字符切分算法对移动应急***中的应急文本资料进行切分处理,所述字符切分算法流程为:
1)预构建分词词典,取应急文本的前n个字符作为匹配字段,匹配分词词典是否含有该字段,则匹配成功,并分出该字段,所述分词词典中最大词条所含的字符个数为n个;若未匹配成功,则将由n个字符组成的匹配字段的最后一位剔除,用剩下n-1个字符组成的匹配字段在分词词典中进行匹配,直到匹配成功;
2)从匹配成功字段的末尾字符处开始,取n个字符组成匹配字段,重新将组成的字段在分词词典中匹配;
4)重复上述步骤,直到应急文本均被切分为若干字段,
5)利用预设的停用词词典对切分后的字段进行遍历匹配操作,将匹配到的停用词进行删除处理,得到的应急文本字符切分数据为:
{(w1,1,w1,2,...),(w2,1,w2,2,...),...,(wi,1,wi,2,...,wi,j,...),...,(wn,1,wn,2,...)}
其中:
wi,j表示应急文本i的第j条切分字段,i表示应急文本的编号;
n表示移动应急***中所获取的应急文本数;
在本发明一个具体实施例中,所述停用词词典中包括自然语言中出现频率很高,但实际意义又不大的词,主要包括语气助词、副词、介词、连词,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类的。
3.如权利要求2所述的一种移动应急指挥方法,其特征在于,所述S1步骤中利用SimHash方法中的字段权重赋值方法确定切分后字段的权重,包括:
利用字段权重赋值方法确定切分后字段的权重,所述字段权重赋值方法流程为:
对于任意应急文本i(wi,1,wi,2,...,wi,j,...)中的任意切分字段wi,j,计算切分字段在应急文本i的词频:
Figure FDA0003355933420000011
其中:
mi表示应急文本i中的切分字段数目;
mi,j表示切分字段wi,j在应急文本i中的出现次数;
调整切分字段的词频:
Figure FDA0003355933420000021
其中:
δ1,δ2分别为词频修正值,δ1,δ2∈[0,1];
mave表示所获取的n条应急文本数据中应急文本的平均切分字段数;
当应急文本字段数超过应急文本字段平均数时词频会减小,抑制了长应急文本中字段词频过高的问题。
4.如权利要求2-3所述的一种移动应急指挥方法,其特征在于,所述S1步骤中基于SimHash方法中得到的应急文本字符切分数据以及切分字段权重,进行应急文本去重,包括:
利用SimHash方法对应急文本集合进行去重处理,所述去重处理的流程为:
1)将任意应急文本i切分数据{(w1,1,w1,2,...),(w2,1,w2,2,...),...,(wn,1,wn,2,...)}中的任意切分字段转换为hash值,得到任意应急文本i的集合:
(hash(wi,1):s′i,1,hash(wi,2):s′i,2,...,hash(wi,j):s′i,j,...,hash(wi,k):s′i,k)
其中:
k表示应急文本i中的切分字段总数;
hash(wi,j)表示应急文本i中第j条切分字段wi,j的hash值,s′i,j表示切分字段wi,j的词频;
2)计算得到任意应急文本i的SimHash值:
simi=hash(wi,1)s′i,1+hash(wi,2)s′i,2+…+hash(wi,k)s′i,k
3)重复步骤1)-2),得到所有应急文本的SimHash值;
4)对任意两条应急文本i,j的SimHash值进行异或操作,统计异或操作结果中1的数目,若1的数目大于3则认为当前两条应急文本i,j不相似,否则认为当前两条应急文本i,j相似,保留最近的应急文本,删除另一应急文本。
5)最终得到的应急文本数据集合为{u1,u2,...,uc}={(u1,1,u1,2,...),(u2,1,u2,2,...),...,(uc,1,uc,2,...)},其中,ui,j为应急文本ui的第j条切分字段。
5.如权利要求4所述的一种移动应急指挥方法,其特征在于,所述S2步骤中利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,包括:
利用TF-IDF方法对去重后的应急文本数据集合进行关键词提取,得到去重后应急文本数据集合的关键词集合,所述TF-IDF方法流程为:
预构建应急文本语料库,对于任意应急文本ui中的切分字段ui,j,分别计算其在应急文本ui以及应急文本语料库中的词频:
Figure FDA0003355933420000022
Figure FDA0003355933420000023
其中:
TFi,j表示切分字段ui,j在应急文本ui中的词频;
IDFi,j表示切分字段ui,j在应急文本语料库中的词频;
N表示应急文本语料库中文本总数;
N(ui,j)表示应急文本语料库中包含切分字段ui,j的文本总数;
ei表示应急文本ui中的切分字段数目;
ei,j表示切分字段ui,j在应急文本ui中的出现次数;
计算切分字段ui,j的TF-IDF值:
FF_IDFi,j=TFi,j*IDFi,j
对于任意应急文本ui,选取TF-IDF值最大的g个切分字段作为应急文本的关键词,得到应急文本数据的关键词集合,将关键词集合作为每条应急文本数据的主旨核心,所述关键词集合为:
{(x1,1,x1,2,...,x1,g),(x2,1,x2,2,...,x2,g),...,(xc,1,xc,2,...,xc,g)}
其中:
xi,j表示经济文本ui的第j个关键词,j<g;
在本发明一个具体实施例中,将g设置为6。
6.如权利要求5所述的一种移动应急指挥方法,其特征在于,所述S3步骤中利用词向量方法对关键词集合进行向量化表示,包括:
利用词向量方法对关键词集合进行向量化表示,对于任意应急文本ui的关键词集合xi=(xi,1,xi,2,...,xi,g),利用词向量化方法将其转换为应急文本的关键词向量,所述词向量方法流程为:
1)利用独热编码方法对任意应急文本ui的关键词集合xi=(xi,1,xi,2,...,xi,g)进行编码处理,得到关键词集合xi的二进制独热编码结果ri
2)构建词向量化模型:
F(ri,θ)=f(θTri)
其中:
θ为p×q维矩阵,为词向量化模型的参数,p为独热编码维度,q为词向量化结果维度;
f(·)为sigmoid函数;
3)构建词向量化模型的目标函数:
Figure FDA0003355933420000031
其中:
ε为p维列向量,表示随机误差;
β为p×q维矩阵;
将求解得到的最小θ作为词向量化模型参数,并利用词向量化模型F(ri,θ)输出任意应急文本ui中关键词的关键词向量化结果Xi
7.如权利要求6所述的一种移动应急指挥方法,其特征在于,所述S4步骤中以关键词向量为输入,应急文本的事态严重程度为输出构建深度神经网络,包括:
构建以关键词向量为输入,应急文本的事态严重程度为输出的深度神经网络,所述关键词向量集合为{X1,X2,...,Xi,...,Xc},其中Xi表示应急文本ui的关键词向量化结果,所述深度神经网络的预测流程为:
将关键词向量集合X={X1,X2,...,Xi,...,Xc}作为深度神经网络输入层的输入值,深度神经网络的隐藏层对输入的数据X进行特征映射:
yi=σ(wXi+b)
其中:
σ(·)表示激活函数,其中激活函数为Sigmoid函数;
w表示隐藏层中的权重值;
b表示隐藏层中的偏置量;
yi表示预测得到关键词向量Xi的事态严重程度,其中事态严重程度分为1~10,1表示事态严重程度最高,数字越大表示事态严重程度越小,10表示事态严重程度最低;
所述深度神经网络的训练流程为:
获取若干训练数据,所述训练数据包括若干关键词向量以及对应的真实事态严重程度,构建深度神经网络的损失函数:
Figure FDA0003355933420000041
其中:
Y表示训练数据的数量;
Figure FDA0003355933420000042
表示深度神经网络输出的训练数据j的事态严重程度,yj表示训练数据j的真实事态严重程度;
利用梯度下降算法对隐藏层中的参数进行更新,参数更新公式如下:
Figure FDA0003355933420000043
Figure FDA0003355933420000044
其中:
α为学习率,将其设置为0.6;
重复上述更新步骤,直到损失函数值Loss达到最小,此时的隐藏层参数即为训练得到的隐藏层参数,完成深度神经网络训练。
8.如权利要求7所述的一种移动应急指挥方法,其特征在于,所述S4步骤中并将向量化的应急文本输入到深度神经网络中,输出应急文本的事态严重程度,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理,包括:
将应急文本的关键词向量{X1,X2,...,Xi,...,Xc}依次输入到深度神经网络,其中Xi表示应急文本ui的关键词向量化结果,神经网络的输出结果为应急文本的事态严重程度{y1,y2,...,yi,...,yc},其中yi表示应急文本ui的事态严重程度;
根据深度神经网络输出的事态严重程度结果,按照严重程度由高到低的顺序依次推送应急文本给指挥决策者进行指挥决策处理。
CN202111351523.7A 2021-11-16 2021-11-16 一种移动应急指挥方法 Pending CN114201959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111351523.7A CN114201959A (zh) 2021-11-16 2021-11-16 一种移动应急指挥方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111351523.7A CN114201959A (zh) 2021-11-16 2021-11-16 一种移动应急指挥方法

Publications (1)

Publication Number Publication Date
CN114201959A true CN114201959A (zh) 2022-03-18

Family

ID=80647554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351523.7A Pending CN114201959A (zh) 2021-11-16 2021-11-16 一种移动应急指挥方法

Country Status (1)

Country Link
CN (1) CN114201959A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN107562814A (zh) * 2017-08-14 2018-01-09 中国农业大学 一种地震应急和灾情信息获取分类方法及***
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及***
CN111753550A (zh) * 2020-06-28 2020-10-09 汪秀英 一种自然语言的语义解析方法
CN112035846A (zh) * 2020-09-07 2020-12-04 江苏开博科技有限公司 一种基于文本分析的未知漏洞风险评估方法
CN112527961A (zh) * 2020-12-18 2021-03-19 杭州叙简科技股份有限公司 一种应急预案应急响应等级、行政单位职责自动抽取方法
CN113609247A (zh) * 2021-08-11 2021-11-05 哈尔滨理工大学 一种基于改进Simhash算法的大数据文本去重技术

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN107562814A (zh) * 2017-08-14 2018-01-09 中国农业大学 一种地震应急和灾情信息获取分类方法及***
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及***
CN111753550A (zh) * 2020-06-28 2020-10-09 汪秀英 一种自然语言的语义解析方法
CN112035846A (zh) * 2020-09-07 2020-12-04 江苏开博科技有限公司 一种基于文本分析的未知漏洞风险评估方法
CN112527961A (zh) * 2020-12-18 2021-03-19 杭州叙简科技股份有限公司 一种应急预案应急响应等级、行政单位职责自动抽取方法
CN113609247A (zh) * 2021-08-11 2021-11-05 哈尔滨理工大学 一种基于改进Simhash算法的大数据文本去重技术

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张波等: "基于TF-IDF的卷积神经网络新闻文本分类优化", 《西南科技大学学报》 *
焦李成等: "《计算机智能导论》", 30 September 2019 *
王家彬等: "《企业竞争力分析进化论》", 31 August 2019 *
艾金勇: "融合多特征的TextRank藏文文本关键词抽取方法研究", 《情报探索》 *
陈春玲等: "基于Simhash算法的重复数据删除技术的研究与改进", 《南京邮电大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
Geva et al. Transformer feed-forward layers are key-value memories
US10089581B2 (en) Data driven classification and data quality checking system
CN108073568A (zh) 关键词提取方法和装置
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN112052326A (zh) 一种基于长短文本匹配的智能问答方法及***
CN109918663A (zh) 一种语义匹配方法、装置及存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN107729403A (zh) 互联网信息风险提示方法及***
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
CN111310462A (zh) 用户属性的确定方法、装置、设备及存储介质
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN114722198A (zh) 产品分类编码确定方法、***及相关装置
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN113064965A (zh) 基于深度学习的民航非计划事件相似案例智能推荐方法
Sergienko et al. A comparative study of text preprocessing approaches for topic detection of user utterances
CN114201959A (zh) 一种移动应急指挥方法
CN115936444A (zh) 一种复杂产品装配技术问题风险预警的方法及装置
CN116910599A (zh) 数据聚类方法、***、电子设备及存储介质
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN111274382A (zh) 文本分类方法、装置、设备及存储介质
US20220083581A1 (en) Text classification device, text classification method, and text classification program
CN115238077A (zh) 基于人工智能的文本分析方法、装置、设备及存储介质
CN114936282A (zh) 金融风险线索确定方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220318

RJ01 Rejection of invention patent application after publication