CN115983465A

CN115983465A - 一种基于小样本学习的冲击地压时序预测模型构建方法

Info

Publication number: CN115983465A
Application number: CN202211708756.2A
Authority: CN
Inventors: 曹安业; 杨旭; 刘亚鹏; 刘耀琪; 王常彬; 牛强
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-18

Abstract

一种基于小样本学习的冲击地压时序预测模型构建方法，通过微震传感器将采集到的原始微震数据传至地面控制室的上位机，由上位机对原始微震数据进行标准化处理，然后利用主成分分析法和核密度估计方法处理标准化以后的微震数据，得到相应二维时序数据，研究即将发生的大能量矿震事件与过去矿震事件的相关性，构建密度指标，并完成数据的标注，最后构建基于小样本学习的长短期神经网络，通过将时序数据以及密度指标放入构建好的神经网络中训练，完成未来大能量事件发生的时间段的预测。本发明能够降低长短期记忆循环神经网络对数据的依赖性，提高网络的泛化性，使其在数据量比较小时，也能够进行大能量矿震预测，为冲击地压提供早期预警。

Description

一种基于小样本学习的冲击地压时序预测模型构建方法

技术领域

本发明涉及一种冲击地压预测模型，具体是一种基于小样本学习的冲击地压时序预测模型构建方法，属于冲击地压预测技术领域。

背景技术

由于我国“富煤、贫油、少气”的国情实际，煤炭成为我国的基础能源和重要原料，煤炭工业成为关系国家经济命脉和能源安全的重要基础产业。近年来，随着我国煤矿开采深度快速增加以及地质、采矿条件的日趋复杂，冲击地压灾害形式日渐严峻，已成为制约煤矿安全生产的关键因素。由于冲击地压具有突发性、瞬时震动性和巨大破坏性等特征，所以事先难以预料其发生的时间、地点和程度。冲击地压危害程度大，影响面广，一旦发生，极易引起其他连锁事故，如瓦斯异常涌出、煤与瓦斯突出、突水和瓦斯***等，造成极大的财产损失和人员伤亡。然而冲击地压发生的时间、地点、区域、震源等的复杂多样性和冲击地压的突发性，使得其预测工作极为困难复杂，成为急需解决的世界性难题。

许多学者参数化矿震数据进行预测矿震灾害的研究取得了非常大的进步。但是在过去的研究过程中，往往是针对给定的采矿地质条件而言，这就导致无法为冲击地压提供一个一般适用性的规则。冲击地压事件的发生往往伴随着大能量微震事件的产生，但是由于冲击地压发生的复杂性和受人为因素限制，使得无法获取到建立冲击地压预测模型所需的数据，导致无法掌握一些矿区微震数据状况并进行科学的冲击地压管理。冲击地压数据获取困难的问题，样本数据缺失，导致机器学习模型难以训练，使得其在缺数据地区的冲击地压研究更加具有挑战性。

近年来，随着计算机技术的发展，冲击地压预测在深度学习上的应用得到了极大的发展。其中深度循环神经网络(RNN)在时序预测上应用尤为广泛，它能够借助之前的信息对当前时刻进行预测。但它对于长时间的学列来说，会忘记之前一些比较久远的信息，同时容易发生梯度消失和梯度***的问题。随之而来的是对于深度循环神经网络(RNN)的变形长短期记忆循环神经网络(LSTM)，它通过门控制单元来控制信息的传递，能够选择性的记忆重要信息和遗忘不重要的信息，这在时序预测上都取得不错的效果。

现有的冲击地压预测方法存在两种，一种是基于微震数据建立的传统冲击地压预测模型，还有一种是基于深度学习方法建立的冲击地压预测模型，虽然这些模型都取得了一系列的成功，但是还存在以下几个弊端：1)由于冲击地压的发生受多因素影响，使得冲击地压时间序列呈现高度复杂的非线性，限制了传统冲击地压预测模型的应用；同时由于每个矿的条件不一样，受人为因素影响大，虽然可以通过一些指标来判断，无法获得一个统一的结论。2)以长短期神经网络为代表的传统深度学习模型需要大量的数据训练才能够取得足够高的预测准确率，对于微震数据匮乏的一些矿区，无法提供大量的微震数据，将不能取得一个很好地效果。

发明内容

本发明的目的是提供一种基于小样本学习的冲击地压时序预测模型构建方法，通过长短期记忆循环神经网络(LSTM)结合小样本学习方法，能够降低长短期记忆循环神经网络(LSTM)对数据的依赖性，提高网络的泛化性，使其在数据量比较小时，也能够进行大能量矿震预测，为冲击地压提供早期预警。

为了实现上述目的，本发明提供一种基于小样本学习的冲击地压时序预测模型构建方法，包括以下步骤：

步骤1、矿震数据处理：在采煤工作面四周安装微震传感器，微震传感器将采集到的原始微震数据传至地面控制室的上位机，原始微震数据包括微震数据发生时间、能量大小、震源坐标，由上位机对原始微震数据进行微震数据处理，首先将原始微震数据按照时间段处理，得到每个时间段中的微震数据，然后将微震数据进行标准化处理后得到每个时间段的时间序列数据；

步骤2、密度指标建立：密度指标建立包括主成分分析法PCA处理和核密度估计KDE处理，通过主成分分析法PCA将步骤1的时间序列数据进行降维处理，将原本四维时间序列数据降至二维时间序列数据；通过核密度估计KDE处理对二维时间序列数据进行处理，处理好二维时间序列数据后将会得到每个微震数据的概率密度，然后根据每个时间段中选取其中最大的概率密度作为密度指标进行微震数据时序分析，得到大能量发生时间的一般规律，即选取这段时间段中70％以上的最大概率密度，当其中出现峰值时，推测出未来时间段是有可能发生大能量事件的，从而完成微震数据标签的构造，数据标签构造具体为：有大能量事件发生即为1，其他时间段数据标签构造为0，即无大能量事件发生；

步骤3、建立基于小样本学习的长短期记忆循环神经网络LSTM模型：使用长短期记忆循环神经网络LSTM对密度指标进行建模和特征提取，获取回归损失和数据特征；接着运用小样本学习原型网络，通过对长短期记忆循环神经网络LSTM处理的数据特征进行聚类并计算每个时间段中不同类别样本隐私特征的中心点，用欧式距离度量各个样本的隐表征向量和对应隐表征中心点的距离作为网络分类损失；最后在预测模块上，将上述损失连接，进行梯度回传和优化，完成基于小样本学习的深度学习模型构建，最终输出大能量矿震时间段的预测。

本发明步骤1中的矿震数据处理为：

以固定时间窗口统计数据，构建时间序列数据集合，时间序列数据包括时间以及坐标位置X，Y，Z，然后将每个时间段内的时间序列数据进行标准化处理，将数据处理成均值为0、标准差为1的标准正态分布的数据，其目的是将数据按比例缩放，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

标准化处理具体方法如下：

平均值计算方法如下：

标准差计算方法如下：

式中：x_i为第i个原始数据，包括第i个微震数据的时间以及坐标位置；

为原始数据的平均值；

σ(x)为原始数据的标准差；

x_i'为原始数据更新后的数据；

n为时间段内包含的数据总量。

本发明步骤2中的密度指标建立为：

主成分分析法PCA处理的方法是基于数据降维的，该方法的主要思想是将原来具有一定相关性的M个指标进行重新组合，形成一组新的彼此不相关的N个指标，重新组合后获得的N个指标是原来M个指标的线性组合且符合M>N，用新的N个指标代替原来的M个指标作为模型的输入，进行后续分析，具体步骤如下：

假设有p条q维的标准化数据，首先将标准化数据按列组成q行p列矩阵D，然后将矩阵D每一行进行零均值化，即减去这一行的均值，接着求出协方差矩阵

根据求出的协方差矩阵求出特征值及其对应的特征向量，将特征向量按对应特征值大小从大到小按行排列成矩阵，取前k行组成矩阵P，最后E＝PD即为降到k维后的数据；

本发明将上述被主成分分析法PCA处理过的数据进行核密度估计KDE处理，核密度估计函数如下：

式中：K(.)为核函数(非负、积分为1，符合概率密度性质，并且均值为0)。

有很多种核函数，例如高斯函数就是一个常用的核函数；

h＞0为一个平滑参数，称作带宽，也被成为窗口；

为缩放核函数；

在

中，K函数内部的h分母用于调整核密度估计KDE曲线的宽幅，而K函数外部的h分母则用于保证曲线下方的面积符合核密度估计KDE的规则；

在选择合适的核函数及带宽后，核密度估计KDE可以模拟真实的概率分布曲线，并得到平滑而漂亮的结果；

本发明在核函数的选择上采用高斯函数，并根据西尔弗曼法则宽带h的选择如下所示：

式中：n为时间段内包含的数据总量；

d为数据维度；

经过上述核密度估计KDE处理能够得到每个数据点的概率密度，通过将主成分分析法PCA坐标轴网格化，能够将每个时间段概率密度绘制在主成分分析法PCA坐标轴上。

本发明步骤3中的建立基于小样本学习的长短期记忆循环神经网络LSTM模型，具体如下：

首先预测模型生成是基于步骤2处理后的密度指标所创建的训练数据集，构建时间序列数据集合，本发明采取6h作为时间窗口统计数据，假设第i个时间窗口计算得到的数据记录为m_i，其可以表示为：

其可以表示为：

式中：id为时间窗口编号；

为微震数据时间段中发生地点的平均值；

t为微震数据时间段范围内靠后的时间；

如时间段为0时到6时，t选取为6时刻；

将m_i按照步骤1的方式进行标准化处理后得到的数据加入每个时间段对应的ρ_max密度指标，构造成

针对时间段出现数据缺失的问题可以采用最近邻插值技术对缺失数据进行补充，即当本时间段缺失数据时，将上一时间段数据对本时间段数据进行补充；

基于上述方法遍历时间窗口，能够得到时间数据序列数据集合M：

M＝[m₀,m₁,m₂,......,m_n-1] (7)

时间段对应的标签集合T表示为：

T＝[t₀,t₁,t₂,......,t_n-1](8)

式中：t_i为每个时间段，当所处时间段符合上述核密度估计KDE处理分析后的结果，则发生大能量事件，此时t_i＝1，否则t_i＝0；

同时基于小样本学习的深度学习模型如下：

基于小样本学习的深度学习模型主要包括卷积层、长短期记忆循环神经网络LSTM和小样本原型网络3个模块，数据集选择85％作为训练集，5％作为验证集，10％作为测试集；

卷积层如下：

数据首先流入卷积模块，用于解析20个(单个序列长度)微震事件间短程依赖关系以及事件5个属性间的关系，卷积核尺寸确定为6×5，卷积核数量为32个，卷积层激活函数选择为ReLU函数，其表达式如下：

ReLU(x)＝max(0,x) (9)

卷积核运算过程如下所示：

h_k＝ReLU(W_k*X+b_k) (10)

式中：W_k为第k个卷积核矩阵；

X为输入的时间序列矩阵；

b_k为偏执；

*为哈密顿算子；

计算结果采用零填充法保证输入前后的维度一致；

长短期记忆循环神经网络LSTM如下：

卷积层的输出流入长短期记忆循环神经网络LSTM循环神经网络，长短期记忆循环神经网络LSTM用于挖掘微震事件序列之间的长程依赖关系，通过“门机制”能够更好地捕捉长程依赖关系，同时可以避免梯度***问题。

对于每一个长短期记忆循环神经网络LSTM神经单元，输入当前时刻的数据x_t、上一个时刻神经单元的输出h_t-1以及上一个长短期记忆循环神经网络LSTM神经单元隐含的记忆状态C_t-1，对应输出为当前时刻的输出值h_t以及当前时刻长短期记忆循环神经网络LSTM神经单元的记忆状态C_t；长短期记忆循环神经网络LSTM神经单元里有三个门控制门：遗忘门、输入门和输出门；遗忘门对上一时刻的记忆状态C_t-1进行筛选保留，输入门决定了当前时刻的数据输入x_t，有多少能够被记忆单元记忆，输出门控制记忆状态C_t有多少能够输出到当前时刻的输出h_t中，每个门的状态公式如下：

遗忘门：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (11)

输入门:

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (12)

单元状态输入：

单元状态：

输出门：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (15)

当前时刻隐状态输出：

h_t＝o_t*tanh(C_t) (16)

式中：W_f、W_i、W_c、W_o表示权重矩阵；

b_f、b_i、b_c、b_o表示偏置向量；

tanh为激活函数；

σ表示sigmoid激活函数；

[]表示向量连接；

*为哈密顿算子；

小样本原型网络如下：

通过对长短期记忆循环神经网络LSTM提取的隐式特征进行聚类，并计算不同类别样本0和1的隐式特征中心点，通过把未知数据投影到聚类空间中，通过欧式距离计算各个未知数据的隐式特征向量和不同类别样本中心点的距离，对比目标到样本0和1隐式特征中心点的距离，运用Softmax得出属于每一个样本的概率，从而分析出目标的类别，同时将欧氏距离作为原型网络分类损失，在训练过程中不断最小化它和它对应类的距离，同时拉大它和其他类的距离，欧氏距离具体计算公式如下：

式中：x₁和y₁为各个样本的隐式特征向量的坐标；

x₂和y₂为对应隐式特征中心点的坐标；

训练过程具体如下：

将上述时间序列数据M放入长短期记忆循环神经网络LSTM训练，进行神经网络的构建并进行隐式特征的提取，结合小样本学习原型网络模块，通过加权交叉熵损失函数计算长短期记忆循环神经网络LSTM模型的损失值，将它与欧氏距离计算的损失值相加融合，采用递归回传的方法不断更新神经网络模型中的参数，使得模型在训练数据集上的损失最小化，训练过程中采用sgd作为优化器，运用准确率作为评价函数，超参数设置如下：训练轮次为100，批大小为400，衰减率为0.8，采用Softmax进行归一化处理，得到有无大能量事件发生的概率，如果有大能量事件概率大于无大能量事件概率，则输出1，反之输出0。最终完成模型的搭建，从而生成预测模型，本发明采用的交叉熵损失函数如下：

式中：L_i表示第i个前兆模式序列的损失值；

N表示前兆模式序列数量；

z₀和z₁分别表示两个类别的学习权重；

w₀和w₁分别表示类别0和1的样本分布权重；

若第i个前兆模式序列的标签为小能量事件，则y_io＝1，y_i1＝0，否则y_io＝0，y_i1＝1；p_i0为观测样本i为类别0的预测概率，p_i1为观测样本i为类别1的预测概率。

与现有技术相比，本发明通过在采煤工作面四周安装微震传感器，微震传感器将采集到的原始微震数据传至地面控制室的上位机，由上位机对原始微震数据进行标准化处理，然后利用主成分分析法PCA和核密度估计KDE方法处理标准化以后的微震数据，得到相应二维时序数据，研究即将发生的大能量矿震事件与过去矿震事件的相关性，构建密度指标，并完成数据标签的打造，最后构建基于小样本学习的长短期神经网络，通过将时序数据以及密度指标放入构建好的神经网络中训练，完成未来大能量事件发生的时间段的预测。本发明能够降低长短期记忆循环神经网络(LSTM)对数据的依赖性，提高网络的泛化性，使其在数据量比较小时，也能够进行大能量矿震预测，为冲击地压提供早期预警。

附图说明

图1为本发明的方法流程图；

图2为本发明PCA处理后各部分参数占比图；

图3为本发明PCA坐标上微整数据分布点；

图4为发明本密度函数时序图；

图5为本发明长短期记忆循环神经网络(LSTM)结构图；

图6为本发明小样本学习原型网络结构图；

图7为本发明基于小样本学习的长短期记忆循环神经网络(LSTM)网络模型。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1-图4所示，一种基于小样本学习的冲击地压时序预测模型构建方法，包括以下步骤：

步骤2、密度指标建立：密度指标建立包括主成分分析法PCA处理和核密度估计KDE处理，通过主成分分析法PCA将步骤1的时间序列数据进行降维处理，将原本四维时间序列数据降至二维时间序列数据；通过核密度估计KDE处理对二维时间序列数据进行处理，处理好二维时间序列数据后将会得到每个微震数据的概率密度，然后根据每个时间段中选取其中最大的概率密度作为密度指标进行微震数据时序分析，如图4所示，得到大能量发生时间的一般规律，即选取这段时间段中70％以上的最大概率密度，当其中出现峰值时，推测出未来时间段(如3天内)内是可能发生大能量事件的，从而完成微震数据标签的构造，数据标签构造具体为：有大能量事件发生即为1，其他时间段数据标签构造为0，即无大能量事件发生；

步骤3、建立基于小样本学习的长短期记忆循环神经网络LSTM模型：首先通过上述数据分析得到的结果(如图4所示的，选取这段时间段中70％以上的最大概率密度，当其中出现峰值时，推测出未来时间段(如3天内)内是可能出现大能量事件的)进行数据标签的构造，使用长短期记忆循环神经网络LSTM对密度指标进行建模和特征提取，获取回归损失和数据特征；接着运用小样本学习原型网络，通过对长短期记忆循环神经网络LSTM处理的数据特征进行聚类并计算每个时间段中不同类别样本隐私特征的中心点，用欧式距离度量各个样本的隐表征向量和对应隐表征中心点的距离作为网络分类损失；最后在预测模块上，将上述损失连接，进行梯度回传和优化，完成基于小样本学习的深度学习模型构建，最终输出大能量矿震时间段的预测。

步骤1中的矿震数据处理为：

以固定时间窗口统计数据，构建时间序列数据集合，时间列数数据包括时间以及坐标位置X，Y，Z(时间序列数据就是步骤1的时间段内包含的所有微震数据，比如以6个小时为例，0时到6时内包含的所有微震数据，数据能量大小只是用来判断时间窗口内是否包含大能量事件，用来后续密度指标得出规律使用即可，不需要放入训练中)，然后将每个时间段内的时间列数数据进行标准化处理，将数据处理成均值为0、标准差为1的标准正态分布的数据，其目的是将数据按比例缩放，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。标准化处理具体方法如下：

平均值计算方法如下：

标准差计算方法如下：

为原始数据的平均值；

σ(x)为原始数据的标准差；

x_i'为原始数据更新后的数据；

n为时间段内包含的数据总量。

步骤2中的密度指标建立为：

主成分分析法PCA处理的方法是基于数据降维的，该方法的主要思想是将原来具有一定相关性的指标(例如M个指标)进行重新组合，形成一组新的彼此不相关的指标(例如N个指标)，重新组合后获得的指标是原来M个指标的线性组合且M>N，用新的指标代替原来的指标作为模型的输入，进行后续分析，具体步骤如下：

本文将微震数据中能量值大于105以上的定义为大能量事件，如说明书附图2所示为16个大能量事件经过PCA处理后，4个指标(X，Y，Z，t)所占的方差贡献率的结果，方差贡献率表示单个因子引起的变量占总变量的比例，说明此公因子对因变量影响力的大小。此图灰线表示含有大能量事件的各个数据所转化成的PCA各指标所占的方差贡献率，黑线则为所有大能量事件PCA各指标所占方差贡献率的平均值。因此由此图可以分析得到前2个特征值即可包含70％以上的整体微震事件的信息特征，该图为之后将微整数据降至二维数据，然后进行核密度估计KDE二维平面分析提供了一定的理论基础。

核密度估计KDE处理方法是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，它采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟，具体步骤如下：

式中：K(.)为核函数(非负、积分为1，符合概率密度性质，并且均值为0)。有很多种核函数，例如高斯函数就是一个常用的核函数；

h＞0为一个平滑参数，称作带宽，也被成为窗口；

为缩放核函数；

在

式中：n为时间段内包含的数据总量；

d为数据维度；

经过上述核密度估计KDE处理能够得到每个数据点的概率密度，通过将主成分分析法PCA坐标轴网格化，能够将每个时间段概率密度绘制在主成分分析法PCA坐标轴上，如说明书附图3所示，其中五角星代表有大能量事件微震事件，黑色圆点为非大能量事件微震事件。在这等高线图中，较高的概率密度表明矿震事件在PCA空间中具有较强的聚类效应，即表示过去矿震事件的聚集程度。大能量事件位于高概率区域并接近于最大概率密度，这点表明大能量事件与时间段中的微震事件集群具有很强的相关性，并不是孤立的。通过这点为大能量事件并非孤立存在的，提供了数学依据，如果事件聚类的发展足够早的被发现，就可以进行冲击地压预测。

大能量事件发生之前往往会伴随一些列事件的发生，同时根据上述分析，得到统计的每个微震事件的概率密度，取每个时间段中的最大概率密度进行折线图的绘制进行分析，如说明书附图4所示，图中黑色圆点代表没有大能量事件的时间段，红色五角星代表有大能量事件的时间段，70％是整个时间段内最大概率密度最大值和最小值之间70％的大小。通过大于70％以上的最大概率密度出现的峰值，来推测未来时间段内是可能出现大能量事件，从而进行微震大能量事件时间的预测。附图4中采取的时间段间隔为6h，同时是对未来3天即12个时间段的预测。密度指标即为每个时间段最大概率密度ρ_max。

步骤3中的建立基于小样本学习的长短期记忆循环神经网络LSTM模型，具体如下：

式中：id为时间窗口编号；

为微震数据时间段中发生地点的平均值；

t为微震数据时间段范围内靠后的时间；

如时间段为0时到6时，t选取为6时刻；

M＝[m₀,m₁,m₂,......,m_n-1] (7)

时间段对应的标签集合T表示为：

T＝[t₀,t₁,t₂,......,t_n-1](8)

同时基于小样本学习的长短期记忆循环神经网络LSTM模块体如下：

基于小样本学习的长短期记忆循环神经网络LSTM模块主要包括卷积层、长短期记忆循环神经网络LSTM和小样本原型网络3个模块，数据集选择85％作为训练集，5％作为验证集，10％作为测试集；

卷积层如下：

ReLU(x)＝max(0,x) (9)

卷积核运算过程如下所示：

h_k＝ReLU(W_k*X+b_k) (10)

式中：W_k为第k个卷积核矩阵；

X为输入的时间序列矩阵；

b_k为偏执；

*为哈密顿算子；

计算结果采用零填充法保证输入前后的维度一致；

长短期记忆循环神经网络LSTM如下：

卷积层的输出流入长短期记忆循环神经网络LSTM循环神经网络，长短期记忆循环神经网络LSTM用于挖掘微震事件序列之间的长程依赖关系，通过“门机制”能够更好地捕捉长程依赖关系，同时可以避免梯度***问题，长短期记忆循环神经网络LSTM结构如附图5所示。

遗忘门：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (11)

输入门:

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (12)

单元状态输入：

单元状态：

输出门：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (15)

当前时刻隐状态输出：

h_t＝o_t*tanh(C_t) (16)

式中：W_f、W_i、W_c、W_o表示权重矩阵；

b_f、b_i、b_c、b_o表示偏置向量；

tanh为激活函数；

σ表示sigmoid激活函数；

[]表示向量连接；

*为哈密顿算子；

小样本原型网络如下：

小样本原型网络用来解决长短期记忆循环神经网络LSTM对大量数据的依赖性问题，提高网络的泛化性，小样本原型网络，如附图6所示，通过对长短期记忆循环神经网络LSTM提取的隐式特征进行聚类，并计算不同类别样本0和1的隐式特征中心点，通过把未知数据投影到聚类空间中，通过欧式距离计算各个未知数据的隐式特征向量和不同类别样本中心点的距离，对比目标到样本0和1隐式特征中心点的距离，运用Softmax得出属于每一个样本的概率，从而分析出目标的类别，同时将欧氏距离作为原型网络分类损失，在训练过程中不断最小化它和它对应类的距离，同时拉大它和其他类的距离，欧氏距离具体计算公式如下：

式中：x₁和y₁为各个样本的隐式特征向量的坐标；

x₂和y₂为对应隐式特征中心点的坐标；

基于小样本学习的长短期记忆循环神经网络LSTM网络模型如附图7所示。

训练过程具体如下：

式中：L_i表示第i个前兆模式序列的损失值；

N表示前兆模式序列数量；

z₀和z₁分别表示两个类别的学习权重；

w₀和w₁分别表示类别0和1的样本分布权重；

Claims

1.一种基于小样本学习的冲击地压时序预测模型构建方法，其特征在于，包括以下步骤：

步骤2、密度指标建立：密度指标建立包括主成分分析法PCA处理和核密度估计KDE处理，通过主成分分析法PCA将步骤1的时间序列数据进行降维处理，将原本四维时间序列数据降至二维时间序列数据；通过核密度估计KDE处理对二维时间序列数据进行处理，处理好二维时间序列数据后将会得到每个微震数据的概率密度，然后根据每个时间段中选取其中最大的概率密度作为密度指标进行微震数据时序分析，得到大能量发生时间的一般规律，即选取这段时间段中70％以上的最大概率密度，当其中出现峰值时，推测出未来时间段是有大能量事件发生的，从而完成微震数据标签的构造，有大能量事件发生即为1，其他时间段数据标签构造为0，即无大能量事件发生；

2.根据权利要求1所述的一种基于小样本学习的冲击地压时序预测模型构建方法，其特征在于，步骤1中的矿震数据处理为：

以固定时间窗口统计数据，构建时间序列数据集合，时间序列数据包括时间以及坐标位置X，Y，Z，然后将每个时间段内的时间序列数据进行标准化处理，将数据处理成均值为0、标准差为1的标准正态分布的数据，标准化处理具体方法如下：

平均值计算方法如下：

标准差计算方法如下：

为原始数据的平均值；

σ(x)为原始数据的标准差；

x_i'为原始数据更新后的数据；

n为时间段内包含的数据总量。

3.根据权利要求2所述的一种基于小样本学习的冲击地压时序预测模型构建方法，其特征在于，步骤2中的密度指标建立为：

主成分分析法PCA处理的方法是基于数据降维处理，将原来具有相关性的M个指标进行重新组合，形成一组新的彼此不相关的N个指标，重新组合后获得的N个指标是原来M个指标的线性组合且满足M>N，用新的N个指标代替原来的M个指标作为模型的输入，进行后续分析，具体步骤如下：

假设有p条q维的标准化数据，首先将标准化数据按列组成q行p列的矩阵D，然后将矩阵D每一行进行零均值化，即减去这一行的均值，接着求出协方差矩阵

将上述被主成分分析法PCA降维后的数据进行核密度估计KDE处理，核密度估计函数如下：

式中：K(.)为核函数；

h＞0为一个平滑参数，称作带宽，也被成为窗口；

为缩放核函数；

在

在选择合适的核函数及带宽后，核密度估计KDE能够模拟真实的概率分布曲线；

在核函数的选择上采用高斯函数，并根据西尔弗曼法则，宽带h的选择如下所示：

式中：n为时间段内包含的数据总量；

d为数据维度；

经过核密度估计KDE处理能够得到每个数据点的概率密度，通过将主成分分析法PCA坐标轴网格化，能够将每个时间段概率密度绘制在主成分分析法PCA坐标轴上。

4.根据权利要求3所述的一种基于小样本学习的冲击地压时序预测模型构建方法，其特征在于，步骤3中的建立基于小样本学习的长短期记忆循环神经网络LSTM模型，具体如下：

首先预测模型生成是基于步骤2处理后的密度指标所创建的训练数据集，构建时间序列数据集合，采取6h作为时间窗口统计数据，假设第i个时间窗口计算得到的数据记录为m_i，其可以表示为：

式中：id为时间窗口编号；

为微震数据时间段中发生地点的平均值；

t为微震数据时间段范围内靠后的时间；

如时间段为0时到6时，t选取为6时刻；

当本时间段缺失数据时，将上一时间段数据对本时间段数据进行补充；

基于上述方法遍历时间窗口，得到时间数据序列数据集合M：

M＝[m₀,m₁,m₂,......,m_n-1] (7)

时间段对应的标签集合T表示为：

T＝[t₀,t₁,t₂,......,t_n-1] (8)

式中：t_i为每个时间段，当所处时间段符合核密度估计KDE处理分析后的结果，则发生大能量事件，此时t_i＝1，否则t_i＝0；

同时基于小样本学习的深度学习模型如下：

基于小样本学习的深度学习模型包括卷积层、长短期记忆循环神经网络LSTM和小样本原型网络3个模块，数据集选择85％作为训练集，5％作为验证集，10％作为测试集；

卷积层如下：

数据首先流入卷积模块，用于解析20个微震事件间短程依赖关系以及事件5个属性间的关系，卷积核尺寸确定为6×5，卷积核数量为32个，卷积层激活函数选择为ReLU函数，其表达式如下：

ReLU(x)＝max(0,x) (9)

卷积核运算过程如下所示：

h_k＝ReLU(W_k*X+b_k) (10)

式中：W_k为第k个卷积核矩阵；

X为输入的时间序列矩阵；

b_k为偏执；

*为哈密顿算子；

计算结果采用零填充法保证输入前后的维度一致；

长短期记忆循环神经网络LSTM如下：

卷积层的输出流入长短期记忆循环神经网络LSTM循环神经网络，长短期记忆循环神经网络LSTM用于挖掘微震事件序列之间的长程依赖关系；

对于每一个长短期记忆循环神经网络LSTM神经单元，输入当前时刻的数据x_t、上一个时刻神经单元的输出h_t-1以及上一个长短期记忆循环神经网络LSTM神经单元隐含的记忆状态C_t-1，对应输出为当前时刻的输出值h_t以及当前时刻长短期记忆循环神经网络LSTM神经单元的记忆状态C_t；长短期记忆循环神经网络LSTM神经单元里有三个控制门：遗忘门、输入门和输出门；遗忘门对上一时刻的记忆状态C_t-1进行筛选保留，输入门决定了当前时刻的数据输入x_t，有多少能够被记忆单元记忆，输出门控制记忆状态C_t有多少能够输出到当前时刻的输出h_t中，遗忘门、输入门和输出门的状态公式分别如下：

遗忘门：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (11)

输入门:

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (12)

单元状态输入：

单元状态：

输出门：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (15)

当前时刻隐状态输出：

h_t＝o_t*tanh(C_t) (16)

式中：W_f、W_i、W_c、W_o表示权重矩阵；

b_f、b_i、b_c、b_o表示偏置向量；

tanh为激活函数；

σ表示sigmoid激活函数；

[]表示向量连接；

*为哈密顿算子；

小样本原型网络如下：

式中：x₁和y₁为各个样本的隐式特征向量的坐标；

x₂和y₂为对应隐式特征中心点的坐标；

训练过程具体如下：

将上述时间序列数据M放入长短期记忆循环神经网络LSTM训练，进行神经网络的构建并进行隐式特征的提取，结合小样本学习原型网络模块，通过加权交叉熵损失函数计算长短期记忆循环神经网络LSTM模型的损失值，将它与欧氏距离计算的损失值相加融合，采用递归回传的方法不断更新神经网络模型中的参数，使得模型在训练数据集上的损失最小化，训练过程中采用sgd作为优化器，运用准确率作为评价函数，超参数设置如下：训练轮次为100，批大小为400，衰减率为0.8，采用Softmax进行归一化处理，得到有无大能量事件发生的概率，如果有大能量事件概率大于无大能量事件概率，则输出1，反之输出0，最终完成模型的搭建，从而生成预测模型，采用的交叉熵损失函数如下：

式中：L_i表示第i个前兆模式序列的损失值；

N表示前兆模式序列数量；

z₀和z₁分别表示两个类别的学习权重；

w₀和w₁分别表示类别0和1的样本分布权重；

若第i个前兆模式序列的标签为小能量事件，则y_io＝1，y_i1＝0，否则y_io＝0，y_i1＝1；

p_i0为观测样本i为类别0的预测概率，p_i1为观测样本i为类别1的预测概率。