CN114757452B

CN114757452B - 基于文本挖掘的生产安全事故隐患预警方法及***

Info

Publication number: CN114757452B
Application number: CN202210667297.1A
Authority: CN
Inventors: 姚婷; 刘佳斌; 吴伟平
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-09
Anticipated expiration: 2042-06-14
Also published as: CN114757452A

Abstract

本发明提供了一种基于文本挖掘的生产安全事故隐患预警方案，包括如下步骤：从安全事故隐患报告中收集数据，并进行预处理；进行特征提取，筛选出重点安全事故隐患，记录重点安全事故隐患发生频率；选择预测模型，将混频数据带入混频预测模型中，预测未来安全事故隐患的发生频率。本发明采用了基于注意力机制的堆栈双向长短时记忆网络提取文本特征，从文本中挖掘到了所需的生产安全事故隐患信息；使用了条件随机场模型添加约束，保证输出的重点向量是合理的，使所获得的文本数据更加精确；采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中，提高未来安全事故隐患频率预测精度。

Description

基于文本挖掘的生产安全事故隐患预警方法及***

技术领域

本发明涉及生产安全事故隐患预警技术领域，特别涉及一种基于文本挖掘的生产安全事故隐患预警方法及***。

背景技术

随着我国工业发展水平的不断提升，我国经济发展水平也一路高歌。但是在经济发展水平的同时，生产安全事故发生的频率也不断增加。安全事故的发生不仅会阻碍企业的经济发展，危害员工健康，还会对社会造成很大的负面影响。以往的事故分析大多以事后分析为主，并不能有效避免事故的发生，因此需要依靠生产安全事故事前预警机制，对可能发生的事故隐患进行相应的警示，以便预先作出相应的措施，从而减少安全事故的发生。目前安全事故隐患预警方法大致分为两步：第一步从企业以往生产隐患排查数据中收集数据，并进行预处理，使用R语言下的jiebaR包进行分词，并使用词频-逆文本频率(TF-IDF)方法评估字词在文件集中的频率。第二步运用灰色***中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性，其预测只适合近似于指数增长的数据，而有些文本挖掘数据并不适合该模型。在预测模型中，该类方法缺少使用混频模型，而混频模型能够融合不同频数据，而且还能提高预测精度。

发明内容

本发明的目的是：针对上述背景技术中存在的不足，提供一种基于机器学习技术的、利用以往安全事故隐患报告预测未来不同安全事故隐患发生频率的方案。

为了达到上述目的，本发明提供了一种基于文本挖掘的生产安全事故隐患预警方法，包括如下步骤：

S1，从安全事故隐患报告中收集数据，数据为以往安全事故隐患报告中记录的每天，或者每月发生的安全事故隐患，安全事故隐患包括作业场所、设备及设施的不安全状态，人的不安全行为和管理上的缺陷，这些都会记录在安全事故隐患报告中；进行预处理，将文本单词转换为向量；

S2，进行特征提取，筛选出重点安全事故隐患，记录重点安全事故隐患发生频率；

S3，选择预测模型，将混频数据代入混频预测模型中，预测未来安全事故隐患发生频率，混频数据包括日度数据和月度数据，日度数据为每天都会发生的安全事故隐患，月度数据为每月都会发生的安全事故隐患。

进一步地，S1中在输入层使用word2vec模型将文本中的每一个单词转换为一维向量。

进一步地，S2具体包括如下子步骤：

S21，利用堆栈双向长短时记忆网络(Bi-LSTM-Att)提取整条文本的特征；

S22，利用softmax函数进行文本的分类，输出重点安全事故隐患文本；

S23，基于条件随机场(CRF)添加约束；

S24，采用词频-逆文档频率（TF-IDF）模型，通过计算文本中各个词的TF-IDF获取重点安全事故隐患的发生频率。

进一步地，S21具体包括如下子步骤：

S211，将word2vec模型的输出C乘以权重Wa，作为堆栈双向长短时记忆网络的输入，计算公式为：

其中，

为所得输入向量，

为输入数据C的权重，b为偏执参数，g为Sigmod函数；

S212，将输入向量输入隐层，Bi-LSTM在正向和反向的隐层上计算，最终将两个方向的结果相加作为输出，即

，其中

表示前向传播隐层向量，

为后向传播隐层向量，计算过程为：

其中，

表示第

个索引对应的

的权重矩阵，

是

时刻隐层状态输出向量

对应的权重矩阵，

代表隐层的两个不同方向，

表示第

个索引对应的偏置向量；

S213，将生成的嵌入向量发送至堆栈Bi-LSTM层，然后将注意力机制应用于堆栈Bi-LSTM中的最后一层，将最后一层的所有向量

进行拼接，作为整个句子的特征向量：

其中，

为权重系数矩阵，

为第i时刻注意力机制的偏移量，

为i时刻隐层状态向量

的权重值，通过计算

与上下文向量

的相似度得到

，其中

指的是新隐层状态中权重系数，然后与原隐层状态向量

乘积的累加得到初始隐层状态映射

。

进一步地，S22具体包括如下步骤：

S221，对于每一条安全事故隐患记录，模型最终都会输出一个向量，表示该记录中属于安全事故隐患的概率：

其中，

为记录为安全事故隐患的概率，

、

和

为Bi-LSTM网络输出层参数；

S222，利用交叉熵损失函数作为目标函数，采用反向传播机制对安全事故隐患发生概率中的参数进行训练和更新，以最小化目标函数损失值：

。

进一步地，S24具体包括如下子步骤：

S241，计算词频，具体公式为：

；

S242，计算逆文档频率，具体公式为：

；

S243，计算TF-IDF，将TF与IDF相乘，获取词频数据中的日度安全事故隐患频率和月度安全事故隐患频率。

进一步地，S3中将所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关(MF-BVAR)模型中预测未来安全事故隐患发生频率。

进一步地，S3中构建P阶滞后混频向量自回归模型：

其中，

的维数为

，

的维数为

，则

的维数为

即

；

然后令

则

可表达为：

此为MF-BVAR模型状态空间表示形式的状态转移方程，然后构建MF-BVAR的量测方程：

其中，t代表时间，

代表的是矩阵，

表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化，依靠量测方程预测事故词汇出现的频率趋势，从而获取未来安全事故隐患发生频率。

本发明还提供了一种基于文本挖掘的生产安全事故隐患预警***，包括数据预处理模块、特征处理模块以及频率预测模块；

所述数据预处理模块用于从安全事故隐患报告中收集数据，并进行预处理；

所述特征处理模块进行特征提取，筛选出重点安全事故隐患，记录重点安全事故隐患发生频率；

所述频率预测模块选择预测模型，通过混频数据预测未来安全事故隐患发生频率。

本发明的上述方案有如下的有益效果：

本发明提供的基于文本挖掘的生产安全事故隐患预警方案，依靠以往安全事故隐患发生记录或者报告进行预测，采用了基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征，从文本中挖掘到了所需的生产安全事故隐患信息；使用了条件随机场(CRF)模型添加约束，保证输出的重点向量是合理的，使所获得的文本数据更加精确；采用了混频动态因子模型，和混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中，提高未来安全事故隐患发生频率预测精度；

本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

图1为本发明的方法步骤流程图；

图2为本发明中word2vec模型向量转换示意图；

图3为本发明中堆栈双向长短时记忆网络(Bi-LSTM-Att)示意图；

图4为本发明中条件随机场(CRF)约束示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本发明的描述中，为了简单说明，该方法或规则作为一系列操作来描绘或描述，其目的既不是对实验操作进行穷举，也不是对实验操作的次序加以限制。例如，实验操作可以各种次序进行和/或同时进行，并包括其他再次没有描述的实验操作。此外，所述的步骤不都是在此描述的方法和算法所必备的。本领域技术人员可以认识和理解，这些方法和算法可通过状态图或项目表示为一系列不相关的状态。

本发明涉及生产安全事故预警技术领域，目前安全事故隐患预警技术的方法大致分为两步：第一步从企业以往生产隐患排查数据中收集数据，并进行预处理，使用R语言下的jiebaR包进行分词，并使用词频-逆文本频率(TF-IDF)方法评估字词在文件集中的频率。第二步运用灰色***中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性，其预测只适合近似于指数增长的数据，而有些文本挖掘数据并不适合该模型。在预测模型中，该类方法缺少使用混频模型，而混频模型能够融合不同频数据，而且还能提高预测精度。基于此，本发明的实施例提供了一种基于文本挖掘的生产安全事故隐患预警方法，利用word2vec模型提取文本，筛选出安全事故隐患发生文本向量；采用基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征，并用词频-逆文档频率（TF-IDF）模型记录重点安全事故隐患发生频率；最后，采用混频贝叶斯向量自相关（MF-BVAR）模型，融合不同频数据，预测日内安全事故隐患和月度安全事故隐患，并提高预测精度。

本方法的模型数据来自于以往安全事故隐患发生记录或者报告。具体如图1所示，该方法包括如下步骤：

S1，在输入层使用word2vec模型将文本中的每一个单词转换为一维向量，如图2所示，其中

表示的是当前词的上下文，用来预测当前词

。

S2，利用堆栈双向长短时记忆网络(Bi-LSTM-Att)提取整条文本的特征，如图3所示。

S2具体包括如下子步骤：

S21，将word2vec模型的输出C乘以权重

，作为堆栈双向长短时记忆网络的输入，计算公式为：

其中，

为所得输入向量，

为输入数据C的权重，b为偏执参数，g为Sigmod函数；

S22，将输入向量输入隐层，Bi-LSTM在正向和反向的隐层上计算，最终将两个方向的结果相加作为输出，即

，其中

表示前向传播隐层向量，

为后向传播隐层向量，计算过程为：

其中，

表示第

个索引对应的

的权重矩阵，

是

时刻隐层状态输出向量

对应的权重矩阵，

代表隐层的两个不同方向，

表示第

个索引对应的偏置向量；

S23，将生成的嵌入向量发送至堆栈Bi-LSTM层，然后将注意力机制应用于堆栈Bi-LSTM中的最后一层，将最后一层的所有向量

进行拼接，作为整个句子的特征向量：

其中，

为权重系数矩阵，

为第i时刻注意力机制的偏移量，

为i时刻隐层状态向量

的权重值，通过计算

与上下文向量

的相似度得到

，其中

指的是新隐层状态中权重系数，然后与原隐层状态向量

乘积的累加得到初始隐层状态映射

。

S3，利用softmax函数进行文本的分类，输出重点安全事故隐患文本。将经过注意力机制加权后的特征向量，输入softmax函数得到重点安全事故隐患分类结果。这个过程具体需要两步。

S31，对于每一条安全事故隐患记录，模型最终都会输出一个向量，表示该记录中属于安全事故隐患的概率：

其中，

为记录为安全事故隐患的概率，

、

和

为Bi-LSTM网络输出层参数；

S32，利用交叉熵损失函数作为目标函数，采用反向传播机制对安全事故发生概率中的参数进行训练和更新，以最小化目标函数损失值：

。

S4，基于条件随机场(CRF)添加约束，从而保证输出的重点向量是合理的。其过程如图4所示，其中

表示观察序列，而

表示有限状态的集合。

S5，采用TF-IDF（词频-逆文档频率）模型，通过计算文章中各个词的TF-IDF，由小到大排序，排在最前面的几个词，就是该文章的关键词。

具体地，该步骤分为以下三步：

S51，计算词频，具体公式为：

S52，计算逆文档频率，具体公式为：

其中，一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

S53，计算TF-IDF，即将TF与IDF相乘。

S6，将TF-IDF模型所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关(MF-BVAR)模型中预测未来安全事故隐患发生频率。构建MF-BVAR模型，表示成状态空间模型的形式，具体运算过程如下：

构建P阶滞后混频向量自回归模型：

其中，

的维数为

，

的维数为

，则

的维数为

即

。

然后令

则

可表达为：

其中，t代表时间，

代表的是矩阵，

表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化，依靠量测方程预测事故隐患词汇出现的频率趋势，从而获取未来安全事故隐患发生频率，以及时进行预警

上述方法采用了基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征，从文本中挖掘到了所需的生产安全事故隐患信息；使用了条件随机场(CRF)模型添加约束，保证输出的重点向量是合理的，使所获得的文本数据更加精确；采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中，提高未来安全事故隐患发生频率预测精度。

以下通过具体案例进一步对本方法进行说明：

例如，事故记录中有两条文本数据：“员工吃饭，忘记管电闸，这是当天第二次忘关电闸！！！”该数据每天都可能发生。“储气罐安全阀到期，需更换”该数据每月发生多次。

第一步，得到数据后采用word2vec模型将文本中的每一个单词转换为一维向量。

第二步，基于Bi-LSTM-Att提取文本特征，得到词条“员工”，“吃饭”，“电闸”，“储气罐”，“安全阀”，“更换”“！！！”。

第三步，利用softmax函数，输出重点安全事故隐患文本，得到“电闸”“储气罐”“安全阀”“！！！”。

第四步，利用CRF模型添加约束，保证输出的重点向量是合理的，筛选得到“电闸”“储气罐”“安全阀”。

第五步，采用TF-IDF模型，计算文本中各个词的TF-IDF获取重点安全事故隐患的发生频率。得到“电闸”频率为2，“储气罐”、“安全阀”频率为1。

第六步，根据TF-IDF模型所得数据，代入MF-BVAR模型进行预测。得到结果为“电闸”发生频率为2，发生时间为中午12点，“储气罐”“安全阀”发生频率为1，发生时间为下月15号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。