CN114757452B - 基于文本挖掘的生产安全事故隐患预警方法及*** - Google Patents

基于文本挖掘的生产安全事故隐患预警方法及*** Download PDF

Info

Publication number
CN114757452B
CN114757452B CN202210667297.1A CN202210667297A CN114757452B CN 114757452 B CN114757452 B CN 114757452B CN 202210667297 A CN202210667297 A CN 202210667297A CN 114757452 B CN114757452 B CN 114757452B
Authority
CN
China
Prior art keywords
safety accident
frequency
potential
data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210667297.1A
Other languages
English (en)
Other versions
CN114757452A (zh
Inventor
姚婷
刘佳斌
吴伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210667297.1A priority Critical patent/CN114757452B/zh
Publication of CN114757452A publication Critical patent/CN114757452A/zh
Application granted granted Critical
Publication of CN114757452B publication Critical patent/CN114757452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)

Abstract

本发明提供了一种基于文本挖掘的生产安全事故隐患预警方案,包括如下步骤:从安全事故隐患报告中收集数据,并进行预处理;进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;选择预测模型,将混频数据带入混频预测模型中,预测未来安全事故隐患的发生频率。本发明采用了基于注意力机制的堆栈双向长短时记忆网络提取文本特征,从文本中挖掘到了所需的生产安全事故隐患信息;使用了条件随机场模型添加约束,保证输出的重点向量是合理的,使所获得的文本数据更加精确;采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中,提高未来安全事故隐患频率预测精度。

Description

基于文本挖掘的生产安全事故隐患预警方法及***
技术领域
本发明涉及生产安全事故隐患预警技术领域,特别涉及一种基于文本挖掘的生产安全事故隐患预警方法及***。
背景技术
随着我国工业发展水平的不断提升,我国经济发展水平也一路高歌。但是在经济发展水平的同时,生产安全事故发生的频率也不断增加。安全事故的发生不仅会阻碍企业的经济发展,危害员工健康,还会对社会造成很大的负面影响。以往的事故分析大多以事后分析为主,并不能有效避免事故的发生,因此需要依靠生产安全事故事前预警机制,对可能发生的事故隐患进行相应的警示,以便预先作出相应的措施,从而减少安全事故的发生。目前安全事故隐患预警方法大致分为两步:第一步从企业以往生产隐患排查数据中收集数据,并进行预处理,使用R语言下的jiebaR包进行分词,并使用词频-逆文本频率(TF-IDF)方法评估字词在文件集中的频率。第二步运用灰色***中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性,其预测只适合近似于指数增长的数据,而有些文本挖掘数据并不适合该模型。在预测模型中,该类方法缺少使用混频模型,而混频模型能够融合不同频数据,而且还能提高预测精度。
发明内容
本发明的目的是:针对上述背景技术中存在的不足,提供一种基于机器学习技术的、利用以往安全事故隐患报告预测未来不同安全事故隐患发生频率的方案。
为了达到上述目的,本发明提供了一种基于文本挖掘的生产安全事故隐患预警方法,包括如下步骤:
S1,从安全事故隐患报告中收集数据,数据为以往安全事故隐患报告中记录的每天,或者每月发生的安全事故隐患,安全事故隐患包括作业场所、设备及设施的不安全状态,人的不安全行为和管理上的缺陷,这些都会记录在安全事故隐患报告中;进行预处理,将文本单词转换为向量;
S2,进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;
S3,选择预测模型,将混频数据代入混频预测模型中,预测未来安全事故隐患发生频率,混频数据包括日度数据和月度数据,日度数据为每天都会发生的安全事故隐患,月度数据为每月都会发生的安全事故隐患。
进一步地,S1中在输入层使用word2vec模型将文本中的每一个单词转换为一维向量。
进一步地,S2具体包括如下子步骤:
S21,利用堆栈双向长短时记忆网络(Bi-LSTM-Att)提取整条文本的特征;
S22,利用softmax函数进行文本的分类,输出重点安全事故隐患文本;
S23,基于条件随机场(CRF)添加约束;
S24,采用词频-逆文档频率(TF-IDF)模型,通过计算文本中各个词的TF-IDF获取重点安全事故隐患的发生频率。
进一步地,S21具体包括如下子步骤:
S211,将word2vec模型的输出C乘以权重Wa,作为堆栈双向长短时记忆网络的输入,计算公式为:
Figure 163021DEST_PATH_IMAGE001
其中,
Figure 345741DEST_PATH_IMAGE002
为所得输入向量,
Figure 781270DEST_PATH_IMAGE003
为输入数据C的权重,b为偏执参数,g为Sigmod函数;
S212,将输入向量输入隐层,Bi-LSTM在正向和反向的隐层上计算,最终将两个方向的结果相加作为输出,即
Figure 973217DEST_PATH_IMAGE004
,其中
Figure 522010DEST_PATH_IMAGE005
表示前向传播隐层向量,
Figure 750997DEST_PATH_IMAGE006
为后向传播隐层向量,计算过程为:
Figure 814768DEST_PATH_IMAGE007
其中,
Figure 170926DEST_PATH_IMAGE008
表示第
Figure 370963DEST_PATH_IMAGE009
个索引对应的
Figure 98747DEST_PATH_IMAGE010
的权重矩阵,
Figure 259601DEST_PATH_IMAGE011
Figure 793351DEST_PATH_IMAGE012
时刻隐层状态输出向量
Figure 972528DEST_PATH_IMAGE013
对应的权重矩阵,
Figure 136793DEST_PATH_IMAGE009
代表隐层的两个不同方向,
Figure 175157DEST_PATH_IMAGE014
表示第
Figure 856805DEST_PATH_IMAGE015
个索引对应的偏置向量;
S213,将生成的嵌入向量发送至堆栈Bi-LSTM层,然后将注意力机制应用于堆栈Bi-LSTM中的最后一层,将最后一层的所有向量
Figure 31434DEST_PATH_IMAGE013
进行拼接,作为整个句子的特征向量:
Figure 101021DEST_PATH_IMAGE016
Figure 252779DEST_PATH_IMAGE017
Figure 862752DEST_PATH_IMAGE018
其中,
Figure 767254DEST_PATH_IMAGE019
为权重系数矩阵,
Figure 70060DEST_PATH_IMAGE020
为第i时刻注意力机制的偏移量,
Figure 755119DEST_PATH_IMAGE021
i时刻隐层状态向量
Figure 293417DEST_PATH_IMAGE013
的权重值,通过计算
Figure 442638DEST_PATH_IMAGE021
与上下文向量
Figure 119607DEST_PATH_IMAGE022
的相似度得到
Figure 964066DEST_PATH_IMAGE023
,其中
Figure 181421DEST_PATH_IMAGE023
指的是新隐层状态中权重系数,然后与原隐层状态向量
Figure 822967DEST_PATH_IMAGE013
乘积的累加得到初始隐层状态映射
Figure 670837DEST_PATH_IMAGE024
进一步地,S22具体包括如下步骤:
S221,对于每一条安全事故隐患记录,模型最终都会输出一个向量,表示该记录中属于安全事故隐患的概率:
Figure 127226DEST_PATH_IMAGE025
其中,
Figure 23638DEST_PATH_IMAGE026
为记录为安全事故隐患的概率,
Figure 616293DEST_PATH_IMAGE027
Figure 556436DEST_PATH_IMAGE028
Figure 703384DEST_PATH_IMAGE029
为Bi-LSTM网络输出层参数;
S222,利用交叉熵损失函数作为目标函数,采用反向传播机制对安全事故隐患发生概率中的参数进行训练和更新,以最小化目标函数损失值:
Figure 528120DEST_PATH_IMAGE030
进一步地,S24具体包括如下子步骤:
S241,计算词频,具体公式为:
Figure 116228DEST_PATH_IMAGE031
S242,计算逆文档频率,具体公式为:
Figure 837059DEST_PATH_IMAGE032
S243,计算TF-IDF,将TF与IDF相乘,获取词频数据中的日度安全事故隐患频率和月度安全事故隐患频率。
进一步地,S3中将所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关(MF-BVAR)模型中预测未来安全事故隐患发生频率。
进一步地,S3中构建P阶滞后混频向量自回归模型:
Figure 471303DEST_PATH_IMAGE033
Figure 460249DEST_PATH_IMAGE034
其中,
Figure 293076DEST_PATH_IMAGE035
的维数为
Figure 388071DEST_PATH_IMAGE036
Figure 181715DEST_PATH_IMAGE037
的维数为
Figure 82675DEST_PATH_IMAGE038
,则
Figure 894642DEST_PATH_IMAGE039
的维数为
Figure 222855DEST_PATH_IMAGE040
Figure 566112DEST_PATH_IMAGE041
然后令
Figure 146129DEST_PATH_IMAGE042
Figure 953548DEST_PATH_IMAGE039
可表达为:
Figure 78761DEST_PATH_IMAGE043
此为MF-BVAR模型状态空间表示形式的状态转移方程,然后构建MF-BVAR的量测方程:
Figure 706051DEST_PATH_IMAGE044
其中,t代表时间,
Figure 152076DEST_PATH_IMAGE045
代表的是矩阵,
Figure 423788DEST_PATH_IMAGE046
表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化,依靠量测方程预测事故词汇出现的频率趋势,从而获取未来安全事故隐患发生频率。
本发明还提供了一种基于文本挖掘的生产安全事故隐患预警***,包括数据预处理模块、特征处理模块以及频率预测模块;
所述数据预处理模块用于从安全事故隐患报告中收集数据,并进行预处理;
所述特征处理模块进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;
所述频率预测模块选择预测模型,通过混频数据预测未来安全事故隐患发生频率。
本发明的上述方案有如下的有益效果:
本发明提供的基于文本挖掘的生产安全事故隐患预警方案,依靠以往安全事故隐患发生记录或者报告进行预测,采用了基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征,从文本中挖掘到了所需的生产安全事故隐患信息;使用了条件随机场(CRF)模型添加约束,保证输出的重点向量是合理的,使所获得的文本数据更加精确;采用了混频动态因子模型,和混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中,提高未来安全事故隐患发生频率预测精度;
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明的方法步骤流程图;
图2为本发明中word2vec模型向量转换示意图;
图3为本发明中堆栈双向长短时记忆网络(Bi-LSTM-Att)示意图;
图4为本发明中条件随机场(CRF)约束示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在本发明的描述中,为了简单说明,该方法或规则作为一系列操作来描绘或描述,其目的既不是对实验操作进行穷举,也不是对实验操作的次序加以限制。例如,实验操作可以各种次序进行和/或同时进行,并包括其他再次没有描述的实验操作。此外,所述的步骤不都是在此描述的方法和算法所必备的。本领域技术人员可以认识和理解,这些方法和算法可通过状态图或项目表示为一系列不相关的状态。
本发明涉及生产安全事故预警技术领域,目前安全事故隐患预警技术的方法大致分为两步:第一步从企业以往生产隐患排查数据中收集数据,并进行预处理,使用R语言下的jiebaR包进行分词,并使用词频-逆文本频率(TF-IDF)方法评估字词在文件集中的频率。第二步运用灰色***中的GM(1.1)模型预测隐患词出现的频率。现有此类方法所用的灰色预测模型具有其局限性,其预测只适合近似于指数增长的数据,而有些文本挖掘数据并不适合该模型。在预测模型中,该类方法缺少使用混频模型,而混频模型能够融合不同频数据,而且还能提高预测精度。基于此,本发明的实施例提供了一种基于文本挖掘的生产安全事故隐患预警方法,利用word2vec模型提取文本,筛选出安全事故隐患发生文本向量;采用基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征,并用词频-逆文档频率(TF-IDF)模型记录重点安全事故隐患发生频率;最后,采用混频贝叶斯向量自相关(MF-BVAR)模型,融合不同频数据,预测日内安全事故隐患和月度安全事故隐患,并提高预测精度。
本方法的模型数据来自于以往安全事故隐患发生记录或者报告。具体如图1所示,该方法包括如下步骤:
S1,在输入层使用word2vec模型将文本中的每一个单词转换为一维向量,如图2所示,其中
Figure 359383DEST_PATH_IMAGE047
表示的是当前词的上下文,用来预测当前词
Figure 598604DEST_PATH_IMAGE048
S2,利用堆栈双向长短时记忆网络(Bi-LSTM-Att)提取整条文本的特征,如图3所示。
S2具体包括如下子步骤:
S21,将word2vec模型的输出C乘以权重
Figure 379478DEST_PATH_IMAGE003
,作为堆栈双向长短时记忆网络的输入,计算公式为:
Figure 99172DEST_PATH_IMAGE001
其中,
Figure 815456DEST_PATH_IMAGE002
为所得输入向量,
Figure 682917DEST_PATH_IMAGE003
为输入数据C的权重,b为偏执参数,g为Sigmod函数;
S22,将输入向量输入隐层,Bi-LSTM在正向和反向的隐层上计算,最终将两个方向的结果相加作为输出,即
Figure 893581DEST_PATH_IMAGE004
,其中
Figure 467782DEST_PATH_IMAGE005
表示前向传播隐层向量,
Figure 479600DEST_PATH_IMAGE006
为后向传播隐层向量,计算过程为:
Figure 444145DEST_PATH_IMAGE007
其中,
Figure 832401DEST_PATH_IMAGE008
表示第
Figure 182480DEST_PATH_IMAGE009
个索引对应的
Figure 568462DEST_PATH_IMAGE010
的权重矩阵,
Figure 144937DEST_PATH_IMAGE011
Figure 212250DEST_PATH_IMAGE012
时刻隐层状态输出向量
Figure 183879DEST_PATH_IMAGE013
对应的权重矩阵,
Figure 68659DEST_PATH_IMAGE009
代表隐层的两个不同方向,
Figure 742217DEST_PATH_IMAGE014
表示第
Figure 675538DEST_PATH_IMAGE015
个索引对应的偏置向量;
S23,将生成的嵌入向量发送至堆栈Bi-LSTM层,然后将注意力机制应用于堆栈Bi-LSTM中的最后一层,将最后一层的所有向量
Figure 609996DEST_PATH_IMAGE013
进行拼接,作为整个句子的特征向量:
Figure 524731DEST_PATH_IMAGE016
Figure 75798DEST_PATH_IMAGE017
Figure 219334DEST_PATH_IMAGE018
其中,
Figure 477140DEST_PATH_IMAGE019
为权重系数矩阵,
Figure 438143DEST_PATH_IMAGE020
为第i时刻注意力机制的偏移量,
Figure 837026DEST_PATH_IMAGE021
i时刻隐层状态向量
Figure 908887DEST_PATH_IMAGE013
的权重值,通过计算
Figure 286779DEST_PATH_IMAGE021
与上下文向量
Figure 28470DEST_PATH_IMAGE022
的相似度得到
Figure 554129DEST_PATH_IMAGE023
,其中
Figure 288736DEST_PATH_IMAGE023
指的是新隐层状态中权重系数,然后与原隐层状态向量
Figure 317872DEST_PATH_IMAGE013
乘积的累加得到初始隐层状态映射
Figure 558360DEST_PATH_IMAGE024
S3,利用softmax函数进行文本的分类,输出重点安全事故隐患文本。将经过注意力机制加权后的特征向量,输入softmax函数得到重点安全事故隐患分类结果。这个过程具体需要两步。
S31,对于每一条安全事故隐患记录,模型最终都会输出一个向量,表示该记录中属于安全事故隐患的概率:
Figure 181102DEST_PATH_IMAGE049
其中,
Figure 860345DEST_PATH_IMAGE050
为记录为安全事故隐患的概率,
Figure 370086DEST_PATH_IMAGE051
Figure 47055DEST_PATH_IMAGE052
Figure 16148DEST_PATH_IMAGE053
为Bi-LSTM网络输出层参数;
S32,利用交叉熵损失函数作为目标函数,采用反向传播机制对安全事故发生概率中的参数进行训练和更新,以最小化目标函数损失值:
Figure 843290DEST_PATH_IMAGE054
S4,基于条件随机场(CRF)添加约束,从而保证输出的重点向量是合理的。其过程如图4所示,其中
Figure 112597DEST_PATH_IMAGE055
表示观察序列,而
Figure 616260DEST_PATH_IMAGE056
表示有限状态的集合。
S5,采用TF-IDF(词频-逆文档频率)模型,通过计算文章中各个词的TF-IDF,由小到大排序,排在最前面的几个词,就是该文章的关键词。
具体地,该步骤分为以下三步:
S51,计算词频,具体公式为:
Figure 275911DEST_PATH_IMAGE057
S52,计算逆文档频率,具体公式为:
Figure 31378DEST_PATH_IMAGE058
其中,一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
S53,计算TF-IDF,即将TF与IDF相乘。
S6,将TF-IDF模型所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关(MF-BVAR)模型中预测未来安全事故隐患发生频率。构建MF-BVAR模型,表示成状态空间模型的形式,具体运算过程如下:
构建P阶滞后混频向量自回归模型:
Figure 764979DEST_PATH_IMAGE033
Figure 580488DEST_PATH_IMAGE034
其中,
Figure 415851DEST_PATH_IMAGE035
的维数为
Figure 912691DEST_PATH_IMAGE036
Figure 297536DEST_PATH_IMAGE037
的维数为
Figure 283947DEST_PATH_IMAGE038
,则
Figure 839562DEST_PATH_IMAGE039
的维数为
Figure 140093DEST_PATH_IMAGE040
Figure 707341DEST_PATH_IMAGE041
然后令
Figure 5598DEST_PATH_IMAGE042
Figure 923876DEST_PATH_IMAGE039
可表达为:
Figure 762519DEST_PATH_IMAGE043
此为MF-BVAR模型状态空间表示形式的状态转移方程,然后构建MF-BVAR的量测方程:
Figure 64232DEST_PATH_IMAGE059
其中,t代表时间,
Figure 658024DEST_PATH_IMAGE060
代表的是矩阵,
Figure 673385DEST_PATH_IMAGE061
表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化,依靠量测方程预测事故隐患词汇出现的频率趋势,从而获取未来安全事故隐患发生频率,以及时进行预警
上述方法采用了基于注意力机制的堆栈双向长短时记忆网络(Bi-LSTM-Att)提取文本特征,从文本中挖掘到了所需的生产安全事故隐患信息;使用了条件随机场(CRF)模型添加约束,保证输出的重点向量是合理的,使所获得的文本数据更加精确;采用了混频贝叶斯向量自相关模型可以将不同频数据加入到未来安全事故隐患发生频率预测中,提高未来安全事故隐患发生频率预测精度。
以下通过具体案例进一步对本方法进行说明:
例如,事故记录中有两条文本数据:“员工吃饭,忘记管电闸,这是当天第二次忘关电闸!!!”该数据每天都可能发生。“储气罐安全阀到期,需更换”该数据每月发生多次。
第一步,得到数据后采用word2vec模型将文本中的每一个单词转换为一维向量。
第二步,基于Bi-LSTM-Att提取文本特征,得到词条“员工”,“吃饭”,“电闸”,“储气罐”,“安全阀”,“更换”“!!!”。
第三步,利用softmax函数,输出重点安全事故隐患文本,得到“电闸”“储气罐”“安全阀”“!!!”。
第四步,利用CRF模型添加约束,保证输出的重点向量是合理的,筛选得到“电闸”“储气罐”“安全阀”。
第五步,采用TF-IDF模型,计算文本中各个词的TF-IDF获取重点安全事故隐患的发生频率。得到“电闸”频率为2,“储气罐”、“安全阀”频率为1。
第六步,根据TF-IDF模型所得数据,代入MF-BVAR模型进行预测。得到结果为“电闸”发生频率为2,发生时间为中午12点,“储气罐”“安全阀”发生频率为1,发生时间为下月15号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于文本挖掘的生产安全事故隐患预警方法,其特征在于,包括如下步骤:
S1,从安全事故隐患报告中收集数据,数据为以往安全事故隐患报告中记录的每天,或者每月发生的安全事故隐患,安全事故隐患包括作业场所、设备及设施的不安全状态,人的不安全行为和管理上的缺陷;进行预处理,将文本单词转换为向量,在输入层使用word2vec模型将文本中的每一个单词转换为一维向量;
S2,进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率,具体包括
S21,利用堆栈双向长短时记忆网络提取整条文本的特征;
S21具体包括如下子步骤:
S211,将word2vec模型的输入单词对应的输出C乘以权重
Figure DEST_PATH_IMAGE001
,作为堆栈双向长短时记忆网络的输入,计算公式为:
Figure 284857DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为所得输入向量,
Figure 606117DEST_PATH_IMAGE001
为输入数据C的权重,b为偏执参数,g为Sigmod函数;
S212,将输入向量输入隐层,Bi-LSTM在正向和反向的隐层上计算,最终将两个方向的结果相加作为输出,即
Figure 891605DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE005
表示前向传播隐层向量,
Figure 894196DEST_PATH_IMAGE006
为后向传播隐层向量,计算过程为:
Figure DEST_PATH_IMAGE007
其中,
Figure 745478DEST_PATH_IMAGE008
表示第个
Figure DEST_PATH_IMAGE009
索引对应的
Figure DEST_PATH_IMAGE011
的权重矩阵,
Figure 974989DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
时刻隐层状态输出向量
Figure 278932DEST_PATH_IMAGE014
对应的权重矩阵,
Figure 350793DEST_PATH_IMAGE009
代表隐层的两个不同方向,
Figure DEST_PATH_IMAGE015
表示第
Figure 259843DEST_PATH_IMAGE009
个索引对应的偏置向量;
S213,将生成的嵌入向量发送至堆栈Bi-LSTM层,然后将注意力机制应用于堆栈Bi-LSTM中的最后一层,将最后一层的所有向量
Figure 126168DEST_PATH_IMAGE014
进行拼接,作为整个句子的特征向量:
Figure 651827DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
Figure 792958DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
为权重系数矩阵,
Figure 822094DEST_PATH_IMAGE020
为第i时刻注意力机制的偏移量,
Figure DEST_PATH_IMAGE021
i时刻隐层状态向量
Figure 656058DEST_PATH_IMAGE014
的权重值,通过计算
Figure 341117DEST_PATH_IMAGE021
与上下文向量
Figure 754781DEST_PATH_IMAGE022
的相似度得到
Figure DEST_PATH_IMAGE023
,其中
Figure 435161DEST_PATH_IMAGE023
指的是新隐层状态中权重系数,然后与原隐层状态向量
Figure 112130DEST_PATH_IMAGE014
乘积的累加得到初始隐层状态映射
Figure 81223DEST_PATH_IMAGE024
S22,利用softmax函数进行文本的分类,输出重点安全事故隐患文本;
S23,基于条件随机场添加约束;
S24,采用词频-逆文档频率模型,通过计算文本中各个词的词频-逆文档频率获取重点安全事故隐患的发生频率;
S3,选择预测模型,将混频数据代入混频预测模型中,预测未来安全事故隐患发生频率,混频数据包括日度数据和月度数据,日度数据为每天都会发生的安全事故隐患,月度数据为每月都会发生的安全事故隐患。
2.根据权利要求1所述基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S22中将经过注意力机制加权后的特征向量,输入softmax函数得到重点安全事故隐患分类结果。
3.根据权利要求2所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S22具体包括如下步骤:
S221,对于每一条安全事故隐患记录,模型最终都会输出一个向量,表示该记录中属于安全事故隐患的概率:
Figure DEST_PATH_IMAGE025
其中,
Figure 850244DEST_PATH_IMAGE026
为记录为安全事故隐患的概率,
Figure DEST_PATH_IMAGE027
Figure 447448DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
为Bi-LSTM网络输出层参数;
S222,利用交叉熵损失函数作为目标函数,采用反向传播机制对安全事故隐患发生概率中的参数进行训练和更新,以最小化目标函数损失值:
Figure 826476DEST_PATH_IMAGE030
4.根据权利要求3所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S24具体包括如下子步骤:
S241,计算词频,具体公式为:
Figure DEST_PATH_IMAGE031
S242,计算逆文档频率,具体公式为:
Figure 79603DEST_PATH_IMAGE032
S243,计算词频-逆文档频率,将词频与逆文档频率相乘,获取词频数据中的日度安全事故隐患频率和月度安全事故隐患频率。
5.根据权利要求4所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S3中将所获词频数据中的日度安全事故隐患频率和月度安全事故隐患频率代入混频贝叶斯向量自相关模型中预测未来安全事故隐患发生频率。
6.根据权利要求5所述的基于文本挖掘的生产安全事故隐患预警方法,其特征在于,S3中构建P阶滞后混频向量自回归模型:
Figure DEST_PATH_IMAGE033
Figure 569490DEST_PATH_IMAGE034
其中,
Figure DEST_PATH_IMAGE035
的维数为
Figure 958883DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
的维数为
Figure 508814DEST_PATH_IMAGE038
,则
Figure DEST_PATH_IMAGE039
的维数为
Figure 780395DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
然后令
Figure 467116DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
可表达为:
Figure 711015DEST_PATH_IMAGE044
此为混频贝叶斯向量自相关模型状态空间表示形式的状态转移方程,然后构建混频贝叶斯向量自相关模型的量测方程:
Figure DEST_PATH_IMAGE045
其中,t代表时间,
Figure 759743DEST_PATH_IMAGE046
代表的是矩阵,
Figure DEST_PATH_IMAGE047
表示的是不可观测的潜在序列与可观测的季度变量序列之间可以通过矩阵转化,依靠量测方程预测事故词汇出现的频率趋势,从而获取未来安全事故隐患发生频率。
7.一种基于文本挖掘的生产安全事故隐患预警***,采用如权利要求1-6任意一项所述的方法,其特征在于,包括数据预处理模块、特征处理模块以及频率预测模块;
所述数据预处理模块用于从安全事故隐患报告中收集数据,并进行预处理;
所述特征处理模块进行特征提取,筛选出重点安全事故隐患,记录重点安全事故隐患发生频率;
所述频率预测模块选择预测模型,通过混频数据预测未来安全事故隐患发生频率。
CN202210667297.1A 2022-06-14 2022-06-14 基于文本挖掘的生产安全事故隐患预警方法及*** Active CN114757452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210667297.1A CN114757452B (zh) 2022-06-14 2022-06-14 基于文本挖掘的生产安全事故隐患预警方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210667297.1A CN114757452B (zh) 2022-06-14 2022-06-14 基于文本挖掘的生产安全事故隐患预警方法及***

Publications (2)

Publication Number Publication Date
CN114757452A CN114757452A (zh) 2022-07-15
CN114757452B true CN114757452B (zh) 2022-09-09

Family

ID=82336776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210667297.1A Active CN114757452B (zh) 2022-06-14 2022-06-14 基于文本挖掘的生产安全事故隐患预警方法及***

Country Status (1)

Country Link
CN (1) CN114757452B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125315A (zh) * 2019-12-25 2020-05-08 北京中技华软科技服务有限公司 一种技术趋势预测方法和***
CN111708877A (zh) * 2020-04-20 2020-09-25 中山大学 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN113537609A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于文本智能挖掘的政策热点预测方法
CN114064879A (zh) * 2021-11-12 2022-02-18 国网河南省电力公司经济技术研究院 基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321598A1 (en) * 2015-04-30 2016-11-03 International Business Machines Corporation Predicting outcomes from measures of group cooperation with applications in traffic alert and control
US20180218303A1 (en) * 2017-02-01 2018-08-02 Weather Build, Inc. Systems and methods for analyzing weather event impacts on schedule activities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125315A (zh) * 2019-12-25 2020-05-08 北京中技华软科技服务有限公司 一种技术趋势预测方法和***
CN111708877A (zh) * 2020-04-20 2020-09-25 中山大学 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN113537609A (zh) * 2021-07-26 2021-10-22 北京清博智能科技有限公司 一种基于文本智能挖掘的政策热点预测方法
CN114064879A (zh) * 2021-11-12 2022-02-18 国网河南省电力公司经济技术研究院 基于文本挖掘的电力人身伤亡事故关键隐患因素提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Document language risk minimization models, query models, and for information;Lafferty J.,等;《SIGIR Forum》;20011231;全文 *
基于文本挖掘的内河船舶碰撞事故致因因素分析与风险预测;吴伋, 等;《交通信息与安全》;20180331;第8-18页 *

Also Published As

Publication number Publication date
CN114757452A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Zvarevashe et al. A framework for sentiment analysis with opinion mining of hotel reviews
Zhang A hybrid structured deep neural network with Word2Vec for construction accident causes classification
US20160171369A1 (en) Technical and semantic signal processing in large, unstructured data fields
Khalef et al. Automated identification of substantial changes in construction projects of airport improvement program: Machine learning and natural language processing comparative analysis
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及***
CN109472462B (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
CN110991694A (zh) 一种基于深度学习的量刑预测方法
Mishev et al. Forecasting corporate revenue by using deep-learning methodologies
Chen et al. Exploration and mining evaluation system and price prediction of uranium resources
Vafeiadis et al. Data analytics platform for the optimization of waste management procedures
Tao et al. Can online consumer reviews signal restaurant closure: A deep learning-based time-series analysis
Indra et al. Modeling of optimal deep learning based flood forecasting model using twitter data
Ula et al. Application Of The Fuzzy Time Series Model In Clothing Material Stock Forecasting
Jang et al. TechWordNet: Development of semantic relation for technology information analysis using F-term and natural language processing
CN114757452B (zh) 基于文本挖掘的生产安全事故隐患预警方法及***
Wang et al. Application of Natural Language Processing in Financial Risk Detection
CN113159945A (zh) 一种基于多任务自监督学习的股票涨跌预测方法
Gumus et al. Stock market prediction by combining stock price information and sentiment analysis
Gu et al. Stock prediction based on news text analysis
CN115393078A (zh) 一种基于多源异构数据的混合注意力股票涨跌预测方法
Sarkar et al. Gsel: A genetic stacking-based ensemble learning approach for incident classification
Rameh et al. Designing a hybrid model for stock marketing prediction based on LSTM and transfer learning
Kim et al. Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT
Das et al. Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework
Wu et al. Interpretable corn future price forecasting with multivariate time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant