CN117273463A - 一种工作票的违章风险预警方法、***、设备及介质 - Google Patents
一种工作票的违章风险预警方法、***、设备及介质 Download PDFInfo
- Publication number
- CN117273463A CN117273463A CN202311385723.3A CN202311385723A CN117273463A CN 117273463 A CN117273463 A CN 117273463A CN 202311385723 A CN202311385723 A CN 202311385723A CN 117273463 A CN117273463 A CN 117273463A
- Authority
- CN
- China
- Prior art keywords
- numerical
- probability distribution
- feature
- distribution model
- ticket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000009826 distribution Methods 0.000 claims abstract description 192
- 239000011159 matrix material Substances 0.000 claims abstract description 76
- 238000011156 evaluation Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 23
- 230000008030 elimination Effects 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Mathematical Optimization (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种工作票的违章风险预警方法、***、设备及介质,涉及电力运行管理技术领域,响应接收到的评估请求信息并确定工作票,根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据,将文本数据转换为数值特征矩阵,基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型,基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型,根据目标概率分布模型确定任一工作票的违章发生率;针对工作票的不同内容特征进行概率估算,更准确地判断工作票是否违章,提高违章数据检测的准确性。
Description
技术领域
本发明涉及电力运行管理技术领域,尤其涉及一种工作票的违章风险预警方法、***、设备及介质。
背景技术
目前,在电力生产、输配电等环节中,为了避免在电气设备上工作,发生各种安全事故,同时也是为了防止在出现事故之后,分清责任,有利于事故处理,避免类似事故再次发生,所以说,在高压设备上工作,必须要执行工作票制度,但在工作票的执行中,由于内容填写的不完整或理解上的偏差,仍然时常发生这样或那样的问题,特别是在工作任务的执行上常常出现超出工作范围的现象,即“搭票作业”,从而导致违章行为的发生。
然而,依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足,无法满足实际工作的需求。
发明内容
本发明提供了一种工作票的违章风险预警方法、***、设备及介质,解决了现有的依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足的技术问题。
本发明第一方面提供的一种工作票的违章风险预警方法,包括:
响应于接收到的评估请求信息,确定所述评估请求信息对应的工作票;
根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取所述工作票样本数据集的文本数据;
将所述文本数据转换为数值特征矩阵;
基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型;
基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型;
根据所述目标概率分布模型确定任一所述工作票的违章发生率。
可选地,所述将所述文本数据转换为数值特征矩阵的步骤,包括:
基于自然语言处理技术,提取所述文本数据的词汇数据,将所述词汇数据转换为第一数值特征集合;
获取所述文本数据的数值数据,将所述数值数据转换为第二数值特征集合;
将所述第一数值特征集合和所述第二数值特征集合合并为初始数值特征矩阵;
根据相关性分析法和递归特征消除法对所述初始数值特征矩阵进行处理,获得数值特征矩阵。
可选地,所述基于自然语言处理技术,提取所述文本数据的词汇数据,将所述词汇数据转换为第一数值特征集合的步骤,包括:
获取所述文本数据的词汇数据,对所述词汇数据进行文本清洗、分词、通用词剔除后生成词汇表,所述词汇表中含有若干个词汇单元;
使用TF-IDF算法计算所述词汇表中的每个词汇单元的TF-IDF权重向量,获得第一数值特征集合。
可选地,所述根据相关性分析法和递归特征消除法对所述初始数值特征矩阵进行处理,获得数值特征矩阵的步骤,包括:
根据皮尔逊相关系数确定所述初始数值特征矩阵中每个特征与违章结果变量之间的相关性,获得初始特征集;
基于递归特征消除模型,计算所述初始特征集中的每个特征的重要性得分;
根据所述重要性得分反复移除所述初始特征集中重要性得分最低的特征,直到所述初始特征集中的特征数量达到特征数量阈值范围内,获得数值特征矩阵。
可选地,所述基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型的步骤,包括:
获取所述数值特征矩阵中所有数值特征的数值特征类型,所述数值特征类型包括连续数值特征、计数数值特征、二项数值特征和离散数值特征;
对为所述连续数值特征的数值特征采用正态分布建立第一概率分布模型;
对为所述计数数值特征的数值特征采用泊松分布建立第二概率分布模型;
对为所述二项数值特征的数值特征采用二项分布建立第三概率分布模型;
对为所述离散数值特征的数值特征采用多项分布建立第四概率分布模型。
可选地,所述基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型的步骤,包括:
根据极大似然估计法分别估计所述第一概率分布模型、所述第二概率分布模型、所述第三概率分布模型和所述第四概率分布模型的参数;
将估计参数后的所述第一概率分布模型、所述第二概率分布模型、所述第三概率分布模型和所述第四概率分布模型进行整合,获得目标概率分布模型。
可选地,所述根据所述目标概率分布模型确定任一所述工作票的违章发生率的步骤,包括:
为第一工作票的每个特征分配权重系数;
根据所述目标概率分布模型确定所述第一工作票的每个特征的违章概率;
将所述第一工作票的每个特征的所述权重系数和所述违章概率进行加权平均,获得所述第一工作票的违章发生率。
本发明第二方面提供的一种工作票的违章风险预警***,包括:
响应模块,用于响应于接收到的评估请求信息,确定所述评估请求信息对应的工作票;
文本数据提取模块,用于根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取所述工作票样本数据集的文本数据;
特征转换模块,用于将所述文本数据转换为数值特征矩阵;
概率分布模块,用于基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型;
目标概率分布模型模块,用于基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型;
风险预警模块,用于根据所述目标概率分布模型确定任一所述工作票的违章发生率。
本发明第三方面提供的一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一项所述的工作票的违章风险预警方法的步骤。
本发明第四方面提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述任一项所述的工作票的违章风险预警方法。
从以上技术方案可以看出,本发明具有以下优点:
1、针对工作票的不同内容特征进行概率估算,更准确地判断工作票是否违章,提高了违章数据检测的准确性。
2、采用相关性分析法和递归特征消除法,对特征矩阵进行处理,从而选择了与违章结果相关性较高的特征,提高了模型的性能。
3、通过整合不同特征的概率和权重,可以计算每个工作票的违章发生率,实现了工作票违章风险的预警。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种工作票的违章风险预警方法的步骤流程图;
图2为本发明实施例提供的一种工作票的违章风险预警方法的步骤流程图;
图3为本发明实施例提供的一种工作票的违章风险预警***的结构框图;
图4为本发明实施例提供的一种电子设备的框架示意图。
具体实施方式
本发明实施例提供了一种工作票的违章风险预警方法、***、设备及介质,用于解决现有的依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种工作票的违章风险预警方法的步骤流程图。
本发明提供的一种工作票的违章风险预警方法,包括:
步骤101、响应于接收到的评估请求信息,确定评估请求信息对应的工作票。
评估请求信息,指的是针对工作票进行违章发生率的评估请求。
在本发明实施例中,响应于接收到针对工作票进行违章发生率的评估请求,确定评估请求信息对应的工作票。
步骤102、根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据。
正确工作票样本是指填写内容正确的历史工作票。
违章工作票样本是指填写内容错误——即违反规章制度的历史工作票。
可以理解的是,工作票的填写内容是否正确可以是指填写格式是否正确,也可以是指填写信息是否正确。
文本数据包括词汇数据和数值数据。
在本发明实施例中,根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据。
步骤103、将文本数据转换为数值特征矩阵。
在本发明实施例中,将词汇数据转换为第一数值特征集合,将数值数据所转换成第二数值特征集合,并将第一数值特征集合和第二数值特征集合合并处理,从而生成数值特征矩阵。
步骤104、基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型。
数值特征类型包括连续数值特征、计数数值特征、二项数值特征和离散数值特征。
在本发明实施例中,采用不同的分布模型分别为数值特征矩阵中的连续数值特征、计数数值特征、二项数值特征和离散数值特征建立对应的概率分布模型。
步骤105、基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型。
在本发明实施例中,基于不同概率分布模型对应的概率函数,通过极大似然估计法估计每个概率分布模型的参数,从而获得目标概率分布模型。
步骤106、根据目标概率分布模型确定任一工作票的违章发生率。
在本发明实施例中,通过目标概率分布模型输出任一工作票的违章发生率。
在本发明中,响应于接收到的评估请求信息,确定评估请求信息对应的工作票,根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据,将文本数据转换为数值特征矩阵,基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型,基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型,根据目标概率分布模型确定任一工作票的违章发生率;解决了现有的依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足的技术问题。针对工作票的不同内容特征进行概率估算,更准确地判断工作票是否违章,提高了违章数据检测的准确性。
请参阅图2,图2为本发明实施例提供的一种工作票的违章风险预警方法的步骤流程图。
本发明提供的一种工作票的违章风险预警方法,包括:
步骤201、响应于接收到的评估请求信息,确定评估请求信息对应的工作票。
在本发明实施例中,步骤201的具体实施过程与步骤101类似,在此不再赘述。
步骤202、根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据。
在本发明实施例中,正确工作票样本是指填写内容正确的历史工作票,违章工作票样本是指填写内容错误——即违反规章制度的历史工作票,可以理解的是,工作票的填写内容是否正确可以是指填写格式是否正确,也可以是指填写信息是否正确。文本数据包括词汇数据和数值数据。
步骤203、基于自然语言处理技术,提取文本数据的词汇数据,将词汇数据转换为第一数值特征集合。
进一步地,步骤203可以包括以下子步骤:
S11、获取文本数据的词汇数据,对词汇数据进行文本清洗、分词、通用词剔除后生成词汇表,词汇表中含有若干个词汇单元。
在本发明实施例中,上述对词汇数据进行文本清洗、分词、通用词剔除,具体可以为:去除词汇数据的特殊字符、标点符号等相关噪音,再将噪音清晰后的词汇数据分成若干个词汇单元,其中,对文本挖掘任务没有重要信息的通用词可以去除,比如“是”、“和”、“或”、“这”、“那”等。应理解,可以事先创建一个词汇表,然后将去除通用词后的词汇单词分配至词汇表中。
S12、使用TF-IDF算法计算词汇表中的每个词汇单元的TF-IDF权重向量,获得第一数值特征集合。
在本发明实施例中,TF-IDF(Term Frequency-Inverse Document Frequency)算法是一种用于文本数据处理的特征权重计算方法,结合了词汇在文档中的频率(TF)和在整个文本集合中的重要性(IDF)。上述使用TF-IDF算法计算词汇表中的每个词汇单元的TF-IDF权重,具体可以为:对于词汇表中的每个词汇单元,计算每个词汇单元在文档中的词频(TF),即该词汇单元在词汇数据中出现的次数,示例性地,创建一个与词汇表长度相同的向量,初始值为0,对词汇数据中的每个词汇,计算它在词汇表中的索引位置,然后将相应位置的计数值加1,表示每个词汇的出现次数,重复上述步骤,处理所有词汇单元,以便得到一个文本向量集合;计算其在词汇数据中的逆文档频率,逆文档频率的计算公式为IDF=log(N/(n+1)),其中,N表示文本集合中的文档总数,n表示包含该词汇的文档数量,应理解,log函数的底数可以根据需要进行选择;将TF和IDF相乘,得到词汇表中的每个词汇单元在词汇数据中的TF-IDF权重向量,获得第一数值特征集合。
步骤204、获取文本数据的数值数据,将数值数据转换为第二数值特征集合。
在本发明实施例中,应理解,数值数据可以是以***数字呈现的数值数据,也可以是以其他语言——例如中文呈现的数值数据,工作票的数值数据包括日期时间、设备型号、设备负载等等。
步骤205、将第一数值特征集合和第二数值特征集合合并为初始数值特征矩阵。
在本发明实施例中,将第一数值特征集合和第二数值特征集合合并为初始数值特征矩阵。
步骤206、根据相关性分析法和递归特征消除法对初始数值特征矩阵进行处理,获得数值特征矩阵。
进一步地,步骤206可以包括以下子步骤:
S21、根据皮尔逊相关系数确定初始数值特征矩阵中每个特征与违章结果变量之间的相关性,获得初始特征集。
S22、基于递归特征消除模型,计算初始特征集中的每个特征的重要性得分。
S23、根据重要性得分反复移除初始特征集中重要性得分最低的特征,直到初始特征集中的特征数量达到特征数量阈值范围内,获得数值特征矩阵。
在本发明实施例中,皮尔逊相关系数用于衡量特征与目标变量之间的线性相关性,对于每个特征,使用所选的相关性分析方法计算它与目标变量之间的相关性,皮尔逊相关系数的公式满足:
其中,r表示皮尔逊相关系数,Xi表示初始数值特征矩阵中的每个特征,i表示特征数量,表示初始数值特征矩阵的均值,Yj表示每个工作票的违章结果,j表示工作票数量,表示工作票的违章结果在工作票总数中的比例。
应理解的是,如果r等于1,表示完全正相关,即两个变量完全线性相关,随着一个变量增加,另一个也增加;如果r等于-1,表示完全负相关,即两个变量完全反向线性相关,随着一个变量增加,另一个减小;如果r等于0,表示没有线性关系,即两个变量之间没有线性相关性。
在本发明实施例中,递归特征消除是一种用于特征选择的迭代方法,它帮助确定特征的重要性程度,选择一个线性模型,可以理解的是,该线性模型包括但不限于逻辑回归、支持向量机,用于为初始特征集中的每个特征分配一个权重或重要性得分,从当前的特征集合中剔除权重最低的特征,从而得到新的特征子集,重复迭代,在每一轮迭代中,模型会在当前特征集合上进行训练和评估,并继续剔除最不重要的特征,逐渐减小特征数量,直到达到所需的特征数量。
步骤207、基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型。
进一步地,步骤207可以包括以下子步骤:
S31、获取数值特征矩阵中所有数值特征的数值特征类型,数值特征类型包括连续数值特征、计数数值特征、二项数值特征和离散数值特征。
S32、对为连续数值特征的数值特征采用正态分布建立第一概率分布模型。
S33、对为计数数值特征的数值特征采用泊松分布建立第二概率分布模型。
S34、对为二项数值特征的数值特征采用二项分布建立第三概率分布模型。
S35、对为离散数值特征的数值特征采用多项分布建立第四概率分布模型。
在本发明实施例中,连续数值特征是指可以取任意实数值范围的特征,通常用于表示测量值或时间间隔,如工作持续时间、温度、压力等特征;计数数值特征表示某种事件的发生次数,通常是非负整数,如检查次数、故障次数、工作人员数量等特征;二项数值特征是表示二项事件的特征,通常以二元值(0或1)表示,如安全措施是否采取、是否合规等特征;离散数值特征表示有限离散取值的特征,通常用于表示分类信息,如工作类型(维护、维修、安装)、设备型号(使用编号或名称表示)、工作地点(使用地点代码或名称表示)等特征。
应理解的是,针对连续数值特征(如执行时间、温度、电流),可以构建正态分布模型,用于判断新数据点是否偏离均值的程度,从而判断是否存在违章数据;针对计数数据特征(如违规事件次数、故障次数),构建泊松分布模型,用于判断违规事件的发生率;针对二项数据特征(如安全措施采取与否),构建二项分布模型,用于判断二项数据特征的次数的分布情况;针对离散特征(如工作票类型、工作地点、工作组成员、安全措施类型),构建多项分布模型,用于多类别分类特征。
步骤208、基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型。
进一步地,步骤208可以包括以下子步骤:
S41、根据极大似然估计法分别估计第一概率分布模型、第二概率分布模型、第三概率分布模型和第四概率分布模型的参数。
S42、将估计参数后的第一概率分布模型、第二概率分布模型、第三概率分布模型和第四概率分布模型进行整合,获得目标概率分布模型。
在本发明实施例中,第一概率分布模型(正态分布)的概率函数为:
其中,x是连续数值特征,f(x)是联系数值特征x的概率密度函数,μ是正态分布的均值,σ是正态分布的标准差,根据观测数据(即连续数值特征)采用极大似然估计法估计均值和标准差的值,确定使函数最大化的参数值;
第二概率分布模型(泊松分布)的概率函数为:
其中,X是计数数据特征,P(X=k)是计数数据特征X取值为k的概率,k是某个事件发生次数,λ是泊松分布的均值和方差,表示单位时间内事件的平均发生率,根据观测数据(即计数数据特征)采用极大似然估计法估计λ的值,确定使函数最大化的参数值,估计值为观测事件总数除以观测时间总数;
第三概率分布模型(二项分布)的概率函数为:
其中,X是二项数据特征,P(X=k)是二项数据特征X取值为k的概率,n是总数量,k是事件结果为正面的数量,p是单次事件结果为正面的概率,表示二项式系数,即组合数,根据观测数据(即二项数据特征)采用极大似然估计法估计n和p的值,确定使函数最大化的参数值;
第四概率分布模型(多项式分布)的概率函数为:
其中,n是总样本数,k是类别数量,Xi是第i个类别的次数,xi是第i个类别出现的次数,pi是第i个类别的概率,根据观测数据(即离散特征)采用极大似然估计法估计每个类别的概率pi,确定使函数最大化的参数值。
步骤209、根据目标概率分布模型确定任一工作票的违章发生率。
进一步地,步骤209可以包括以下子步骤:
S51、为第一工作票的每个特征分配权重系数。
S52、根据目标概率分布模型确定第一工作票的每个特征的违章概率。
S53、将第一工作票的每个特征的权重系数和违章概率进行加权平均,获得第一工作票的违章发生率。
值得一提的是,第一工作票指的是将进行评估的任一工作票作为第一工作票,并评估第一工作票的违章发生率。
在本发明实施例中,使用不同的分布(正态分布、泊松分布、二项分布、多项分布)分别估算工作票的不同特征是否违章的概率后,考虑不同特征的重要性程度从而分配不同的权重。进一步地,可以通过分类模型来为每个特征的权重分配实现动态调整,示例性地,以逻辑回归模型作为分类器,使用逻辑回归算法训练模型,将所有特征与违章结果的线性关系程度作为权重特征输入至模型中进行训练,采用准确性、精确度、召回率、F1分数等指标评估模型性能,将训练好的逻辑回归模型用于调整每个特征的权重系数。
在本发明中,响应于接收到的评估请求信息,确定评估请求信息对应的工作票,根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据,将文本数据转换为数值特征矩阵,基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型,基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型,根据目标概率分布模型确定任一工作票的违章发生率;解决了现有的依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足的技术问题。针对工作票的不同内容特征进行概率估算,更准确地判断工作票是否违章,提高了违章数据检测的准确性。
请参阅图3,图3为本发明实施例提供的一种工作票的违章风险预警***的结构框图。
本发明提供的一种工作票的违章风险预警***,包括:
响应模块301,用于响应于接收到的评估请求信息,确定评估请求信息对应的工作票;
文本数据提取模块302,用于根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据;
特征转换模块303,用于将文本数据转换为数值特征矩阵;
概率分布模块304,用于基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型;
目标概率分布模型模块305,用于基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型;
风险预警模块306,用于根据目标概率分布模型确定任一工作票的违章发生率。
进一步地,特征转换模块303包括:
第一数值特征集合子模块,用于基于自然语言处理技术,提取文本数据的词汇数据,将词汇数据转换为第一数值特征集合;
第二数值特征集合子模块,用于获取文本数据的数值数据,将数值数据转换为第二数值特征集合;
初始数值特征矩阵子模块,用于将第一数值特征集合和第二数值特征集合合并为初始数值特征矩阵;
数值特征矩阵子模块,用于根据相关性分析法和递归特征消除法对初始数值特征矩阵进行处理,获得数值特征矩阵。
进一步地,第一数值特征集合子模块包括:
词汇表单元,用于获取文本数据的词汇数据,对词汇数据进行文本清洗、分词、通用词剔除后生成词汇表,词汇表中含有若干个词汇单元;
权重向量单元,用于使用TF-IDF算法计算词汇表中的每个词汇单元的TF-IDF权重向量,获得第一数值特征集合。
进一步地,数值特征矩阵子模块包括:
初始特征集单元,用于根据皮尔逊相关系数确定初始数值特征矩阵中每个特征与违章结果变量之间的相关性,获得初始特征集;
重要性得分单元,用于基于递归特征消除模型,计算初始特征集中的每个特征的重要性得分;
数值特征矩阵输出单元,用于根据重要性得分反复移除初始特征集中重要性得分最低的特征,直到初始特征集中的特征数量达到特征数量阈值范围内,获得数值特征矩阵。
进一步地,概率分布模块304包括:
数值特征类型子模块,用于获取数值特征矩阵中所有数值特征的数值特征类型,数值特征类型包括连续数值特征、计数数值特征、二项数值特征和离散数值特征;
第一概率分布模型子模块,用于对为连续数值特征的数值特征采用正态分布建立第一概率分布模型;
第二概率分布模型子模块,用于对为计数数值特征的数值特征采用泊松分布建立第二概率分布模型;
第三概率分布模型子模块,用于对为二项数值特征的数值特征采用二项分布建立第三概率分布模型;
第四概率分布模型子模块,用于对为离散数值特征的数值特征采用多项分布建立第四概率分布模型。
进一步地,目标概率分布模型模块305包括:
极大似然估计法子模块,用于根据极大似然估计法分别估计第一概率分布模型、第二概率分布模型、第三概率分布模型和第四概率分布模型的参数;
模型整合子模块,用于将估计参数后的第一概率分布模型、第二概率分布模型、第三概率分布模型和第四概率分布模型进行整合,获得目标概率分布模型。
进一步地,风险预警模块306包括:
分配权重系数子模块,用于为第一工作票的每个特征分配权重系数;
违章概率子模块,用于根据目标概率分布模型确定第一工作票的每个特征的违章概率;
违章发生率子模块,用于将第一工作票的每个特征的权重系数和违章概率进行加权平均,获得第一工作票的违章发生率。
在本发明中,响应于接收到的评估请求信息,确定评估请求信息对应的工作票,根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取工作票样本数据集的文本数据,将文本数据转换为数值特征矩阵,基于数值特征矩阵的数值特征类型,采用不同的分布模型为数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型,基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型,根据目标概率分布模型确定任一工作票的违章发生率;解决了现有的依靠人工判断工作票是否违章需要耗费大量人力精力,同时目前的机器学习模型对工作票是否违章的识别过于单一,在准确性上有所不足的技术问题。针对工作票的不同内容特征进行概率估算,更准确地判断工作票是否违章,提高了违章数据检测的准确性。
本发明实施例的一种电子设备4,电子设备包括:存储器402及处理器401,存储器402中储存有计算机程序403;计算机程序403被处理器401执行时,使得处理器401执行如上述任一实施例的工作票的违章风险预警方法。
所述电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备4可包括,但不仅限于,处理器401、存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的举例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器401还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器402在一些实施例中可以是所述电子设备4的内部存储单元,例如电子设备4的硬盘或内存。所述存储器402在另一些实施例中也可以是所述电子设备4的外部存储设备,例如所述电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器402还可以既包括所述电子设备4的内部存储单元也包括外部存储设备。所述存储器402用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如本发明任一实施例的工作票的违章风险预警方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种工作票的违章风险预警方法,其特征在于,包括:
响应于接收到的评估请求信息,确定所述评估请求信息对应的工作票;
根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取所述工作票样本数据集的文本数据;
将所述文本数据转换为数值特征矩阵;
基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型;
基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型;
根据所述目标概率分布模型确定任一所述工作票的违章发生率。
2.根据权利要求1所述的工作票的违章风险预警方法,其特征在于,所述将所述文本数据转换为数值特征矩阵的步骤,包括:
基于自然语言处理技术,提取所述文本数据的词汇数据,将所述词汇数据转换为第一数值特征集合;
获取所述文本数据的数值数据,将所述数值数据转换为第二数值特征集合;
将所述第一数值特征集合和所述第二数值特征集合合并为初始数值特征矩阵;
根据相关性分析法和递归特征消除法对所述初始数值特征矩阵进行处理,获得数值特征矩阵。
3.根据权利要求2所述的工作票的违章风险预警方法,其特征在于,所述基于自然语言处理技术,提取所述文本数据的词汇数据,将所述词汇数据转换为第一数值特征集合的步骤,包括:
获取所述文本数据的词汇数据,对所述词汇数据进行文本清洗、分词、通用词剔除后生成词汇表,所述词汇表中含有若干个词汇单元;
使用TF-IDF算法计算所述词汇表中的每个词汇单元的TF-IDF权重向量,获得第一数值特征集合。
4.根据权利要求2或3所述的工作票的违章风险预警方法,其特征在于,所述根据相关性分析法和递归特征消除法对所述初始数值特征矩阵进行处理,获得数值特征矩阵的步骤,包括:
根据皮尔逊相关系数确定所述初始数值特征矩阵中每个特征与违章结果变量之间的相关性,获得初始特征集;
基于递归特征消除模型,计算所述初始特征集中的每个特征的重要性得分;
根据所述重要性得分反复移除所述初始特征集中重要性得分最低的特征,直到所述初始特征集中的特征数量达到特征数量阈值范围内,获得数值特征矩阵。
5.根据权利要求1所述的工作票的违章风险预警方法,其特征在于,所述基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型的步骤,包括:
获取所述数值特征矩阵中所有数值特征的数值特征类型,所述数值特征类型包括连续数值特征、计数数值特征、二项数值特征和离散数值特征;
对为所述连续数值特征的数值特征采用正态分布建立第一概率分布模型;
对为所述计数数值特征的数值特征采用泊松分布建立第二概率分布模型;
对为所述二项数值特征的数值特征采用二项分布建立第三概率分布模型;
对为所述离散数值特征的数值特征采用多项分布建立第四概率分布模型。
6.根据权利要求5所述的工作票的违章风险预警方法,其特征在于,所述基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型的步骤,包括:
根据极大似然估计法分别估计所述第一概率分布模型、所述第二概率分布模型、所述第三概率分布模型和所述第四概率分布模型的参数;
将估计参数后的所述第一概率分布模型、所述第二概率分布模型、所述第三概率分布模型和所述第四概率分布模型进行整合,获得目标概率分布模型。
7.根据权利要求6所述的工作票的违章风险预警方法,其特征在于,所述根据所述目标概率分布模型确定任一所述工作票的违章发生率的步骤,包括:
为第一工作票的每个特征分配权重系数;
根据所述目标概率分布模型确定所述第一工作票的每个特征的违章概率;
将所述第一工作票的每个特征的所述权重系数和所述违章概率进行加权平均,获得所述第一工作票的违章发生率。
8.一种工作票的违章风险预警***,其特征在于,包括:
响应模块,用于响应于接收到的评估请求信息,确定所述评估请求信息对应的工作票;
文本数据提取模块,用于根据正确工作票样本和违章工作票样本建立工作票样本数据集,提取所述工作票样本数据集的文本数据;
特征转换模块,用于将所述文本数据转换为数值特征矩阵;
概率分布模块,用于基于所述数值特征矩阵的数值特征类型,采用不同的分布模型为所述数值特征矩阵中不同数值特征类型的数值特征确定合适的概率分布模型;
目标概率分布模型模块,用于基于不同概率分布模型的概率函数,采用极大似然估计法估计每个概率分布模型的参数,获得目标概率分布模型;
风险预警模块,用于根据所述目标概率分布模型确定任一所述工作票的违章发生率。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的工作票的违章风险预警方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-7任一项所述的工作票的违章风险预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385723.3A CN117273463A (zh) | 2023-10-24 | 2023-10-24 | 一种工作票的违章风险预警方法、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385723.3A CN117273463A (zh) | 2023-10-24 | 2023-10-24 | 一种工作票的违章风险预警方法、***、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117273463A true CN117273463A (zh) | 2023-12-22 |
Family
ID=89215983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311385723.3A Pending CN117273463A (zh) | 2023-10-24 | 2023-10-24 | 一种工作票的违章风险预警方法、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273463A (zh) |
-
2023
- 2023-10-24 CN CN202311385723.3A patent/CN117273463A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN109582833B (zh) | 异常文本检测方法及装置 | |
CN113191509A (zh) | 基于维修人员画像的智能派单方法、设备、介质及产品 | |
CN113095076A (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
CN110263326B (zh) | 一种用户行为预测方法、预测装置、存储介质及终端设备 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN113688923B (zh) | 订单异常智能检测方法、装置、电子设备及存储介质 | |
CN109145030B (zh) | 一种异常数据访问的检测方法和装置 | |
CN111144548A (zh) | 抽油机井工况的识别方法及装置 | |
CN115577701B (zh) | 针对大数据安全的风险行为识别方法、装置、设备及介质 | |
CN112765003B (zh) | 一种基于app行为日志的风险预测方法 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN113628043B (zh) | 基于数据分类的投诉有效性判断方法、装置、设备及介质 | |
CN116402630A (zh) | 一种基于表征学习的财务风险预测方法及*** | |
CN114187125A (zh) | 理赔案件分流方法、装置、设备及存储介质 | |
CN111507483A (zh) | 返修板检测装置、方法及计算机可读存储介质 | |
CN110457349B (zh) | 信息流出的监控方法及监控装置 | |
CN117273463A (zh) | 一种工作票的违章风险预警方法、***、设备及介质 | |
CN115018613A (zh) | 报告分析方法、装置、设备、存储介质及产品 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN113469237B (zh) | 用户意图识别方法、装置、电子设备及存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113177603B (zh) | 分类模型的训练方法、视频分类方法及相关设备 | |
CN114936139A (zh) | 数据中心网络内的日志处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |