CN113657726B - 基于随机森林的人员的危险性分析方法 - Google Patents
基于随机森林的人员的危险性分析方法 Download PDFInfo
- Publication number
- CN113657726B CN113657726B CN202110865209.4A CN202110865209A CN113657726B CN 113657726 B CN113657726 B CN 113657726B CN 202110865209 A CN202110865209 A CN 202110865209A CN 113657726 B CN113657726 B CN 113657726B
- Authority
- CN
- China
- Prior art keywords
- personnel
- rfm
- risk
- evaluated
- pretrainset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 29
- 238000012502 risk assessment Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000012854 evaluation process Methods 0.000 claims abstract description 6
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 abstract description 5
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于随机森林的人员的危险性分析方法,本发明涉及机器学***均水平的倍数SPYD,很直观评估出相对危险性大小。本发明评估方法训练数据中不包含人的主观判断或者量表测试结果,模型质量更高,同时也降低数据标注成本,加快模型更新速度,使得模型能够更快速更低成本地适应环境变化。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于随机森林的人员的危险性分析方法。
背景技术
目前人员危险性评估主要有三种:一是经验型评估,由于受当时的条件限制,危险性评估的方式主要依据评估者对改造表现的直观感觉来界定,这类方法依赖评估者主观判断,总体准确率不高,而且评估过程中的关键是依靠评估者的素质,对于同一名待评价人员,不同评估者的结论可能差别较大;二是量表型评估,实现评估过程标准化和规范化,评估准确率不再依赖评估者的主观判断,但成熟有效的量表编制耗时非常长,多数量表在使用中不能随着社会环境、地理区域、人文风俗、成因等变化而区别对待;第三种是基于机器学习数据驱动的危险性评估方法,依靠多年积累的多维度数据,使用机器学习算法训练分类模型,再通过训练好的模型对待评价人员进行分类。
基于机器学习的危险性评估方法目前总体上仍然处于探索阶段,但是在实际操作过程中,普遍存在操作难度较大、评估信度效度较低的问题。现有的方法均基于经验,多采用分类的形式,即把待评价人员分为危险和非危险两类,或者分为高危、中危、低危等少数几个类别,缺乏量化的危险程度指标,无法精确区分一个类别中不同待评价人员危险程度的不同;其次,训练数据集的标注方法依赖于主观判断或者量表测试结果,不仅标注成本高昂,如前所述主观判断和量表测试都存在较大误差,导致训练数据集精确度也不高,有误差的训练数据训练出的模型必然精确度不高。有的方法虽然可以得到定量的危险程度指标,但难以解释其数值的含义,使用者难以理解和把握,无法快速灵活改变参数,难以适应新技术发展、信息***和相关制度变化带来的环境变化。
因此,现需研究一种容易理解和把握、且适应性高、灵活度高的人员危险性分析方法。
发明内容
为解决上述技术问题,本发明提供一种基于随机森林的人员的危险性分析方法,建立的评估方法训练数据中不包含人的主观判断或者量表测试结果,模型质量更高,同时也降低数据标注成本,加快模型更新速度,使得模型能够更快速更低成本地适应环境变化。
为实现上述目的,本发明提供如下技术方案:
一种基于随机森林的人员的危险性分析方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
(1)目标类别选择:
在人员多维度数据中选择一个维度YD作为目标类别,所述YD与危险程度有关,
设置危险程度指标PYD,PYD指标值含义为被评估人员YD维度取值为1的概率值;
(2)训练过程:
a、建立初始数据集PreTrainSet,PreTrainSet数据集是一个样本集合,每个样本对应多维度人员数据中一个人员的数据;
b、训练随机森林分类模型RFM,使用PreTrainSet数据集训练随机森林分类模型RFM;
或,在PreTrainSet数据集基础上,通过采样或SMOTE算法构造训练数据集TrainSet,使用TrainSet数据集训练随机森林分类模型RFM;
c、计算RFM中每个决策树的每个叶子节点的参数LNPY
所述RFM中包含k个决策树t1,t2,t3,...tk;将RFM中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中;
使用RFM对人员特征向量f进行回归,建立长度和lnodes相同的数组LNPY,计算命中叶子节点的所有PreTrainSet或TrainSet样本中label等于1的样本所占比例GPYD;
d、保存RFM、GPYD和LNPY;
(3)评估过程:
a、从存储介质加载训练过程得到的RFM、GPYD和LNPY;
b、用随机森林分类算法根据模型RFM对被评估人员进行分类,获得命中的RFM叶子节点,被评估人员将来被列为重点的概率计算PYD;
c、计算SPYD=PYD/GPYD;
d、PYD和SPYD,作为被评价人员的危险程度量化指标;
SPYD含义为被评估人员的危险性是平均水平的倍数;
当SPYD>1,表示被评估人员比多数人更危险;
SPYD<1,表示被评估人员比多数人更安全。
进一步地,所述步骤(1)目标类别选择中,YD是二值的,YD的值为1或0,其中1表示有危险倾向大的类别、0表示危险倾向小的类别,对应是、否两个类别。
进一步地,所述步骤(1)目标类别选择中,YD选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级。
进一步地,所述分管等级需预处理为多个二值的维度,首先将分管等级设置为严管、普管、宽管级别,每一级别拆分为是否严管、是否普管、是否宽管,即可选择其一作为目标类别YD。
进一步地,所述步骤(2)训练过程a中所述每个样本有两个列:label和features;YD的值为label,从多维度人员数据中提取和危险性有关的数据,构造features向量;PreTrainSet数据集中,label等于1的样本比例为全部历史数据中YD等于1的记录比例。
进一步地,所述步骤(2)训练过程b中所述TrainSet数据集中,label等于1的样本比例大于全部历史数据中YD等于1的记录比例。
进一步地,所述步骤(2)训练过程c中使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标。
进一步地,所述步骤(2)训练过程c中GPYD,计算方法如下:
a、建立长度为叶子节点总数的三个数组LNPY、LNN和LNN1,所有元素均初始化为0,LNN表示命中叶子节点的样本总数,LNN1表示命中叶子节点并且label等于1的样本总数;LNPY中第i个元素LNPYi的值是命中第i个叶子节点的样本中label等于1的样本所占比例;
b、枚举PreTrainSet中每一个样本x,用随机森林分类算法根据模型RFM预测x的分类,忽略预测结果,取得中间结果lnis=(ln1,ln2,...lnk),对于每个lni,其中i=1-k,LNN[lni]=LNN[lni]+1,如果x.label等于1,则LNN1[lni]=LNN1[lni]+1;
c、计算LNPY的每个元素的值,LNPY[i]=LNN1[lni]/LNN[lni],其中i=1-m,m是RFM中叶子节点总数;
d、计算PreTrainSet中label等于1的样本比例GPYD,GPYD=SN1/SN,SN1为PreTrainSet中label等于1样本总数,SN为PreTrainSet样本总数。
进一步地,所述(3)评估过程中b使用上述PreTrainSet或TrainSet数据集样本features列相同的方法,提取被评价人员的特征向量f,用随机森林回归算法根据模型RFM预测f的分类,忽略预测结果,取中间结果lnis=(ln1,ln2,...lnk);计算LNPY[lni]的平均值作为待评价人员的危险程度量化指标,被评估人员将来被列为重点的概率PYD。
进一步地,所述PYD的公式计算:
其中i=1-k。
本发明具有以下有益效果:
1.本发明使用信息***数据库特定字段值自动标注训练数据,定义易于使用者理解的人员危险程度的量化指标,使用随机森林分类算法进行训练和预测,但不使用预测得到的分类,而是根据预测中间结果计算并输出被评估人员的量化的危险系数,使得评估人员能够直观和准确地把握被评估人员的危险程度;本发明评估只需要从信息***数据库中提取数据,无需加入额外的专家主观判断,简单易于操作,准确率高,输出指标易于理解和把握。
2.本发明建立完全基于数据进行危险性分析,提供连续量化的危险性程度指标,比起传统分析方法中仅具备的危险、不危险两个等级,或者少数几个危险程度等级,本发明能够提供关于被评估人员危险性更细致的描述,且连续量化的危险性程度指标有明确的含义,而且容易理解和把握;不一刀切,灵活性高,可以适应各地域不同的制度、不同的技术设备带来的巨大差异,易于推广,适应性强,当制度变化,技术进步导致数据发生巨大变化之后,可以通过重新训练模型的方式快速适应变化。
3.本发明训练数据中不包含人的主观判断或者量表测试结果,模型质量更高,同时也降低数据标注成本,加快模型更新速度,使得模型能够更快速更低成本地适应环境变化;且评估过程简单成本低,易于操作,评估结果易于理解,精确度更高。
附图说明
图1为本发明的训练过程的流程图。
图2为本发明的评估过程的流程图。
具体实施方式
下面通过实施例对本发明作进一步说明,但不作为是对本发明的限制。
实施例1
基于随机森林的人员的危险性分析方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
(1)目标类别选择:
在人员多维度数据中选择一个维度YD作为目标类别,所述YD与危险程度有关,YD是二值的,YD的值为1或0,其中1表示有危险倾向大的类别、0表示危险倾向小的类别,对应是、否两个类别;
YD选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级;
所述分管等级需预处理为多个二值的维度,首先将分管等级设置为严管、普管、宽管级别,每一级别拆分为是否严管、是否普管、是否宽管,即可选择其一作为目标类别YD;
设置危险程度指标PYD,PYD指标值含义为被评估人员YD维度取值为1的概率值;
(2)训练过程:(图1为本发明的训练过程的流程图)
a、建立初始数据集PreTrainSet,PreTrainSet数据集是一个样本集合,每个样本对应多维度人员数据中一个人员的数据;每个样本有两个列:label和features;YD的值为label,从多维度人员数据中提取和危险性有关的数据,构造features向量;PreTrainSet数据集中,label等于1的样本比例为全部历史数据中YD等于1的记录比例;
b、训练随机森林分类模型RFM,使用PreTrainSet数据集训练随机森林分类模型RFM;
或,在PreTrainSet数据集基础上,通过采样或SMOTE算法构造训练数据集TrainSet,使用TrainSet数据集训练随机森林分类模型RFM;所述TrainSet数据集中,label等于1的样本比例大于全部历史数据中YD等于1的记录比例;
c、计算RFM中每个决策树的每个叶子节点的参数LNPY
所述RFM中包含k个决策树t1,t2,t3,...tk;将RFM中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中;
使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标;建立长度和lnodes相同的数组LNPY,计算命中叶子节点的所有PreTrainSet或TrainSet样本中label等于1的样本所占比例GPYD;
计算方法如下:
a、建立长度为叶子节点总数的三个数组LNPY、LNN和LNN1,所有元素均初始化为0,LNN表示命中叶子节点的样本总数,LNN1表示命中叶子节点并且label等于1的样本总数;LNPY中第i个元素LNPYi的值是命中第i个叶子节点的样本中label等于1的样本所占比例;
b、枚举PreTrainSet中每一个样本x,用随机森林分类算法根据模型RFM预测x的分类,忽略预测结果,取得中间结果lnis=(ln1,ln2,...lnk),对于每个lni,其中i=1-k,LNN[lni]=LNN[lni]+1,如果x.label等于1,则LNN1[lni]=LNN1[lni]+1;
c、计算LNPY的每个元素的值,LNPY[i]=LNN1[lni]/LNN[lni],其中i=1-m,m是RFM中叶子节点总数;
d、计算PreTrainSet中label等于1的样本比例GPYD,GPYD=SN1/SN,SN1为PreTrainSet中label等于1样本总数,SN为PreTrainSet样本总数;
d、保存RFM、GPYD和LNPY;
(3)评估过程:(图2为本发明的评估过程的流程图)
a、从存储介质加载训练过程得到的RFM、GPYD和LNPY;
b、使用上述PreTrainSet或TrainSet数据集样本features列相同的方法,提取被评价人员的特征向量f,用随机森林回归算法根据模型RFM预测f的分类,忽略预测结果,取中间结果lnis=(ln1,ln2,...lnk);计算LNPY[lni]的平均值作为待评价人员的危险程度量化指标,被评估人员将来被列为重点的概率PYD;其中i=1-k;
c、计算SPYD=PYD/GPYD;
d、PYD和SPYD,作为被评价人员的危险程度量化指标;
SPYD含义为被评估人员的危险性是平均水平的倍数,
当SPYD>1,表示被评估人员比多数人更危险;
SPYD<1,表示被评估人员比多数人更安全。
实施例2
本发明按照实施例1方法,在两个单位中(后面称为单位A和单位B)中实施,使用单位A自2016-09-01以来人员数据经数据清洗、剔除错误和质量差的数据之后,构造初始数据集PreTrainSet,包含4113个样本;使用“是否被列为重点”作为YD,应用本发明方法训练人员危险性评估模型,然后使用训练得到的模型对单位B已经录入完整数据的2312名人员进行危险性评估,计算被评估人员的危险性是平均水平的倍数SPYD。对得到的SPYD进行排序后,取SPYD最大值和最小值各20名人员,由专家进行主观人工评定其危险性,结果如下:
专家判定危险人数 | 专家判定不危险人数 | 危险人数占比例 | |
SPYD最大值20人 | 19 | 1 | 95% |
SPYD最小值20人 | 2 | 18 | 10% |
可见本发明的评估结果和专家主观判断基本符合,可由计算机自动完成评估,可节省大量时间和成本。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (5)
1.一种基于随机森林的人员的危险性分析方法,其特征在于,包含目标类别选择、训练过程和评估过程;其中,
(1)目标类别选择:
在人员多维度数据中选择一个维度YD作为目标类别,所述YD与危险程度有关,
设置危险程度指标PYD,PYD指标值含义为被评估人员YD维度取值为1的概率值;
所述YD选择是否被列为重点人员、是否被使用警器械、是否被使用约束性保护措施或分管等级;所述分管等级需预处理为多个二值的维度,首先将分管等级设置为严管、普管、宽管级别,每一级别拆分为是否严管、是否普管、是否宽管,即可选择其一作为目标类别YD;
(2)训练过程:
a、建立初始数据集PreTrainSet,PreTrainSet数据集是一个样本集合,每个样本对应多维度人员数据中一个人员的数据;
b、训练随机森林分类模型RFM,在PreTrainSet数据集基础上,通过采样或SMOTE算法构造训练数据集TrainSet,使用TrainSet数据集训练随机森林分类模型RFM;
c、计算RFM中每个决策树的每个叶子节点的参数LNPY
所述RFM中包含k个决策树t1,t2,t3,...tk;将RFM中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中;
使用RFM对人员特征向量f进行回归,建立长度和lnodes相同的数组LNPY,计算命中叶子节点的所有PreTrainSet或TrainSet样本中label等于1的样本所占比例GPYD;
所述GPYD,计算方法如下:
(a)、建立长度为叶子节点总数的三个数组LNPY、LNN和LNN1,所有元素均初始化为0,LNN表示命中叶子节点的样本总数,LNN1表示命中叶子节点并且label等于1的样本总数;LNPY中第i个元素LNPYi的值是命中第i个叶子节点的样本中label等于1的样本所占比例;
(b)、枚举PreTrainSet中每一个样本x,用随机森林分类算法根据模型RFM预测x的分类,忽略预测结果,取得中间结果lnis=(ln1,ln2,...lnk),对于每个lni,其中i=1-k,LNN[lni]=LNN[lni]+1,如果x.label等于1,则LNN1[lni]=LNN1[lni]+1;
(c)、计算LNPY的每个元素的值,LNPY[i]=LNN1[lni]/LNN[lni],其中i=1-m,m是RFM中叶子节点总数;
(d)、计算PreTrainSet中label等于1的样本比例GPYD,GPYD=SN1/SN,SN1为PreTrainSet中label等于1样本总数,SN为PreTrainSet样本总数;
d、保存RFM、GPYD和LNPY;
(3)评估过程:
A、从存储介质加载训练过程得到的RFM、GPYD和LNPY;
B、用随机森林分类算法根据模型RFM对被评估人员进行分类,获得命中的RFM叶子节点,被评估人员将来被列为重点人员的概率计算PYD;
使用上述PreTrainSet或TrainSet数据集样本features列相同的方法,提取被评价人员的特征向量f,用随机森林回归算法根据模型RFM预测f的分类,忽略预测结果,取中间结果lnis=(ln1,ln2,...lnk);计算LNPY[lni]的平均值作为待评价人员的危险程度量化指标,被评估人员将来被列为重点人员的概率PYD;
C、计算SPYD=PYD/GPYD;
D、PYD和SPYD,作为被评价人员的危险程度量化指标;
SPYD含义为被评估人员的危险性是平均水平的倍数;
当SPYD>1,表示被评估人员比多数人更危险;
SPYD<1,表示被评估人员比多数人更安全;
所述PYD的公式计算:
,其中i=1-k。
2.根据权利要求1所述基于随机森林的人员的危险性分析方法,其特征在于,所述步骤(1)目标类别选择中,YD是二值的,YD的值为1或0,其中1表示有危险倾向大的类别、0表示危险倾向小的类别,对应是、否两个类别。
3.根据权利要求1所述基于随机森林的人员的危险性分析方法,其特征在于,所述步骤(2)训练过程a中所述每个样本有两个列:label和features; YD的值为label,从多维度人员数据中提取和危险性有关的数据,构造features向量;PreTrainSet数据集中,label等于1的样本比例为全部历史数据中YD等于1的记录比例。
4.根据权利要求1所述基于随机森林的人员的危险性分析方法,其特征在于,所述步骤(2)训练过程b中所述TrainSet数据集中,label等于1的样本比例大于全部历史数据中YD等于1的记录比例。
5.根据权利要求1所述基于随机森林的人员的危险性分析方法,其特征在于,所述步骤(2)训练过程c中使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865209.4A CN113657726B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的人员的危险性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865209.4A CN113657726B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的人员的危险性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657726A CN113657726A (zh) | 2021-11-16 |
CN113657726B true CN113657726B (zh) | 2023-10-31 |
Family
ID=78490885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110865209.4A Active CN113657726B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的人员的危险性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657726B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311081B (zh) * | 2023-05-12 | 2023-08-22 | 天津医科大学 | 一种基于图像识别的医学实验室监控图像分析方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663503A (zh) * | 2012-04-05 | 2012-09-12 | 北京联海信息***有限公司 | 一种信息安全评估方法 |
CN107480839A (zh) * | 2017-10-13 | 2017-12-15 | 深圳市博安达信息技术股份有限公司 | 基于主成分分析和随机森林的高危污染源的分类预测方法 |
CN111582386A (zh) * | 2020-05-11 | 2020-08-25 | 四川师范大学 | 一种基于随机森林的地质灾害多灾种综合风险评价方法 |
CN111784486A (zh) * | 2020-06-12 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 业务风险预测模型的构建方法、装置和计算机设备 |
-
2021
- 2021-07-29 CN CN202110865209.4A patent/CN113657726B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663503A (zh) * | 2012-04-05 | 2012-09-12 | 北京联海信息***有限公司 | 一种信息安全评估方法 |
CN107480839A (zh) * | 2017-10-13 | 2017-12-15 | 深圳市博安达信息技术股份有限公司 | 基于主成分分析和随机森林的高危污染源的分类预测方法 |
CN111582386A (zh) * | 2020-05-11 | 2020-08-25 | 四川师范大学 | 一种基于随机森林的地质灾害多灾种综合风险评价方法 |
CN111784486A (zh) * | 2020-06-12 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 业务风险预测模型的构建方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113657726A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263846B (zh) | 基于故障数据深度挖掘及学习的故障诊断方法 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析*** | |
CN112966259B (zh) | 电力监控***运维行为安全威胁评估方法及设备 | |
CN108877880B (zh) | 基于病历文本的病人相似性度量装置及方法 | |
CN108363717B (zh) | 一种数据安全级别的识别检测方法及装置 | |
CN111754345A (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与*** | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN104239722A (zh) | 一种基于因素间相关关系识别的预测方法 | |
CN112926045A (zh) | 一种基于逻辑回归模型的群控设备识别方法 | |
CN113657726B (zh) | 基于随机森林的人员的危险性分析方法 | |
CN112541636A (zh) | 输电线路覆冰风险预警方法、装置、介质和电子设备 | |
CN115576981A (zh) | 一种基于有监督算法与无监督算法相结合的异常检测方法 | |
CN116010884A (zh) | 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法 | |
Gowtham Sethupathi et al. | Efficient rainfall prediction and analysis using machine learning techniques | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN116629716A (zh) | 一种智能交互***工效分析方法 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
CN116843074A (zh) | 一种基于cnn-lstm模型的台风灾害损失预测方法 | |
CN113393169B (zh) | 基于大数据技术的金融行业交易***性能指标分析方法 | |
CN114742599A (zh) | 一种基于自训练的用户价值分层方法、装置、存储介质及设备 | |
KR101629178B1 (ko) | 다중 특허지표를 이용한 기술 수명 주기 분석 장치 | |
CN115359857A (zh) | 一种基于cart模型和优化rvflnn模型预测pm2.5浓度的方法 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |