CN113657726B

CN113657726B - 基于随机森林的人员的危险性分析方法

Info

Publication number: CN113657726B
Application number: CN202110865209.4A
Authority: CN
Inventors: 许金礼; 廖淑珍; 陆宇升; 陶炜; 朱晓东; 吕思霖
Original assignee: Guangxi Youdi Information Technology Co ltd
Current assignee: Guangxi Youdi Information Technology Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-10-31
Anticipated expiration: 2041-07-29
Also published as: CN113657726A

Abstract

本发明公开一种基于随机森林的人员的危险性分析方法，本发明涉及机器学***均水平的倍数SPYD，很直观评估出相对危险性大小。本发明评估方法训练数据中不包含人的主观判断或者量表测试结果，模型质量更高，同时也降低数据标注成本，加快模型更新速度，使得模型能够更快速更低成本地适应环境变化。

Description

基于随机森林的人员的危险性分析方法

技术领域

本发明涉及机器学习领域，尤其涉及一种基于随机森林的人员的危险性分析方法。

背景技术

目前人员危险性评估主要有三种：一是经验型评估，由于受当时的条件限制，危险性评估的方式主要依据评估者对改造表现的直观感觉来界定，这类方法依赖评估者主观判断，总体准确率不高，而且评估过程中的关键是依靠评估者的素质，对于同一名待评价人员，不同评估者的结论可能差别较大；二是量表型评估，实现评估过程标准化和规范化，评估准确率不再依赖评估者的主观判断，但成熟有效的量表编制耗时非常长，多数量表在使用中不能随着社会环境、地理区域、人文风俗、成因等变化而区别对待；第三种是基于机器学习数据驱动的危险性评估方法，依靠多年积累的多维度数据，使用机器学习算法训练分类模型，再通过训练好的模型对待评价人员进行分类。

基于机器学习的危险性评估方法目前总体上仍然处于探索阶段，但是在实际操作过程中，普遍存在操作难度较大、评估信度效度较低的问题。现有的方法均基于经验，多采用分类的形式，即把待评价人员分为危险和非危险两类，或者分为高危、中危、低危等少数几个类别，缺乏量化的危险程度指标，无法精确区分一个类别中不同待评价人员危险程度的不同；其次，训练数据集的标注方法依赖于主观判断或者量表测试结果，不仅标注成本高昂，如前所述主观判断和量表测试都存在较大误差，导致训练数据集精确度也不高，有误差的训练数据训练出的模型必然精确度不高。有的方法虽然可以得到定量的危险程度指标，但难以解释其数值的含义，使用者难以理解和把握，无法快速灵活改变参数，难以适应新技术发展、信息***和相关制度变化带来的环境变化。

因此，现需研究一种容易理解和把握、且适应性高、灵活度高的人员危险性分析方法。

发明内容

为解决上述技术问题，本发明提供一种基于随机森林的人员的危险性分析方法，建立的评估方法训练数据中不包含人的主观判断或者量表测试结果，模型质量更高，同时也降低数据标注成本，加快模型更新速度，使得模型能够更快速更低成本地适应环境变化。

为实现上述目的，本发明提供如下技术方案：

一种基于随机森林的人员的危险性分析方法，包含目标函数和特征的选择、训练模型和评估过程；其中，

(1)目标类别选择：

在人员多维度数据中选择一个维度YD作为目标类别，所述YD与危险程度有关，

设置危险程度指标PYD，PYD指标值含义为被评估人员YD维度取值为1的概率值；

(2)训练过程：

a、建立初始数据集PreTrainSet，PreTrainSet数据集是一个样本集合，每个样本对应多维度人员数据中一个人员的数据；

b、训练随机森林分类模型RFM，使用PreTrainSet数据集训练随机森林分类模型RFM；

或，在PreTrainSet数据集基础上，通过采样或SMOTE算法构造训练数据集TrainSet，使用TrainSet数据集训练随机森林分类模型RFM；

c、计算RFM中每个决策树的每个叶子节点的参数LNPY

所述RFM中包含k个决策树t1,t2,t3,...tk；将RFM中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中；

使用RFM对人员特征向量f进行回归，建立长度和lnodes相同的数组LNPY，计算命中叶子节点的所有PreTrainSet或TrainSet样本中label等于1的样本所占比例GPYD；

d、保存RFM、GPYD和LNPY；

(3)评估过程：

a、从存储介质加载训练过程得到的RFM、GPYD和LNPY；

b、用随机森林分类算法根据模型RFM对被评估人员进行分类，获得命中的RFM叶子节点，被评估人员将来被列为重点的概率计算PYD；

c、计算SPYD＝PYD/GPYD；

d、PYD和SPYD，作为被评价人员的危险程度量化指标；

SPYD含义为被评估人员的危险性是平均水平的倍数；

当SPYD＞1，表示被评估人员比多数人更危险；

SPYD＜1，表示被评估人员比多数人更安全。

进一步地，所述步骤(1)目标类别选择中，YD是二值的，YD的值为1或0，其中1表示有危险倾向大的类别、0表示危险倾向小的类别，对应是、否两个类别。

进一步地，所述步骤(1)目标类别选择中，YD选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级。

进一步地，所述分管等级需预处理为多个二值的维度，首先将分管等级设置为严管、普管、宽管级别，每一级别拆分为是否严管、是否普管、是否宽管，即可选择其一作为目标类别YD。

进一步地，所述步骤(2)训练过程a中所述每个样本有两个列：label和features；YD的值为label，从多维度人员数据中提取和危险性有关的数据，构造features向量；PreTrainSet数据集中，label等于1的样本比例为全部历史数据中YD等于1的记录比例。

进一步地，所述步骤(2)训练过程b中所述TrainSet数据集中，label等于1的样本比例大于全部历史数据中YD等于1的记录比例。

进一步地，所述步骤(2)训练过程c中使用RFM对人员特征向量f进行回归，得到向量f在k个决策树中命中的叶子节点下标元组lnis＝(ln₁,ln₂,...ln_k)，其中ln_i为向量f在第i个决策树中命中的叶子节点在lnodes中的下标。

进一步地，所述步骤(2)训练过程c中GPYD，计算方法如下：

a、建立长度为叶子节点总数的三个数组LNPY、LNN和LNN1，所有元素均初始化为0，LNN表示命中叶子节点的样本总数，LNN1表示命中叶子节点并且label等于1的样本总数；LNPY中第i个元素LNPY_i的值是命中第i个叶子节点的样本中label等于1的样本所占比例；

b、枚举PreTrainSet中每一个样本x，用随机森林分类算法根据模型RFM预测x的分类，忽略预测结果，取得中间结果lnis＝(ln₁,ln₂,...ln_k)，对于每个lni，其中i＝1-k，LNN[ln_i]＝LNN[ln_i]+1，如果x.label等于1，则LNN1[ln_i]＝LNN1[ln_i]+1；

c、计算LNPY的每个元素的值，LNPY[i]＝LNN1[ln_i]/LNN[ln_i]，其中i＝1-m，m是RFM中叶子节点总数；

d、计算PreTrainSet中label等于1的样本比例GPYD，GPYD＝SN1/SN，SN1为PreTrainSet中label等于1样本总数，SN为PreTrainSet样本总数。

进一步地，所述(3)评估过程中b使用上述PreTrainSet或TrainSet数据集样本features列相同的方法，提取被评价人员的特征向量f，用随机森林回归算法根据模型RFM预测f的分类，忽略预测结果，取中间结果lnis＝(ln₁,ln₂,...ln_k)；计算LNPY[ln_i]的平均值作为待评价人员的危险程度量化指标，被评估人员将来被列为重点的概率PYD。

进一步地，所述PYD的公式计算：

其中i＝1-k。

本发明具有以下有益效果：

1.本发明使用信息***数据库特定字段值自动标注训练数据，定义易于使用者理解的人员危险程度的量化指标，使用随机森林分类算法进行训练和预测，但不使用预测得到的分类，而是根据预测中间结果计算并输出被评估人员的量化的危险系数，使得评估人员能够直观和准确地把握被评估人员的危险程度；本发明评估只需要从信息***数据库中提取数据，无需加入额外的专家主观判断，简单易于操作，准确率高，输出指标易于理解和把握。

2.本发明建立完全基于数据进行危险性分析，提供连续量化的危险性程度指标，比起传统分析方法中仅具备的危险、不危险两个等级，或者少数几个危险程度等级，本发明能够提供关于被评估人员危险性更细致的描述，且连续量化的危险性程度指标有明确的含义，而且容易理解和把握；不一刀切，灵活性高，可以适应各地域不同的制度、不同的技术设备带来的巨大差异，易于推广，适应性强，当制度变化，技术进步导致数据发生巨大变化之后，可以通过重新训练模型的方式快速适应变化。

3.本发明训练数据中不包含人的主观判断或者量表测试结果，模型质量更高，同时也降低数据标注成本，加快模型更新速度，使得模型能够更快速更低成本地适应环境变化；且评估过程简单成本低，易于操作，评估结果易于理解，精确度更高。

附图说明

图1为本发明的训练过程的流程图。

图2为本发明的评估过程的流程图。

具体实施方式

下面通过实施例对本发明作进一步说明，但不作为是对本发明的限制。

实施例1

基于随机森林的人员的危险性分析方法，包含目标函数和特征的选择、训练模型和评估过程；其中，

(1)目标类别选择：

在人员多维度数据中选择一个维度YD作为目标类别，所述YD与危险程度有关，YD是二值的，YD的值为1或0，其中1表示有危险倾向大的类别、0表示危险倾向小的类别，对应是、否两个类别；

YD选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级；

所述分管等级需预处理为多个二值的维度，首先将分管等级设置为严管、普管、宽管级别，每一级别拆分为是否严管、是否普管、是否宽管，即可选择其一作为目标类别YD；

(2)训练过程：(图1为本发明的训练过程的流程图)

a、建立初始数据集PreTrainSet，PreTrainSet数据集是一个样本集合，每个样本对应多维度人员数据中一个人员的数据；每个样本有两个列：label和features；YD的值为label，从多维度人员数据中提取和危险性有关的数据，构造features向量；PreTrainSet数据集中，label等于1的样本比例为全部历史数据中YD等于1的记录比例；

或，在PreTrainSet数据集基础上，通过采样或SMOTE算法构造训练数据集TrainSet，使用TrainSet数据集训练随机森林分类模型RFM；所述TrainSet数据集中，label等于1的样本比例大于全部历史数据中YD等于1的记录比例；

c、计算RFM中每个决策树的每个叶子节点的参数LNPY

使用RFM对人员特征向量f进行回归，得到向量f在k个决策树中命中的叶子节点下标元组lnis＝(ln₁,ln₂,...ln_k)，其中ln_i为向量f在第i个决策树中命中的叶子节点在lnodes中的下标；建立长度和lnodes相同的数组LNPY，计算命中叶子节点的所有PreTrainSet或TrainSet样本中label等于1的样本所占比例GPYD；

计算方法如下：

d、计算PreTrainSet中label等于1的样本比例GPYD，GPYD＝SN1/SN，SN1为PreTrainSet中label等于1样本总数，SN为PreTrainSet样本总数；

d、保存RFM、GPYD和LNPY；

(3)评估过程：(图2为本发明的评估过程的流程图)

a、从存储介质加载训练过程得到的RFM、GPYD和LNPY；

b、使用上述PreTrainSet或TrainSet数据集样本features列相同的方法，提取被评价人员的特征向量f，用随机森林回归算法根据模型RFM预测f的分类，忽略预测结果，取中间结果lnis＝(ln₁,ln₂,...ln_k)；计算LNPY[ln_i]的平均值作为待评价人员的危险程度量化指标，被评估人员将来被列为重点的概率PYD；其中i＝1-k；

c、计算SPYD＝PYD/GPYD；

d、PYD和SPYD，作为被评价人员的危险程度量化指标；

SPYD含义为被评估人员的危险性是平均水平的倍数，

当SPYD＞1，表示被评估人员比多数人更危险；

SPYD＜1，表示被评估人员比多数人更安全。

实施例2

本发明按照实施例1方法，在两个单位中(后面称为单位A和单位B)中实施，使用单位A自2016-09-01以来人员数据经数据清洗、剔除错误和质量差的数据之后，构造初始数据集PreTrainSet,包含4113个样本；使用“是否被列为重点”作为YD，应用本发明方法训练人员危险性评估模型，然后使用训练得到的模型对单位B已经录入完整数据的2312名人员进行危险性评估，计算被评估人员的危险性是平均水平的倍数SPYD。对得到的SPYD进行排序后，取SPYD最大值和最小值各20名人员，由专家进行主观人工评定其危险性，结果如下：

	专家判定危险人数	专家判定不危险人数	危险人数占比例
				SPYD最大值20人	19	1	95％
SPYD最小值20人	2	18	10％

可见本发明的评估结果和专家主观判断基本符合，可由计算机自动完成评估，可节省大量时间和成本。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于随机森林的人员的危险性分析方法，其特征在于，包含目标类别选择、训练过程和评估过程；其中，

（1）目标类别选择：

所述YD选择是否被列为重点人员、是否被使用警器械、是否被使用约束性保护措施或分管等级；所述分管等级需预处理为多个二值的维度，首先将分管等级设置为严管、普管、宽管级别，每一级别拆分为是否严管、是否普管、是否宽管，即可选择其一作为目标类别YD；

（2）训练过程：

b、训练随机森林分类模型RFM，在PreTrainSet数据集基础上，通过采样或SMOTE算法构造训练数据集TrainSet，使用TrainSet数据集训练随机森林分类模型RFM；

c、计算RFM中每个决策树的每个叶子节点的参数LNPY

所述GPYD，计算方法如下：

(a)、建立长度为叶子节点总数的三个数组LNPY、LNN和LNN1，所有元素均初始化为0，LNN表示命中叶子节点的样本总数，LNN1表示命中叶子节点并且label等于1的样本总数；LNPY中第i个元素LNPY_i的值是命中第i个叶子节点的样本中label等于1的样本所占比例；

(b)、枚举PreTrainSet中每一个样本x，用随机森林分类算法根据模型RFM预测x的分类，忽略预测结果，取得中间结果lnis=(ln₁,ln₂,...ln_k)，对于每个lni，其中i=1-k，LNN[ln_i]=LNN[ln_i]+1，如果x.label等于1，则LNN1[ln_i]=LNN1[ln_i]+1；

(c)、计算LNPY的每个元素的值，LNPY[i]=LNN1[ln_i]/LNN[ln_i]，其中i=1-m，m是RFM中叶子节点总数；

(d)、计算PreTrainSet中label等于1的样本比例GPYD，GPYD=SN1/SN，SN1为PreTrainSet中label等于1样本总数，SN为PreTrainSet样本总数；

d、保存RFM、GPYD和LNPY；

（3）评估过程：

A、从存储介质加载训练过程得到的RFM、GPYD和LNPY；

B、用随机森林分类算法根据模型RFM对被评估人员进行分类，获得命中的RFM叶子节点，被评估人员将来被列为重点人员的概率计算PYD；

使用上述PreTrainSet或TrainSet数据集样本features列相同的方法，提取被评价人员的特征向量f，用随机森林回归算法根据模型RFM预测f的分类，忽略预测结果，取中间结果lnis=(ln₁,ln₂,...ln_k)；计算LNPY[ln_i]的平均值作为待评价人员的危险程度量化指标，被评估人员将来被列为重点人员的概率PYD；

C、计算SPYD=PYD/GPYD；

D、PYD和SPYD，作为被评价人员的危险程度量化指标；

SPYD含义为被评估人员的危险性是平均水平的倍数；

当SPYD＞1，表示被评估人员比多数人更危险；

SPYD＜1，表示被评估人员比多数人更安全；

所述PYD的公式计算：

，其中i=1-k。

2.根据权利要求1所述基于随机森林的人员的危险性分析方法，其特征在于，所述步骤（1）目标类别选择中，YD是二值的，YD的值为1或0，其中1表示有危险倾向大的类别、0表示危险倾向小的类别，对应是、否两个类别。

3.根据权利要求1所述基于随机森林的人员的危险性分析方法，其特征在于，所述步骤（2）训练过程a中所述每个样本有两个列：label和features； YD的值为label，从多维度人员数据中提取和危险性有关的数据，构造features向量；PreTrainSet数据集中，label等于1的样本比例为全部历史数据中YD等于1的记录比例。

4.根据权利要求1所述基于随机森林的人员的危险性分析方法，其特征在于，所述步骤（2）训练过程b中所述TrainSet数据集中，label等于1的样本比例大于全部历史数据中YD等于1的记录比例。

5.根据权利要求1所述基于随机森林的人员的危险性分析方法，其特征在于，所述步骤（2）训练过程c中使用RFM对人员特征向量f进行回归，得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln₁,ln₂,...ln_k)，其中ln_i为向量f在第i个决策树中命中的叶子节点在lnodes中的下标。