CN113869355B

CN113869355B - 一种基于XGBoost的人员危险性评估方法

Info

Publication number: CN113869355B
Application number: CN202110944243.0A
Authority: CN
Inventors: 施政; 金晓东; 张子权; 田振; 夏灵敏; 白雪峰
Original assignee: Hangzhou Hua Ting Technology Co ltd
Current assignee: Hangzhou Hua Ting Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-05-24
Anticipated expiration: 2041-08-17
Also published as: CN113869355A

Abstract

本发明公开了一种基于XGBoost的人员危险性评估方法，该发明通过行为采集上报模块采集和监控中目标人员的每日行为表现数据，结合数据加工模块对数据进行加工处理：数据加工模块具体包括数据信息融合、脏数据过滤、数据缺失填充、模型特征提取、特征标准化，通过数据分析后即得到可用于预测目标人员行为习惯的数据特征，结合XGBoost算法进行危险性行为预测，算法预测主要包括数据输入、并行化最优分割特征筛选，梯度提升优化，预测结果输出。本发明通过对目标人员近期行为数据进行分析，可以提前对管理人员进行预警，管理人员在预警后可以提前采取措施进行重点监控，防止危险行为发生。

Description

一种基于XGBoost的人员危险性评估方法

技术领域

本发明涉及计算机数据处理领域，具体涉及一种基于XGBoost的人员危险性评估方法。

背景技术

近年来，人们素质也在不断提高，但是总有个别人员有冲动性人格以及不思后果、法律及道德观念薄弱，容易造成危险性行为，考虑到有很大一部分的危险性行为是提前有预谋，有征兆的行为，因此目标人员的危险性行为进行预估非常有必要也具有意义，传统预估方法主要包括心理评估测试，日常谈话等，但此方法无法准确的反映目标人员后续的行为方式，因此需要设计一种员危险性评估方法来解决上述问题。

发明内容

本发明的目的在于提出一种基于XGBoost的人员危险性评估方法，预测目标人员在日常中的危险性。本发明主要是通过以下技术方案来实现的：

一种基于XGBoost的人员危险性评估方法，包括以下步骤：

步骤一、通过行为采集上报模块对目标人员日常行为数据进行上报；首先记录目标人员日常行为数据并将这些数据上报到数据存储模块进行存储记录，所述目标人员日常行为数据包括文本数据、语音数据、视频数据；所述目标人员日常行为数据具体内容包括：目标人员吃饭情况、劳动情况、和朋友相处情况、个人情绪；

步骤二、通过数据加工模块对各类数据进行融合加工；首先结合数据融合方式将各类不一致的数据源进行整合，包括但不局限于步骤一中采集上报的文本数据、语音数据、视频数据，通过数据加工模块提取上报内容中的各类特定信息转化成待加工处理的文本，利用文本分词技术对文本进行分割和语意提取；

步骤三、通过数据清洗模块对分割后的文本语意进行脏数据过滤，剔除毫无意义的语气助词以及语音重复度比较高的文本；

步骤四、对步骤三得到的文本进行特征转化，通过tfidf_i，j＝tf_i，j×idf_i，j计算特征文本重要性，TF-IDF值越大，表示该特征词对这个文本的重要性越大，TF表示某个关键词在整篇文章中出现的频率，IDF表示计算倒文本频率；

步骤五、将步骤四转化的文本特征进行二次处理，主要是对数据进行缺失填充，并对特征进行标准化，生成建模特征；

步骤六、对样本进行标注，基于上报的每天的目标人员日常行为数据，标注其后续的危险行为情况，作为样本分类标签；

步骤七、重复步骤一至步骤六，积累训练样本；

步骤八、XGBoost建模：基于步骤一至步骤六积累的训练样本，将训练样本分成训练集和测试集，首先基于基础的分类回归cart树模型，训练基础的模型结果，分类原理是首先采用基尼指数选择最优特征，同时决定该特征的最优二值切分点；分类过程中，假设有K个类，样本点属于第k个类的概率为Pk，则概率分布的基尼指数定义为基于基尼系数确定最优分割点，从而迭代完成第一棵分类树；

步骤九、基于步骤八完成的第一棵分类树，我们得到后续优化目标对优化目标通过梯度提升方式求取，从而获得模型最优参数；

步骤十、对于步骤九获取的模型最优参数进行固化，通过固化的模型最优参数对训练集和测试集进行回溯比较，并以此对步骤一至步骤六采集获取的样本进行预测；

步骤十一、通过XGBoost的人员危险性评估方法的输出包含了目标人员危险行为的概率以及对管理人员的措施建议；

步骤十二、模型输出措施建议包含了不同级别的目标人员限制建议以及监控建议。

本发明的有益效果是：

(1)准确性：人员危险预估方法需要对目标人员各类危险行为数据以及危险行为前的表现进行分析整理，通过历史行为数据以及目标人员当前的行为表现，预估其后续的危险行为概率并提出相应的措施建议；

(2)提前性：人员危险预估方法通过对目标人员近期行为数据进行分析，可以提前对管理人员进行预警，管理人员在预警后可以提前采取措施进行重点监控，防止危险行为发生；

(3)节省人力；人员危险预估方法的实施可以帮助管理人提前了解目标人员的后续危险行为概率，可以帮助管理人员提前进行预警并采取行为措施，从而避免了危险行为发生后的带来的更多的人力输出，同时预警前管理人员也可以将人力重点投入到其他管理方面，减少不必要的人力浪费。

附图说明

图1是本发明的行为采集上报模块的示意图；

图2是本发明数据加工模块的示意图；

图3是本发明的XGboost算法处理流程示意图。

具体实施方式

下面详细描述本发明的实施例，下面的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明给出了一种基于xgboost的人员危险性评估方法，主要具有如下几个步骤：

步骤一、如图1所示，搭建行为采集上报模块，行为采集上报模块将在可监控范围内的目标人员日常行为数据进行采集和上报，所述目标人员日常行为数据包括文本数据、语音数据、视频数据，上报后上传到数据存储模块进行数据存储，数据储存模块提供了用于原始数据查询的数据查询接口且支持数据清洗模块对数据进行提取和加工；

步骤二、如图2所示，通过数据清洗模块对各类数据进行融合加工，该步骤特点在于首先结合数据融合方式将各类不一致的数据源进行整合，包括但不局限于步骤1中采集上报的文本数据、语音数据、视频数据，通过数据加工模块提取上报内容中的各类特定信息转化成待加工处理的文本，利用文本分词技术对文本进行分割和语意提取。譬如“和朋友发生了口角，情绪十分低落”通过分词切割分成了“和/朋友/发生/了/口角/情绪/十分/低落”

步骤三、通过对分割后的文本语意进行脏数据过滤，剔除毫无意义的语气助词以及语音重复度比较高的文本,如“和/朋友/发生/了/口角/情绪/十分/低落”会剔除“了”、“和”。

步骤四、对文本数据进行特征转化，通过tfidf_i，j＝tf_i，j×idf_i，j计算特征文本重要性，TF-IDF值越大，表示该特征词对这个文本的重要性越大。计算通篇分词后文档词语出现频次，譬如“朋友”出现了5次，“口角”出现3次，idf倒文档数为idf＝log(总文档数/该词出现的文档数)，通过tf和idf即可计算文档特征值。

步骤五、将步骤四转化的文本特征进行二次处理，主要是对数据进行缺失填充，并对特征进行标准化，生成建模特征。

步骤六、对样本进行标注，基于上报的目标人员每天的数据，标注其后续的行凶情况，作为样本分类标签。譬如每个上报的目标人员都分配一个userid，基于这个客户当天的行为表现，记录其3天内是否发生危险行为，若发现则标签为1，未发生则为0。

步骤七、重复步骤一至步骤六，积累训练样本数据。

步骤八、XGBoost建模：基于步骤一至步骤六积累的训练样本，将训练样本分成训练集和测试集，首先基于基础的分类回归cart树模型，训练基础的模型结果，分类原理是首先采用基尼指数选择最优特征，同时决定该特征的最优二值切分点。分类过程中，有好坏两个类类，样本点属于第k个类的概率为Pk，则概率分布的基尼指数定义为基于基尼系数确定最优分割点，选完第一个分割点之后，分割点左右个特征都按照基尼的的计算逻辑分割从而迭代完成第一棵分类树。

步骤九、基于步骤八完成的第一棵树，我们得到后续优化目标对优化目标通过梯度提升方式求取，从而获得模型最优参数，基本思路是利用逻辑损失函数计算，然后用泰勒二阶展开求取二阶篇导数，最终得到优化结果。

步骤十、对于步骤九获取的模型最优参数进行固化，包括树的深度、数量、叶子结点个数、采样频率等，并以此预测目标人员的行凶概率。

步骤十一、通过XGBoost的人员危险性评估方法的输出包含了目标人员危险行为的概率以及对管理人员的措施建议。

步骤十二、模型输出措施建议包含了不同级别的目标人员限制建议以及监控建议。效果如表 1所示。

表1

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于XGBoost的人员危险性评估方法，其特征在于，包括以下步骤：

步骤一、通过行为采集上报模块对目标人员日常行为数据进行上报；首先记录目标人员日常行为数据并将这些数据上报到数据存储模块进行存储记录，所述目标人员日常行为数据包括文本数据、语音数据、视频数据；

步骤四、对步骤三得到的文本进行特征转化，通过tfidf_i，j＝tf_i，j×idf_i，j计算特征文本重要性，TF-IDF值越大，表示该特征词对这个文本的重要性越大，TF表示某个关键词在整篇文章中出现的频率，IDF表示计算倒文本频率，用于度量一个词的重要性；

步骤七、重复步骤一至步骤六，积累训练样本；

步骤八、XGBoost建模：基于步骤一至步骤六积累的训练样本，将训练样本分成训练集和测试集，首先基于基础的分类回归cart树模型，训练基础的模型结果，分类原理是首先采用基尼指数选择最优特征，同时决定该特征的最优切分点，分类过程中，假设有K个类，样本点属于第k个类的概率为Pk，则概率分布的基尼指数定义为基于基尼系数确定最优分割点，从而迭代完成第一棵分类树；

2.根据权利要求1所述的一种基于XGBoost的人员危险性评估方法，其特征在于，所述目标人员日常行为数据具体内容包括：目标人员吃饭情况、劳动情况、和朋友相处情况、个人情绪。