CN113869355B - 一种基于XGBoost的人员危险性评估方法 - Google Patents

一种基于XGBoost的人员危险性评估方法 Download PDF

Info

Publication number
CN113869355B
CN113869355B CN202110944243.0A CN202110944243A CN113869355B CN 113869355 B CN113869355 B CN 113869355B CN 202110944243 A CN202110944243 A CN 202110944243A CN 113869355 B CN113869355 B CN 113869355B
Authority
CN
China
Prior art keywords
data
text
personnel
behavior
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110944243.0A
Other languages
English (en)
Other versions
CN113869355A (zh
Inventor
施政
金晓东
张子权
田振
夏灵敏
白雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hua Ting Technology Co ltd
Original Assignee
Hangzhou Hua Ting Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hua Ting Technology Co ltd filed Critical Hangzhou Hua Ting Technology Co ltd
Priority to CN202110944243.0A priority Critical patent/CN113869355B/zh
Publication of CN113869355A publication Critical patent/CN113869355A/zh
Application granted granted Critical
Publication of CN113869355B publication Critical patent/CN113869355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于XGBoost的人员危险性评估方法,该发明通过行为采集上报模块采集和监控中目标人员的每日行为表现数据,结合数据加工模块对数据进行加工处理:数据加工模块具体包括数据信息融合、脏数据过滤、数据缺失填充、模型特征提取、特征标准化,通过数据分析后即得到可用于预测目标人员行为习惯的数据特征,结合XGBoost算法进行危险性行为预测,算法预测主要包括数据输入、并行化最优分割特征筛选,梯度提升优化,预测结果输出。本发明通过对目标人员近期行为数据进行分析,可以提前对管理人员进行预警,管理人员在预警后可以提前采取措施进行重点监控,防止危险行为发生。

Description

一种基于XGBoost的人员危险性评估方法
技术领域
本发明涉及计算机数据处理领域,具体涉及一种基于XGBoost的人员危险性评估方法。
背景技术
近年来,人们素质也在不断提高,但是总有个别人员有冲动性人格以及不思后果、法律及道德观念薄弱,容易造成危险性行为,考虑到有很大一部分的危险性行为是提前有预谋,有征兆的行为,因此目标人员的危险性行为进行预估非常有必要也具有意义,传统预估方法主要包括心理评估测试,日常谈话等,但此方法无法准确的反映目标人员后续的行为方式,因此需要设计一种员危险性评估方法来解决上述问题。
发明内容
本发明的目的在于提出一种基于XGBoost的人员危险性评估方法,预测目标人员在日常中的危险性。本发明主要是通过以下技术方案来实现的:
一种基于XGBoost的人员危险性评估方法,包括以下步骤:
步骤一、通过行为采集上报模块对目标人员日常行为数据进行上报;首先记录目标人员日常行为数据并将这些数据上报到数据存储模块进行存储记录,所述目标人员日常行为数据包括文本数据、语音数据、视频数据;所述目标人员日常行为数据具体内容包括:目标人员吃饭情况、劳动情况、和朋友相处情况、个人情绪;
步骤二、通过数据加工模块对各类数据进行融合加工;首先结合数据融合方式将各类不一致的数据源进行整合,包括但不局限于步骤一中采集上报的文本数据、语音数据、视频数据,通过数据加工模块提取上报内容中的各类特定信息转化成待加工处理的文本,利用文本分词技术对文本进行分割和语意提取;
步骤三、通过数据清洗模块对分割后的文本语意进行脏数据过滤,剔除毫无意义的语气助词以及语音重复度比较高的文本;
步骤四、对步骤三得到的文本进行特征转化,通过tfidfi,j=tfi,j×idfi,j计算特征文本重要性,TF-IDF值越大,表示该特征词对这个文本的重要性越大,TF表示某个关键词在整篇文章中出现的频率,IDF表示计算倒文本频率;
步骤五、将步骤四转化的文本特征进行二次处理,主要是对数据进行缺失填充,并对特征进行标准化,生成建模特征;
步骤六、对样本进行标注,基于上报的每天的目标人员日常行为数据,标注其后续的危险行为情况,作为样本分类标签;
步骤七、重复步骤一至步骤六,积累训练样本;
步骤八、XGBoost建模:基于步骤一至步骤六积累的训练样本,将训练样本分成训练集和测试集,首先基于基础的分类回归cart树模型,训练基础的模型结果,分类原理是首先采用基尼指数选择最优特征,同时决定该特征的最优二值切分点;分类过程中,假设有K个类,样本点属于第k个类的概率为Pk,则概率分布的基尼指数定义为基于基尼系数确定最优分割点,从而迭代完成第一棵分类树;
步骤九、基于步骤八完成的第一棵分类树,我们得到后续优化目标对优化目标通过梯度提升方式求取,从而获得模型最优参数;
步骤十、对于步骤九获取的模型最优参数进行固化,通过固化的模型最优参数对训练集和测试集进行回溯比较,并以此对步骤一至步骤六采集获取的样本进行预测;
步骤十一、通过XGBoost的人员危险性评估方法的输出包含了目标人员危险行为的概率以及对管理人员的措施建议;
步骤十二、模型输出措施建议包含了不同级别的目标人员限制建议以及监控建议。
本发明的有益效果是:
(1)准确性:人员危险预估方法需要对目标人员各类危险行为数据以及危险行为前的表现进行分析整理,通过历史行为数据以及目标人员当前的行为表现,预估其后续的危险行为概率并提出相应的措施建议;
(2)提前性:人员危险预估方法通过对目标人员近期行为数据进行分析,可以提前对管理人员进行预警,管理人员在预警后可以提前采取措施进行重点监控,防止危险行为发生;
(3)节省人力;人员危险预估方法的实施可以帮助管理人提前了解目标人员的后续危险行为概率,可以帮助管理人员提前进行预警并采取行为措施,从而避免了危险行为发生后的带来的更多的人力输出,同时预警前管理人员也可以将人力重点投入到其他管理方面,减少不必要的人力浪费。
附图说明
图1是本发明的行为采集上报模块的示意图;
图2是本发明数据加工模块的示意图;
图3是本发明的XGboost算法处理流程示意图。
具体实施方式
下面详细描述本发明的实施例,下面的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明给出了一种基于xgboost的人员危险性评估方法,主要具有如下几个步骤:
步骤一、如图1所示,搭建行为采集上报模块,行为采集上报模块将在可监控范围内的目标人员日常行为数据进行采集和上报,所述目标人员日常行为数据包括文本数据、语音数据、视频数据,上报后上传到数据存储模块进行数据存储,数据储存模块提供了用于原始数据查询的数据查询接口且支持数据清洗模块对数据进行提取和加工;
步骤二、如图2所示,通过数据清洗模块对各类数据进行融合加工,该步骤特点在于首先结合数据融合方式将各类不一致的数据源进行整合,包括但不局限于步骤1中采集上报的文本数据、语音数据、视频数据,通过数据加工模块提取上报内容中的各类特定信息转化成待加工处理的文本,利用文本分词技术对文本进行分割和语意提取。譬如“和朋友发生了口角,情绪十分低落”通过分词切割分成了“和/朋友/发生/了/口角/情绪/十分/低落”
步骤三、通过对分割后的文本语意进行脏数据过滤,剔除毫无意义的语气助词以及语音重复度比较高的文本,如“和/朋友/发生/了/口角/情绪/十分/低落”会剔除“了”、“和”。
步骤四、对文本数据进行特征转化,通过tfidfi,j=tfi,j×idfi,j计算特征文本重要性,TF-IDF值越大,表示该特征词对这个文本的重要性越大。计算通篇分词后文档词语出现频次,譬如“朋友”出现了5次,“口角”出现3次,idf倒文档数为idf=log(总文档数/该词出现的文档数),通过tf和idf即可计算文档特征值。
步骤五、将步骤四转化的文本特征进行二次处理,主要是对数据进行缺失填充,并对特征进行标准化,生成建模特征。
步骤六、对样本进行标注,基于上报的目标人员每天的数据,标注其后续的行凶情况,作为样本分类标签。譬如每个上报的目标人员都分配一个userid,基于这个客户当天的行为表现,记录其3天内是否发生危险行为,若发现则标签为1,未发生则为0。
步骤七、重复步骤一至步骤六,积累训练样本数据。
步骤八、XGBoost建模:基于步骤一至步骤六积累的训练样本,将训练样本分成训练集和测试集,首先基于基础的分类回归cart树模型,训练基础的模型结果,分类原理是首先采用基尼指数选择最优特征,同时决定该特征的最优二值切分点。分类过程中,有好坏两个类类,样本点属于第k个类的概率为Pk,则概率分布的基尼指数定义为基于基尼系数确定最优分割点,选完第一个分割点之后,分割点左右个特征都按照基尼的的计算逻辑分割从而迭代完成第一棵分类树。
步骤九、基于步骤八完成的第一棵树,我们得到后续优化目标对优化目标通过梯度提升方式求取,从而获得模型最优参数,基本思路是利用逻辑损失函数计算,然后用泰勒二阶展开求取二阶篇导数,最终得到优化结果。
步骤十、对于步骤九获取的模型最优参数进行固化,包括树的深度、数量、叶子结点个数、采样频率等,并以此预测目标人员的行凶概率。
步骤十一、通过XGBoost的人员危险性评估方法的输出包含了目标人员危险行为的概率以及对管理人员的措施建议。
步骤十二、模型输出措施建议包含了不同级别的目标人员限制建议以及监控建议。效果如表 1所示。
表1
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (2)

1.一种基于XGBoost的人员危险性评估方法,其特征在于,包括以下步骤:
步骤一、通过行为采集上报模块对目标人员日常行为数据进行上报;首先记录目标人员日常行为数据并将这些数据上报到数据存储模块进行存储记录,所述目标人员日常行为数据包括文本数据、语音数据、视频数据;
步骤二、通过数据加工模块对各类数据进行融合加工;首先结合数据融合方式将各类不一致的数据源进行整合,包括但不局限于步骤一中采集上报的文本数据、语音数据、视频数据,通过数据加工模块提取上报内容中的各类特定信息转化成待加工处理的文本,利用文本分词技术对文本进行分割和语意提取;
步骤三、通过数据清洗模块对分割后的文本语意进行脏数据过滤,剔除毫无意义的语气助词以及语音重复度比较高的文本;
步骤四、对步骤三得到的文本进行特征转化,通过tfidfi,j=tfi,j×idfi,j计算特征文本重要性,TF-IDF值越大,表示该特征词对这个文本的重要性越大,TF表示某个关键词在整篇文章中出现的频率,IDF表示计算倒文本频率,用于度量一个词的重要性;
步骤五、将步骤四转化的文本特征进行二次处理,主要是对数据进行缺失填充,并对特征进行标准化,生成建模特征;
步骤六、对样本进行标注,基于上报的每天的目标人员日常行为数据,标注其后续的危险行为情况,作为样本分类标签;
步骤七、重复步骤一至步骤六,积累训练样本;
步骤八、XGBoost建模:基于步骤一至步骤六积累的训练样本,将训练样本分成训练集和测试集,首先基于基础的分类回归cart树模型,训练基础的模型结果,分类原理是首先采用基尼指数选择最优特征,同时决定该特征的最优切分点,分类过程中,假设有K个类,样本点属于第k个类的概率为Pk,则概率分布的基尼指数定义为基于基尼系数确定最优分割点,从而迭代完成第一棵分类树;
步骤九、基于步骤八完成的第一棵分类树,我们得到后续优化目标对优化目标通过梯度提升方式求取,从而获得模型最优参数;
步骤十、对于步骤九获取的模型最优参数进行固化,通过固化的模型最优参数对训练集和测试集进行回溯比较,并以此对步骤一至步骤六采集获取的样本进行预测;
步骤十一、通过XGBoost的人员危险性评估方法的输出包含了目标人员危险行为的概率以及对管理人员的措施建议;
步骤十二、模型输出措施建议包含了不同级别的目标人员限制建议以及监控建议。
2.根据权利要求1所述的一种基于XGBoost的人员危险性评估方法,其特征在于,所述目标人员日常行为数据具体内容包括:目标人员吃饭情况、劳动情况、和朋友相处情况、个人情绪。
CN202110944243.0A 2021-08-17 2021-08-17 一种基于XGBoost的人员危险性评估方法 Active CN113869355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110944243.0A CN113869355B (zh) 2021-08-17 2021-08-17 一种基于XGBoost的人员危险性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110944243.0A CN113869355B (zh) 2021-08-17 2021-08-17 一种基于XGBoost的人员危险性评估方法

Publications (2)

Publication Number Publication Date
CN113869355A CN113869355A (zh) 2021-12-31
CN113869355B true CN113869355B (zh) 2024-05-24

Family

ID=78990526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110944243.0A Active CN113869355B (zh) 2021-08-17 2021-08-17 一种基于XGBoost的人员危险性评估方法

Country Status (1)

Country Link
CN (1) CN113869355B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612243B (zh) * 2023-08-18 2024-06-28 全景智联(武汉)科技有限公司 一种基于多层注意力的重点人员行为预警方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543986A (zh) * 2018-11-16 2019-03-29 湖南数定智能科技有限公司 基于用户画像的监狱罪犯三预风险评估方法及***
CN110942088A (zh) * 2019-11-04 2020-03-31 山东大学 一种基于监狱服刑人员有效影响因子的危险性等级评估方法及其实现***
CN111445106A (zh) * 2020-03-02 2020-07-24 国网辽宁省电力有限公司电力科学研究院 一种用电采集设备故障处理作业现场安全控制方法及***
KR20210043941A (ko) * 2019-10-14 2021-04-22 연세대학교 산학협력단 사망 위험도에 대한 정보 제공 방법 및 이를 이용한 디바이스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543986A (zh) * 2018-11-16 2019-03-29 湖南数定智能科技有限公司 基于用户画像的监狱罪犯三预风险评估方法及***
KR20210043941A (ko) * 2019-10-14 2021-04-22 연세대학교 산학협력단 사망 위험도에 대한 정보 제공 방법 및 이를 이용한 디바이스
CN110942088A (zh) * 2019-11-04 2020-03-31 山东大学 一种基于监狱服刑人员有效影响因子的危险性等级评估方法及其实现***
CN111445106A (zh) * 2020-03-02 2020-07-24 国网辽宁省电力有限公司电力科学研究院 一种用电采集设备故障处理作业现场安全控制方法及***

Also Published As

Publication number Publication date
CN113869355A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US6047277A (en) Self-organizing neural network for plain text categorization
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及***
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN106776672A (zh) 技术发展脉络图确定方法
US20150205862A1 (en) Method and device for recognizing and labeling peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents
CN112836809A (zh) 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及***
CN111524570B (zh) 一种基于机器学习的超声随访患者筛选方法
CN113869355B (zh) 一种基于XGBoost的人员危险性评估方法
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
CN113360643A (zh) 一种基于短文本分类的电子病历数据质量评价方法
CN109871889B (zh) 突发事件下大众心理评估方法
CN116186422A (zh) 基于社交媒体和人工智能的疾病相关舆情分析***
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及***
CN111737976B (zh) 一种旱灾风险预测方法及***
CN114443930A (zh) 一种新闻舆情智能监测分析方法、***及计算机存储介质
Jiang et al. Fine-tuning BERT-based models for plant health bulletin classification
KR20110026154A (ko) 시맨틱 메타데이터를 통한 인터넷 상의 개인 특성 및 행위 분석 기술
Yu et al. Hot event detection for social media based on keyword semantic information
CN117332777B (zh) 一种充电桩故障的统计分析方法
CN116204844B (zh) 一种基于不确定性的电气设备异常数据清洗方法
Sun et al. Text Classification in Architecture Field Based on Naive Bayes Algorithm
Wang Automatic classification of document resources based on Naive Bayesian classification algorithm
CN117056510A (zh) 一种多元社会矛盾纠纷信息自动归集方法
Stojanov et al. Web data mining of landslide information, an experimental study for Macedonia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant